python余弦相似度文本分类_【基础算法】文本相似度计算

python余弦相似度⽂本分类_【基础算法】⽂本相似度计算在⾃然语⾔处理中,⽂本相似度是⼀种⽼⽣常谈⽽⼜应⽤⼴泛的基础算法模块,可⽤于地址标准化中计算与标准地址库中最相似的地址,也可⽤于问答系统中计算与⽤户输⼊问题最相近的问题及其答案,还可⽤于搜索中计算与输⼊相近的结果,扩⼤搜索召回,等等。
基于此,现将⼏种常见的⽂本相似度计算⽅法做⼀个简单总结,以便后续查阅,本⽂所有源码均已上传到github。
1.字符串相似度
字符串相似度指的是⽐较两个⽂本相同字符个数,从⽽得出其相似度。
import difflib
difflib.SequenceMatcher(None, string1, string2).ratio()
2.simhash相似度
simhash最早是由google在⽂章《detecting near-duplicates for web crawling》中提出的⼀种⽤于⽹页去重的算法。simhash是⼀种局部敏感hash,计算速度快,对海量⽹页⽂本可实现快速处理。
传统的Hash算法只负责将原始内容尽量均匀随机地映射为⼀个签名值,原理上仅相当于伪随机数产⽣算法。传统的hash算法产⽣的两个签名,如果原始内容在⼀定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差⼀个字节,所产⽣的签名也很可能差别很⼤。所以传统的Hash是⽆法在签名的维度上来衡量原内容的相似度,⽽SimHash本⾝属于⼀种局部敏感哈希算法,它产⽣的hash签名在⼀定程度上可以表征原内容的相似度。
我们主要解决的是⽂本相似度计算,要⽐较的是两个⽂章是否相似,当然我们降维⽣成了hash签名也是⽤于这个⽬的。看到这⾥估计⼤家就明⽩了,我们使⽤的simhash就算把⽂章中的字符串变成 01 串也还是可以⽤于计算相似度的,⽽传统的hash却不⾏。
我们可以来做个测试,两个相差只有⼀个字符的⽂本串,
“你妈妈喊你回家吃饭哦,回家罗回家罗”
“你妈妈叫你回家吃饭啦,回家罗回家罗”。
通过simhash计算结果为:
1000010010101101111111100000101011010001001111100001001011001011
数字收音机1000010010101101011111100000101011010001001111100001101010001011
通过传统hash计算为:
0001000001100110100111011011110
1010010001111111110010110011101
通过上⾯的例⼦我们可以很清晰的发现simhash的局部敏感性,相似⽂本只有部分01变化,⽽hash值很明显,即使变化很⼩⼀部分,也会相差很⼤。
基本流程
分词,把需要判断⽂本分词形成这个⽂章的特征单词。最后形成去掉噪⾳词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5)。⽐如:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰⾊外星⼈ ” ==> 分词后为 “ 美国(4) 51区(5) 雇员(3) 称(1) 内部(2)有(1) 9架(3) 飞碟(5) 曾(1) 看见(3) 灰⾊(4) 外星⼈(5)”,括号⾥是代表单词在整个句⼦⾥重要程度,数字越⼤越重要。
宇山自动化
hash,通过hash算法把每个词变成hash值,⽐如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了⼀串串数字,还记得⽂章开头说过的吗,要把⽂章变为数字计算才能提⾼相似度计算性能,现在是降维过程进⾏时。
加权,通过 2步骤的hash⽣成结果,需要按照单词的权重形成加权数字串,⽐如“美国”的hash值为“100101”,通过加权计算为“4 -4 -4 4 -4 4”;“51区”的hash值为“101011”,通过加权计算为 “ 5 -5 5 -5 5 5”。
合并,把上⾯各个单词算出来的序列值累加,变成只有⼀个序列串。⽐如 “美国”的 “4 -4 -4 4 -4 4”,“51区”的 “ 5 -5 5 -5 5 5”, 把每⼀位进⾏累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这⾥作为⽰例只算了两个单词的,真实计算需要把所有单词的序列串累加。
降维,把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串,形成我们最终的simhash签名。 如果每⼀位⼤于0 记为 1,⼩于0 记为 0。最后算出结果为:“1 0 1 0 1 1”。
整个过程的流程图为:
hashcode⽣成过程
simhash的主要思想是将⾼维的特征向量(⽂本可转换为⾼维向量表⽰)映射成低维的特征向量,通过计算两个向量的汉明距离(Hamming Distance)来确定⽂本的相似度。
其中,汉明距离,表⽰在两个等长字符串中对应位置不同字符的个数。如,1011100 与 1001000 之间的汉明距离是 2。⽽字符串的编辑距离则是汉明距离的扩展。
根据以上simhash算法的流程描述,利⽤tfidf值表⽰词语的权重,实现simhash计算⽂本相似度代码如下
# -*- coding: utf-8 -*-
# @Time : 2019/6/25 15:58
# @Author : tianyunzqs
# @Description :
import codecs
import numpy as np
import jieba.posseg as pseg
def load_stopwords(path):
return set([line.strip() for line in open(path, "r", encoding="utf-8").readlines() if line.strip()])
stopwords = load_stopwords(path='')
def string_hash(source):
if not source:
return 0
x = ord(source[0]) << 7
m = 1000003
mask = 2 ** 128 - 1
烧结线
for c in source:
x = ((x * m) ^ ord(c)) & mask
x ^= len(source)
if x == -1:
盛德提银机
x = -2
x = bin(x).replace('0b', '').zfill(64)[-64:]
return str(x)
def load_idf(path):
words_idf = dict()
with codecs.open(path, 'r', encoding='utf-8') as f:
lines = f.readlines()
for line in lines:
parts = line.strip().split('\t')
if len(parts) != 2:
continue
if parts[0] not in words_idf:
words_idf[parts[0]] = float(parts[1])
return words_idf
words_idf = load_idf(path=')
def compute_tfidf(text):
words_freq = dict()
words = pseg.lcut(text)
for w in words:
if w.word in stopwords:
continue
if w.word not in words_freq:
words_freq[w.word] = 1
else:
words_freq[w.word] += 1
text_total_words = sum(list(words_freq.values()))
words_tfidf = dict()
for word, freq in words_freq.items():
if word not in words_idf:
continue
else:
tfidf = words_idf[word] * (freq / text_total_words)
words_tfidf[word] = tfidf
return words_tfidf
def get_keywords(text, topk):
words_tfidf = compute_tfidf(text)
words_tfidf_sorted = sorted(words_tfidf.items(), key=lambda x: x[1], reverse=True)
return [item[0] for item in words_tfidf_sorted[:topk]]
def hamming_distance(simhash1, simhash2):
ham = [s1 == s2 for (s1, s2) in zip(simhash1, simhash2)]
unt(False)
def text_simhash(text):
total_sum = np.array([0 for _ in range(64)])
keywords = get_keywords(text, topk=2)
for keyword in keywords:
v = int(words_idf[keyword])
hash_code = string_hash(keyword)
decode_vec = [v if hc == '1' else -v for hc in hash_code]
total_sum += np.array(decode_vec)
simhash_code = [1 if t > 0 else 0 for t in total_sum]
return simhash_code
def simhash_similarity(text1, text2):
simhash_code1 = text_simhash(text1)
simhash_code2 = text_simhash(text2)
print(simhash_code1, simhash_code2)
return hamming_distance(simhash_code1, simhash_code2)
if __name__ == '__main__':
print(simhash_similarity('在历史上有著许多数学发现', '在历史上有著许多科学发现'))⽽simhash算法已有对应python包——simhash,安装即可实现simhash相似度计算pip install simhash
利⽤simhash包,计算⽂本相似度⽰例代码
# -*- coding: utf-8 -*-
# @Time : 2019/6/25 15:58
# @Author : tianyunzqs
# @Description :
from simhash import Simhash
def simhash_similarity(text1, text2):
"""
:param text1: ⽂本1
:param text2: ⽂本2
:return: 返回两篇⽂章的相似度
"""
aa_simhash = Simhash(text1)
bb_simhash = Simhash(text2)
max_hashbit = max(len(bin(aa_simhash.value)), (len(bin(bb_simhash.value))))
# 汉明距离
distince = aa_simhash.distance(bb_simhash)
similar = 1 - distince / max_hashbit
return similar
if __name__ == '__main__':
print(simhash_similarity('在历史上有著许多数学发现', '在历史上有著许多科学发现'))
3.word2vec相似度
大功率白光ledword2vec是对词语进⾏向量化的⼀种⽆监督算法,具体介绍与tensorflow实现可参考:【基础算法】word2vec词向量
word2vec相似度是指利⽤word2vec算法将⽂本向量化,进⽽利⽤余弦距离计算两个向量的余弦相似度作为两字符串的相似度。
def sentence_similarity_word2vec(self, sentence1, sentence2):
sentence1 = sentence1.strip()
sentence2 = sentence2.strip()
if sentence1 == sentence2:
return 1.0
分度机构
vec1 = _sentence_vector(sentence1)
vec2 = _sentence_vector(sentence2)
sine_similarity(vec1, vec2)
word2vec对⽂本的向量化是将⽂本分词后,得到各词语的向量化表⽰,然后对向量的每个维度进⾏加权相加,形成⽂本向量,进⽽可利⽤余弦距离计算⽂本的相似度。
def get_sentence_vector(self, sentence):
words = _segment(sentence)
words_vec = [_word_vector(word) for word in words]
an(words_vec, axis=0)
@staticmethod
def cosine_similarity(vec1, vec2):
tmp1, tmp2 = np.dot(vec1, vec1), np.dot(vec2, vec2)
if tmp1 and tmp2:
return np.dot(vec1, vec2) / (np.sqrt(tmp1) * np.sqrt(tmp2))
return 0.0
完整代码,可参考Github

本文发布于:2024-09-21 10:42:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/98616.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:IP地址详解
标签:相似   计算   算法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议