正定方言normalized pointwise mutual information
Normalized pointwise mutual information(NPMI)是自然语言处理(NLP)分析中经常使用的技术。它用于测量一个词和某个语料(即一组文档)中的另一个词的相关性。NPMI不仅可以用于语料库,还用于计算语料库在不同时间或主题下的词汇相关性。 躲羊羊 1. 什么是归一化点间互信息?
归一化点间互信息(NPMI)衡量的是两个词语之间的相关性,表述方式是在特定语料库中,词汇共现的程度。NPMI可以用于检测两个单词如何关联,该值在[-1,1]之间。当值为0时表示两个词彼此独立,当值为1时表示词与词高度相关;当值为-1时,表示两个词完全没有相关性。
2. 如何计算归一化点间互信息?
NPMI = log(P(x,y) / (P(x) * P(y))) / -log(P(x,y))
其中P(x)和P(y)分别是词x和词y在全部文档中出现的频率,P(x,y)是指词x和词y在所有文档
中同时出现的频率。公式的分子是独立观测到两个词的概率,分母是观测到同时出现两个词的概率。
地下城守护者2攻略 3. 归一化点间互信息的应用
moea
归一化点间互信息(NPMI)已经被广泛应用于构建词向量(word embedding)和语义分析。例如,将每个单词与其他单词计算NPMI值,并将结果输入到深度学习算法中,以构建基于语义的向量空间模型。这样可以很好的在词向量的语义关系中保持词汇的相对性。秋光的涨幅>黄骅港引航站 NPMI在分析主题模型时也可以起到很好的作用,该方法有助于到与特定主题相关的词汇和短语,同时还可以标识更广泛的语义关联。
在信息检索领域中,通常不建议使用NPMI来测量相关性,因为它强调的是共现而非语义相似性,但在某些情况下,使用NPMI类似于使用TF-IDF技术,可以有效地提高文档检索的质量。
总之,归一化点间互信息(NPMI)是一种有用的方法,旨在衡量两个词之间的相关性,并且在自然语言处理和基于文本的分析中,NPMI已经被证明是一个有力的工具。