文本分析系列——词语权重算法：TF-IDF算法

现代科学技术导论⽂本分析系列——词语权重算法：TF-IDF算法简介

TF-IDF是⼀种统计⽅法，⽤以评估⼀字词对于⼀个⽂件集或⼀个语料库中的其中⼀份⽂件的重要程度。管理学精品课程

词频（term frequency，TF）指的是某⼀个给定的词语在该⽂件中出现的频率；

反⽂档频率（inverse document frequency，IDF），即某⼀个给定词语在⽂档集合中出现的次数与⽂档总数的商；

什么是有效数字

理论

如果某个词或短语在⼀篇⽂章中出现的频率⾼，并且在⽂档集合中出现频率低，则认为此词或者短语具有很好的类别区分能⼒。

适⽤场合

⽂本分类、基于向量空间模型的⽂本分类⽅法

关联技术

中⽂分词，⽂本特征抽取，基于向量空间模型的⽂本分类⽅法

计算⽅法

氧化镍

第⼀步：计算TF，某关键词在该⽂档中出现的次数，

利⽤分词技术，统计出现的次数，计作TFn（改进⽅法采⽤频率即 Cn/单词总数），其中n代表⽂档数；

第⼆步，计算IDF，某关键词在⽂档集合中出现的普遍性度量铁橡栎

IDFn=log（T/KiF）其中T代表⽂档总数，KiF代表包含关键词Ki的⽂档数；

第三部，计算TF-IDF

Wni=TF*IDF=Cn*log(T/Kif) 其中n代表某⽂档标号n，i代表某关键词标号i

缺陷及改进

1.在传统的TF-IDF算法中，TF只单纯计算关键词出现的次数，并未考虑⽂档本⾝的长度（⼤⽂档可能包含关键词多，但权重未必⾼）

采⽤词语频率代替次数，进⾏归⼀化处理

2.在TF-IDF算法中并没有体现出单词的位置&顺序信息，对于Web⽂档⽽⾔，权重的计算⽅法应该体现出HTML的结构特征。

甲烷制氢

对于处于⽹页不同位置的特征词分别赋予不同的系数，然后乘以特征词的词频，以提⾼词语权重计算的精确度。

本文发布于:2024-09-23 04:30:30，感谢您对本站的认可！

标签：出现次数关键词词语

留言与评论（共有 0 条评论）