文本分析系列——词语权重算法:TF-IDF算法

现代科学技术导论⽂本分析系列——词语权重算法:TF-IDF算法简介
TF-IDF是⼀种统计⽅法,⽤以评估⼀字词对于⼀个⽂件集或⼀个语料库中的其中⼀份⽂件的重要程度。管理学精品课程
词频(term frequency,TF)指的是某⼀个给定的词语在该⽂件中出现的频率;
反⽂档频率(inverse document frequency,IDF),即某⼀个给定词语在⽂档集合中出现的次数与⽂档总数的商;
什么是有效数字
理论
如果某个词或短语在⼀篇⽂章中出现的频率⾼,并且在⽂档集合中出现频率低,则认为此词或者短语具有很好的类别区分能⼒。
适⽤场合
⽂本分类、基于向量空间模型的⽂本分类⽅法
关联技术
中⽂分词,⽂本特征抽取,基于向量空间模型的⽂本分类⽅法
计算⽅法
氧化镍
第⼀步:计算TF,某关键词在该⽂档中出现的次数,
利⽤分词技术,统计出现的次数,计作TFn(改进⽅法采⽤频率即 Cn/单词总数),其中n代表⽂档数;
第⼆步,计算IDF,某关键词在⽂档集合中出现的普遍性度量铁橡栎
IDFn=log(T/KiF) 其中T代表⽂档总数,KiF代表包含关键词Ki的⽂档数;
第三部,计算TF-IDF
Wni=TF*IDF=Cn*log(T/Kif) 其中n代表某⽂档标号n,i代表某关键词标号i
缺陷及改进
1.在传统的TF-IDF算法中,TF只单纯计算关键词出现的次数,并未考虑⽂档本⾝的长度(⼤⽂档可能包含关键词多,但权重未必⾼)
采⽤词语频率代替次数,进⾏归⼀化处理
2.在TF-IDF算法中并没有体现出单词的位置&顺序信息,对于Web⽂档⽽⾔,权重的计算⽅法应该体现出HTML的结构特征。
甲烷制氢
对于处于⽹页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提⾼词语权重计算的精确度。

本文发布于:2024-09-23 04:30:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/483948.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:出现   次数   关键词   词语
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议