向量空间模型(vectorspacemodel)

向量空间模型(vectorspacemodel)
向量空间模型(vector space model)
向量空间模型概念简单,把对⽂本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当⽂档被表⽰为⽂档空间的向量,就可以通过计算向量之间的相似性来度量⽂档间的相似性。⽂本处理中最常⽤的相似性度量⽅式是余弦距离。
VSM基本概念:
(1) ⽂档(Document):泛指⼀般的⽂本或者⽂本中的⽚断(段落、句或句⼦),⼀般指⼀篇⽂章,尽管⽂档可以是多媒体对象,但是以下讨论中我们只认为是⽂本对象,本⽂对⽂本与⽂档不加以区别"。
(2) 项(Term):⽂本的内容特征常常⽤它所含有的基本语⾔单位(字、词、词组或短语等)来表⽰,这些基本的语⾔单位被统称为⽂本的项,即⽂本可以⽤项集(Term List)表⽰为D(T1,T2,,,,Tn)其中是项,1≤k≤n"
(3) 项的权重(TermWeight):对于含有n个项的⽂本D(,………,,项常常被赋予⼀定的权重表⽰他们在⽂本D中的重要程度,即D=(,,,,······,)。这时我们说项的权重为(1≤k≤n)。
(4) 向量空间模型(VSM):给定⼀⽂本D=D(,………,)由于在⽂本中既可以重复出现⼜应该有先后次
序的关系,分析起来有⼀定困难。为了简化分析,暂时不考虑的顺序,并要求互异,这时可以把,………,看作是⼀个n维的坐标,⽽就是n维坐标所对应的值,所以⽂档D()就可以被看作⼀个n维的向量了。
(5) 相似度(Similarity)两个⽂本D,和DZ之间的(内容)相关程度(Degree of Relevance)常常⽤他们之间的相似度Sim(,)来度量,当⽂本被表⽰为向量空间模型时,我们可以借助与向量之间的某种距离来表⽰⽂本间的相似度"常⽤向量之间的内积进⾏计算:
Sim(,)=*
或者⽤夹⾓的余弦值表⽰:
Sim(,)=
可以看出,对向量空间模型来说,有两个基本问题:即特征项的选择和项的权重计算。
特征项选择
⽤来表⽰⽂档内容的项可以是各种类别,对汉语来说,有字、词、短语,甚⾄是句⼦或句等更⾼层次的单位。项也可以是相应词或短语的语义概念类。
项的选择必须由处理速度、精度、存储空间等⽅⾯的具体要求来决定。特征项选取有⼏个原则:⼀是应当选取包含语义信息较多,对⽂本的表⽰能⼒较强的语⾔单位作为特征项;⼆是⽂本在这些特征项上的分布应当有较为明显的统计规律性,这样将适⽤于信息检索、⽂档分类等应⽤系统;三是特征选取过程应该容易实现,其时间和空间复杂度都不太⼤。实际应⽤中常常采⽤字、词或短语作为特征项。
由于词汇是⽂本最基本的表⽰项,在⽂本中的出现频度较⾼,呈现⼀定的统计规律,在考虑到处理⼤规模真实⽂本所⾯临的困难,⼀般选择词汇或短语作为特征项,但是直接选⽤⽂本中的词或词组作为⽂本特征项也会存在以下问题:
(1) ⽂本中存在⼀些没有实在意义但使⽤频率很⾼的虚词和功能词,如中⽂中“的”、“把”、“了”等,常常把⼀些真正有分类作⽤的实词淹没掉了。解决这个问题的⽅法是把这些词组织成⼀个禁⽤词表,或者进⾏权重计算时,使它们的权重很低,通过取阀值将它们丢弃。采⽤禁⽤词表时,词表的选择很关键,很难全⾯地包括所有的禁⽤词,并且语⾔是不断发展的,禁⽤词表也是随着训练⽂本集合的不同⽽不同,某个词在这⾥不是禁⽤词,到另外⼀类⽂本中可能就成了禁⽤词。另⼀⽅⾯考虑到,最能代表⼀篇⽂章实际意义的词,往往是那些实词,如形容词、动词、名词,⽽且同⼀个词,当处于不同词性时,可能分别属于和不属于禁⽤词表。例如:“他⾼兴地⾛了”(副词“地”应是禁⽤词),“地很不平”(名
鞍山信托
词“地”不应作为禁⽤词)"针对这个现象,提出了只提取形容词、动词和名词作为特征项,并尝试着取代禁⽤词表⽅法.
(2) 采⽤词语作为特征项时还会出现所谓的同义现象,同义现象是指:对于同⼀个事物不同的⼈会根据个⼈的需要、所处的环境、知识⽔平以及语⾔习惯有着不同的表达⽅式,因此所采⽤的词汇也有很⼤的不同。所以经常出现两个⽂本所⽤的词汇有所不同,但实际上两者是相似的,这就是词的同义现象造成的。例如电脑和计算机是同⼀个概念,应该属于同⼀个特征项,⽬前最常⽤的解决⽅案是采⽤概念词典来解决这个问题。
梅山降糖神茶
确定了特征项单位以后,接下来要做的就是把⽂本分割成特征项的表⽰。我们知道,词是最⼩的能够独⽴活动的有意义的语⾔成分。然⽽,汉语是以字为基本的书写单位,⽂本中词与词之间没有明确的分隔标记,⽽是连续的汉字串,显⽽易见,⾃动识别词边界,将汉字串分为正确的词串的汉语分词问题⽆疑是实现中⽂信息处理各项任务的基础与关键。中⽂词语分析⼀般包括3个过程:预处理过程的词语粗切分、切分排歧与未登陆词识别、词性标注。⽬前中⽂词语分析采取的主要步骤是:先采取最⼤匹配、最短路径、概率统计、全切分等⽅法,得到⼀个相对最好的粗分结果,然后进⾏排歧、未登陆词识别,最后标注词性。在实际系统中,这三个过程可能相互交叉、反复融合,也可能不存在明显的先
后次序。可以将现在的分词算法分为3⼤类:基于字符串匹配的分词⽅法、基于理解的分词⽅法和基于统计的分词⽅法。
(1)基于字符串匹配的分词⽅法
这种⽅法⼜叫机械分词法,它按照⼀定的策略将待分析的汉字串与机器字典中的词条进⾏匹配,若在字典中可以到某个字符串,则匹配成功(识别出⼀个词)。按照扫描⽅向的不同可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,⼜可以分为最⼤(最长)匹配和最⼩(最短)匹配;按照是否与词性标注过程相结合,⼜可分为单纯分词法和分词与标注相结合的⼀体化⽅法。具体的⽅法主要有以下⼏种:
(a)最⼤匹配法(maximum matching method, MM)
在计算机中存放⼀个已知的词表,这个词表叫底表,从被切分的语料中,按给定的顺序截取⼀个定长的字符串,通常为6-8个汉字,这个字符串的长度叫做最⼤词长,把这个具有最⼤词长的字符串与底表中的词相匹配,如匹配成功,则可确定这个字符串为词,然后指针向给定的⽅向移动与已经识别出的词长相应个数的汉字,继续进⾏匹配,否则,则把该字符串逐次减⼀,再与底表中的词长进⾏匹配,直到成功为⽌。MM的原理简单,易于在计算机上实现,实现复杂度⽐较低。缺点是最⼤词长难以确定,如果定得过长,则算法复杂度显著提⾼,如果定得太短,则不能切分长度⼤于它的词,导致切分
正确率降低。
(b)逆向最⼤匹配法(reverse maximum matching method, RMM)
这种⽅法的原理与MM相同,不同的是切词的扫描⽅向,如果MM的⽅向是从左到右取字符串进⾏匹配,则RMM的切词⽅向就是从右到左取字符串进⾏匹配。试验证明RMM的切词正确率较MM更⾼⼀些。但是,RMM要求配置逆序的切词字典,这种词典与⼈们的语⾔习惯不同。
(c)逐词遍历匹配法
这种⽅法把辞典中的词按由长到短的顺序,逐个与待切词的语料进⾏匹配,直到把语料中所有的词都切分出来为⽌。由于这种⽅法要把辞典中的每个词都匹配⼀遍,需要花费很多时间,算法的时间复杂度相应增加,效率不⾼。
(d)双向扫描法
这种⽅法是分别⽤MM和RMM进⾏正向和逆向扫描完成初步的切分,并将⽤MM初步切分的结果与⽤RMM初步切分结果进⾏⽐较,如果两种结果⼀致,则判定正确,否则定为疑点,此时或者结合上下⽂信息,或进⾏⼈⼯⼲预,选取⼀种切分为正确结果,由于要进⾏双向扫描,时间复杂度增加,⽽且为了使切分词典能同时⽀持正向与逆向两种顺序的匹配和搜索,词典的结构⽐⼀般的切词词典复杂。
(e)最佳匹配法(optimum matching method,0M)
这是在切词词典中按词出现频率的⼤⼩排列词条,⾼频词在前,低频词在后,从⽽缩短了查询切词词典的时间,加快切词的速度,使切词达到最佳的效率。这种切词⽅法对于分词算法没有什么改进,只是改变了分词词典的排列顺序,它虽然降低了切词的时间复杂度,却没有提⾼分词的正确率。
(f)设⽴切分标记法
在书⾯语中,存在的切分标记有两种:⼀种是⾃然的切分标志,如标点符号,词不能跨越标点符号⽽存在,标点符号则是词的边界之所在;另⼀种是⾮⾃然的切分标志,如只能在词⾸出现的词⾸字,只能在词尾出现的词尾字,没有构词能⼒的单⾳节单纯词、多⾳节单纯词、拟声词等,词显然也不能跨越这些标志⽽存在,它们也必然是词的边界。如果收集了⼤量的这种切分标志,切词时,先到切分标志,就可以把句⼦切分成⼀些较短的字段,然后再⽤MM或RMM进⾏进⼀步切分。使⽤这种⽅法切词,要额外消耗时间,并扫描切分标志,还要花费存储空间来存储⾮⾃然的切分标志,使切词算法的时间复杂度和空间复杂度都⼤⼤增加了,⽽切词的正确率却提⾼的有限,所以采⽤这种⽅法的⾃动切词系统不多。
(g)有穷多级列举法
这种⽅法把现代汉语中的全部词分为两⼤类:⼀类是开放词,如名词、动词、形容词等,它们的成员⼏乎是⽆穷的,另⼀类是闭锁词,如连词、助词、叹词等,它们的成员是可以⼀⼀枚举的。切词时,先切出词的特殊标志的字符串,如阿拉伯数字、拉丁字母等,再切出可枚举的闭锁词,最后在逐级切出开放词。这是完全⽴⾜于语⾔学的切词⽅法,在计算机上实现起来还是很有困难。
由于汉语很少单字成词的特点,正向最⼩匹配和逆向最⼩匹配⼀般很少使⽤。⼀般说来,逆向匹配的切分精度略⾼于正向匹配,遇到的歧义现象也很少。统计结果表明,单纯使⽤正向最⼤匹配的错误率为1/169,单纯使⽤逆向最⼤匹配的错误率为1/245(这可能是因为汉语的中⼼语靠后的特点)。但这种精度还远远不能满⾜实际的需要。由于分词是⼀个智能决策过程,机械分词⽅法⽆法解决分词阶段的两⼤基本问题:歧义切分问题和未登陆词识别问题。实际使⽤的分词系统,都是把机械分词作为⼀种切分⼿段,还需通过利⽤各种其他的语⾔信息来进⼀步提⾼切分的正确率。
对于机械分词⽅法,可以建⽴⼀个通⽤模型,形式化地表⽰为ASM(d,a,m)即Automatic Segmentation Model"其中:
d:匹配⽅向,+1表⽰正向,⼀1表⽰逆向。
a:每次匹配失败后增加/减少字符串长度(字符数),+1为增字,⼀1为减字。
m:最⼤/最⼩匹配标志,+1为最⼤匹配,⼀1为最⼩匹配。
例如,ASM(+,-,+)就是正向减字最⼤匹配法(即MM),ASM(-,-,
+)就是逆向减字最⼤匹配法(即RMM),等等。对于现代汉语来说,只有m=+1是实⽤的⽅法。
(2)基于理解的分词⽅法
通常的分词系统,都⼒图在分词阶段消除所有歧义切分现象,有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语⾔理解过程的⼀个⼩部分。其基本思想就是在分词的同时进⾏句法、语义分析,利⽤句法信息和语义信息来处理歧义现象。它通常包括3个部分:分词⼦系统、句法语义⼦系统、总控部分。在总控部分的协调下,分词⼦系统可以获得有关词、句⼦等的句法和语义信息来对分词歧义进⾏判断,即它模拟了⼈对句⼦的理解过程。这种分词⽅法需要使⽤⼤量的语⾔知识和信息。由于汉语语⾔知识的笼统、复杂性,难以将各种语⾔信息组织成机器可直接读取的形式,因此,⽬前基于理解的分词系统还处于试验阶段,联想回溯法就是其中的⼀种。
联想-回溯法(association-backtracking method ,AB):要求建⽴知识库-特征词词库、实词词库和规则库。⾸先将待切分的汉字字符串序列分割为若⼲⼦串,⼦串可以是词,也可以是由⼏个词组合成的词,然后就利⽤实词词库和规则库将词细分为词。切词时,要利⽤⼀定的语法知识,建⽴联想机制和回溯机制。联想机制由联想⽹络和联想推理构成,联想⽹络描述每个虚词的构词能⼒,联想推理利⽤相应的联想⽹络来判定所描述的虚词究竟是单独的词还是作为其他词中的构成成分。回溯机制主要
⽤于处理歧义句⼦的切分。联想回溯算法虽然增加了算法的时间复杂度和空间复杂度,但是这种⽅法的切词正确率得到了提⾼,是⼀种⾏之有效的⽅法。
(3)基于统计的分词⽅法党员二楞妈
从形式上看,词是稳定的字的组合,因此在上下⽂中,相邻的词同时出现的次数越多,就越有可能构成⼀个词"因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进⾏统计,计算它们的互现信息。定义两个字的互现信息为:
M(X,Y)=log(P(X,Y)/P(X)*P(Y))
其中P(X,Y)是汉字X,Y的相邻共现频率,P(X)、P(Y)分别是X、Y在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度⾼于某⼀个阐值时,便可认为此字组可能构成⼀个词。这种⽅法只需要对语料中字组频度进⾏统计,不需要切分词典,因⽽⼜称为⽆词典分词法或统计取词⽅法。但这种⽅法也有⼀定的局限性,会经常抽出⼀些共现频度⾼,但并不是词的常⽤字组,例如“这⼀”、“之⼀”、“有的”、“我的”、“许多的”等,并且对常⽤词的识别精度差,时空开销⼤。实际应⽤的统计分词系统都要使⽤⼀部基本分词词典(常⽤词词典)进⾏串匹配分词,同时使⽤统计⽅法识别⼀些新词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率⾼的特点,⼜利⽤了⽆词典分词结合上下⽂识别⽣词、⾃动消除歧义的优点。常⽤的有基于词频统计的切词法和基于期望的切词法。
(a)基于词频统计的切词法
这种⽅法利⽤词频统计的结果帮助在切词过程中处理歧义切分字段.这种⽅法的缺点是:由于只考虑词频,出现频率较低的词总是被错误地切分.
(b) 基于期望的切词法
这种⽅法认为⼀个词的出现,它后⾯紧随的词就有⼀种期望,据这种期望,在词典中到所有的词从⽽完成切分.这种⽅法增加了切词的空间复杂度,但在⼀定程度上提⾼了切词的正确率。日本水
中⽂⽂本⾃动分词技术⼀般以词典作为分词依据,使⽤专门的分词算法将⽂本中出现于词典中的词识别出来。通过这种⽅法获得的⽂本特征只能是词典中出现的词汇,但是⾃然语⾔领域相关性和随时间变化的特性,词典中不可能包含⽂本中所有词汇,因此,对不同类型⽂本进⾏分类时,就需要不断修整和扩充词典并改进分词技术,才能获得良好的分类性能。
针对基于词典分词的分类系统存在的弊端,⼈们提出了⼀种基于n-gram信息的⽂本特征提取技术,使⽂本⾃动分类系统摆脱了对复杂分词处理程序对庞⼤词库的依赖,实现了中⽂⽂本⾃动分类的领域⽆关性和时间⽆关性。N-gram信息的概念是信息论创始⼈C.E.Shannon在研究信源编码时提出来的,常被⽤来表⽰信源输出的连续n个字符所组成的字符串。Shannon曾⽤它来研究英⽂⽂本中字符或字符串
的统计特性,即信息嫡,随后,n⼀gram信息被⼴泛应⽤于⽂本压缩、字符识别与纠错等领域,是⼀种直接⾯向代码的技术。采⽤n-gram信息作为⽂本特征具有以下特点:第⼀:⽆需任何词典⽀持;第⼆:对输⼊⽂本所需的先验知识少;第三:⽆需进⾏分词处理;但是n-gram信息获取技术的领域⽆关性和时间⽆关性的实现是有代价的.⾸先,n-gram信息的提取对系统资源的要求⽐较⾼,因为进⾏任何n-gram信息提取时,都会产⽣⼤量的数据冗余,占⽤很⼤的内存空间。相⽐较于词典的分词技术,其实现效率低,获取n⼀gram信息将花费较长的时间。
特征值抽取
⼀篇⽂章在经过了分词处理之后,会产⽣很多词条。如果⼀个⽂档所有词条都被作为其特征,将会使特征项异常庞⼤,⽽且这样的特征项会使得每个特征项所含信息⾮常平滑,有⽤信息反⽽不会突出。因此我们需要进⾏特征项选取,把词条中最能代表某类⽂本信息的词条挑选出来,作为⽂本的特征项。实验结果表明简化特征项不但不会使分类结果准确率降低,⽽且还会使结果更加准确。特征项选择⼀般使⽤统计⽅法,利⽤各种计算公式,计算词代表的信息含量,确定⼀个阀值,将低于阀值的词语过滤掉。或者确定⼀个特征项数⽬n,保留处于信息含量在前n位的词条。
特征抽取算法是⽂本⾃动分类中的⼀项关键技术和瓶颈技术,如何从原始⽂本特征集合中选择最能表⽰⽂本主题内容的特征⼦集,是⽂本特征抽取算法的研究⽬标。⽬前,有多种特征抽取算法被⽤于⽂
本⾃动分类的研究中,但这些算法都有其优点和缺点,没有公认的最优⽅法,需要针对具体系统进⾏对⽐来确定最优⽅法。
特征选择可以从两个⽅⾯提⾼系统性能⼀是分类速度,通过特征选择,可以⼤⼤减少特征集合中的特征数,降低⽂本向量的维数,简化计算,防⽌过度拟合,提⾼系统运⾏速度。⼆是准确率,通过适当的特征选择,不但不会降低系统准确性,反⽽会使系统精度提⾼。
在⽂本处理中,⼀些常⽤特征提取评估函数有⽂档频数(document frequency)、信息增益(information gain)、期望交叉熵(expected cross entropy)、互信息(mutual information)、统计(CHI)、⽂本证据权(the weight of evidence for text)等。
(1) ⽂档频数DF镀铬板
它是最简单的评估函数,值为训练集合中该单词发⽣的⽂本数。DF评估函数的理论假设稀有单词可能不包含有⽤信息,也可能太少⽽不⾜以对分类产⽣影响,也可能是噪⾳,因此可以删去。显然它在计算量上⽐其他评估函数⼩很多,但是实践运⽤中它的效果却很好.DF的缺点是稀有单词可能在某⼀类⽂本中并不稀有,也可能包含着重要的判断信息,错误的舍弃,可能影响分类器的精度。因此,在实际运⽤中⼀般并不直接使⽤DF。
(2) 信息增益(information Gain)
信息增益表⽰⽂档中包含某⼀特征值时⽂档类的平均信息量。它定义为某⼀特征在⽂档中出现前后的信息熵之差。假定c为⽂档类变量,C为⽂档类的集合,d为⽂档,f为特征(以下各节同此)。对于特征f,其信息增量记为IG(f),计算公式如下:
IG(f)=H(C)-H(C|f)
=
特征项赋权
为了兼顾查全率和查准率,检索系统在对特征项进⾏赋权时,应同时包含提⾼查全率和查准率的赋权因⼦。特征项赋权因⼦由频率因⼦(TF)、⽂档集因⼦(DF)和规格化因⼦三部分组成。
(1)在⽂档中频繁出现的特征项具有较⾼的权重,因此检索系统常使⽤频率因⼦TF(Term Frequency)进⾏特征项赋权,使⽤⾼频特征项进⾏查询可以提⾼系统的查全率。
(2)仅使⽤频率因⼦并不能保证系统的查询性能,提⾼查全率时会影响检索系统的查准率。因此需要引⼊⼀个与⽂档集合有关的因⼦,加⼤⽂档之间的区分度。如果特征项在集合中较少的⽂档中出现,则相应的⽂档集因⼦IDF(Inverse Document Frequency)较⼤。在⽂档总数为N的集合中,如果包含某特征项的⽂档数为n,则⽂档集因⼦是idf=。
(3)当⽂档较长时,查询式与⽂档进⾏匹配的可能性更⼤,所以长⽂档⽐短⽂档更有可能被提取出来,因此引⼊规格化因⼦来消除⽂档长度对匹配结果的影响。假定代表特征项的权重,最后的规格化因⼦定义为:
OR
向量空间模型
TF-IDF 权重
特征项的权重计算是⽂本相似度计算中的⼀个⾮常重要的环节。⼀篇⽂本中的特征项数⽬众多,要想得到⽐较准确的对⽂本内容的数学化表⽰,我们需要对能显著体现⽂本内容特征的特征项赋予⾼权重,⽽对不能可以体现⽂本内容特征的特征项赋予低权重。从效率⽅⾯来说,特征项权重的计算是⽂本相似度计算中的主要⼯作,它的效率也直接影响⽂本相似度计算的整体效率。
经典的 TF-IDF 权重是向量空间模型中应⽤最多的⼀种权重计算⽅法,它以词语作为⽂本的特征项,每个特征项的权重由 TF 权值和 IDF 权值两个部分构成。对于⽂本 中的第 k 个特征项,其对应权重计算⽅法为:
=*
其中
(1) TF (Term Frequency)权值:特征项在⽂本中出现的次数,即如果在⽂本中出现次,那么
(2) 在实际应⽤中,通常需要对 TF 值进⾏标准化处理,以避免⽂本太长所导致的的统计偏差:
=
(3)IDF(Inverse Document Frequency)权值:特征项在全局⽂本集 D 中的出现频率,即:
log
假设全局⽂本集共有M 篇⽂本,特征项共在篇⽂章中出现过,那么
=log(M/())
其中为经验常数,⼀般取 0.01。球面投影
TF 权值反映了特征项在给定的⽂本中的概念重要程度(freq importance),体现了信息论中频度的思想。某特征项在⽂本中的出现次数越多,表⽰它对于该⽂本的重要程度越⾼。IDF 权值则反映了特征项的信息度(informativeness),⽤于体现⼀个特征项的“⽂义甄别能⼒”。如果⼀个特征项只出现在⼀个
或少数⽂本中,那么它很可能是能体现⽂本内容特征的语义中⼼词,会被赋予⼤的 IDF 值以提⾼权重。⽽如果⼀个特征项在很多的⽂本中出现过,表⽰它代表⽂本的“个性特征”的能⼒很低,IDF 值也就相应地⼩。
TF-IDF 权重综合考虑了不同的词在⽂本中的出现频率(TF 值)和这个词对不同⽂本的分辨能⼒(IDF 值),在所有⽂本中出现次数很少的特征项被赋予⾼权重,因为它们被认为是⽂本内容特征的辨别器。例如,在汉语中“是”的出现频率⾮常⾼,但由于它在很多⽂本中都出现,会被赋予⼀个很低的 IDF 值,以此体现它对于我们分辨⽂本的特征并没有太⼤的帮助。⽽像“偏微分”这种专业词汇由于只会在相关专业⽂本中才会出现,会被赋予⾼ IDF 值以体现它的⽂本特征鉴别能⼒。
TF-IDF 是基于统计的权重计算⽅式,在全局⽂本集包含的语料特征⾜够的情况下,这种基于统计学的⽅法经过实践检验是⼀种有效的特征项权重衡量⽅法。其局限性在于它的准确度受全局⽂本集的影响较⼤:全局⽂本集越⼤,语料越完备,所得的权重也就越准确,但相应地计算效率也会随着全局⽂本集的增⼤⽽降低。

本文发布于:2024-09-25 06:29:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/36457.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   分词   信息   匹配   词典   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议