一种提高向量距离分类质量的方法

著录项
  • CN201210476178.4
  • 20121121
  • CN103838737A
  • 20140604
  • 大连灵动科技发展有限公司
  • 李聪慧;王秀坤
  • G06F17/30
  • G06F17/30

  • 辽宁省大连市高新区火炬路1号506室
  • 辽宁(21)
  • 大连东方专利代理有限责任公司
  • 曲永祚
摘要
本发明公开了一种提高向量距离分类质量的方法,包括以下步骤:基于VSM的特征加权过程,包括基于词义的特征项词频加权和基于文档结构的特征项词频加权;提取英文搜索的词干;分析用户查询日志;训练语料库修正、扩充。本发明通过构造分词词典,从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷,采用词干处理技术,简化了分类算法的处理的同时提高了分类质量和算法效率,通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求,用它对专业词典进行指导修正,最后,通过对训练语料库进行修正和扩充,保证语料库随着各种专业技术的进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。
权利要求

1.一种提高向量距离分类质量的方法,其特征在于:包括以下步骤:

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典, 用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保 持相互独立;

在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为 表示特征词条进行处理,其中词频统计上的公式为:

Tf=TMf+∑TTf i+e∑TIf i    (1)

式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频 数;∑TTf i为专业同义词词条的词频数;e∑TIf i为专业蕴含词词条的词频数;e 为扩展系数,其取值根据分类精度确定,取值区间为[0,1];该公式表示词条在 文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得 到;

A2、基于文档结构的特征项词频加权

本发明对于同一个特征词条由于在文章正文、标题,网页源码中〈TITLE〉 和〈/TITLE〉标记的文字、页面关键字,网页源码〈META NAME=“KEYWORD” CONTENT=“.....”〉中CONTENT中标记的文字、页面描述,网页源码〈META NAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字等 不同位置出现的重要程度不同我们对其词频时分别进行了加权计算;相应的加 权公式为:

TNf=TNf M+m×TNf T+n×TNf K+p×TNf D    (2)

其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTf i或TIf i;而 TNf M,TNf T,TNf K,TNf D分别为对正文,标题,页面关键字和页面描述部分进 行字典关键词统计的词频数;m、n、p则分别为相应的加权系数;

B、提取英文搜索的词干

本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、 过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以 及某些单词的名词、形容词、副词等多种形式,具有相同词干的词进行词干化 处理,具体来讲,对于这些词的词干提取本发明采用的一种方法是先建立单词 前缀、后缀表和特殊形式表,然后用匹配方式实现;另一种方法是模仿前面介 绍的同义词处理方式,将词干词放入专业主词典中,将其它时态和词性的同词 干词做为同义词来处理,其词频统计公式可参考同义词词频统计方法;

C、分析用户查询日志

本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定 阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志 为人工修正专业词典提供依据;这样就构成了一个针对专业词典的自适应闭环 系统;

D、训练语料库修正、扩充

本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语 料库中,同时将一定时间阈值外的训练语料网页进行删除;这样就又构成了一 个针对训练语料库的自适应闭环系统。

说明书
技术领域

本发明涉及一种提高自动分类质量的技术,特别是一种提高向量距离分类 质量的方法。

文档自动分类的关键问题是如何构造一个分类函数或分类模型(也称为分类 器),并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造算法 有多种,主要有概率统计算法、机器学习算法、神经网络算法等。概率统计算 法采用相对简单的机制。在处理大规模真实文档方面取得了令人满意的效果。

其中简单向量距离算法的思路十分简单,其根据算术平均,通过样本训练 为每类文档集生成一个代表该类的中心向量;然后在新文档来到时,确定新文 档向量,计算该向量与每类中心向量间的距离(相似度);最后判定文档属于与文 档距离最近的类。贝叶斯分类算法的基本思路是计算文档属于类别的概率。文 档属于类别的概率等于文档中每个词属于类别的几率的综合表达式。K-最近邻 接分类算法的基本思路是在给定新文本后,考虑在训练文本集中与该新文本距 离最近(最相似)的K篇文档,根据这K篇文档所属的类别判定新文档所属的类 别。向量距离分类是假设经过训练后的用户目标类文档向量为U,待分类文档 的向量V,两者的相似程度可用向量之间的夹角来度量,通常的方法是用两个向 量间夹角的余弦表示。两者夹角越小,其余弦值愈大,说明相似度越大,两个 文档分属相同类的可能性增加。

除此以外,支持向量机和神经网络算法再文档分类系统中应用的也较为广 泛,支持向量机是一个用于解决模式识别问题的机器学习方法,它是基于结构 风险最小化原理的,其基本思想是使用简单的线形分类器划分样本空间。对于 在当前特征空间中线形不可分的模式,则使用一个核函数把样本映射到一个高 维空间中,使得样本能够线形可分。

而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式 地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判断正确 时,权值向量保持不变,否则进行增加或降低的调整,因此也称为奖惩法。

当前这些算法虽然已经在某些领域或某些特定场合取得了良好的分类效 果,但是其分类质量以及分类技术仍有待进一步的提高。

为解决现有技术存在的上述问题,本发明将会通过对这些算法进行详细的 学习研究和总结,在向量距离分类算法的基础上对特征项,特征权值,训练语 料库,专业词典等进行了部分修正和完善,从而设计一种提高向量距离分类质 量的方法。

为了实现上述目的,本发明的技术方案如下:一种提高向量距离分类质量 的方法,包括以下步骤:

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典, 用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保 持相互独立。

在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为 表示特征词条进行处理,其中词频统计上的公式为:

Tf=TMf+∑TTfi+e∑TIfi    (1)

式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频 数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e 为扩展系数,其取值根据分类精度确定,取值区间为[0,1]。该公式表示词条在 文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得 到。

A2、基于文档结构的特征项词频加权

本发明对于同一个特征词条由于在文章正文、标题(网页源码中〈TITLE〉 和〈/TITLE〉标记的文字)、页面关键字(网页源码〈META NAME=“KEYWORD” CONTENT=“.....”〉中CONTENT中标记的文字)、页面描述(网页源码〈META NAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字) 等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算。相应的 加权公式为:

TNf=TNfM+m×TNfT+n×TNfK+p×TNfD    (2)

其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTfi或TIfi;而 TNfM,TNfT,TNfK,TNfD分别为对正文,标题,页面关键字和页面描述部分进 行字典关键词统计的词频数;m、n、p则分别为相应的加权系数。

B、提取英文搜索的词干

本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、 过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以 及某些单词的名词、形容词、副词等多种形式,如“use”,“useful”,“usefulness”, “usefully”等具有相同词干的词进行词干化处理,具体来讲,对于这些词的词 干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表,然后 用匹配方式实现。另一种方法是模仿前面介绍的同义词处理方式,将词干词放 入专业主词典中,将其它时态和词性的同词干词做为同义词来处理,其词频统 计公式可参考同义词词频统计方法。

C、分析用户查询日志

本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定 阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志 为人工修正专业词典提供依据。这样就构成了一个针对专业词典的自适应闭环 系统。

D、训练语料库修正、扩充

本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语 料库中,同时将一定时间阈值外的训练语料网页进行删除。这样就又构成了一 个针对训练语料库的自适应闭环系统。

与现有技术相比,本发明具有以下有益效果:

1、本发明通过构造分词词典,从而弥补了特征词条相互独立要求与自然语 言多样性之间的矛盾构成的VSM的主要缺陷。

2、本发明采用词干处理技术,简化了分类算法的处理的同时提高了分类质 量和算法效率。

3、本发明通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求, 用它对专业词典进行指导修正。

4、本发明对训练语料库进行修正和扩充,保证语料库随着各种专业技术的 进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。

本发明共有附图3张,其中:

图1是本发明中的专业词典结构图;

图2是本发明中基于专业词典的自适应系统图。

图3是本发明中基于训练语料库的自适应系统图。

下面结合附图对本发明进行进一步地描述。如图1所示是基于VSM的特征 加权过程中构建的专业词典示意图。如图2所示是基于专业词典的自适应系统 示意图。如果3所示是基于训练语料库的自适应系统示意图。其实验过程如下 所示:

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典, 用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保 持相互独立。

在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为 表示特征词条进行处理,其中词频统计上的公式为:

Tf=TMf+∑TTfi+e∑TIfi    (1)

式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频 数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e 为扩展系数,其取值根据分类精度确定,取值区间为[0,1]。该公式表示词条在 文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得 到。

A2、基于文档结构的特征项词频加权

本发明对于同一个特征词条由于在文章正文、标题(网页源码中〈TITLE〉 和〈/TITLE〉标记的文字)、页面关键字(网页源码〈META NAME=“KEYWORD” CONTENT=“.....”〉中CONTENT中标记的文字)、页面描述(网页源码〈META NAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字) 等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算。相应的 加权公式为:

TNf=TNfM+m×TNfT+n×TNfK+p×TNfD    (2)

其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTfi或TIfi;而 TNfM,TNfT,TNfK,TNfD分别为对正文,标题,页面关键字和页面描述部分进 行字典关键词统计的词频数;m、n、p则分别为相应的加权系数。

B、提取英文搜索的词干

本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、 过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以 及某些单词的名词、形容词、副词等多种形式,如“use”,“useful”,“usefulness”, “useflly”等具有相同词干的词进行词干化处理,具体来讲,对于这些词的词 干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表,然后 用匹配方式实现。另一种方法是模仿前面介绍的同义词处理方式,将词干词放 入专业主词典中,将其它时态和词性的同词干词做为同义词来处理,其词频统 计公式可参考同义词词频统计方法。

C、分析用户查询日志

本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定 阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志 为人工修正专业词典提供依据。这样就构成了一个针对专业词典的自适应闭环 系统。

D、训练语料库修正、扩充

本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语 料库中,同时将一定时间阈值外的训练语料网页进行删除。这样就又构成了一 个针对训练语料库的自适应闭环系统。

本文发布于:2024-09-23 12:34:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/72772.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议