一种文本处理用聚类方法系统

著录项
  • CN202210572462.5
  • 20220525
  • CN114757302A
  • 20220715
  • 河北经贸大学
  • 和志强;王梦雪;马宁
  • G06K9/62
  • G06K9/62 G06F40/44 G06F40/30 G06F40/289 G06F40/242

  • 河北省石家庄市学府路47号
  • 河北(13)
  • 六安市新图匠心专利代理事务所(普通合伙)
  • 曾庆龄
摘要
本发明公开了一种文本处理用聚类方法系统,包括以下步骤,专利数据集构建、基础Word2Vec模型训练、搜索训练语料中低频词、生成低频词的扩展词、扩展词筛选、利用筛选后的扩展词替换低频词生成扩增数据、对基础Word2Vec模型增量训练、生成词向量表示、结合粗分类标签生成专利说明书摘要的向量化表示、融合多次聚类结果与相似度阈值灵活生成专利聚类结果和聚类结果评价。本发明能够有效提取文本的语义特征,优化低频词的词表示,解决一词多义问题,从而提高聚类的准确性,利用数据共现频率代替设定聚类个数来灵活化得到聚类结果的方法,在未知聚类个数的情况下提高专利文献聚类结果的准确性。
权利要求

1.一种文本处理用聚类方法系统,其特征在于,包括以下步骤:

S1:专利数据集构建,从选定领域的专利文献数据库采集专利文献信息组成原始数据集,所述专利文献信息包括专利文献号、专利名称、专利说明书摘要、专利所属IPC大类,从所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存储为训练语料,从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据集;

S2:专利说明书摘要词向量表示阶段,使用基于数据增强的DAbased-W2V模型来生成词的向量化表示,包括如下小步骤,

a1:搜索训练语料中低频词、低频词阈值,则有:

其中Scount为原始语料中词总数,SV为词典中词总数,ceil为向上取整,利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT-target模型;

对低频词所在文档中低频词位置使用“MASK”进行替换,再使用训练得到的BERT-target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词;

a2:利用训练语料训练得到Word2Vec模型,判断扩展词是否存在于原始语料库内,如果存在则将其表示为1级扩展词,否则将其表示为未登录词;将1级扩展词输入至基础模型中分别得到每个扩展词基于原始语料的m个相关词;而对于原始语料外的未登录词,则利用义原树得到5个2级扩展词,再次判断其是否在原始语料库内,若原始语料库内存在至少1个2级扩展词,则将2级扩展词同样输入至基模型中求解m个相关词,否则将其对应的1级扩展词丢弃;在Word2Vec模型的基础上构建所有1级扩展词、2级扩展词之间的余弦相似度矩阵M;

使用矩阵M的行均值mj作为该相关词的权值,矩阵M的均值m作为共性阈值;将扩展词对应相关词权重累加平均值作为该扩展词的共性权重Di,则有:

当共性权重大于0时则保留该词,其中1级待扩展词直接加入扩展词集,2级词将其对应1级词加入扩展词集;

a3:用筛选后保留的扩展词替换文档中对应位置的低频词,来生成扩增数据;将扩增数据输入至使用原始数据训练得到的Word2Vec模型中进行增量训练,得到各个词的词表示;

S3:词向量组合阶段,将词的整体TF-IDF值whole(tfidfi)和粗分类下TF-IDF值part(tfidfi)分别与该词向量相乘后再取平均作为该词的加权词向量:

将专利说明书摘要中的所有词加权平均得到其向量化表示:

其中V(di)为文档i的向量表示,n为文档中包含的词总数,V'(Wj)为词j的加权向量表示;

S4:专利聚类阶段,使用基于GMM的灵活化聚类方法,包括如下小步骤:

b1:设定一个模糊的聚簇数范围K-area,取范围内的K值分别对专利说明书摘要向量化表示采用GMM算法获得文本聚类结果;数据类别划分计算方法为:

其中P(zj=i|xj)表示样本xj来自第i个分模型的后验概率,简记为γji;P(xj|Zj=i)表示按第i个高斯分模型生成的概率密度,P(Xj)表示综合所有的混合成分后总的概率密度;λj表示每个样本xj的簇标记;

b2、构建文档的共现矩阵C,矩阵中元素cij:

其中fk(di,dj)表示在第k个聚类结果中第i个文档与j个文档的共现次数,nk为第k个聚类的K值,N为全部K值的集合;

按位形成m×m维共现频率矩阵,共现频率的计算方法为:

其中m为数据总数;

b3:设定相似度阈值来按需生成聚类结果,相似度判定计算为:

其中为设定的相似度;

依据共现概率是否达到相似度阈值来判定两数据节点间是否有边,在两节点间存在边时,按深度优先遍历生成聚类结果;

S5:聚类结果评价阶段,包括如下小步骤:

c1:在设定的K值范围内完成多次聚类,计算各结果方差、各结果簇内样本数量平均值与大于平均值的簇总数,取方差较低且簇内样本数量平均值与大于平均值的簇总数相对稳定时的K值;

c2:聚类结果中同一聚簇内数据间技术关键词重合度作为聚类的准确性判定标准E,

其中c(wij)为技术关键词wij在类别i下的共现次数,mij为类别i内第j个数据内技术关键词数量,N为聚类结果关键词总量;

c3:采用Jaccard系数依据专利的IPC大类标签,来计算聚类结果的准确率AC,

其中SS表示聚类内部同一IPC分类的数据量,SD为同一IPC分类下应有数据量,DS为聚类内部不同IPC分类的数据量。

说明书
技术领域

本发明涉及专利文本处理技术领域,尤其涉及一种文本处理用聚类方法系统。

专利聚类是挖掘专利内有价值信息的基础步骤,聚类是一种无监督分析方法,在未知类别与类别数量的情况下将数据的有效特征进行表示,来处理形成类内数据对象高度相似且类间差别尽可能大的聚簇。

公开号为CN109446319A公开了一种基于K-means的生物医药专利聚类分析方法,属于信息检索技术领域。改方法将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析。能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,使聚类结果更具整体性,以弥补传统专利数据分析的不足。

公开号CN104881401B公开了一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。该专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。

专利聚类分为文本向量化表示与向量聚类两部分。目前在文本表示过程的词向量编码阶段中存在低频词词表示性能差,以及多义词单一编码问题,在基于文本聚类的过程中存在文本数据类别数量难以确定的问题。

基于背景技术存在的技术问题,本发明提出了一种文本处理用聚类方法系统。

本发明提出的一种文本处理用聚类方法系统,包括以下步骤:

S1:专利数据集构建,从选定领域的专利文献数据库采集专利文献信息组成原始数据集,所述专利文献信息包括专利文献号、专利名称、专利说明书摘要、专利所属IPC大类,从所述原始数据集中提取所有专利的说明书摘要采用分词模型对其去停用词与分词处理存储为训练语料,从所述原始数据集中提取部分专利说明书摘要的关键词存储为测试数据集;

S2:专利说明书摘要词向量表示阶段,使用基于数据增强的DAbased-W2V模型来生成词的向量化表示,包括如下小步骤,

a1:搜索训练语料中低频词、低频词阈值,则有:

其中Scount为原始语料中词总数,SV为词典中词总数,ceil为向上取整,利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT-target模型;

对低频词所在文档中低频词位置使用“MASK”进行替换,再使用训练得到的BERT-target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词;

a2:利用训练语料训练得到Word2Vec模型,判断扩展词是否存在于原始语料库内,如果存在则将其表示为1级扩展词,否则将其表示为未登录词;将1级扩展词输入至基础模型中分别得到每个扩展词基于原始语料的m个相关词;而对于原始语料外的未登录词,则利用义原树得到5个2级扩展词,再次判断其是否在原始语料库内,若原始语料库内存在至少1个2级扩展词,则将2级扩展词同样输入至基模型中求解m个相关词,否则将其对应的1级扩展词丢弃;在Word2Vec模型的基础上构建所有1级扩展词、2级扩展词之间的余弦相似度矩阵M;

使用矩阵M的行均值mj作为该相关词的权值,矩阵M的均值作为共性阈值;将扩展词对应相关词权重累加平均值作为该扩展词的共性权重Di,则有:

当共性权重大于0时则保留该词,其中1级待扩展词直接加入扩展词集,2级词将其对应1级词加入扩展词集;

a3:用筛选后保留的扩展词替换文档中对应位置的低频词,来生成扩增数据;将扩增数据输入至使用原始数据训练得到的Word2Vec模型中进行增量训练,得到各个词的词表示;

S3:词向量组合阶段,将词的整体TF-IDF值whole(tfidfi)和粗分类下TF-IDF值part(tfidfi)分别与该词向量相乘后再取平均作为该词的加权词向量:

将专利说明书摘要中的所有词加权平均得到其向量化表示:

其中V(di)为文档i的向量表示,n为文档中包含的词总数,V'(Wj)为词j的加权向量表示;

S4:专利聚类阶段,使用基于GMM的灵活化聚类方法,包括如下小步骤:

b1:设定一个模糊的聚簇数范围K-area,取范围内的K值分别对专利说明书摘要向量化表示采用GMM算法获得文本聚类结果;数据类别划分计算方法为:

其中P(zj=i|xj)表示样本xj来自第i个分模型的后验概率,简记为γji;P(xj|Zj=i)表示按第i个高斯分模型生成的概率密度,P(Xj)表示综合所有的混合成分后总的概率密度;λj表示每个样本xj的簇标记;

b2、构建文档的共现矩阵C,矩阵中元素cij:

其中fk(di,dj)表示在第k个聚类结果中第i个文档与j个文档的共现次数,nk为第k个聚类的K值,N为全部K值的集合;

按位形成m×m维共现频率矩阵,共现频率的计算方法为:

其中m为数据总数;

b3:设定相似度阈值来按需生成聚类结果,相似度判定计算为:

其中为设定的相似度;

依据共现概率是否达到相似度阈值来判定两数据节点间是否有边,在两节点间存在边时,按深度优先遍历生成聚类结果;

S5:聚类结果评价阶段,包括如下小步骤:

c1:在设定的K值范围内完成多次聚类,计算各结果方差、各结果簇内样本数量平均值与大于平均值的簇总数,取方差较低且簇内样本数量平均值与大于平均值的簇总数相对稳定时的K值;

c2:聚类结果中同一聚簇内数据间技术关键词重合度作为聚类的准确性判定标准E,

其中c(wij)为技术关键词wij在类别i下的共现次数,mij为类别i内第j个数据内技术关键词数量,N为聚类结果关键词总量;

c3:采用Jaccard系数依据专利的IPC大类标签,来计算聚类结果的准确率AC,

其中SS表示聚类内部同一IPC分类的数据量,SD为同一IPC分类下应有数据量,DS为聚类内部不同IPC分类的数据量。

本发明的有益效果为:

1、本发明提出的基于数据增强的文本表示方法,能够有效提取文本的语义特征,优化低频词的词表示,解决一次多义问题,从而提高聚类的准确性;

2、本发明在专利聚类阶段,提出了基于GMM利用数据共现频率代替设定聚类个数来灵活化得到聚类结果的方法,在未知聚类个数的情况下提高专利文献聚类结果的准确性。

图1为本发明提出的一种文本处理用聚类方法系统的工作流程结构示意图;

图2为本发明提出的一种文本处理用聚类方法系统的基于数据增强的词向量表示模型结构图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

实施例1,参照图1-2:

第一步,数据集构建,选定塑料包装领域,以“塑料包装、包装薄膜、塑料膜、塑膜、塑包”等关键词检索1985年至2021年的发明专利约9万条组成原始数据集;提取专利文献中的专利文献号、专利名称、专利说明书摘要、专利所属IPC大类;提取所有专利的说明书摘要采用jieba分词模型对其去停用词与分词处理存储为训练语料;提取其中2007年至2009年5156条专利说明书摘要利用LDA与Text Rank模型生成文献关键词并核实,存储为测试数据集;

第二步,专利说明书摘要词向量表示:

a1、搜索训练语料中低频词、低频词阈值:

其中Scount为原始语料中词总数,SV为词典中词总数,ceil为向上取整;

利用训练语料在MLM任务上对BERT模型进行增量训练得到BERT-target模型;

对低频词所在文档中低频词位置使用“MASK”进行替换,再使用训练得到的BERT-target的MLM任务对“MASK”位置预测生成最相关的k个待定扩展词;

a2、利用训练语料训练得到Word2Vec模型,判断扩展词是否存在于原始语料库内,如果存在则将其表示为1级扩展词,否则将其表示为未登录词;将1级扩展词将其输入至基模型中分别得到每个扩展词基于原始语料的m个相关词;而对于原始语料外的未登录词,则利用义原树得到5个2级扩展词,再次判断其是否在原始语料库内,若原始语料库内存在至少1个2级扩展词,则将2级扩展词同样输入至基模型中求解m个相关词,否则将其对应的1级扩展词丢弃;在Wor d2Vec模型的基础上构建所有1级扩展词、2级扩展词之间的余弦相似度矩阵M;

使用矩阵M的行均值mj作为该相关词的权值,矩阵M的均值作为共性阈值;将扩展词对应相关词权重累加平均值作为该扩展词的共性权重Di:

当共性权重大于0时则保留该词,其中1级待扩展词直接加入扩展词集,2级词将其对应1级词加入扩展词集;

a3、用筛选后保留的扩展词替换文档中对应位置的低频词,来生成扩增数据;将扩增数据输入至使用原始数据训练得到的Word2Vec模型中进行增量训练,得到各个词的词表示;

第三步,词向量组合:

将词的整体TF-IDF值whole(tfidfi)和粗分类下TF-IDF值part(tfidfi)分别与该词向量相乘后再取平均作为该词的加权词向量:

将专利说明书摘要中的所有词加权平均得到其向量化表示:

其中V(di)为文档i的向量表示,n为文档中包含的词总数,V'(Wj)为词j的加权向量表示;

第四步,专利聚类:

b1,设定[2,52]为聚簇数范围K-area,取范围内的K值分别对专利说明书摘要向量化表示采用GMM算法获得文本聚类结果;数据类别划分计算方法为:

其中P(zj=i|xj)表示样本xj来自第i个分模型的后验概率,简记为γji;P(xj|Zj=i)表示按第i个高斯分模型生成的概率密度,P(Xj)表示综合所有的混合成分后总的概率密度;λj表示每个样本xj的簇标记;

b2,构建文档的共现矩阵C,矩阵中元素cij:

其中fk(di,dj)表示在第k个聚类结果中第i个文档与j个文档的共现次数,nk为第k个聚类的K值,N为全部K值的集合;

按位形成m×m维共现频率矩阵,共现频率的计算方法为:

其中m为数据总数;

b3,设定相似度阈值区间[0.8,1]来获取聚类结果,相似度判定计算为:

其中为设定的相似度;

依据共现概率是否达到相似度阈值来判定两数据节点间是否有边,在两节点间存在边时,按深度优先遍历生成聚类结果;从待分配文档集中随机取出一个文档,并以此文档为初始结点建立聚簇,判断该文档最高共现频率值是否达到相似度阈值,若达到则将其对应数据取出加入至当前文档所在聚簇,并以新取出文档为新的初始结点重复执行判断共现频率最高是否加入现有簇;若该文档最高共现频率值未达到相似度阈值,则停止遍历,重新从文档集中随机取一个文档重复以上步骤直至文档集为空;

对比取各相似度阈值时得到的聚簇总数、方差、簇内样本平均值与大于平均值簇数,取在较低方差时形成的簇总数、簇内样本平均值与大于平均值簇数处于稳定状态的相似度阈值为0.9和0.96得到最终聚类结果。

S4、聚类结果评价:

分别以0.9和0.96为相似度生成聚类结果,共形成66和85个聚簇,簇内样本平均数为78和60、容量大于样本平均的聚簇为8和9个。依次取有效K值为8和生成8个样本容量大于60的聚簇,取有效K值为9和生成9个样本容量大于60的聚簇为标准对模型进行评估。对比模型解释如下:

(1)模型1,基于原始Word2Vec模型对词向量编码取平均的文本表示方法,通过K-Means得到聚类结果。

(2)模型2,基于原始Word2Vec模型对词向量编码并取平均的文本表示方法,通过GMM得到聚类结果。

(3)模型3,基于数据增强的文本表示结合K-Means得到聚类结果。

(4)本方法模型,通过本方法提出的基于数据增强的灵活化聚类方法得到聚类结果。

聚类结果中同一聚簇内数据间技术关键词重合度作为聚类的准确性判定标准E:

其中c(wij)为技术关键词wij在类别i下的共现次数,mij为类别i内第j个数据内技术关键词数量,N为聚类结果关键词总量;

采用Jaccard系数依据专利的IPC大类标签,来计算聚类结果的准确率AC:

其中SS表示聚类内部同一IPC分类的数据量,SD为同一IPC分类下应有数据量,DS为聚类内部不同IPC分类的数据量。

通过分析表1,对比模型1、2与模型3结果,可以得出本方法提出的基于数据增强的文本表示模型DAbased-W2V较原始Word2Vec在评价指标E与AC上均分别提高了约0.2与0.6,证明本方法模型在语义表示阶段能够有效提取文本的语义特征,从而提高聚类的准确性。

对比模型3与本方法模型结果,当取K值为8和9时,固定K值的K-means算法得到的聚类结果效果较差,且在指标E与AC上均远低于本方法模型的评价得分。由表中可得在K-means聚类固定K值时,其结果大于均值的聚簇数量较本方法模型结果中大于均值的聚簇数量少,通过观察K-means聚类的分布情况,发现该现象出现的原因是大部分数据被分到同一类,数据分化程度不明显。因此通过设置其他K值来得到大于均值的聚簇数量为8和9的结果,通过对比实验结果,发现以本方法模型得到有效聚簇数量为目标聚簇数量的结果,较固定结果在指标E与AC上均取得较高评价得分,因此验证了本方法模型通过共现频率得到的有效K值的准确性。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

本文发布于:2024-09-21 22:05:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69691.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议