一种专利文本多标签分类方法

著录项
  • CN202111455951.4
  • 20211202
  • CN113849655A
  • 20211228
  • 江西师范大学
  • 李辉;马勇;钱辉;徐凡;曾锦山
  • G06F16/35
  • G06F16/35 G06F40/30 G06K9/62 G06N3/04

  • 江西省南昌市紫阳大道99号
  • 江西(36)
  • 南昌金轩知识产权代理有限公司
  • 石英
摘要
本发明公开了一种专利文本多标签分类方法,首先将IPC标签文本描述向量化来表示IPC标签向量,将训练集中的IPC标签共线关系矩阵作为标签之间的关联矩阵,再基于上述矩阵得到融合标签关联关系的IPC标签表示矩阵;最后将专利文本的不同角度的特征表示融合后得到文本特征矩阵与IPC标签矩阵相乘得到标签分数矩阵,通过激活层归一化后得到各个标签的概率。通过上述方式,本发明能够提取到专利文本的全局信息表示、局部信息表示和序列信息表示并进行信息整合来充分提取专利文本的语义信息,充分利用IPC标签描述的语义信息来挖掘IPC标签之间的关联关系,提高了专利文本多标签分类的分类效果。
权利要求

1.一种专利文本多标签分类方法,其特征在于,包括:

S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;

S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;

S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;

S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;

S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;

S6提取专利文本特征得到文本特征编码表示E;

S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;

S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;

S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;

S10待分类专利文本经过S5-S8得到多标签分类结果;

所述IPC标签描述数据集,格式为{IPC标签,标签描述};

所述训练集的格式为{IPC标签,专利文本};

所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书。

2.如权利要求1所述的一种专利文本多标签分类方法,其特征在于,所述S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集,包括:

选择用于多标签分类的IPC标签层级、专利文本小节;

根据所述IPC标签层级对输入的IPC描述数据进行数据清洗得到IPC标签描述数据集;

根据所述IPC标签层级、专利文本小节对输入的专利数据进行数据清洗、抽取得到专利文本的训练集;

所述IPC标签层级为部、大类、小类、大组、小组中的任意一个;

所述专利文本小节为标题、摘要、权利要求书、说明书中的任意一个或多个的组合。

3.如权利要求2所述的一种专利文本多标签分类方法,其特征在于,所述对输入的IPC描述数据进行数据清洗,包括:

删除IPC描述中的与其他类别区分的注释、版本信息;

根据所述IPC标签层级,将IPC标签层级之前的IPC标签对应的标签描述进行叠加形成更长的文字描述作为标签描述。

4.如权利要求3所述的一种专利文本多标签分类方法,其特征在于,所述对输入的专利数据进行数据清洗、抽取,包括:

使用中文停用词表和自定义词典去除专利文本中的停用词;

根据所述专利文本小节从标题、摘要、权利要求和说明书选择出用于多标签分类的文本内容;

将IPC标签与所述IPC标签层级进行对齐得到与所述IPC标签层级一致的IPC标签。

5.如权利要求4所述的一种专利文本多标签分类方法,其特征在于,所述S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵,包括:

使用预训练语言模型将所述IPC标签描述数据集中所有IPC标签对应的标签描述进行向量表示得到第一标签表示矩阵。

6.如权利要求5所述的一种专利文本多标签分类方法,其特征在于,所述标签关联矩阵,还可以将对角线数值化为1。

7.如权利要求6所述的一种专利文本多标签分类方法,其特征在于,所述图神经网络,为图卷积网络或图注意力网络。

8.如权利要求7所述的一种专利文本多标签分类方法,其特征在于,所述S6提取专利文本特征得到文本特征编码表示E,包括:

读取训练集中的专利文本并使用预训练语言模型进行向量表示,得到原始文本编码表示E1;

将所述E1输入到双向循环神经网络中得到序列编码表示E2;

将所述E1输入到卷积神经网络中得到局部编码表示E3;

将所述E1、E2和E3进行编码拼接得到文本特征编码表示E。

9.如权利要求8所述的一种专利文本多标签分类方法,其特征在于,所述双向循环神经网络,为BiRNN、BiLSTM或BiGRU。

10.如权利要求9所述的一种专利文本多标签分类方法,其特征在于,所述S2和S6中的预训练语言模型是相同的预训练语言模型。

11.如权利要求10所述的一种专利文本多标签分类方法,其特征在于,所述S2和S6中的预训练语言模型,可选择上下文无关的预训练语言模型或上下文相关的预训练语言模型。

12.如权利要求1~11任一所述的一种专利文本多标签分类方法,其特征在于,还包括:

使用多个不同的预训练语言模型分别进行S1-S10得到多个多标签分类结果和所述多标签分类结果中各个标签的概率;

使用集成学习策略来利用多个多标签分类结果和所述多标签分类结果中各个标签的概率得到待分类专利文本的最终多标签分类结果。

13.如权利要求12所述的一种专利文本多标签分类方法,其特征在于,所述设定阈值x,取值范围是0.5≤x<1;

其中,IPC标签层级越高,设定阈值x的取值范围越接近1;IPC标签层级越低,设定阈值x的取值范围越接近0.5。

说明书
技术领域

本发明涉及自然语言处理文本分类领域,特别是涉及一种专利文本多标签分类方法。

多标签文本分类是对数据集中的每个输入文本分配一个或多个标签的任务,是自然语言处理中一个具有挑战性任务。多标签文本分类有很多实际应用场景,例如文本分类、标签推荐、信息检索等,也可以用在专利文本分类任务上。

专利文本分类是一个多标签文本分类问题。现有技术一般使用卷积神经网络、循环神经网络来提取专利文本特征,使用独热码(one-hot)来表示每个专利文本的IPC标签,最后修改输出层的激活函数来进行多标签文本分类,在IPC标签层级较浅、IPC标签数量较少时能够使模型学东西到专利文本与IPC标签的关系,从而达到较好效果。

但是这种方法只考虑了如何更好的得到专利文本的表示,简单地将IPC标签作为一个无意义的符号处理,忽略了IPC标签背后丰富的技术分类描述信息和IPC标签之间的关联关系。

本发明主要解决的技术问题是提供一种专利文本多标签分类方法,能够解决现有技术中未能充分利用标签文本描述和忽略标签之间的关联关系的问题。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种专利文本多标签分类方法,包括:

S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;

S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;

S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;

S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;

S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;

S6提取专利文本特征得到文本特征编码表示E;

S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;

S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;

S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;

S10待分类专利文本经过S5-S8得到多标签分类结果;

所述IPC标签描述数据集,格式为{IPC标签,标签描述};

所述训练集的格式为{IPC标签,专利文本};

所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书。

本发明的有益效果是:

首先,本专利申请提供的方案能够提取到专利文本的全局信息表示、局部信息表示和序列信息表示并进行信息整合来充分提取专利文本的语义信息;

其次,通过利用IPC文本描述来构建标签表示矩阵,充分利用了IPC标签的文本描述信息,使模型能够获得更多的先验知识来进行文本分类;

最后,通过构建标签关联矩阵,使用图网络充分利用IPC标签描述的语义信息来挖掘IPC标签之间的关联关系,提高了专利文本多标签分类的分类效果。

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。

图1是一种专利文本多标签分类方法的模型结构图。

下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1,本发明实施例包括:

一种专利文本多标签分类方法,包括:

S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;

S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;

S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;

S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;

S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;

S6提取专利文本特征得到文本特征编码表示E;

S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;

S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;

S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;

S10待分类专利文本经过S5-S8得到多标签分类结果;

所述IPC标签描述数据集,格式为{IPC标签,标签描述};

所述训练集的格式为{IPC标签,专利文本};

所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书;

其中,预训练语言模型、第一标签矩阵、第二标签矩阵在模型迭代的过程参数不会更新,而图神经网络、卷积神经网络、循环神经网络、激活层的参数在模型迭代过程中会更新参数。

所述S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集,包括:

选择用于多标签分类的IPC标签层级、专利文本小节;

根据所述IPC标签层级对输入的IPC描述数据进行数据清洗得到IPC标签描述数据集;

根据所述IPC标签层级、专利文本小节对输入的专利数据进行数据清洗、抽取得到专利文本的训练集;

所述IPC标签层级为部、大类、小类、大组、小组中的任意一个;

所述专利文本小节为标题、摘要、权利要求书、说明书中的任意一个或多个的组合。

在本实施例中,IPC标签层级为“小类”、专利文本小节为“摘要”。

所述对输入的IPC描述数据进行数据清洗,包括:

删除IPC描述中的与其他类别区分的注释、版本信息;

根据所述IPC标签层级,将IPC标签层级之前的IPC标签对应的标签描述进行叠加形成更长的文字描述作为标签描述。

将IPC描述数据进行数据清洗:

A,人类生活必需品;A01,农业;林业;畜牧业;狩猎;诱捕;捕鱼;A01B,农业或林业的整地;一般农业机械或农具的部件、零件或附件(用于播种、种植或施厩肥的开挖沟穴或覆盖沟穴入A01C5/00;收获根作物的机械入A01D;可变换成整地设备或能够整地的割草机入A01D42/0);

得到IPC标签描述数据集中的一个数据:{A01B,人类生活必需品农业;林业;畜牧业;狩猎;诱捕;捕鱼农业或林业的整地;一般农业机械或农具的部件、零件或附件}。

所述对输入的专利数据进行数据清洗、抽取,包括:

使用中文停用词表和自定义词典去除专利文本中的停用词;

根据所述专利文本小节从标题、摘要、权利要求和说明书选择出用于多标签分类的文本内容;

将IPC标签与所述IPC标签层级进行对齐得到与所述IPC标签层级一致的IPC标签。

在本实施例中,用于清洗专利文本的摘要的自定义词典包括:本发明,本申请,提供,提出,一种;

用于清洗专利文本的权利要求的自定义词典包括:其特征在于,该方法包括,其中,所述,如权利要求所述。

所述S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵,包括:

使用预训练语言模型将所述IPC标签描述数据集中所有IPC标签对应的标签描述进行向量表示得到第一标签表示矩阵。

所述标签关联矩阵,还可以将对角线数值化为1。

所述图神经网络,为图卷积网络或图注意力网络。

当选择的IPC标签层级较高时,选择图卷积网络来挖掘标签之间的关联关系;IPC标签层级较低时,例如IPC标签层级为小组、大组、小类,使用图注意力网络来挖据标签之间的关联关系。

所述S6 提取专利文本特征得到文本特征编码表示E,包括:

读取训练集中的专利文本并使用预训练语言模型进行向量表示,得到原始文本编码表示E1;

将所述E1输入到双向循环神经网络中得到序列编码表示E2;

将所述E1输入到卷积神经网络中得到局部编码表示E3;

将所述E1、E2和E3进行编码拼接作为文本特征编码表示E。

本实施例中编码拼接方式如下:E=[E1+E2,E3]。

本实施例选择的专利文本是摘要,长度最长为300字符,经过前述数据清洗、抽取后,平均长度约为250字符。

用于多标签分类的专利文本小节可为标题、摘要、权利要求和说明书中的一个或多个的组合,其中标题的文本长度一般不超过30,提供可用于分类的信息很少,分类效果有限;而摘要、权利要求、说明书的文本长度都远远超出了短文本分类的范围。

选择摘要进行文本分类可以在最大程度保留专利技术信息的同时,降低模型的运训复杂度,能够提高分类效率,因此本实施例中择优选择摘要作为专利文本小节。

本实施例从3个角度来提取专利文本特征:使用预训练语言模型进行向量表示得到原始文本编码表示E1;将所述E1输入到双向循环神经网络中得到序列编码表示;将所述E1输入到卷积神经网络中得到局部编码表示E3。

E1是专利文本较为直接、朴素的特征表示;E2能够保留专利文本关键词语的顺序信息,有助于正确预测多标签分类结果中IPC标签的出现顺序;E3能够保留专利文本中对多标签分类影响较大的关键词语信息。

所述双向循环神经网络,为BiRNN(Bi-directional recurrent neural network,双向循环神经网络)、BiLSTM(Bi-directional Long-short term memory,双向长短期记忆网络)或BiGRU(Bi-directional Gated Recurrent Unit 双向门控循环单元)。

本实施例中的双向循环神经网络使用BiLSTM。

所述S2和S6中的预训练语言模型是相同的预训练语言模型。

所述S2和S6中的预训练语言模型,可选择上下文无关的预训练语言模型或上下文相关的预训练语言模型。

上下文无关的预训练语言模型包括:Word2vec,Glove;上下文相关的预训练语言模型包括:Bert,ALBERT,XLNet,RoBERTa。本实施例采用上下相关的预训练语言模型Bert,损失函数是二元交叉熵损失函数,激活层的激活函数是sigmoid函数。

所述S10之后还包括:

使用多个不同的预训练语言模型分别进行S1-S10得到多个多标签分类结果和所述多标签分类结果中各个标签的概率;

使用集成学习策略来利用多个多标签分类结果和所述多标签分类结果中各个标签的概率得到待分类专利文本的最终多标签分类结果。

例如待分类文本一的第一个分类结果为{G08G:0.4136,G06F: 0.3241},第二个分类结果为{G06F:0.6317,G16H:0.5241},第三个分类结果为{G06F:0.6127};

使用集成学习策略中的简单平均法计算每个标签的概率:{G08G:0.4136,G06F:0.5228,G16H:0.5141};按照概率排序,得到最终分类结果:{G08G,G06,G16H}。

使用单个模型多待分类专利文本进行多标签分类,可能会受限于预训练语言模型的先验知识而出现多标签分类结果中IPC标签缺失、顺序错误,通过采用集成学习策略来综合利用不同模型的分类结果能够修正标签预测中出现标签缺失问题,调整标签出现的顺序,提高多标签分类结果的效果。

所述设定阈值x,取值范围是0.5≤x<1;

其中,IPC标签层级越高,设定阈值x的取值范围越接近1;IPC标签层级越低,设定阈值x的取值范围越接近0.5。

在本实施例中,设定阈值为0.6。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

本文发布于:2024-09-20 22:47:04,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68738.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议