基于网络表示学习和层次标签嵌入的专利分类方法及系统

著录项
  • CN202210105810.8
  • 20220128
  • CN114491041A
  • 20220513
  • 安徽大学
  • 赵姝;鲁凡;陈嘉琳;陈洁;段震;钱付兰;张宇航
  • G06F16/35
  • G06F16/35 G06F40/30 G06K9/62 G06Q50/18 G06N3/04 G06N3/08

  • 安徽省合肥市蜀山区肥西路3号
  • 安徽(34)
摘要
本发明提供一种基于网络表示学习和层次标签嵌入的专利分类方法及系统,方法包括:获取包含类别标签等数据的专利信息;利用专利引文、发明人与权利人信息构造发明人网络和权利人网络;通过层次标签嵌入获得标签描述的语义特征表示,结合层次类别结构关联性对标签语义进行增强,得到最终层次标签语义特征表示;通过文本嵌入获得专利文本特征表示,获得最终的专利文本特征;通过网络表示学习获得网络专利节点特征,结合两个网络之间的相关性增强专利节点特征表示,融合两个网络的专利节点特征,获得最终的专利节点特征;融合专利文本特征和专利节点特征进行专利分类。解决了忽略专利类别标签在分类过程中的特征增强作用导致专利分类准确性较低的技术问题。
权利要求

1.一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,应用于专利分类,所述方法包括:

获取并预处理专利数据,据以获取专利文本、专利引文、发明人信息、权利人信息和专利类别标签,其中所述专利类别标签具有层次结构且包含标签描述文本;利用所述专利引文、所述发明人信息、所述权利人信息分别构建专利-发明人网络和专利-权利人网络;其中,所述专利-发明人网络包含了专利节点之间以及专利节点与发明人节点之间的关系,所述专利-权利人网络包含了所述专利节点之间以及所述专利节点与权利人节点之间的关系;

通过层次标签嵌入获得所述专利类别标签的语义特征表示,通过文本嵌入利用所述标签描述文本获取专利类别标签的初始语义特征,通过图卷积神经网络获取并利用所述标签的初始语义特征和层次类别结构中的层次关联性数据,据以增强所述专利类别标签的所述语义特征表示,以得到最终的专利标签特征;

通过文本嵌入获得专利文本特征表示,获取并利用所述专利文本特征表示与所述专利标签特征之间的语义关联,据以增强所述专利文本特征表示,以得到最终的专利文本特征;

对所述专利-发明人网络和所述专利-权利人网络进行网络表示学习,据以分别获得所述专利-发明人网络及所述专利-权利人网络中的专利节点特征,获取并利用所述专利-发明人网络与所述专利-权利人网络之间的关联性数据增强专利-发明人网络及专利-权利人网络中的所述专利节点特征,融合所述专利-发明人网络与所述专利-权利人网络中的所述专利节点特征,据以获得最终的所述专利节点特征;

融合所述最终的专利文本特征和所述最终的专利节点特征,据以得到融合专利特征表示,以进行专利分类。

2.根据权利要求1所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述获取并预处理专利数据信息,据以获取专利文本、专利引文、发明人信息、权利人信息和专利类别标签,利用所述专利引文、所述发明人信息、所述权利人信息分别构建专利-发明人网络和专利-权利人网络的步骤,包括:

获取并预处理所述专利数据信息,其中,所述专利数据信息包括:所述专利文本、所述专利引文、所述发明人信息、所述权利人信息和所述专利类别标签;

预处理所述专利文本、所述专利引文、所述发明人信息、所述权利人信息,据以分别构建所述专利-发明人网络和所述专利-权利人网络。

3.根据权利要求2所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述预处理所述专利文本、所述专利引文、所述发明人信息、所述权利人信息和所述专利类别标签,据以构建所述专利-发明人网络和所述专利-权利人网络的步骤,包括:

去除所述专利文本中的停用词数据,据以得到专利文本数据;

根据所述专利引文、所述发明人信息、所述权利人信息分别构建所述专利-发明人网络和所述专利-权利人网络,其中,在所述专利-发明人网络中,每一节点表示一个专利或者是一个发明人,每条边表示所述专利与所述发明人之间的发明关系或者是所述专利之间的引用关系,在所述专利-权利人网络中,每一个节点表示一个所述专利或者是一个权利人,每条边表示所述专利与所述权利人之间的受让关系或者是所述专利之间的所述引用关系。

4.根据权利要求1所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述通过层次标签嵌入获得所述专利类别标签的语义特征表示,通过文本嵌入利用所述标签描述文本获取专利标签的初始语义特征,通过图卷积神经网络获取并利用所述标签的初始语义特征和层次类别结构中的层次关联性数据,据以增强所述专利类别标签的语义特征表示,以得到最终的专利标签特征的步骤,包括:

利用层次标签嵌入方法学习标签描述文本,据以获取专利标签语义特征;其中,通过结合层次标签结构信息增强专利标签语义特征,获得层次关联的所述专利标签语义特征;

层次标签语义增强阶段,所述层次类别结构中的每一专利标签节点从上下层级的邻居标签节点中,以下述逻辑聚合处理所述专利标签语义特征,据以增强所述专利类别标签的语义特征表示,以得到所述最终的专利标签特征,该步骤还包括:

利用所述专利类别标签构建标签的层次树形结构其中,V表示专利标签节点,是从上到下的层次路径,是从下到上的层次路径;

通过标签依赖的先验概率作为先验层次知识,定义公式如下:

其中,P(Uj|Ui)表示给定标签Vi时标签Vj发生的条件概率,P(Uj∩Ui)表示标签i和标签j同时出现的条件概率,Ni表示训练集中标签Vi的个数;

以下述逻辑:

通过图卷积神经网络获取融合标签描述文本和层次结构的专利标签特征,其中,vj表示标签节点vk的上下级邻居标签节点。αk.j表示标签依赖的先验概率,作为先验层次关联知识。最后,节点的隐层输出状态Sk表示标签节点vk的层次关联的标签语义特征。

5.根据权利要求1所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述通过文本嵌入获得文本特征表示,获取并利用所述专利文本特征表示与所述专利标签特征之间的语义关联,据以增强所述专利文本特征表示,以得到最终的专利文本特征的步骤,包括:

通过文本嵌入获得所述专利文本特征表示,其中,通过结合专利文本与不同类别标签之间的语义相关性对专利文本特征表示进行增强,获得所述最终的专利文本特征;

在文本特征增强阶段,每个专利文本特征根据下述逻辑保留与专利标签最相关的部分特征,据以增强所述文本特征表述数据的所述文本特征表示,以得到所述最终的专利文本特征:

其中,αki表示第k个标签与第i个专利特征之间的注意力关联权重,PiT表示最终的通过层次标签语义增强的专利文本特征。

6.根据权利要求1所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述对所述专利-发明人网络和所述专利-权利人网络进行网络表示学习,据以分别获得专利-发明人网络及专利-权利人网络的所述专利节点特征,利用所述专利-发明人网络与所述专利-权利人网络之间的关联性增强专利-发明人网络及专利-权利人网络的专利节点特征,融合所述专利-发明人网络与所述专利-权利人网络的专利节点特征,据以获得最终的专利节点特征的步骤,包括:

定义元路径:Inventor-Patent-Patent-Inventor和Assignee-Patent-Patent-Assignee。其中,Inventor表示发明人节点,Assignee表示权利人节点,Patent表示专利节点;

根据定义的元路径模式,利用异构网络表示学习方法获得所述专利-发明人网络的所述专利节点特征及所述专利-权利人网络的所述专利节点特征;

根据下述协方差矩阵计算所述专利-发明人网络与所述专利-权利人网络之间的网络相关性数据,据以增强专利节点特征表示:

其中,Σ为协方差矩阵,Ui为专利节点视图增强信息;

融合所述专利-发明人网络专利节点特征及所述专利-权利人网络专利节点特征,据以获得所述最终的专利节点特征。

7.根据权利要求6所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述融合所述最终的专利文本特征和所述最终的专利节点特征,据以得到融合专利特征表示,以进行专利分类的步骤,包括:

利用注意力机制计算每个视图的重要性权重;

根据所述重要性权重,利用下述加权求和逻辑融合所述专利-发明人网络的所述专利节点特征及所述专利-权利人网络的所述专利节点特征,据以获得所述最终的专利节点特征:

其中,piV表示最终的专利多视图节点表示,Wm,bm为可训练参数。

8.根据权利要求1所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述融合所述最终的专利文本特征和所述最终的专利节点特征进行专利分类的步骤,包括:

利用下述逻辑融合所述最终的专利文本特征和所述最终的专利节点特征,据以获取融合专利特征表示:

其中,表示拼接操作,PiV为多视图专利节点表示,PiT为专利文本特征表示,Pi表示融合专利文本和专利网络结构特征的所述融合专利特征表示;

根据所述融合专利特征表示,利用多层前馈神经网络用以分类预测出专利属于每一类别的概率。

9.根据权利要求8所述的一种基于网络表示学习和层次标签嵌入的专利分类方法,其特征在于,所述根据所述融合专利特征表示,利用多层前馈神经网络用以分类预测出专利属于每一类别的概率的步骤,还包括:

以所述多层前馈神经网络利用下述逻辑进行分类预测,以预测出专利属于每个类别的概率:

其中,Pi表示融合结果,Wip和表示训练参数,表示专利i属于类别p的概率。

10.一种基于网络表示学习和层次标签嵌入的专利分类系统,其特征在于,应用于专利分类,所述系统包括:数据预处理及网络构建模块、层次标签嵌入模块、专利文本表示模块、网络表示学习模块及融合分类预测模块,

所述数据预处理及网络构建模块,用以获取并预处理专利数据,据以获取专利文本、专利引文、发明人信息、权利人信息和专利类别标签,其中所述专利类别标签具有层次结构且包含标签描述文本;利用所述专利引文、所述发明人信息、所述权利人信息分别构建专利-发明人网络和专利-权利人网络;其中,所述专利-发明人网络包含了专利节点之间以及专利节点与发明人节点之间的关系,所述专利-权利人网络包含了所述专利节点之间以及所述专利节点与权利人节点之间的关系;

所述层次标签嵌入模块,用以通过层次标签嵌入获得所述专利类别标签的语义特征表示,通过文本嵌入利用所述标签描述文本获取专利类别标签的初始语义特征,通过图卷积神经网络获取并利用所述标签的初始语义特征和层次类别结构中的层次关联性数据,据以增强所述专利类别标签的所述语义特征表示,以得到最终的专利标签特征,所述层次标签嵌入模块连接所述数据预处理及模型构建模块;

所述专利文本表示模块,用以通过文本嵌入获得专利文本特征表示,获取并利用所述专利文本特征表示与不同的所述专利标签特征之间的语义关联,据以增强所述专利文本特征表示,以得到最终的专利文本特征,所述专利文本表示模块连接所述层次标签嵌入模块;

所述网络表示学习模块,用以对所述专利-发明人网络和所述专利-权利人网络进行网络表示学习,据以分别获得所述专利-发明人网络及所述专利-权利人网络中的专利节点特征,获取并利用所述专利-发明人网络与所述专利-权利人网络之间的关联性数据增强专利-发明人网络及专利-权利人网络中的所述专利节点特征,融合所述专利-发明人网络与所述专利-权利人网络中的专利节点特征,据以获得最终的专利节点特征,所述网络表示学习模块连接所述数据预处理及网络构建模块;

所述融合分类预测预测模块,用以融合所述最终的专利文本特征和所述最终的专利节点特征,据以得到融合专利特征表示,以进行专利分类,所述融合分类模块连接所述网络表示学习模块及所述专利文本表示模块。

说明书
技术领域

本发明属于专利分类技术领域,涉及一种基于网络表示学习和层次标签嵌入的专利分类方法及系统。

知识产权是世界各国普遍重视的问题之一,企业通常也将专利作为保护其知识产权 和市场竞争力的有效途径。越来越多的科技公司利用专利数据库中的大量技术信息来加 强其研发活动,如新产品开发、技术转移、技术预测和技术并购与收购分析等。随着各项技术领域的迅速发展,全球专利数量急剧增加。截至2020年,全球有效专利达1700 万件,全球专利申请数量达330万件,呈现指数发展趋势,给专利相关应用带来了重大 挑战。

专利分类是根据给定专利来分析该专利所属的技术领域,给专利分配一个或多个类 别标签。现实世界中,该任务是由专利审查员或者领域专家在预定义分类体系的指导下手动完成的,比如CPC(Cooperative Patent Classification)分类体系。然而,现有的专利分类方法难以满足需求。首先,随着专利申请的大量增加,面对结构复杂的专利文献, 传统的人工操作方法不仅费时费力,而且需要具备大量专业知识;其次,专利分类体系 具有复杂的层次化结构,大量的层次标签给专利分类带来了困难。

随着人们对专利分类任务的研究,现有关于专利分类的方法主要聚焦于挖掘专利特 征信息。由于专利数据具有多种结构化的元特征和非结构化的文本信息,研究者通常通过挖掘专利特征,例如专利引用、标题、摘要等进行专利分类。申请号为 CN201910522353.0的发明专利《应用专利数据库的研发辅助系统及其方法》通过载入 与检索条件相符的专利文件,并且直接根据专利分类号或产生对应各专利文件的技术元 素信息,结合关联规则算法对载入的专利文件进行分析,以便建立包含专利分类号或技 术元素信息,以及包含关联规则强度的关联规则,接着选择关联规则强度为弱/强的关联 规则,将其包含的专利分类号或技术元素信息进行组合以输出能够辅助研发的建议,用 以达成提高应用专利数据库辅助研发的实用性的技术功效。通过目前工作的分析和总结 可知,专利文本信息是区分不同类别专利最广泛利用的因素,说明文本信息所包含的特 征信息能够帮助提升专利分类的准确性。近年来,随着深度学习的发展,多种神经网络 方法也被引入来增强专利特征表示,得益于强大的深度表征能力,这类算法有效地提升 了专利分类的准确性。

但是,上述方法虽然认识到专利特征信息对分类准确率的影响,并能够设计有效的 方法挖掘专利特征来进行专利分类。然而,之前的大多数工作仍主要针对于专利数据本身的元特征(例如,发明人和权利人)和非结构化文本(例如,标题和摘要)。换言之, 现有专利及传统技术方案主要关注专利文本内容,但现有方案较大程度上忽视了专利类 别标签蕴含的重要信息,例如,标签描述文本的语义信息、专利标签与标签之间的层次 关联信息。事实上,可以发现专利文本与其类别标签的描述文本是高度相关的,不同层 级的专利标签也存在关联,层次标签的语义特征可能增强专利特征表示,从而促进专利 分类的效果。已有的方法忽略了这些基于层次结构和标签描述文本的专利标签语义信 息,因此,专利分类的效果有待提升。现有技术中还存在忽略专利类别标签的在分类过 程中的特征增强作用导致的专利分类准确性较低的技术问题。

本发明所要解决的技术问题在于如何解决忽略专利类别标签在分类过程中的特征 增强作用导致的专利分类准确性较低的技术问题。

本发明是采用以下技术方案解决上述技术问题的:一种基于网络表示学习和层次标 签嵌入的专利分类方法,包括:

获取并预处理专利数据,据以获取专利文本、专利引文、发明人信息、权利人信息和专利类别标签,其中专利类别标签具有层次结构且包含标签描述文本;利用专利引文、发明人信息、权利人信息分别构建专利-发明人网络和专利-权利人网络;其中,专利- 发明人网络包含了专利节点之间以及专利节点与发明人节点之间的关系,专利-权利人 网络包含了专利节点之间以及专利节点与权利人节点之间的关系;

通过层次标签嵌入获得所述专利类别标签的语义特征表示,通过文本嵌入利用所述 标签描述文本获取专利标签的初始语义特征,通过图卷积神经网络获取并利用所述标签 的初始语义特征和层次类别结构中的层次关联性数据,据以增强所述专利类别标签的语 义特征表示,以得到最终的专利标签特征;

通过文本嵌入获得专利文本特征表示,获取并利用所述专利文本特征表示与不同专 利标签特征之间的语义关联,据以增强所述专利文本特征表示,以得到最终的专利文本特征;

对所述专利-发明人网络和所述专利-权利人网络进行网络表示学习,据以分别获得 专利-发明人网络及专利-权利人网络中的专利节点特征,获取并利用所述专利-发明人网络与所述专利-权利人网络之间的关联性数据增强专利-发明人网络及专利-权利人网络中的所述专利节点特征,融合所述专利-发明人网络与所述专利-权利人网络中的所述专利节点特征,据以获得最终的专利节点特征;

融合所述最终的专利文本特征和所述最终的专利节点特征,据以得到融合专利特征 表示,以进行专利分类。

本发明通过引入层次标签嵌入以及网络表示学习的方法,利用标签描述文本包含标 签语义信息,不同层级的类别标签也存在关联,层次标签嵌入可以有效利用标签描述文本和层次类别结构挖掘专利标签的语义特征。专利数据的一个预处理步骤,获得各项专 利信息并构建两个网络,专利文本与其类别标签的描述文本存在关联,不同层级的类别 标签也存在关联,层次标签的语义特征可能增强专利文本特征表示,从而促进专利分类 的效果,本发明更为准确地建模专利文本与不同专利类别标签之间的语义关联,增强专 利文本特征。本发明最终通过融合专利文本特征与专利节点特征进行专利分类,可以更 为全面地挖掘专利数据的多种特征,提升专利分类结果的准确性。

在更具体的技术方案中,所述获取并预处理专利数据信息,据以获取专利文本、专利引文、发明人信息、权利人信息和专利类别标签,利用专利引文、发明人信息、权利 人信息分别构建专利-发明人网络和专利-权利人网络的步骤,包括:

获取并预处理所述专利数据信息,其中,所述专利数据信息包括:专利文本、专利引文、发明人信息、权利人信息和专利类别标签;

预处理所述专利引文、所述发明人信息和所述权利人信息,据以分别构建所述专利 -发明人网络和所述专利-权利人网络。

在更具体的技术方案中,所述预处理所述专利文本、所述专利引文、所述发明人信息、所述权利人信息和所述专利类别标签,据以构建所述专利-发明人网络和所述专利- 权利人网络的步骤,包括:

去除所述专利文本中的停用词数据,据以得到专利文本数据;专利文本中包含大量 的文本信息,去除文本中的停用词,以免在文本嵌入过程中形成噪声信息,影响文本特征的有效性;

根据所述专利引文、所述发明人信息、所述权利人信息构建所述专利-发明人网络和所述专利-权利人网络。在专利-发明人网络中,每一个节点表示一个专利或者是一个 发明人,每条边表示专利与发明人之间的发明关系或者是专利之间的引用关系。在专利-权利人网络中,每一个节点表示一个专利或者是一个权利人,每条边表示专利与权利 人之间的受让关系或者是专利之间的引用关系。本发明实施例中,如图2左侧部分所示; i,j表示发明人节点,m,n表示权利人节点。

在更具体的技术方案中,所述通过层次标签嵌入获得所述专利类别标签的语义特征 表示,通过文本嵌入利用所述标签描述文本获取专利标签的初始语义特征,通过图卷积神经网络获取并利用所述标签的初始语义特征和层次类别结构中的层次关联性数据,据以增强所述专利类别标签的语义特征表示,以得到最终的专利标签特征的步骤,包括:

利用层次标签嵌入方法学习标签描述文本,据以获取专利标签语义特征;其中,通过结合层次标签结构信息增强专利标签语义特征,获得层次关联的所述专利标签语义特征;

层次标签语义增强阶段,所述层次类别结构中的每一专利标签节点从上下层级的邻 居标签节点中,以下述逻辑聚合处理所述专利标签语义特征,据以增强所述专利类别标签的语义特征表示,以得到所述最终的专利标签特征:

首先,利用所述专利类别标签构建标签的层次树形结构其中,V表示专利标签节点,是从上到下的层次路径,是从下到上的层次路径;

之后,通过标签依赖的先验概率作为先验层次知识,定义公式如下:

其中,P(Uj|Ui)表示给定标签Vi时标签Vj发生的条件概率,P(Uj∩Ui)表示标签i和标 签j同时出现的条件概率,Ni表示训练集中标签Vi的个数;

最后,通过图卷积神经网络获取融合标签描述和层次结构的专利标签特征:

其中,vj表示标签节点vk的上下级邻居标签节点。αk.j表示标签依赖的先验概率,作为 先验层次关联知识。最后,节点的隐层输出状态Sk表示标签节点vk的层次关联的标签语义特征。

专利文本与其类别标签的描述文本存在关联,不同层级的类别标签也存在关联,层 次标签的语义特征可能增强专利文本特征表示,从而促进专利分类的效果,本发明通过利用标签描述文本和层次标签结构学习层次关联的专利标签特征,使用图卷积神经网络在内的多种方法增强专利文本特征。

在更具体的技术方案中,所述通过文本嵌入获得专利文本特征表示,获取并利用所 述专利文本特征表示与所述专利标签特征之间的语义关联,据以增强所述专利文本特征 表示,以得到最终的专利文本特征的步骤,包括:

通过文本嵌入获得所述专利文本特征表示,其中,通过结合专利文本与不同类别标 签之间的语义相关性对专利文本特征表示进行增强,获得所述最终的专利文本特征;

在文本特征增强阶段,每个专利文本特征根据下述逻辑保留与专利标签最相关的部 分特征,据以增强所述文本特征表述数据的所述文本特征表示,以得到所述最终的专利文本特征:

其中,αki表示第k个标签与第i个专利特征之间的注意力关联权重,PiT表示最终的通 过层次标签语义增强的专利文本特征。

在更具体的技术方案中,所述对所述专利-发明人网络和所述专利-权利人网络进行 网络表示学习,据以分别获得专利-发明人网络及专利-权利人网络的专利节点特征,利用所述专利-发明人网络与所述专利-权利人网络之间的关联性增强专利-发明人网络及专利-权利人网络的所述专利节点特征,融合所述专利-发明人网络与所述专利-权利人 网络的专利节点特征,据以获得最终的专利节点特征的步骤,包括:

定义元路径:Inventor-Patent-Patent-Inventor和Assignee-Patent-Patent-Assignee。 其中,Inventor表示发明人节点,Assignee表示权利人节点,Patent表示专利节点;

根据定义的元路径模式,利用异构网络表示学习方法获得所述专利-发明人网络专 利节点特征及所述专利-权利人网络专利节点特征;

根据下述协方差矩阵计算所述专利-发明人网络与所述专利-权利人网络之间的网 络相关性数据,据以增强专利节点特征表示:

其中,Σ为协方差矩阵,Ui为专利节点视图增强信息;

融合所述专利-发明人网络专利节点特征及所述专利-权利人网络专利节点特征,据 以获得所述最终的专利节点特征。

本发明利用网络表示学习多种专利节点特征,并利用网络相关性增强专利节点特征 表示。最终,融合专利文本特征和专利节点特征进行专利分类,可以更为全面的挖掘专利数据的多种特征,提升专利分类结果的准确性。

在更具体的技术方案中,所述融合所述最终的专利文本特征和所述最终的专利节点 特征,据以得到融合专利特征表示,以进行专利分类的步骤,包括:

利用注意力机制计算每个视图的重要性权重;

根据所述重要性权重,利用下述加权求和逻辑融合所述专利-发明人网络的所述专 利节点特征及所述专利-权利人网络的所述专利节点特征,据以获得所述最终的专利节点特征:

其中,PiV表示最终的专利多视图节点表示,Wm,bm为可训练参数。

在更具体的技术方案中,所述融合所述最终的专利文本特征和所述最终的专利节点 特征进行专利分类的步骤,包括:

利用下述逻辑融合所述最终的专利文本特征和所述最终的专利节点特征,据以获取 融合专利特征表示:

其中,表示拼接操作,PiV为多视图专利节点表示,PiT为专利文本特征表示,Pi表示融合专利文本和专利网络结构特征的所述融合专利特征表示;

根据所述融合专利特征表示,利用多层前馈神经网络分类预测出专利属于每一类别 的概率。

在更具体的技术方案中,所述根据所述融合专利特征表示,利用多层前馈神经网络 分类预测出专利属于每一类别的概率的步骤,还包括:

以所述多层前馈神经网络利用下述逻辑进行分类预测,以预测出专利属于每个类别 的概率:

其中,Pi表示融合结果,Wip和表示训练参数,表示专利i属于类别p的概率。

在更具体的技术方案中,一种基于网络表示学习和层次标签嵌入的专利分类系统, 其特征在于,应用于专利分类管理,所述系统包括:数据预处理及网络构建模块、层次标签嵌入模块、专利文本表示模块、网络表示学习模块及融合分类预测预测模块,

所述数据预处理及网络构建模块,用以获取并预处理专利数据,据以获取专利文本、 专利引文、发明人信息、权利人信息和专利类别标签,其中所述专利类别标签具有层次结构且包含标签描述文本;利用所述专利引文、所述发明人信息、所述权利人信息分别 构建专利-发明人网络和专利-权利人网络;其中,所述专利-发明人网络包含了专利节 点之间以及专利节点与发明人节点之间的关系,所述专利-权利人网络包含了所述专利 节点之间以及所述专利节点与权利人节点之间的关系;

所述层次标签嵌入模块,用以通过层次标签嵌入获得所述专利类别标签的语义特征 表示,通过文本嵌入利用所述标签描述文本获取专利类别标签的初始语义特征,通过图卷积神经网络获取并利用所述标签的初始语义特征和层次类别结构中的层次关联性数据,据以增强所述专利类别标签的所述语义特征表示,以得到最终的专利标签特征,所 述层次标签嵌入模块连接所述数据预处理及模型构建模块;

所述专利文本表示模块,用以通过文本嵌入获得专利文本特征表示,获取并利用所 述专利文本特征表示与不同的所述专利标签特征之间的语义关联,据以增强所述专利文 本特征表示,以得到最终的专利文本特征,所述专利文本表示模块连接所述层次标签嵌入模块;

所述网络表示学习模块,用以对所述专利-发明人网络和所述专利-权利人网络进行 网络表示学习,据以分别获得所述专利-发明人网络及所述专利-权利人网络中的专利节 点特征,获取并利用所述专利-发明人网络与所述专利-权利人网络之间的关联性数据增 强专利-发明人网络及专利-权利人网络中的所述专利节点特征,融合所述专利-发明人网络与所述专利-权利人网络中的专利节点特征,据以获得最终的专利节点特征,所述 网络表示学习模块连接所述数据预处理及网络构建模块;

所述融合分类预测预测模块,用以融合所述最终的专利文本特征和所述最终的专利 节点特征,据以得到融合专利特征表示,以进行专利分类,所述融合分类模块连接所述网络表示学习模块及所述专利文本表示模块。

本发明相比现有技术具有以下优点:本发明通过引入层次标签嵌入以及网络表示学 习的方法,可以有效利用标签描述文本和层次类别结构挖掘层次标签语义特征,更为准确的建模专利与不同层次标签之间的语义关联,增强专利文本特征表示。本发明最终通 过融合专利文本特征与专利节点特征进行专利分类,可以更为全面的挖掘专利数据的多 种特征,提升专利分类结果的准确性。专利与其类别标签的描述文本是高度相关的,不 同层级的类别标签也存在关联关系,层次标签的语义特征可能增强专利特征表示,从而 促进专利分类的效果,本发明通过利用标签描述文本和层次标签结构学习层次关联的标 签语义信息,使用图卷积神经网络在内的多种方法增强专利文本特征,解决了现有技术 中存在的忽略专利类别标签的在分类过程中的特征增强作用导致的专利分类准确性较 低的技术问题。

图1为本发明的一种基于网络表示学习和层次标签嵌入的专利分类方法的流程图;

图2为本发明的模型框架结构示意图。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明 一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在 没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:

本发明实施例提供一种基于网络表示学习和层次标签嵌入的专利分类方法,如图1 所示,其主要包括:

S1:获取包含专利文本、发明人、权利人、引文、类别标签的专利信息;利用专利 引文、发明人与权利人信息分别构造构建发明人网络和权利人网络;其中,发明人网络 包含了专利节点之间以及专利节点与发明人节点之间的关系,权利人网络包含了专利节 点之间以及专利节点与权利人节点之间的关系;

S2:通过层次标签嵌入获得标签描述的语义特征表示,结合层次类别结构中不同层 级之间的关联性对标签语义进行增强,获得最终的层次标签语义特征表示;

S3:通过文本嵌入获得专利文本特征表示,结合专利文本与不同类别标签之间的语 义相关性对专利文本特征表示进行增强,获得最终的专利文本特征;

S4:通过网络表示学习获得发明人网络、权利人网络的专利节点特征,结合两个网络之间的相关性增强专利节点特征表示,融合两个网络的专利节点特征,获得最终的专 利节点特征;

S5:融合专利文本特征和专利节点特征进行专利分类;

为了便于理解,下面针对本发明做进一步介绍。

专利数据预处理。

本发明实施例中,所述专利数据基本包括:专利文本、专利引文、发明人信息、权利人信息和类别标签信息。专利文本主要包括专利的标题和说明书摘要部分。发明人与 权利人信息主要包括名字信息。类别标签信息主要包括基于CPC分类体系的标签描述 文本和层次结构。

数据预处理主要包括去停用词和构建发明人网络、权利人网络。

1、专利文本中包含大量的文本信息,去除文本中的停用词,以免在文本嵌入过程中形成噪声信息,影响文本特征的有效性。

2、结合专利引文、发明人和权利人信息,构建发明人网络和权利人网络。在发明人网络中,每一个节点表示一个专利或者是一个发明人,每条边表示专利与发明人之间 的发明关系或者是专利之间的引用关系。在权利人网络中,每一个节点表示一个专利或 者是一个权利人,每条边表示专利与权利人之间的受让关系或者是专利之间的引用关 系。本发明实施例中,如图2左侧部分所示;i,j表示发明人节点,m,n表示权利 人节点。

构建专利分类模型。

如图2所示,本发明实施例中构建的专利分类模型主要包括:层次标签嵌入模块、专利文本表示模块、网络表示学习模块与融合分类预测模块。

层次标签嵌入模块主要通过标签描述文本和层次标签结构对专利标签进行语义嵌 入表示,获得每个专利标签的语义特征表示;专利文本表示模块主要通过词嵌入和 Bi-LSTM获得专利文本特征表示,然后通过层次标签语义增强专利特征表示;网络表示 学习模块学习发明人网络和权利人网络中的专利节点特征表示,结合两个网络之间的相 关性增强专利节点特征表示并融合两个网络的专利节点特征;融合分类预测模块主要对 融合专利文本特征和专利节点特征的输出进行分类预测。

各部分优选实施方式如下:

层次标签嵌入模块。

层次标签嵌入模块主要通过标签描述文本和层次标签结构对专利标签进行语义嵌 入表示,获得每个专利标签的语义特征表示。

获得专利标签的语义特征表示的方式。

基于CPC(Cooperative Patent Classification)分类体系,所述专利标签具有一段标 签描述文本,蕴含语义信息。通过嵌入方法获得标签语义特征,主要方式如下:

使用基于PV-DM的词嵌入算法(例如,doc2vec算法)学习标签语义特征表示。

此阶段,可以得到标签语义特征。

获得专利标签的层次关联语义特征表示的方式。

本发明实例中,对于层次类别标签,采用了基于层次结构的图卷积神经网络方法来 捕获其中的标签层次关联。

首先,通过专利标签信息构建标签的层次树形结构其中,V表示标签节点,是从上到下的层次路径,是从下到上的层次路径。

之后,通过标签依赖的先验概率作为先验层次知识,定义公式如下:

其中,P(Uj|Ui)表示给定标签Vi时标签Vj发生的条件概率,P(Uj∩Ui)表示标签i和标签j同时出现的条件概率,Ni表示训练集中标签Vi的个数。

最后,通过图卷积神经网络获取融合标签描述和层次结构的层次标签语义特征表示。

其中,Sk表示标签节点Vk的层次标签语义表示,vj表示标签节点j。

此阶段,可以得到层次标签语义特征。

专利文本表示模块

专利文本表示模块主要通过词嵌入和Bi-LSTM获得专利文本特征表示,然后通过层次标签语义增强专利特征表示;

1)获得专利文本特征表示的方式。

本发明实施例中,对于专利文本,采用了词嵌入和Bi-LSTM的文本表示方法来捕获其中的文本特征信息。

首先,利用word2vec获取专利文本的词向量矩阵表示。

之后,对于专利文本特征表示,通过Bi-LSTM结构体系捕获专利上下文信息,增 强专利初始词向量表示。具体来说,LSTM网络的输入是一个单词标记序列 P=(ω1,ω2,...,ωN),Bi-LSTM体系的隐层向量计算公式如下:

其中,和分别为Bi-LSTM中第n个单词的前馈隐层向量和后馈隐层向量,将和串联得到最终的单词向量表示。为Bi-LSTM中第n个单词的隐藏输出,u为 每个单向LSTM隐层的单元数。

最后,通过单词平均池化操作将单词上下文表示合并到平均嵌入中,利用公式获取专利文本特征表示。其中,表示专利i的文本特征表示。

此阶段,可以得到专利文本特征表示。

2)获得层次标签语义增强的专利文本特征的方式。

为了获得更好的专利文本特征,本发明设计了一个层次标签语义增强方法,通过获 取的层次标签语义特征来增强专利文本特征表示。

对于专利文本特征表示和层次标签语义表示Sk,考虑到每个标签与专利文本的不同关联程度,注意力计算公式如下:

其中,αki表示第k个标签与第i个专利特征之间的注意力关联权重,PiT表示最终的通过层次标签语义增强的专利文本特征。

此阶段,可以得到层次标签语义增强的专利文本特征。

网络表示学习模块。

网络表示学习模块主要学习发明人网络和权利人网络中的专利节点特征表示,结合 两个网络之间的相关性增强专利节点特征表示并融合两个网络的专利节点特征;

获得发明人网络中专利节点特征表示的方式。

本发明实施例中使用基于元路径随机游走的异构网络表示学习方法来捕获网络结 构信息。具体过程为:

首先,定义异构网络结构的元路径游走规则:Inventor-Patent-Patent-Inventor。

之后,根据定义的元路径游走规则,利用随机游走生成发明人网络的元路径节点序 列。

最后,通过skip-gram模型学习发明人网络中每个专利节点的特征表示。目标函数如下所示:

其中,VI∪P表示专利和发明人的集合,表示发明人节点v的邻居节点,表示专利节点v的邻居节点,Embv代表节点v的嵌入表示。

此阶段,可以得到发明人网络中专利节点特征表示。

获得权利人网络的节点特征表示的方式

对于权利人网络,同样采用基于元路径随机游走的异构网络表示学习方法。

首先,定义异构网络结构的元路径游走规则:Assignee-Patent-Patent-Assignee。

根据定义的元路径游走规则,利用随机游走生成权利人网络的元路径节点序列。再 通过skip-gram模型学习权利人网络中每个专利节点的特征表示。目标函数如下所示:

其中,VA∪P表示专利和权利人的集合,表示权利人节点v的邻居节点,表示专利节点v的邻居节点,Embv代表节点v的嵌入表示。

此阶段,可以得到权利人网络中专利节点特征表示。

获得网络相关性增强的方式

对于两个专利网络,根据两个网络的相关性增强专利节点特征,采用注意力机制融 合增强后的专利节点特征;具体过程为:

通过网络相关性增强,聚合两个专利网络之间的关联对专利节点特征表示进行增强,设置self-attention为相关网络建模,公式如下:

其中,Σ为协方差矩阵,Ui为专利节点网络增强信息。

通过注意力机制获取每个网络的重要性权重,将增强后的两个网络的专利节点特征 向量进行融合。公式如下:

其中,PiV表示最终的专利节点表示,Wm,bm为可训练参数。

此阶段,可以获得最终的专利节点特征。

融合分类预测模块。

本发明实施例中,融合分类预测模块主要对融合专利文本特征和专利节点特征得到 专利特征表示并进行分类预测。

1)特征融合

通过公式将文本特征表示与专利多视图节点特征的融合结果作为专 利表示,其中,表示拼接操作,PiV为多视图专利节点表示,PiT为专利文本特征表示, Pi表示融合专利文本和专利网络结构特征的专利特征表示。

2)分类预测

融合结果输出多层前馈神经网络进行分类预测,预测出专利属于每个类别的概率, 公式为:

其中,Pi表示融合结果,Wip和表示训练参数,表示专利i属于类别p的概率。

综上,本发明通过引入层次标签嵌入以及网络表示学习的方法,可以有效利用标签 描述文本和层次类别结构挖掘层次标签语义特征,更为准确的建模专利与不同层次标签 之间的语义关系,增强专利文本特征表示。本发明最终通过融合专利文本特征与专利节点特征进行专利分类,可以更为全面的挖掘专利数据的多种特征,提升专利分类结果的 准确性。专利与其类别标签的描述文本是高度相关的,不同层级的标签也存在关联,层 次标签的语义特征可能增强专利特征表示,从而促进专利分类的效果,本发明通过利用 标签描述文本和层次标签结构学习层次关联的标签语义,使用图卷积神经网络在内的多 种方法增强专利文本特征,解决了现有技术中存在的忽略专利类别标签的在分类过程中 的特征增强作用导致的专利分类准确性较低的技术问题。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对 本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或 者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本文发布于:2024-09-20 22:30:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/83837.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议