一种基于多重语义融合的专利价值信息分析方法、装置

著录项
  • CN202011625601.3
  • 20201231
  • CN112733549A
  • 20210430
  • 厦门智融合科技有限公司
  • 张龙晖;罗瑞祥;杨铖;张弛;陈龙彪
  • G06F40/30
  • G06F40/30 G06F16/35 G06Q50/18

  • 福建省厦门市思明区观日路22号楼之一301-01室
  • 福建(35)
  • 厦门市首创君合专利事务所有限公司
  • 李雁翔;王婷婷
摘要
本发明提供一种基于多重语义融合的专利价值信息分析方法、装置,方法包括如下步骤:从专利数据库中获取专利的数值信息、文本信息和图像信息,并进行预处理;将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;根据三种分类器的分类结果,分析专利价值;本发明提出的方法运用前沿的深度学习技术,对专利的非结构化数据特征、文本语义特征以及图像特征等多重特征进行提取和分析,实现全方位专利价值评估,整个分析过程不依赖专家经验,速度快,且准确度高。
权利要求

1.一种基于多重语义融合的专利价值信息分析方法,其特征在于,包括如下步骤:

从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后的图像信息;

将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;

将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

根据三种分类器的分类结果,分析专利价值。

2.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述专利的数值信息包括但不限于:数值信息包括:引用次数、专利权利要求项数、同族引用次数、被引用专利数量、公开年、申请年、5年内被引用次数、3年内被引用次数、简单同族被引用专利总数、引用专利数量、PatSnap同族被引用专利总数、INPADOC同族被引用专利总数、文献代码、受理局、专利类型、简单法律状态、IPC主分类号、诉讼案件数、非专利引用文献数量、当前申请人数量、非专利引用文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息包括但不限于:专利摘要附图和专利说明书附图。

3.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述文本语义特征包括:语义特征。

4.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述图像特征包括:纹理特征、形状特征。

5.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述XGBoost分类器、MLP分类器和ResNet分类器的训练方法为:采用机器学习中半监督学习算法Tri-training。

6.根据权利要求1所述的基于多重语义融合的专利价值信息分析方法,其特征在于,所述根据三种分类器的分类结果,分析专利价值;具体包括:

三种分类器的分类结果均为高,则专利为高价值专利;

三种分类器的分类结果中有一种或两种分类器的分类结果为高,则专利为中价值专利;

三种分类器的分类结果中均为低,则专利为低价值专利。

7.一种基于多重语义融合的专利价值信息分析装置,其特征在于,包括:

信息获取和预处理模块:用于从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后的图像信息;

文本语义特征提取模块:用于将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;

图像特征提取模块:用于将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

分类模块:用于将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

价值分析模块:用于根据三种分类器的分类结果,分析专利价值。

8.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现权利要求1至6任一所述的方法步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。

说明书
技术领域

本发明涉及专利价值分析领域,特别是指一种基于多重语义融合的专利价值信息分析方 法、装置。

目前关于专利价值的分析基本是通过从业多年的相关领域专家的评定方式进行,这种评 定方式很大程度上依赖于专家经验,主观性强,给专利价值的分析带来了很大的风险,且这 个过程速度慢,效率低,花费巨大。现有技术中缺乏系统的、面向大众的有效专利价值分析 方法。

本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于多重语义融合的专利 价值信息分析方法,该方法运用前沿的深度学习技术,对专利的非结构化数据特征、文本语 义特征以及图像特征等多重特征进行提取和分析,实现全方位对专利价值进行评估,整个分 析过程不依赖于专家经验,便捷速度快,且准确度高。

本发明采用如下技术方案:

一种基于多重语义融合的专利价值信息分析方法,其特征在于,包括如下步骤:

从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文 本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后 的图像信息;

将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输 入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试 集输入训练好的语义分类模型Bert,提取文本语义特征;

将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输 入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像 信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入 MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

根据三种分类器的分类结果,分析专利价值。

具体地,所述专利的数值信息包括但不限于:数值信息包括:引用次数、专利权利要求、 同组引用次数、被引用专利数量、公开年、申请年、5年内被引用次数、3年内被引用次数、 简单同族被引用专利总数、引用专利数量、PatSnap同族被引用专利总数、INPADOC同族被引 用专利总数、文献代码、受理局、专利类型、简单法律状态、IPC主分类号、诉讼案件数、非专利引用文献数量、当前申请人数量、非专利引用文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息包括但不限于:专利摘要附图和专利说明书附图。

具体地,所述文本语义特征包括:语义特征。

具体地,所述图像特征包括:纹理特征、形状特征。

具体地,所述XGBoost分类器、MLP分类器和ResNet分类器的训练方法为:采用机器学 习中半监督学习算法Tri-training。

具体地,所述根据三种分类器的分类结果,分析专利价值;具体包括:

三种分类器的分类结果均为高,则专利为高价值专利;

三种分类器的分类结果中有一种或两种分类器的分类结果为高,则专利为中价值专利;

三种分类器的分类结果中均为低,则专利为低价值专利。

本发明实施例另一方面提供一种基于多重语义融合的专利价值信息分析装置,包括:

信息获取和预处理模块:用于从专利数据库中获取专利的数值信息、文本信息和图像信 息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预 处理后的文本信息和预处理后的图像信息;

文本语义特征提取模块:用于将预处理后的文本信息分为文本信息训练集和文本信息测 试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型 Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;

图像特征提取模块:用于将预处理后的图像信息分为图像信息训练集和图像信息测试集, 所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型 DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

分类模块:用于将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文 本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

价值分析模块:用于根据三种分类器的分类结果,分析专利价值。

本发明实施例再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器 上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实 现上述基于多重语义融合的专利价值信息分析方法步骤。

本发明实施例又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储 有计算机程序,所述计算机程序被处理器执行时实现基于多重语义融合的专利价值信息分析 方法步骤。

由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:

(1)本发明采用语义分类模型Bert以及图像分类模型Densenet,对专利的非结构化数 据特征、文本语义特征以及图像特征等多重特征进行提取和分析,实现全方位对专利价值进 行评估,整个分析过程不依赖于专家经验,便捷速度快,且准确度高。

(2)从专利数据库中获取专利的数值信息、文本信息和图像信息,具体包括:数值信息 包括:引用次数、专利权利要求项数、同族引用次数、被引用专利数量、公开年、申请年、5 年内被引用次数、3年内被引用次数、简单同族被引用专利总数、引用专利数量、PatSnap同 族被引用专利总数、INPADOC同族被引用专利总数、文献代码、受理局、专利类型、简单法 律状态、IPC主分类号、诉讼案件数、非专利引用文献数量、当前申请人数量、非专利引用 文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族 成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息 包括但不限于:专利摘要附图和专利说明书附图;利用这些信息进行分析处理,详细且全面。

(3)本发明实施例在进行专利价值的分类时,不同类型的特征采用不同的分类器进行处 理,充分体现不同分类器的分类优势,提高分类准确性,从而实现专利价值的准确分析。

图1为本发明实施例的方法的整体流程图;

图2为本发明实施例的方法的结构框图;

图3为本发明实施例提供的装置示意图;

图4为本发明实施例提供的一种电子设备的示意图;

图5为本发明实施例提供的计算机可读存储介质的示意图。

以下通过具体实施方式对本发明作进一步的描述。

如图1,本发明实施例提供一种基于多重语义融合的专利价值信息分析方法流程图,图2 为本发明实施例的方法的结构框图;具体包括如下步骤:

S101:从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信 息、文本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预 处理后的图像信息;

具体地,所述专利的数值信息包括但不限于:数值信息包括:引用次数、专利权利要求项 数、同族引用次数、被引用专利数量、公开年、申请年、5年内被引用次数、3年内被引用次 数、简单同族被引用专利总数、引用专利数量、PatSnap同族被引用专利总数、INPADOC同族 被引用专利总数、文献代码、受理局、专利类型、简单法律状态、IPC主分类号、诉讼案件 数、非专利引用文献数量、当前申请人数量、非专利引用文献数量、发明人数量、PatSnap同族成员数量、数据库、简单同族成员数量、INPADOC同族成员数量;所述专利的文本信息包括但不限于:专利摘要、专利标题;所述专利的图像信息包括但不限于:专利摘要附图和专利说明书附图。

其中将获取的数值信息、文本信息和图像信息进行预处理,对于获取的专利的数值信息, 如引用次数、专利权利要求项数,同族引用次数等,将其中的数值拼接得到一个数值向量; 对于获取的文本信息,如专利摘要、专利标题,以专利标题:{},专利摘要{}”的格式进行拼 接;对于专利信息中的图像信息,将其中的摘要附图和说明书附图的图像大小均修改为特定 尺寸。

S102:将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训 练集输入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信 息测试集输入训练好的语义分类模型Bert,提取文本语义特征;

将预处理后的文本信息分为文本信息训练集和文本信息测试集,对于训练集,专利的价 值已经预先由相关领域专家进行分析,并给出相应的标签标记;送入语义分类模型Bert中进 行训练;得到训练好的语义分类模型Bert,将所述文本信息测试集输入训练好的语义分类模 型Bert,提取文本语义特征;文本语义特征包括:语义特征。

模型Bert,是深度学习在自然语言处理领域的最新模型,在自然语言处理领域表现出优 异的性能;BERT模型是一个预训练语言表示模型(pre-trained languagerepresentations model)。所谓预训练语言表示模型,就是先用这个模型在可与最终任务无关的大数据集上训 练处语言的表示,然后将学到的知识(表示)用到任务相关的语言表示上。这样做的原因是 考虑到(1)若任务相关的数据集可能很小,小数据无法反映出语言间的复杂关系,同样也很 容易让复杂的深度网络模型过拟合;(2)若任务相关的数据集很大,大数据上的训练时间很 长,要在短时间内、特别是有限计算资源下利用深度网络学到相关的信息是困难的。基于特 征的方法利用预训练好的模型提取文本特征,并将所提取的特征作为额外的特征加入到针对 特定任务的表示模型之中;基于微调的方法则是使用特定任务的数据集和标签来微调预训练 好的模型(网络)参数,从而使得预训练的模型能够适应特定任务。

S103:将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训 练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所 述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

将预处理后的图像信息分为图像信息训练集和图像信息测试集,对于训练集,专利的价 值已经预先由相关领域专家进行分析,并给出相应的标签标记;送入图像分类模型DenseNett 中进行训练;得到训练好的图像分类模型DenseNet,提取图像特征,具体地,所述图像特征 包括:纹理特征、形状特征。

S104:将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特 征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

一个专利具有很多种信息,专利的价值也不是通过专利的单一信息进行判定,需要综合 多种信息来评估分析专利的价值,而目前的分类器中针对不同的类型的特征表现的性能也大 不相同,为了能够实现准确的分类和专利价值信息分析,在本发明实施例中,不同类型的特 征采用不同的分类器模型,实现不同类型特征的准确分类,并根据多种分类器的分类结果共 同评估专利的价值,从而实现专利价值的准确分析。

S105:根据三种分类器的分类结果,分析专利价值。

具体地,所述根据三种分类器的分类结果,分析专利价值;具体包括:

三种分类器的分类结果均为高,则专利为高价值专利;

三种分类器的分类结果中有一种或两种分类器的分类结果为高,则专利为中价值专利;

三种分类器的分类结果中均为低,则专利为低价值专利。

具体地,所述XGBoost分类器、MLP分类器和ResNet分类器的训练方法为:采用机器学 习中半监督学习算法Tri-training。

如图3,本发明实施例另一方面提供一种基于多重语义融合的专利价值信息分析装置30, 包括:

信息获取和预处理模301:用于从专利数据库中获取专利的数值信息、文本信息和图像 信息,并将获取的数值信息、文本信息和图像信息进行预处理,得到预处理后的数值信息、 预处理后的文本信息和预处理后的图像信息;

文本语义特征提取模块302:用于将预处理后的文本信息分为文本信息训练集和文本信 息测试集,所述文本信息训练集输入语义分类模型Bert中进行训练,得到训练好的语义分类 模型Bert,将所述文本信息测试集输入训练好的语义分类模型Bert,提取文本语义特征;

图像特征提取模块303:用于将预处理后的图像信息分为图像信息训练集和图像信息测 试集,所述图像信息训练集输入图像分类模型DenseNet中进行训练,得到训练好的图像分类 模型DenseNet,将所述图像信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

分类模块304:用于将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器, 文本语义特征输入MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

价值分析模块305:用于根据三种分类器的分类结果,分析专利价值。

如图4所示,本发明实施例提供了一种电子设备400,存储器410、处理器420及存储在 存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现以下步骤:

从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文 本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后 的图像信息;

将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输 入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试 集输入训练好的语义分类模型Bert,提取文本语义特征;

将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输 入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像 信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入 MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

根据三种分类器的分类结果,分析专利价值。

在具体实施过程中,处理器420执行计算机程序411时,可以实现图1对应的实施例中 任一实施方式。

如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511, 该计算机程序511被处理器执行时实现如下步骤:

从专利数据库中获取专利的数值信息、文本信息和图像信息,并将获取的数值信息、文 本信息和图像信息进行预处理,得到预处理后的数值信息、预处理后的文本信息和预处理后 的图像信息;

将预处理后的文本信息分为文本信息训练集和文本信息测试集,所述文本信息训练集输 入语义分类模型Bert中进行训练,得到训练好的语义分类模型Bert,将所述文本信息测试 集输入训练好的语义分类模型Bert,提取文本语义特征;

将预处理后的图像信息分为图像信息训练集和图像信息测试集,所述图像信息训练集输 入图像分类模型DenseNet中进行训练,得到训练好的图像分类模型DenseNet,将所述图像 信息测试集输入训练好的图像分类模型DenseNet,提取图像特征;

将预处理后的数值信息作为非结构化数据特征输入XGBoost分类器,文本语义特征输入 MLP分类器,图像特征输入ResNet分类器,分别得出分类结果;

根据三种分类器的分类结果,分析专利价值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计 算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存 储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所 提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易 失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、 电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随 机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得, 诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率 SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、 存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储 器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性 的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还 包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要 素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素 的过程、装置、物品或者方法中还存在另外的相同要素。

上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对 本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

本文发布于:2024-09-22 23:28:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/68891.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议