专利申请授权成功率的预测方法、系统及电子设备

著录项
  • CN202011475523.3
  • 20201215
  • CN112529302A
  • 20210319
  • 中国人民大学
  • 张琳;蒋洪迅
  • G06Q10/04
  • G06Q10/04 G06Q50/18 G06N3/04 G06N3/08 G06F16/35

  • 北京市海淀区中关村大街59号
  • 北京(11)
  • 北京中誉威圣知识产权代理有限公司
  • 李泽中
摘要
本发明公开了一种专利申请授权成功率的预测方法、系统及电子设备,其中专利申请授权成功率的预测方法包括:从国家知识产权局获取已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络。过滤历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对描述文本进行分词和停用词的预处理,整理成语料集合。对语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量。融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测。借此,本发明的专利申请授权成功率的预测方法,可以对专利申请最终授权成功或失败的结果进行预测。
权利要求

1.一种专利申请授权成功率的预测方法,其特征在于,包括:

从国家知识产权局获取已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络;

过滤所述历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对所述描述文本进行分词和停用词的预处理,整理成语料集合;

对所述语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量;以及

融合所述文档向量、所述特征向量和所述异构信息网络,对专利申请的授权成功率进行预测。

2.如权利要求1所述的专利申请授权成功率的预测方法,其特征在于,所述异构信息网络的节点包括专利申请、申请人、申请公司及专利簇其他专利,且所述异构信息网络的关系包括发明关系、合作关系及引用关系。

3.如权利要求1所述的专利申请授权成功率的预测方法,其特征在于,每条所述历史发明数据包括专利申请号、申请日、申请人、申请公司、说明书摘要、权利要求书、详细描述和引用等字段信息。

4.如权利要求1所述的专利申请授权成功率的预测方法,其特征在于,构建所述异构信息网络包括:抽取专利申请人和申请公司分别作为实体,构建一个包括专利、申请人及申请公司三个实体的所述异构信息网络,且根据专利申请查询同一专利簇的其他专利,并作为节点补充至所述异构信息网络中。

5.如权利要求1所述的专利申请授权成功率的预测方法,其特征在于,基于自然语言处理技术的深度学习模型对所述语料集合训练包括:加载基于大规模语科库预训练好的词向量为文本赋予语义信息,并通过一个双向循环神经网络学习潜在的词向量表示,进行维度交换后,得到专利文本的文档向量。

6.如权利要求1所述的专利申请授权成功率的预测方法,其特征在于,基于图卷积神经网络技术的节点分类模型对所述语料集合训练包括:将所述异构信息网络的邻接矩阵作为节点分类模型输入,经过两次基于主动学习的卷积之后,将卷积层的输出再经过一层全连接层得到密集的向量表示,得到所述异构信息网络中每个专利节点的特征向量。

7.如权利要求1所述的专利申请授权成功率的预测方法,其特征在于,融合所述文档向量、所述特征向量和所述异构信息网络,对专利申请的授权成功率进行预测包括:

将所述文档向量、所述特征向量和所述异构信息网络沿X轴拼接,并进行向量归一化,作为融合模型的输入特征;

将所述输入特征馈送到三层的全连接网络中,经过中间层的学习之后,最后一层输出最终映射到二维的数字变量,从而得到最终授权成功或失败的预测结果。

8.一种专利申请授权成功率的预测系统,其特征在于,包括:

数据处理模块,用以处理从国家知识产权局获取的已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络;

文本分类模块,用以过滤所述历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对所述描述文本进行分词和停用词的预处理,整理成语料集合;

节点分类模块,用以对所述语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量;以及

特征融合模块,用以融合所述文档向量、所述特征向量和所述异构信息网络,对专利申请的授权成功率进行预测。

9.一种电子设备,其特征在于,包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任意一项所述的专利申请授权成功率的预测方法。

说明书
技术领域

本发明是关于一种专利申请授权成功率的预测方法、系统及电子设备。

专利作为企业的内部资源,具有稀缺、不可模仿和不可替代性,因此是企业获得持续竞争优势的资源基础。出于战略原因,每年都有很多企业申请大量专利,但是专利申请并不是一项轻松的任务,尤其是在申请费用和等待时间两个方面;而且耗费了申请费用和等待时间之后,专利申请的通过率也并不高。专利的授予和拒绝影响着专利组合管理和公司投资决策,因此在专利申请得到审查之前预先了解授权的可能性,对于申请公司而言,可以提前部署专利战略、开展技术投资活动,即使在专利最终未获得授予的情况下,申请人仍希望尽早了解拒绝的决定,以便他们可以优先考虑该技术的其他保护手段。同时对于投资人和公司的竞争对手而言,无论是根据“市场窃取效应”还是“市场溢出效应”,都可以对专利创新进行竞争分析,提取采取措施,避免商业损失。如何在大规模专利网络中学习有效特征并确保较高准确性,使专利申请人能够尽快得到所提交专利的成功可能性,成为目前亟需解决的技术问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

本发明的目的在于提供一种专利申请授权成功率的预测方法、系统及电子设备,其能够对专利申请最终授权成功或失败的结果进行预测。

为实现上述目的,本发明一方面提供了一种专利申请授权成功率的预测方法、系统及电子设备,其中专利申请授权成功率的预测方法包括:从国家知识产权局获取已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络。过滤历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对描述文本进行分词和停用词的预处理,整理成语料集合。对语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量。融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测。

在本发明的一实施方式中,异构信息网络的节点包括专利申请、申请人、申请公司及专利簇其他专利,且异构信息网络的关系包括发明关系、合作关系及引用关系。

在本发明的一实施方式中,每条历史发明数据包括专利申请号、申请日、申请人、申请公司、说明书摘要、权利要求书、详细描述和引用等字段信息。

在本发明的一实施方式中,构建异构信息网络包括:抽取专利申请人和申请公司分别作为实体,构建一个包括专利、申请人及申请公司三个实体的异构信息网络,且根据专利申请查询同一专利簇的其他专利,并作为节点补充至异构信息网络中。

在本发明的一实施方式中,基于自然语言处理技术的深度学习模型对语料集合训练包括:加载基于大规模语科库预训练好的词向量为文本赋予语义信息,并通过一个双向循环神经网络学习潜在的词向量表示,进行维度交换后,得到专利文本的文档向量。

在本发明的一实施方式中,基于图卷积神经网络技术的节点分类模型对语料集合训练包括:将异构信息网络的邻接矩阵作为节点分类模型输入,经过两次基于主动学习的卷积之后,将卷积层的输出再经过一层全连接层得到密集的向量表示,得到异构信息网络中每个专利节点的特征向量。

在本发明的一实施方式中,融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测包括:将文档向量、特征向量和异构信息网络沿X轴拼接,并进行向量归一化,作为融合模型的输入特征。将输入特征馈送到三层的全连接网络中,经过中间层的学习之后,最后一层输出最终映射到二维的数字变量,从而得到最终授权成功或失败的预测结果。

本发明另一方面提供了一种专利申请授权成功率的预测系统,包括:数据处理模块、文本分类模块、节点分类模块以及特征融合模块。数据处理模块,用以处理从国家知识产权局获取的已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络。文本分类模块,用以过滤历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对描述文本进行分词和停用词的预处理,整理成语料集合。节点分类模块,用以对语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量。以及特征融合模块,用以融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测。

与现有技术相比,根据本发明的专利申请授权成功率的预测方法、系统及电子设备,其能够对专利申请最终授权成功或失败的结果进行预测。

图1是根据本发明一实施方式的专利申请授权成功率的预测方法的流程示意图;

图2是根据本发明一实施方式的专利申请授权成功率的预测方法的详细流程示意图;

图3是根据本发明一实施方式的构建异构信息网络节点类型和关系类型的示意图;

图4是根据本发明一实施方式的从国家知识产权局上获取的专利文档信息的示意图;

图5是根据本发明一实施方式的算法架构示意图;

图6是根据本发明一实施方式的电子设备的结构框图。

下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。

图1是根据本发明一实施方式的专利申请授权成功率的预测方法的流程示意图。图2是根据本发明一实施方式的专利申请授权成功率的预测方法的详细流程示意图。图3是根据本发明一实施方式的构建异构信息网络节点类型和关系类型的示意图。图4是根据本发明一实施方式的从国家知识产权局上获取的专利文档信息的示意图。图5是根据本发明一实施方式的算法架构示意图。

如图1至图5所示,第一方面,本发明实施例提供了一种专利申请授权成功率的预测方法包括:S1,从国家知识产权局获取已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络。S2,过滤历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对描述文本进行分词和停用词的预处理,整理成语料集合。S3,对语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量。S4,融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测。

在本发明的一实施方式中,异构信息网络的节点包括专利申请、申请人、申请公司及专利簇其他专利,且异构信息网络的关系包括发明关系、合作关系及引用关系。每条历史发明数据包括专利申请号、申请日、申请人、申请公司、说明书摘要、权利要求书、详细描述和引用等字段信息。

在本发明的一实施方式中,构建异构信息网络包括:抽取专利申请人和申请公司分别作为实体,构建一个包括专利、申请人及申请公司三个实体的异构信息网络,且根据专利申请查询同一专利簇的其他专利,并作为节点补充至异构信息网络中。

在本发明的一实施方式中,基于自然语言处理技术的深度学习模型对语料集合训练包括:加载基于大规模语科库预训练好的词向量为文本赋予语义信息,并通过一个双向循环神经网络学习潜在的词向量表示,进行维度交换后,得到专利文本的文档向量。

在本发明的一实施方式中,基于图卷积神经网络技术的节点分类模型对语料集合训练包括:将异构信息网络的邻接矩阵作为节点分类模型输入,经过两次基于主动学习的卷积之后,将卷积层的输出再经过一层全连接层得到密集的向量表示,得到异构信息网络中每个专利节点的特征向量。

在本发明的一实施方式中,融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测包括:将文档向量、特征向量和异构信息网络沿X轴拼接,并进行向量归一化,作为融合模型的输入特征。将输入特征馈送到三层的全连接网络中,经过中间层的学习之后,最后一层输出最终映射到二维的数字变量,从而得到最终授权成功或失败的预测结果。

第二方面,本发明实施例还提供了一种专利申请授权成功率的预测系统,包括:数据处理模块、文本分类模块、节点分类模块以及特征融合模块。数据处理模块,用以处理从国家知识产权局获取的已公开的专利申请人和申请公司的历史发明数据,并构建异构信息网络。文本分类模块,用以过滤历史发明数据的专利文本信息,仅保留说明书摘要和权利要求部分的描述文本,且对描述文本进行分词和停用词的预处理,整理成语料集合。节点分类模块,用以对语料集合分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型,得到文档向量和特征向量。以及特征融合模块,用以融合文档向量、特征向量和异构信息网络,对专利申请的授权成功率进行预测。

第三方面,图6示出了本发明的另一个实施例的一种电子设备的结构框图。电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。

该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110 执行,以使处理器1110能够执行上述任意方法实施例中的专利申请授权成功率的预测方法。

在实际应用中,本发明的专利申请授权成功率的预测方法、系统及电子设备,从文本内容和申请团队的创新网络两个维度进行了信息挖掘,提出了一个基于深度神经网络和浅层特征融合的分类模型,该模型包括文本挖掘、异构信息网络分析和特征融合三个部分,使用自然语言处理、图卷积神经网络方法学习特征的分布式表示,最终训练了一个基于全连接神经网络的分类预测模型,并在大量真实样本中进行了验证。跟现有专利申请预测研究使用的多元统计和回归分析方法不同的是,我们使用的方法和特征不再受很强的人工设计限制,而是更加基于数据驱动,在识别专利申请的成功性上取得了显著的预测效果。针对专利申请等待时间长等不确定因素问题,本发明提出了一种基于文档向量和异构网络的深度学习预测算法,该算法可以通过文本挖掘来捕获创新型知识内容、通过构建异构信息网络来捕获合作关系和引用记录,从而挖掘专利的潜在特征并刻画专利发明的技术演变,同时通过神经网络将深层特征进行浅层融合来进行合理的预测。

为实现上述目的,本发明采取一种专利申请授权成功率预测方法,基于融合文档向量和异构网络,其包括以下步骤:S1,从国家知识产权局获取已公开的专利申请人和申请公司的历史发明数据,包括历史申请的专利、历史专利的授权结果、专利簇信息和专利引用记录,并构建一个融合团队合作关系、专利引用关系的异构信息网络;S2,过滤专利文本信息,保留说明书摘要和权利要求部分的描述文本;S3,分别训练基于自然语言处理技术的深度学习模型和基于图卷积神经网络技术的节点分类模型;S4,融合文档向量和异构信息网络两个深度学习模型,对专利申请的授权成功率进行预测。

所述步骤S1中包括以下步骤:S11,从国家知识产权局获取所有专利申请文档的数据,一份文档包括专利申请号、申请时间、申请人、申请公司、说明书摘要、权利要求、详细描述、引用等字段信息;S12,抽取专利申请人和专利申请公司分别作为实体,构建一个包含专利、申请人、申请公司三个实体的异构信息网络,即一个融合团队合作关系的异构信息网络;S13,根据专利申请查询同一专利簇的其他专利,并作为节点补充到异构信息网络中;S14,检索两两专利之间的引用关系,并在异构信息网络中增加节点引用关系。最终异构信息网络节点包括专利申请、申请人、申请公司、专利簇其他专利四类,异构信息网络关系包括发明关系、合作关系、引用关系三类,因此本发明构建的网络是一个融合团队合作关系、专利引用关系的异构信息网络。

所述步骤S2中包括以下步骤:S21,抽取专利申请文档中“说明书摘要”和“权利要求书”两个字段;S22,对文本进行分词和停用词的预处理,整理成语料集合。

所述步骤S3中包括以下步骤:S31,加载基于大规模语料库预训练好的词向量为文本赋予语义信息,通过一个双向的循环神经网络学习潜在的词向量表示,进行维度变换之后,最终得到专利文本的文档向量;S32,将异构信息网络的邻接矩阵作为节点分类模型输入,经过两次基于主动学习的卷积之后,为了得到更有区分度的节点表示,将卷积层的输出再经过一层全连接层得到密集的向量表示,最终得到异构信息网络中每个专利节点的特征向量。

所述步骤S31中计算文档向量表示的方法具体为:首先输入经过预处理的专利文本的“说明书摘要”和“权利要求书”两个字段,加载预训练好的大规模词向量对应获得文本的词嵌入表示;其次,由于词序列是不等长的,因此模型会对文本做长度的截断,并对短的序列做零补齐;接下来,在训练过程中,将词序列和词向量同时输入到嵌入层进行参数学习,嵌入层的输出作为下一层双向的LSTM层的输入,这一步主要是通过双向的循环神经网络学习文本的上下文语序关系;最后,进一步训练提取得到文档级别的文本特征向量。

所述步骤S32中计算网络节点的向量表示的方法具体为:首先,将异构信息网络分解成若干个同质的二部图网络,即只由两种类型的节点组成的图网络;其次,在每个卷积层,分别学习每个二部图网络中节点的深层语义信息;最终,拼接节点在每个二部图网络中得到的向量表示,作为节点的最终输出特征。其中,在每一次迭代的时候,模型将基于主动学习的策略选出一批最有价值的节点并更新这些节点的标签,标签信息作为监督信息反馈到网络模型中,从而提高分类效果。特别需要提到的是,若节点不是某一二部图网络中的元素,则使用零向量代表节点在该二部图网络中的输出特征。

所述步骤S4中包括以下步骤:S41,将来自两个不同向量空间的文档向量和网络向量沿x轴拼接起来,并进行向量归一化,作为融合模型的输入特征;S42将输入特征馈送到三层的全连接网络中,经过中间层的学习之后,最后一层输出最终映射到一个二维的数字变量,得到最终授权成功或失败的预测结果。

如图5算法架构图所示,本发明的系统包括四个模块:

数据处理模块,用于处理从专利网站上各个站点获取的文本信息、申请团队背景信息以及专利之间的引用信息,并构建一个融合团队合作关系、专利引用关系的异构信息网络;

文本分类模块,用于根据预训练好的词向量,使用基于双向循环神经网络的分类模型对专利文本进行潜在的语义学习,进行维度变换之后,并最终得到专利文本的文档向量。该基于双向循环神经网络的分类模型包括嵌入层模块、双向循环神经网络模块、批量归一化模块、Dropout模块和全连接神经网络模块:嵌入层模块用于将专利摘要和专利权力说明书两个部分的文本转换为密集型向量,得到目标专利向量;双向循环神经网络模块用于对一段文本中前后词序列向量进行计算,得到每项专利对应的文档向量;批量归一化模块用于在神经网络中对权重参数做归一化,从而将有偏的权重分布拉回到正态分布,在深度学习中是一种常用且有效的阈值控制方法;Dropout模块用于在神经网络中对权重参数进行某一概率下的重置,其他参数保持不变,从而保证神经网络学习的泛化能力,减轻过拟合的可能性;全连接神经网络模块以所述Dropout模块得到的向量作为输入,通过多层神经网络对向量进行线性变换,得到最终的专利文档向量。

节点分类模块,用于基于主动学习的异构网络嵌入模型学习网络中节点的分布式表示,并经过全连接层得到密集的向量表示,最终得到异构信息网络中每个专利节点的特征向量。该基于主动学习的异构网络嵌入模型包括异构网络判别模块和主动学习模块:异构网络判别模块通过卷积操作聚合网络中邻居节点的信息并更新到当前专利节点,并拼接所有二部图网络的结果作为节点的特征向量,若节点不是某一二部图网络中的元素,则使用零向量代表节点在该二部图网络中的输出向量;主动学习模块综合使用了网络中心性、卷积信息熵、卷积信息密度三种主动学习的策略,并在每次迭代学习中计算得到网络中最具不确定性和最具代表性的节点,使用这些节点的标注结果来提高节点分类模型的分类效果。

特征融合模块,用于在特征层面融合文档向量和异构信息网络两个深度学习模型,对专利申请的授权成功率进行预测,得到一项专利最终授权成功或失败的预测结果。

总之,本发明的专利申请授权成功率的预测方法、系统及电子设备,其能够对专利申请最终授权成功或失败的结果进行预测,且不再受人工设计限制,而是更加基于数据驱动。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

本文发布于:2024-09-24 18:27:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/85419.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议