一种基于知识图谱的专利IPC分类号推荐方法及装置

著录项
  • CN202111009919.3
  • 20210831
  • CN114357086A
  • 20220415
  • 黑龙江阳光惠远信息技术有限公司
  • 石振锋;王嘉瑜;孙赟星
  • G06F16/28
  • G06F16/28

  • 黑龙江省哈尔滨市高新技术产业开发区科技创新城创新三路600号22楼
  • 黑龙江(23)
  • 哈尔滨市阳光惠远知识产权代理有限公司
  • 刘景祥
摘要
一种基于知识图谱的专利IPC分类号推荐方法及装置,涉及数据分析领域,目的是为了解决现有的确定专利所属技术领域的方法依赖人工分析,耗时长,效率低,无法满足企业和用户的需求的问题。所述方法包括:构建专利知识图谱,利用TransE模型对图谱中的实体进行向量化表示,得到发明名称的向量化表示;利用发明名称的向量化表示计算查询专利与数据库中各专利之间的相似度,将与查询专利相似度最高的M件专利作为推荐的类似专利;将类似专利中出现次数最高的N个IPC分类号作为推荐的IPC分类号。所述装置包括专利知识图谱构建模块、实体向量化模块、相似度计算模块和IPC分类号推荐模块。
权利要求

1.一种基于知识图谱的专利IPC分类号推荐方法,其特征在于,包括:

构建专利知识图谱,所述专利知识图谱包含查询专利和与所述查询专利具有相同技术领域的若干件专利的实体以及各实体之间的关系,所述实体包括申请人、发明人、IPC分类号、发明名称以及关键词;

利用TransE模型对所述专利知识图谱中的实体进行向量化表示,得到所述专利知识图谱中每件专利的发明名称的向量化表示;

利用发明名称的向量化表示计算所述查询专利与数据库中各专利之间的相似度,将与所述查询专利相似度最高的M件专利作为推荐的类似专利;

统计推荐的所有类似专利的IPC分类号出现的次数,将出现次数最高的N个IPC分类号作为推荐的IPC分类号。

2.根据权利要求1所述的方法,其特征在于,所述构建专利知识图谱包括:

从专利检索数据库中检索出与所述查询专利具有相同技术领域的若干件专利,将所述若干件专利与所述查询专利合并为专利领域数据库;

提取所述专利领域数据库中每件专利的申请人、发明人、IPC分类号、发明名称以及关键词作为实体;

将每件专利的实体及各实体之间的关系保存至Neo4j图数据库中,形成专利知识图谱。

3.根据权利要求1或2所述的方法,其特征在于,所述相似度表示为:利用发明名称的向量化表示计算得到的所述查询专利与所述专利知识图谱中各专利之间的欧式距离。

4.根据权利要求1所述的方法,其特征在于,M≥10。

5.根据权利要求1所述的方法,其特征在于,N的值为3。

6.一种基于知识图谱的专利IPC分类号推荐装置,其特征在于,包括:

专利知识图谱构建模块,其配置成构建专利知识图谱,所述专利知识图谱包含查询专利和与所述查询专利具有相同技术领域的若干件专利的实体以及各实体之间的关系,所述实体包括申请人、发明人、IPC分类号、发明名称以及关键词;

实体向量化模块,其配置成利用TransE模型对所述专利知识图谱中的实体进行向量化表示,得到所述专利知识图谱中每件专利的发明名称的向量化表示;

相似度计算模块,其配置成利用发明名称的向量化表示计算所述查询专利与数据库中各专利之间的相似度,将与所述查询专利相似度最高的M件专利作为推荐的类似专利;和

IPC分类号推荐模块,其配置成统计推荐的所有类似专利的IPC分类号出现的次数,将出现次数最高的N个IPC分类号作为推荐的IPC分类号。

7.根据权利要求6所述的装置,其特征在于,所述专利知识图谱构建模块包括:

专利领域数据库构建子模块,其配置成从专利检索数据库中检索出与所述查询专利具有相同技术领域的若干件专利,将所述若干件专利与所述查询专利合并为专利领域数据库;

实体提取子模块,其配置成提取所述专利领域数据库中每件专利的申请人、发明人、IPC分类号、发明名称以及关键词作为实体;和

专利知识图谱构建子模块,其配置成将每件专利的实体及各实体之间的关系保存至Neo4j图数据库中,形成专利知识图谱。

8.根据权利要求6或7所述的装置,其特征在于,所述相似度表示为:利用发明名称的向量化表示计算得到的所述查询专利与所述专利知识图谱中各专利之间的欧式距离。

9.根据权利要求6所述的装置,其特征在于,M≥10。

10.根据权利要求6所述的装置,其特征在于,N的值为3。

说明书
技术领域

本申请涉及数据分析领域,具体涉及专利所属技术领域预测技术。

面对数量如此庞大的专利数据,如何从这些数据中有效地获取不同领域的 信息、如何准确掌握当下不同行业所属领域的科学技术发展情况、以及如何掌 握本行业较为先进的技术成为企业迫切的需求。随着世界科技竞争日益激烈, 针对专利的各种分析逐步成为热门领域。

在专利申请过程中,需要根据专利的基本信息对专利所属技术领域进行划 分,这是一项复杂繁琐的工作,如何有效地实现专利技术领域的推荐成为企业 或者用户值得研究的一项工作。

通常,确定专利所属技术领域主要是通过人工分析专利文本中的信息,与 现有技术领域进行对比,进一步在专业技术人员指导下确定技术范围。但是随 着专利数据快速增长,人工分析花费的时间越来越长、成本越来越高,有时候 难以满足企业和用户的需要。因此,如何高效、准确地确定专利所属技术领域 成为人们研究的方向。

本申请的目的是为了解决现有的确定专利所属技术领域的方法依赖人工 分析,耗时长,效率低,无法满足企业和用户的需求的问题,提供一种基于知 识图谱的专利IPC分类号推荐方法及装置。

本申请的一种基于知识图谱的专利IPC分类号推荐方法包括:

构建专利知识图谱,所述专利知识图谱包含查询专利和与所述查询专利 具有相同技术领域的若干件专利的实体以及各实体之间的关系,所述实体包 括申请人、发明人、IPC分类号、发明名称以及关键词;

利用TransE模型对所述专利知识图谱中的实体进行向量化表示,得到所 述专利知识图谱中每件专利的发明名称的向量化表示;

利用发明名称的向量化表示计算所述查询专利与数据库中各专利之间的 相似度,将与所述查询专利相似度最高的M件专利作为推荐的类似专利;

统计推荐的所有类似专利的IPC分类号出现的次数,将出现次数最高的 N个IPC分类号作为推荐的IPC分类号。

可选地,所述构建专利知识图谱包括:

从专利检索数据库中检索出与所述查询专利具有相同技术领域的若干件 专利,将所述若干件专利与所述查询专利合并为专利领域数据库;

提取所述专利领域数据库中每件专利的申请人、发明人、IPC分类号、 发明名称以及关键词作为实体;

将每件专利的实体及各实体之间的关系保存至Neo4j图数据库中,形成 专利知识图谱。

可选地,所述相似度表示为:利用发明名称的向量化表示计算得到的所 述查询专利与所述专利知识图谱中各专利之间的欧式距离。

可选地,M≥10。

可选地,N的值为3。

本申请的一种基于知识图谱的专利IPC分类号推荐装置包括:

专利知识图谱构建模块,其配置成构建专利知识图谱,所述专利知识图 谱包含查询专利和与所述查询专利具有相同技术领域的若干件专利的实体以 及各实体之间的关系,所述实体包括申请人、发明人、IPC分类号、发明名 称以及关键词;

实体向量化模块,其配置成利用TransE模型对所述专利知识图谱中的实 体进行向量化表示,得到所述专利知识图谱中每件专利的发明名称的向量化 表示;

相似度计算模块,其配置成利用发明名称的向量化表示计算所述查询专 利与数据库中各专利之间的相似度,将与所述查询专利相似度最高的M件专 利作为推荐的类似专利;和

IPC分类号推荐模块,其配置成统计推荐的所有类似专利的IPC分类号 出现的次数,将出现次数最高的N个IPC分类号作为推荐的IPC分类号。

可选地,所述专利知识图谱构建模块包括:

专利领域数据库构建子模块,其配置成从专利检索数据库中检索出与所 述查询专利具有相同技术领域的若干件专利,将所述若干件专利与所述查询 专利合并为专利领域数据库;

实体提取子模块,其配置成提取所述专利领域数据库中每件专利的申请 人、发明人、IPC分类号、发明名称以及关键词作为实体;和

专利知识图谱构建子模块,其配置成将每件专利的实体及各实体之间的关 系保存至Neo4j图数据库中,形成专利知识图谱。

可选地,所述相似度表示为:利用发明名称的向量化表示计算得到的所述 查询专利与所述专利知识图谱中各专利之间的欧式距离。

可选地,M≥10。

可选地,N的值为3。

本申请的一种基于知识图谱的专利IPC分类号推荐方法及装置,通过构建 专利知识图谱将一件专利的申请人、发明人、IPC分类号、发明名称以及关键 词这五个实体之间联系起来,然后用TransE模型对实体进行向量化表示,得到 发明名称的向量化表示,发明名称的向量化表示包含了各实体之间的关系,因 此,用发明名称的向量化表示计算两件专利之间的欧式距离作为相似度能够更 加准确地反映出两件专利的相似度,据此推荐出与查询专利相似度最高的若干 件专利,并从中选取出现次数最多的IPC分类号作为推荐的IPC分类号,上述 方法及装置的准确率远高于常规的基于内容的专利推荐算法的准确率。

图1是本申请实施方式一所述的一种基于知识图谱的专利IPC分类号推荐 方法的示意性流程图;

图2是本申请实施方式一所述的一种基于知识图谱的专利IPC分类号推荐 方法所采用的专利知识图谱;

图3是本申请实施方式一中的负采样流程图;

图4是本申请实施方式一中两种方法预测准确率对比示意图;

图5是本申请实施方式二所述的一种基于知识图谱的专利IPC分类号推荐 装置的结构示意图。

具体实施方式一:本实施例中,专利所属的技术领域由IPC分类号表示。 如图1所示,本实施方式所述的一种基于知识图谱的专利IPC分类号推荐方法一 般性地可以包括如下步骤S1至步骤S4。

步骤S1、构建专利知识图谱

对于一件查询专利,首先需要确定该专利所属的技术领域,这里的技术领 域是指能够直接确定的技术领域,通常来说所涵盖的范围较大,例如物理、化 学、生物等,也可以是这些技术领域细分后的领域,例如物理技术领域范围内 的光学、力学、电磁学等。确定了查询专利所属的技术领域后,在专利检索数 据库中检索出属于该技术领域的专利,并从检索结果中选取若干件,本实施例 对选取的专利数量不作限制,可以是几百件、也可以是几千件,所选取的专利 类型也不作限制,可以是发明专利、也可以是实用新型专利、也可以两种类型 都包括。

将所述查询专利与选取的若干件专利合并为专利领域数据库,提取该专利 领域数据库中每件专利的申请人、发明人、IPC分类号、发明名称以及关键词 作为实体。

一件专利可能存在几个IPC分类号,作为实体的IPC分类号可以是一件专 利的主分类号,也可以是一件专利的所有IPC分类号,当选择一件专利的所有 IPC分类号都作为实体时,查询专利IPC分类号推荐的准确度会高一些。

一件专利可能存在几个发明人,需要对发明人数据经过简单处理变为一对 一数据使用。

本实施例的主要目的是实现专利技术领域的推荐,因此,从专利的发明名 称和摘要中抽取得到的关键词对专利技术领域推荐有很重要的作用,所以要充 分提取专利发明名称和摘要中的关键词信息。本实施例结合IT-IDF算法和 Textrank算法的各自优势,采用这两种算法分别提取每个专利排名前10的关键 词,然后对提取到的关键词权重进行加权平均,将权重排名前5对应的分词结 果作为专利的关键词。例如,以公开号为CN102058606B和公开号为 CN102151264B的专利为例,采用TF-IDF算法提取排名前10关键词,结果如表 1所示;采用TextRank算法提取排名前10关键词结果如表2所示,通过对TF-IDF 算法和TextRank算法得到的各关键词权重进行加权融合,得到权重排名前5的 关键词,如表3所示。

表1采用TF-IDF算法提取到的排名前10的关键词

表2采用Textrank算法提取到的排名前10的关键词

表3权重排名前5的关键词

提取完实体后,需要对实体的属性进行定义,属性包括对象属性和数据属 性,如表4所示,对象属性描述对象之间的关系,数据属性描述实体的固有属 性。接下来需要定义各实体之间的关系,本实施例定义了“申请”、“发明”、 “技术领域”和“包含”四种关系,申请人与专利之间是申请关系,发明人与 专利之间是发明关系,专利与关键词之间是包含关系,专利与IPC分类号之间 是技术领域所属关系。

表4实体属性

提取完每件专利的实体、并对各实体之间的关系进行了定义之后,便完成 了专利领域本体库的构建。接下来,将专利领域本体库中各专利的实体及实体 之间的关系数据存储在Neo4j图数据库中,便完成了专利知识图谱的构建。图2 给出了专利知识图谱的一部分,图中共涉及14件专利,五种颜的节点分别代 表专利的公开号、关键词、发明人、申请人和IPC分类号,专利知识图谱中用 公开号代表一件专利,公开号也可以替换成专利发明名称或者专利编号,通过 专利知识图谱可以直观的显示出各个实体间的关系。

本实施例的专利领域本体库的构建思路,将专利文本中所含的语义信息抽 取出来,这样专利知识图谱中的实体及关系信息能够比较全面完整的展现出 来,得到的专利知识图谱可以根据用户的不同需求快速全面地将所需的专利信 息检索出来,因此,基于Neo4j图数据库构建的专利知识图谱可以形象地包含 并展示专利的实体、关系及属性信息。

步骤S2、实体向量化表示

通过构建专利知识图谱,能够将专利之间的语义信息相互关联起来,但是 专利知识图谱里面的信息不能直接用来进行推荐,为了能够进一步实现专利 IPC分类号推荐,需要将专利知识图谱里面的实体向量化。专利知识图谱向量 化是将节点(即实体)和边(即表示两个实体之间关系的连线)转化为一个向 量,同时保留原来的语义信息。本实施例采用TransE模型对所述专利知识图谱 中的实体进行向量化表示,将编号为i的专利的发明名称映射成d维向量 Ii=(E1i,E2i,...,Edi)T。

TransE模型的训练过程中需要对目标函数进行优化,为了训练实体和关系 数据,需要正确的三元组,还需要引入负三元组。进行负采样时,通常是随机 替换实体,这样往往会产生错误的样本。基于此问题,本实施例对负采样算法 进行优化,以使最终的专利IPC分类号推荐结果更准确。

建好的专利知识图谱中已经有全部的正三元组,TransE模型中原有的负采 样在面对一对多、多对多这种复杂关系时,随机替换会导致产生许多错的负样 本,影响模型训练效果。例如在一对多关系的数据中,有三元组(h,r,t),也有 三元组(h,r,t'),当为(h,r,t)生成负样本时,若将t替换为t',则会生成错的数据 (h,r,t'),但是在正三元组集合中(h,r,t')是存在的,此时不能认为(h,r,t')是负样 本。为了使采样过程更合理,本实施例引入伯努利抽样算法,伯努利抽样算法 是针对一对一之外的三元组,利用一定的概率替换实体。对于专利知识图谱中 的每一个关系,根据已有三元组数据信息,分别统计头实体在这个关系下对应 的尾实体数量的平均值Ntp和尾实体在这个关系下对应的头实体数量的平均值 Nhp,替换实体的概率p的计算公式为:

此时可以认为替换实体服从参数为p的伯努利分布。用X表示替换实体, 则X的分布律P为:

P{X=x}=px(1-p)1-x

其中x=0,1,x=1表示替换头实体,x=0表示替换尾实体。

通过对负采样算法进行改进,不再随机替换实体数据,能够在很大程度上 避免负采样过程中产生过多的错误负样本,这样可以保留原有正确三元组之间 比较复杂的语义相关关系,进一步使TransE模型在向量化过程中更贴合实际, 改进后的负采样流程如图3所示。

利用TransE模型对专利知识图谱进行向量化,得到各专利发明名称的向量 化表示。

步骤S3、相似度计算

步骤S2中,获得了各专利发明名称的向量化表示后,利用每件专利发明名 称的向量化表示计算查询专利发明名称实体与专利领域数据库中其他各专利 发明名称实体之间的欧式距离d(Ii,Ij):

得到的欧式距离是一个大于0的数,将这个数据归一化到(0,1]之间,得到 相似度sim(Ii,Ii)KG计算公式为:

根据上述公式可知,计算出的数值越接近1,说明两个专利实体语义越接 近,相似度越高。

相似度计算完成后,将所有相似度按降序排列,将与查询专利发明名称实 体相似度最高的前M件(例如10件、20件、或者30件)专利作为推荐的类似专 利。

步骤S4、IPC分类号推荐

统计推荐的M件类似专利的IPC分类号以及每个IPC分类号在这M件类似 专利中出现的次数,将出现次数最高的N个IPC分类号作为推荐的IPC分类号。

以发明名称为“一种注射用艾司奥美拉唑钠冻干制剂及其制备方法”、主 分类号为A61K9/19的发明专利为例,将该专利作为查询专利,分别采用现有 的基于内容的专利推荐算法(Content-Based Patent Recommendation,CB-PR)和 本实施例的基于知识图谱的专利IPC分类号推荐方法分别进行推荐。

采用基于内容的专利推荐算法得到的与该查询专利内容类似的排名前10 的专利数据,如表5所示。

表5基于内容的专利推荐算法得到排名前10的类似专利

排名 发明名称 主分类号 1 一种注射用阿扎胞苷冻干制剂及其制备方法 A61K9/19 2 TRPML1特异性小分子抑制剂ML-SI3的新用途 A61K31/495 3 一种活性氧响应性凝胶贮库及其制备方法与应用 A61K9/06 4 一种磷酸氟达拉滨冻干剂及其制备方法 A61K9/19 5 一种注射用兰索拉唑冻干剂及其制备方法 A61K9/19 6 小儿连翘苷连翘脂素及其衍生物的注射剂 A61K9/08 7 一种他达拉非肠溶片剂及其制备方法 A61K9/36 8 一种注射用硼替佐米冻干粉针的冻干工艺 A61K9/19 9 一种阿扎胞苷冻干粉针剂及其制备方法 A61K9/19 10 生长抑素冻干粉针剂药物组合物及其制备方法 A61K9/19

根据表5可见,与查询专利内容类似的排名前10的专利中,主分类号为 A61K9/19的专利数量仅为6件,主分类号为A61K31/495、A61K9/06、A61K9/08 和A61K9/36的专利数量各为1件。

采用本实施例的基于知识图谱的专利IPC分类号推荐方法得到的与查询专 利相似度排名前10(M=10)的类似专利数据,如表6所示。

表6本实施例的方法得到排名前10的类似专利

根据表6可见,采用本实施例的基于知识图谱的专利IPC分类号推荐方法推 荐的排名前10的专利中,IPC分类号A61K9/19出现9次,IPC分类号A61K31/56 出现1次,当N=1时,将A61K9/19作为推荐的主分类号。

从推荐的排名前10的专利的主分类号可以看出,本实施例基于知识图谱的 专利IPC分类号推荐方法的准确度明显高于基于内容的专利推荐算法。

采用本实施例的基于知识图谱的专利IPC分类号推荐方法对上述发明名称 为“一种注射用艾司奥美拉唑钠冻干制剂及其制备方法”的发明专利进行主分 类号推荐,N取1,M分别取10、20、30、50、100时,推荐结果如表7所示。

表7 N=1、M取不同值时IPC分类号推荐结果

M取值 IPC分类号推荐结果 10 A61K9/19 20 A61K9/19 30 A61K9/19 50 A61K9/19 100 A61K9/19

选取100件已公开的专利作为查询专利对基于内容的专利推荐算法和本 实施例的基于知识图谱的专利IPC分类号推荐方法的准确率进行验证。分别选 取相似度排名前10、前20、前30、前50和前100的专利作为类似专利推荐 结果,将IPC分类号作为技术领域,将两种方法给出的推荐结果与实际技术领 域进行对比,计算出正确结果所占的比例,两种推荐方法对100件查询专利技 术领域预测正确率如图4所示。由图4可以看出,基于知识图谱的专利IPC分 类号推荐方法(Patent Recommendation Based on Knowledge Graph,简称 KG-PR)比基于内容的专利推荐算法(CB-PR)的技术领域预测正确率高了20%, 相对来说,KG-PR算法在进行专利技术领域推荐时更符合实际,也进一步说 明本实施例构建的专利知识图谱在实现专利技术领域推荐方面是非常有效的。

一件专利涉及到的技术领域通常不只一个,将多个IPC分类号作为预测结 果提供给用户以供参考,能够节省用户在确定专利技术领域方面花费的时间, 也能更准确地确定每一件专利所属的技术领域,并且能够方便用户从多方面对 专利进行分析。本实施例结合用户实际需求,对于每件查询专利,将推荐的 30件(M=30)类似专利中出现次数最高的三个(N=3)IPC分类号作为预测 结果推荐给用户,对预测结果进行统计如下:按IPC分类号小组与实际主IPC 分类号进行对比分析,得到100件查询专利的技术领域预测正确率为78%;按 IPC分类号大组与实际主IPC分类号进行对比分析,得到100件查询专利的技 术领域预测正确率为98%。

采用本实施例的基于知识图谱的专利IPC分类号推荐方法对查询专利技 术领域进行预测,选取100件专利作为查询专利,根据专利文本语义相似度大 小进行降序排序,选择相似度排名前30的专利作为推荐的类似专利,统计出 30个类似专利中IPC分类号出现的次数,预测出100件专利的技术领域,然 后与实际技术领域进行对比,得到推荐一个主IPC分类号和推荐多个IPC分 类号两种情况下的正确率,具体数据如表8所示。

表8 100件专利技术领域推荐正确率

根据表8可知,对每件查询专利推荐三个IPC分类号,能够大大提高技术领 域预测的准确率。

本文发布于:2024-09-23 20:13:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/84678.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议