一种专利数据知识图谱的构建方法及装置

著录项
  • CN201811062085.0
  • 20180912
  • CN109189942A
  • 20190111
  • 山东大学
  • 郭伟;张盘龙;鹿旭东;闫中敏;崔立真
  • G06/F1636
  • G06/F1636 G06/F1727 G06/Q5018

  • 山东省济南市高新区舜华路1500号
  • 山东(37)
  • 济南圣达知识产权代理有限公司
  • 杨哲
摘要
本发明公开了一种专利数据知识图谱的构建方法及装置,该方法包括:获取现有专利数据库的专利数据,对专利数据进行预处理统一专利数据格式,并将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;对预处理后的专利数据进行知识抽取,对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;定义专利数据的实体,确定专利数据的主题,根据通用知识图谱标识专利的实体和主题,挖掘实体和主题之间的语义关联关系,构建专利数据知识图谱。
权利要求

1.一种专利数据知识图谱的构建方法,其特征在于,该方法包括:

获取现有专利数据库的专利数据,对专利数据进行预处理统一专利数据格式,并将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;

对预处理后的专利数据进行知识抽取,对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;

定义专利数据的实体,确定专利数据的主题,根据通用知识图谱标识专利的实体和主题,挖掘实体和主题之间的语义关联关系,构建专利数据知识图谱。

2.如权利要求1所述的方法,其特征在于,在本方法中,利用爬虫技术获取现有专利数据库的数据,将数据的按照其获取的专利数据库的分类方法进行分类,并以文本形式存储为专利数据,所述专利数据包括专利名称、摘要、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、主权项和法律状态。

3.如权利要求1所述的方法,其特征在于,所述对专利数据进行预处理统一专利数据格式的具体步骤包括:

判断专利数据所包含的信息是否完整;

若不完整则判断缺少的信息为关键信息或非关键信息;

若该专利数据缺少关键信息则删除,若该专利数据缺少非关键信息则将缺少的信息处补充同一内容文本数据;将所有专利数据的格式进行统一。

4.如权利要求3所述的方法,其特征在于,在本方法中,采用RAKE算法对预处理后的专利数据进行知识抽取,具体步骤包括:

直接获取专利名称、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、和法律状态的数据;

对于摘要和主权项中的内容采用RAKE算法提取关键短语,组成专利知识。

5.如权利要求1所述的方法,其特征在于,在本方法中,构建专利主题库的具体步骤包括:

对每种类型专利数据的分词数据进行数据清洗,去除停用词、标点符号,得到对应的主题原始文件;

采用TextRank算法对每种类型的主题原始文件进行关键词提取,并按照关键词重要性进行排序,选择前三分之一的结果作为该类型的主题词;

在主题原始文件中对主题词进行标记,将存在相邻词组的主题词组合成多词主题词,得到最终的主题词结果;

用获得的主题词结果,为每个类型的专利数据构建主题库,形成专利主题库。

6.如权利要求1所述的方法,其特征在于,在本方法中,构建专利数据知识图谱的具体步骤包括:

定义专利数据的实体,包括专利、申请人、发明人、代理机构和领域;并定义实体对应的属性,将属性值具有唯一性的属性作为其对应专利数据实体的唯一标识,若实体对应属性的属性值均无唯一性,则将属性值进行编码标识作为该实体的唯一标识;通过该唯一标识进行专利数据的实体识别;

确定每篇专利数据的主题关键词,并与该专利数据所对应类型的专利主题库进行匹配,确定该专利主题;若匹配不到则将主题关键词作为候选主题词并确定该专利主题,当候选主题词相关的专利数量累计到预设阈值,则加入专利主题库;

挖掘实体和主题之间的语义关联关系,构建自身实体与两两实体之间的关系,构建专利数据知识图谱。

7.如权利要求6所述的方法,其特征在于,在本方法中,若实体对应属性的属性值均无唯一性,通过实体识别方法区分重名情况,再将重名的属性值分别进行编码标识作为该实体的唯一标识;

所述实体识别方法基于向量空间模型将实体属性的属性值向量化,通过K-means算法聚类,计算聚类结果分布情况的相关性,区分重名的不同实体。

8.如权利要求1所述的方法,其特征在于,该方法还包括接收用户查询指令,根据构建的专利数据知识图谱查询专利信息和关系;和/或

接收用户创建专利演化指令,分析用户创建专利演化指令中指定专利的领域主题,匹配相同领域的其他专利,将匹配结果与该专利通过PAKE算法提取关键词,筛选与该专利关键词相关的匹配结果,并按照时间的进行排序后进行展示。

9.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行根据权利要求1-8中任一项所述的方法。

10.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令用于执行根据权利要求1-8中任一项所述的方法。

说明书
技术领域

本发明属于专利数据分析处理的技术领域,尤其是涉及一种专利数据知识图谱的构建方法及装置。

随着时代的发展,创新在企业生产与发展、学者科学研究等社会各层面变得越来越重要。而专利数据几乎包含了各行各业所有进行创新、发明和解决技术难题的方案,相比较于其他信息资源,专利数据具有信息全面、内容详尽、格式规范、分类科学、带时间戳和有价值等特性。现如今,专利被越来越多的企业重视例如华为、腾讯等,他们会对高校等机构和个人新发布的专利进行关注和分析,提前以较低的代价买断有价值的专利,以便在未来市场中抢占先机。

对专利数据进行分析,能够获取大量有价值的信息,包括其描述的新方案、提出的创新点和解决某些问题使用的新方法。同样地,对发明人和申请人进行分析,可以获得其工作或科研的经历、水平和研究方向等信息。人们通过这些信息,能够更加方便和深刻地了解某一专利的内涵和价值,认识某发明人或企业的核心技术、发展方向和水平等信息,然后为自己进行工作和学习带来方便。

当前,人们在查专利数据时,多是通过相关平台和数据库例如万方数据知识服务平台,基于题名或者作者等简单的信息进行搜索,得到包含特定查词的专利。或者,由对检索的相关领域比较了解的人推荐相关专利,然后自己再去检索。现有的查询方式比较原始,无法支持查询专利之间的相关关系,也无法具体了解某一项技术的发展历程。虽然现在万方数据库知识服务平台等专利数据的平台和服务器已经提供了一些简单的相关专利数据,但是,这些相关专利之间的关联性多是基于文本之间的相似度计算得来的,无法深刻体现专利之间的关联关系。

知识图谱是一种以实体作为节点,以实体之间的语义和逻辑关系作为边的语义网络,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱能够为专利数据建立和展示关联关系,从而实现专利查询和阅读的便捷化、人性化和全面化。但是,当前中文知识图谱在专利数据上的应用仍属于初级的构建阶段,因此,亟需一种专利数据知识图谱的构建方法。

综上所述,针对现有技术中如何基于知识图谱挖掘分析专利数据关联性的问题,尚缺乏有效的解决方案。

针对现有技术中存在的不足,解决现有技术中如何基于知识图谱挖掘分析专利数据关联性的问题,本发明提供了一种专利数据知识图谱的构建方法及装置,有效实现专利数据知识抽取,进而挖掘专利隐藏的主题和定义与构建专利之间多种相关关系。

本发明的第一目的是提供一种专利数据知识图谱的构建方法。

为了实现上述目的,本发明采用如下一种技术方案:

一种专利数据知识图谱的构建方法,该方法包括:

获取现有专利数据库的专利数据,对专利数据进行预处理统一专利数据格式,并将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;

对预处理后的专利数据进行知识抽取,对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;

定义专利数据的实体,确定专利数据的主题,根据通用知识图谱标识专利的实体和主题,挖掘实体和主题之间的语义关联关系,构建专利数据知识图谱。

作为进一步的优选方案,在本方法中,利用爬虫技术获取现有专利数据库的数据,将数据的按照其获取的专利数据库的分类方法进行分类,并以文本形式存储为专利数据,所述专利数据包括专利名称、摘要、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、主权项和法律状态。

作为进一步的优选方案,所述对专利数据进行预处理统一专利数据格式的具体步骤包括:

判断专利数据所包含的信息是否完整;

若不完整则判断缺少的信息为关键信息或非关键信息;

若该专利数据缺少关键信息则删除,若该专利数据缺少非关键信息则将缺少的信息处补充同一内容文本数据;将所有专利数据的格式进行统一。

作为进一步的优选方案,在本方法中,采用RAKE算法对预处理后的专利数据进行知识抽取,具体步骤包括:

直接获取专利名称、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、和法律状态的数据;

对于摘要和主权项中的内容采用RAKE算法提取关键短语,组成专利知识。

作为进一步的优选方案,在本方法中,构建专利主题库的具体步骤包括:

对每种类型专利数据的分词数据进行数据清洗,去除停用词、标点符号,得到对应的主题原始文件;

采用TextRank算法对每种类型的主题原始文件进行关键词提取,并按照关键词重要性进行排序,选择前三分之一的结果作为该类型的主题词;

在主题原始文件中对主题词进行标记,将存在相邻词组的主题词组合成多词主题词,得到最终的主题词结果;

用获得的主题词结果,为每个类型的专利数据构建主题库,形成专利主题库。

作为进一步的优选方案,在本方法中,构建专利数据知识图谱的具体步骤包括:

定义专利数据的实体,包括专利、申请人、发明人、代理机构和领域;并定义实体对应的属性,将属性值具有唯一性的属性作为其对应专利数据实体的唯一标识,若实体对应属性的属性值均无唯一性,则将属性值进行编码标识作为该实体的唯一标识;通过该唯一标识进行专利数据的实体识别;

确定每篇专利数据的主题关键词,并与该专利数据所对应类型的专利主题库进行匹配,确定该专利主题;若匹配不到则将主题关键词作为候选主题词并确定该专利主题,当候选主题词相关的专利数量累计到预设阈值,则加入专利主题库;

挖掘实体和主题之间的语义关联关系,构建自身实体与两两实体之间的关系,构建专利数据知识图谱。

作为进一步的优选方案,在本方法中,若实体对应属性的属性值均无唯一性,通过实体识别方法区分重名情况,再将重名的属性值分别进行编码标识作为该实体的唯一标识;

所述实体识别方法基于向量空间模型将实体属性的属性值向量化,通过K-means算法聚类,计算聚类结果分布情况的相关性,区分重名的不同实体。

作为进一步的优选方案,该方法还包括接收用户查询指令,根据构建的专利数据知识图谱查询专利信息和关系;和/或

接收用户创建专利演化指令,分析用户创建专利演化指令中指定专利的领域主题,匹配相同领域的其他专利,将匹配结果与该专利通过PAKE算法提取关键词,筛选与该专利关键词相关的匹配结果,并按照时间的进行排序后进行展示。

本发明的第二目的是提供一种计算机可读存储介质。

为了实现上述目的,本发明采用如下一种技术方案:

一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种专利数据知识图谱的构建方法。

本发明的第三目的是提供一种终端设备。

为了实现上述目的,本发明采用如下一种技术方案:

一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种专利数据知识图谱的构建方法。

本发明的有益效果:

本发明所述的一种专利数据知识图谱的构建方法及装置,结合已有的通用知识图谱,对专利中核心实体和主题进行标识,挖掘实体和主题词汇之间的语义关联和相关关系,从而构建专利数据的知识图谱。当用户选择标识的核心实体或者主题进行检索时,可以获得专利数据知识图谱中推荐出的相关知识。

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1是本发明的专利数据知识图谱的构建方法流程图;

图2是本发明的实施例1的整体流程图;

图3是本发明的实施例1的数据爬取流程图;

图4是本发明的专利知识图谱效果示意图;

图5是本发明的专利演化折线图效果示意图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。

实施例1:

本实施例1的目的是提供一种专利数据知识图谱的构建方法。

为了实现上述目的,本发明采用如下一种技术方案:

如图1所示,

一种专利数据知识图谱的构建方法,该方法包括:

步骤(1):获取现有专利数据库的专利数据,对专利数据进行预处理统一专利数据格式,并将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;

步骤(2):对预处理后的专利数据进行知识抽取,对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;

步骤(3):定义专利数据的实体,确定专利数据的主题,根据通用知识图谱标识专利的实体和主题,挖掘实体和主题之间的语义关联关系,构建专利数据知识图谱。

如图2所示,本实施例的步骤(1)的具体步骤包括:

步骤(1-1):利用爬虫技术获取现有专利数据库的数据,将数据的按照其获取的专利数据库的分类方法进行分类,并以文本形式存储为专利数据,所述专利数据包括专利名称、摘要、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、主权项和法律状态。

在本实施例中,如图3所示,使用Python爬虫技术获取万方数据库的专利数据,Python爬虫架构由调度器、URL管理器、网页下载器、网页解析器和应用程序五部分组成。其中,调度器负责调度URL管理器、下载器、解析器之间的协调工作;URL管理器包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL;网页下载器对传入的URL地址网页内容进行下载,把网页转换为字符串,本专利使用的下载器为Python官方模块urllib2;网页解析器解析网页字符串,通过正则表达式提取所需专利数据;应用程序实现将获取的专利数据按照万方数据库的分类方法进行分类,并以文本形式存储专利数据。

例如,本实施例使用Python爬虫技术对万方数据库人类生活必需大类下包含的农业、鞋类等37个子类的专利数据进行爬取,基于深度优先规则依次获取各个子类别的专利数据。将网页解析的字符串结果以文本形式进行存储,专利数据在文本中按照组成部分按行存储

步骤(1-2):对专利数据进行预处理统一专利数据格式,具体步骤包括:

步骤(1-2-1):判断专利数据所包含的信息是否完整;完整的专利数据包括专利名称、摘要、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、主权项和法律状态17部分;

步骤(1-2-2):若不完整则判断缺少的信息为关键信息或非关键信息;

步骤(1-2-3):若该专利数据缺少关键信息则删除,在本实施例中对于缺少专利名称、摘要、发明人、公开日和主权项等关键信息的专利数据进行清理;

若该专利数据缺少非关键信息则将缺少的信息处补充同一内容文本数据;在本实施例中,对于缺少申请日期、代理机构等非关键信息的专利数据,将所缺信息补充,内容定为无,让所有专利数据内容都包括上述17部分,并以文本形式存储。将所有专利数据的格式进行统一。依据整理好的专利数据格式,设计关系数据库,使用MySQL数据库存储专利数据。

在本实施例中,每一篇专利数据使用一个文本文件存储,文件名称为专利名称,对所有文本文件的名称进行分析,中、英文以外的文件全部删除。对于保留的专利文本数据,依次对所有文本逐行分析是否缺失专利的组成部分,缺失重要组成部分的数据抛弃掉,缺失次要组成部分的数据补充相应内容为无。依据本专利规定的专利数据由17部分组成设计MySQL数据库,并将文本数据存入其中。

步骤(1-3):将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;将每种分类存储的文本专利数据进行合并,同一类型所有专利数据合并为一个文本文件,使用结巴分词技术对该文本进行分词,得到每种类型的分词数据,用于后续计算。

在本实施例中,将整理好的文本数据,按照所属类别情况,合并为37个文本文件,使用结巴分词技术,分别对这37个文件进行分词处理。如图2所示,本实施例的步骤(2)的具体步骤包括:

步骤(2-1):对预处理后的专利数据进行知识抽取;

对每一篇专利数据的分析属于短文本分析领域,专利数据中包含的专业术语一般为关键的短语,在本实施例中,采用RAKE算法对预处理后的专利数据进行知识抽取,具体步骤包括:

步骤(2-1-1):直接获取专利名称、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、和法律状态的数据;

步骤(2-1-2):对于摘要和主权项中的内容采用RAKE算法提取关键短语,组成专利知识。采用RAKE算法使用标点符号将一篇文档分为若干句,然后对每一个分句,使用停用词将分局分为若干短语,将短语作为最终提取结果的候选短语。

短语可以分为若干词,通过计算每个词的得分,累加得出短语的得分,进行排序后,将候选短语总数前三分之一作为提取的最终结果。词得分计算公式如下:

wordScore(w)=wordDegree(w)/wordFrequency(w)

其中,wordScore(w)表示词w得分。wordDegree(w)表示词w的度,即词w出现的总次数与词w与每个短语中词共现的次数之和。wordFrequency(w)表示词w在文档中出现的总次数。

使用RAKE算法对MySQL数据库中的专利数据进行知识抽取,其中,专利名称、专利类型、专利号、申请日期、公开日期、公开号、主分类号、分类号、申请人、发明人、主申请地址、专利代理机构、代理人、国别省市代码、和法律状态的数据可以直接获取,对专利数据的摘要和主权项内容,使用RAKE算法提取关键短语,组成专利知识。

步骤(2-2):对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;

构建专利主题库的具体步骤包括:

步骤(2-2-1):对每种类型专利数据的分词数据进行数据清洗,去除停用词、标点符号,得到对应的主题原始文件;

步骤(2-2-2):采用TextRank算法对每种类型的主题原始文件进行关键词提取,并按照关键词重要性进行排序,选择前三分之一的结果作为该类型的主题词;

在本实施例中,采用的TextRank算法由PageRank算法改进而来,是一种用于文本的基于图的排序算法,通过将文本分割为若干组成部分(词、句)并建立图模型,利用投票机制对文本中的重要成分进行排序,实现提取文本关键词的功能。具体公式如下:

步骤(2-2-3):在主题原始文件中对主题词进行标记,将存在相邻词组的主题词组合成多词主题词,得到最终的主题词结果;

在本实施例中,将主题原始文件的分词结果作为候选关键词,构建候选关键词图G=(V,E),其中V为节点集,由候选关键词组成。采用共现关系构造任意两点之间的边,两个节点之间存在边仅当他们对应的词汇在长度为K的窗口共现过,K表示窗口大小,即最多共现K个词。W表示两个候选关键词W与W之间的权重。d表示阻尼因子,取值为0.85,In(V)表示指向词W的候选关键词集合,Out(V)表示词W所指向的候选关键词集合。WS(V)表示节点V的权重值,初始时设置所有节点的权重值都为1。

根据上述公式迭代传播各节点的权重,直至收敛。对节点权重进行倒序排序,从而得到重要性占前三分之一的关键词,即主题词。在主题原始文件对这些主题词进行标记,若存在相邻词组,则组合成多词主题词。

步骤(2-2-4):用获得的主题词结果,为每个类型的专利数据构建主题库,形成专利主题库。

在本实施例中,将分词结果进行清理,去除停用词和标点符号。使用TextRank算法依次提取所有分类数据主题词,每个类别选择TOP三分之一关键词为该类专利数据的主题词,构建人类生活必需类专利的主题库。

如图2所示,本实施例的步骤(3)为构建专利数据知识图谱,当前存在的知识图谱包括谷歌知识图谱、百度知识图谱和搜狗知立方。利用已有的知识源作为实现专利数据知识图谱构建的知识源,通过获取百度百科、互动百科和的实体和关系,并加以集成与清洗得到高质量的通用知识图谱。结合通用知识图谱,采用迭代的方法不断扩充专利的实体,挖掘实体之间的语义和主题上的相关关系,构建专利数据知识图谱。具体步骤包括:

步骤(3-1):实体定义与识别

定义专利数据的实体,包括专利、申请人、发明人、代理机构和领域;基于NEO4J图数据库构建专利知识图谱。

并定义实体对应的属性,专利属性包括专利号、专利名称、公开号、专利类型、分类号和法律状态,申请人属性包括申请人名称、地址,发明人属性为姓名,代理机构属性为代理机构名称,领域属性为主题词。

将属性值具有唯一性的属性作为其对应专利数据实体的唯一标识,若实体对应属性的属性值均无唯一性,则将属性值进行编码标识作为该实体的唯一标识;通过该唯一标识进行专利数据的实体识别;

编码样例:申请人张**,编码为:apply03678;发明人张**,编码为:invent65478。

在本实施例中,由于专利名称有重名的情况,所以使用专利号唯一标识专利实体。申请人分为高校、企业等机构和个人两种情况,申请人为机构时使用机构名称唯一标识申请人实体,申请人为个人时,存在重名情况,所以对个人进行识别编码后,使用唯一申请人编码标识申请人实体。发明人存在重名情况,对发明人进行识别编码,使用唯一发明人编码识别发明人实体。使用代理机构名称唯一标识代理机构实体。使用描述领域的主题词唯一标识领域实体。在本方法中,若实体对应属性的属性值均无唯一性,通过实体识别方法区分重名情况,再将重名的属性值分别进行编码标识作为该实体的唯一标识;

所述实体识别方法基于向量空间模型将实体属性的属性值向量化,通过K-means算法聚类,计算聚类结果分布情况的相关性,区分重名的不同实体。

因为专利号是唯一的,所以专利实体通过专利号即可实现识别。当申请人为高校、企业等机构时,可以通过通用知识图谱识别出来,当申请人为个人时,首先通过实体识别方法进行区分重名情况,然后为申请人编写唯一的ID号,实现申请人识别。使用实体识别方法区分发明人重名情况,然后为发明人编写唯一的ID号,实现发明人识别。因为代理机构名称是唯一的,所以代理机构实体通过名称实现识别。使用描述领域的N个主题词共同实现领域识别。

专利数据一般包括一个申请人和一至多个发明人,本专利基于申请人与发明人之间的关系,对申请人为个人的情况进行识别。同样,本专利基于申请人与发明人之间的关系和发明人与发明人之间的关系,对发明人进行实体识别。申请人为机构时,发明人隶属于该机构。申请人为个人时,发明人从属于该申请人。隶属于相同申请人的发明人之间存在同事关系,一个专利的多个发明人之间存在合作关系。本专利使用的实体识别方法,基于向量空间模型思想,将专利中的人名表示成特征向量形式,使用K-means算法聚类,统计各个类别的分布情况,实现实体识别。

本专利使用Google研发的Word2vector词向量生成工具,生成指定维度的目标向量。Word2vector工具基于Deep Learning和神经网络模型,利用深度神经网络思想,通过上下文分析,自动选取特征,并通过使用者指定的参数,经过多次迭代,训练出词向量。

K-means算法输入为K个聚类数,n个数据对象,输出为满足方差最小标准的K个聚类。该算法首先从n个数据对象中任意选取K个对象作为初始聚类中心,计算每个对象与中心对象的距离,并根据最小距离重新对相应对象分类,然后重新计算每一个聚类的中心,计算聚类方差值,当满足约束条件时算法终止,否则,重新计算聚类中心并分类。使用欧式距离公式计算申请人和发明人向量之间的距离,公式如下:

其中,D表示距离,x,y为词向量,m为向量维度。在算法应用过程中,K取值范围为1-n,选择n个分类情况中方差最小的结果为最终聚类结果。

通过将跟待识别实体有关系的人名进行分类,统计待识别实体在各个类别中存在的有关系的向量个数,基于分别对应的个数构建一个q维实体向量表示,q为聚类结果个数。使用上述欧式距离公式,计算待识别实体之间的相关性d,本专利规定,d<0.5时,两个实体不相同,d≥0.5时,两个实体相同。将同名实体识别结果进行编号,作为NEO4J数据库中唯一的ID。

步骤(3-2):领域主题确定

确定每篇专利数据的主题关键词,并与该专利数据所对应类型的专利主题库进行匹配,确定该专利主题;若匹配不到则将主题关键词作为候选主题词并确定该专利主题,当候选主题词相关的专利数量累计到预设阈值,则加入专利主题库;

在本实施例中,使用RAKE算法提取每一篇专利数据的主题关键词,并与该专利所对应类别的主题库进行匹配,确定该专利主题。若主题库含有该专利主题关键词,则将其定为专利主题。若不含有,则将该专利的主题关键词作为专利主题库的候选主题词,并将其定为该专利主题,当与候选主题词相关的专利数量达到一定数量后,将候选主题词升级为主题词,加入相应类型主题库。

步骤(3-3):关系定义与构建

挖掘实体和主题之间的语义关联关系,构建自身实体与两两实体之间的关系,构建专利数据知识图谱。

本专利构建的专利知识图谱关系包括专利-专利的相关关系、专利-申请人关系、专利-发明人关系、专利-代理机构关系、专利-领域关系、申请人-发明人关系、申请人-领域关系、发明人-发明人合作关系、发明人-发明人同事关系、发明人-领域关系。

专利-专利相关关系构建:基于两个专利对应领域中主题词的相关性,建立专利之间的相关关系。使用Word2vector工具获得两个专利主题词之间的相关性系数,本专利规定,系数<0.5时不相关,否则建立相关关系。

专利-申请人关系构建:通过MySQL数据库抽取专利号和申请人信息,并获取申请人唯一ID编码(若申请人为个人),建立专利-申请人关系。

专利-发明人关系构建:通过MySQL数据库抽取专利号和发明人信息,获取发明人唯一ID编码,建立专利-发明人关系。

专利-代理机构关系构建:通过MySQL数据库抽取专利号和代理机构信息,构建专利-代理机构关系。

专利-领域关系构建:通过MySQL数据库抽取专利号,通过专利主题库获取对应领域主题词,建立专利-领域关系。

申请人-发明人关系构建:通过MySQL数据库抽取申请人和发明人信息,获取申请人唯一ID编码(若申请人为个人)和发明人唯一ID编码,建立申请人-发明人关系。

申请人-领域关系构建:申请人的专利所属领域即为申请人的研究领域,通过MySQL数据库抽取申请人信息和专利号,获取申请人唯一ID编码(若申请人为个人)和对应专利的领域信息,建立申请人-领域关系。

发明人-发明人合作关系构建:一个专利的多个发明人之间存在合作关系,通过MySQL数据库抽取发明人信息和专利号,获取发明人唯一ID编码,建立发明人-发明人合作关系。

发明人-发明人同事关系构建:属于相同申请人的发明人之间存在同事关系,通过MySQL数据库抽取申请人和发明人信息,获取申请人(若申请人为个人)和发明人的唯一ID编码,建立发明人-发明人同事关系。

发明人-领域关系构建:发明人的专利所属领域即为发明人研究领域,通过MySQL数据库抽取发明人信息和专利号,获取专利对应的领域信息,建立发明人-领域关系。

基于定义和建立的专利实体和关系数据,使用NEO4J数据库构建专利知识图谱。

如图2所示,在本实施例中,该方法还包括接收用户查询指令,根据构建的专利数据知识图谱查询专利信息和关系;和/或

接收用户创建专利演化指令,分析用户创建专利演化指令中指定专利的领域主题,匹配相同领域的其他专利,将匹配结果与该专利通过PAKE算法提取关键词,筛选与该专利关键词相关的匹配结果,并按照时间的进行排序后进行展示。

本专利构建的知识图谱除支持用户查看专利的主要信息和关系外,支持用户自助创建和查看专利的演化过程。对知识图谱进行查询时,基于用户搜索关键词,匹配相关专利,展示数据和关系。用户对某一专利感兴趣时,可以进行自助创建该专利演化过程操作,对该专利的领域主题进行分析,匹配相同领域的其他专利,将匹配结果与该专利通过PAKE算法提取关键词,筛选与该专利关键词相关的匹配结果,并按照时间的进行排序后展示出来。

例如:用户检索运动鞋,获取与运动鞋相关的专利数据及其关系数据,其中包括专利“一种气垫运动鞋”,用户对该专利比较感兴趣,可以选择为该专利创建演化过程。本专利通过获取该专利的主题词“气垫、鞋垫防滑”,匹配相同和相关主题的其他专利,并按照时间的顺序将匹配结果展示出来,并且支持查看每一个专利节点在专利知识图谱中的数据和关系。

在本实施例的知识图谱可视化中,本专利主要通过D3.js以力导向图形式实现专利知识图谱,以实体为节点、关系为边,选中相应节点和边后,显示相应实体和关系的属性。通过直线图形式实现专利演化过程展示,横轴为时间,纵轴为相关性,点为专利。并且支持力导向图检索专利知识图谱,用户点击感兴趣的节点,力导向图会以该节点为中心展示知识图谱。在展示界面指定区域,展示专利数据的详细信息,用户点击专利节点的详细信息展示功能,就从MySQL数据库获取该专利的详细数据,并展示出来。

实施例2:

本实施例2的目的是提供一种计算机可读存储介质。

为了实现上述目的,本发明采用如下一种技术方案:

一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备设备的处理器加载并执行以下处理:

步骤(1):获取现有专利数据库的专利数据,对专利数据进行预处理统一专利数据格式,并将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;

步骤(2):对预处理后的专利数据进行知识抽取,对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;

步骤(3):定义专利数据的实体,确定专利数据的主题,根据通用知识图谱标识专利的实体和主题,挖掘实体和主题之间的语义关联关系,构建专利数据知识图谱。

实施例3:

本实施例3的目的是提供一种专利数据知识图谱的构建装置。

为了实现上述目的,本发明采用如下一种技术方案:

一种专利数据知识图谱的构建装置,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:

步骤(1):获取现有专利数据库的专利数据,对专利数据进行预处理统一专利数据格式,并将同类型合并后的专利数据进行分词,得到每种类型专利数据的分词数据;

步骤(2):对预处理后的专利数据进行知识抽取,对每种类型专利数据的分词数据进行数据清洗得到对应的主题原始文件,提取关键词得到主题词,针对每种类型专利数据构建专利主题库;

步骤(3):定义专利数据的实体,确定专利数据的主题,根据通用知识图谱标识专利的实体和主题,挖掘实体和主题之间的语义关联关系,构建专利数据知识图谱。

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言-诸如C++等,以及常规的过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。

应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本文发布于:2024-09-21 05:33:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68128.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议