基于对象代理数据库的专利知识图谱构建方法

著录项
  • CN201910425747.4
  • 20190521
  • CN110162642A
  • 20190823
  • 武汉大学
  • 彭智勇;柯礼迅;刘斌;王黎维;王飞
  • G06F16/36
  • G06F16/36 G06F17/27 G06Q50/18

  • 湖北省武汉市武昌区珞珈山武汉大学
  • 湖北(42)
  • 武汉科皓知识产权代理事务所(特殊普通合伙)
  • 鲁力
摘要
本发明全新地提出了一种基于对象代理数据库的专利知识图谱构建方法,该方法首先利用对象代理中的源类实现基本类的存储,然后利用四种代理类完成关系类的建模。在此基础上,利用跨类查询语句实现查询的构建。相比于当前的知识图谱模式,本发明更能够表达多层次的语义关联,并减少数据表的连接操作,提高查询效率。
权利要求

1.一种基于对象代理数据库的专利知识图谱管理方法,其特征在于,包括以下步骤:

步骤1,利用对象代理模型的源类建立基本类;

在专利知识上利用对象代理数据库进行基本类的建模,根据需求利用源类构建m个基本类,B1,B2,…,Bm;其中一个基本类B包含A1、A2…Ak这k个基本属性值,用来存储专利数据中的基本信息;

步骤2,利用代理类在步骤1中建立的基本类上构建关系类;

在完成专利知识图谱的基本类构建,需要利用对象代理的四种代理类完成对关系类的建模;具体包括以下子步骤:

步骤2.1,利用SELECT代理类建立特化关系类SD;主要包括以下三种基本构建方式,在基本类B的k个属性中挑选i(0,生成限定关系,实现数据的限定;

步骤2.2,利用UNION代理类建立泛化关系类UD;根据语义关联将步骤2.1中建立的代理类SD1、SD2…SDk根据属性Ai的取值关联性联合起来,生成泛化关系类;

步骤2.3,利用JOIN代理类建立连接关系类JD;根据查询需求在步骤1中的基本类和步骤2.1以及步骤2.2中生成的特化关系类SD和联合关系类UD上建立语义连接;对两个类Ci和Cj(其中Ci,Cj∈{B,SD,UD}),如果它们的两个属性值Am和An相同,则可以在其上建立JOIN代理类JDij,连接条件为Ci.Am=Cj.An;

步骤2.4,利用GROUP代理类建立聚合关系类GD;对于步骤1、步骤2.1、步骤2.2、步骤2.3中建立的所有类与关系类,利用聚合操作完成对于数据聚合运算的固化存储;对一个类C,对其属性Ai进行聚合操作,构建生成代理类GD{Ai,f(Ai)},其中f为聚合函数;

步骤3,利用跨类查询实现在步骤1和步骤2上建立的数据模式上的查询;

在利用类和代理类构建完知识图谱的基本建模之后,需要利用跨类查询语言针对具体查询需求实现查询;具体包括以下子步骤:

步骤3.1,解析查询语言,确定查询中包含的实体;首先对输入的查询语言进行数据分词,然后去除词汇中的所有停止词,得到候选词集合W={w1,w2,…,wn};然后通过一一比对候选词wi(1<=i<=n)和实体词典,挑选候选词中包含的实体e1、e2…ek,其中k<=n;

步骤3.2,根据步骤3.1中实体确定查询涉及的类;对于步骤3.1中确定的每一个实体ei,利用实体和数据表的映射关系,在数据库系统表中查询实体对应的类Ci;若系统表中不存在相关类,则根据实体类型确定类的代理方式,从而构建相关实体类,并存入数据库系统表中,最终确定查询涉及的类C1、C2…Ck;

步骤3.3,根据步骤3.2中确定的类生成跨类查询路径;对于步骤3.2中确定的查询类,需要根据关系构建跨类查询路径表达式,将具有数据关联的类连接起来,形成跨类查询路径表达式其中p1,p2,…,pk是1到k的任意序列,和之间存在直接关联关系;

步骤3.3,添加属性限定和查询属性完成查询语句的构建;对于步骤3.3中生成路径表达式首先确定查询导航类所涉及到的属性Aj,然后在相关属性上加入限定条件最后根据查询语言确定查询需要返回的终点类的属性Ar,完成跨类查询语句的最终构建。

说明书
技术领域

本发明涉及一种基于对象代理数据库的专利知识图谱构建方法。

专利领域作为一种特殊的知识领域,具有以下特点。数据量大,根据国家专利局资料显示,截至2018年6月15,仅中国的专利申请数目已将达到4500多万件;技术性高,专利数据都是各个领域的核心创造技术,每一件专利都包含着所在领域的前沿技术。专利的发展趋势和状态对于一个企业的战略布局拥有很大的参考价值,面对如此繁杂而庞大的专利数据,怎样能够有效的利用其蕴藏的知识,是值得研究的一个问题。

知识图谱(Knowledge graph)作为一种新型的数据存储模式,在各个领域得到了很大的发展。一个合理有效的知识图谱构建办法可以很好的挖掘和利用行业中潜在的知识与技术,因此,构建专利领域的知识图谱成为了一种必然的趋势。然而对于专利的知识图谱构建有如下的困难,专利关系错综复杂,对于专利之间的关系很难进行表示。此外,现有的知识图谱存储方式,像N-triples等RDF存储和关系数据库在查询时会产生大量的表的自连接操作,效率较低,图数据库在查询时在大数据节点上的效率会比较低。

对象代理模型可以将任何客观实体可以表示为对象,一个对象可以有多个代理对象,即通过对源对象进行派生属性生成新的对象,并可以迭代生成一种网络结构。对象和代理对象之间有指针联系,保证在对象更新时保证对象代理约束关系。将相同属性对象抽象整合后可以生成相应的源类和代理类,实现数据的语义表示。

本发明提出的基于对象代理的专利知识图谱构建方法,是以对象代理模型中的类和代理类进行数据的存储。通过构建知识图谱模式中的基本类和关系类,实现对专利数据的基本关系存储,然后利用跨类查询的方式进行数据的查询与优化。

本发明全新地提出了一种基于对象代理模型的专利知识图谱构建方法,该方法首先利用对象代理模型中的源类来建立基本类,存储专利的基本信息;其次,利用对象代理中的代理类来完成对于各种关系类的建模,连接数据的语义关联。最后,利用跨类查询语句实现对于专利知识图谱的查询与优化方案。相比于当前的知识图谱模式,本发明能够高效地进行专利知识的存储,并减少数据表的连接操作,避免出现数据大节点的现象,提高查询的效率。

一种基于对象代理数据库的专利知识图谱构建方法,其主要特征在于以下步骤:

步骤1,利用对象代理模型的源类建立基本类。

在专利知识上利用对象代理数据库进行基本类的建模,根据需求利用源类构建m个基本类,B1,B2,…,Bm。其中一个基本类B包含A1、A2…Ak这k个基本属性值,用来存储专利数据中的基本信息。

步骤2,利用代理类在步骤1中建立的基本类上构建关系类。

在完成专利知识图谱的基本类构建,需要利用对象代理的四种代理类完成对关系类的建模。具体包括以下子步骤:

步骤2.1,利用SELECT代理类建立特化关系类SD。主要包括以下三种基本构建方式,在基本类B的k个属性中挑选i(0,生成限定关系,实现数据的限定。

步骤2.2,利用UNION代理类建立泛化关系类UD。根据语义关联将步骤2.1中建立的代理类SD1、SD2…SDk根据属性Ai的取值关联性联合起来,生成泛化关系类。

步骤2.3,利用JOIN代理类建立连接关系类JD。根据查询需求在步骤1中的基本类和步骤2.1以及步骤2.2中生成的特化关系类SD和泛化关系类UD上建立语义连接。对两个类Ci和Cj(其中Ci,Cj∈{B,SD,UD}),如果它们的两个属性值Am和An相同,则可以在其上建立JOIN代理类JDij,连接条件为Ci.Am=Cj.An。

步骤2.4,利用GROUP代理类建立聚合关系类GD。对于步骤1、步骤2.1、步骤2.2、步骤2.3中建立的所有类与关系类,利用聚合操作完成对于数据聚合运算的固化存储。对一个类C,对其属性Ai进行聚合操作,构建生成代理类GD{Ai,f(Ai)},其中f为聚合函数。

步骤3,利用跨类查询实现在步骤1和步骤2上建立的数据模式上的查询。

在利用类和代理类构建完知识图谱的基本建模之后,需要利用跨类查询语言针对具体查询需求实现查询。具体包括以下子步骤:

步骤3.1,解析查询语言,确定查询中包含的实体。首先对输入的查询语言进行数据分词,然后去除词汇中的所有停止词,得到候选词集合W={w1,w2,…,wn}。然后通过一一比对候选词wi(1<=i<=n)和实体词典,挑选候选词中包含的实体e1、e2…ek,其中k<=n。

步骤3.2,根据步骤3.1中实体确定查询涉及的类。对于步骤3.1中确定的每一个实体ei,利用实体和数据表的映射关系,在数据库系统表中查询实体对应的类Ci;若系统表中不存在相关类,则根据实体类型确定类的代理方式,从而构建相关实体类,并存入数据库系统表中,最终确定查询涉及的类C1、C2…Ck。

步骤3.3,根据步骤3.2中确定的类生成跨类查询路径。对于步骤3.2中确定的查询类,需要根据关系构建跨类查询路径表达式,将具有数据关联的类连接起来,形成跨类查询路径表达式其中p1,p2,…,pk是1到k的任意序列,和(0

步骤3.4,添加属性限定和查询属性完成查询语句的构建。对于步骤3.3中生成路径表达式首先确定查询导航类所涉及到的属性Aj,然后在相关属性上加入限定条件最后根据查询语言确定查询需要返回的终点类的属性Ar,完成跨类查询语句的最终构建。

因此,本发明具有如下优点:

1.在知识图谱模式上运用对象代理模型进行构建,可以满足知识图谱的复杂语义表达和关系链接的要求,并使得知识图谱表现得更具有层次性,在层次性要求高的知识图谱上拥有很好的建模效果。

2.利用JOIN代理类进行知识图谱的查询优化,减少了数据查询的表连接操作,在大规模的复杂查询下,拥有较高的查询效率。

附图1是本发明提出的基本类的示例。其存储的是专利类Patent基本信息,包括an(申请号)、ad(申请日)、name(名称)、appid(申请人编号)、inv(发明人)、type(类型)这六个属性。

附图2是本发明提出的特化关系类的示例。通过在基本类Patent上构建扩展agt(代理人)和agc(代理机构)属性关系可以生成专利代理信息类PatentAg。在PatentAg上继续扩展属性interap(国际申请)和interpb(国际公布)等属性,可以生成国际专利类InterPatent。

附图3是本发明提出的泛化关系类的示例。通过对各种介质不同激光器类,固体激光器,液体激光器、气体激光器、半导体激光器以及自由电子激光器进行联合代理,存储激光器泛化关系。

附图4是本发明提出的连接关系类的示例。对专利基本类Patent和申请人类Applicant进行JOIN代理生成Pat_App,可以完成从专利类到申请人类的查询跳转。

附图5是本发明中的跨类查询语句的具体示例。

下面通过具体实施例,并结合附图,对本发明方法流程进行进一步具体说明。

实施例:

本发明提供以对象代理模型进行专利知识图谱的构建方法。以下,以专利领域的部分知识信息作为示例,来进行本发明的技术说明。

步骤1,利用对象代理的源类构建基本类信息。在专利知识图谱的建模中,对于专利信息进行合理地分割,建立如下七种基本类。专利类(Patent)、申请人(Applicant)类、发明人(Inventor)类、国际分类号(Ipc)类、摘要类(Abstract)、关键词(Keyword)类和公开状态(Status)类。如图1,就是专利基本类的基本信息,包括各种申请号(an)等信息。

步骤2,利用步骤1中构建的基本类构建各种关系类。对于特化关系的构建,可以进行属性扩展生成不同查询场景的代理类,如图2所示,在基本类Patent上可以进行属性扩展生成专利代理信息类PatentAg。在PatentAg上继续扩展属性可以生成国际专利类InterPatent,对于国际专利进行优化存储。另外,可以在基本类Patent上对于属性type进行限定,构建出所有的发明专利代理类,或者对于申请日进行限定,构建2017年所有专利信息的代理类。

对于泛化关系的构建如图3所示,通过在专利基本类上构建SELECT代理生成各种介质的激光器类,然后在这些代理类上进行UNION代理,可以生成泛化关系,对于激光器进行泛化查询。此外,可以对2016、2017、2018的专利代理类进行UNOIN,生成最近三年的所有专利申请信息。

连接关系构建如如图4所示,对专利基本类Patent和申请人类Applicant进行JOIN代理,生成代理类Pat_App,可以完成从专利类到申请人类的查询跳转。进行聚合关系的构建,比如对Pat_App类上的申请人名称进行聚合运算,可以计算申请专利数最多的专利申请人。

步骤3,利用跨类查询实现在步骤1和步骤2上建立的数据模式上的查询。

对于一个查询:查询武汉锐科公司近三年申请的关于激光器实用新型专利的摘要?。首先进行数据分词,分词后,去除停止词“的”、“在”等,得到候选词集合{武汉、公司、武汉锐科、申请、激光器、实用新型、摘要}。然后对比实体词典,选出其中的实体武汉锐科、实用新型、激光器、摘要。其中武汉锐科对应申请人类Applicant,实用新型对应专利类Patent,激光器对应标签类Label类,摘要对应Abstract类。构建近三年的专利代理类为Patentthree,根据这四个类的关系生成路径表达式Applicant->Patentthree->Label->Inventor。最后根据属性限定和查询需求生成最终的查询语句,如图5所示。

本文所描述的具体实施例仅对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例进行修改或补充,但不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

本文发布于:2024-09-26 00:29:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/69277.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议