一种知识库自动构建方法与系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010100129.5
(22)申请日 2020.02.18
(71)申请人 北京航空航天大学
地址 100191 北京市海淀区学院路37号
(72)发明人 胡春明 王德辉 雷颜菲 袁红亮 
(74)专利代理机构 北京中创阳光知识产权代理
有限责任公司 11003
代理人 尹振启
(51)Int.Cl.
G06F  16/28(2019.01)
(54)发明名称
一种知识库自动构建方法与系统
(57)摘要
本发明通过知识图谱领域的方法,实现了一
种知识库自动构建方法与系统,
系统架构分为:实体类标签上传、表达体系定义、多源数据获取、
消歧融合和图谱构建与展示五个步骤。通过上述
步骤所构成的系统,能够利用用户上传的数据文
档,自动读取其中信息,并依据用户需求定义出
相关数据之间的关系,将实体属性与用户上传数
据间的映射关系显示出来供用户核实,进而构建
知识库。系统能够减少在知识库构建过程中的精
力成本和时间成本的消耗,让用户可以更快捷、
更便利、
更有效率的去构建定制化的知识图谱。权利要求书2页  说明书5页  附图4页CN 111339214 A 2020.06.26
C N  111339214
A
1.一种知识库自动构建方法与系统,其特征在于:所述系统包括五个运行步骤:
步骤一:获取标签,根据用户上传的结构化文本或标签文本,系统从中抽取表达体系,所述标签获取的过程中,获取用户上传的文本格式或表达体系文件类型数据文件;对于所述文本格式的数据,通过聚类的方式将平行的标签文本生成层次化的标签,因而该实体类内部可形成一个层次化的体系结构,
对于所述表达体系文件类型数据,通过表达体系文件抽取该实体类的部分表达体系,抽取表达体系文件的文件名作为该实体类的实体类名;抽取表达体系文件的中的表头作为该实体类的标准属性,若该表头所对应的任一数据值中包含有分号,则定义此标准属性为枚举型,否则定义为单值型,所有属性值均定义为字符串类型;
步骤二:建立表达体系,建立用户自行定义实体类名称、实体类的标准属性和实体类的标准关系的机制,所述表达体系包括:分类体系、属性体系和关系体系;
步骤三:数据获取,用户上传构建知识库所需要数据的实体文件,并勾选图谱可获得数据的其他来源,所述实体文件为文本格式或表达体系文件类型数据文件;
步骤四:消歧融合,系统根据表达体系抽取实体数据和实体关系,将实体属性与用户上传数据间的映射关系显示出来供用户核实,经用户核实后开始构建知识库,并在构建的整个过程中进行实体消歧、链接消歧和属性融合;其中实体消歧为,对于在图谱构建过程中产生的属于同一实体类的同名实体,将每一个同名实体所对应的属性值进行相似度计算,所述属性值进行相似度计算方法为对属性值进行分词后,对应的属性值进行模糊匹配,若相似度计算的得分高于一定阈值,则判定为同一实体并将其属性合并;链接消歧为,若图谱构建的关系构建中客体实体包含多个同名实体,主体实体将会与所有客体实体进行相似度计算,所述与壳体实体进行相似度计算方法为实体的属性值进行整合并分词,主
体实体的属性值分词与每一个客体实体的属性值分词进行模糊匹配,主体实体将与相似度计算得分最高的客体实体构建关系;属性融合为,若在步骤三上传了文本格式数据,将会从中抽取三元组,所述三元组为实体、属性、属性值,对实体的属性进行补充,该属性名会和该实体下的所有属性名进行相似度计算,所述所有属性进行相似度计算方法为与每一个标准属性进行模糊匹配,若相似度计算的得分高于一定阈值,则与对应的属性合并,否则新建该属性;
步骤五:图谱展示与输出,将构建好的知识库以图谱的形式进行部分展示,并将知识库表达体系同样以图谱的形式展示,以及基于知识库的相关统计和提供图谱的下载接口。
2.根据权利要求1所述的一种知识库自动构建方法与系统,其特征在于:所述分类体系具体为:对知识库实体类名称进行定义和生成,其具体方法可以为由用户自行输入定义,或对在标签获取步骤中用户上传的实体类的所述表达体系文件,自动抽取其文件名作为该实体类名称。
3.根据权利要求2所述的一种知识库自动构建方法与系统,其特征在于:所述属性体系具体为:对实体类的基本属性的定义,其具体方法可以为由用户自行输入定义,或对在标签获取步骤中用户上传的实体类的所述表达体系文件,自动抽取其表头作为该实体类的基本属性。
4.根据权利要求3所述的一种知识库自动构建方法与系统,其特征在于:所述属性体系为可选的单值型或枚举型两种类型,每个实体类必须包含“name”属性作为该实体类的主键,在实体消歧时主键将作为
是否为同名实体的判定标准,在展示图谱时主键将被用于作
为结点名称进行显示。
5.根据权利要求4所述的一种知识库自动构建方法与系统,其特征在于:所述关系体系具体为:实现对实体类之间的关系的定义,可以分为直接关系和间接关系,直接关系是不同实体类之间的关系,间接关系是相同实体类之间的关系,关系可以由用户自定义。
6.根据权利要求5所述的一种知识库自动构建方法与系统,其特征在于:所述图谱可获得数据的其他来源包括:百度百科,互联网文本,知行知识库。
一种知识库自动构建方法与系统
技术领域
[0001]本发明涉及知识图谱领域,尤其涉及一种知识库自动构建方法与系统。
背景技术
[0002]随着社交、电商、金融、零售、物联网等行业的快速发展,现实社会组织起来一张庞大而复杂
的关系网,但是使用传统的数据库很难去处理关系运算,而且也很难提供一个很好的知识表达与展示的形式。大数据行业对于数据之间关系的处理的需求也随着数据量呈现几何级数增长,亟需一种支持海量复杂数据关系运算的数据库,知识图谱应运而生。随着Google公司于2012年发布Google Knowledge Graph,国内外开始对知识图谱的研究升温,相关研究不断地涌现。这其中,通用知识图谱的构建和应用得到了长足的发展,WordNet、DBpedia、Freebase、WikiData等大型通用知识图谱相继发布。知识图谱也可以被称为知识库,如今,世界上已经有很多著名的公司都在使用知识库来实现一些现实的商业需求。例如,社交领域的Facebook,Twitter,Linkedin用它来管理社交关系,实现好友推荐;零售领域的eBay,沃尔玛使用它实现商品的实时推荐,给买家更好的购物体验;金融领域的摩根大通、花旗、瑞士银行等银行在用它做风控处理;汽车制造领域的沃尔沃,戴姆勒和丰田等顶级汽车制造商依靠它推动创新制造解决方案;电信领域的Verizon、Orange和AT&T等电信公司依靠它来管理网络;酒店领域的万豪和雅高酒店等顶级酒店公司用它来管理复杂且快速变化的库存。
[0003]如今大多数知识库构建流程仍然按照传统的手动方式来实现。首先,专家通过描述该领域的相关专业知识,自上而下的定义该领域的知识体系。之后,由知识工程专家来将学术化的知识体系重构成计算机处理的表达体系,即分类体系、属性体系和关系体系。最后,由知识库开发人员以此表达体系为基础,构建专业化的知识库,构建过程的重要实现步骤包括:实体与关系抽取、多源数据消歧融合。
[0004]传统知识库每次都需要专家来定义知识表达体系,领域专家定义知识表达体系具有专业性和全面性,但是存在以下两点问题:(1)应用场景可能仅需要轻量的定制化的知识库以便在解决具体问题时提供方便快捷的指导。(2)全面性的知识库必定会引入数量较为庞大的错误实体链接等问题,知识库的运行效率也会随之降低。这带来构建过程的复杂性和冗余性。传统知识库的构建工作每次都需要开发人员从头至尾的实现整个构建流程,这带来代码重复实现的开销。因此,亟需一个知识库构建工具来实现知识库自动化定制化的构建工作。
[0005]传统的知识库手动构建流程需要领域专家和开发人员的协调与配合,具有学术性、全面性和开发周期长等特点。当面对如今应用越来越广泛的工程问题时存在以下问题:[0006]⒈知识库的知识表达体系冗余复杂,不能满足定制化需求。
[0007]⒉知识库的构建周期较长,需要开发人员针对构建流程进行代码实现。
[0008]⒊知识库的数据获取方式单一,无法满足多元化的数据获取需求。
发明内容
[0009]为此,本发明提出了一套自动化的知识库构建方案,该系统包括五个运行步骤:[0010]步骤一:获取标签,根据用户上传的结构化文本或标签文本,系统从中抽取表达体系,所述标签获取的过程中,
获取用户上传的文本格式或表达体系文件类型数据文件;对于所述文本格式的数据,通过聚类的方式将平行的标签文本生成层次化的标签,因而该实体类内部可形成一个层次化的体系结构,对于所述表达体系文件类型数据,通过表达体系文件抽取该实体类的部分表达体系,抽取表达体系文件的文件名作为该实体类的实体类名;抽取表达体系文件的中的表头作为该实体类的标准属性,若该表头所对应的任一数据值中包含有分号,则定义此标准属性为枚举型,否则定义为单值型,所有属性值均定义为字符串类型;
[0011]步骤二:建立表达体系,建立用户自行定义实体类名称、实体类的标准属性和实体类的标准关系的机制,所述表达体系包括:分类体系、属性体系和关系体系;
[0012]步骤三:数据获取,用户上传构建知识库所需要数据的实体文件,并勾选图谱可获得数据的其他来源,所述实体文件为文本格式或表达体系文件类型数据文件;
[0013]步骤四:消歧融合,系统根据表达体系抽取实体数据和实体关系,将实体属性与用户上传数据间的映射关系显示出来供用户核实,经用户核实后开始构建知识库,并在构建的整个过程中进行实体消歧、链接消歧和属性融合。实体消歧,若图谱构建过程中产生属于同一实体类的同名实体,会将每一个同名实体相对应的属性值进行相似度计算(对属性值进行分词后,相对应的属性值进行模糊匹配),若相似度计算的得分高于一定阈值,则判定为同一实体并将其属性合并;链接消歧,若构建关系时客
体实体包含多个同名实体,主体实体将会与所有客体实体进行相似度计算(实体的属性值进行整合并分词,主体实体的属性值分词与每一个客体实体的属性值分词进行模糊匹配),主体实体将与相似度计算得分最高的客体实体构建关系;属性融合,若在步骤三上传了文本格式数据,将会从中抽取三元组(实体-属性-属性值)对实体的属性进行补充,该属性名会和该实体下的所有属性名进行相似度计算(与每一个标准属性进行模糊匹配),若相似度计算的得分高于一定阈值,则与对应的属性合并,否则新建该属性。;
[0014]步骤五:图谱展示与输出,将构建好的知识库以图谱的形式进行部分展示,并将知识库表达体系同样以图谱的形式展示,以及基于知识库的相关统计和提供图谱的下载接口。
[0015]所述分类体系具体为:对知识库实体类名称进行定义和生成,其具体方法可以为由用户自行输入定义,或对在标签获取步骤中用户上传的实体类的所述表达体系文件,自动抽取其文件名作为该实体类名称。
[0016]所述属性体系具体为:对实体类的基本属性的定义,其具体方法可以为由用户自行输入定义,或对在标签获取步骤中用户上传的实体类的所述表达体系文件,自动抽取其表头作为该实体类的基本属性。
[0017]所述属性体系为可选的单值型或枚举型两种类型,每个实体类必须包含“name”属性作为该实体
类的主键,在实体消歧时主键将作为是否为同名实体的判定标准,在展示图谱时主键将被用于作为结点名称进行显示。
[0018]所述关系体系具体为:实现对实体类之间的关系的定义,可以分为直接关系和间

本文发布于:2024-09-21 01:47:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/403490.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:体系   构建   实体   属性   知识库   表达   实体类
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议