知识图谱构建技术

知识图谱构建技术
知识图谱构建技术
知识图谱构建技术主要包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。
1知识图谱技术地图
整个技术图主要分为三个部分, 第⼀个部分是知识获取,主要阐述如何从⾮结构化、半结构化、以及结构化数据中获取知识。第⼆部是数据融合,主要阐述如何将不同数据源获取的知识进⾏融合构建数据之间的关联。第三部分是知识计算及应⽤,这⼀部分关注的是基于知识图谱计算功能以及基于知识图谱的应⽤。
1.1知识获取
1.1.1 知识来源处理
(⼀)处理⾮结构化数据
⾸先摇对⾮结构化数据提取正⽂,得以保存关注得⽂本内容。然后通过⾃然语⾔处理技术识别⽂本中得
实体,实体识别通常⽤两种⽅法,⼀种是⽤户本⾝有⼀个⼈知识库则可以使⽤实体链接将候选实体和知识库链接。另⼀种,是当⽤户没有知识库则需要使⽤命名实体识别技术识别⽂章中得实体。在识别实体的过程中可能会⽤到分词、词性标注,以及深度学习模型中需要⽤到分布式 表达如词向量。
当获得实体后,则需要关注实体间的关系,我们称为实体关系识别,有些实体关系识别的⽅法会利⽤句法结构来帮助确定两个实体间的关系,因此在有些算法中会利⽤依存分析或者语义解析。
(⼆)处理半结构化数据
主要的⼯作是通过包装器学习半结构化数据的抽取规则。由于半 结构化数据具有⼤量的重复性的结构,因此对数据进⾏少量的标注,可以让机器学出⼀定的规则进⽽在整个站点下使⽤规则对同类型或者符合某种关系的数据进⾏抽取。
(三)处理结构化数据
当⽤户的数据存储 在⽣产系统的数据库中时,需要通过ETL ⼯具对⽤户⽣产系统下的数据进⾏重新组织、清洗、检测最后得到符合⽤户使⽤⽬的数据。
1.1.2 知识提取技术
知识抽取主要是⾯向开放的链接数据,通常典型的输⼊是⾃然语⾔⽂本或者多媒体内容⽂档(图像或者视频)等。然后通过⾃动化或者半⾃动化的技术抽取出可⽤的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成⼀系列⾼质量的事实表达,为上层模式层的构建奠定基础。
1.1.
2.1 实体抽取
实体抽取也称为命名实体学习(named entity learning) 或命名实体识别 (named entity recognition),指的是从原始数据语料中⾃动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此,实体抽取是知识抽取中最为基础与关键的⼀步。我们可以将实体抽取的⽅法分为4种:基于百科站点或垂直站点提取、基于规则与词典的⽅法、基于统计机器学习的⽅法以及⾯向开放域的抽取⽅法。基于百科站点或垂直站点提取则是⼀种很常规基本的提取⽅法;基于规则的⽅法通常需要为⽬标实体编写模板,然后在原始语料中进⾏匹配;基于统计机器学习的⽅法主要是通过机器学习的⽅法对原始语料进⾏训练,然后再利⽤训练好的模型去识别实体;⾯向开放域的抽取将是⾯向海量的Web语料。
1) 基于百科或垂直站点提取
基于百科站点或垂直站点提取这种⽅法是从百科类站点(如、百度百科、互动百科等)的标题和链接中提取实体名。这种⽅法的优点是可以得到开放互联⽹中最常见的实体名,其缺点是对于中低频的覆盖率低。与⼀般性通⽤的⽹站相⽐,垂直类站点的实体提取可以获取特定领域的实体。例如从⾖瓣各频道(⾳乐、读书、电影等)获取各种实体列表。这种⽅法主要是基于爬取技术来实现和获取。基于百科类站点或垂直站点是⼀种最常规和基本的⽅法。
2) 基于规则与词典的实体提取⽅法
早期的实体抽取是在限定⽂本领域、限定语义单元类型的条件下进⾏的,主要采⽤的是基于规则与词典的⽅法,例如使⽤已定义的规则,抽取出⽂本中的⼈名、地名、组织机构名、特定时间等实体。⽂献[16]⾸次实现了⼀套能够抽取公司名称的实体抽取系统,其中主要⽤到了启发式算法与规则模板相结合的⽅法。然⽽,基于规则模板的⽅法不仅需要依靠⼤量的专家来编写规则或模板,覆盖的领域范围有限,⽽且很难适应数据变化的新需求。
3) 基于统计机器学习的实体抽取⽅法
鉴于基于规则与词典实体的局限性,为具更有可扩展性,相关研究⼈员将机器学习中的监督学习算法⽤于命名实体的抽取问题上。例如⽂献[17]利⽤KNN算法与条件随机场模型,实现了对Twitter⽂本数据中实体的识别。单纯的监督学习算法在性能上不仅受到训练集合的限制,并且算法的准确率与召回
率都不够理想。相关研究者认识到监督学习算法的制约性后,尝试将监督学习算法与规则相互结合,取得了⼀定的成果。例如基于字典,使⽤最⼤熵算法在Medline论⽂摘要的GENIA数据集上进⾏了实体抽取实验,实验的准确率与召回率都在70%以上。近年来随着深度学习的兴起应⽤,基于深度学习的命名实体识别得到⼴泛应⽤。在⽂献,介绍了⼀种基于双向LSTM深度神经⽹络和条件随机场的识别⽅法,在测试数据上取得的最好的表现结果。
基于BI-LSTM和CRF的架构
4) ⾯向开放域的实体抽取⽅法
针对如何从少量实体实例中⾃动发现具有区分⼒的模式,进⽽扩展到海量⽂本去给实体做分类与聚类的问题,提出了⼀种通过迭代⽅式扩展实体语料库的解决⽅案,其基本思想是通过少量的实体实例建⽴特征模型,再通过该模型应⽤于新的数据集得到新的命名实体。提出了⼀种基于⽆监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索⽇志中识别出命名的实体,然后进⾏聚类。
1.1.
2.2 语义类抽取
语义类抽取是指从⽂本中⾃动抽取信息来构造语义类并建⽴实体和语义类的关联, 作为实体层⾯上的规整和抽象。以下介绍⼀种⾏之有效的语义类抽取⽅法,包含三个模块:并列度相似计算、上下位关系提取以及语义类⽣成 [22]。
1) 并列相似度计算
并列相似度计算其结果是词和词之间的相似性信息,例如三元组(苹果,梨,s1)表⽰苹果和梨的相似度是s1。两个词有较⾼的并列相似度的条件是它们具有并列关系(即同属于⼀个语义类),并且有
较⼤的关联度。按照这样的标准,北京和上海具有较⾼的并列相似度,⽽北京和汽车的并列相似度很低(因为它们不属于同⼀个语义类)。对于海淀、朝阳、闵⾏三个市辖区来说,海淀和朝阳的并列相似度⼤于海淀和闵⾏的并列相似度(因为前两者的关联度更⾼)。
当前主流的并列相似度计算⽅法有分布相似度法(distributional similarity) 和模式匹配法(pattern Matching)。分布相似度⽅法[23-24]基于哈⾥斯(Harris)的分布假设(distributional hypothesis)[25],即经常出现在类似的上下⽂环境中的两个词具有语义上的相似性。分布相似度⽅法的实现分三个步骤:第⼀步,定义上下⽂;第⼆步,把每个词表⽰成⼀个特征向量,向量每⼀维代表⼀个不同的上下⽂,向量的值表⽰本词相对于上下⽂的权重;第三步,计算两个特征向量之间的相似度,将其作为它们所代表的词之间的相似度。 模式匹配法的基本思路是把⼀些模式作⽤于源数据,得到⼀些词和词之间共同出现的信息,然后把这些信息聚集起来⽣成单词之间的相似度。模式可以是⼿⼯定义的,也可以是根据⼀些种⼦数据⽽⾃动⽣成的。分布相似度法和模式匹配法都可以⽤来在数以百亿计的句⼦中或者数以⼗亿计的⽹页中抽取词的相似性信息。有关分布相似度法和模式匹配法所⽣成的相似度信息的质量⽐较参见⽂献。
2) 上下位关系提取
该该模块从⽂档中抽取词的上下位关系信息,⽣成(下义词,上义词)数据对,例如(狗,动物)、
(悉尼,城市)。提取上下位关系最简单的⽅法是解析百科类站点的分类信息(如的“分类”和百度百科的“开放分类”)。这种⽅法的主要缺点包括:并不是所有的分类词条都代表上位词,例如百度百科中“狗”的开放分类“养殖”就不是其上位词;⽣成的关系图中没有权重信息,因此不能区分同⼀个实体所对应的不同上位词的重要性;覆盖率偏低,即很多上下位关系并没有包含在百科站点的分类信息中。
在英⽂数据上⽤Hearst 模式和IsA 模式进⾏模式匹配被认为是⽐较有效的上下位关系抽取⽅法。下⾯是这些模式的中⽂版本(其中NPC 表⽰上位词,NP 表⽰下位词):
NPC { 包括| 包含| 有} {NP、}* [ 等| 等等]
NPC { 如| ⽐如| 像| 象} {NP、}*
{NP、}* [{ 以及| 和| 与} NP] 等 NPC
{NP、}* { 以及| 和| 与} { 其它| 其他} NPC
NP 是 { ⼀个| ⼀种| ⼀类} NPC
此外,⼀些⽹页表格中包含有上下位关系信息,例如在带有表头的表格中,表头⾏的⽂本是其它⾏的上位词。
3) 语义类⽣成
该模块包括聚类和语义类标定两个⼦模块。聚类的结果决定了要⽣成哪些语义类以及每个语义类包含哪些实体,⽽语义类标定的任务是给⼀个语义类附加⼀个或者多个上位词作为其成员的公共上位词。此模块依赖于并列相似性和上下位关系信息来进⾏聚类和标定。有些研究⼯作只根据上下位关系图来⽣成语义类,但经验表明并列相似性信息对于提⾼最终⽣成的语义类的精度和覆盖率都⾄关重要。
1.1.
2.3属性和属性值抽取
属性提取的任务是为每个本体语义类构造属性列表(如城市的属性包括⾯积、⼈⼝、所在国家、地理位置等),⽽属性值提取则为⼀个语义类的实体附加属性值。属性和属性值的抽取能够形成完整的实体概念的知识图谱维度。常见的属性和属性值抽取⽅法包括从百科类站点中提取,从垂直⽹站中进⾏包装器归纳,从⽹页表格中提取,以及利⽤⼿⼯定义或⾃动⽣成的模式从句⼦和查询⽇志中提取。分词技术
常见的语义类/ 实体的常见属性/ 属性值可以通过解析百科类站点中的半结构化信息(如的信息盒和百度百科的属性表格)⽽获得。尽管通过这种简单⼿段能够得到⾼质量的属性,但同时需要采⽤其它⽅法来增加覆盖率(即为语义类增加更多属性以及为更多的实体添加属性值)。
图5 爱因斯坦信息页
由于垂直⽹站(如电⼦产品⽹站、图书⽹站、电影⽹站、⾳乐⽹站)包含有⼤量实体的属性信息。例如上图的⽹页中包含了图书的作者、出版社、出版时间、评分等信息。通过基于⼀定规则模板建⽴,便可以从垂直站点中⽣成包装器(或称为模版),并根据包装器来提取属性信息。从包装器⽣成的⾃动化程度来看,这些⽅法可以分为⼿⼯法(即⼿⼯编写包装器)、监督⽅法、半监督法以及⽆监督法。考虑到需要从⼤量不同的⽹站中提取信息,并且⽹站模版可能会更新等因素,⽆监督包装器归纳⽅法显得更加重要和现实。⽆监督包装器归纳的基本思路是利⽤对同⼀个⽹站下⾯多个⽹页的超⽂本标签树的对⽐来⽣成模版。简单来看,不同⽹页的公共部分往往对应于模版或者属性名,不同的部分则可能是属性值,⽽同⼀个⽹页中重复的标签块则预⽰着重复的记录。
属性抽取的另⼀个信息源是⽹页表格。表格的内容对于⼈来说⼀⽬了然,⽽对于机器⽽⾔,情况则要复杂得多。由于表格类型千差万别,很多表格制作得不规则,加上机器缺乏⼈所具有的背景知识等原因,从⽹页表格中提取⾼质量的属性信息成为挑战。
上述三种⽅法的共同点是通过挖掘原始数据中的半结构化信息来获取属性和属性值。与通过“阅读”句⼦来进⾏信息抽取的⽅法相⽐,这些⽅法绕开了⾃然语⾔理解这样⼀个“硬⾻头”⽽试图达到以柔克刚的效果。在现阶段,计算机知识库中的⼤多数属性值确实是通过上述⽅法获得的。但现实情况是只有⼀部
分的⼈类知识是以半结构化形式体现的,⽽更多的知识则隐藏在⾃然语⾔句⼦中,因此直接从句⼦中抽取信息成为进⼀步提⾼知识库覆盖率的关键。当前从句⼦和查询⽇志中提取属性和属性值的基本⼿段是模式匹配和对⾃然语⾔的浅层处理。图6描绘了为语义类抽取属性名的主框架(同样的过程也适⽤于为实体抽取属性值)。图中虚线左边的部分是输⼊,它包括⼀些⼿⼯定义的模式和⼀个作为种⼦的(词,属性)列表。模式的例⼦参见表3,(词,属性)的例⼦如(北京,⾯积)。在只有语义类⽆关的模式作为输⼊的情况下,整个⽅法是⼀个在句⼦中进⾏模式匹配⽽⽣成(语义类,属性)关系图的⽆监督的知识提取过程。此过程分两个步骤,第⼀个步骤通过将输⼊的模式作⽤到句⼦上⽽⽣成⼀些(词,属性)元组,这些数据元组在第⼆个步骤中根据语义类进⾏合并⽽⽣成(语义类,属性)关系图。在输⼊中包含种⼦列表或者语义类相关模式的情况下,整个⽅法是⼀个半监督的⾃举过程,分三个步骤:
模式⽣成:在句⼦中匹配种⼦列表中的词和属性从⽽⽣成模式。模式通常由词和属性的环境信息⽽⽣成。
模式匹配。
模式评价与选择:通过⽣成的(语义类,属性)关系图对⾃动⽣成的模式的质量进⾏⾃动评价并选择⾼分值的模式作为下⼀轮匹配的输⼊。
1.1.
2.4 关系抽取
关系抽取的⽬标是解决实体语义链接的问题。关系的基本信息包括参数类型、满⾜此关系的元组模式等。例如关系BeCapitalOf(表⽰⼀个国家的⾸都)的基本信息如下:
参数类型:(Capital, Country)
模式:
元组:(北京,中国);(华盛顿,美国);Capital 和 Country表⽰⾸都和国家两个语义类。
早期的关系抽取主要是通过⼈⼯构造语义规则以及模板的⽅法识别实体关系。随后,实体间的关系模型逐渐替代了⼈⼯预定义的语法与规则。但是仍需要提前定义实体间的关系类型。 ⽂献[26]提出了⾯
向开放域的信息抽取框架 (open information extraction,OIE),这是抽取模式上的⼀个巨⼤进步。但OIE⽅法在对实体的隐含关系抽取⽅⾯性能低下,因此部分研究者提出了基于马尔可夫逻辑⽹、基于本体推理的深层隐含关系抽取⽅法[27]。
开放式实体关系抽取
开放式实体关系抽取可分为⼆元开放式关系抽取和n元开放式关系抽取。在⼆元开放式关系抽取中,早期的研究有KnowItAll[28]与TextRunner[27]系统,在准确率与召回率上表现⼀般。⽂献[29]提出了⼀种基于Wikipedia的OIE⽅法WOE,经⾃监督学习得到抽取器,准确率较TextRunner有明显的提⾼。针对WOE的缺点,⽂献[30]提出了第⼆代OIE ReVerb系统,以动词关系抽取为主。⽂献[31]提出了第三代OIE系统OLLIE(open language learning for information extraction),尝试弥补并扩展OIE的模型及相应的系统,抽取结果的准确度得到了增强。
然⽽,基于语义⾓⾊标注的OIE分析显⽰:英⽂语句中40%的实体关系是n元的[32],如处理不当,可能会影响整体抽取的完整性。⽂献[33]提出了⼀种可抽取任意英⽂语句中n元实体关系的⽅法KPAKEN,弥补了ReVerb的不⾜。但是由于算法对语句深层语法特征的提取导致其效率显著下降,并不适⽤于⼤规模开放域语料的情况。
基于联合推理的实体关系抽取
联合推理的关系抽取中的典型⽅法是马尔可夫逻辑⽹MLN(Markov logic network)[34],它是⼀种将马尔可夫⽹络与⼀阶逻辑相结合的统计关系学习框架,同时也是在OIE中融⼊推理的⼀种重要实体关系抽取模型。基于该模型,⽂献[35]提出了⼀种⽆监督学习模型StatSnowball,不同于传统的OIE,该⽅法可⾃动产⽣或选择模板⽣成抽取器。在StatSnowball的基础上,⽂献[27,36]提出了⼀种实体识别与关系抽取相结合的模型EntSum,主要由扩展的CRF命名实体识别模块与基于StatSnowball的关系抽取模块组成,在保证准确率的同时也提⾼了召回率。⽂献[27,37]提出了⼀种简易的Markov逻辑TML(tractable Markov logic),TML将领域知识分解为若⼲部分,各部分主要来源于事物类的层次化结构,并依据此结构,将各⼤部分进⼀步分解为若⼲个⼦部分,以此类推。TML具有较强的表⽰能⼒,能够较为简洁地表⽰概念以及关系的本体结构。
1.2 知识融合        (本体构建)

本文发布于:2024-09-24 09:22:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/383347.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   抽取   关系   属性   知识   语义   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议