一种基于模式自学习的中文开放式关系抽取方法

著录项
  • CN201510475450.0
  • 20150806
  • CN105138507A
  • 20151209
  • 电子科技大学
  • 刘峤;刘瑶;秦志光;其他发明人请求不公开姓名
  • G06F17/27
  • G06F17/27

  • 四川省成都市高新区(西区)西源大道2006号
  • 四川(51)
摘要
开放式中文实体关系抽取是指在不限定语料领域和关系类别的前提下,自动地从中文语料中抽取出实体间的关系信息,得到实体关系元组。本发明公开了一种基于模式自学习的中文开放式关系抽取方法,包括如下三个主要步骤:首先,基于已有知识库获取高质量的实体关系元组和相应的句子作为训练语料,通过本发明提出的模式学习方法得到实体和关系词之间的依存路径模式;然后,对待抽取文本进行分词、词性标注和依存分析等预处理,并借助之前学习得到的关系模式进行实体关系抽取;最后,采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。
权利要求

1.一种基于依存关系模式的开放式中文实体关系抽取方法,其特征在于,包括:

基于大量高质量的实体关系元组和相应语句的训练语料,通过本专利提出的模式学习方法得到实体和关系词之间的依存路径模式;

对待抽取文本进行分词、词性标注和依存分析等预处理,并使用之前学习得到的关系模式进行实体关系抽取;

采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高质量的实体关系元组。

2.根据权利要求1所述的方法,其特征在于大量高质量的实体关系元组和相应语句的训练语料构建,所述方法包括:

利用知识库中已有大量高质量关系元组和百科页面信息框中关系元组,通过网络爬虫获得包含每个关系元组中实体和关系词的对应语句,以构建关系元组和相应语句的训练语料,用于模式学习。

利用中文开放式关系抽取系统关系抽取并选择高质量的关系元组,以构建包含关系元组和相应语句的训练语料,用于模式学习。

3.根据权利要求1所述的方法,其特征在于利用大量高质量的实体关系元组和相应语句的训练语料学习得到实体和关系词之间的依存路径模式,所述方法包括:

利用自然语言处理工具对语句进行分词、词性标注和依存分析。结合训练语句依存分析结果和对应的高质量关系元组进行匹配学习得到实体和关系词之间的依存路径模式。

4.根据权利要求3所述的方法,其特征在于对抽取的大量关系依存路径模式进行聚类:

通过训练语料学习得到的大量依存路径模式中,存在一些模式表示的实际含义相同但形式不同。因此,本发明依据词性对模型进行聚类以提高模式的覆盖率和粒度。

5.根据权利要求1所述的方法,其特征在于,对待抽取文本进行预处理并使用学习得到的关系模式进行实体关系抽取,所述方法包括:

对待抽取文本进行分词、词性标注、依存分析,然后识别候选实体核心词和候选关系核心词,最后使用学习得到的模式抽取关系元组。

对同一待抽取语句有多个模式同时符合的情况,本发明选择其中高频率的二元关系模式抽取关系元组。然后对待抽取语句中包含介词的,通过介词扩展为多元关系。

6.根据权利要求5所述的方法,其特征在于,识别语句中候选实体核心词以及通过依存分析树对候选实体进行扩展,所述方法包括

首先选择其中词性为动词的词汇作为候选关系词。若其依存左子树结点为名词,则将其作为候选实体的核心词。同理识别关系词的另一个候选实体的核心词。

为丰富关系元组中实体的信息,对识别的实体核心词进行实体扩展。具体的是将实体核心词和其所在的子树中名词性成分进行合并。

7.根据权利要求5所述的方法,其特征在于,对初步抽取的关系元组中关系核心词进行扩展,所述方法包括

若语句中有动词的依存分析角为CMP(complement),且其和关系词在依存树中是直接相连的,则合并该动词和关系元组中核心动词。

若语句中有动词和关系词直接相连,则合并该动词和关系元组中核心动词。

8.根据权利要求5所述的方法,其特征在于,对抽取的二元关系元组进行多元扩展,所述方法包括

对于抽取关系元组的语句,若其中包含介词,而且有新的实体和介词相连,则将该实体作为关系元组新的实体,达到多元扩展的效果。

9.根据权利要求1所述的方法,其特征在于,对抽取的关系元组进行质量评估,所述方法包括

对抽取的关系元组采用机器学习的方法对抽取出的实体关系进行质量评估,得到高质量的实体关系元组。本方法结合使用了浅层词法特征和语义特征。

说明书
技术领域

本发明涉及自然语言处理领域,特别是涉及中文信息抽取和开放式中 文关系抽取。

开放式关系抽取是指自动地从文本中抽取出实体以及实体间的语义关 系,其不需预先定义关系类型,直接使用文本中的词汇作为关系元组中的实体和 关系词。例如,从如下例句“奥巴马毕业于哥伦比亚大学”中,可以抽取出如下 的三元关系元组:(奥巴马,毕业,哥伦比亚大学)。开放式实体关系抽取是知识库 构建的基础,对于智能信息检索和应用有十分重要的实际应用价值。

开放式关系抽取方法主要分为三种类型,分别是基于词性的方法,基 于语义角标注的方法,和基于依存分析的方法。基于词性的关系抽取方法的主 要问题在于它仅能够抽取关系词和实体相连的关系元组,难于抽取实体和关系词 存在一定距离的关系元组。基于语义角标注的关系抽取准确率相对较高,但这 类方法的计算复杂度较高,难以适应实际大规模数据处理需求。采用基于依存分 析的关系抽取方法可以较好地解决上述问题。依存分析是指利用依存语法将句子 分析成描述各词语间依存关系的依存句法树,即指出了词语间的句法搭配关系, 这种搭配关系是与语义相关联的。现有的一些基于依存分析的关系抽取方法主要 是预先定义有限的关系模式然后抽取关系元组,因此抽取的关系元组召回率难以 满足实际应用。同时也存在一些开放式关系抽取系统,学习和使用大量依存关系 模式抽取关系元组,但在学习的过程寻关系元组对应的语句容易产生错误,降 低了关系模式的准确性。

本发明提供了一种开放式中文关系抽取方法。该方法能够从已有知识 中自动学习得出实体间的依存关系模式,进而实现无需限定关系类别的开放式关 系抽取。该方法的主要特点在于模式学习的过程不依赖于特定的人工标注语料, 可有效提高面向开放域的中文实体关系抽取的准确率和召回率。

本发明提出的基于模式自学习的中文开放式关系抽取方法,包括:基 于已有知识库获取高质量的实体关系元组和相应的句子作为训练语料,通过本专 利提出的模式学习方法得到实体和关系词之间的依存路径模式;对待抽取文本进 行分词、词性标注和依存分析等预处理,并借助之前学习得到的关系模式进行实 体关系抽取;采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质 量评估,得到高质量的实体关系元组。

其中,所述的关系模式学习方法,包括:

通过已有知识库或者百科网页信息框获取高质量的实体关系元组和相 应的语句作为训练语料,同时也可以利用中文关系抽取系统抽取并选择高质量的 关系元组,以构建包含关系元组和相应语句的训练语料;利用自然语言处理工具 对训练文本进行分词、词性标注和依存分析预处理;利用大规模高质量训练语料 的依存分析结果和高质量的关系元组,学习得到实体和关系词间的依存路径模 式。

其中,所述的利用学习得到的关系模式进行实体关系抽取的方法,包 括:

利用语句的依存分析树进行候选实体核心词识别以及对实体进行扩 展;对待抽取语句选择合适的模式抽取关系元组;对抽取的关系核心词进行扩展 以及将抽取的二元关系进行多元扩展。

本发明的发明目的是这样实现的:本发明首先通过高质量的实体关系 元组和相应的句子语料学习得到大量依存路径关系模式,然后使用关系模式抽取 大量的关系元组,最终对抽取的关系元组进行质量评估选并择其中高质量的关系 元组。

与现有技术相比,本发明的有益效果主要有以下几点:

本发明能够在不限定关系类别的情况下实现开放式中文关系抽取,实 体关系抽取准确率和召回率比现有技术要好。

本发明提出的依存路径模式学习方法具有独创性,通过学习得到的依 存路径模式不仅考虑到实体所在上下文的词法和句法信息,而且包含词汇的语义 信息。与相关技术相比,该方法更为先进,关系抽取结果也更为可靠。

图1为本发明提出的基于模式自学习的中文开放式关系抽取方法

的总体流程图。

图2为本发明中关于依存路径模式自学习方法的流程图。

图3为本发明中基于模式匹配关系抽取的流程图。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显 然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明 中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。

图1为本发明的一个实施例,即本发明公开的一种基于模式自学习的 中文开放式关系抽取方法的总体流程图。如图1所示,本实施例提供的开放式关 系抽取方法,具体可以包括如下步骤:首先利用高质量的实体关系元组和相应的 句子的语料,学习得到大量实体和关系词之间的依存路径模式;然后对待抽取文 本进行自然语言预处理,并利用学习得到的关系模式进行实体关系抽取;最后采 用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量评估,得到高 质量的实体关系元组。为便于理解,首先对下文中使用的英文符号进行说明:

(1)词性标注标签:v表示动词,n表示名词,p表示介词,j表示缩写词、 i表示习语、nr表示人名、ns表示地点名、nt表示组织名、nz表示其他名词、r 表示代词。

(2)依存分析标签:SBV(subject)表示主语,Root(rootofsentence)表示句 子的核心词,VOB(directobject)表示直接宾语,CMP(complement)表示补足语。

步骤101、训练语料关系模式学习:

利用大规模高质量关系元组和对应语句的训练语料,通过学习得到实体 和关系词之间的依存路径模式。关系模式学习的具体步骤如图2所示,包括如下 三个步骤:获取训练语料,对训练语料进行预处理,学习得到依存路径模式。

步骤201、训练语料的获取:

本发明采用如下两种方法获取训练语料。一种方法是利用知识库中已有 的高质量关系元组和百科页面信息框中的关系元组,通过网络爬虫获得包含每个 关系元组中实体和关系词的对应语句,以构建关系元组和相应语句的训练语料用 于模式学习。另一种方法是采用已有的中文关系抽取系统,从大规模开放语料中 抽取实体关系,选择其中置信度较高的关系元组和其对应语句构建训练数据。一 条训练语料包括两个部分:关系元组和相应的原始语句。例如:从如下语句“巴 育当选为总理”中可以抽取出如下的实体关系元组(巴育,当选,总统),该关系 元组和该条语句共同构成本发明所使用的一条训练语料。

步骤202、对训练文本进行自然语言预处理:

利用已有的自然语言处理工具(例如Zpar或ICTCLAS等开源工具)对训 练语料进行分词和词性标注。例如,对上文中使用的例句“巴育当选为总理”进 行处理,得到的结果为“巴育_nr当选_v为_v总统_n”。其中,分词的结果以 空格分隔,单词后面的下划线之后所跟的符号表示该单词的词性。得到分词结果 之后,使用依存分析工具对分词和词性标注结果进行依存分析。

步骤203、依存路径模式学习:

利用步骤201获取的高质量训练语料,经步骤202得到依存分析结果, 可以实现已知关系元组和相应语句的依存分析结果之间的匹配,从而自动地学习 到各种实体和关系词之间的依存路径模式。本发明学习得到的模式定义为:训练 语句依存分析结果中的实体和关系词间的依存路径以及路径中词汇的词性。例 如,对于上文中使用的例句“巴育当选为总理”,得到的依存路径和词性模式为 “SBV(nr)-Root(v)-VOB(n)”,其中Root(v)表示关系,SBV(nr)和VOB(n)表示关 系元组中的实体。考虑到通过大规模学习得到的依存路径模式可能存在分歧和矛 盾(例如某些具有细微差别的模式其实具有相同的语法含义),本发明提出进一步 根据词性,对学习得到的模式进行聚类,以提高模式对复杂自然语言环境的适用 性和覆盖率。由于关系元组中的实体是名词性成分,因此本方法主要将模式中名 词性成分进行聚合,具体实施方法是将词性标签为j、i、nr、ns、nt、nz、r等类 型的单词聚合为n。对于给定例句而言,由于nr表示人名,根据上述聚合方法, 最终得到的模式是“SBV(n)-Root(v)-VOB(n)”。

步骤102、待抽取文本进行模式匹配和实体关系元组抽取:

首先对待抽取语句按照步骤202所述,使用自然语言处理工具进行分词、 词性标注和依存分析等操作。然后使用经步骤101学习得到的关系模式,对待抽 取语句进行模式匹配,得到目标关系元组。基于模式匹配实现关系抽取的流程图 如图3所示,包括如下步骤:候选实体识别、关系模式选择与关系抽取、关系扩 展。

步骤301、候选实体识别:

为识别待抽取语句的中候选实体短语,首先选择其中的动词作为候选关系 词。将该候选关系词视为依存关系树中的一个结点,若其左子树结点为名词,则 将其作为候选实体的核心词。同理可以通过右子树识别候选关系词的另一候选实 体的核心词。通过依存关系分析得到的仅仅是实体的核心词,为丰富候选实体的 信息,需要将实体核心词和所在子树中名词性成分进行合并以实现实体扩展。

步骤302、关系模式选择和关系抽取:

在基于模式匹配实现关系抽取的过程中,会出现对于同一待抽取语句, 可能存在多个模式同时适用的情况。针对这种情况,本发明根据先验概率进行模 式选择。具体方法是,在步骤101的执行阶段,在进行模式学习的同时,统计所 学习到的模式在训练语料中的出现频率,经归一化处理后作为模式的先验概率。 当出现多个模式同时匹配某一语句的情况时,选择先验概率较高的模式作为关系 抽取依据,从目标语句中抽取实体关系元组。

步骤303、关系扩展:

本步骤的主要任务是对抽取的动词性关系核心词进行扩展,同时可以将 基于模式匹配抽取得到的二元关系扩展为多元关系。具体实现方法描述如下。

若待抽取语句中存在某个动词的依存分析角为补足语(CMP),且该动 词和抽取得到的关系元组中的核心动词间存在一条依存路径直接相连,则将该动 词和关系元组中的核心动词进行合并。若待抽取语句中包含介词,而且有抽取得 到的关系元组之外的实体与该介词相连,则将该二元关系扩展为多元关系。

步骤103、使用机器学习的方法对抽取的关系元组进行质量评估:

采用机器学习的方法对从中文语料中自动抽取出的实体关系进行质量 评估,得到高质量的实体关系元组。本方法中使用逻辑斯蒂分类器进行质量评估, 分类器采用浅层词法特征和语义特征进行构造,典型特征包括句子的长短、实体 和关系词间的距离、实体和关系词的依存语义角等。对该分类器采用人工构造 的训练样本进行训练,训练样本通过应用本发明提出的实体关系抽取方法,对开 放语料进行关系抽取而得到。样本经专家人工判别后分为两类,一类是正样本, 表示关系抽取的结果正确,一类是负样本,表示关系抽取的结果不正确。经过训 练的逻辑斯蒂分类模型将被用于质量评估,根据用户选定的置信区间,对本发明 提出的关系抽取方法的输出结果进行自动评估,并过滤掉低置信度的结果。

本发明公布的一种基于模式自学习的中文开放式关系抽取方法具有以 下特点:本发明通过高质量的实体关系元组和相应的句子语料学习得到依存路径 关系模式,并用于抽取关系元组。本方法学习得到的依存路径模式中包含词汇的 语义信息,相对于仅包含词法、句法信息的模式,提高了关系抽取的准确率和召 回率。同时为减少关系抽取的信息损失,方法通过依存树对抽取的实体核心词进 行扩展以及通过介词将二元关系扩展为多元关系。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领 的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本 技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本 发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造 均在保护之列。

本文发布于:2024-09-23 18:23:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/83175.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议