一种基于ERNIE的军事文本实体关系抽取模型

信息技术XINXUISHU2021年第2期
一种基于ERNIE的军事文本实体
郑杜福,黄蔚,任祥辉
(华北计算技术研究所,北京100083)
摘要:针对军事文本实体关系抽取过程中存在的“一句对应多个三元组”,“一个主语对应多个客体”等问题提出一种基于ERNIE的军事文本三元组抽取模型,在编码层引入ERNIE模型获取每个词的编码序列,参考seq-to-seq解码器的建模方法和BI0序列标注,采用先预测主体,再传入主体标注序列预测客体和二者之间关系的方法实现三元组的抽取。在预测层使用sigmoid实现多主体、多客体甚至多关系的提取。实验结果证明,人工标注的军事新闻数据集上,该模型的抽取效果明显优于基于循环神经网络的流水线抽取模型和基于BERT的联合实体关系抽取模型,Fl值达到80.04%。
关键词:关系抽取;sequence-to-sequence模型;ERNIE模型;序列标注
中图分类号:TP391文献标识码:A文章编号:1009-2552(2021)02-0038-06
三星s8300cDOI:10.13274/jki.hdzj.2021.02.007
A model of military text relation extraction based on Ernie
ZHENG Du-fu,HUANG Wei,REN Xiang-hui
(North China Institute of Computing Technology,Beijing100083,China)
Abstract:Aiming at the problems of"one sentence corresponds to multiple triples M and"one subject cor­responds to multiple objects n in the process of entity relationship extraction from military text,this paper proposed a military text relation extraction model based on Ernie.In this model's coding layer,Ernie mod­el is introduced to obtain the coding sequence of each word.Referring to the modeling method of seq-to-seq decoder,this model firstly predicts the subject and then introducing the subject to predict the triple.In this model's prediction layer,sigmoid is used to extract multi-agent,multi object and even multi relationship. The experimental results show that,on the manually annotated military news dataset,the extraction effect of this model is obviously better than that of pipeline extraction model based on cyclic neural network and joint entity relationship extraction model based on Bert,and the value reaches80.04%.
Key words:relation extraction;Sequence-to-Sequence(Seq2Seq)model;ERNIE model;sequence labe­ling
0引言
伴随着信息时代的发展,产生了海量的、开源
基金项目:公共安全风险防控与应急技术装备(2018YFC0831-200)
作者简介:郑杜10(1996-),男,硕士研究住,研究方向为自然语言处理。的军事领域数据。这些数据包含丰富的军事装备信息,对构建军事信息化具有重要意义。然而,当前军事领域的开源数据主要以军事新闻为主,存在数据量大、非结构化、利用率低、聚合能力差等诸多问题⑴。知识图谱作为一种智能、高效的信息组织形式,能够快速构建实体之间的联系并形
—38—
一种基于ERNIE的军事文本实体关系抽取模型一郑杜福等
成有用的知识,为后续的军事信息系统提供全面的、体系化的知识服务。而实体关系抽取作为知识图谱中的一个重要子任务,抽取的效果直接决定了军事领域知识图谱的质量〔2]。
本文使用联合实体关系抽取方法中的序列标注方法⑶进行建模。鉴于数据集呈现的”一主多客”的特点,采用自然语言的BIO标注模式完成实体关系标注。参考seq-to-seq模型⑷的解码器构建模型,先预测主体,然后通过主体预测客体和关系。并在词嵌入层引入ERNIE[5]作为编码器,最终构建岀基于ERNIE的联合实体关系抽取模型。1相关工作
1.1实体关系抽取研究现状
实体关系抽取的13标是从文本中识别岀实体(Entity)并抽取实体间的语义信息。早期的实体关系抽取大多数是基于模板匹配实现。该方法基于语言学并结合语料特征,在小规模的数据集上实现实体关系抽取。但这种过分依赖专家知识和预料特征的方法存在构建难度大、模型泛化能力差的缺点,已经逐步被基于深度学习的实体关系抽取方法所代替。而基于深度学习的实体关系抽取依据训练语料的多寡乂分为基丁•监督学习的实体关系抽取方法和基于弱监督学习的实体关系抽取方法。基于弱监督学习的方法主要包括远程监督方法⑹和Bootstrapping方法口少。当训练语料不足的时候,它可以通过少量标注的数据完成模型学习任务。
当前基丁深度学习的实体关系抽取方法根据两大任务的执行顺序又分为流水线抽取方法和联合实体关系抽取方法。流水线抽取方法是先执行命名实体识別子任务,然后对所有识别的实体进行两两间的关系分类[⑼。基于流水线方法的模型采用基于RNN,CNN,LSTM及其变种的网络结构,通过增加Attention机制、依存分析树・⑵、最短依赖路径(SDP)[⑶等方法提高关系抽取的精度。
流水线的方法将实体抽取和关系抽取看作串联的任务,使得每一个子过程更加灵活,建模简单,但也存在一系列问题。
错误传播,实体识別模块的错课会影响关系分类的性能。
②信息丢失,忽视两个子任务之间的关系,关系分类阶段无法使用实体识别阶段的部分信息。
③产生冗余信息,关系分类阶段对实体识別任务获得的实体两两之间进行关系分类,可能导致没有关联的实体间产生冗余信息,影响错误率。
为了解决上述流水线方法遇到的课差传递等问题,许多工作者尝试将实体识别和关系抽取任务进行联合建模,尝试使用end-to-end的模型提高实体关系抽取的精度。Makoto1⑷等人提出一种新颖的end-to-end模型,基于词序信息和依存树结构信息来抽取实体间的关系,通过共享参数表示实体及关系,使用双向的LSTM和tree-LSTM 结构,同时抽取实体及关系。采用参数共享的方法,在命名实体识别子任务和关系抽取子任务之间进行参数的传递,解决了不同子任务的关系传递和误差传播的问题,但是无关实体之间进行关系分类的冗余问题依然存在。Zheng⑶等人在2017年提出的基于序列标注的实体关系抽取方法,将原来的命名实体识别任务和关系抽取任务的联合模型编成一个序列标注问题,通
过实体位置标注信息、关系标注信息和角标注信息,使用一个端到端的神经网络,直接获取实休-关系-实体的三元组。
1.2预训练模型研究现状
BERT(Bidirectional Encoder Representation from Transformers)模型""是google于2018年提出的预训练的语言模型。通过在大规模的语料上进行预训练,采用双向Transformer网络结构捕获上下文中的语义信息,从而得到一个通用的、无监督的预训练语言模型。在模型迁移过程中,只需要增加一个额外的输出层,不需要对模型做针对性的修改即可满足不同的任务需求。因而,以BERT为首的预训练模型在抽取式任务(SQuAD)、序列标注任务等方面都取得很好的效果。
BERT通过随机屏蔽15%的字或者word的方法完成针对字或word粒度上的完形填空的方法虽然在预训练模型方面取得了一定的效果,但是BERT并没有充分利用训练数据中的同法结构、语法结构以及语义信息进行模型学习。百度
—39—
一种基于ERNIE 的军事文本实体关系抽取模型一郑杜福 等
提出的ERNIE 模型⑸将预训练语言模型和知识 图(KG )相结合,利用大规模文本语料库和知识图
训练的增强语言表征模型同时利用了词汇、句法 和知识信息,在知识驱动任务中取得显著进步。
2军事文本实体关系抽取模型
传统pipeline 方法的模型思路是:先进行实
体识別,然后根据实体识別的结果进行关系分类O  但是这种方法存在关系分类冗余和误差传递问题。
本文采用联合实体关系抽取的方法,尝试将 实体识別和关系抽取两个子任务转换成一个序列
标准问题处理。考虑到实体关系重叠问题,采用
类似于seq-to-seq 解码器的建模方法,将SRO  (主 体、关系、客体)三元组的抽取任务转换成基于主
体的实体关系抽取任务。
2. 1 sequence-to-sequence  解码器模型Seq-to-Seq 模型"最早应用于机器翻译任
务,主要作用是完成序列数据间的转换(从一个 可变序列变换成另一个可变序列),由编码器
(Encode )和解码器(Decode )两部分构成。编码
器负责将一个可变长度的序列转换成一个固定长 度的向量表示,Decode 再将这个固定长度的向量 表示转换成另一个可变长度的序列。从而完成从 一个固定长度的序列到另一个固定长度序列的恳谈会
转换。
关系抽取模型构建过程中,利用seq-to-seq 的
解码器的建模思路。
p (yi ,力,…,兀丨久)=
I  x )p (y 2 I  I  ,力,…,%-i )
解码器的解码过程,是先通过x 来预测第一 个单词,然后假设第一个单词已知,预测第二个单
词,依此递推,直到岀现结束标记。参照这个思 路,创建了如下的客体和关系抽取公式:
P (s,r,o ) =p (s )p (ols )p (rls,o )
在实体关系抽取模型预测过程中,可以先预 测s ,然后传入s 来预测该s 对应的o ,然后传入s 、
o 来预测所传入的s 、o 的关系r o 在模型实现过
程中,可以把o 、r 的预测合并为一步。所以总的
步骤只需要两步:先预测s ,然后传入s 来预测该s  所对应的。及r 。
2.2 ERNIE 增强表征模型
当前应用广泛的BERT 模型[⑸通过大量语
料预训练和mask 机制的上下文预测的方式实现 语言表征。虽然考虑了上下文语义但是并没有考 虑句子的词法、句法等特征。以“北京是中国的
首都”为例,Bert 模型虽然能够争取预测句子,但
是它并不理解“北京”、“中国”、“首都”这些词以 及它们之间的关系。于是,在BERT 模型的基础
上,ERNIE 模型⑸将知识信息加入模型中,形成 新的增强表征模型,图1展示了 BERT 模型和增 强表征模型ERNIE 的区别。
BERT 模型
ERNIE 模型
图1 BERT 模型和ERNIE 的mask 策略的差异图
—40
一种基于ERNIE的军事文本实体关系抽取模型一郑杜福等
2.3关系抽取模型构建
在关系提取任务中通常会遇到的以下3个问题:
①一句中会存在多对关系三元组;
②一个主语存在对应多个关系和该关系对应的客体;
③一对主体和客体之间也有多种复合关系。
为了提升预测模型的准确性,并解决以上3个问题,本模型没有使用传统的先以序列标注方式出包括主体和客体在内的实体,然后再以分类方式判别岀二者之间关系的严格串行模型,而是采用先预测主体,然后将预测出来的主体传入下一个模型来预测该主体对应的客体,再传入这一对主体、客体来预测所传入的主体、客体之间的关系。在实际应用中,可以把客体、关系的预测合并为一步。因此最终的步骤只包括以下两步:先预测主体,然后传入主体来预测该主体所对应的客体及其二者之间的关系。信息的传递
理论上,上述模型只能抽取单一的三元组,而为了处理可能有多个主体、多个客体甚至多个关系的情况,本模型全部使用“半指针-半标注”结构,将预测层中的softmax换成sigmoid,并且在关系分类的时候也使用sigmoid而不是softmax激活。
具体到深度学习模型中,通过在词嵌入层引入了ENNIE作为编码器,然后得到了每一个词的编码序列
作为语义空间中的稀疏表示,然后直接利用一个全连接层将语义空间进行变换以映射到我们所需要的主体与非主体的划分空间中,这就完成了主体的标注模型;接着,将该主体的首尾对应的编码(也即是该主体在原句中的上下标)向量作为下一个模型的输入,利用标准化层将主体与源文本融合在一起作为一个序列利用ENNIE 模型得到语义空间分布,并在该包含了主体位置信息的语义空间上接一个全连接层来预测客体以及关系,完成客体的标注模型同时标注岀了关系,详细的模型如图2所示。
甲孚甲甲甲甲甲甲甲甲甲甲甲甲甲甲甲甲甲
其他
图2本文的关系抽取模型
同时,用“半指针-半标注”结构做实体抽取时,会面临类別不均衡的问题,因为通常来说目标实体词比非目标词要少得多,所以标签1会比标签0少得多。常规的处理不平衡的方法都可以用,比如focal loss或者人工调节类权重,但这些方法用了之后,会遇到阈值确定困难的问题。这里提出了一种将概率值做n次方的方法。相比于focal loss116:或人I:调节类权重,这种方法的好处是不改变原来内积的分布就能使得分布更加贴近目标,而不改变内积分布通常来说对优化更加友好。
—41
溴敌隆一种基于ERNIE的军事文本实体关系抽取模型一郑杜福等
3实验及结果分析
3.1实验环境
使用Tesla P40J28G内存、500G磁盘的运行服务器,Ubuntu19.04版本64位操作系统,Python 版本为3.7,计算平台为Paddlel.7.2o
3.2数据集
本实验采用的数据集文本来自新华网和环球军事相关的新闻,通过人匸标注的方法,形成了的数据集。数据集大概有30万字,每10至500字形成一个自然段落,并且为每个段落标注对应的SRO三元组,数据的样例如表1所示。
表1数据样例
运-20(¥-20)重型运输机,代号鲍鹏,是中国口主研text发的新一代重型军用运输机,由中航工业西安E机工业集团研发并制造。
[{“subject'
*:“运-20(Y-20)重型运输机”,“predi­cate":**别称”,“object”:“鲍鹏,轻松论坛
{“subject:“运-20(Y-20)重型运输机”,“predi-sro_list cate":研制国家”,"object":"中国
中国的江河湖海
{“subject”:“运-20(Y-20)重型运输机”,“predi-
cate”:“研制单位”,“object”:“中航工业西安飞机
工业集团”门
当前的数据集共计2500个自然段落,包含关系有研制类(研制时间、研制单位、研制国家)、时间类(生产时间、服役时间)、所属类(所属国家、所属单位)、数据类(速度、长度、重量)等等总共31种细分关系,关系的大致分类如表2所示。
表2数据集中关系统计
关系类型训练集数量测试集数量合计人物468103571组织机构642163805武器12072591466
国家15483291877
合计38658544719
3.3评价指标
对本模型关系抽取准确性的评价着重于两点:
①实体和关系序列标注的准确性;
②SRO三元组抽取的准确性。
对于序列标注准确性问题,本文采用精确匹配的方法进行判别,对于实体或关系的序列标注—42—存在问题的输出,都按错误处理。
对于整个SR0三元组抽取的准确性,用完全兀配(序列标注兀配、SRO匹配)预测的SR0总 数除以所有预测出的SR0的个数得到召回率,将完全兀配预测的SR0总数除以标准答案中SR0的总数获得准确率(precision),并按照F1的计算公式得到F值。
..£所有预测正确的SR0个数precision=-------------------------------------------
X所有预测到的SRO个数
,y所有预测正确的sro个数Recall=------------------------------------------
X标准答案中的SRO个数F]_2*precision*recall
precision+recall
3.4实验过程
该程序分为训练阶段与预测阶段。
在数据预处理阶段,输入待提取关系中的句子。通过维护一个汉字文本与口1开始的序号数值之间的单射关系表,保证了每个不同的句子可以形成独口的数值向量,同时为了满足深度学习模型的输入长度要求,需要对该向量进行截长补短操作,即先设定输入的句子数值向量统一长度,如果向量短丁该长度,在向量末尾添加无意义的数值0,反之如果向量长于该长度则只能去掉长出的部分。通常为了避免后一种情况导致的信息丢失,可以使用句子分割或者设定更长的统一长度解决。
其中训练阶段通过已经经过人工标注的训练数据训练深度学习模型中的权重,使得该模型能够正确拟合关系提取任务的实际数据,经过数据预处理形成数值计算所需要的数值矩阵模式(一般模型一次会利用多个句子进行一轮训练,故每一个句子形成的向量会组成一个矩阵的形式),并将该数值矩阵反复地输入模型,该模型的阶段性输出与经过同样数值化的预测结果利用定义好的损失函数计算课差,利用梯度下降方法调整深度学习模型中的权重。
预测阶段也需要先对待预测的句子使用训练阶段同样的数据预处理方式转化为数值向量,并利用已经训练好权重的深度学习模型进行预测,

本文发布于:2024-09-24 08:30:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/60670.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   模型   抽取   实体   方法   标注
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议