融合多特征BERT模型的中文实体关系抽取

融合多特征BERT 模型的中文实体关系抽取
谢 腾,  杨俊安,  刘 辉
(国防科技大学 电子对抗学院, 合肥 230031)通讯作者: 谢 腾摘 要: 关系抽取是构建知识图谱的一项核心技术. 由于中文具有复杂的语法和句式, 同时现有的神经网络模型提取特征有限以及语义表征能力较差, 从而影响中文实体关系抽取的性能. 文章提出了一种融合多特征的BERT 预训练模型的实体关系抽取算法. 首先对语料进行预处理, 提取关键词、实体对信息和实体类型特征并进行融合, 以此来强化BERT 模型的语义学习能力, 极大限度地减少了语义信息特征的丢失, 最后通过Softmax 分类器进行关系分类. 实验蜂窝纸板托盘
结果表明, 文章模型优于现有的神经网络模型. 在人工标注的中文数据集上本文模型取得了97.50%的F 1值.关键词: 实体关系抽取; 双向编码表征模型; 词向量; 外部特征; 特征融合
引用格式:  谢腾,杨俊安,刘辉.融合多特征BERT 模型的中文实体关系抽取.计算机系统应用,2021,30(5):253–261. /1003-3254/7899.html
Chinese Entity Relation Extraction Based on Multi-Feature BERT Model
XIE Teng, YANG Jun-An, LIU Hui
(College of Electronic Engineering, National University of Defense Technology, Hefei 230031, China)
Abstract : Relation extraction is a core technology to construct a knowledge graph. The complexity of Chinese grammar and sentence structure as well as the limited feature extraction and poor semantic representation of the existing neural network model restrict the relation extraction of Chinese entities. A relation extraction algorithm based on a BERT pretraining model is proposed in this study. It preprocesses the corpus by extracting keywords, entity pairs and entity type and integrating them to strengthen the semantic learning ability of the BERT model, greatly reducing the loss of semantic features. Results are obtained by a Softmax classifier, which show that this model is better than the
existing neural network model. In particular, the model reaches a F 1-score of 97.50% on the Chinese data set.Key words : relation extraction; BERT model; word vector; external features; feature fusion
随着互联网的快速发展以及网络的广泛应用, 产生的信息呈爆炸式地增长, 让人们无法在海量数据中快速有效地到准确的知识. 如何从海量信息中准确高效地到用户所需要的信息成为目前的研究热点,因此, 信息抽取技术受到学术界与工业界的广泛关注. 信息抽取技术作为自然语言处理的研究重点与热点. 它的研究热点主要包括实体抽取、关系抽取和事件抽取. 其中的关系抽取则是作为其核心任务. 关系
抽取主要解决的问题是从非结构化的文本语句中自动抽取实体间的语义关系, 并形成统一格式的结构化信息. 具体而言, 就是预先给定语句和候选实体, 关系抽取模型则需要依靠自身的特征提取能力来预测实体之间存在可能的语义关系. 关系抽取处理海量数据有很强的优势, 因此其在机器翻译、知识图谱的构建、问答系统以及智能搜索等应用中具有很大的研究价值.
裹尸袋计算机系统应用 ISSN 1003-3254, CODEN CSAOBN
E-mail: Computer Systems & Applications,2021,30(5):253−261 [doi: 10.15888/jki.csa.007899] ©中国科学院软件研究所版权所有.
Tel: +86-10-62661041
① 基金项目: 安徽省自然科学基金(1908085MF202)
Foundation item: Natural Science Foundation of Anhui Province (1908085MF202)
收稿时间: 2020-09-10; 修改时间: 2020-10-09; 采用时间: 2020-10-13; csa 在线出版时间: 2021-04-28
253
1  相关工作
实体关系抽取是自然语言处理的重要课题之一.随着知识图谱的发展, 实体关系抽取已经逐渐深入到其中, 并发挥相当重要的作用. 就目前而言, 实体关系抽取算法主要分为3类: 一是基于模板特征匹配的关系抽取算法; 二是基于特征的关系抽取算法; 三是基于神经网络的关系抽取算法. 基于模式的关系抽取是通过预先设定规则和语法或语义模式, 将其与文本进行匹配, 从而实现关系实例的抽取. 该算法在小规模数据集上容易实现同时构建较简单, 并且能够达到较高的准确率, 但是它所耗费的人工成本相当高, 可移植性相当差, 而且这种算法很难定义文本中所有的关系模板,因此也进而导致相对较低的召回率.
基于特征的关系抽取, 它主要依赖于上下文的各种词汇、句法以及语义信息等. 具体而言, 给出相应的训练样本, 然后通过词汇、句法和语义分析等对训练
语料进行特征提取, 再将提取的特征结果输入到分类器当中进行关系分类, 从而完成关系抽取. 该算法的实质是将关系抽取看成是一个多分类问题, 通过构建一个分类器类进行实体关系抽取. 该算法同样是严重依赖人工选择的特征, 如果这些特征能够为关系抽取提供有用的信息, 那么算法性能就会有很大的提升; 但是若这些特征无法给出相应的有用信息, 它们就会严重影响关系抽取的性能, 尤其当训练样本的增多时, 这些特征反而会带来严重的噪声影响, 从而使得关系抽取的性能变得极其之差
传统的关系抽取算法需要消耗大量的人力去设计特征, 对于大规模的抽取任务而言, 人工设计的特征作用并不大, 最重要的是语句中的一些隐性特征很难进行定义, 因而传统算法难以胜任大规模的关系抽取任务. 而基于神经网络的关系抽取算法, 它不再依赖于手工设计的特征, 而是能够自动学习出有效的特征. 这种方法可以在不使用自然语言处理工具的情况下, 在多种自然语言处理任务能够取得更优良的性能. 近几年来, 神经网络模型已经成为了关系抽取任务中的重要方法.钽酸锂晶片
Socher等[1]采用递归神经网络模型, 使用矩阵向量表征分析树的各个节点, 从而提取句子中重要的语义信息, 但是同时因为借助了自然语言处理工具, 容易引起错误传播问题. 为了更加准确地捕捉句子的语义, Zhang和Wang[2]在2015年采用双向循环网络(BRNN)
F1
来对句子进行建模, 学习其中的语义信息. 双向的RNN 可以从前向和后向获取句子的信息, 但是由于R
NN存在梯度消失和梯度爆炸问题, 胡新辰等[3]采用双向长短期记忆网络(BiLSTM)来实现对句子特征的提取, 同时又借助传统的词汇与句子特征来进行关系抽取. 罗计根等[4]提出一种融合梯度提升树的BiLSTM模型,在中医领域上实现了关系抽取, 并取得相当不错的效果. 近期注意力机制[5]在各大领域上有了比较成功的应用. Zhou等[6]在2016年就在双向长短期记忆网络(BiLSTM)的基础上加入注意力机制, 并且在关系抽取任务上取得了更优良的性能. 周文烨等[7]则是融合了多层注意力机制与双向长短期记忆网络进行语义关系抽取, 取得一定的效果. 李卫疆等[8]在ATT-BiLSTM 模型基础上引入多种外部特征来进行关系分类. 朱姗姗和唐慧丰[9]则是把ATT-BiLSTM模型应用到军事领域上, 同时结合词性特征, 在军事类实体关系上取得较好的值.
卷积神经网络在关系抽取上也有长足的应用. Zeng[10]采用卷积神经网络模型, 再结合词向量以及位置特征,此算法无需提取复杂的特征就取得超越传统方法的性能. 随后, Zeng等[11]又基于实体位置信息, 提出了分段池化的思想, 根据实体位置将池化的向量分为3段, 然后各取这3段的最大值进行拼接. dos Santos等[12]提出分段排序结构来取代Softmax分类层器, 它有效地提高了不同实体类型的区分度, 并且取得了相当好的效果. Mou等[13]和刘伟等[14]则利用树形结构的神经网络进行关系抽并且取得很好的效果. Lin等[15]改进卷积神经网络模型, 在此基础上加入了注意力机制, 解决了实体相对应的句子噪音问题, 该模型可以使用有效的句子学习, 因而使得关系抽取性能进一步提高. Bing等[16]通过深度卷积神经网络模型提取句子的低级和高级特征, 在NYT数据集上取得较高的F1值. Liu等[17]利用循环神经网
络对依存句法树进行建模, 然后又利用卷积网络对语句的最短依存路径进行建模, 统一将两者的语法分析结果添加到深度学习框架中. 张晓斌等[18]则是利用卷积网络和循环网络两者各自的优点, 弥补相应的不足, 在此基础上提出了一种结合CNN和LSTM 的实体关系抽取算法, 该算法取得了一定的效果. 李孟颖等[19]利用CNN-BiLSTM联合模型在微生物生长环境领域上进行关系抽取, 并取得了相当不错的效果. Li等[20]提出一种预训练CNN模型来探索语义关系抽
计算机系统应用2021 年 第 30 卷 第 5 期254
取并实现了较高的性能.
综上所述, 前两者方法严重依赖人工特征, 而构建这些特征耗时耗力; 对于现有的神经网络模型而言, 根据Tang等[21]的研究表明, 相较于Transformer, 神经网络的综合特征提取能力有限以及语义表征能力较差,因而导致整个网络模型无法获取丰富的语义信息特征,因此在实体关系抽取上已经很难再有所突破性进展.而近期的BERT (Bidirectional Encoder Representations from Transformers)[22]模型在NLP领域取得重大突破,凭借其独特的网络结构在多个研究方向得到成功应用,同时在关系抽取上也存在相应的应用. Wu等[23]和Giorgio等[24]利用BERT模型实现过英文关系抽取, 并取得相当不错的效果, 甚至优于当前的深度学习网络模型. 因此本文就引入BERT模型来进行中文实体关系抽取. 本文的主要贡献如下:
电动粉扑(1)在中文实体关系抽取任务上, 大多数算法主要集中在循环神经网络模型和卷积神经网络模型等. 而本文所采用的模型不同于之前的神经网络模型, 本文则是使用了BERT预训练模型来实现中文关系抽取任务;
(2)在进行中文实体关系抽取时添加了多种外部特征: 关键词、实体类型和实体对信息. 这些特征能够在词汇和句法上体现出整个语句一定的语义信息, 从而利用这种优势进一步来加强BERT模型的语义特征提取能力, 因此可以进一步提高中文实体关系抽取性能.
2  融合多特征BERT模型的关系抽取
本文是基于BERT预训练模型来实现中文关系抽取任务的. 其整个训练过程如图1所示, 主要工作如下:
① 语料预处理, 构造语料特征(本文采用的外部特征有关键词、实体类型和实体对信息);
② 建立相关的网络模型(本文采用的是BERT模型), 其输入是①中所处理的数据, 并获取其相关的分布式词向量特征;
③ 将得到的各种外部特征向量进行拼接融合, 通过全连接层得到最终的向量表征;
④ 采用Softmax分类器, 对最后的实验结果进行关系分类.
本文的模型最大优势就在于不需要提前进行额外的字向量或是词向量训练, 只要把语句直接输入到BERT预训练模型中即可, 该模型会自动将训练出带有较丰富语义的特征向量, 然后直接利用该特征向量进行关系抽取.
图1    基于BERT模型的中文实体关系抽取流程
2.1  外部特征的提取融合
2.1.1    数据预处理
数据预处理的主要目的是获取高质量的训练数据,其过程主要包括两个方面: 数据的整理标注以及外部特征的提取融合. 数据的整理标注主要是处理成模型训练所需要的语料格式, 而外部特征的提取融合则是整个数据预处理的重点所在, 下面依次对外部特征的提取和融合进行细致分析.
2.1.2    外部特征的提取
在中文实体关系抽取当中, 不同于英文实体关系抽取, 中文实体关系抽取具有不同的语法结构, 尤其是在特定的领域中, 中文更是具有独特的语法结构, 因此为进一步改善中文实体关系抽取的性能, 本文将选取关键词、实体类型和实体对信息作为外部特征.
(1)关键词
k i
在进行关系抽取这个分类任务时, 引入关键词对提高抽取性能具有一定辅助作用. 提取出来的关键词大都是有很高的区分度, 甚至可以增强语义信息, 因此关键词特征与抽取的关系相关性越高, 那么对关系抽取的性能提高就越大. 关键词作为一个显式特征, 它可以从另一个方面能够弥补BERT模型训练得到的特征的不足之处. 例如, “天安门是北京市的一处旅游景点”,通过提取关键词可以得到“旅游景点”, 由此可以预测出关系可能是“地理位置关系”. 因此提取一些类别关键词更有利于关系抽取. 对于任一个语
句X而言, 提取其中的关键词后输入到BERT模型中进行向量表征.如果表示为第i个关键词的特征向量, 那么所有关键
2021 年 第 30 卷 第 5 期计算机系统应用
255
K =[k 1,···,k n ]词的特征向量则为.
(2)实体类型
实体类型是作为一种浅层的语义特征, 它主要为实体标注一些特定的语义角. 实体类型通常在于浅层语义的理解, 而对于语句的深层语义特征不进行分析. 在实际应用过程中, 浅层语义特征往往也显得非常重要, 甚至能学习到更多的语义信息. 对于关系两边的实体类型, 经常是实体对的约束条件. 例如, 指定一个关系“出生地”, 则可以知道主体的实体类型属于“人物”, 而客体的实体类型是“地点”. 在此模型中, 本文把语料中的候选实体替换为相应的实体类型, 然后再将整个语句输入到BERT 模型中进行学习, 从而提取语义特征.
(3)实体对信息
T =[t 1,t 2]对于限定关系抽取而言, 实体对是作为一种约束信息. 例如给定“马云”和“淘宝”, 通过模型训练后, 可以大概率将“出生地”或是“所在城市”等一些与之相关性不高的关系排除掉. 因此它在一定程度上是可以得到相应的语义信息, 从而能够帮助判断实体关系类型. 将实体对信息输入到模型训练中, 可以得到其特征向量:
, 其中t 表示实体向量.
2.1.3    特征融合
在实现对外部特征的提取后, 需要将所提取的特征进一步地拼接融合, 使得外部特征能够显示地表达出来, 从而利用其所表现出来的语义特征来强化模型训练, 使模型输出特征向量能够尽可能地表达出更多的语义信息, 进而提升中文实体关系抽取效果. 具体特征融合过程如图2所示.
X =[x 1,x 2,···,x v ]对于任意语句, 在数据处理阶段时将其中的候选实体用相应的实体类型进行替换后,得到一个新的语句表示:
X ′X ′在当中, 其可以理解为把实体类型添加到语句当中, 通过替换实则是将不同实体之间的关系转为两种实体类型之间的关系, 同时实体类型本身就带有一定的语义信息, 这两者的共同作用降低了噪声的干
扰.
随后将输入至模型训练, 提取语句的语义特征, 经过训练后其语句的向量表征形式如下公式:
其次通过自然语言处理工具对整个语句X 的关键
g i 词进行提取. 关键词是对语句内容的一个整体性概括,关键词排序越靠前的对语句的影响力就越大. 关键词最主要的作用就是提取语句中语义较丰富的特征词,进而降低无关的信息对关系抽取的影响, 因此把提取出来的关键词按序进行排列. 关键词排序靠前的优先作为外部特征的输入. 同时为了尽可能地丰富句子的语义, 本文选取排序前20%的关键词, 而后续的关键词已经很难体现句子的语义信息, 甚至可能会带来额外的噪声影响, 从而使得关系抽取性能变差. 在此用
表示提取的第i 个关键词
载人旅行箱
, 经过训练后的关键词的向
量表征形式如下:
图2    特征融合
对于实体对信息而言, 实体对是作为一种对关系的约束信息, 同时能够间接反映出实体所在的位置信息, 对提高关系抽取性能很有帮助. 而对于关系抽取而言, 能够利用各种信息加强对语义的理解都是可以作为一种有效的外部特征进行输入. 在数据的处理过程中, 实体对分为头实体和尾实体, 在此分别用s 和o
来表示, 那么训练后的实体特征向量表示为如下:
三者训练过后得到了相应的特征向量, 紧接着就是将三者的特征融合在一起. 特征融合主要有两种方式: 特征拼接和加权求和. 两种融合方式具体如图3所示.
计算机系统应用
2021 年 第 30 卷 第 5 期
256
团队监控图3    特征融合方式对比
从图3可以看出, 两种特征融合方式都是可行的,但两种方式各有所长. 对于加权求和的特征融合方式,其优点在将三者向量的一些关键信息融入到一起, 降低了向量的维度, 便于计算, 但是其缺点是在加权的过程中容易造成某些关键的语义信息的缺失. 而对于特征拼接而言,
它把所有的向量都拼接在同一个向量中,虽然使得向量维度提高了, 但它保留了最原始的语义信息特征, 尤其对于关系抽取任务而言, 它更加注重对整个语句的理解程度, 因此从理论上来说, 尽可能地保留更多的语义信息是有助于提高关系抽取的性能. 因
此本文就采用特征拼接的融合方式, 而非所有特征加权求和, 所以外部特征融合的向量表示如下:
图2中的右边展示的是无任何外部特征的加入,其训练出来的语句向量表示为如下:
E ′1
E 1从上述可以看出特征向量H 主要包括两种类型的
向量: 语句向量和外部特征向量, 前者又含有实体类型特征, 后者则是包含关键词和实体对信息的特征向量K 、T . 整体而言, 本文将所选外部特征融合到一个向量表征中. 而图中右边表示的是把原始语料输入到模型之中进行训练, 得到只是一个单纯的语句向量.因此两者对比分析可以得到, 本文输出向量融合了外部特征向量, 弥补了自动学习特征的不足, 因而能够表征出更多的语义信息.
2.2  基于BERT 模型的词向量表征
在处理自然语言过程中, 词向量是一种相当重要的表征形式. 目前而言, 先进的词向量是一种分布式的表征形式, 它是通过用一个低维的实数向量来表征一个词语. 这样的词向量包含丰富的句法和语义信息特征. 词向量是通过对大量的无标注文档训练而得到的.
在本文中, 采用BERT 模型来训练词向量, 不同于以往的静态词向量, 前者能够在不同的语境下表征不同的语义, 因此这样的词向量更加体现出强大的语义表征能力. 其训练过程主要分两步进行的: 一是对输入语句的预处理, 二是通过基于双向Transformer 的网络结构进行训练.
本文词向量的具体训练工作如下:
X =[x 1,x 2,···,x v ]E =R V ×d m d m 给定一个句子, 则可以表示为一个向量矩阵, 其中V 是句子中词语的个数,
是词向量维度.
该句子X 经过数据预处理, 将所得到的特征联合拼接得到语句X', X 就作为BERT 模型的输入进行预训练, 其中句向量和外部特征向量的表征过程如图4所示.
图4    向量表征
从图4来看, BERT 模型的整体框架是由12层Transformer 搭建而成, 但是在具体的训练过程需要按照实际的需求来确定Transformer 层数, 以此来达到最佳的训练效果. 从理论上分析, 数据量较大时, Transformer 层数可以选取较大的值, 因此在训练过程中可以获取更加深层次的语义信息; 数据量较小时, Transformer 层
2021 年 第 30 卷 第 5 期
计算机系统应用
257

本文发布于:2024-09-22 17:17:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/253211.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   抽取   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议