基于集成学习方法的实体关系抽取

基于集成学习方法的实体关系抽取
丰小丽,  张英俊,  谢斌红,  赵红燕
(太原科技大学 计算机科学与技术学院, 太原 030024)通讯作者: 丰小丽, E-mail: *****************
摘 要: 基于神经网络的实体关系抽取模型已经被证明了它的有效性, 但使用单一的神经网络模型在不同的输入条件下, 会表现出不同的结果, 性能不太稳定. 因此本文提出一种利用集成学习思想将多个单一模型集成为一个综合模型的方法. 该方法主要使用MLP (MultiLayer Perceptron)将两个单一模型Bi-LSTM (B
i-directional Long Short-Term Memory)和CNN (Convolutional Neural Network)集成为一个综合模型, 该模型不仅可以充分利用两个单一模型的优势, 而且可以利用MLP 的自学习能力与自动分配权重的优势. 本研究在SemEval 2010 Task 8数据集上取得了87.7%的F 1值, 该结果优于其他主流的实体关系抽取模型.关键词: 实体关系抽取; Bi-LSTM; CNN; 集成学习; MLP
引用格式:  丰小丽,张英俊,谢斌红,赵红燕.基于集成学习方法的实体关系抽取.计算机系统应用,2021,30(6):255–261. /1003-3254/7952.html
Entity Relation Extraction Based on Ensemble Learning Method
FENG Xiao-Li, ZHANG Ying-Jun, XIE Bin-Hong, ZHAO Hong-Yan
(School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China)
Abstract : The entity relation extraction model based on neural networks has been proven effective, but a single neural network model is unstable because it can yield various results with different inputs. Therefore, this study proposes a method to integrate multiple single models into a comprehensive one using the idea of ensemble learning. Specifically,this method integrates Bi-direct
ional Long Short-Term Memory (Bi-LSTM) and Convolutional Neural Network (CNN)into a comprehensive model through MultiLayer Perceptron (MLP), which cannot only fully take advantage of the two single models, but also make use of the self-learning ability and automatic weight allocation of MLP. This study obtains F 1 of 87.7% on the SemEval 2010 Task 8 dataset, which is better than other mainstream entity relation extraction models.Key words : entity relation extraction; Bi-LSTM; CNN; ensemble learning; MLP
信息抽取旨在从大规模半结构化或非结构化的自然文本中抽取结构化数据. 实体关系抽取作为该领域重要的一部分, 其目的是抽取出各实体之间的语义关系. 准确的关系分类有利于精确的句子解释和文本的语义理解, 从而更有效地进行自然语言处理(Natural Language Processing, NLP)任务. 此外, 关系抽取在问答系统、机器翻译和信息检索等方面有着重要的应用价值和现实意义.
voip业务目前实体关系抽取任务均是在给定句子实体的情况下, 在单句内和限定关系的集合中进行实体关系抽取. 在该场景下, 深度学习方法应用较为广泛, 而且效果较好. 与传统方法相比, 深度学习方法能够捕获句子更深层次的语义信息. Socher 等[1]在实体关系抽取任务中使用循环神经网络(Recurrent Neural Networks,RNN), 将句子的句法结构考虑在内, 但却忽略了单词之间的位置信息; Zhang 等[2]使用RNN 进行实体关系抽
计算机系统应用 ISSN 1003-3254, CODEN CSAOBN
E-mail: ************ Computer Systems & Applications,2021,30(6):255−261 [doi: 10.15888/jki.csa.007952] ©中国科学院软件研究所版权所有.
Tel: +86-10-62661041
①  收稿时间: 2020-09-26; 修改时间: 2020-11-05; 采用时间: 2020-11-17; csa 在线出版时间: 2021-06-01
取时虽然引入了位置信息, 但梯度消失问题使其很难解决远距离依赖问题; Zeng等[3]在基于位置信息的基础上使用卷积神经网络(Convolutional Neural Networks, CNN), 虽然CNN可以利用多个n-gram特征, 使提取的特征更丰富, 但由于卷积核通常不会太大, 因此也不能很好地学习到句子中的远程语义信息. Miwa和Bansal[4]在句子序列上使用基于句法树的长短期记忆网络(Long Short-Term Memory, LSTM)来获取句子序列的上下文信息, 克服了RNN梯度消失的问题, 解决了长距离依赖的问题. 然而, 这些模型都只是在某一方面表现更好, 而且其性能不是很稳定[5], 不能有效的解决关系抽取中的噪声数据和错误标注的数据.
针对上述问题, 本文提出一种新的集成(ensemble)神经网络模型. 该模型主要使用两个不同的单一模型(也称为弱分类器)−双向长短期记忆网络(Bi-directional LSTM, Bi-LSTM)和CNN, 然后将其集成到使用多层感知机(MultiLayer Perceptron, MLP)的综合模型中.在综合模型中利用Bi-LSTM解决句子长距离依
赖问题的优势, 利用CNN解决并行计算问题和充分提取特征信息的优势, 利用MLP高度并行性和良好容错性与自适应性的优势, 自动的学习出实体对的语义关系. Rokach等[6]证明使用某些策略将多个模型结合起来,可以有效地提升机器学习的性能.
常用集成学习方法的权重分配策略主要有简单平均法和加权平均法, 虽然这两种方法较为简单, 但其不能拟合非线性数据, 而神经网络具有良好的自学习和充分逼近复杂的非线性关系的能力. 因此, 本文使用人工神经网络进行权重分配; 此外, 决策树与随机森林等方法, 虽然有一定的效果, 但其缺点是容易产生过拟合,而对于神经网络则可通过参数正则化、Dropout以及选择合适的网络结构等方式来防止该现象的发生.
1  相关工作
实体关系抽取作为NLP一项基础且重要的任务,受到了广泛的关注和研究. 早期, 基于规则[7]的关系抽取方法主要依赖领域专家构建大规模的模式匹配规则,费时费力, 且领域自适应性较差, 因此发展受到限制;基于特征[8]的方法, 通过提取文本中的重要特征表征实体之间的关系, 如依存句法树[9]等, 但该方法依赖于NLP工具的准确性, 因此, 可能会导致错误传播等问题; 基于核函数的方法, 主要通过核函数来计算不同关系实例之间的相似度, 且核函数的设计需要大量人员进行研究, 因此其不适用于大规模语料的关系抽取任务.
目前, 基于神经网络的方法应用较为广泛. 常用的主要包括基于CNN和RNN两种网络模型.
基于卷积神经网络的方法主要有: Chen等[10]提出基于强化学习的句级标签去噪模型, 并利用PCNN (Piecewise Convolutional Neural Network)作为句子编码器来进行远程监督关系抽取; 曹春萍等[11]使用ATT-CNN与BSRU(简单循环神经网络)结合, 解决了生物医学中化学物质与疾病的关系; Lin等[12]利用CNN结合注意力机制进行远程监督关系抽取, 缓解标注语料较少的问题; Liu等[13]利用正确标注的实体对的语义信息, 提出一种实体对级的去噪方法, 该方法可以在训练过程中动态的纠正错误标签; Qin等[14]则是将生成对抗网络和CNN进行结合来缓解远程监督关系抽取中的噪声问题; 刘伟等[15]使用语法树与CNN构建的Tree-base CNN, 解决CNN对语法信息编码不足的问题. 基于循环神经网络的方法主要有: Gupta等[16]通过循环神经网络对最短和增强的依赖路径进行建模, 以提取句子内部和跨句子边界的关系; 李卫疆等[17]使用Bi-LSTM解决单词之间的依赖关系, 而且将位置信息、词汇、句法和语义信息相融合, 再使用自注意力机制重点学习序列内部的特征信息; Phi等[18]使用两层双向门控循环单元(Bi-directional Gated Recurrent Unit, BGRU)提取句子上下文信息, 同时添加了分段注意力机制, 以突出每个片段对句子的重要性.
卷积神经网络与循环神经网络在实体关系抽取任务中表现各异: 卷积神经网络的优势在于其关注关系实例的局部信息, 缺点是忽视了序列的全局信息; 循环神经网络则相反, 可较好地捕获序列的整体特征, 但对局部特征的抽取较为欠缺. 因此, 就学习层面上二者互为补充. 所以本文使用集成学习的思想, 充分
利用二者的优势, 将两者集成为一个综合模型, 该模型不仅具有卷积神经网络关注局部信息的特征, 而且具有循环神经网络关注全局信息的优势, 同时还可以利用MLP进行权重分配.
另外, 集成学习是一种著名的机器学习范例, Peng 等[19]利用集成学习方法进行化学蛋白质的关系抽取; Yang等[5]在进行远程监督关系抽取时, 提出了一种集合神经网络模型的自适应增强LSTM模型; Li等[20]也表明集成学习技术可以成功的应用于迁移学习任务.
计算机系统应用2021 年 第 30 卷 第 6 期
同样, 本文所提方法也是一种通用的方法, 该方法在其
他类似任务中同样适用.
2  基于集成学习方法的实体关系抽取模型
本文提出的综合模型结构如图1所示, 该模型主要由以下5个部分组成.
(1) 输入层: 将原始语料中有格式错误、内容或逻辑错误等的数据进行清洗, 保留清洗后的特征数据;
(2) 词嵌入层: 将(1)中清洗后句子中的每个单词映射成低维稠密向量, 并与单词位置向量拼接后作为弱分类器的输入;
(3) 弱分类器层: 将(2)中词向量与位置向量拼接后的向量输入到弱分类器Bi-LSTM和CNN中, 分别进行特征提取与分类, 保存其输出结果;
(4) 强分类器层: 将(3)中弱分类器输出结果Output_BiLSTM和Output_CNN拼接起来, 输入到强分类器MLP中, 以得到句子的高维语义信息;
(5) 输出层: 利用Softmax函数进行实体关系进行分类.
图1    综合模型结构图
2.1  词向量表示
使用词向量表示的目的是将输入的每个句子转换成向量的形式, 方便计算机对其进行读取. 为了充分利用单词在句子中的语义信息, 本文将每个输入的单词转换成词嵌入和位置嵌入的结合.
(1) 词向量
词嵌入(Word Embeddings, WE)目的是把单词转
S={w1,w2,···,w n}
M∈R d∗V w i
e i V d
S w=(e1,e2,···,e n)∈R d∗n
换成低维密集向量, 以捕获单词的句法和语法特性. 假设一个由n个词组成的句子, 可以通过词嵌入矩阵, 将每个词映射为实值向量, 其中, 表示词表大小, 表示词向量维度, 因此, 句子的词向量可表示为.
(2) 位置向量
M′∈R c∗|L|p i
位置嵌入(Position Embedding, PE)[3]用于表征句子中某个单词与两个实体e1、e2的相对位置. 如句子: The <e1>deficits</e1> are caused by <e2>people</e2> save too much of their money.单词caused相对于e1(deficits)的距离为2, 相对于e2(people)的距离为–2.即若实体的位置为0, 则实体左侧单词相对于该实体的1,2,···将计算出来的相对距离经过位置嵌入矩阵转换为实值向量, 其中, c是位置向量维度, L是句子中任何一个单词相对于两个实体的最大距离;由于每个句子有两个标记实体, 所以每个词对应两个位置向量, 因此, 第i个单词的位置向量表示如式(1).
p1i、p2i
S p=(p1,p2,···,p n)∈R2c∗n 其中是第i个单词相对于e1、e2的位置向量表示.因此, 句子的位置向量表示为.
U=S w⊕S p∈R n(d+2c)
最后将词向量和位置向量拼接起来, 得到最终的句子向量表示.
2.2  Bi-LSTM弱分类器模型
U=(u1,u2,···,u n)u i=e i+p i u i∈R d+2c
为了得到句子的高维语义信息, 并捕获序列的全局特征, 本文使用Bi-LSTM模型对输入的句子序列进行特征提取, 其结构如图2所示. 由于Bi-LSTM可以从序列的前向和后向同时进行语义捕捉, 因此其可以充分利用输入序列的上下文信息来提取特征信息. 图2中词嵌入层是单词的词向量和位置向量拼接后的特征向量, 其中, , . Bi-LSTM模型隐藏层的计算方式如式(3)和式(4).
矩形钢管
u t h
←−
h
−→
h t−1
←−
h t+1
其中, 为t时刻的输入向量, 为前向的隐藏状态,为后向的隐藏状态, 表示前一时刻的隐藏状态,表示下一时刻的隐藏状态. 所以, t时刻的隐藏状态为前向和后向隐藏状态的拼接
, 其表示方式如式(5).
2021 年 第 30 卷 第 6 期计算机系统应用
针刺事件
H =(h 1,h 2,···,h n )因此最终隐藏层输出可表示.y ∈{1,···,m }m ˆy 1由于实体关系抽取任务属于多分类问题,
表示关系类别个数, 因此经过Softmax 分类器, 得到
每个关系类别的预测概率:
图2    Bi-LSTM 弱分类器模型结构图
2.3  CNN 弱分类器模型
CNN 可以解决实体关系抽取任务中并行计算的问题, 同时增加网络层数可以解决长距离依赖的问题, 但随着层数的增加, 模型的参数就会增多, 从而导致训练时间过长. 所以本文选用2层卷积层和2层全连接层进行关系抽取, 既保证并行性又防止训练时间过长, 还可以提取到更有效的特征. 此外, 为了防止由原始数据中句子长度不同而引起的输入矩阵维度不同的问题, 本文将数据集中的每条句子做padding 操作, 将其padding 到句子的最大长度Max_len, 同时为了保证输出层和输入层维度的统一, 使用SAME 做本次padding 操作.
本文使用的CNN 网络结构如图3所示.
U =(u 1,u 2,···,u n )u i ,u i +1,···,u i +k −1在该模型中, 输入到卷积层的是
,若滑动窗口大小为k , 当窗口在U 上滑动时, 向量
落到第j 个窗口的向量表示如式
(7):
W ∈R n (d +2c )c Q j 若卷积核为, 为卷积核的宽度, 则向量经过卷积层与池化层输出的特征信息可使用式(8)和式(9)计算
.
⊙其中, 是卷积操作, b 是偏置, f 是非线性激活函数,s 是卷积核的数目. 最后经过全连接层与Softmax 分类器得到关系预测概率, 其计算方式如式(11)和式(12).
图3    CNN 弱分类器网络结构图
2.4  综合模型
ˆy 1max(ˆ
y 1)m 集成学习是将一系列相对较弱的模型以某种恰当的方式组合起来, 得到比使用单个模型更鲁棒的强模型. 本文使用MLP 进行模型集成, 其网络模型结构如图4所示. 在该模型中, 输入主要包括两个部分:Output_BiLSTM 、Output_CNN. 其中, Output_BiLSTM
是Bi-LSTM 弱分类器计算的关系类别预测概率, 取其最大值作为关系类别标签, 经过独热编码的形式将其转换为维的关系矩阵; Output_CNN 的表示方法与Output_BiLSTM 同理. 因此, 综合模型的输入
可表示为式(13):
实验过程中若MLP 选择较少的网络层数, 则其特征提取的效果较差, 随着网络层数的不断增加, 模型复杂度增加, 虽然其提取的效果有所提高, 但网络参数也会不断增多, 因此会导致模型训练效率低下的结果. 所以本次实验选择3层隐藏层的MLP 进行特征提取, 在提高训练效率的同时, 保证实体关系抽取的性能. 使用MLP 进行信息传播可以使用式(14)和式(15)进行计算:
计算机系统应用
上海压铸机厂2021 年 第 30 卷 第 6 期
z(l)l a(l)l
f l(·)W(l)l−1 l b(l)l−1l
ˆy=so f tmax (
z(l)导线测量法
)
其中, 表示层神经元的净输入, 表示层神经元的输出, 表示神经元的激活函数, 表示层到层的权重矩阵, 表示到层的偏置. 最后利用Softmax分类器, 得到最终每个关系类别的预测概率
.
图4    使用MLP进行集成时的网络结构图
3  相关实验与结果分析
3.1  数据集
为了评估综合模型在实体关系抽取任务中的有效性, 本文使用实体关系抽取公开数据集SemEval 2010 Task 8进行验证. 在该数据集中, 总共包含10 717个标记样本, 其中用于训练的样本数量有8000个, 用于测试的样本数量有2717个. 但为了产生多样性大的弱学习器, 本文首先选择两个不同的弱学习器进行集成学习,
其次使用数据样本对其进行扰动, 即随机选取原样本的80%作为训练数据, 剩下的20%作为测试数据,因此
, 训练样本数为8573, 测试样本数为2144. 该样本总共包含9种具体的关系类型和一种“other”类别的关系. 其具体关系类型如表1所示
.
表1    关系类型
关系标签关系类型描述0Cause-Effect因果关系
1Component-Whole部分与整体关系
2Content-Container内容与包含关系
3Entity-Destination实体与目的关系
4Entity-Origin实体与来源关系
5Instrument-Agency工具与机构关系
6
Member-Collection成员与组织关系7Message-Topic信息与主题关系
8Product-Producer产品与生产者关系9other其他关系
3.2  评价指标
通常情况下,
实体关系抽取任务的评价指标主要包括准确率(precision)、召回率(recall)以及F1值. 对于每种关系类型, 主要有以下4
种判断: TP (True Position)、FP (False Position)、TN (True Negative)和FN (False Negative), 它们分别表示将正类预测为正类、将负类预测为正类、将正类预测为负类和将负类预测为负类. 所以这3种评
价指标的计算方式如式(16)–式(18).
上面的计算公式是针对单个关系类别进行的评估,为了在本文使用的数据集中进行验证, 使用每种关系类型的宏平均(macro average)验证本文的实验结果,即对每一种关系类别得到的概率求和后取平均. 若其关系类别的个数用m表示, 则具体的计算方式如式(19)–式(21).
3.3  参数设置
本实验中使用的相关参数设置主要根据经验设定,如词嵌入使用预训练好的Glove300维向量等; 还有一部分根据实验的效果进行参数调整, 如模型训练的batch_size设定等, 其具体的实验参数设置如表2所示.
表2    实验参数设置
参数值
Word dimension (WE)300
Position dimension (PE)100
Dropout0.7
Max_len100
LSTM unit hidden number128
静电场复习LSTM batch_size128
CNN kernel_size2,3
CNN filter number100
MLP batch_size128
3.4  实验结果及分析
为了验证本文提出的综合模型对实体关系抽取性
2021 年 第 30 卷 第 6 期计算机系统应用

本文发布于:2024-09-22 09:45:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/475202.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   抽取   进行   实体
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议