一种基于双层注意力机制与双向GRU的文本关系抽取方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910710075.1
(22)申请日 2019.08.02
(71)申请人 中国电子科技集团公司第二十八研
究所
地址 210003 江苏省南京市白下区苜蓿园
东街1号
(72)发明人 王鑫鹏 李晓冬 吴蔚 徐建平 
(74)专利代理机构 南京苏高专利商标事务所
(普通合伙) 32204
代理人 向文
(51)Int.Cl.
G06F  17/27(2006.01)
G06F  16/35(2019.01)
G06N  3/04(2006.01)
G06N  3/08(2006.01)
(54)发明名称
一种基于双层注意力机制与双向GRU的文本
(57)摘要
本发明公开了一种基于双层注意力机制与
双向GRU的文本关系抽取方法,包括如下步骤:对
文本语料进行实体标注和关系标注;对标注数据
进行预处理,生成实体抽取模型和关系抽取模型
的训练集和测试集;构建关系抽取网络;分别进
行实体抽取模型训练和关系抽取模型训练;将测
试集数据首先输入实体抽取模型,得到实体识别
结果;实体识别结果和测试集数据输入关系抽取
模型,得到关系抽取结果。本发明利用实体位置
信息和实体标签信息扩充字向量特征,实现文本
信息的向量化,为关系识别提供更多的特征信
息,提高了双向GRU模型输入信息与输出信息间
的相关性,增强关键字对输出的影响力并提高抗
噪声能力,并且能够有效地提高中文文本关系抽
取的准确率。权利要求书3页  说明书6页  附图1页CN 110502749 A 2019.11.26
C N  110502749
A
1.一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:包括如下步骤:
S1:对文本语料进行实体标注和关系标注;
S2:对标注数据进行预处理,生成实体抽取模型和关系抽取模型的训练集和测试集;
S3:构建关系抽取网络;
S4:分别进行实体抽取模型训练和关系抽取模型训练;
S5:将测试集数据首先输入实体抽取模型,得到实体识别结果;
S6:实体识别结果和测试集数据输入关系抽取模型,得到关系抽取结果。
2.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S1中采用人工方式进行实体标注和关系标注。
3.根据权利要求2所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述实体标注具体为:将实体标注数据转换为BMES实体标注体系,B表示实体的起始位置,M表示实体的中间部分,E表示实体的结束位置,S表示实体是一个单字实体;
所述关系标注具体为:将关系抽取数据转化为{实体1,实体2,实体1起始位置,实体1结束位置,实体1标签,实体2起始位置,实体2结束位置,实体2标签,文本段落}的形式。
4.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S3具体为:
S3-1:将实体位置信息和实体标签信息扩充字向量特征,实现文本信息的向量化,作为模型输入;
S3-2:模型网络第一层为双向GRU:
每个GRU单元分别包含包括一个重置门和一个更新门,更新门z t用于控制前一时刻输出h t-1与当前时刻
输入x t中所含信息的保留程度,将其作为t时刻门控单元的输出h t;而重置门r t通过x t决定前一时刻h t-1中信息的遗忘程度,计算得到当前时刻的记忆以及经过重置门
和更新门后的的当前时刻隐状态h t,t时刻GRU单元的更新门z t、重置门r t、新记忆最终隐状态h t的计算如下:
z t=σ(W z·[h t-1,x t])
r t=σ(W r·[h t-1,x t])
其中,σ()为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σ(x)=1/(1+e-x)。*表示点乘,tanh(x)=(e x-e-x)/(e x+e-x),W、W r、W z是模型的权值矩阵,[]表示将两个向量连接。
S3-3:模型网络第二层为字级注意力层:
对于一个句子向量w={w1,w2,…,w T}将步骤S3-2中所得结果h t,通过下式进行处理,得到u t;
u t=tanh(W w·h t+b w)
S3-4:第三层为句级注意力层:
将字级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的字上下文向量u s进行共同训练,v是所有句子的向量和,具体公式如下:u i=tanh(W s·s i+b s)
S3-5:第四层为Softmax分类器:
Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:y=Softmax(v),y=[y1,y2,…,y N]and y i∈[0,1]and ∑y i=1
其中,N为关系标签数量,即关系抽取分类数量;
S3-6:经过上述四层网络最终生成分类结果。
5.根据权利要求4所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S3-3中在字级注意力层训练过程中加入随机初始化的字上下文向量u w 进行共同训练,通过加入字级注意层计算字与关系的相关程度,形成字级注意力层句子向量,字级注意力层计算公式如下式,其中αt为该字u t与u w的归一化表示,s为当前时刻加权后的字向量表示。
6.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S4中采用Lattice LSTM算法进行实体抽取模型训练;关系抽取网络选用sigmoid函数作为激活函数,采用Softmax作为分类器进行关系抽取模型训练。
7.根据权利要求6所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S4的关系抽取模型训练当中,添加L2正则化方法对关系抽取网络进行约束,训练过程中引入dropout策略,设置压抑概率,采用批量的Adam优化方法用于模型参数训练。
8.根据权利要求1所述的一种基于双层注意力机制与双向GRU的文本关系抽取方法,其特征在于:所述步骤S6完成后,对步骤S6所得到的关系抽取结果进行性能评价,其性能评价指标采用精确率、召回率和F1值,计算公式如下:
其中,TP表示正确分类的数量,FP表示把负类判断为正类的数量,FN表示把正类预测为
负类的数量。
一种基于双层注意力机制与双向GRU的文本关系抽取方法
技术领域
[0001]本发明涉及一种文本关系抽取方法,具体涉及一种基于双层注意力机制与双向GRU的文本关系抽取方法。
背景技术
[0002]随着信息技术飞速发展,信息量急速增长,怎样高效的从非结构化文本信息中提取出有效信息成为人们关注的热点。文本信息抽取包含实体抽取、关系抽取及事件抽取等。关系抽取是自然语言处理的基础任务之一,用于识别文本信息中存在的两个命名实体的相互关系。通过关系抽取可以形成实体1、关系、实体2的三元组结构。这对后续中文信息内容检索、知识图谱构建等应用具有重要作用。
[0003]关系抽取主要包括有监督的实体关系抽取方法、半监督的实体关系抽取方法、无监督的实体关系抽取方法:
[0004]无监督的实体关系抽取方法包括实体聚类和关系类型词选择两部分,但存在特征提取不准、聚类结果不合理、关系结果准确率较低等问题。
[0005]半监督的实体关系抽取方法,例如Bootstrapping,该方法从包含关系种子的文本中总结实体关系序列模式,然后以此去发现更多的关系种子实例。但存在迭代过程中混入噪声,造成语义漂移的问题。
[0006]有监督的实体关系抽取方法主要思想是在已标注的数据上面训练机器学习模型,对测试数据进行关系识别。有监督的实体关系抽取方法分为基于规则的关系抽取方法,基于特征的关系抽取方法。基于规则的关系抽取方法根据语料和领域通过总结归纳规则或模板,通过模板匹配进行实体关系抽取。此类方法在依赖于命名实体识别系统与距离计算等,容易增加额外的传播错误与耗时。
[0007]基于特征的关系抽取方法主要利用机器学习方法自动提取文本特征,不需要构建复杂的特征。Socher等提出了矩阵—递归神经网络模型MV -RNN,通过解析文本的句法结构实现实体关系识别,但其准确率通常受限于文本的句法分析准确率;Liu等利用卷积神经网络(CNN)实现关系抽取任务,但由于卷积神经网络无法长句进行建模,因而存在两个实体的远距离依赖问题。Xu等将LSTM(Long  Short  Term  Memory)引入实体关系抽取任务重,以解决两个实体的远距离依赖问题,同时利用文本的词向量、词性标注、句法依存等信息学习实体之间的最短依存路径。然而,RNN、CNN和LSTM都无法充分利用文本信息的局部特征与全局特征。
发明内容
[0008]发明目的:为了克服现有技术中存在的不足,提供一种基于双层注意力机制与双向GRU的文本关
系抽取方法,其能够有效地提高中文文本关系抽取准确率。
[0009]技术方案:为实现上述目的,本发明提供一种基于双层注意力机制与双向GRU的文本关系抽取方法(BiGRU -2ATT),包括如下步骤:
说 明 书1/6页CN 110502749 A

本文发布于:2024-09-22 03:29:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/439445.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   抽取   实体   方法   文本   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议