面向语句的特征维度增强的实体和关系知识提取方法及装置



1.本发明属于自然语言处理技术领域,具体涉及一种面向语句特征维度增强的实体关系知识提取方法及装置。


背景技术:



2.从非结构化的文本中抽取实体和关系任务的为后续自动构建知识图提供了主要的知识来源,是知识图谱构建的一个必要步骤。这些抽取出来的知识一般以(主体,关系,客体)或(s,r,o)这样的三元组形式存在。其中,三元组中的主体与客体是知识图谱中由某种关系所联系的两个实体。
3.传统的三元组抽取方法使用的是流水线方式,他将抽取任务分为两步,先是对输入的语句进行命名实体预测(ner),然后对预测出的实体对进行关系分类(rc)。但是这种方法由于有严格的顺序要求,其存在的明显问题就是会导致错误传播。为了解决这一问题,研究者们提出了实体关系联合抽取的方法。近期的研究结果表明,联合抽取的方法由于可以更好的整合实体和关系的信息,总体提取效果的确比流水线方式表现的更好。近期基于深度学习的联合抽取方法因其突出的效果,使得该类方法最近十分的流行。但是,关系实体三元组抽取依旧存在以下具有挑战性的问题:
4.1)重叠三元组,其包括entitypairoverlap(epo)and singleentityoverlap(seo)两种重叠,如图1所示。前人为了解决这一问题,许多人采用了基于主客体分解的方式提取,但是这样的方法容易导致错误传播问题。
5.2)错误传播,该错误的产生来源于严格的预测顺序过程。例如流水线方式,为了解决该问题,有研究员提出了基于解码器的方法抽取三元组,但是这类方法依旧没有考虑到实体与关系,句子与关系之间的交互作用这一点。
6.3)忽略实体与关系、关系与语句之间的交互作用。对于一句话所抽取出的三元组信息,我们认为,语句与关系之间,实体与关系之间都是存在一定关联的,将他们分开进行抽取,则无法学习到他们之间深层次的关系,这一类的三元组信息将很难被抽取。


技术实现要素:



7.本发明的主要目的在于克服现有技术的缺点与不足,提供一种面向语句的特征维度增强的实体和关系知识提取方法及装置,通过实体关系联合抽取的方法,解决重叠三元组与错误传播的问题。
8.为了达到上述目的,本发明采用以下技术方案:
9.本发明一方面提供了一种面向语句的特征维度增强的实体和关系知识提取方法,包括下述步骤:
10.对输入语句进行向量化,得到具有上下文语义特征的向量化语句;
11.将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;所述实体特征信息是指从向量化语句中抽取的主体信息和客体
信息;所述关系特征信息是指向量化语句中抽取出的主体和客体之间存在的关联特征;
12.将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;
13.将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。
14.优选的,所述对输入语句进行向量化,具体为:
15.将输入语句中的每个单词通过bert模型中的编码器提取其隐匿的特征,将输入语句转换为具有上下文语义特征的向量化语句,所述向量化语句h的表达式如下:
16.h=bert[{x1,x2,...,xn,...,xm}*mask]
[0017]
h=[h1,h2,..,hn,...,hm]
[0018]
其中,x1,x2,...,xn,...,xm是输入语句中每个词映射到bert模型对应字典的id,n代表输入语句序列长度,m是语句向量化并且填充补齐后的语句总长度,mask是输入语句中实际有效的语句信息,h1,h2,..,hn,...,hm是融入了上下文信息的词向量。
[0019]
优选的,所述实体指的是主体和客体;
[0020]
所述实体探测与特征化,具体为:
[0021]
将已向量化的语句h输入进一个全连接层中,计算出实体的开始位置概率和结束位置概率,如果开始位置的概率大于预设的第一阈值,则将该开始位置确定为所述向量化语句中实体的开始位置;同理,如果结束位置的概率大于预设的第二阈值,则将该结束位置确定为所述向量化语句中实体的结束位置;同时,全连接层的神经网络会根据训练集的标签信息进行训练,并且不断的对的可训练权重值w和b进行调整;
[0022]
所述实体的开始位置概率和结束位置概率的计算公式如下:
[0023]
p
istart_sub(obj)
=sigmoid(w
starthi
+b
start
)
[0024]
p
iend_sub(obj)
=sigmoid(w
endhi
+b
end
)
[0025]
其中,p
istart_sub(obj)
是输入语句中第i个位置标记为实体开始位置概率,p
iend_sub(obj)
是输入语句中第i个位置标记为实体结束位置概率;hi是编码器层的输出结果,w
start
和b
start
为计算实体开始位置概率的可训练权重值,w
end
和b
end
为计算实体结束位置概率的可训练权重值,sigmoid为激活函数;
[0026]
确定实体开始位置概率和实体结束位置概率后,抽取出主体信息t
isub
和客体信息t
iobj
,公式为:
[0027]
t
isub
=(p
istart_sub
,p
iend_sub
)
[0028]
t
iobj
=(p
istart_obj
,p
iend_obj
)
[0029]
其中,p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
为第i个位置标记为客体结束位置概率。
[0030]
优选的,所述关系探测与特征化,具体为:
[0031]
将所有预设的关系标签嵌入到一个高维向量中,然后通过一个线性映射层,将最终结果表示为最具关系的初始关系节点嵌入,所述初始关系节点嵌入的计算公式为:
[0032]rm
=wr*e([r1,r2,...,rm])+br[0033]
[0034]
其中,ri为预定义关系中关系指标的独热向量,m为预定义关系的个数,e为关系嵌入矩阵,wr和br为关系节点预定义过程的可训练参数,rm为初始关系节点,是一个高维的关系向量;
[0035]
预测特征向量化输入语句中所包含的初始关系节点信息,首先在初始语句中加入己得到的初始关系节点信息,将加入了初始关系节点信息的初始语句一起加入到一个全连接层中进行神经网络计算,再通过sigmoid函数最终获得关系信息特征;同时,高维特征向量在不断的训练下wr、br权值发生改变,进而确定关系信息的特征,所述关系信息特征计算公式如下:
[0036][0037]
其中,为前一步中得出的高维关系向量,hi为编码器层的输出结果,wr和br为关系探测过程的可训练权值,sigmoid为激活函数。
[0038]
优选的,所述对向量化的语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为实体辅助维度特征进行信息加强处理,具体为:
[0039]
分别将实体头部信息特征和实体尾部特征加入到语句特征中,再乘上关系特征信息,使用两个全连接层网络,一个网络用于对主体-关系进行预测,另一个网络用于对客体-关系进行预测;通过网络的自我调整与训练后,得到实体与关系联合预测的特征信息。
[0040]
优选的,所述将预测出的实体与关系的特征信息进行拼接或者链路预测,最终形成三元组,具体为:
[0041]
对实体与关系联合预测的特征信息进行类别判断,判断的方法是构建两个与关系库数量长度相同的一维矩阵,通过遍历两方联合预测输出的结果,将两方预测出的关系值对应的id对应成数组下标位置,从而进行关系数量登记,最后得到唯一关系匹配和多关系匹配两种类别;所述唯一关系匹配是指同一关系下的主体-关系、客体-关系的预测数同时不大于1;所述多关系匹配是指同一关系下的主体-关系、客体-关系的预测数同时大于1;
[0042]
对唯一关系匹配类采用直接拼接原则,在同一关系下的数据进行匹配拼接从而得出三元组;
[0043]
对于多关系匹配类,将主体的开始位置信息与关系和客体的开始位置信息与关系这两部分矩阵按关系进行拼接形成tr=[sub
start
,obj
start
,rel],其中,sub
start
为主体开始位置信息,obj
start
为客体开始位置信息,rel表示的是对应该主体开位置信息和客体开始位置信息下的关系信息;再对所述的拼接形成的tr重新进行概率预测,计算公式如下:
[0044]
p
itr
=sigmoid(witri+bi)
[0045]
其中,tr是由通过关系拼接主启动关系矩阵和目标启动关系矩阵而形成的,wi和bi是重预测的可训练权重值,sigmoid是激活函数;通过得到的t
isub
=(p
istart_sub
,p
iend_sub
)和t
iobj
=(p
istart_obj
,p
iend_obj
)信息,将头部信息完整的扩展成三元组信息;其中,t
isub
为主体信息,t
iobj
为客体信息;p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
第i个位置标记为客体结束位置概率。
[0046]
本发明又一方面提供了一种面向语句的特征维度增强的实体和关系知识提取方法系统,应用于所述的面向语句的特征维度增强的实体和关系知识提取方法,包括向量化
模块、探测与特征化模块、联合预测模块以及三元组输出模块;
[0047]
所述向量化模块,用于对输入语句进行向量化,得到具有上下文语义特征的向量化语句;
[0048]
所述探测与特征化模块,用于将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;
[0049]
所述联合预测模块,用于将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;
[0050]
所述三元组输出模块,用于将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。
[0051]
本发明又一方面提供了一种电子设备,其特征在于,所述电子设备包括:
[0052]
至少一个处理器;以及,
[0053]
与所述至少一个处理器通信连接的存储器;其中,
[0054]
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于面向语句的特征维度增强的实体和关系知识提取方法。
[0055]
本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于面向语句的特征维度增强的实体和关系知识提取方法。
[0056]
本发明与现有技术相比,具有如下优点和有益效果:
[0057]
1.本发明对文本语句进行了深层次的特征剖析,将语句中最重要的两个特征维度:实体与关系特征首先进行了探测剖析,并将探测结果再次进行了特征化,以便于后续语句特征加强,同时也加强了语句与实体,语句与关系两方面的内在联系。
[0058]
2.本发明在模型构建过程中为避免可能存在的重叠三元组和传播误差,采取了实体与关系联合抽取的方法,同时在分别对主体(sub ject)、客体(ob ject)与关系进行预测时,将语句中剖析出的实体和关系特征信息加入进行了特征加强;从而直接得出了主体与关系、客体与关系的特征信息,并且将得出的信息了分成两类:1)唯一关系匹配:同一关系下的主体/客体-关系的预测数同时不大于1;2)多关系匹配:同一关系下的主体/客体-关系的预测数同时大于1。并对得出的少数的第二类信息在同一关系下单独进行了主体与客体重预测,最终两类信息都组成三元组,确保了三元组信息的多样性与可靠性。
附图说明
[0059]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0060]
图1为本发明重叠三元组种类示例图;
[0061]
图2为本发明实施例,面向语句的特征维度增强的实体和关系知识提取方法的框
架流程图;
[0062]
图3为本发明实施例联合抽取模型结构图;
[0063]
图4为本发明实施例面向语句的特征维度增强的实体和关系知识提取系统结构图;
[0064]
图5为本发明实施例电子设备的结构图。
具体实施方式
[0065]
为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0066]
在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
[0067]
本技术中的涉及到的bert模型是一种自编码语言模型,采用masklm的方式来训练语言模型,通俗地说就是在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号(mask)来代替它们,之后让模型根据所给的标签去学习这些地方该填的词;最后输出文本中各个字或词融合了全文语义信息后的向量表示。
[0068]
另外,文中提到的sigmoid函数是神经元的非线性作用函数,广泛应用在神经网络中。神经网络的学习是基于一组样本进行的,包括输入和输出,输入和输出有多少个分量就有多少个输入和输出神经元与之对应;最初神经网络的权值(weight)和阈值(threshold)是任意给定的,训练学习就是逐渐调整权值和阈值使得网络的实际输出和期望输出一致。
[0069]
请参阅图2,在本技术的一个实施例中提供了一种面向语句的特征维度增强的实体和关系知识提取方法,包括下述步骤:
[0070]
s1、对输入语句进行向量化,得到具有上下文语义特征的向量化语句。
[0071]
进一步的,所述对输入语句进行向量化,具体为:
[0072]
将输入语句中的每个单词通过bert模型中的编码器提取其隐匿的特征,将输入语句转换为具有上下文语义特征的向量化语句,所述向量化语句的表达式如下:
[0073]
h=bert[{x1,x2,...,xn,...,xm}*mask]
[0074]
h=[h1,h2,..,hn,...,hm]
[0075]
其中,x1,x2,...,xn,...,xm是输入语句中每个词映射到bert模型对应字典的id,n代表输入语句序列长度,m是语句向量化并且填充补齐后的语句总长度,mask是输入语句中实际有效的语句信息,h1,h2,..,hn,...,hm是融入了上下文信息的词向量。
[0076]
s2、将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息。
[0077]
进一步的,所述实体指的是主体和客体;
[0078]
s21、所述实体探测与特征化,具体为:
[0079]
将已向量化的语句h输入进一个全连接层中,计算出实体的开始位置概率和结束
位置概率,如果开始位置的概率大于预设的第一阈值,则将该开始位置确定为所述向量化语句中实体的开始位置;同理,如果结束位置的概率大于预设的第二阈值,则将该结束位置确定为所述向量化语句中实体的结束位置;同时,全连接层的神经网络会根据训练集的标签信息进行训练,并且不断的对的可训练权重值w和b进行调整;
[0080]
所述实体的开始位置概率和结束位置概率,计算公式如下:
[0081]
p
istart_sub(obj)
=sigmoid(w
starthi
+b
start
)
[0082]
p
iend_sub(obj)
=sigmoid(w
endhi
+b
end
)
[0083]
其中,p
istart_sub(obj)
是输入语句中第i个位置标记为实体开始位置概率,p
iend_sub(obj)
是输入语句中第i个位置标记为实体结束位置概率;hi是编码器层的输出结果,w
start
和b
start
为计算实体开始位置概率的可训练权重值,w
end
和b
end
为计算实体结束位置概率的可训练权重值,sigmoid为激活函数;
[0084]
确定实体开始位置概率和实体结束位置概率后,抽取出主体信息t
isub
和客体信息t
iobj
,公式为:
[0085]
t
isub
=(p
istart_sub
,p
iend_sub
)
[0086]
t
iobj
=(p
istart_obj
,p
iend_obj
)
[0087]
其中,p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
为第i个位置标记为客体结束位置概率。
[0088]
s22、所述关系探测与特征化,具体为:
[0089]
将所有预设的关系标签嵌入到一个高维向量中,然后通过一个线性映射层,将最终结果表示为最具关系的节点嵌入,所述关系节点的嵌入公式为:
[0090]rm
=wr*e([r1,r2,...,rm])+br[0091][0092]
其中,ri为预定义关系中关系指标的独热向量,m为预定义关系的个数,e为关系嵌入矩阵,wr和br为关系节点预定义过程的可训练参数,rm为初始关系节点,是一个高维的关系向量;
[0093]
预测特征向量化输入语句中所包含的潜在关系信息,具体步骤为:先在初始语句中加入已得到的初始关系节点信息,将其一起加入到一个全连接层中进神经网络计算,再通过sigmoid函数最终获得关系信息特征;同时,高维特征向量在不断的训练下wr、br权值发生改变,进而确定关系信息的特征,所述关系信息特征计算公式如下:
[0094][0095]
其中,为前一步中得出的高维关系向量,hi为bert输出后的语句信息,wr和br为关系探测过程的可训练权值,sigmoid为激活函数。
[0096]
s3、将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,具体步骤为:。
[0097]
分别将实体头部信息特征和实体尾部特征加入到语句特征中,再乘上关系特征信息;使用的是两个全连接层网络,一个网络用于对主体-关系进行预测,另一个网络用于对
客体-关系进行预测,通过网络的自我调整与训练后,得到实体与关系联合的特征信息;
[0098]
所述实体与关系联合的特征信息的计算公式如下:
[0099][0100][0101]
其中,sigmoid是激活函数,t
istart
和t
iend
分别为主体特征信息、客体的特征信息h
i,relation
是向量化语句特征,是预测计算出的关系特征结果,w
start
、b
start
、w
end
、和b
end
是可训练的权重参数。
[0102]
s4、将预测出的实体与关系的特征信息进行拼接或者链路预测,最终形成三元组。
[0103]
进一步的,所述将预测出的实体与关系的特征信息进行拼接或者链路预测,最终形成三元组,具体为:
[0104]
s41、对实体与关系联合预测的特征信息进行类别判断,判断的方法是构建两个与关系库数量长度相同的一维矩阵,通过遍历两方联合预测输出的结果,将两方预测出的关系值对应的id对应成数组下标位置,从而进行关系数量登记,最后得到唯一关系匹配和多关系匹配两种类别;所述唯一关系匹配是指同一关系下的主体-关系、客体-关系的预测数同时不大于1;所述多关系匹配是指同一关系下的主体-关系、客体-关系的预测数同时大于1;
[0105]
s42、对唯一关系匹配类采用直接拼接原则,在同一关系下的数据进行匹配拼接从而得出三元组;
[0106]
对于多关系匹配类,将主体的开始位置信息与关系和客体的开始位置信息与关系这两部分矩阵按关系进行拼接形成tr=[sub
start
,obj
start
,rel],其中,sub
start
为主体开始位置信息,obj
start
为客体开始位置信息,再对所述的拼接形成的tr重新进行概率预测,计算公式如下:
[0107]
p
itr
=sigmoid(witri+bi)
[0108]
其中,tr是由通过关系拼接主启动关系矩阵和目标启动关系矩阵而形成的,wi和bi是重预测可训练权重值,sigmoid是激活函数;
[0109]
s43、通过得到的t
isub
=(p
istart_sub
,p
iend_sub
)和t
iobj
=(p
istart_obj
,p
iend_obj
)信息,将头部信息完整的扩展成三元组信息;其中,t
isub
为主体信息,t
iobj
为客体信息;p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
第i个位置标记为客体结束位置概率。
[0110]
请参阅图3,在本技术的另一个实施例中提供了一种面向语句的特征维度增强的实体和关系知识提取方法,包括下述步骤:
[0111]
步骤一:将“tom was born in 1942 and has lived in new york ever since.”输入到bert模型中的编码器提取其隐匿特征,得到具有上下文语义特征的向量化语句h=[0.89902386 0.09758244
ꢀ‑
0.06996521 0.20864412 0.03722338
ꢀ‑
1.117653 0.3860746
ꢀ‑
0.08808775 0.5787261
ꢀ‑
0.2631619 ......];
[0112]
步骤二:对向量化语句h进行实体探测与特征化和关系探测与特征化;首先,将步骤一中已向量化语句h输入进全连接层中,计算实体的开始位置概率和结束位置概率,所述
的实体开始位置概率和结束位置概率的计算公式如下:
[0113]
p
istart_sub(obj)
=sigmoid(w
starthi
+b
start
)
[0114]
p
iend_sub(obj)
=sigmoid(w
endhi
+b
end
)
[0115]
确定实体开始位置概率和实体结束概率后,利用如下公式抽取出主体信息t
isub
和客体信息t
iobj
[0116]
t
isub
=(p
istart_sub
,p
iend_sub
)
[0117]
t
iobj
=(p
istart_obj
,p
iend_obj
)
[0118]
抽取到的主体信息有:tom;客体信息有:newyork,1942
[0119]
其次,对向量化语句进行关系探测与特征化,将所有预设的关系标签嵌入到一个高维向量中,然后通过一个线性映射层,将最终结果表示为最具关系的初始化关系节点嵌入,所述初始化关系节点的嵌入公式为:
[0120]rm
=wr*e([r1,r2,...,rm])+br[0121][0122]
然后预测特征向量化输入语句中所包含的潜在关系信息,进而确定关系信息的特征,所述关系信息特征计算公式如下:
[0123][0124]
得到的关系信息有:live in;birth data;birth place;
[0125]
步骤三:分别将实体头部信息特征和实体尾部特征加入到语句特征中,再乘上关系特征信息;使用的是两个全连接层网络,一个网络用于对主体-关系进行预测,另一个网络用于对客体-关系进行预测,通过网络的自我调整与训练后,得到实体与关系联合的特征信息;
[0126]
所述实体与关系联合的特征信息的计算公式如下:
[0127][0128][0129]
步骤四:得到的实体与关系联合预测特征信息分为唯一关系匹配和多关系匹配两类,
[0130]
得到的主体-关系以及客体-关系信息分别为:(tom,live in)、(live in,new york);(tom,birth data)、(birth data,1942);(tom,birth place)、(birth place,new york);
[0131]
对于多关系匹配类,将主体的开始位置信息与关系和客体的开始位置信息与关系这两部分矩阵按关系进行拼接形成tr,对tr重新进行概率预测,再通过步骤二得到的主体信息和客体信息,将头部信息完成扩展成三元组信息;
[0132]
对于唯一关系匹配类采用直接拼接原则得到三元组(tom,live in,new york)、(tom,birth data,1942)、(tom,birth place,new york)。
[0133]
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
[0134]
基于与上述实施例中的面向语句的特征维度增强的实体和关系知识提取方法相同的思想,本发明还提供了面向语句的特征维度增强的实体和关系知识提取系统,该系统可用于执行上述面向语句的特征维度增强的实体和关系知识提取方法。为了便于说明,面向语句的特征维度增强的实体和关系知识提取系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0135]
请参阅图4,在本技术的另一个实施例中,提供了一种面向语句的特征维度增强的实体和关系知识提取系统100,该系统包括向量化模块101、探测与特征化模块102、联合预测模块103以及三元组输出模块104所述向量化模块101,用于输入语句并采用bert模型进行向量化,得到向量化的语句;所述探测与特征化模块102,用于将向量化的语句进行实体探测与特征化以及关系探测与特征化,得到实体特征信息的与关系特征信息;
[0136]
所述联合预测模块103,用于对向量化的语句进行实体与关系联合预测,并将实体特征与关系特征作为辅助维度特征进行信息加强处理,得到实体与关系联合预测的特征信息;
[0137]
所述三元组模块104,用于将预测出的实体与关系的特征信息进行拼接或者链路预测,最终形成三元组。
[0138]
需要说明的是,本发明的面向语句的特征维度增强的实体和关系知识提取系统与本发明的面向语句的特征维度增强的实体和关系知识提取方法一一对应,在上述面向语句的特征维度增强的实体和关系知识提取方法的实施例阐述的技术特征及其有益效果均适用于面向语句的特征维度增强的实体和关系知识提取系统的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
[0139]
此外,上述实施例的面向语句的特征维度增强的实体和关系知识提取系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述面向语句的特征维度增强的实体和关系知识提取系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
[0140]
请参阅图5,在一个实施例中,提供了一种实现面向语句的特征维度增强的实体和关系知识提取方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如特征维度增强的实体和关系知识提取程序203。
[0141]
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(securedigital,sd)卡、闪存卡(flash card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如特征维度增强的实体和关系知识提取程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数
据。
[0142]
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
[0143]
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0144]
所述电子设备200中的所述第一存储器202存储的语句的特征维度增强的实体和关系知识提取程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
[0145]
对输入语句进行向量化,得到具有上下文语义特征的向量化语句;
[0146]
将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;
[0147]
将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;
[0148]
将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。
[0149]
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0150]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0151]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0152]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,
均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:


1.一种面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,包括下述步骤:对输入语句进行向量化,得到具有上下文语义特征的向量化语句;将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;所述实体特征信息是指从向量化语句中抽取的主体信息和客体信息;所述关系特征信息是指向量化语句中抽取出的主体和客体之间存在的关联特征;将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。2.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述对输入语句进行向量化,具体为:将输入语句中的每个单词通过bert模型中的编码器提取其隐匿的特征,将输入语句转换为具有上下文语义特征的向量化语句,所述向量化语句h的表达式如下:h=bert[{x1,x2,...,x
n
,...,x
m
}*mask]h=[h1,h2,..,h
n
,...,h
m
]其中,x1,x2,...,x
n
,...,x
m
是输入语句中每个词映射到bert模型对应字典的id,n代表输入语句序列长度,m是语句向量化并且填充补齐后的语句总长度,mask是输入语句中实际有效的语句信息,h1,h2,..,h
n
,...,h
m
是融入了上下文信息的词向量。3.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述实体指的是主体和客体;所述实体探测与特征化,具体为:将已向量化的语句h输入进一个全连接层中,计算出实体的开始位置概率和结束位置概率,如果开始位置的概率大于预设的第一阈值,则将该开始位置确定为所述向量化语句中实体的开始位置;同理,如果结束位置的概率大于预设的第二阈值,则将该结束位置确定为所述向量化语句中实体的结束位置;同时,全连接层的神经网络会根据训练集的标签信息进行训练,并且不断的对的可训练权重值w和b进行调整;所述实体的开始位置概率和结束位置概率的计算公式如下:p
istart_sub(obj)
=sigmoid(w
start
h
i
+b
start
)p
iend_sub(obj)
=sigmoid(w
end
h
i
+b
end
)其中,p
istart_sub(obj)
是输入语句中第i个位置标记为实体开始位置概率,p
iend_sub(obj)
是输入语句中第i个位置标记为实体结束位置概率;h
i
是编码器层的输出结果,w
start
和b
start
为计算实体开始位置概率的可训练权重值,w
end
和b
end
为计算实体结束位置概率的可训练权重值,sigmoid为激活函数;确定实体开始位置概率和实体结束位置概率后,抽取出主体信息t
isub
和客体信息t
iobj
,公式为:t
isub
=(p
istart_sub
,p
iend_sub
)t
iobj
=(p
istart_obj
,p
iend_obj
)其中,p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
为第i个位置标记
为客体结束位置概率。4.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述关系探测与特征化,具体为:将所有预设的关系标签嵌入到一个高维向量中,然后通过一个线性映射层,将最终结果表示为最具关系的初始关系节点嵌入,所述初始关系节点嵌入的计算公式为:r
m
=w
r
*e([r1,r2,...,r
m
])+b
r
其中,r
i
为预定义关系中关系指标的独热向量,m为预定义关系的个数,e为关系嵌入矩阵,w
r
和b
r
为关系节点预定义过程的可训练参数,r
m
为初始关系节点,是一个高维的关系向量;预测特征向量化输入语句中所包含的初始关系节点信息,首先在初始语句中加入已得到的初始关系节点信息,将加入了初始关系节点信息的初始语句一起加入到一个全连接层中进行神经网络计算,再通过sigmoid函数最终获得关系信息特征;同时,高维特征向量在不断的训练下w
r
、b
r
权值发生改变,进而确定关系信息的特征,所述关系信息特征计算公式如下:其中,为前一步中得出的高维关系向量,h
i
为编码器层的输出结果,w
r
和b
r
为关系探测过程的可训练权值,sigmoid为激活函数。5.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述对向量化的语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为实体辅助维度特征进行信息加强处理,具体为:分别将实体头部信息特征和实体尾部特征加入到语句特征中,再乘上关系特征信息,使用两个全连接层网络,一个网络用于对主体-关系进行预测,另一个网络用于对客体-关系进行预测;通过网络的自我调整与训练后,得到实体与关系联合预测的特征信息。6.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述得到实体与关系联合预测的特征信息的计算公式如下:在于,所述得到实体与关系联合预测的特征信息的计算公式如下:其中,sigmoid是激活函数,t
istart
和t
iend
分别为主体特征信息、客体的特征信息,h
i,relation
是向量化语句特征,是预测计算出的关系特征结果,w
start
、b
start
、w
end
、和b
end
是可训练的权重参数。7.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述将预测出的实体与关系的特征信息进行拼接或者链路预测,最终形成三元组,具体为:对实体与关系联合预测的特征信息进行类别判断,判断的方法是构建两个与关系库数量长度相同的一维矩阵,通过遍历两方联合预测输出的结果,将两方预测出的关系值对应的id对应成数组下标位置,从而进行关系数量登记,最后得到唯一关系匹配和多关系匹配
两种类别;所述唯一关系匹配是指同一关系下的主体-关系、客体-关系的预测数同时不大于1;所述多关系匹配是指同一关系下的主体-关系、客体-关系的预测数同时大于1;对唯一关系匹配类采用直接拼接原则,在同一关系下的数据进行匹配拼接从而得出三元组;对于多关系匹配类,将主体的开始位置信息与关系和客体的开始位置信息与关系这两部分矩阵按关系进行拼接形成tr=[sub
start
,obj
start
,rel],其中,sub
start
为主体开始位置信息,obj
start
为客体开始位置信息,rel表示的是对应该主体开位置信息和客体开始位置信息下的关系信息;再对所述的拼接形成的tr重新进行概率预测,计算公式如下:p
itr
=sigmoid(w
i
tr
i
+b
i
)其中,tr是由通过关系拼接主启动关系矩阵和目标启动关系矩阵而形成的,w
i
和b
i
是重预测的可训练权重值,sigmoid是激活函数;通过得到的t
isub
=(p
istart_sub
,p
iend_sub
)和t
iobj
=(p
istart_obj
,p
iend_obj
)信息,将头部信息完整的扩展成三元组信息;其中,t
isub
为主体信息,t
iobj
为客体信息;p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
第i个位置标记为客体结束位置概率。8.面向语句的特征维度增强的实体和关系知识提取系统,其特征在于,应用于权利要求1-7中任一项所述的面向语句的特征维度增强的实体和关系知识提取方法,包括向量化模块、探测与特征化模块、联合预测模块以及三元组输出模块;所述向量化模块,用于对输入语句进行向量化,得到具有上下文语义特征的向量化语句;所述探测与特征化模块,用于将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;所述联合预测模块,用于将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;所述三元组输出模块,用于将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的面向语句的特征维度增强的实体和关系知识提取方法。10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的面向语句的特征维度增强的实体和关系知识提取方法。

技术总结


本发明公开了一种面向语句的特征维度增强的实体和关系知识提取方法及装置,方法包括:对输入语句进行向量化,得到具有上下文语义特征的向量化语句;将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。本发明采取了实体与关系联合抽取的方法,避免可能存在的重叠三元组和传播误差,确保了三元组信息的多样性与可靠性。息的多样性与可靠性。息的多样性与可靠性。


技术研发人员:

李树栋 黄倩岚 吴晓波 韩伟红 唐可可

受保护的技术使用者:

广州大学

技术研发日:

2022.09.21

技术公布日:

2022/12/23

本文发布于:2024-09-23 14:33:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/44850.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   特征   实体   语句
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议