一种面向非结构化数据的领域知识抽取方法



1.本发明属于知识抽取技术领域,具体涉及一种面向非结构化数据的领域知识抽取方法。


背景技术:



2.领域知识具有专业性强,知识载体多样,知识体系复杂等特点。在智能制造的背景下,产品的研发与制造对领域知识的需求越来越迫切,建立完善的领域知识获取、管理、共享体系能够有效提升产品研发的效率,领域知识图谱是实现这一目标的关键。知识图谱本质上是一种大规模的语义网络,旨在以实体来描述现实世界中的概念和事件,以边代表它们之间的相互关系。知识图谱的核心是由实体、属性和关系组成的三元组,在结构上可以划分为模式层和数据层,其中模式层是由概念本体和关系构成,用于描述知识图谱的结构,数据层则是在模式层的指导下通过具体数据构建的实例化的知识图谱。
3.领域知识图谱是管理领域知识与关系的重要手段,通过领域知识图谱可以实现对领域内的各类知识进行统一管理。因此知识图谱的构建过程是重中之重。首先需明确构建知识图谱的数据来源,在知识图谱构建的过程中,数据的来源分为结构化、半结构化、非结构化,其中结构化、半结构化数据的抽取已经较为成熟,非结构化数据的抽取仍然在发展阶段。在实际应用中,知识图谱的构建仍然以手动为主,自动构建方面也仍以结构化、半结构化为主,工艺领域需要一种针对非结构化数据的知识自动抽取方法,这将有助于实现对多源异构的复杂领域知识的管理,便于领域的设计与决策。
4.从非结构化数据抽取知识的方法可以分解为实体抽取和关系抽取两部分。
5.在实体抽取方面,随着自然语言处理(nlp)技术的发展,发展出多种基于深度学习的实体识别算法,例如循环神经网络rnn,这是一类处理序列数据的神经网络,适合处理以文本数据为主的非结构化数据,在此基础上为了避免维度爆炸的问题发展出了长短时记忆神经网络lstm,为了加速训练又发展出了双向长短时神经网络bilstm,为了进一步提高抽取精度,加入了条件随机场crf来定义损失函数。
6.在关系抽取方面,目前有pipeline方法、end2end等方法,前者按句子先用实体抽取器识别出其中的各个实体,然后对抽取出来的实体每两个进行组合在加上原文本句子作为关系识别器的输入进行两输入实体间的关系识别;后者也称为端到端的关系抽取,通过对每个句子做处理,直接抽取得到三元组。随着深度学习的发展,关系抽取领域发展出基于卷积神经网络cnn、基于注意力机制的关系抽取模型
7.但是,上面提出的关于实体抽取、关系抽取的方法目前广泛用于通用知识领域,通用知识具有覆盖面广、数据量大等特点,因此通用领域的知识图谱通常采用自底向上进行构建,从大量的数据中抽取信息,来构成知识图谱中的实体和关系。领域知识与通用知识不同,领域知识更重视知识的专业性,因此领域知识需要有更加严谨的结构。在构建领域知识图谱时,需要采用自顶向下的方式进行构建,先设计领域知识图谱的模式层,根据模式层来确定哪些信息属于领域知识。然而目前在领域知识图谱的构建方面,仍然以手动构建为主,
管理的效率低下,处理的数据也多以结构和半结构化数据为主,面向非结构化数据的知识抽取仍然缺少系统化的方法。


技术实现要素:



8.有鉴于此,本发明提供了一种面向非结构化数据的领域知识抽取方法,能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。
9.本发明是通过下述技术方案实现的:
10.一种面向非结构化数据的领域知识抽取方法,所述非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据;
11.所述抽取方法的具体步骤如下:
12.步骤s1,通过对领域知识概念实体与关系梳理进行梳理,建立领域知识图谱模式层;
13.步骤s2,对非结构化数据进行预处理,得到人工标注后的文本数据;
14.步骤s3,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别利用相应数据集训练所述实体抽取模型和关系抽取模型;
15.步骤s4,用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将所述领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体与关系一一对应的实体-关系表;
16.根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体-关系表,根据该实体-关系表在neo4j图数据库中建立知识图谱。
17.进一步的,步骤s1的具体步骤如下:
18.步骤s1-1,根据知识抽取的目的,对多场景领域知识概念与关系进行梳理;
19.步骤s1-2,根据领域知识概念实体与关系,对知识结构进行定义,建立领域知识图谱模式层。
20.进一步的,步骤s2的具体步骤如下:
21.步骤s2-1,利用文本解析工具,将非结构化数据解析为txt文件;
22.步骤s2-2,利用jieba分词工具,对文本文件进行分词;
23.步骤s2-3,对分词后的文本做去除停用词处理;
24.步骤s2-4,基于bio标注法或bioes标注法对文本数据进行人工标注。
25.进一步的,步骤s3的具体步骤如下:
26.步骤s3-1,根据人工标注的数据,形成用于实体抽取模型和关系抽取模型训练的训练集和测试集;
27.步骤s3-2,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,利用相应数据集训练该模型;基于注意力机制建立关系抽取模型,利用相应数据集训练该模型;
28.步骤s3-3,依据精确率、召回率、f1值对实体抽取模型训练效果进行评估;根据精确率对关系抽取模型训练效果进行评估。
29.进一步的,在步骤s3-2中,建立实体抽取模型时:双向长短时记忆神经网络bilstm的bilstm层的输出维度与标签种类的数量相同,对每个输入wi,网络会输出其对应标签j的概率值p
ij
,最终获得网络的输出p,即每个输入与每个标签对应的标注概率值;条件随机场crf计算了条件约束下的标注概率值,设y为预测的标注序列,x为文本输入序列,y

为准确的标注序列,则有
[0030][0031]
其中,p(y|x)为输出p经过条件随机场约束后的概率值;分数score可以通过下式进行计算:
[0032][0033]
其中,ψi(x,y)为特征向量;
[0034]
训练实体抽取模型时,目标是最大化概率p(y|x),通过对数似然得:
[0035][0036]
定义损失函数为-log(p(y|x)),通过优化算法对损失函数-log(p(y|x))进行优化即可实现实体抽取模型bilstm-crf的训练。
[0037]
进一步的,在步骤s3-2中,
[0038]
建立关系抽取模型时,先通过双向长短时记忆神经网络bilstm的bilstm层输出文本的向量形式,再经过注意力机制层进行关系的分类,获得实体间的关系,建立关系抽取模型;
[0039]
训练关系抽取模型时,关系抽取模型的输入以句子为单位,给定一个包含t个字符的句子s:s={x1,x2,...,x
t
},其中xi表示每个字符,经过bilstm层的输出为h={h1,h2,...,h
t
},待训练的矩阵参数dw表示词嵌入的维度,满足:
[0040]
m=tanh(h)
[0041]
α=softmax(w
t
m)
[0042]
r=hα
t
[0043]
其中,α为注意力权重系数,r为bilstm层的输出h经过加权后求和后的结果;
[0044]
最后通过非线性函数生成表征向量h
*
=tanh(r);
[0045]
将表征向量h
*
通过全连接网络映射到类标向量上,对于输入的句子s,通过softmax输出预测的关系分类的概率通过argmax获得预测标签
[0046][0047][0048]
其中,w和b分别为参数矩阵和偏置;
[0049]
采用负对数似然来定义损失函数为:
[0050]
[0051]
其中t∈rm是独热表示,y∈rm是经过softmax输出的每个关系种类的估计概率,λ是正则化超参数,θ表示该关系抽取模型的模型参数;
[0052]
通过优化算法对损失函数j(θ)进行优化即可实现关系抽取模型的训练。
[0053]
进一步的,在步骤s4中,采用基于语义相似度计算的方法来进行知识融合的具体方法如下:
[0054]
(1)语义相似性计算:通过jaccard相似系数计算工艺知识中概念、属性以及结构关系之间的相似性,并加以分类,为语义空间模型融合提供依据;
[0055]
(2)语义空间模型融合:根据融合操作规则,对不同相似性的领域知识进行融合操作,消除领域知识之间的相似冗余或冲突矛盾;
[0056]
(3)实体链接:使用基于图的联合链接模型,将新增领域知识与已有图谱进行链接,计算实体间的相容性与依赖性,依据计算结果对新增知识进行消歧,融入知识图谱。
[0057]
有益效果:
[0058]
(1)本发明提出的一种面向非结构化数据的领域知识抽取方法,涉及知识建模与自然语言处理技术。该方法首先针对领域知识进行概念、关系梳理,建立领域知识图谱模式层,再对非结构化数据进行预处理,通过人工标注数据集,创建训练集与测试集,然后采用基于深度学习的命名实体识别模型bilstm-crf对数据进行训练,根据精确率、召回率、f1值等指标对模型的训练效果进行评估,再使用基于注意力机制的关系抽取模型进行训练。进行知识抽取时,可利用训练好的模型对非结构化数据进行实体抽取,使用基于注意力机制的关系抽取模型进行关系抽取,形成实体-关系表,基于语义相似度对所有抽取到的实体、关系进行知识融合,最后利用图数据库neo4j形成并保存知识图谱。具有专业性强、知识载体多样、知识体系复杂等特点,适用于产品的研发与制造对领域知识的需求,通过建立完善的领域知识获取、管理、共享体系能够有效提升产品研发的效率。
[0059]
(2)本发明基于双向长短时记忆神经网络(bilstm)和条件随机场(crf)建立实体抽取模型,以实现非结构化数据的实体抽取;基于注意力机制建立关系抽取模型,以实现非结构化数据的关系抽取;通过实体抽取模型和关系抽取模型的结合最终实现自动抽取非结构化数据中的工艺实体与关系,通过大量的数据集进行训练能够获得较高的抽取精确率。
[0060]
(3)本发明建立实体抽取模型时,采用双向长短时记忆神经网络(bilstm)和条件随机场(crf),能够解决传统循环神经网络(rnn)可能会出现的维度爆炸问题,同时能够提升训练速度。
[0061]
(4)本发明基于语义相似度进行知识融合,根据抽取得到的所有实体与关系,合并语义相同或高度相似的知识,采用语义相似度计算的方法具有简单可靠的特点。
附图说明
[0062]
图1是面向非结构化数据的领域知识抽取方法实施流程示意图。
[0063]
图2是bilstm模型结构示意图。
[0064]
图3是基于注意力机制的长短时记忆神经网络模型示意图。
[0065]
图4是语义相似性计算过程示意图。
[0066]
图5是语义空间模型融合过程示意图。
[0067]
图6是实施例2的建立的工艺知识图谱模式层示意图。
[0068]
图7是bio标注示意图。
具体实施方式
[0069]
下面结合附图并举实施例,对本发明进行详细描述。
[0070]
实施例1:
[0071]
本实施例提供了一种面向非结构化数据的领域知识抽取方法,所述非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,以文本类型的数据为主。
[0072]
所述抽取方法的具体步骤如下:
[0073]
步骤s1,模式层构建:
[0074]
步骤s1-1,领域概念与关系梳理:根据知识抽取的目的,对多场景领域知识概念与关系进行梳理;
[0075]
步骤s1-2,领域知识图谱模式层构建:根据领域知识概念实体与关系,对知识结构进行定义,建立领域知识图谱模式层;
[0076]
步骤s2,对非结构化数据进行数据预处理:
[0077]
步骤s2-1,解析为txt文件:利用文本解析工具,将非结构化数据解析为txt文件;
[0078]
步骤s2-2,分词:利用jieba分词工具,对文本文件进行分词;
[0079]
步骤s2-3,去除停用词:对分词后的文本做去除停用词处理;
[0080]
步骤s2-4,人工标注:基于bio标注法对文本数据进行人工标注;
[0081]
步骤s3,进行模型训练:
[0082]
步骤s3-1,训练集和测试集:根据人工标注的数据,形成用于实体抽取模型和关系抽取模型训练的训练集和测试集;
[0083]
步骤s3-2,实体抽取模型训练:基于双向长短时记忆神经网络(bilstm)以及条件随机场(crf)建立实体抽取模型,利用相应数据集训练该模型;
[0084]
步骤s3-3,实体抽取模型评估:依据精确率、召回率、f1值对实体抽取模型训练效果进行评估;
[0085]
步骤s3-4,关系抽取模型训练:基于注意力机制建立关系抽取模型,利用相应数据集训练该模型;
[0086]
步骤s3-5,关系抽取模型评估:根据精确率对关系抽取模型训练效果进行评估;
[0087]
其中,步骤s3-4和s3-5可与步骤s3-2和s3-3互换;
[0088]
步骤s4,领域知识图谱构建:
[0089]
步骤s4-1,领域实体抽取:用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体;
[0090]
步骤s4-2,领域实体表:根据实体抽取模型抽取得到的领域实体,以表格形式存储为领域实体表;
[0091]
步骤s4-3,实体关系表:使用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体与关系一一对应的实体-关系表;
[0092]
步骤s4-4,知识融合:根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,合并语义相同或高度相似的知识;
[0093]
步骤s4-5,知识图谱:根据知识融合后的实体-关系表,在neo4j图数据库中建立知识图谱。
[0094]
实施例2:
[0095]
本实施例在实施例1的基础上,以柴油机工艺相关的论文为例进行工艺知识的抽取,即所述非结构化数据为柴油机工艺相关的论文,所述抽取方法实施流程如图1所示;该方法的具体实施步骤如下:
[0096]
步骤s1,模式层构建:
[0097]
步骤s1-1,工艺概念与关系梳理:根据知识抽取的目的,对多场景工艺知识概念与关系进行梳理;针对柴油机的工艺知识可以根据工艺本体、工件本体、设备本体这三个维度进行梳理,工艺本体可以分为机加、装配、铸造,工件本体则为柴油机的各个组成结构及其零件,设备本体则为加工中使用的各种设备;
[0098]
步骤s1-2,工艺知识图谱模式层构建:根据工艺知识概念实体与关系,对知识结构进行定义,建立工艺知识图谱模式层;
[0099]
在本实施例中,所述工艺知识图谱模式层建立的具体方法如下:
[0100]
(1)明确工艺知识图谱应用场景,确定工艺知识概念本体;
[0101]
(2)确定工艺知识概念本体之间的关系,如在柴油机工艺知识中,工艺本体与工件本体的关系为“作用于”,设备本体与工艺本体的关系为“实现”,设备本体与工件本体的关系为“加工”,如图6所示;
[0102]
步骤s2,对非结构化数据进行数据预处理:
[0103]
步骤s2-1,解析为txt文件:利用文本解析工具,将非结构化数据解析为txt文件;
[0104]
步骤s2-2,分词:利用jieba分词工具,对文本文件进行分词;
[0105]
步骤s2-3,去除停用词:对分词后的文本做去除停用词处理;
[0106]
步骤s2-4,人工标注:基于bio标注法对文本数据进行人工标注,工艺实体标注为b-tec、i-tec,工件实体标注为b-wor、i-wor,设备实体标注为b-equ、i-equ,其他标注为o,如表1所示为部分标注结果;
[0107]
表1部分实体标注结果
[0108][0109][0110]
其中,所述bio标注法可以替换为bioes标注法,即b为实体开头,i为实体中间,e为实体结尾,s为单个字符的实体,o为其他;标注方法不是唯一的,根据不同的实体抽取需求可以选用不同的标注方法,对模型训练并没有影响。
[0111]
步骤s3,进行模型训练:
[0112]
步骤s3-1,训练集和测试集:根据人工标注的数据,形成用于实体抽取模型训练的训练集和测试集;
[0113]
步骤s3-2,实体抽取模型训练:基于双向长短时记忆神经网络(bilstm)以及条件随机场(crf)建立实体抽取模型,利用数据集训练该模型;
[0114]
本实施例采用双向长短时记忆神经网络(bilstm)和条件随机场(crf)建立实体抽取模型,能够解决传统循环神经网络(rnn)可能会出现的维度爆炸问题,同时能够提升训练速度;建立及训练该模型的具体方法如下:
[0115]
在lstm中,记忆细胞互相连接,代替了一般rnn中的循环单元,除了记忆细胞之间具有循环连接结构外,每个记忆细胞内部也存在循环;对于每个记忆细胞的输入受到输入门的控制,如果输入门允许,其值可以累加到状态,状态的权重受遗忘门控制,输出可以通过输出门控制是否关闭;
[0116]
(1)输入门通过如下方式进行更新:
[0117]it
=σg(wix
t
+u
iht-1
+bi)
[0118]
其中,i
t
为t时刻的输入门,wi为输入权重矩阵;ui为输入门的循环权重矩阵;bi为偏置;通过sigmoid激活函数σg调整wix
t
+u
iht-1
+bi,将输出i
t
设置为0到1之间的值;x
t
为输入变量,即一句话中的每个字符,h
t-1
为t-1时刻的lstm的隐状态;
[0119]
(2)遗忘门通过如下方式进行更新:
[0120]ft
=σg(wfx
t
+ufh
t-1
+bf)
[0121]
其中,f
t
为t时刻的遗忘门,wf为输入权重矩阵;uf为遗忘门的循环权重矩阵;bf为偏置,通过sigmoid激活函数σg调整wfx
t
+ufh
t-1
+bf,将输出f
t
设置为0到1之间的值;
[0122]
(3)输出门通过如下方式进行更新:
[0123]ot
=σg(wox
t
+u
oht-1
+bo)
[0124]
其中,o
t
为t时刻的输出门,wo为输入权重矩阵;uo为输出门的循环权重矩阵;bo为偏置。通过sigmoid激活函数σg调整wox
t
+u
oht-1
+bo,将将输出o
t
设置为0到1之间的值;
[0125]
(4)记忆细胞c
t
通过如下方式进行更新:
[0126][0127][0128]
其中,c
t
为t时刻的记忆细胞,c
t-1
为t-1时刻的记忆细胞,为中间量,wc为输入权重矩阵;uc为记忆细胞的循环权重矩阵;bc为偏置,通过tanh激活函数σh进行输出可以看出,遗忘门f
t
决定了从上一个记忆细胞传入的数据,输入门i
t
决定了当前输入传入记忆细胞的数据。
[0129]
lstm的隐状态h
t
通过输出门和记忆细胞共同决定:
[0130]ht
=o
t
σh(c
t
)
[0131]
其中,h
t
为t时刻的lstm的隐状态;
[0132]
尽管lstm能够通过记忆细胞解决长距离依赖的问题,但lstm是一种前向传播算法,一个状态的输出只能通过其前面状态来进行计算。然而在命名实体识别的问题中,输入的是文本语句的词向量,一个命名实体与之附近的词存在语义依赖,为了识别某个实体,很多时候不仅受到前面的词的影响,同样也可能受到后面的词的影响,单向长短期记忆神经
网络无法结合当前时刻后面的内容进行命名实体识别等工作,因此采用双向长短期记忆神经网络模型(bilstm)进行命名实体识别,其模型结构如图2-3所示。
[0133]
双向长短期记忆神经网络的结构由输入层、前向隐藏层、后向隐藏层和输出层组成。输入层输入序列数据,前向隐含层计算前向特征,后向隐含层计算后向特征;前向隐含层可以记住当前时刻之前的信息,而后向隐含层可以记住当前时刻未来的信息;将前向隐藏层和后向隐藏层输出的结果拼接,就得到了双向的lstm,即bilstm网络。
[0134]
最后将输出接入softmax输入层预测命名实体的分类标签。对于一个命名实体识别任务,定义该任务中存在k个标签,即label={label1,label2,...,labelk},输入序列长度为n,即w={w1,w2,...,wn},通过bilstm获得每个输入w
t
对应每个标签labelj的分数p
t,j
,整个序列的n个字符对应的分数p
t,j
构成了p矩阵,其中分数越大意味着该分数对应的标签更接近真实标签。
[0135]
在中文命名实体识别任务中,实体通常由多个汉字组合而成,这些汉字按照bio标注法进行标注,这与训练集的数据标注方式相同,b用来表示命名实体的开始字符,i表示命名实体的中间部分与结尾部分,o表示非实体部分。如图7所示为一个标注实例,实体被分成了workpiece、equipment、technic三类,其中b-workpiece表示workpiece实体“发动机缸体”的开始字符,即“发”;i-workpiece表示workpiece实体“发动机缸体”的中间与结尾部分,即“动”“机”“缸”“体”。对于equipment实体、technic实体同理。
[0136]
可以看出,对于中文序列的输入,输出的标签有着一定的约束:
[0137]
(1)一个实体的起始标签必须为“b
‑”
,并且标签“i
‑”
须在“b
‑”
之后、“o”不可以出现在“i
‑”
之前;
[0138]
(2)一个实体的标签类型需要保持一致,例如“b-workpiece”后须组合“i-workpiece”,而不能是“i-equipment”;
[0139]
而bilstm并没有做出这些约束,因此本实施例采用了条件随机场(crf)来对网络的输出做出进一步约束来达到更高的准确率。条件随机场是概率图模型中的一种,概率图模型可以分为包括贝叶斯网络、隐马尔可夫模型在内的有向图模型和包括条件随机场在内的无向图模型。
[0140]
条件随机场(crf)目前在自然语言处理领域得到广泛应用,是一种条件概率分布模型,是在隐马尔可夫模型(hmm)的基础上引入特征函数。
[0141]
crf中的转移矩阵会考虑到各时刻输出标签之间的关联,所以本实施例考虑用crf去做bilstm层;bilstm层提供了能根据上下文提取特征的功能,能够对输入的文本进行实体类别的预测,而crf层提供了一种对当前输出状态打分的机制,能够对输出进行更进一步的约束,从而提升预测的准确性。
[0142]
bilstm层的输出维度与标签种类的数量相同,对每个输入wi,网络会输出其对应标签j的概率值p
ij
,这样就获得了网络的输出p,即每个输入与每个标签对应的标注概率值。crf计算了条件约束下的标注概率值,设y为预测的标注序列,x为文本输入序列,y

为准确的标注序列,则有
[0143][0144]
其中,p(y|x)为输出p经过条件随机场约束后的概率值;分数score可以通过下式
进行计算:
[0145][0146]
其中,ψi(x,y)为特征向量,这样训练模型的目标就是最大化概率p(ylx),通过对数似然得:
[0147][0148]
定义损失函数为-log(p(y|x)),通过优化算法对损失函数-log(p(y|x))进行优化即可实现实体抽取模型bilstm-crf的训练。
[0149]
步骤s3-3,实体抽取模型评估:依据精确率、召回率、f1值对实体抽取模型训练效果进行评估;其中,所述
[0150]
步骤s3-4,关系抽取模型训练:基于注意力机制建立关系抽取模型,利用相应数据集进行训练该模型;
[0151]
本实施例采用基于注意力机制建立关系抽取模型,建立及训练该模型的具体方法如下:
[0152]
由于lstm获得每个时间点的输出信息之间的“影响程度”都是一样的,而在关系分类中,为了能够突出部分输出结果对分类的重要性,引入加权的思想,注意力机制本质上就是加权求和。
[0153]
训练关系抽取模型,来对待抽取的非结构化数据进行抽取,获得实体之间的关系。关系抽取模型首先通过bilstm层输出文本的向量形式,再经过注意力机制层进行关系的分类,获得实体间的关系。
[0154]
(1)输入与词嵌入层:模型输入为以句子为单位的样本。词嵌入层主要对输入语句进行表征,给定一个包含给定一个包含t个字符的句子s:s={x1,x2,...,x
t
},其中xi表示每个字符。
[0155]
(2)bilstm:bilstm的结构与步骤s3-2中相同,lstm单元可以用如下式表示:
[0156][0157][0158][0159]ct
=i
tgt
+f
tct-1
[0160][0161]ht
=o
t
tanh(c
t
)
[0162]
模型的输出包括前向和后向两个结果,通过拼接作为最终的bilstm输出。
[0163]
(3)attention结构:由于lstm获得每个时间点的输出信息之间的“影响程度”都是一样的,而在关系分类中,为了能够突出部分输出结果对分类的重要性,引入加权的思想,注意力机制本质上就是加权求和。
[0164]
模型的输入以句子为单位,经过bilstm层的输出为h={h1,h2,...,h
t
},待训练的矩阵参数r表示实数的集合,dw表示词嵌入的维度,满足:
[0165]
m=tanh(h)
[0166]
α=softmax(w
t
m)
[0167]
r=hα
t
[0168]
其中m中间量,无实义,α为注意力权重系数,r为lstm输出h经过加权后求和后的结果,最后通过非线性函数生成表征向量h
*
=tanh(r)。
[0169]
(4)损失函数:将表征向量h
*
通过全连接网络映射到类标向量上,对于输入的句子s,通过softmax输出预测的关系分类的概率通过argmax获得预测标签
[0170][0171][0172]
其中w和b分别为参数矩阵和偏置。
[0173]
采用负对数似然来定义损失函数j(θ)为:
[0174][0175]
其中t∈rm是独热表示,y∈rm是经过softmax输出的每个关系种类的估计概率,λ是正则化超参数,θ表示该关系抽取模型的模型参数,包括n和b;f为范数;
[0176]
通过优化算法对损失函数j(θ)进行优化即可实现关系抽取模型的训练。
[0177]
步骤s3-5,关系抽取模型评估:根据精确率对关系抽取模型训练效果进行评估;
[0178]
其中,步骤s3-4和s3-5可与步骤s3-2和s3-3互换。
[0179]
步骤s4,工艺知识图谱构建:
[0180]
步骤s4-1,工艺实体抽取:用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得工艺实体;
[0181]
步骤s4-2,工艺实体表:根据实体抽取模型抽取得到的工艺实体,以表格形式存储为工艺实体表,部分工艺实体表如表2所示:
[0182]
表2部分工艺实体表
[0183]
idnamelabel001汽缸盖工件002喷油器护套工件003阀座工件004压力试验工艺
[0184]
步骤s4-4,实体关系表:使用训练好的关系抽取模型对关系进行抽取,在工艺实体表的基础上获得实体与关系一一对应的实体-关系表,如表3所示为部分实体-关系表;
[0185]
表3部分实体-关系表
[0186]
start_namerelationend_name压力试验作用于汽缸盖整体清晰作用于汽缸盖压装装配站实现护套装配
[0187]
步骤s4-4,知识融合:根据抽取得到的所有实体与关系,采用基于语义相似度计算的方法来进行知识融合,参见附图4-5,合并语义相同或高度相似的知识;其中,采用的基于语义相似度计算的方法可以替换成其他方法,例如内积法、余弦法、dice系数法等。
[0188]
本实施例中,采用基于语义相似度计算的方法来进行知识融合的具体方法如下:
[0189]
(1)语义相似性计算:通过jaccard相似系数计算工艺知识中概念、属性以及结构关系之间的相似性,并加以分类,语义空间模型融合提供依据;
[0190]
(2)语义空间模型融合:根据融合操作规则,对不同相似性的领域知识进行融合操作,消除领域知识之间的相似冗余或冲突矛盾;
[0191]
(3)实体链接:使用基于图的联合链接模型,将新增领域知识与已有图谱进行链接,计算实体间的相容性与依赖性,依据计算结果对新增知识进行消歧,融入知识图谱。
[0192]
步骤s4-5,知识图谱:根据知识融合后的实体-关系表,在neo4j图数据库中建立知识图谱;工艺知识图谱构建完成后,工艺设计人员可以利用工艺知识图谱进行工艺的设计,可以在此基础上上传新的知识,实现知识的更新和共享。
[0193]
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种面向非结构化数据的领域知识抽取方法,所述非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据;其特征在于,所述抽取方法的具体步骤如下:步骤s1,通过对领域知识概念实体与关系梳理进行梳理,建立领域知识图谱模式层;步骤s2,对非结构化数据进行预处理,得到人工标注后的文本数据;步骤s3,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别利用相应数据集训练所述实体抽取模型和关系抽取模型;步骤s4,用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将所述领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体与关系一一对应的实体-关系表;根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体-关系表,根据该实体-关系表在neo4j图数据库中建立知识图谱。2.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤s1的具体步骤如下:步骤s1-1,根据知识抽取的目的,对多场景领域知识概念与关系进行梳理;步骤s1-2,根据领域知识概念实体与关系,对知识结构进行定义,建立领域知识图谱模式层。3.如权利要求1所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤s2的具体步骤如下:步骤s2-1,利用文本解析工具,将非结构化数据解析为txt文件;步骤s2-2,利用jieba分词工具,对文本文件进行分词;步骤s2-3,对分词后的文本做去除停用词处理;步骤s2-4,基于bio标注法或bioes标注法对文本数据进行人工标注。4.如权利要求1-3任一项所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,步骤s3的具体步骤如下:步骤s3-1,根据人工标注的数据,形成用于实体抽取模型和关系抽取模型训练的训练集和测试集;步骤s3-2,基于双向长短时记忆神经网络以及条件随机场建立实体抽取模型,利用相应数据集训练该模型;基于注意力机制建立关系抽取模型,利用相应数据集训练该模型;步骤s3-3,依据精确率、召回率、f1值对实体抽取模型训练效果进行评估;根据精确率对关系抽取模型训练效果进行评估。5.如权利要求4所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,在步骤s3-2中,建立实体抽取模型时:双向长短时记忆神经网络bilstm的bilstm层的输出维度与标签种类的数量相同,对每个输入w
l
,网络会输出其对应标签j的概率值p
ij
,最终获得网络的输出p,即每个输入与每个标签对应的标注概率值;条件随机场crf计算了条件约束下的标注概率值,设y为预测的标注序列,x为文本输入序列,y

为准确的标注序列,则有
其中,p(y|x)为输出p经过条件随机场约束后的概率值;分数score可以通过下式进行计算:其中,ψ
i
(x,y)为特征向量;训练实体抽取模型时,目标是最大化概率p(y|x),通过对数似然得:定义损失函数为-log(p(y|x)),通过优化算法对损失函数-log(p(y|x))进行优化即可实现实体抽取模型bilstm-crf的训练。6.如权利要求4所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,在步骤s3-2中,建立关系抽取模型时,先通过双向长短时记忆神经网络bilstm的bilstm层输出文本的向量形式,再经过注意力机制层进行关系的分类,获得实体间的关系,建立关系抽取模型;训练关系抽取模型时,关系抽取模型的输入以句子为单位,给定一个包含t个字符的句子s:s={x1,x2,...,x
t
},其中x
i
表示每个字符,经过bilstm层的输出为h={h1,h2,...,h
t
},待训练的矩阵参数d
w
表示词嵌入的维度,满足:m=tanh(h)α=softmax(w
t
m)r=hα
t
其中,α为注意力权重系数,r为bilstm层的输出h经过加权后求和后的结果;最后通过非线性函数生成表征向量h
*
=tanh(r);将表征向量h
*
通过全连接网络映射到类标向量上,对于输入的句子s,通过softmax输出预测的关系分类的概率通过argmax获得预测标签通过argmax获得预测标签通过argmax获得预测标签其中,w和b分别为参数矩阵和偏置;采用负对数似然来定义损失函数为:其中t∈r
m
是独热表示,y∈r
m
是经过softmax输出的每个关系种类的估计概率,λ是正则化超参数,θ表示该关系抽取模型的模型参数;通过优化算法对损失函数j(θ)进行优化即可实现关系抽取模型的训练。7.如权利要求1-3任一项所述的一种面向非结构化数据的领域知识抽取方法,其特征在于,在步骤s4中,采用基于语义相似度计算的方法来进行知识融合的具体方法如下:
(1)语义相似性计算:通过jaccard相似系数计算工艺知识中概念、属性以及结构关系之间的相似性,并加以分类,为语义空间模型融合提供依据;(2)语义空间模型融合:根据融合操作规则,对不同相似性的领域知识进行融合操作,消除领域知识之间的相似冗余或冲突矛盾;(3)实体链接:使用基于图的联合链接模型,将新增领域知识与已有图谱进行链接,计算实体间的相容性与依赖性,依据计算结果对新增知识进行消歧,融入知识图谱。

技术总结


本发明公开了一种面向非结构化数据的领域知识抽取方法,该方法为:基于双向长短时记忆神经网络及条件随机场建立实体抽取模型,基于注意力机制建立关系抽取模型,并分别训练两个模型;用训练好的实体抽取模型对待抽取的非结构化数据进行抽取,获得领域实体,并将领域实体以表格形式存储为领域实体表;用训练好的关系抽取模型对关系进行抽取,在领域实体表的基础上获得实体-关系表;根据抽取得到的所有实体与关系,基于语义相似度进行知识融合,得到知识融合后的实体-关系表,并在neo4j图数据库中建立知识图谱;本发明能够解决目前领域知识获取以手动为主,管理的效率低下,领域知识体系不够完善的问题,实现对非结构化数据的知识抽取。识抽取。识抽取。


技术研发人员:

王儒 孙延劭 华益威 魏竹琴 王国新

受保护的技术使用者:

北京理工大学

技术研发日:

2022.10.14

技术公布日:

2022/12/22

本文发布于:2024-09-24 23:19:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/47236.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实体   知识   模型   关系
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议