一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法

著录项
  • CN202110496956.5
  • 20210507
  • CN113342929A
  • 20210903
  • 上海大学
  • 魏晓;钱权;陈永琪;赵睿;丁聪
  • G06F16/33
  • G06F16/33 G06F16/36 G06N3/04 G06N3/08

  • 上海市宝山区上大路99号
  • 上海(31)
  • 上海上大专利事务所(普通合伙)
  • 何文欣
摘要
本发明涉及一种面向材料领域的材料?组分?工艺?性能关系四元组抽取方法,本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料?组分?工艺?性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one?hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本发明在材料领域关系抽取上有较好的效果。
权利要求

1.一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,其特征在于,包含以下步骤:

步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;

步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;

步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;

步骤S4:对步骤S3搭建的关系抽取模型进行训练;

步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。

说明书
技术领域

本发明涉及实体关系联合抽取领域,特别是涉及一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法。

材料领域不同材料的组分、制造工艺与其性能有着密切的联系,且组分或工艺细小的变化都可能导致材料性能的骤变,因此挖掘组分-性能、工艺-性能关系,可以为材料领域科研人员提供更加直接、全面、结构化的材料优化相关知识,进而为材料的进一步优化以及新材料的研发提供参考。例如,从“深冷处理使高速钢硬度和耐磨性能得到提高”中,可以总结出对于高速钢而言,深冷处理可以提升其两个性能:硬度和耐磨性能的知识。

目前关系抽取领域大多是针对关系三元组任务抽取,即(entity1,relation,entity2),其中只涉及到两个实体,而材料领域一条材料优化知识往往涉及到三个实体:什么材料,改变了哪一组分或采用什么工艺,结果导致什么性能发生改变。因此使用传统的三元组实体关系抽取方法难以满足材料领域的需求。

本发明的主要目的在于克服现有技术的不足,提供一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,充分挖掘材料实体组分-工艺-性能之间的关系。

为实现上述目的,本发明采用以下技术方案:

一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,包含以下步骤:

步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;

步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;

步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;

步骤S4:对步骤S3搭建的关系抽取模型进行训练;

步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。

优选地,所述步骤S1具体为:

步骤S1-1:根据材料领域手册的相关词条,爬取相关论文、专利中的材料文本数据;

步骤S1-2:对步骤S1-1处理后的文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称;

步骤S1-3:重复步骤S1-1至步骤S1-2,获取所有句子都完成标注,即构造完材料领域的语料库。

优选地,所述步骤S2具体为:

步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;

步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;

步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示。

优选地,所述步骤S3具体为:

步骤S3-1:对于步骤S2中得到的每一个字向量xt,利用编码层的BiLSTM分别计算前向和后向传播得到的材料领域文本的特征信息,分别记为

步骤S3-2:将拼接得到t时刻编码层的特征向量,记为

步骤S3-3:以作为t时刻解码层BiLSTM的输入,同理分别计算前向和后向传播得到材料领域文本的语义信息,分别记为

步骤S3-4:拼接得到最终的语义信息即为在t时刻解码层BiLSTM根据上下文的信息解析得到的语义向量;

步骤S3-5:将步骤S3-3得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;

步骤S3-6:重复步骤S3-4,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;

步骤S3-7:将步骤S3-3得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取。

优选地,所述步骤S4具体为:

步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);

步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:

其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;

步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;

步骤S4-4:对模型进行训练,并保存训练后的模型。

优选地,所述步骤S5具体为:

步骤S5-1:以步骤S4-1中获得的测试集作为模型的输入,对模型进行测试;

步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:

其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。

一种计算机系统,其程序执行本发明面向材料领域的材料-组分-工艺-性能关系四元组抽取方法。

本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:

1.本发明在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据库,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取;

2.本发明在材料领域关系抽取上有较好的效果。

图1是本发明的一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法的流程图;

图2是本发明的四元组关系抽取模型图。

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当强调的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例一:

参阅图1,一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,包含以下步骤:

步骤S1:从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;

步骤S2:将步骤S1中的材料语料文本进行向量化处理,得到文本的向量表示;

步骤S3:搭建材料领域组分-工艺-性能关系抽取模型;

步骤S4:对步骤S3搭建的关系抽取模型进行训练;

步骤S5:利用所述关系抽取模型,对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。

在上述实施例中,参考图1,图1是本发明的一种面向材料领域的材料-组分-工艺-性能关系四元组抽取方法一实施例的流程图。本实施例方法在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据库,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取。

实施例二:

在本实施例中,步骤S1具体包括以下步骤:

步骤S1-1:根据材料领域手册的相关词条,从知网等文献检索网站和国家知识产权专利检索网站爬取相关论文、专利中的材料文本,通过人工手动摘取文本中部分段落构造材料领域文本集;

步骤S1-2:对步骤S1-1处理后的每一个文本进行组分名称、工艺名称、性能名称的标注,判断组分-工艺-性能在文本中体现出来的关系并进行关系的标注,构造出四元组,包括材料,组分名称/工艺名称,关系,性能名称,具体标注方法如表1所示;分别使用MAT、CON、CRA、PER作为材料实体、组分名称、工艺名称、性能名称的类型标签;采用“BIO”标注原则,其中B表示每个实体或名称的初始字,I表示每个实体或名称的中间或结尾字,其他字用O进行标注;

表1材料-组分-工艺-性能标签符号表示

由于本发明主要挖掘材料组分与工艺的改变对性能的影响,所以着重抽取组分、工艺与性能间的关系,具体包含三种关系:提升、削弱、unknown,而材料实体与组分、工艺、性能之间只存在包含和不包含两种关系;

步骤S1-3:重复步骤S1-1至步骤S1-2,知道所有句子都完成标注,即构造完材料领域的语料库;

在本实施例中,步骤S2具体包括以下步骤:

步骤S2-1:对于每一个句子都以字为基本单位,通过使用one-hot编码方式,对每个字进行独热(one-hot)表示,得到句子的one-hot表示;

步骤S2-2:将句子的one-hot向量作为word2vec模型的输入,训练word2vec模型,利用梯度下降算法不断更新权重矩阵w;

步骤S2-3:将步骤S2-2训练完成的得到的权重矩阵与每个字的one-hot向量相乘,得到每个字的wordembedding,最终得到整个语句的wordembedding表示;

在本实施例中,如图2所示,步骤S3具体包括以下步骤:

步骤S3-1:对于步骤S2中得到的每一个字向量xt,利用编码层的BiLSTM分别计算前向和后向传播得到的材料领域文本的特征信息,分别记为

步骤S3-2:将拼接得到t时刻编码层的特征向量,记为

步骤S3-3:以作为t时刻解码层BiLSTM的输入,同理分别计算前向和后向传播得到材料领域文本的语义信息,分别记为

步骤S3-4:同理,拼接得到最终的语义信息即为在t时刻解码层BiLSTM根据上下文的信息解析得到的语义向量。

步骤S3-5:将步骤3-2得到的语义向量作为softmax分类器的输入,分类得到该字符对应的标签;

步骤S3-6:重复步骤3-3,直到文本中所有的字都标注完成,实现材料领域文本材料实体、组分名称、工艺名称、性能名称的抽取;

步骤S3-7:将步骤3-2得到的语义向量作为注意力机制的输入,得到字符之间存在的关联概率,通过关联概率实现关系四元组的抽取;

在本实施例中,步骤S4具体包括以下步骤:

步骤S4-1:对语料库进行随机划分,令训练集和测试集的比例为7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);

步骤S4-2:选择负对数似然函数作为损失函数,由于该模型是实现材料实体关系的联合抽取,因此该损失函数由实体代价函数和关系代价函数两部分组成,代价函数公式如下:

其中|S|表示句子的长度,ei、ri表示模型分类出的字符的实体标签和关系标签,θ表示模型的参数集合;

步骤S4-3:使用随机梯度下降算法不断更新共享参数θ;

步骤S4-4:对模型进行训练,并保存训练后的模型;

在本实施例中,步骤S5具体包括以下步骤:

步骤S5-1:以步骤S4中获得的测试集作为模型的输入,对模型进行测试;

步骤S5-2:对步骤S5-1所得到的关系四元组结果进行性能评价,其评价指标采用精确率、召回率和F1值,计算公式如下:

其中,TP表示分类正确的数量,FP表示把负类预测为正类的数量,FN表示把正类预测为负类的数量。

本实施例面向材料领域的材料-组分-工艺-性能关系四元组抽取方法,在原有的实体关系三元组联合抽取方法的基础上,构建材料领域专用数据集,利用神经网络进行实现材料领域材料-组分-工艺-性能关系四元组抽取:首先,从材料领域论文、专利中获取材料知识相关文本,并构建材料领域的语料库;其次,利用one-hot编码,word2vec模型对材料语料文本进行向量化处理,得到文本的向量表示;然后,训练端到端的神经网络实体关系抽取模型;最后,利用上述模型对待处理的材料领域非结构化文本数据进行材料领域关系抽取,得到对应的关系四元组。本实施例方法在材料领域关系抽取上有较好的效果。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。

本文发布于:2024-09-20 22:50:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/71425.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议