专利术语抽取方法

著录项
  • CN202110157625.9
  • 20210205
  • CN112784051A
  • 20210511
  • 北京信息科技大学
  • 吕学强;游新冬;董志安
  • G06F16/35
  • G06F16/35 G06F40/295 G06F40/30 G06N3/04 G06N3/067

  • 北京市海淀区清河小营东路12号
  • 北京(11)
摘要
本申请公开了一种专利术语抽取方法,包括:利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量,将词向量输入到BiLSTM层进行语义编码,自动提取句子特征;利用CRF层解码输出概率最大的预测标签序列,得到每个字符的标注类型,对序列中的实体提取分类。本申请实施例提供的专利术语抽取方法,利用BERT对专业领域专利文本进行向量化,能有效提高术语抽取结果的准确率,抽取效果优于当前主流的深度学习术语抽取模型,在专业领域专利文本术语抽取中,准确率、召回率和F1值均有了显著提升,可以准确快速识别出字符较多的专业领域专利长序列术语。
权利要求

1.一种专利术语抽取方法,其特征在于,包括:

利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量。

2.根据权利要求1所述的专利术语抽取方法,其特征在于,所述专利术语抽取方法还包括:

将词向量输入到BiLSTM层进行语义编码,自动提取句子特征;

利用CRF层解码输出概率最大的预测标签序列,得到每个字符的标注类型,对序列中的实体提取分类。

3.根据权利要求2所述的专利术语抽取方法,其特征在于,所述利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量,包括:

首先向量经过三个不同的全连接层,得到Q,K,V三个向i量,然后Q和KT进行矩阵相乘得到单词和其他单词相关程度的向量QKT,最后将标准化的QKT放入到softmax激活函数中,得到词与词之间的关联度向量,再乘以V得到最终向量。

4.根据权利要求2所述的专利术语抽取方法,其特征在于,BiLSTM层包括两个LSTM;

LSTM由t时刻的输入词xt,细胞状态Ct,临时细胞状态隐藏状态ht,遗忘门ft,记忆门it和输出门Ot组成。LSTM将计算有用的信息传入到下一时刻,无用的信息被丢弃,并在每个时间步输出隐藏状态ht,其中遗忘,记忆与输出由通过上个时刻的隐藏状态ht-1和当前输入xt计算出来的遗忘门ft,记忆门it,输出门ot来控制,包括公式8-12:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

ht=ottanh(ct)。

5.根据权利要求2所述的专利术语抽取方法,其特征在于,利用CRF层解码输出概率最大的预测标签序列包括:

对于任一输入序列X=(x1,x2,...,xn),其对应标签序列Y=(y1,y2,...,yn)的CRF评估分数函数为

其中W是转移分数矩阵,表示标签yi-1转移到标签yi的分数,表示第i个词xi映射到标签yi的非归一化概率。

预测序列概率p(Y|X)用Softmax函数进行计算

两头取对数得到预测序列的似然函数

解码时,表示真实的标注序列,Yx表示所有可能的标注序列,通过动态规划算法得到最大分数的输出预测标签序列Y*,即为CRF层的最终标注序列:

6.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5中任一所述的方法。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-5中任一所述的方法。

说明书
技术领域

本申请涉及文本处理技术领域,具体涉及一种专利术语抽取方法。

专业术语的自动抽取对于领域机器翻译、领域知识图谱等方面均具有重要作用。目前专利年均申请增长率保持稳定,如何更快速更准确地翻译专利文本成为一个值得关注的问题。当前专利文献的翻译方式主要有两种,一种是经由专业领域人士的翻译,但高质量翻译是一项高要求且耗时的生产任务,对人类翻译专家的要求较高,能满足该要求的合格翻译人才比较缺乏,况且由于专利文献具有新颖性、可靠性和权威性的特点,翻译人员在翻译过程中需要利用领域术语表来把握对领域术语的准确翻译,术语库的构建就显得尤为重要。另一种翻译方式是先对专利文本进行机器翻译,然后进行译后编辑,据统计,市面上翻译引擎对专利文本的翻译经常存在语义缺失、语义不准确、术语错误等问题,其中术语错误更是占了翻译错误的很大比例,这就对机器翻译技术提出了更高的要求,如何利用术语词表改进机器翻译的质量值得深入研究。无论是人工翻译还是机器翻译,都离不开领域术语库的构建,这些现象都凸显了领域术语抽取的重要性。

专利文献中的领域术语为专利文献分析提供了结构化知识单元,能够使查阅人员准确快捷的了解专利的方向以及核心技术。从专利文献中自动抽取术语,构建术语库的过程,对于机器翻译、对话系统、信息检索等方面发挥着重要的基础性作用。随着科学技术的不断发展、大量专业领域专利文本的不断申请,专业领域术语抽取需求也在不断扩大,此前依靠人工收集和传统机器学习算法的抽取方法已经远远不能满足人们的需求,利用深度学习实现更高效、更准确的自动抽取领域术语的方法已经成为必然的发展趋势。目前,已经有众多国内外学者对领域术语抽取做了大量的研究实验,主要研究方法包括基于规则的方法、基于统计的方法以及规则与统计两者相结合的方法。利用基于统计和规则的方法虽然取得了一定的效果,但专业领域(例如新能源领域等)的中文术语实体识别仍旧依赖人工界定的特征和领域专业知识,术语的识别精确率和召回率因受到特定领域情境的限制而无法推广应用。

本申请的目的是提供一种专利术语抽取方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

根据本申请实施例的一个方面,提供一种专利术语抽取方法,包括:

利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量。

进一步地,所述专利术语抽取方法还包括:

将词向量输入到BiLSTM层进行语义编码,自动提取句子特征;

利用CRF层解码输出概率最大的预测标签序列,得到每个字符的标注类型,对序列中的实体提取分类。

进一步地,所述利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量,包括:

首先向量经过三个不同的全连接层,得到Q,K,V三个向i量,然后Q和KT进行矩阵相乘得到单词和其他单词相关程度的向量QKT,最后将标准化的QKT放入到softmax激活函数中,得到词与词之间的关联度向量,再乘以V得到最终向量。

进一步地,BiLSTM层包括两个LSTM;

LSTM由t时刻的输入词xt,细胞状态Ct,临时细胞状态隐藏状态ht,遗忘门ft,记忆门it和输出门Ot组成。LSTM将计算有用的信息传入到下一时刻,无用的信息被丢弃,并在每个时间步输出隐藏状态ht,其中遗忘,记忆与输出由通过上个时刻的隐藏状态ht-1和当前输入xt计算出来的遗忘门ft,记忆门it,输出门ot来控制,包括公式8-12:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

ht=ottanh(ct)。

进一步地,利用CRF层解码输出概率最大的预测标签序列包括:

对于任一输入序列X=(x1,x2,...,xn),其对应标签序列Y=(y1,y2,...,yn)的CRF评估分数函数为

其中W是转移分数矩阵,表示标签yi-1转移到标签yi的分数,表示第i个词xi映射到标签yi的非归一化概率。

预测序列概率p(Y|X)用Softmax函数进行计算

两头取对数得到预测序列的似然函数

解码时,表示真实的标注序列,Yx表示所有可能的标注序列,通过动态规划算法得到最大分数的输出预测标签序列Y*,即为CRF层的最终标注序列:

根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的专利术语抽取方法。

根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的专利术语抽取方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:

本申请实施例提供的专利术语抽取方法,利用BERT对专业领域专利文本进行向量化,能有效提高术语抽取结果的准确率,抽取效果优于当前主流的深度学习术语抽取模型,在专业领域专利文本术语抽取中,准确率、召回率和F1值均有了显著提升,可以准确快速识别出字符较多的专业领域专利长序列术语。

本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施方式中的BERT-BiLSTM-CRF新能源专利术语抽取模型结构图;

图2为本申请一实施方式中的Transformer的编码器结构图;

图3为本申请一实施方式中的LSTM单元结构图。

为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

鉴于近年来BERT预训练语言模型在英文自然语言处理(NLP)任务中的优异表现,自动挖掘隐含特征可以有效解决发现新词的特点,同时减少人工定义特征和对领域知识过度依赖的问题。本申请的一个实施例提出了一种专利术语抽取方法。

本申请实施例从深度学习的角度出发,提出基于BERT-BiLSTM-CRF的专业领域专利术语抽取模型。该模型首先利用BERT中文预训练向量将专业领域专利文本转为字符级嵌入向量训练出单词的字符集特征,然后将字符集特征输送到BiLSTM模型进行训练,更深层次地挖掘专利文本中术语与其它词汇之间的语义信息,更好地捕捉前后文隐含的信息,最后与CRF层相结合,解决输出标签之间的依赖关系问题,得到全局最优的术语标记序列。

1基于BERT-BiLSTM-CRF的术语抽取模型

近年来不依赖人工特征的端到端BiLSTM-CRF模型成为术语识别的主流模型,随着在自然语言处理领域对深度神经网络模型研究的不断深入,不少研究指出,经过预训练的词嵌入模型能更好的理解文本语义信息,应用到专业术语识别这一类命名实体识别(NER)任务中能更好的提高实体识别的结果,提升后续实验任务的准确性。

1.1 BERT-BiLSTM-CRF专业领域专利术语抽取模型整体框架

BERT-BiLSTM-CRF专业领域专利术语抽取模型整体结构如图1所示,首先是BERT预训练语言模型层,被标注过的字符级语料经过该层将每个字符转化为低维的词向量。其次是BiLSTM层,将上一层输出的词向量序列输入到这一层进行语义编码,自动提取句子特征。最后是CRF层,利用这一层解码输出概率最大的预测标签序列,得到每个字符的标注类型,对序列中的实体提取分类,最终实现专业领域专利术语的抽取。与其他基于深度学习的术语抽取模型相比,该模型最主要的区别是利用了Google在大规模中文语料上习得的BERT预训练中文向量,因为其更强的上下文长距离语义学习能力,可以更好地解决字向量一词多义的问题,更深层次地挖掘专业领域专利文本的特征,为下游任务提供更丰富的语义信息。

1.2 BERT预训练语言模型

从one-hot语言模型的提出,再到Word2Vec、Glove,近几年又有ELMO、GPT到BERT预训练模型的出现,语言模型对文本语义的表征提取更加丰富。但语言模型也存在着自身的局限性。其中one-hot向量稀疏,无法刻画单词间的相似度,容易导致模型泛化能力差。Word2Vec和Glove单层神经网络模型训练出来的词向量属于静态Word Embedding,与上下文无关,一词只有一个词向量,无法表示一词多义。为了改进此问题,ELMo模型使用双向LSTM语言模型进行预训练,根据具体输入,得到与上下文依赖的当前词表示并加入到有监督模型中,但只是两个单向的LSTM在最高层进行简单的拼接,根据上下文对embedding动态调整,效果提升有限。OpenAI GPT模型利用Transformer网络代替LSTM作为语言模型来更好的捕获长距离语言结构,但GPT是从左到右受限制的单向Transformer语言模型,只能捕获单向的语义信息,无法获取一个字词的上下文,BERT模型则是综合了ELMO和GPT这两者的优势,利用Transformer的编码器作为语言模型的基础,self-Attention机制获取单词与单词之间的语义权重,模型上下层直接相互连接,所以,BERT预训练模型与其他语言模型相比,具有更强的上下文长距离语义学习能力,相应生成的字嵌入分布式表示具有更强的语义表征优势。

BERT模型的英文全称是Bidirectional Encoder Representation fromTransformers,输入的字序列由字向量、文本向量和位置向量拼接得到E1到EN向量。再通过Transformer层得到最终的特征向量T1到TN。在BERT中只用到了Transformer的编码结构,通过双向的Transformer编码器代替了LSTM,BERT能同时获取句子前后两个方向的信息,获取更多上下文信息,使词嵌入具有更丰富的语义表示。

Transformer之所以具有较强的特征提取能力,是由于其内部的多头注意力机制。self-attention机制主要是根据同一个句子中词与词之间的关联程度调整权重系数矩阵来获取词的表征,也就是说,BERT模型对每个单词编码时,都会考虑到句子中其他单词的语义权重,因此具有很强的编码能力。具体操作可以解释为:首先向量经过三个不同的全连接层,得到Q,K,V三个向i量,然后Q和KT进行矩阵相乘得到单词和其他单词相关程度的向量QKT。最后将标准化的QKT放入到softmax激活函数中,得到词与词之间的关联度向量,再乘以V得到最终向量,如公式1所示:

再通过多头结构拼接向量结果:

MultiHead(Q,K,V)=Concat(head1,...,headh)Wo

本文发布于:2024-09-22 01:44:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/69299.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议