基于BERT-A-BiLSTM的多特征专利自动分类算法

著录项
  • CN202110445688.4
  • 20210425
  • CN113011527A
  • 20210622
  • 河北经贸大学
  • 和志强;陈萌;罗长玲;王梦雪;马宁
  • G06K9/62
  • G06K9/62 G06F40/30 G06F40/44 G06N3/04 G06N3/08

  • 河北省石家庄市学府路47号
  • 河北(13)
  • 北京华际知识产权代理有限公司
  • 陈健阳
摘要
本发明属于专利自动分类技术领域,具体涉及基于BERT?A?BiLSTM的多特征专利自动分类算法,包括BERT?A?BiLSTM的多特征分类算法模型构建、实验设计与对比分析,BERT?A?BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,“文本向量化表示层”将文本数据通过BERT模型转化为深度神经网络可识别的向量形式,“文本特征提取层”由基于BiLSTM和Attention机制的“语义特征提取模块”和基于改进型TF?IDF算法的“统计特征提取模块”两个模块构成,其最终输出为两个模块单独的输出拼接而成,最后将文本的融合特征输入到由“全连接层加Softmax函数”组合而成“输出层”中得到分类结果。通过实验证明,该算法可以有效地提升专利的分类效果。
权利要求

1.基于BERT-A-BiLSTM的多特征专利自动分类算法,包括BERT-A-BiLSTM的多特征分类算法模型构建、实验设计与对比分析,其特征在于:所述BERT-A-BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,所述“文本向量化表示层”的输入数据中的字符映射为“字向量”,“段向量”,“位置向量”,三个向量输入Transformer编码器中,Transformer编码器由多个“注意力机制层(Multi-HeadAttention)”、前馈神经网络层(Feed Forward)和“Layer Normalization层”连接而成,所述“文本特征提取层”由“BiLSTM-Attention的语义特征提取模块”和“CTF-IDF的统计特征提取模块”组成,并通过所述“输出层”进行分类,并通过实验设计,将SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM作为对比试验进行对比分析。

2.根据权利要求1所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述“Multi-Head Attention特征提取”公式为MultiHead(Q,K,V)=Concat(head1,...,headh)W0,headi=Attention(QWiQ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,所述“Multi-Head Attention特征提取”中Attention的计算公式,Q,K,V分别为输入query、key、value向量,dk为向量的维度。

3.根据权利要求1所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述“BiLSTM-Attention的语义特征提取模块”通过“长短期记忆神经网络(LSTM)”进行语义特征的提取,所述“长短期记忆神经网络(LSTM)”内部公式为输入门:it=σ(Wt·[ht-1,xt]+bi),遗忘门:ft=σ(Wf·[ht-1,xt]+bf),c't=tanh(Wc·[ht-1,xt]+bc),输出门,Ot=σ(WO·[ht-1,xt]+b0),长记忆:短记忆:ft遗忘网络状态的程度,it为忽略本时刻输入的程度,Ot为本时刻网络输出时忽略,ct为本时刻网络状态,ct-1为上一时刻网络状态,c′t为本时刻输入对网络状态的贡献,ht为本时刻网络的输出,ht-1为上一时刻网络的输出,xt为网络的输入。

4.根据权利要求3所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述LSTM最终输出的向量集合l为BiLSTM中隐藏层神经元的个数,m为专利文本的长度,代表第k时刻前向LSTM隐层输出的特征向量,代表第k时后向LSTM隐层输出的特征向量,BiLSTM网络k时刻最终的输出

5.根据权利要求1所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:Attention机制为BiLSTM每个时刻的输出分配权重,公式为SK=v tanh(Wshk+bs),o1=∑tatht,v、Ws是可由训练得到的注意力机制的参数矩阵,bs是tanh函数的偏置项,ak是k时刻输出的所占权重,01是经过加权后的语义特征提取层最终输出。

6.根据权利要求1或5所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述“CTF-IDF的统计特征提取模块”,通过定义CTF的词频,进而提取类别文件中出现的次数,并通过IDF对为本中的关键词权重“VCTF-IDF”进行计算,所述“VCTF-IDF”的计算公式VCTF-IDF=VCTF×VIDF,Nik是该词在文件Dk中出现的次数,再进行关键词权重的统计,统计公式为o2={I1,I2,I3,…,I315},In为第n个关键词,出现则值为1,否则值为0,O={o1,o2},其中提取模块的输出o1和统计特征提取模块的输出o2。

7.根据权利要求1所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述“输出层”由“全连接层加Softmax函数”组合而成,通过所述“全连接层加Softmax函数”将语义特征提取层中的输出和统计特征提取层的输出拼接作为本层的输入,Softmax函数为Pi为文本类别i的概率,Si为第i个神经元内的数值,j为预测类别数,W为n×j的全连接权重矩阵,b为偏置项,x是特征提取层输出的向量。

8.根据权利要求1所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述实验设计与对比分析包括“实验环境”、“实验数据”、“试验参数”、“对比实验”、“实验结果与分析”。

9.根据权利要求8所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述“实验环境”采用TensorFlow作为Keras的后端,使用Keras对网络层、优化器、激活函数等进行调用。

10.根据权利要求8所述的基于BERT-A-BiLSTM的多特征专利自动分类算法,其特征在于:所述“实验数据”采用IPC分类体系作为分类依据。

说明书
技术领域

本发明属于专利自动分类技术领域,具体涉及基于BERT-A-BiLSTM的多特征专利自动分类算法。

现有的专利自动分类算法进行文本向量化时大都采用Word2vec、GloVe等静态词向量技术,不能根据上下文的变化动态的改变词向量解决一词多义问题,Word2vec模型训练的词向量不能跟随文本中上下文语境的变化而动态的改变,无法解决一词多义的问题,并且专利摘要文本具有专业领域相关词汇多、文本长度短的特点,仅通过语义特征难以对专利类别进行准确的划分,从而影响整体算法的分类性能。同时,处理专利文本序列数据时,双向长短时记忆神经网络进行文本特征提取,使用最后一个时序输出的结果作为最终特征提取的结果,但该特征难以包含文本的全部信息以导致丢失文本的部分信息,影响最终的分类效果的问题。

本发明的目的在于提供基于BERT-A-BiLSTM的多特征专利自动分类算法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:基于BERT-A-BiLSTM的多特征专利自动分类算法,包括BERT-A-BiLSTM的多特征分类算法模型构建、实验设计与对比分析,其特征在于:所述BERT-A-BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,所述“文本向量化表示层”的输入数据中的字符映射为“字向量”,“段向量”,“位置向量”,三个向量输入Transformer编码器中,Transformer编码器由多个“注意力机制层(Multi-Head Attention)”、前馈神经网络层(Feed Forward)和“LayerNormalization层”连接而成,所述“文本特征提取层”由“BiLSTM-Attention的语义特征提取模块”和“CTF-IDF的统计特征提取模块”组成,并通过所述“输出层”进行分类,并通过实验设计,将SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM作为对比试验进行对比分析,并通过与SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM等算法进行对比试验,分析本发明的优越性。

作为一种优选的实施方式,所述“Multi-Head Attention特征提取”公式为MultiHead(Q,K,V)=Concat(head1,...,headh)W0 headi=Attention(QWiQ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,所述“Multi-HeadAttention特征提取”中Attention的计算公式,Q,K,V分别为输入query、key、value向量,dk为向量的维度。

作为一种优选的实施方式,所述“BiLSTM-Attention的语义特征提取模块”通过“长短期记忆神经网络(LSTM)”进行语义特征的提取,所述“记忆神经网络(LSTM)”内部公式为输入门:it=σ(Wt·[ht-1,xt]+bi),遗忘门ft=σ(Wf·[ht-1,xt]+bf),c't=tanh(Wc·[ht-1,xt]+bc),输出门,Ot=σ(WO·[ht-1,xt]+b0),长记忆短记忆:ft遗忘网络状态的程度,it为忽略本时刻输入的程度,Ot为本时刻网络输出时忽略,ct为本时刻网络状态,ct-1为上一时刻网络状态,ct′为本时刻输入对网络状态的贡献,ht为本时刻网络的输出,ht-1为上一时刻网络的输出,xt为网络的输入。

作为一种优选的实施方式,所述LSTM最终输出的向量集合l为BiLSTM中隐藏层神经元的个数,m为专利文本的长度,代表第k时刻前向LSTM隐层输出的特征向量,代表第k时后向LSTM隐层输出的特征向量,BiLSTM网络k时刻最终的输出

作为一种优选的实施方式,Attention机制为BiLSTM每个时刻的输出分配权重,公式为SK=vtanh(Wshk+bs),o1=∑tatht,v、Ws是可由训练得到的注意力机制的参数矩阵,bs是tanh函数的偏置项,ak是k时刻输出的所占权重,01是经过加权后的语义特征提取层最终输出。

作为一种优选的实施方式,所述“CTF-IDF的统计特征提取模块”,通过定义CTF的词频,进而提取类别文件中关键词出现的次数,并通过IDF对为本中的关键词权重“VCTF-IDF”进行计算,所述“VCTF-IDF”的计算公式VCTF-IDF=VCTF×VIDF,Nik是该词在文件Dk中出现的次数,再进行关键词权重的统计,统计公式为o2={I1,I2,I3,…,I315},In为第n个关键词,出现则值为1,否则值为0,特征提取层最终输出O={o1,o2},其中提取模块的输出o1和统计特征提取模块的输出o2。

作为一种优选的实施方式,所述“输出层”由“全连接层加Softmax函数”组合而成,通过所述“全连接层加Softmax函数”将语义特征提取层中的输出和统计特征提取层的输出拼接作为本层的输入,Softmax函数为S=(WTx+b),Pi为文本类别i的概率,Si为第i个神经元内的数值,j为预测类别数,W为n×j的全连接权重矩阵,b为偏置项,x是特征提取层输出的向量。

作为一种优选的实施方式,所述实验设计与对比分析包括“实验环境”、“实验数据”、“试验参数”、“对比实验”、“实验结果与分析”。

作为一种优选的实施方式,所述“实验环境”采用TensorFlow作为Keras的后端,使用Keras对网络层、优化器、激活函数等进行调用。

作为一种优选的实施方式,所述“实验数据”采用IPC分类体系。

与现有技术相比,本发明的有益效果是:

通过BiLSTM算法和Attention机制提取专利文本语义特征,将提取的语义特征与本文改进型TF-IDF算法提取的文本统计特征进行融合,最后将文本的融合特征输入到Softmax分类器中得到分类结果,该算法可以有效地提升专利的分类效果。

图1为本发明模型结构示意图;

图2为本发明LSTM结构图;

图3为本发明BiLSTM模型结构图;

图4为本发明BERT结构示意图;

下面结合实施例对本发明做进一步的描述。

以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。

请参阅图1-4,本发明提供基于BERT-A-BiLSTM的多特征专利自动分类算法,基于BERT-A-BiLSTM的多特征专利自动分类算法,包括BERT-A-BiLSTM的多特征分类算法模型构建、实验设计与对比分析,其特征在于:所述BERT-A-BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,所述“文本向量化表示层”的输入数据中的字符映射为“字向量”,“段向量”,“位置向量”,三个向量输入Transformer编码器中,Transformer编码器由多个“注意力机制层(Multi-Head Attention)”、前馈神经网络层(Feed Forward)和“Layer Normalization层”连接而成,所述“Multi-Head Attention特征提取”公式为MultiHead(Q,K,V)=Concat(head1,...,headh)W0,headi=Attention(QWiQ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,所述“Multi-Head Attention特征提取”中Attention的计算公式,Q,K,V分别为输入query、key、value向量,dk为向量的维度,所述“文本特征提取层”由“BiLSTM-Attention的语义特征提取模块”和“CTF-IDF的统计特征提取模块”组成,并通过所述“输出层”进行分类,并通过实验设计,将SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM作为对比试验进行对比分析,所述“BiLSTM-Attention的语义特征提取模块”通过“长短期记忆神经网络(LSTM)”进行语义特征的提取,所述“长短期记忆神经网络(LSTM)”内部公式为输入门:it=σ(Wt·[ht-1,xt]+bi),遗忘门:ft=σ(Wf·[ht-1,xt]+bf),c't=tanh(Wc·[ht-1,xt]+bc),输出门,Ot=σ(WO·[ht-1,xt]+b0),长记忆:短记忆:ft遗忘网络状态的程度,it为忽略本时刻输入的程度,Ot为本时刻网络输出时忽略,ct为本时刻网络状态,ct-1为上一时刻网络状态,ct′为本时刻输入对网络状态的贡献,ht为本时刻网络的输出,ht-1为上一时刻网络的输出,xt为网络的输入,所述“文本特征提取层”由“BiLSTM-Attention的语义特征提取模块”和“CTF-IDF的统计特征提取模块”组成,并通过所述“输出层”进行分类,并通过实验设计,将SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM作为对比试验进行对比分析。

在本实施例中,BERT-A-BiLSTM的多特征分类算法模型构建包括“文本向量化表示层”、“文本特征提取层”、“输出层”,“文本向量化表示层”的数据中的字符映射为“字向量”,“段向量”,“位置向量”,三个向量输入Transformer编码器中,并通过“注意力机制层(Multi-Head Attention)”和“Layer Normalization层”进行连接,并通过“Multi-HeadAttention特征提取”进行特征提取,“文本特征提取层”由“BiLSTM-Attention的语义特征提取模块”和“CTF-IDF的统计特征提取模块”组成,并通过“输出层”进行特征提取的输出并通过实验设计与对比分析进行SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM作为对比试验。

其中,“Multi-Head Attention特征提取”公MultiHead(Q,K,V)=Concat(head1,...,headh)W0,headi=Attention(QWiQ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,“Multi-Head Attention特征提取”中Attention的计算公式,Q,K,V分别为输入query、key、value向量,dk为向量的维度,“Multi-Head Attention特征提取”减少维度来降低计算所消耗的资源。

其中,“BiLSTM-Attention的语义特征提取模块”通过“长短期记忆神经网络(LSTM)”进行语义特征的提取,“长短期记忆神经网络(LSTM)”内部公式为输入门:it=σ(Wt·[ht-1,xt]+bi),遗忘门:ft=σ(Wf·[ht-1,xt]+bf),c't=tanh(Wc·[ht-1,xt]+bc),输出门,Ot=σ(WO·[ht-1,xt]+b0),长记忆:短记忆:ft遗忘网络状态的程度,it为忽略本时刻输入的程度,Ot为本时刻网络输出时忽略,ct为本时刻网络状态,ct-1为上一时刻网络状态,ct′为本时刻输入对网络状态的贡献,ht为本时刻网络的输出,ht-1为上一时刻网络的输出,xt为网络的输入。

LSTM最终输出的向量集合l为BiLSTM中隐藏层神经元的个数,m为专利文本的长度,代表第k时刻前向LSTM隐层输出的特征向量,代表第k时后向LSTM隐层输出的特征向量,BiLSTM网络k时刻最终的输出

其中,Attention机制为BiLSTM每个时刻的输出分配权重,公式为SK=vtanh(Wshk+bs),o1=∑tatht,v、Ws是可由训练得到的注意力机制的参数矩阵,bs是tanh函数的偏置项,ak是k时刻输出的所占权重,01是经过加权后的语义特征提取层最终输出。

其中,“CTF-IDF的统计特征提取模块”,通过定义CTF的词频,进而提取类别文件中出现的次数,并通过IDF对为本中的关键词权重“VCTF-IDF”进行计算,“VCTF-IDF”的计算公式VCTF-IDF=VCTF×VIDF,Nik是该词在文件Dk中出现的次数,再进行关键词权重的统计,统计公式为o2={I1,I2,I3,…,I315},In为第n个关键词,出现则值为1,否则值为0,O={o1,o2},其中提取模块的输出o1和统计特征提取模块的输出o2。

其中,“输出层”由“全连接层加Softmax函数”组合而成,通过“全连接层加Softmax函数”将语义特征提取层中的输出和统计特征提取层的输出拼接作为本层的输入,Softmax函数为S=(WTx+b),Pi为文本类别i的概率,Si为第i个神经元内的数值,j为预测类别数,W为n×j的全连接权重矩阵,b为偏置项,x是特征提取层输出的向量。

其中,实验设计与对比分析包括“实验环境”、“实验数据”、“试验参数”、“对比实验”、“实验结果与分析”,通过“实验结果与分析”有效提高算法的稳定性。

其中,所述“实验环境”采用TensorFlow作为Keras的后端,使用Keras对网络层、优化器、激活函数等进行调用。

其中,“实验数据”采用IPC分类体系,通过IPC分类标准包括部、大类、小类、大组和小组五个等级,由部到小组,其内容划分越来越详细,专利之间的相似性也越来越高。

本发明的工作原理及使用流程:首先将文本数据通过BERT模型转化为深度神经网络可识别的向量形式,用BERT模型训练出来的词向量可以根据上下文的语境实现动态改变从而更好的完成下游的文本分类任务;其次将经过向量化的文本数据输入BiLSTM神经网络中,BiLSTM对序列化的文本数据信息从前后两个方向进行语义特征的提取,通过“注意力机制层(Multi-Head Attention)”和“Layer Normalization层”进行连接,并通过“Multi-Head Attention特征提取”进行特征提取,“文本特征提取层”由“BiLSTM-Attention的语义特征提取模块”和“CTF-IDF的统计特征提取模块”组成,并通过“输出层”进行特征提取的输出并通过实验设计与对比分析进行SVM、Word2vec-BiLSTM、BERT-BiLSTM、BERT、BERT-A-BiLSTM作为对比试验,最后将特征提取层的结果输入到Softmax分类层得到分类结果。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

本文发布于:2024-09-23 12:33:26,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69579.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议