211238323_基于预训练语言模型的中文专利自动分类研究

马  俊, 吕璐成, 赵亚娟, 等. 基于预训练语言模型的中文专利自动分类研究[J]. 中华医学图书情报杂志, 2022, 31(11): 20-28. DOI:10.3969/j.issn.1671-3982.2022.11.003
·研究与探讨·
基于预训练语言模型的中文专利自动分类研究
马  俊1,吕璐成2,赵亚娟2,李聪颖1
[摘要]目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类。方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的RoBERTa 模型(ZL -RoBERTa)和RoBERTa -wwm 模型(ZL -RoBERTa -wwm );将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型BERT、RoBERTa 进行对比分析。结果:基于ZL -RoBERTa 和ZL -RoBERTa -wwm 的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F 1值更为突出。结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础。
[关键词]中文专利;文本表示;预训练语言模型;文本分类
[中图分类号]G254.1;G306    [文献标志码]A    [文章编号]1671-3982(2022)11-0020-09
Research on automatic classification of Chinese patents based on pre-trained language models MA Jun 1
, LV Lu-cheng 2
, ZHAO Ya-juan 2
, LI Cong-ying 1
(1.Information Research Center of Military Sciences, Academy of Military Sciences, Beijing 100142, China; 2. National Science Library, Chinese Academy of Sciences, Beijing 100190, China) Corresponding author: LI Cong-ying
[Abstract ]Objective  To support the accurate automatic classification of large -scale Chinese patents, this paper explored the use of pre -trained language models that improved the text representation of Chinese patents to achieve automatic classification. Methods  Based on the Chinese RoBERTa model, the RoBERTa model (ZL -RoBERTa) and RoBERTa -wwm model (ZL -RoBERTa -wwm) for improving the Chinese Patent text representation are obtained by using the Masked Language Mode
l tasks of Single -word Masking strategy and Whole Word Masking strategy respectively for transfer learning on a large -scale Chinese invention patent corpus. The model was applied to the patent text classification tasks for experimental study and compared with typical deep learning models (Word2Vec+BiGRU+ATT+TextCNN) and current state -of -the -art pre -trained language models BERT and RoBERTa for analysis. Results  The classification Precision/Recall/F1 values of ZL -RoBERTa -based and ZL -RoBERTa -wwm -based Chinese patent automatic classification models were more outstanding on patent text classification tasks. Conclusion  The Chinese patent pre -trained language model with improved text representation is more effective for patent text classification,
which provides a model basis for the subsequent application of pre -trained language models in patent intelligence work.
[Key words ]Chinese patent; Text representation; Pre -trained language model; Text classification
[作者单位]1.军事科学院军事科学信息研究中心,北京 100142;
2.中国科学院文献情报中心,北京 100190
[作者简介]马  俊(1999-),男,硕士研究生,研究方向为文本挖掘。 [通讯作者]李聪颖(1979-),男,博士,硕士生导师,副研究员,研
究方向为数据分析。E -mail:********************
专利分类是专利管理和专利分析的重要内容。由于专利文献快速增长及分类分析需求多样化,人工分类很难满足情报加工的时效需求,如何实现快速、精准的专利自动分类成为专利情报研究中的重要问题。近年来,深度学习和迁移学习等人工智能技术发展迅速并在专利自动分类中得到广泛应用[1-3],为进一步优化专利自动分类效果提供了新的技术和方法手段。
文本表示是文本分类的重要环节,得益于预训练语言模型的文本表示能力,利用预训练语言模型解决专利情报研究问题的研究愈发受到关注[2,4]。预训练语言模型的文本表征能力受领域语料库的影响较大[5],而专利文本在结构与表达上具有一定程度的程式化、用词正式程度高、词语专业背景性强、频繁使用长句与紧缩句等特点,因此,国内外广泛开展了针对改进专利文本表示的预训练模型的研究,如谷歌采取迁移学习的思想,在长序列模型[6]基础上训练了英文专利预训练语言模型bigbird-pegasus-large-bigpatent。
面向大规模中文专利精准分类需求,本文针对中文专利文本的特点,制定专利文本的预训练策略,研究面向中文专利领域、改进中文专利文本表示的预训练语言模型,基于该预训练语言模型构建专利长
文本自动分类模型,并通过与BERT、RoBERTa-wwm-ext等目前应用广泛的中文预训练语言模型进行比较,证明在专利自动分类工作中应用改进专利文本表示的中文专利预训练语言模型能够提升分类任务的完成质量。
1 相关研究
国外对专利分类的自动化技术研究起步较早且相对成熟,国内在该领域的研究起步相对较晚,但随着机器学习技术在各领域的广泛应用,我国也开始重视专利自动化分类的研究,并取得了较大的进展[7]。专利自动分类研究主要通过对文本表示和分类模型算法的优化不断提高分类的准确性,本文对现有基于机器学习和深度学习的专利自动化分类研究进行了梳理。有学者基于词频(term frequency,TF)方法对全文前300个单词进行特征表示,并分别使用支持向量机(support vector machine,SVM)、朴素贝叶斯(naive Bayesian algorithm,NB)、K近邻(K-nearest neighbor,KNN)等算法模型对来自IPC中114个大类、451个小类的专利进行分类,分别在大类和小类层级上取得了73%和59%的分类准确率[8]。针对单一分类算法自身的局限性,有学者尝试使用多种模型组合的分类算法,并在专利自动化分类中取得了不错的分类结果[9-12]。
文本表示是专利自动分类中的一个重要环节,词向量质量对专利自动分类的准确性影响较大,一些学者着手改进特征的准确表示进而提升专利分类的效果。如有学者使用引入类间分散度加权因子和位置
权重因子的改进型TF-IDF算法计算特征向量[13]。随着深度学习的发展,文本表示技术也开始向动态词嵌入技术发展,有学者基于Word2Vec 词向量嵌入技术和卷积神经网络(convolutional neural network,CNN)模型构建了专利分类模型DeepPatent,仅利用标题和摘要信息在专利分类基准数据集CLEF-IP 2011上实现了83.98%的分类精度,成为性能最优的专利分类器[1];还有学者基于此模型对专利的标题和摘要进行文本表示[3]。
随着预训练语言模型的出现,基于预训练模型的专利文本表示方法提高了专利自动分类任务的效率。国外学者利用预训练模型BERT在专利数据集上进行微调,构建了专利分类模型PatentBERT,与DeepPatent对比实验显示,整体效果更优[2]。国内学者也在专利自动分类中使用BERT模型进行专利文本表示[14-16],还有学者选择BERT、RoBERTa 和RBT3预训练语言模型进行多标签专利分类任务,并进行了模型对比[4,17]。专利文本表示技术的先进性在不断进步,从以Word2Vec模型[18-19]和GloVe模型为代表的静态词嵌入技术获取的词向量,到以ELMo[20]、GPT[21]、BERT等预训练语言模型为代表的动态词嵌入技术获得的具有丰富语义信息的高质量词向量,预训练语言模型已成为研究者获取高质量词向量的首选[22],且对后续专利分类的结果具有重要影响。分类算法通过将专利文本的词向量在隐藏空间上进行特征变换和学习并最终映射到类别空间上,该算法由基于机器学习模型的方法向基于深度神经网络的方法发展,但当前大多算法模型是堆叠神经网络的功能模块,使模型结构的复杂度和参数量在不断增
大,同时降低了模型的泛化能力。
在专利自动分类研究中,标题与摘要的文本信息是模型分类时进行学习的主要知识来源,当前以BERT 模型及其变种RoBERTa 模型为代表的预训练语言模型能够获得更准确的文本表示,成为解决专利文本精准自动分类问题并取得更优效果的大趋势。处理英文专利时大多采用BERT 模型,而在处理中文专利时采用中文RoBERTa 模型会有更好的表现。由于预训练语言模型往往具有一定的领域限制性,这使越来越多的研究人员开展面向特定领域任务的预训练语言模型的研究,构建专用的预训练语言模型来改善语言模型在特定领域的文本表示准确性。如谷歌面向英文专利科技情报的分析需求,利用迁移学习的思想,在bigbird 模型[6]
的基础上继续在130万条美国专利文档数据集
[23]
上进
行训练,得到了英文专利预训练语言模型bigbird - pegasus -large -bigpatent。除了专利科技情报领域外,生物医学等其他领域也有研究人员在BERT 模型基础上构建了面向特定领域任务的预训练语言模型
[24-25]
。在中文领域,有学者
[26]
在BERT 和RoBERTa
预训练语言模型基础上,通过《四库全书》全文语料库进行古文领域再训练,分别得到SikuBERT 和
SikuRoBERTa 预训练语言模型,并在《左传》文本挖掘任务
[27]
上对比发现基于RoBERTa 模型迁移
得到的SikuRoBERTa 模型具有更好的效果。但在中文专利领域尚无针对文本表示改进的相关研究,因此本文设计和构建中文专利领域的预训练语言模型并将其应用到专利文本分类任务上。 2  基于预训练语言模型的中文专利分类方法 2.1  方法设计
基于预训练语言模型的专利分类分为3个阶段。第一阶段为语言模型的预训练,该阶段基于chinese -ro
berta -wwm -ext 这一预训练语言模型(以下称“中文RoBERTa 模型”)在大规模语料上预训练得到面向中文专利的预训练语言模型ZL -RoBERTa -wwm 和ZL -RoBERTa,旨在改进中文专利的文本表示;第二阶段为专利分类模型的构建与微调,在上一阶段的专利预训练语言模型基础上构建特定分类任务的专利分类模型并在数据集上进行微调,最终得到最优的中文专利自动分类模型;第三阶段为分类模型效果评估,在数据集上通过精准率/召回率/F
1值3个指标对本文模型的自动分类表现进行评估,对应本文的实验环节。基本设计框架如图1
所示。
图1  基于预训练语言模型的专利分类方法设计框架
2.2  中文专利语言模型的预训练
在语言模型的预训练阶段,本文未采用传统预
训练的方法,而采用了迁移学习的思想,考虑到RoBERTa 模型在中文领域表现更优
[4,14,26]
选用中
文RoBERTa模型作为基础模型,利用语言模型的预训练任务在中文专利领域的语料库上进行领域知识的学习,进而提升中文专利文本表示的准确性。
2.2.1 基础模型
选择中文RoBERTa模型作为本文中文专利语言模型的源模型,该模型为BERT模型的衍生和优化模型,是基于BERT模型在中文百科等更大规模的中文语料库上训练得到的,因此,其模型结构与BERT模型一致。模型采用“roberta”命名而非“bert”,是因为其采用了RoBERTa模型的预训练策略,即预训练任务仅使用遮盖语言模型(masked language model,MLM)任务,取消了下一句预测(next sentence prediction,NSP)任务。此外,模型名中的“ext”代表该模型较BERT模型采用了扩大规模后的中文语料库,“wwm”代表它在MLM任务中采用全词遮盖策略(whole word masking,wwm)。
2.2.2 中文专利语料库
对预训练阶段语料库的选择,考虑到不同专利类型之间的文本特征与模型的输入限制,本文选择了发明专利的摘要文本作为语料。选择国家知识产权局专利库中1985-2021年的所有中文发明专利申请和发明授权专利的摘要字段文本构建预训练语料库。经过数据清洗后,最终得到共计1300万余条中文专
利文本的语料库。绝大多数的专利文本的长度在512个字符以内,因此在预训练阶段将模型最大输入长度设置为512个字符可以较完整地保留文本原始信息。
2.2.3 语言模型的训练任务
选择MLM模型任务作为中文专利预训练语言模型的训练任务,通过遮盖文本中的部分词并让模型预测这些遮盖词的任务形式来训练模型的文本语义建模能力。根据遮盖的策略不同分为单字遮盖的MLM任务和全词遮盖的MLM任务。
单字遮盖的MLM任务:模型首先按字粒度进行分词,随后从字序列中选择15%的字遮盖,然后对遮盖的每一个字以80%的概率替换为“[MASK]”标记,以10%的概率替换为其他随机字,以10%的概率保留不变。最后,模型对所有遮盖字进行预测,通过交叉熵损失函数将预测表示与原始词表示进行比较。
全词遮盖的MLM任务:引入wwm策略的MLM 任务是在普通MLM任务基础上改变了模型单次遮盖的范围,由单字到一个全词。首先使用中文语言技术平台(language technology platform,LTP)[28]对原始句子进行中文词分割得到词序列,再与模型初始单字分词得到的中文字序列进行比较分析,得到从字到词的对应归属关系。随后在MLM任务中进行全词遮盖,即在选择15%的字作为遮盖对象时,将遮盖字对应词的所有字作为遮盖对象,随后对每一个选中的字进行“[MASK]”替换、随机字替换或
保留不变的操作。
MLM任务中对模型原始输入的初始分词、中文词分割、单字遮盖的MLM任务及全词遮盖的MLM 任务等不同操作的结果样例如表1所示,其中,初始分词结果中黑加粗的字代表被选中的遮盖词,样例中的[MASK]代表广义的遮盖操作,即以不同概率被[MASK]标识遮盖、保留不变和随机替换,而并仅限于替换成“[MASK]”标识的情况。
表1  不同形式的MLM任务输入样例
说明 输入样例
原始输入 使用语言模型来预测下一个词的probability
初始分词 使 用 语 言 模型 来 预测 下 一 个 词 的 pro ##babi ##lity
中文词分割 使用 语言 模型 来 预测 下 一个 词 的 probability
单字遮盖MLM任务 使 用 语 言 [MASK]型 来 [MASK]测 下 一 个 词 的 pro [MASK]##lity
全词遮盖MLM任务 使 用 语 言 [MASK][MASK]来 [MASK][MASK]下 一 个 词 的 [MASK][MASK][MASK]
由于全词遮盖策略的任务对分词的质量要求较高,对不恰当分词的预测训练任务并不科学,而专利术语具有自动分词难的特点,因此本文分别使用这两种遮盖策略的MLM任务对语言模型进行训练,得到两个版本的中文专利语言模型ZL-RoBERTa和ZL-RoBERTa-wwm,其中ZL-RoBERTa模型采用的是未使用wwm策略的单字遮盖MLM任务,而ZL-RoBERTa- wwm模型采用的是使用wwm策略的MLM任务。
2.2.4 中文专利语言模型的训练设置
在训练过程中,按照BERT模型的训练建议,在
现有的模型基础上进行领域再预训练需采用较小的学习率,并将学习率设为3e -5。选择AdamW 作为本文中文专利预训练语言模型训练的优化器,并训练4个epoch。此外,根据上文对摘要文本长度的分析结果,嵌入和保留专利的完整信息,在预训练阶段将模型最大输入长度设置为模型最大限制(512)。最终,本文的中文预训练语言模型在Tesla v100s 32G*3上训
练所用的时间约为12天,并将训练完成的两个版本的中文专利预训练语言模型开源供学者研究使用[29]
2.3  专利分类模型的构建与微调
在中文专利预训练语言模型的基础上,增加池化层与分类层构建中文专利自动分类模型,并将模型在分类任务上进行微调,最终实现专利文本的自动分类。模型结构如图2所示。
图2  基于预训练语言模型的专利分类模型结构
嵌入层的功能是将模型输入的离散编码表示经过编码嵌入、嵌入融合、层标准化和随机失活4个过程,最终转换成连续分布式表示(图3)。标记器基于规则为每个模型输入的文本序列中的每个标记(token)赋予标记编码、位置编码和句子位置编码。这3种整数编码经过查表取出对应H 维的分布式向量,并将这3种类型的向量加和得到融合后的词嵌入向量,其中H 为模型隐藏层维度。接下来,层标准化是沿序列中的标记维度,对每个标记的H 维词嵌入进行标准化操作;而随机失活是将标准化向量中的每个元素以50%的概率变为0,以达到数据增强的目的。最终嵌入层输出的分布式嵌入向量作为输入序列的初始词嵌入E 0,并
在随后的编码层对其进行优化学习。
图3  嵌入层结构
编码层的作用是对嵌入层输出的隐状态进行非线性表示,优化特征表示。编码层由12个结构

本文发布于:2024-09-22 14:20:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/745067.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   专利   分类   训练   文本   语言   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议