一种融合预训练模型的文本摘要自动生成方法及系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202110088451.5
(22)申请日 2021.01.22
(71)申请人 重庆邮电大学
地址 400065 重庆市南岸区黄桷垭崇文路2
(72)发明人 邓维斌 李云波 胡峰 王崇宇 
朱坤 彭露 
(74)专利代理机构 北京同恒源知识产权代理有
限公司 11275
代理人 杨柳岸
(51)Int.Cl.
G06F  16/34(2019.01)
G06F  16/335(2019.01)
G06F  40/126(2020.01)
G06F  40/284(2020.01)
G06N  3/04(2006.01)G06N  3/08(2006.01)
(54)发明名称一种融合预训练模型文本摘要自动生成方法及系统(57)摘要本发明涉及一种融合预训练模型的文本摘要自动生成方法及系统,属于文本摘要自动生成技术领域。该系统在传统Sequence ‑to ‑Sequence 模型和Transformer框架的基础上,使用BERT作为编码器来获取原始文本的上下文语义特征,同时加入卷积神经网络作为门控,对特征向量进行关键词和关键短语的筛选。在解码器阶段使用Transformer  Decoder的基础上,增加了指针机制,使得摘要生成模型能够更好地解决生成过程中遇到的词汇不足OOV问题,从而提高生成摘要的可读性,最后生成阶段采用beam  search的方
法生成最好的摘要法律文本。权利要求书3页  说明书7页  附图1页CN 112765345 A 2021.05.07
C N  112765345
A
1.一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述方法包括以下步骤:
S1、获取法律文本数据集,构建法律文本的训练数据集合T并对数据集进行预处理;
S2、对法律文本进行语句的筛选;
S3、将训练集利用预训练模型BERT自带的字表进行分字并编码为向量,得到网络的输入序列;
S4、用预训练模型BERT作为编码器,使用卷积神经网络构建门控单元,对预训练模型BERT的输出进行关键短语的筛选;使用Transformer的Decoder部分和指针生成网络作为模型的编码器;
S5、将测试文本分字并编码后,放入已经训练好的网络模型,使用Beam Search算法进行摘要生成,最终得到法律文书摘要结果。
2.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述步骤S 1中预处理包括提取文本信息,清除特殊字符,将数据集以summarization‑article的数据对形式整理并切分为训练集和测试集。
3.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述步骤S2具体为:使用正则表达式的方式对法律文本进行语句的筛选,筛选包含有关键信息的句子,过滤对于摘要没有贡献的句子。
4.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述步骤S3具体为:
S31、将训练集文本S分字处理得到词组S
1、S
2
...S
m
,S
i
表示输入文本的第i个字,m表示S
的长度,若m小于网络最大输入长度512,则使用特殊字符‘PAD’填补至最大长度;若m大于最大输入长度512,则截去多余的字符;
S32、根据词组中每个词S
i 在词典D中的行数得到字符编码E
token
,并拼接在一起的字符
编码E
position ,然后按照Transformer的处理方式分别得到句子编码向量E
sentence
和相对位置
编码向量E
position ,最后通过求和得到最终的输入向量E
s
为:
字符编码为:
句子编码向量为:
相对位置编码向量为:
S33、将E
s
输入网络,并使用交叉熵损失函数训练网络。
5.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于,所述步骤S4具体为:
S41、搭建编码器网络预训练模型BERT,设定网络的最大输入长度为512字符,并使用公开的预训练权重初始化预训练模型BERT,下载BERT‑chinese‑wwm作为预训练语料;
S42、卷积门控单元包括一个inception结构的CNN和self‑attention机制,用于解决模
型生成的摘要会出现字词重复、语义不对应、语法错误和不能反映原文本的主要内容;
S43、利用12层Transformer  Decoder模块作为模型的解码器,设定Transformer的最大输出长度为130字符;
S44、使用改进的基于RNN的指针生成器,作为本次模型的生成器。
6.根据权利要求5所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于,所述步骤S42具体为:
(1)CNN使用inception的结构,卷积核的参数共享使模型能够提取某些类型的特征,与图像局部特征相似,文本信息也有局部或者n ‑gram的特征;
CNN提取句子中的这些共同特征,或者文本的上下文语义关系;模型使用1核,3核和5核分别提取1‑gram、3‑gram和5‑gram的特征,并把三个特征拼接起来或者最终的特征;
(2)在卷积模块的输出部分,加入self ‑attention,
使得模型能够进一步学习每一个时间步的token与其它时间步的token的关系,为了减少计算量,使用点乘的方式去表示每个时间步的信息和全局信息之间的关联:
其中Q和V是CNN的输出,K=W att V,其中W att 是一个可学习的参数矩阵;
(3)CNN和self ‑attention机制共同组合成卷积门控单元g,在每个时间步骤的g i :
g i =ReLU(W[h i ‑k/2,...,h i+k/2]+b)
其中,ReLU是指线性整流函数,先调用CNN做局部特征信息的提取,和使用ReLU函数生成一个新的输出结果,然后调用self ‑attention机制获取全局的相关性,将它们的输出结果用矩阵表示,再调用Sigmoid函数设置为一个门控,门控的值在0到1之间,0表示移除信息,1表示保留信息。
7.根据权利要求5所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于,所述步骤S44具体为:
指针生成器是基于RNN的结构设计,所以生成概率p gen 、RNN的解码器中的隐藏状态s t 和上下文语义向量与解码器的输入y t 有关:
其中,
和标量b gen 均为学习的参数,σ函数时Sigmoid函数;由于RNN与预训练模型BERT和transformer的结构不相同,将编码器的输出结果作为语义向量解码器的输出结果作为隐藏状态s t ;
复制机制将上下文向量、当前时刻解码器状态和当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用Sigmoid函数获得生成单词来源的开关p gen ,0<p gen <1,将p gen 与词汇标概率分布相乘,(1‑p gen )与注意力分布相乘,并将两个相乘的结果相加到最终的词汇表概率分布:
根据最终词汇表概率分布使用beam  search在每一时刻输出若干概率较高的字,并将这些字作为输入,使得解码器生成下一刻的字,直到生成结束字符<SEP>或者达到最大限
制摘要文本长度;模型生成摘要结束后,从候选的句子中选择质量最高的句子作为最终生成摘要。
8.基于权利要求1~7中任意一项所述方法的基于预训练模型的文本摘要自动生成系统,其特征在于,所述系统包括数据集构建与预处理模块、基于正则表达式的句子抽取模块、网络输入模块、融合预训练模型的文本摘要网络模块和测试文本自动生成摘要模块;
该数据集构建与预处理模块与基于正则表达式的句子抽取模块信号连接;
该基于正则表达式的句子抽取模块与网络输入模块信号连接;
该网络输入模块与融合预训练模型的文本摘要网络模块信号连接;
该融合预训练模型的文本摘要网络模块与测试文本自动生成摘要模块信号连接。
一种融合预训练模型的文本摘要自动生成方法及系统
[0001]本发明属于文本摘要自动生成技术领域,涉及一种融合预训练模型的文本摘要自动生成方法及系统。
背景技术
[0002]随着互联网上大量的文本内容,新闻,论文,法律文件等各种文档以指数形式增长,自动文本摘要变得越来越重要。人工摘要需要耗费大量的时间、精力和成本,在文本内容庞大的情况下变得不切实际,因此,对各类文本进行一个“降维”处理显得非常必要。
[0003]文本摘要是自然语言处理以及自然语言生成的重要任务,其目的是使用抽取或生成的方式获取给
定文档的简短版本,同时保留给定文档的显著信息。当前的自动摘要方法要么是抽取式的、生成式的,要么是混合的。抽取摘要方法选择输入文档中最重要的句子,然后将它们连接起来形成摘要。生成式摘要方法通过编码器分析文本语义,然后使用解码器生成能够表达文本中心思想的摘要。混合摘要方法结合了抽取式方法和生成式方法。尽管已经存在各种方法,但生成的摘要仍然离人工书写的摘要相距甚远。目前抽取式摘要方法技术比较成熟,也在业界被方法的使用,抽取的摘要文本在语法、句法、流畅性和保存更加完整的原始信息上有一定保证。但是,在句子之间的流畅性和文本的冗余信息还存在不足。
[0004]随着大规模数据集的出现,计算机硬件新能的提升,同时,深度学习的研究发展,生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型,它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的R N N (Recurrent  Neural  Network)或者CNN(Convolutional  Neural  Network)组成,负责把原文编码为一个向量;解码器负责从这个向量中提取信息,获取语义并生成文本摘要。但是由于长距离依赖问题的存在,基于RNN或者CNN的生成式模型往往很难处理长文本摘要。
[0005]2018年,预训练模型BERT(Bidirectional  Encoder  Representations  from  Transformers)横空出世,并横扫了各种自然语言理解任务中的排行榜。BERT基于Transformer模型构建,有着Transformer模型在于可以学习文本中长距离依赖关系和全局语义信息的优点,同时通过预训练加微调,在语义理解
方面达到更优。
发明内容
[0006]有鉴于此,本发明的目的在于提供一种融合预训练模型的文本摘要自动生成方法及系统,该系统获取成对的文本和摘要数据,构建训练集,使用BERT自带的词表构建序列token,用预训练BERT作为编码器,使用卷积神经网络构建卷积门控单元,对BERT的输出进行关键短语的筛选,使用Transformer的Decoder作为预训练文本摘要自动生成模型的编码器,同时,加入指针机制和beam  search算法生成最优摘要结果。
[0007]为达到上述目的,本发明提供如下技术方案:
[0008]一种融合预训练模型的文本摘要自动生成方法及系统,其特征在于:该方法包括以下步骤:
说 明 书1/7页CN 112765345 A

本文发布于:2024-09-20 15:28:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/786713.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:摘要   文本   生成   模型   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议