一种中文摘要的生成及预警方法、系统、设备及介质



1.本发明涉及摘要生成技术领域,尤其涉及一种中文摘要的生成及预警方法、系统、设备及介质。


背景技术:



2.利用神经网络在摘要生成领域越来越成为主流技术,其优势为模型可以自动化生成摘要,例如gpt-2模型能够用于摘要的生成,gpt-2模型是一种与transformer解码器非常类似的架构,不过gpt-2是一个巨大的、基于transformer的语言模型,虽然与bart等模型生成的摘要相比,其摘要质量相差无几,但是生成摘要的速度却比其它模型更快,这在实际应用中是很重要的。
3.但gpt-2模型生成的摘要通常表现不如人工总结的摘要质量高,并且摘要中会包含一些敏感信息。


技术实现要素:



4.为了克服gpt-2模型生成的摘要通常表现不如人工总结的摘要质量高,并且摘要中会包含一些敏感信息的问题,本发明提供了一种中文摘要的生成及预警方法、系统、设备及介质。
5.第一方面,为了解决上述技术问题,本发明提供了一种中文摘要的生成及预警方法,包括以下步骤:
6.获取第一中文文本;
7.将第一中文文本输入gpt-2模型,通过gpt-2模型,确定第一中文文本对应的第一摘要,以及第一摘要对应的第一类别,第一类别表征了第一摘要的主题;
8.根据第一类别,确定预警信息,预警信息表征了第二摘要是否包含敏感信息;
9.其中,上述gpt-2模型是通过以下方式训练得到的:
10.s11,获取多个第二中文文本,以及第二中文文本对应的第二摘要;
11.s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的第一预测摘要,以及各个第一预测摘要对应的第二类别,对于每个第二类别,第二类别表征了第一预测摘要的主题;
12.s13,对于每个第一预测摘要,根据第一预测摘要,确定第一预测摘要中的各个第一关键词,对于每个第一关键词,第一关键词为与第一预测摘要中各个词语具有关联程度的词语;
13.s14,对于每个第一预测摘要,将各个第一关键词组成第三中文文本;
14.s15,将各个第三中文文本输入初始模型,对初始模型进行训练,确定第三中文文本对应的第二预测摘要,以及第二预测摘要对应的第三类别,第三类别表征了第二预测摘要的主题;
15.s16,根据各个第二预测摘要和各个第二摘要,确定初始模型的损失值,损失值表
征了各个第二预测摘要和各个第二摘要之间的差异;
16.s17,若损失值满足预设结束条件,将满足预设结束条件时的初始模型作为gpt-2模型,若损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
17.本发明提供的一种中文摘要的生成及预警方法的有益效果是:通过gpt-2模型,得到第一中文文本对应的第一摘要,以及第一摘要对应的第一类别,并根据第一类别确定预警信息,根据预警信息对第一摘要是否存在敏感信息进行判断,而gpt-2模型在训练时,从生成的第一预测摘要中提取出各个第一关键词,并将各个第一关键词组成第三中文文本再次对初始模型进行训练,由于第一预测摘要的质量较低,各个第一关键词均为第一预测摘要中具有代表性的词语(第一关键词与第一预测摘要中的各个词语具有关联程度),因此,根据第三中文文本生成的第二预测摘要包含了低质量的第一预测摘要的各类问题,此时,根据第二预测摘要和第二摘要构建初始模型的损失值,使得模型能够更好的学习低质量摘要与高质量摘要之间的差异,提高gpt-2模型生成的摘要的质量。
18.在上述技术方案的基础上,本发明的一种中文摘要的生成及预警方法还可以做如下改进。
19.进一步,上述方法中对于每个第一预测摘要,根据第一预测摘要,确定第一预测摘要中的各个第一关键词,包括:
20.s21,对于每个第一预测摘要,提取第一预测摘要中的各个词语;
21.s22,对于每个第一预测摘要,根据各个词语和预设词性,确定各个目标词语,对于每个目标词语,目标词语为各个词语中满足预设词性的词语;
22.s23,对于每个第一预测摘要,构建候选关键词图,候选关键词图中包含了多个顶点、多个边缘点和各个顶点与各个边缘点之间的边,多个顶点形成顶点集,多个边缘点形成边缘集;
23.其中,对于每个顶点,顶点表征了一个目标词语,对于每个边缘点,边缘点表征了除顶点表征的目标词语之外的目标词语,对于每个边,边表征了该边对应的顶点和边缘点之间的语法关系;
24.s24,对于每个第一预测摘要,根据顶点集、边缘集和各个边,确定每个顶点对应的分数,对于每个分数,分数表征了顶点对应的目标词语与顶点对应的边缘集中各个边缘点的关联程度的得分之和;
25.s25,对于每个第一预测摘要,将各个分数从小到大进行排序,从最大的分数开始,依次向前选择预设数量的分数作为目标分数,将各个目标分数对应的目标词语作为第一关键词。
26.采用上述进一步方案的有益效果是:通过构建候选关键词图,能够明确顶点与边缘点之间的关系,从而确定顶点对应的目标词语与顶点对应的边缘集中各个边缘点的关联程度,并根据关联程度(顶点对应的分数)从目标词语中选出第一关键词。
27.进一步,上述方法中对于每个第一预测摘要,根据顶点集、边缘集和各个边,确定每个顶点对应的分数,包括:
28.对于每个第一预测摘要,根据顶点集、边缘集和各个边,通过第一公式,确定每个顶点对应的分数,其中,第一公式为:
[0029][0030]
其中,ws(vi)表示第i个顶点对应的分数,d表示阻尼因子,out(vj)表示顶点集,in(vi)表示边缘集,vi表示第i个顶点,vj表示第j个边缘点,vk表示第i个顶点和第j个边缘点之间的边,w
jk
表示vk对应的预设权重,ws(vj)表示第j个边缘点与第i个顶点对应的分数。
[0031]
采用上述进一步方案的有益效果是:通过第一公式,确定每个顶点对应的分数,从而确定顶点对应的目标词语与顶点对应的边缘集中各个边缘点的关联程度。
[0032]
进一步,该方法还包括:
[0033]
对于每个第一预测摘要,根据各个第一关键词,确定各个第一关键词中的第二关键词,对于每个第二关键词,第二关键词为通过gpt-2模型在第二中文文本中不能查询到的词语;
[0034]
对于每个第一预测摘要,将各个第二关键词输入指针生成网络,通过指针生成网络,确定每个第二关键词对应的第三关键词,对于每个第三关键词,第三关键词为通过gpt-2模型在第二中文文本中查询到的词语;
[0035]
对于每个第一预测摘要,将各个第一关键词组成第三中文文本,包括:
[0036]
对于每个第一预测摘要,将除第三关键词之外的各个第二关键词和各个第三关键词组成第三中文文本。
[0037]
采用上述进一步方案的有益效果是:由于确定的第二关键词通过gpt-2模型在第二中文文本中可能查询不到,因此,通过指针生成网络将第二关键词替换为第三关键词,以便gpt-2模型能够在第二中文文本中查询到第三关键词,从而生成相应的摘要。
[0038]
进一步,上述方法中对于每个第一预测摘要,将各个第二关键词输入指针生成网络,通过指针生成网络,确定每个第二关键词对应的第三关键词,包括:
[0039]
s31,将第二中文文本中的所有词语结合词典形成扩展词典;
[0040]
s32,对于每个第一预测摘要,根据各个第二关键词,通过第二公式,确定各个第二关键词在扩展词典中查询到的概率,其中,第二公式为:
[0041][0042]
其中,p
vocab
表示第二关键词在扩展词典上的概率,v

,v,b,b

表示预设的第一网络参数,表示第一中文文本对应的向量,s
t
表示指针生成网络中解码器的隐状态;
[0043]
s33,对于每个第一预测摘要,根据各个第二关键词在扩展词典上的概率,通过第三公式,确定各个第二关键词在第二中文文本中的概率分布,其中,第三公式为:
[0044][0045][0046]
其中,p(w)表示概率分布,t表示时刻,w表示所有第二关键词的集合,wi表示第i个第二关键词,表示在第i个t时刻时获取第i个第二关键词对应的注意力分数,p
gen
表示每隔t时刻,将扩展词典的任意一个词语映射到(0,1)上的数值,b
ptr
表示预设的
第二网络参数,σ()为sigmoid函数,x
t
表示扩展词典中的第t个词语;
[0047]
s34,对于每个第一预测摘要,根据每个第二关键词,以及第二关键词对应的概率分布,确定第二关键词在第二中文文本中的位置,并将位置处的词语作为第三关键词。
[0048]
采用上述进一步方案的有益效果是:由于第三关键词为第二中文文本中的词语,且位置是根据第二关键词在第二中文文本中的概率分布确定的,因此,第三关键词可以是能够通过gpt-2模型在第二中文文本中进行查询。
[0049]
第二方面,本发明提供了一种中文摘要的生成及预警系统,包括:
[0050]
第一获取模块,用于获取第一中文文本;
[0051]
第二获取模块,用于将第一中文文本输入gpt-2模型,通过gpt-2模型,确定第一中文文本对应的第一摘要,以及第一摘要对应的第一类别,第一类别表征了第一摘要的主题;
[0052]
预警模块,用于根据第一类别,确定预警信息,预警信息表征了第二摘要是否包含敏感信息;
[0053]
其中,在第二获取单元中,gpt-2模型是通过第一单元训练得到的,第一单元,具体用于:
[0054]
s11,获取多个第二中文文本,以及第二中文文本对应的第二摘要;
[0055]
s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的第一预测摘要,以及各个第一预测摘要对应的第二类别,对于每个第二类别,第二类别表征了第一预测摘要的主题;
[0056]
s13,对于每个第一预测摘要,根据第一预测摘要,确定第一预测摘要中的各个第一关键词,对于每个第一关键词,第一关键词为与第一预测摘要中各个词语具有关联程度的词语;
[0057]
s14,对于每个第一预测摘要,将各个第一关键词组成第三中文文本;
[0058]
s15,将各个第三中文文本输入初始模型,对初始模型进行训练,确定第三中文文本对应的第二预测摘要,以及第二预测摘要对应的第三类别,第三类别表征了第二预测摘要的主题;
[0059]
s16,根据各个第二预测摘要和各个第二摘要,确定初始模型的损失值,损失值表征了各个第二预测摘要和各个第二摘要之间的差异;
[0060]
s17,若损失值满足预设结束条件,将满足预设结束条件时的初始模型作为gpt-2模型,若损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
[0061]
第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的程序,处理器执行程序时实现如上述的一种中文摘要的生成及预警方法的步骤。
[0062]
第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端设备上运行时,使得终端设备执行如上述的一种中文摘要的生成及预警方法的步骤。
附图说明
[0063]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面结合附图和实施
例对本发明作进一步说明。
[0064]
图1为本发明实施例的一种中文摘要的生成及预警方法的流程示意图;
[0065]
图2为本发明实施例的一种中文摘要的生成及预警系统的结构示意图。
具体实施方式
[0066]
下列实施例是对本发明的进一步解释和补充,对本发明不构成任何限制。
[0067]
以下结合附图描述本发明实施例的一种中文摘要的生成及预警方法、系统、设备及介质。
[0068]
如图1所示,本发明实施例的一种中文摘要的生成及预警方法,包括以下步骤:
[0069]
获取第一中文文本;
[0070]
将第一中文文本输入gpt-2模型,通过gpt-2模型,确定第一中文文本对应的第一摘要,以及第一摘要对应的第一类别,第一类别表征了第一摘要的主题;
[0071]
根据第一类别,确定预警信息,预警信息表征了第二摘要是否包含敏感信息。
[0072]
可选的,预警信息主要是通过第一类别的分类判断第二摘要是否包含敏感信息,例如,第一类别的分类为敏感问题的相关主题,则判断第二摘要包含了敏感信息。
[0073]
可选的,gpt-2模型是通过以下方式训练得到的:
[0074]
s11,获取多个第二中文文本,以及第二中文文本对应的第二摘要。
[0075]
本实施例中,第二摘要为第二中文文本对应的参考摘要,该参考摘要为人工总结的高质量摘要。
[0076]
s12,根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的第一预测摘要,以及各个第一预测摘要对应的第二类别,对于每个第二类别,第二类别表征了第一预测摘要的主题。
[0077]
s13,对于每个第一预测摘要,根据第一预测摘要,确定第一预测摘要中的各个第一关键词,对于每个第一关键词,第一关键词为与第一预测摘要中各个词语具有关联程度的词语。
[0078]
可选的,对于每个第一预测摘要,根据第一预测摘要,确定第一预测摘要中的各个第一关键词,包括:
[0079]
s21,对于每个第一预测摘要,提取第一预测摘要中的各个词语;
[0080]
s22,对于每个第一预测摘要,根据各个词语和预设词性,确定各个目标词语,对于每个目标词语,目标词语为各个词语中满足预设词性的词语;
[0081]
s23,对于每个第一预测摘要,构建候选关键词图,候选关键词图中包含了多个顶点、多个边缘点和各个顶点与各个边缘点之间的边,多个顶点形成顶点集,多个边缘点形成边缘集;
[0082]
其中,对于每个顶点,顶点表征了一个目标词语,对于每个边缘点,边缘点表征了除顶点表征的目标词语之外的目标词语,对于每个边,边表征了该边对应的顶点和边缘点之间的语法关系;
[0083]
s24,对于每个第一预测摘要,根据顶点集、边缘集和各个边,确定每个顶点对应的分数,对于每个分数,分数表征了顶点对应的目标词语与顶点对应的边缘集中各个边缘点的关联程度的得分之和;
[0084]
s25,对于每个第一预测摘要,将各个分数从小到大进行排序,从最大的分数开始,依次向前选择预设数量的分数作为目标分数,将各个目标分数对应的目标词语作为第一关键词。
[0085]
可选的,第一预测摘要中并非每个词都为具有代表性的词,例如,一些形容词,该形容词即使删除,也不影响摘要的整体内容,仅需将该形容词修饰的对象作为目标词语即可,因此,该类形容词为第一预测摘要中不具有代表性的词,基于此,需要提前对预设词性进行设置,从而将满足预设词性的词语筛选出来,作为目标词语。
[0086]
可选的,对于候选关键词图,能够明确的表明顶点与边缘点之间的语法关系,例如,顶点对应的词语为a,边缘点对应的词语为b,则a和b之间的边就对应了a和b之间的语法关系,而该语法关系可以根据现有技术中的lip平台进行依存关系分析,融入语义特征,得到a的词性与b的词性之间的关系。
[0087]
可选的,对于每个第一预测摘要,根据顶点集、边缘集和各个边,确定每个顶点对应的分数,例如顶点集中包含了词语a、词语b和词语c,当词语a作为顶点时,边缘集包含了词语b和词语c,则词语a对应的分数即为词语a与词语b之间的关联程度的得分加上词语a与词语c之间的关联程度的得分之和。
[0088]
可选的,预设数量根据实际情况进行选择。
[0089]
可选的,对于每个第一预测摘要,根据顶点集、边缘集和各个边,确定每个顶点对应的分数,包括:
[0090]
对于每个第一预测摘要,根据顶点集、边缘集和各个边,通过第一公式,确定每个顶点对应的分数,其中,第一公式为:
[0091][0092]
其中,ws(vi)表示第i个顶点对应的分数,d表示阻尼因子,out(vj)表示顶点集,in(vi)表示边缘集,vi表示第i个顶点,vj表示第j个边缘点,vk表示第i个顶点和第j个边缘点之间的边,w
jk
表示vk对应的预设权重,ws(vj)表示第j个边缘点与第i个顶点对应的分数。
[0093]
可选的,由于实际应用中,gpt-2模型生成的摘要会面临oov问题,即摘要中的部分词语无法在原文中查询到,导致生成的摘要质量低,因此,第一预测摘要中的各个第一关键词同样有可能在第二中文文本中查询不到,基于此,引入指针生成网络,其实质就是将第一预测摘要中的第一关键词定位到第二中文文本中的对应位置,从而用该位置上的词语去替换第一关键词,由于替换的词语是第二中文文本中原有的词语,从而解决了上述oov问题。
[0094]
可选的,该方法还包括:
[0095]
对于每个第一预测摘要,根据各个第一关键词,确定各个第一关键词中的第二关键词,对于每个第二关键词,第二关键词为通过gpt-2模型在第二中文文本中不能查询到的词语;
[0096]
对于每个第一预测摘要,将各个第二关键词输入指针生成网络,通过指针生成网络,确定每个第二关键词对应的第三关键词,对于每个第三关键词,第三关键词为通过gpt-2模型在第二中文文本中查询到的词语。
[0097]
可选的,对于每个第一预测摘要,将各个第二关键词输入指针生成网络,通过指针
生成网络,确定每个第二关键词对应的第三关键词,包括:
[0098]
s31,将第二中文文本中的所有词语结合词典形成扩展词典;
[0099]
s32,对于每个第一预测摘要,根据各个第二关键词,通过第二公式,确定各个第二关键词在扩展词典中查询到的概率,其中,第二公式为:
[0100][0101]
其中,p
vocab
表示第二关键词在扩展词典上的概率,v

,v,b,b

表示预设的第一网络参数,表示第一中文文本对应的向量,s
t
表示指针生成网络中解码器的隐状态;
[0102]
s33,对于每个第一预测摘要,根据各个第二关键词在扩展词典上的概率,通过第三公式,确定各个第二关键词在第二中文文本中的概率分布,其中,第三公式为:
[0103][0104][0105]
其中,p(w)表示概率分布,t表示时刻,w表示所有第二关键词的集合,wi表示第i个第二关键词,表示在第i个t时刻时获取第i个第二关键词对应的注意力分数,p
gen
表示每隔t时刻,将扩展词典的任意一个词语映射到(0,1)上的数值,b
ptr
表示预设的第二网络参数,σ()为sigmoid函数,x
t
表示扩展词典中的第t个词语;
[0106]
s34,对于每个第一预测摘要,根据每个第二关键词,以及第二关键词对应的概率分布,确定第二关键词在第二中文文本中的位置,并将位置处的词语作为第三关键词。
[0107]
s14,对于每个第一预测摘要,将各个第一关键词组成第三中文文本。
[0108]
可选的,对于每个第一预测摘要,将各个第一关键词组成第三中文文本,包括:
[0109]
对于每个第一预测摘要,将除第三关键词之外的各个第二关键词和各个第三关键词组成第三中文文本。
[0110]
s15,将各个第三中文文本输入初始模型,对初始模型进行训练,确定第三中文文本对应的第二预测摘要,以及第二预测摘要对应的第三类别,第三类别表征了第二预测摘要的主题。
[0111]
本实施例中,通过将第一预测摘要转换为第三中文文本,以半人工半人工智能的方式,且第一预测摘要的文字量远小于第二中文文本的文字量,因此,极大的减小了初始模型的训练集全由人工编辑高质量摘要的工作量。
[0112]
s16,根据各个第二预测摘要和各个第二摘要,确定初始模型的损失值,损失值表征了各个第二预测摘要和各个第二摘要之间的差异。
[0113]
本实施例中,由于第二预测摘要是来自第三中文文本,而第三中文文本又是来自原初始模型生成的第一预测摘要,因此,第二预测摘要里包含了第一预测摘要原有的缺点(例如内容不准确,词语选择错误等),此时,将低质量的第二预测摘要与高质量的第二摘要构建初始模型的损失值,能够让初始模型学习区分低质量摘要(第二预测摘要)和高质量摘要(第二摘要),从而提高生成的摘要的质量。
[0114]
s17,若损失值满足预设结束条件,将满足预设结束条件时的初始模型作为gpt-2
模型,若损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
[0115]
可选的,将第一中文文本输入gpt-2模型,通过gpt-2模型,确定第一中文文本对应的第一摘要,以及第一摘要对应的第一类别后,可以在postman软件上输出相关信息,相关信息包括第一关键词、第三关键词、第一摘要、第一类别和预警信息。
[0116]
如图2所示,本发明实施例的一种中文摘要的生成及预警系统,包括:
[0117]
第一获取模块202,用于获取第一中文文本;
[0118]
第二获取模块203,用于将第一中文文本输入gpt-2模型,通过gpt-2模型,确定第一中文文本对应的第一摘要,以及第一摘要对应的第一类别,第一类别表征了第一摘要的主题;
[0119]
预警模块204,用于根据第一类别,确定预警信息,预警信息表征了第二摘要是否包含敏感信息;
[0120]
其中,在第二获取203单元中,gpt-2模型是通过第一单元训练得到的,第一单元,具体用于:
[0121]
获取多个第二中文文本,以及第二中文文本对应的第二摘要;
[0122]
根据多个第二中文文本,对初始模型进行训练,得到各个第二中文文本对应的第一预测摘要,以及各个第一预测摘要对应的第二类别,对于每个第二类别,第二类别表征了第一预测摘要的主题;
[0123]
对于每个第一预测摘要,根据第一预测摘要,确定第一预测摘要中的各个第一关键词,对于每个第一关键词,第一关键词为与第一预测摘要中各个词语具有关联程度的词语;
[0124]
对于每个第一预测摘要,将各个第一关键词组成第三中文文本;
[0125]
将各个第三中文文本输入初始模型,对初始模型进行训练,确定第三中文文本对应的第二预测摘要,以及第二预测摘要对应的第三类别,第三类别表征了第二预测摘要的主题;
[0126]
根据各个第二预测摘要和各个第二摘要,确定初始模型的损失值,损失值表征了各个第二预测摘要和各个第二摘要之间的差异;
[0127]
若损失值满足预设结束条件,将满足预设结束条件时的初始模型作为gpt-2模型,若损失值不满足预设结束条件,调整初始网络的网络参数,并根据调整后的网络参数重新对初始模型进行训练,直到初始模型的第一损失值满足预设结束条件。
[0128]
可选的,在第二获取203单元中,对于每个第一预测摘要,根据第一预测摘要,通过第二单元,确定第一预测摘要中的各个第一关键词,其中,第二单元,具体用于:
[0129]
对于每个第一预测摘要,提取第一预测摘要中的各个词语;
[0130]
对于每个第一预测摘要,根据各个词语和预设词性,确定各个目标词语,对于每个目标词语,目标词语为各个词语中满足预设词性的词语;
[0131]
对于每个第一预测摘要,构建候选关键词图,候选关键词图中包含了多个顶点、多个边缘点和各个顶点与各个边缘点之间的边,多个顶点形成顶点集,多个边缘点形成边缘集;
[0132]
其中,对于每个顶点,顶点表征了一个目标词语,对于每个边缘点,边缘点表征了
除顶点表征的目标词语之外的目标词语,对于每个边,边表征了该边对应的顶点和边缘点之间的语法关系;
[0133]
对于每个第一预测摘要,根据顶点集、边缘集和各个边,确定每个顶点对应的分数,对于每个分数,分数表征了顶点对应的目标词语与顶点对应的边缘集中各个边缘点的关联程度的得分之和;
[0134]
对于每个第一预测摘要,将各个分数从小到大进行排序,从最大的分数开始,依次向前选择预设数量的分数作为目标分数,将各个目标分数对应的目标词语作为第一关键词。
[0135]
可选的,在第二获取203单元中,对于每个第一预测摘要,根据顶点集、边缘集和各个边,通过第三单元,确定每个顶点对应的分数,其中,第三单元,具体用于:
[0136]
对于每个第一预测摘要,根据顶点集、边缘集和各个边,通过第一公式,确定每个顶点对应的分数,其中,第一公式为:
[0137][0138]
其中,ws(vi)表示第i个顶点对应的分数,d表示阻尼因子,out(vj)表示顶点集,in(vi)表示边缘集,vi表示第i个顶点,vj表示第j个边缘点,vk表示第i个顶点和第j个边缘点之间的边,w
jk
表示vk对应的预设权重,ws(vj)表示第j个边缘点与第i个顶点对应的分数。
[0139]
可选的,该系统还包括:
[0140]
第三获取模块,用于对于每个第一预测摘要,根据各个第一关键词,确定各个第一关键词中的第二关键词,对于每个第二关键词,第二关键词为通过gpt-2模型在第二中文文本中不能查询到的词语;
[0141]
第四获取模块,用于对于每个第一预测摘要,将各个第二关键词输入指针生成网络,通过指针生成网络,确定每个第二关键词对应的第三关键词,对于每个第三关键词,第三关键词为通过gpt-2模型在第二中文文本中查询到的词语。
[0142]
则第二获取模块203中,对于每个第一预测摘要,将各个第一关键词组成第三中文文本,还包括:
[0143]
对于每个第一预测摘要,将除第三关键词之外的各个第二关键词和各个第三关键词组成第三中文文本。
[0144]
可选的,在第四获取模块中,对于每个第一预测摘要,将各个第二关键词输入指针生成网络,指针生成网络通过第四单元,确定每个第二关键词对应的第三关键词,其中,第四单元,具体用于:
[0145]
将第二中文文本中的所有词语结合词典形成扩展词典;
[0146]
对于每个第一预测摘要,根据各个第二关键词,通过第二公式,确定各个第二关键词在扩展词典中查询到的概率,其中,第二公式为:
[0147][0148]
其中,p
vocab
表示第二关键词在扩展词典上的概率,v

,v,b,b

表示预设的第一网络参数,表示第一中文文本对应的向量,s
t
表示指针生成网络中解码器的隐状态;
[0149]
对于每个第一预测摘要,根据各个第二关键词在扩展词典上的概率,通过第三公
式,确定各个第二关键词在第二中文文本中的概率分布,其中,第三公式为:
[0150][0151][0152]
其中,p(w)表示概率分布,t表示时刻,表示第i个t时刻时的注意力分数,w表示所有第二关键词的集合,wi表示第i个第二关键词,p
gen
表示触发开关,即每隔t时刻触发一次p
gen
,并从扩展词典中抽取一个词语,直到扩展词典中所有词语均被抽取,b
ptr
表示预设的第二网络参数,σ()为sigmoid函数,x
t
表示扩展词典中的第t个词语;
[0153]
对于每个第一预测摘要,根据每个第二关键词,以及第二关键词对应的概率分布,确定第二关键词在第二中文文本中的位置,并将位置处的词语作为第三关键词。
[0154]
本发明实施例的一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现上述一种中文摘要的生成及预警方法的部分或全部步骤。
[0155]
其中,电子设备可以选用电脑,相对应地,其程序为电脑软件,且上述关于本发明的一种电子设备中的各参数和步骤,可参考上文中一种中文摘要的生成及预警方法的实施例中的各参数和步骤,在此不做赘述。
[0156]
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
[0157]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0158]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:


1.一种中文摘要的生成及预警方法,其特征在于,包括以下步骤:获取第一中文文本;将所述第一中文文本输入gpt-2模型,通过所述gpt-2模型,确定所述第一中文文本对应的第一摘要,以及所述第一摘要对应的第一类别,所述第一类别表征了所述第一摘要的主题;根据所述第一类别,确定预警信息,所述预警信息表征了所述第二摘要是否包含敏感信息;其中,所述gpt-2模型是通过以下方式训练得到的:s11,获取多个第二中文文本,以及所述第二中文文本对应的第二摘要;s12,根据多个所述第二中文文本,对初始模型进行训练,得到各个所述第二中文文本对应的第一预测摘要,以及各个所述第一预测摘要对应的第二类别,对于每个所述第二类别,所述第二类别表征了所述第一预测摘要的主题;s13,对于每个所述第一预测摘要,根据所述第一预测摘要,确定所述第一预测摘要中的各个第一关键词,对于每个所述第一关键词,所述第一关键词为与所述第一预测摘要中各个词语具有关联程度的词语;s14,对于每个所述第一预测摘要,将各个所述第一关键词组成第三中文文本;s15,将各个所述第三中文文本输入初始模型,对初始模型进行训练,确定所述第三中文文本对应的第二预测摘要,以及所述第二预测摘要对应的第三类别,所述第三类别表征了所述第二预测摘要的主题;s16,根据各个所述第二预测摘要和各个所述第二摘要,确定所述初始模型的损失值,所述损失值表征了各个所述第二预测摘要和各个所述第二摘要之间的差异;s17,若所述损失值满足预设结束条件,将满足所述预设结束条件时的初始模型作为所述gpt-2模型,若所述损失值不满足预设结束条件,调整所述初始网络的网络参数,并根据调整后的网络参数重新对所述初始模型进行训练,直到所述初始模型的第一损失值满足所述预设结束条件。2.根据权利要求1所述的方法,其特征在于,所述对于每个所述第一预测摘要,根据所述第一预测摘要,确定所述第一预测摘要中的各个第一关键词,包括:s21,对于每个所述第一预测摘要,提取所述第一预测摘要中的各个词语;s22,对于每个所述第一预测摘要,根据各个所述词语和预设词性,确定各个目标词语,对于每个所述目标词语,所述目标词语为各个所述词语中满足预设词性的词语;s23,对于每个所述第一预测摘要,构建候选关键词图,所述候选关键词图中包含了多个顶点、多个边缘点和各个顶点与各个边缘点之间的边,多个顶点形成顶点集,多个边缘点形成边缘集;其中,对于每个所述顶点,所述顶点表征了一个所述目标词语,对于每个所述边缘点,所述边缘点表征了除所述顶点表征的目标词语之外的目标词语,对于每个所述边,所述边表征了该边对应的顶点和边缘点之间的语法关系;s24,对于每个所述第一预测摘要,根据所述顶点集、所述边缘集和各个所述边,确定每个所述顶点对应的分数,对于每个分数,所述分数表征了所述顶点对应的目标词语与所述顶点对应的边缘集中各个所述边缘点的关联程度的得分之和;
s25,对于每个所述第一预测摘要,将各个所述分数从小到大进行排序,从最大的分数开始,依次向前选择预设数量的分数作为目标分数,将各个所述目标分数对应的目标词语作为第一关键词。3.根据权利要求1所述的方法,其特征在于,所述对于每个所述第一预测摘要,根据所述顶点集、所述边缘集和各个所述边,确定每个所述顶点对应的分数,包括:对于每个所述第一预测摘要,根据所述顶点集、所述边缘集和各个所述边,通过第一公式,确定每个所述顶点对应的分数,其中,所述第一公式为:其中,ws(v
i
)表示第i个顶点对应的分数,d表示阻尼因子,out(v
j
)表示顶点集,in(v
i
)表示边缘集,v
i
表示第i个顶点,v
j
表示第j个边缘点,v
k
表示第i个顶点和第j个边缘点之间的边,w
jk
表示v
k
对应的预设权重,ws(v
j
)表示第j个边缘点与第i个顶点对应的分数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:对于每个所述第一预测摘要,根据各个所述第一关键词,确定各个所述第一关键词中的第二关键词,对于每个所述第二关键词,所述第二关键词为通过所述gpt-2模型在所述第二中文文本中不能查询到的词语;对于每个所述第一预测摘要,将各个所述第二关键词输入指针生成网络,通过所述指针生成网络,确定每个所述第二关键词对应的第三关键词,对于每个所述第三关键词,所述第三关键词为通过所述gpt-2模型在所述第二中文文本中查询到的词语;所述对于每个所述第一预测摘要,将各个所述第一关键词组成第三中文文本,包括:对于每个所述第一预测摘要,将除所述第三关键词之外的各个所述第二关键词和各个所述第三关键词组成第三中文文本。5.根据权利要求4所述的方法,其特征在于,所述对于每个所述第一预测摘要,将各个所述第二关键词输入指针生成网络,通过指针生成网络,确定每个所述第二关键词对应的第三关键词,包括:s31,将所述第二中文文本中的所有词语结合词典形成扩展词典;s32,对于每个所述第一预测摘要,根据各个所述第二关键词,通过第二公式,确定各个所述第二关键词在所述扩展词典中查询到的概率,其中,所述第二公式为:其中,p
vocab
表示第二关键词在扩展词典上的概率,v

,v,b,b

表示预设的第一网络参数,表示第一中文文本对应的向量,s
t
表示指针生成网络中解码器的隐状态;s33,对于每个所述第一预测摘要,根据各个所述第二关键词在所述扩展词典上的概率,通过第三公式,确定各个所述第二关键词在所述第二中文文本中的概率分布,其中,所述第三公式为:
其中,p(w)表示概率分布,t表示时刻,w表示所有第二关键词的集合,w
i
表示第i个第二关键词,表示在第i个t时刻时对应的第i个第二关键词对应的注意力分数,p
gen
表示每隔t时刻,将扩展词典的任意一个词语映射到(0,1)上的数值,b
ptr
表示预设的第二网络参数,σ()为sigmoid函数,x
t
表示扩展词典中的第t个词语;s34,对于每个所述第一预测摘要,根据每个所述第二关键词,以及所述第二关键词对应的概率分布,确定所述第二关键词在所述第二中文文本中的位置,并将所述位置处的词语作为所述第三关键词。6.一种中文摘要的生成及预警系统,其特征在于,包括:第一获取模块,用于获取第一中文文本;第二获取模块,用于将所述第一中文文本输入gpt-2模型,通过所述gpt-2模型,确定所述第一中文文本对应的第一摘要,以及所述第一摘要对应的第一类别,所述第一类别表征了所述第一摘要的主题;预警模块,用于根据所述第一类别,确定预警信息,所述预警信息表征了所述第二摘要是否包含敏感信息;其中,在所述第二获取单元中,所述gpt-2模型是通过第一单元训练得到的,所述第一单元,具体用于:获取多个第二中文文本,以及所述第二中文文本对应的第二摘要;根据多个所述第二中文文本,对初始模型进行训练,得到各个所述第二中文文本对应的第一预测摘要,以及各个所述第一预测摘要对应的第二类别,对于每个所述第二类别,所述第二类别表征了所述第一预测摘要的主题;对于每个所述第一预测摘要,根据所述第一预测摘要,确定所述第一预测摘要中的各个第一关键词,对于每个所述第一关键词,所述第一关键词为与所述第一预测摘要中各个词语具有关联程度的词语;对于每个所述第一预测摘要,将各个所述第一关键词组成第三中文文本;将各个所述第三中文文本输入初始模型,对初始模型进行训练,确定所述第三中文文本对应的第二预测摘要,以及所述第二预测摘要对应的第三类别,所述第三类别表征了所述第二预测摘要的主题;根据各个所述第二预测摘要和各个所述第二摘要,确定所述初始模型的损失值,所述损失值表征了各个所述第二预测摘要和各个所述第二摘要之间的差异;若所述损失值满足预设结束条件,将满足所述预设结束条件时的初始模型作为所述gpt-2模型,若所述损失值不满足预设结束条件,调整所述初始网络的网络参数,并根据调整后的网络参数重新对所述初始模型进行训练,直到所述初始模型的第一损失值满足所述预设结束条件。7.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的一种中文摘要的生成及预警方法的步骤。8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当
所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1至5任一项所述的一种中文摘要的生成及预警方法的步骤。

技术总结


本发明涉及一种中文摘要的生成及预警方法、系统、设备及介质,包括以下步骤:获取第一中文文本;将所述第一中文文本输入GPT-2模型,通过所述GPT-2模型,确定所述第一中文文本对应的第一摘要,以及所述第一摘要对应的第一类别,所述第一类别表征了所述第一摘要的主题;根据所述第一类别,确定预警信息,所述预警信息表征了所述第二摘要是否包含敏感信息。解决了GPT-2模型生成的摘要通常表现不如人工总结的摘要质量高,并且摘要中会包含一些敏感信息的问题。的问题。的问题。


技术研发人员:

蔡晓东 曹堪斌 蒋鹏

受保护的技术使用者:

桂林电子科技大学

技术研发日:

2022.09.13

技术公布日:

2023/3/24

本文发布于:2024-09-22 23:31:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/79898.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:摘要   所述   关键词   中文
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议