一种基于双重规划的篇章级复杂问题生成方法



1.本发明涉及计算机技术领域,尤其涉及一种基于双重规划的篇章级复杂问题生成方法。


背景技术:



2.近年来,随着人工智能的快速发展,问题生成(question generation,qg)任务成为了当下的研究热点。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成内容相关、语言通顺的自然语言问题。而本发明研究的问题生成任务就是以事实文本和答案作为输入的。问题生成任务具有广阔的应用前景,可以为问答任务产生训练数据;在对话系统中主动提出问题提升对话的流畅性;构建自动辅导系统(automatic tutoring systems)根据课程材料生成针对性的问题,辅导学生学习等。
3.当前基于深度学习的qg方法主要研究简单问题的生成,而很少有研究复杂问题生成的工作。其中,简单问题指的是只包含一个实体关系三元组的问题,复杂问题指的是包含多个实体关系三元组的问题,需要经过复杂的多跳推理才能得到答案。相比于只包含一个实体关系三元组的简单问题来说,复杂问题的生成具有更多的现实意义,例如,在教育领域,因为不同的学生接受知识的能力也不同,如果一味的生成简单问题,难以测试出学生的真实水平。对于能力强的学生,需要用复杂问题进行测试才能得到真实的反馈。另外,现有问答(question answering,qa)系统在简单问题上的表现已经达到了瓶颈,而复杂问题更有利于提升qa系统。因此,研究复杂问题生成具有一定的实用价值和应用前景。但是现有的复杂问题生成方法大多是基于知识图谱的复杂问题生成,这类方法无法直接应用于缺乏明确逻辑结构的非结构化文本的问题生成中。而在基于文本的复杂问题生成中,通常是以多文本作为输入的,没有考虑在单文本上生成复杂问题的情况。另外,这些方法在建模有效信息时直接融入了节点所在的句子序列,没有对句子中的事实进行进一步的筛选。而一个句子往往也包含多个事实。因此,这种篇章层面的问题生成方法缺乏整体规划,无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性。而且句子中包含其他冗余信息,可能会引入噪声。
4.因此,本发明提出了一种基于双重规划的篇章级问题生成模型,给文本中的每个句子都构建语义结构图,通过双重规划(事实级规划和语义图级规划)准确的定位每个解码时间步需要重点关注的信息。具体来说,在解码的时候,先选择需要关注的语义结构图,再进一步确定需要关注的事实三元组信息,通过融入这些信息增强生成问题的复杂度。


技术实现要素:



5.本发明要解决的技术问题在于现有的复杂问题生成方法大多构建一个语义图,忽略了单个句子包含的丰富事实信息,缺乏整体规划导致无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性,提供一种基于双重规划的篇章级复杂问题生成方法。
6.本发明解决其技术问题所采用的技术方案是:一种基于双重规划的篇章级复杂问题生成方法。该方法首先使用bert对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用transformer解码生成复杂问题,在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词的生成。
7.本发明的基于双重规划的篇章级复杂问题生成方法,包括如下步骤:1)采用bert对给定的文章和答案进行编码,获得答案感知的文本向量表示。
8.2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图。
9.3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,首先获得句子中每个节点的向量表示,然后获得单个事实的向量表示,最后获得整张图的向量表示。
10.4)对所述步骤1)得到答案感知的文本向量表示,将其送入transformer模型中解码。并且在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。
11.5)设计损失函数,经过多次迭代,训练问题生成模型。
12.作为本发明的进一步改进,所述步骤1)中,采用bert对给定的文本和答案进行编码,输入形式为,具体为,将文本序列和答案进行拼接,中间插入分隔符 ,将文本和答案分隔开来,在开头插入特定的分类标识符,通过bert的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量c表示。
13.作为本发明的进一步改进,所述步骤2)中,对给定文章中的每个句子序列都构建一个细粒度语义结构图。首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合。在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体。首先要将每个实体mention表示成语义向量。然后通过在softmax层中输入相似性特征来预测查询实体和一组候选对象之间的共指链接,并预测实体和具有最大共指概率的候选者之间的联系。
14.作为本发明的进一步改进,所述步骤2)中,采用了自适应跨句指代消解技术,为了预测跨句子的共指链接,采用一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集之间的共指链接,该算法首先对句子列表d进行任意排序,然后,对于每个句子中的实体,从先前的句子的共指集中计算候选集,其中,,表示句子的数量,,之后预测和一个候选对象之间的共指链接,最后,更新预测的候选集并重新计算的新候选对象。
15.作为本发明的进一步改进,所述步骤2)中,采用自适应跨句指代消解技术预测共指链接时,每个实体的可能候选者的数量会随着先前句子的数量的增加而增长,计算成
本大大增加。为了降低计算成本,本发明提出在计算过程中仅考虑与相似的先前句子。
16.作为本发明的进一步改进,所述步骤2)中,对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出实体关系三元组,构建出语义图。在记忆感知的语义图构建方法中,本发明使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取。具体来说,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成endofextractions,该符号表示抽取过程已结束。
17.作为本发明的进一步改进,所述步骤2)中,采用记忆感知的语义图构建方法中使用了序列到序列模型。为了训练该序列到序列模型,本发明需要一组句子—抽取对作为训练数据。人工构建数据集虽然效果很好,但是耗时耗力,无法构建大规模数据集。因此,本发明提出了一种自动构建句子—抽取对数据集的方法。通常来说,自动构建数据集分为两步,首先按照原始系统输出的置信度降序对所有抽取结果进行排序。然后,按照模型的输入输出格式构建训练数据。但是简单地汇集所有抽取结果是行不通的。因为存在以下问题:1)无校准:不同系统分配的置信度分数未校准到可比较的尺度。2)冗余提取:除了完全重复之外,多个系统会产生类似的提取,但边际效用较低。3)错误的提取:池化不可避免地会污染数据,并且会放大错误的实例,迫使下游开放的信息抽取系统学习质量较差的提取。为了解决上述问题,本发明使用了得评分—过滤框架来获得高质量的抽取结果。首先对汇集的抽取结果进行评分,通常来说,好的(正确的、信息丰富的)抽取结果会比坏的(不正确的)和冗余的抽取结果获得更高的值。然后过滤掉抽取结果中的冗余数据。通过上述的评分—过滤框架,可以获得高质量的事实三元组,从而构建语义图。
18.作为本发明的进一步改进,所述步骤3)中,对语义结构图进行编码时,将结构图中的边也当作节点进行编码。对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量。接着为了能够捕获节点之间的语义联系,采用了关系增强的图transformer对节点进行编码。该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,使得对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系。最后,将语义结构图中的所有节点向量输入到全联接前馈网络(fully connectedfeed-forward network,ffn)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题。获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示。类似的,在计算第i个语义结构图的向量表示时,将图中包含的所有事实三元组表示向量输入到平均池化层中,得到该语义结构图的语义向量表示。
19.作为本发明的进一步改进,所述步骤4)中,基于文本和语义结构图的编码结果,利用transformer作为解码器,生成问题。在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向
量和选择的事实三元组更新解码器的隐状态,并生成当前词。
20.其中,语义图级规划旨在在每个解码时间步,基于文本语义向量c和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示。然后将基于注意力的语义结构图表示和文本语义向量c拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成。
21.事实级规划旨在在每个解码时间步,基于文本语义向量c、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到第k个语义结构图中基于注意力的事实三元组表示。与语义图级规划相似,将基于注意力的事实三元组表示和文本语义向量c拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。
22.作为本发明的进一步改进,所述步骤4)中,基于文本和语义结构图的编码结果,利用transformer作为解码器,生成问题。在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词。
23.作为本发明的进一步改进,所述步骤5)中,损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失。其中,交叉熵损失指的是最小化所有模型参数的负对数似然。监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差。覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,以此来约束模型反复注意某个语义图或者某个事实。
24.有益效果:相比于现有技术,本发明具有以下优点:1)现有的问题生成方法仅仅从篇章层面构建一个语义图,容易忽略掉句子中包含的丰富的事实信息。而本发明对于给定的一篇文章中的每个句子序列都构建了语义结构图,通过这种方式能够全面准确的获取句子中的事实,为复杂问题生成提供强大的数据支撑。2)现有的方法缺乏整体规划,无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性。而本发明使用双重规划,能够在解码的过程中通过语义图级规划和事实级规划选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息辅助当前词的生成,确保生成的关系和实体相匹配,从而提升问题的事实正确性。
25.经过实验分析证明,本方法提出的基于双重规划的篇章级复杂问题生成方法对于提高生成复杂问题的事实正确性起到了改进作用,增强了问题生成的效果。
附图说明
26.图1是本发明的基本过程示意图;图2是本发明的模型框架图;图3是本发明的基于双重规划的解码实现图。
具体实施方式
27.下面结合实施例和说明书附图对本发明作进一步的说明。
28.实施例:本发明的基于句法感知提示学习的句子级问题生成方法,包括以下几个步骤:1)使用bert对给定的文章和答案进行编码,获得答案感知的文本向量表示。bert基于双向transformer结构,采用掩码语言模型实现了一体化的特征融合,能够建模一词多义现象,并且生成深层次的双向语言表征。因此,本发明采用bert编码,具体输入形式为,具体来说,将文本序列和答案进行拼接,中间插入分隔符,将文本和答案分隔开来。在开头插入特定的分类标识符,通过bert的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量c表示。
29.2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图。构建语义结构图能够清晰的展示文本中不同实体间的语义信息,从而在解码过程中方便选择合适的信息融入到问题中,辅助复杂问题生成。由于单篇文本的篇幅较长,所以本章对于文本中的每个句子序列都单独构建了一个语义结构图,这样做有利于更加精准的捕获语义信息。对于每个句子序列,首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合。在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体。对于每个实体mention,定义为,其中是实体,是实体参与的事件集合。首先要将每个实体mention表示成语义向量。本发明将实体跨度输入到bert中编码获得其初始向量表示,然后利用同样的方式获得每个事件的向量表示,并将其输入到bilstm中,外接均值池化层获得事件集合的向量表示。最后将实体初始向量表示和事件集合的向量表示结合起来,获得最终的实体mention语义表示向量。
30.假设是一组关于实体的先行词的共指簇。本发明通过增量的组合句子级信息和单词级信息为中的每个共指实体先行词集合p计算候选集表示。其中,指将包含的句子通过bert获得的cls的向量表示,包含了句子的语义信息。计算方式如下:,其中, 都是学习参数。然后将每个共指实体先行词集合p中所有的求均值,得到候选集表示。
31.然后通过在softmax层中输入相似性特征来预测查询实体和一组候选对象之间的共指链接。假设是的个候选表示的集合,本发明首先利用余弦相似度和多视角余弦相似度计算每个候选和实体的相似性。然后将这些相似性特征与候选和查询的差异以及点乘相结合,以获得最终的特征表示,计算公式如下:,然后,对于所有候选者,我们计算
查询实体 与之关联的概率,计算方式如下:;并预测实体和具有最大共指概率的候选者之间的联系。
32.为了预测跨句子的共指链接,本发明设计了一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集之间的共指链接。该算法首先对句子列表d进行任意排序,然后,对于每个句子中的实体,从先前的句子的共指集中计算候选集,其中,,表示句子的数量,,之后预测和一个候选对象之间的共指链接,最后,更新预测的候选集并重新计算的新候选对象。
33.采用自适应跨句指代消解技术预测共指链接时,每个实体的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本大大增加。为了降低计算成本,本发明提出在计算过程中仅考虑与相似的先前句子。本发明认为具有相同主题的句子即为相似句子。在训练期间,本发明使用标准的实体集来计算候选者和标准的句子主题集。相比之下,在推理过程中,使用当前预测的共指簇来计算候选者。此外,使用 k-means计算的预测主题集。通过最小化批量计算的交叉熵损失训练模型,单个句子中的所有m个实体形成一个批次,并且在m个顺序预测之后计算损失。对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出格式为(头实体,关系,尾实体)的三元组。头实体和尾实体分别表示主语和宾语,而关系就相当于连接主语和宾语的谓语。在记忆感知的语义图构建方法中,本发明使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取。具体来说,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成endofextractions,该符号表示抽取过程已结束。由于采用记忆感知的语义图构建方法中使用了序列到序列模型,为了训练该序列到序列模型,本发明需要一组句子—抽取对作为训练数据。人工构建数据集虽然效果很好,但是耗时耗力,无法构建大规模数据集。因此,本发明提出了一种自动构建句子—抽取对数据集的方法。通常来说,自动构建数据集分为两步,首先按照原始系统输出的置信度降序对所有抽取结果进行排序。然后,按照模型的输入输出格式构建训练数据。但是简单地汇集所有抽取结果是行不通的。因为存在以下问题:1)无校准:不同系统分配的置信度分数未校准到可比较的尺度。2)冗余提取:除了完全重复之外,多个系统会产生类似的提取,但边际效用较低。3)错误的提取:池化不可避免地会污染数据,并且会放大错误的实例,迫使下游开放的信息抽取系统学习质量较差的提取。为了解决上述问题,本发明使用了评分—过滤框架来获得高质量的抽取结果。评分:本发明涉及了一种模型对汇集的抽取结果进行评分,该模型在随机引导数据集上进行了预训练。随机引导数据集是通过从任何一个正在聚合的引导系统中随机抽取每个句子的提取来生成的。该模型根据它的置信度值为池中的每个提取分配一个分数,通常来说,好的(正确的、信息丰富的)抽取结果会比坏的(不正确的)和冗余的抽取结果获得更高的值。过滤:然后过滤掉抽取结果中的冗余数据。对于给定的一组排序后的抽取结果,本发明希望选择具有最佳置信度分数的提取子集(由随机自举模型分配),同时与其他选定的提取具有最小的相似性。因此,本发明基于一组排序中所有的抽取结果构建
了一个完整的加权图,图中的每个节点对应于一个抽取结果。每对节点由一条边连接。每条边都有一个相关的权重,表示两个对应提取之间的相似性。每个节点被分配一个分数,该分数等于随机引导模型给出的置信度。然后从中选择最佳子图,作为质量高的抽取结果,而图中的其他节点就默认为是冗余数据,被自动过滤。该过程用数学公式表示如下:,其中,表示图中的节点,表示节点和之间的rouge2分数。该公式的第一项指的是所有选定三元组的显着性总和,第二项指的是这些三元组之间的冗余信息。如果图有n个节点,那么上述目标可以设置为:;其中表示节点的得分,即,并且是具有条目目的对称矩阵。是决策向量,其中表示特定节点是否属于图。通过上述的评分—过滤框架,可以获得高质量的事实三元组,最后将实体作为节点,关系作为连接两个实体之间的边,构建出语义结构图。
34.3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,获得整张图的向量表示。具体来说,对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量。接着为了能够捕获节点之间的语义联系,本发明采用了关系增强的图transformer对节点进行编码。该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,是节点embedding的大小,计算公式如下:,其中,都是模型参数,多头注意力机制的作用是在对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系。这个过程用公式表示如下:,从公式中可以看出,多头注意力机制的关键点就在于将节点间的语义关系融入了查询向量和键向量中。其中,分别是是节点之间最短关系路径的编码。该编码结果通过将路径中所有关系节点的embedding向量相加得到。
35.最后,将语义结构图中的所有节点向量输入到全联接前馈网络(fully connectedfeed-forward network,ffn)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题,计算公式如下:
;其中,都是可训练的参数,是使用gelu激活函数的线性网络。
36.获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示表示第个语义结构图中的第个事实三元组。类似的,在计算第个语义结构图的向量表示时,将图中包含的所有事实三元组表示向量输入到平均池化层中,得到该语义结构图的语义向量表示,计算公式如下:;其中,表示平均池化函数,代表第个语义结构图中的第个事实三元组中所有的节点embedding向量,代表第个语义结构图中所有的事实三元组向量。
37.4)对所述步骤1)得到答案感知的文本向量表示,将其送入transformer模型中解码。并且在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。如图3所示,具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词,计算过程如下:,其中,语义图级规划旨在在每个解码时间步,基于文本语义向量c和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示,为了防止解码器多次重复选择同一个语义图,本发明融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的语义结构图。计算过程如下:;其中,分别是对语义结构图的注意力和覆盖程度,都是模型参数。
38.在模型解码的每个时间步,对于选中的语义图会计算一个覆盖损失,计算方式如下:,然后将基于注意力的语义结构图表示和文本语义向量c拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成。
39.事实级规划旨在在每个解码时间步,基于文本语义向量c、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到
第个语义结构图中基于注意力的事实三元组表示。与语义图级规划相似,为了防止解码器多次重复选择同一个事实三元组,本发明融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的事实三元组。
40.,其中,分别是对事实三元组的注意力和覆盖程度,力和覆盖程度,都是模型参数。
41.同样的,在模型解码的每个时间步,对于选中的事实三元组会计算一个覆盖损失,计算方式如下:,然后将基于注意力的事实三元组表示和文本语义向量c拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。
42.5)设计损失函数,经过多次迭代,训练问题生成模型。损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失。其中,交叉熵损失指的是最小化所有模型参数的负对数似然,当给定文本d,答案a时,计算方式如下:,监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差,本发明还对每一步推理过程中选取的语义结构图和事实三元组的监督信息进行了统计,同时,对问题和答案进行解析,将答案和问题中涉及到的实体在文本中到,由此确定标准的语义图和事实三元组。在问题生成的每个时间步,都会产生语义结构图的概率分布以及事实三元组的概率分布,这时将其与标准的应该被选择的语义结构图和事实三元组进行匹配,并计算相应的损失,公式如下:;覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,通过覆盖损失能有效避免重复选择同一个图里面的信息,因为一个图在过往选择的attention越高,产生的loss也越大。
43.最终的损失函数如下,其中,是用来平衡这些损失项的参数:;本实施例使用了如下指标进行评估:在自动评估方面,双语评估辅助(bilingual evaluation understudy,bleu)用于评测生成结果与标准结果的重合程度;显示排序翻译评估(metric for evaluation of translation with explicit ordering,meteor)用于评估生成结果与标准结果之间的语
义相关性;面向召回率的摘要评估辅助(recall-oriented understudy for gisting evaluation,rouge-l)评估生成结果和标准结果之间的最长公共子串。在人工评估方面,流畅性用于说明生成结果表述的流畅程度;相关性评测生成结果和给定输入文本的相关程度;复杂性指的是生成问题是否复杂,对复杂性的评估可以通过观察句子中包含从句的数量、修饰词的个数以及回答该问题需要进行多跳推理的步数。正确性指的是生成问题中包含的事实是否正确,即事实三元组是否存在于给定的源文本中、实体和关系是否匹配。
44.为了验证本发明的效果,在常用数据集squad、msmarco上进行了自动评测和人工评测。实验结果如下:表1不同方法在squad上的自动评测结果;表2不同方法在msmarco上的自动评测结果;表3不同方法在msmarco上的人工评测结果;本发明在多个数据集上都达到了最优的性能,相较于其他方法,有较大的提升。
45.上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

技术特征:


1.一种基于双重规划的篇章级复杂问题生成方法,其特征在于,该方法包括如下步骤:1)采用预训练语言模型bert对给定的文章和答案进行编码,获得答案感知的文本向量表示,2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图,3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,首先获得句子中每个节点的向量表示,然后获得单个事实的向量表示,最后获得整张图的向量表示,4)对所述步骤1)得到答案感知的文本向量表示,将其送入transformer模型中解码,并且在解码的每个时间步,基于双重规划即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成,5)设计损失函数,经过多次迭代,训练问题生成模型。2.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤1)中,采用bert对给定的文本和答案进行编码,输入形式为,具体为,将文本序列和答案进行拼接,中间插入分隔符 ,将文本和答案分隔开来,在开头插入特定的分类标识符,通过bert的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量c表示。3.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,对给定文章中的每个句子序列都构建一个细粒度语义结构图,首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合,在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体,首先要将每个实体mention表示成语义向量,然后通过在softmax层中输入相似性特征来预测查询实体和一组候选对象之间的共指链接,并预测实体和具有最大共指概率的候选者之间的联系。4.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,采用了自适应跨句指代消解技术,为了预测跨句子的共指链接,采用一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集之间的共指链接, 该算法首先对句子列表d进行任意排序,然后,对于每个句子中的实体,从先前的句子的共指集中计算候选集,其中,,表示句子的数量,,之后预测和一个候选对象之间的共指链接,最后,更新预测的候选集并重新计算的新候选对象。5.根据权利要求4所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,采用自适应跨句指代消解技术预测共指链接时,每个实体的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本增加,在计算过程中仅考虑与句子相似的先前句子。6.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述
步骤2)中,对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出实体关系三元组,构建出语义图,在记忆感知的语义图构建方法中,使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成endofextractions,该符号表示抽取过程已结束;所述步骤2)中,采用记忆感知的语义图构建方法中使用了序列到序列模型,使用了得评分框架来获得高质量的抽取结果,首先对汇集的抽取结果进行评分,通常来说,好的抽取结果会比坏的和冗余的抽取结果获得更高的值,然后过滤掉抽取结果中的冗余数据,通过上述的评分框架,可以获得高质量的事实三元组,从而构建语义图。7.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤3)中,对语义结构图进行编码时,将结构图中的边也当作节点进行编码,对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量,接着为了能够捕获节点之间的语义联系,采用了关系增强的图transformer对节点进行编码,该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,使得对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系,最后,将语义结构图中的所有节点向量输入到全联接前馈网络(fully connectedfeed-forward network,ffn)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题,获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示。8.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤4)中,基于文本和语义结构图的编码结果,利用transformer作为解码器,生成问题,在解码的每个时间步,基于双重规划即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成,具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词,其中,语义图级规划旨在在每个解码时间步,基于文本语义向量和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示,然后将基于注意力的语义结构图表示和文本语义向量拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成,事实级规划旨在在每个解码时间步,基于文本语义向量、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到第k个语义结构图中基于注意力的事实三元组表示,然后将基于注意力的事实三元组表示和文本语义向量拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。9.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤4)中,解码生成问题的过程中,融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的语义结构图和所有的事实三元组。
10.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤5)中,损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失,其中,交叉熵损失指的是最小化所有模型参数的负对数似然,监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差,覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,以此来约束模型反复注意某个语义图或者某个事实。

技术总结


本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。辅助当前词汇的生成。辅助当前词汇的生成。


技术研发人员:

毕胜 程茜雅 漆桂林

受保护的技术使用者:

东南大学

技术研发日:

2022.11.09

技术公布日:

2022/12/23

本文发布于:2024-09-20 14:34:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/47577.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语义   向量   事实   句子
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议