融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质



1.本技术实施例涉及计算机技术方向的人工智能领域,尤其涉及自然语言处理、深度学习和文本建模等技术领域。具体地,本技术实施例提供一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质。


背景技术:



2.近年来,在全球化和信息技术快速发展的双重背景下,不同语言间的资源差异导致的数字鸿沟受到学术界的广泛关注。跨语言表示学习(cross-lingual representation)将不同语言的文本映射至同一语义表示空间,从而提取统一的语义表示特征,并服务于跨语言下游任务。通过跨语言表示学习技术,既能够实现多语言文本统一处理,也可以实现高资源语言向低资源语言的知识迁移,是减小上述不同语言间数字鸿沟的重要方法。
3.早期的跨语言表示学习以静态词向量研究为主,mikolov等学者发现通过训练词嵌入模型得到的不同语言词向量空间具有一定的同构特征,因此早期的方法以双语词典等作为监督,采用基于线性映射的方法学习不同语言间的词映射关系。随后,部分学者提出了无监督的跨语言词向量训练方法,获得了较好的效果。随着预训练模型在多个自然语言处理任务中表现出较强的性能,基于预训练模型的跨语言表示学习成为了主流方法。跨语言预训练模型能够较好的提取多语言上下文特征,并适配多种下游任务。
4.本技术的发明人在长期研发中发现,由于不同语言训练语料分布不均衡,且掩码语言建模训练没有词对齐监督,使基于预训练模型的跨语言文本表示方法在训练过程中难以形成源语言与目标语言的词级别对齐,造成跨语言迁移性能下降。


技术实现要素:



5.本发明提供了一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质。该方法构建源语言-目标语言平行语料数据集,通过无监督词对齐算法对平行语句构建词对齐矩阵;在transformer结构的跨语言预训练模型的每个子层之间插入词对齐适配器,通过掩码语言建模与词对齐建模联合训练,实现跨语言表示特征的语义对齐;将所述词对齐适配器模块生成的跨语言表示特征输入至任务适配器,从而实现多种跨语言下游任务。解决了现有技术中低资源小语种难以形成词对齐映射导致的跨语言表示效果较差的问题。根据本技术的技术提高了面向低资源小语种的跨语言文本表示及多种跨语言下游任务的性能。
6.本发明所述的一种融合词对齐适配器模块的跨语言文本表示方法,按下列步骤进行:
7.a、对双语平行语料中的源语言与目标语言文本构建词对齐矩阵,所述双语平行语料输入至无监督词对齐算法模型中,设定相关参数,并获取包括源语言到目标语言和目标语言到源语言两个方向上的词对齐矩阵;
8.b、为每个源语言-目标语言对构造一个词对齐适配器模块并初始化相应的适配器模块参数,所述词对齐适配器模块包括:
9.两个前馈神经网络线性层、残差连接层及归一化网络;
10.c、将所述适配器模块插入到transformer结构的跨语言预训练模型编码器的各个子层之间;
11.d、将所述双语平行语料作为所述跨语言预训练模型编码器的输入,对模型进行掩码语言建模和词对齐建模联合训练,从而生成针对每个语言对具有词对齐特征的跨语言文本表示;
12.e、在所述词对齐适配器模块后连接任务适配器模块,用于实现特定的跨语言下游任务。
13.步骤d将双语平行语料作为输入,具体为:
14.将源语言和目标语言平行语句进行拼接,拼接处加入分隔符[sep],并通过所述跨语言预训练模型的tokenizer分词器进行编码。
[0015]
步骤d所述掩码语言建模和词对齐建模联合训练,具体为:将输入文本的词语按照一定的概率进行掩码替换,并通过推断替换位置的原有词语,实现上下文建模训练;所述词对齐建模根据所述词对齐矩阵,对所述双语平行语句中对齐词语的词向量计算相似度,实现同义词表示对齐;所述联合训练指同时进行掩码语言建模与所述词对齐建模两种训练;所述具有词对齐特征的跨语言文本表示,具体为:通过利用适配器模块,在所述跨语言预训练模型的基础上注入所述词对齐信息,从而使不同语言的同义词特征表示在语义空间中实现对齐,生成跨语言表示特征,服务于下游任务;所述下游任务,包括:跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;所述任务适配器模块包括:两层前馈神经网络、残差连接和归一化网络。
[0016]
一种融合词对齐适配器模块的跨语言文本表示装置,该装置包括:
[0017]
词对齐矩阵构建模块:用于获取双语平行语料数据集,通过无监督词对齐算法对所述数据集进行词对齐训练,对每一组双语文本计算词级别对齐分数并生成词对齐矩阵;
[0018]
词对齐适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,插入到transformer编码器的每个子层之间,用于对词对齐适配器模型进行掩码语言建模和词对齐建模联合训练,针对每一组源语言-目标语言平行语句输入,计算掩码语言损失及词对齐建模损失,其中所述词对齐建模损失根据对齐词对特征向量计算均方误差损失;
[0019]
任务适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,以所述词对齐适配器模块输出的跨语言表示特征作为模型输入,用于训练特定的跨语言下游任务。
[0020]
进一步地,所述词对齐矩阵构建模块,包括:
[0021]
源语言-目标语言平行语料数据集构建单元,用于构建源语言-目标语言组成的一定规模双语平行语料数据集;
[0022]
词对齐矩阵生成单元,用于通过无监督词对齐算法对所述平行语料数据集实现词级别对齐,针对每一组平行语句对,通过对齐分数生成词对齐矩阵。
[0023]
进一步地,所述词对齐适配器模块,包括:
[0024]
掩码语言建模单元,用于对拼接后的平行语句进行掩码替换,并通过推断掩码位置的原有词语增强上下文特征提取能力;
[0025]
词对齐建模单元,用于对拼接后的平行语句进行词对齐建模,通过词对齐矩阵获取对齐词对,通过计算对齐词对特征向量的相似度实现同义词语义对齐。
[0026]
进一步地,所述任务适配器模块,包括:
[0027]
跨语言下游任务训练单元,用于将所述词对齐适配器模块的输出特征作为任务适配器模块的输入,实现特定的跨语言下游任务。
[0028]
一种电子设备,其中,包括:
[0029]
至少一个处理器;
[0030]
至少一张gpu计算卡;以及
[0031]
与所述至少一个处理器通信连接的存储器;其中,
[0032]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个gpu计算卡执行,以使所述至少一个处理器能或所述至少一个gpu计算卡能够执行权利要求1-8中任一项所述的方法。
[0033]
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法。
[0034]
本发明提供了一种融合词对齐适配器模块的跨语言文本表示方法,该方法包括:
[0035]
根据双语平行语料中的源语言与目标语言平行文本构建词对齐矩阵;
[0036]
在transformer结构的跨语言预训练模型编码器的各个子层之间插入词对齐适配器模块;
[0037]
对模型进行掩码语言建模和词对齐建模联合训练,生成具有词对齐特征的跨语言文本表示;
[0038]
在所述词对齐适配器模块后连接任务适配器模块,实现特定的跨语言下游任务。
[0039]
根据本发明的另一方面,提供了一种跨语言文本表示装置,该装置包括:
[0040]
词对齐矩阵构建模块:用于通过无监督词对齐算法对双语平行语料生成词对齐矩阵;
[0041]
词对齐适配器模块:用于掩码语言建模和词对齐建模联合训练,向模型注入跨语言词对齐信息,并生成跨语言表示特征;
[0042]
任务适配器模块:用于实现特定的跨语言下游任务,以所述词对齐适配器模块输出的跨语言表示特征作为输入。
[0043]
根据本发明的又一方面,提供了一种电子设备,该设备包括:
[0044]
至少一个处理器;
[0045]
至少一张gpu计算卡;以及
[0046]
与所述至少一个处理器通信连接的存储器;其中,
[0047]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个gpu计算卡执行,以使所述至少一个处理器能或所述至少一个gpu计算卡能够执行本技术实施例中任一项所述的方法。
[0048]
根据本发明的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本技术实施例中任一项所述的方法。
[0049]
根据本技术的技术能够完成跨语言文本表示任务,并提高跨语言下游任务的性能。
[0050]
本发明的有益效果是:本发明针对传统的跨语言预训练模型在低资源小语种上表示性能不佳的问题,首先对源语言-目标语言平行语料进行词对齐矩阵构建,然后在transformer结构的跨语言预训练模型上插入少量参数的适配器模块,借助于预训练模型的先验知识对适配器模块进行掩码语言建模和词对齐建模联合训练,从而形成词级别的跨语言语义映射。通过该方法得到的跨语言文本表示特征,具有一定的词对齐信息,能够提高跨语言下游任务的性能,尤其是针对低资源小语种的相关任务。
附图说明
[0051]
图1为本技术实施例提供的一种融合词对齐适配器模块的跨语言文本表示方法流程图;
[0052]
图2为本技术实施例提供的一种融合词对齐适配器模块的跨语言文本表示模型结构图;
[0053]
图3为本技术实施例提供的一种词对齐矩阵构建的流程图;
[0054]
图4为本技术实施例提供的一种掩码语言建模训练方法的流程图;
[0055]
图5为本技术实施例提供的一种词对齐建模训练方法的流程图;
[0056]
图6为本技术实施例提供的一种词对齐适配器模块联合训练方法的流程图;
[0057]
图7为本技术实施例提供的一种词对齐适配器模块的结构图;
[0058]
图8为本技术实施例提供的一种任务适配器模块训练方法的流程图;
[0059]
图9为本技术实施例提供的一种融合词对齐适配器模块的跨语言文本表示装置结构示意图;
[0060]
图10为根据本技术实施例的融合词对齐适配器模块的跨语言文本表示电子设备的框图。
具体实施方式
[0061]
以下结合附图对本发明具体实施方式做进一步的详细说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0062]
实施例
[0063]
本发明所述的一种融合词对齐适配器模块的跨语言文本表示方法,按下列步骤进行:
[0064]
a、对双语平行语料中的源语言与目标语言文本构建词对齐矩阵,所述双语平行语料输入至无监督词对齐算法模型中,设定相关参数,并获取包括源语言到目标语言和目标语言到源语言两个方向上的词对齐矩阵;
[0065]
b、为每个源语言-目标语言对构造一个词对齐适配器模块并初始化相应的适配器模块参数,所述词对齐适配器模块包括:
[0066]
两个前馈神经网络线性层、残差连接层及归一化网络;
[0067]
c、将所述适配器模块插入到transformer结构的跨语言预训练模型编码器的各个子层之间;
[0068]
d、将所述双语平行语料作为所述跨语言预训练模型编码器的输入,对模型进行掩码语言建模和词对齐建模联合训练,从而生成针对每个语言对具有词对齐特征的跨语言文本表示;
[0069]
e、在所述词对齐适配器模块后连接任务适配器模块,用于实现特定的跨语言下游任务。
[0070]
步骤d将双语平行语料作为输入,具体为:
[0071]
将源语言和目标语言平行语句进行拼接,拼接处加入分隔符[sep],并通过所述跨语言预训练模型的tokenizer分词器进行编码。
[0072]
步骤d所述掩码语言建模和词对齐建模联合训练,具体为:将输入文本的词语按照一定的概率进行掩码替换,并通过推断替换位置的原有词语,实现上下文建模训练;所述词对齐建模根据所述词对齐矩阵,对所述双语平行语句中对齐词语的词向量计算相似度,实现同义词表示对齐;所述联合训练指同时进行掩码语言建模与所述词对齐建模两种训练;所述具有词对齐特征的跨语言文本表示,具体为:通过利用适配器模块,在所述跨语言预训练模型的基础上注入所述词对齐信息,从而使不同语言的同义词特征表示在语义空间中实现对齐,生成跨语言表示特征,服务于下游任务;所述下游任务,包括:跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;所述任务适配器模块包括:两层前馈神经网络、残差连接和归一化网络。
[0073]
一种融合词对齐适配器模块的跨语言文本表示装置,该装置包括:
[0074]
词对齐矩阵构建模块:用于获取双语平行语料数据集,通过无监督词对齐算法对所述数据集进行词对齐训练,对每一组双语文本计算词级别对齐分数并生成词对齐矩阵;
[0075]
词对齐适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,插入到transformer编码器的每个子层之间,用于对词对齐适配器模型进行掩码语言建模和词对齐建模联合训练,针对每一组源语言-目标语言平行语句输入,计算掩码语言损失及词对齐建模损失,其中所述词对齐建模损失根据对齐词对特征向量计算均方误差损失;
[0076]
任务适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,以所述词对齐适配器模块输出的跨语言表示特征作为模型输入,用于训练特定的跨语言下游任务。
[0077]
进一步地,所述词对齐矩阵构建模块,包括:
[0078]
源语言-目标语言平行语料数据集构建单元,用于构建源语言-目标语言组成的一定规模双语平行语料数据集;
[0079]
词对齐矩阵生成单元,用于通过无监督词对齐算法对所述平行语料数据集实现词级别对齐,针对每一组平行语句对,通过对齐分数生成词对齐矩阵。
[0080]
进一步地,所述词对齐适配器模块,包括:
[0081]
掩码语言建模单元,用于对拼接后的平行语句进行掩码替换,并通过推断掩码位置的原有词语增强上下文特征提取能力;
[0082]
词对齐建模单元,用于对拼接后的平行语句进行词对齐建模,通过词对齐矩阵获
取对齐词对,通过计算对齐词对特征向量的相似度实现同义词语义对齐。
[0083]
进一步地,所述任务适配器模块,包括:
[0084]
跨语言下游任务训练单元,用于将所述词对齐适配器模块的输出特征作为任务适配器模块的输入,实现特定的跨语言下游任务。
[0085]
一种电子设备,其中包括:
[0086]
至少一个处理器;
[0087]
至少一张gpu计算卡;以及
[0088]
与所述至少一个处理器通信连接的存储器;其中,
[0089]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个gpu计算卡执行,以使所述至少一个处理器能或所述至少一个gpu计算卡能够执行权利要求1-8中任一项所述的方法。
[0090]
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法;
[0091]
图1是本技术实施例提供的一种跨语言文本表示方法的流程图;本实施例可适用于对多种语言文本生成统一特征表示的情况。该方法可以由一种跨语言文本表示装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本技术实施例提供的跨语言文本表示方法包括:
[0092]
s110、构建源语言-目标语言平行语料数据集:
[0093]
在一个实施例中,平行语料数据集可以是任意两种语言间的平行语料。
[0094]
s120、通过无监督词对齐算法对源语言-目标语言平行语句构建词对齐矩阵:
[0095]
在一个实施例中,无监督词对齐算法可以理解为在相互平行的双语文本里出同义词对;
[0096]
s130、在transformer结构的跨语言预训练模型每个子层之间插入词对齐适配器模块:
[0097]
在一个实施例中,跨语言预训练模型具有多个子层,在子层之间插入词对齐适配器模块可以理解为将每个子层的输出隐层特征作为词对齐适配器的输入特征,这样的结构使得词对齐适配器可以充分利用预训练模型每个子层的先验知识;
[0098]
s140、在词对齐适配器上进行掩码语言建模和词对齐建模联合训练:
[0099]
在一个实施例中,保持预训练模型的参数固定,词对齐适配器模块参数可训的前提下,通过同时计算掩码语言建模和词对齐建模损失,使模型增强两种语言间的词级别语义对齐;
[0100]
s150、插入任务适配器模块,实现跨语言下游任务:
[0101]
所述词对齐适配器模块后接入任务适配器模块,将词对齐适配器的输出特征用于特定的跨语言下游任务;
[0102]
示例性地,所述跨语言下游任务可以为跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;
[0103]
图2是本技术实施例提供的一种跨语言文本表示模型的结构图。图示跨语言文本表示模型主要由四部分组成,分别为跨语言预训练模型、词对齐矩阵构建、词对齐适配器和任务适配器;
[0104]
201、预训练模型:
[0105]
预训练模型用于向词对齐适配器模块和任务适配器模块提供先验知识,预训练模型由transformer结构的编码器部分构成,每一子层由多头注意力层、残差链接、前馈神经网络构成,能够较好的捕捉上下文特征,用于多种自然语言处理任务;所述预训练模型在预训练阶段,常采用掩码语言建模、翻译语言建模等建模范式;
[0106]
202、词对齐矩阵构建模块:
[0107]
词对齐矩阵构建模块通过无监督的词对齐算法,对输入的双语平行文本进行词对齐,即出同义句中的同义词,并为每一个样本输出词对齐矩阵;所述词对齐矩阵是固定维度的二值矩阵,其维度为输入文本补长后的统一长度,对齐词对位置记为1,其余位置记为0;
[0108]
203、词对齐适配器模块:
[0109]
词对齐适配器由两个前馈神经网络、残差链接和归一化网络组成,用于掩码语言建模和词对齐建模联合训练;词对齐适配器模块位于跨语言预训练模型的每个子层之间,其层数与所述预训练模型保持一致;所述预训练模型的隐层输出作为词对齐适配器的输入,在词对齐适配器模块内分别进行上下投影及归一化计算;
[0110]
示例性地,给定输入hi,经过词对齐适配器模块的输出可以通过下述公式得出:
[0111][0112]
g(hi)=max(0,hiwib1)w2+b2[0113]
所述公式中,为所述前馈神经网络的训练参数,d表示所述预训练模型的隐层维度,df表示所述适配器模块的隐层维度,ln(
·
)表示所述归一化网络;
[0114]
204、任务适配器模块:
[0115]
任务适配器由两个前馈神经网络、残差链接和归一化网络组成,用于实现特定的跨语言下游任务。任务适配器模块位于跨语言预训练模型的每个子层之间,接在词对齐适配器之后,其层数与所述预训练模型保持一致;所述词对齐适配器模块的隐层输出作为任务适配器的输入,在任务适配器模块内分别进行上下投影及归一化计算;
[0116]
图3是本技术实施例提供的一种词对齐矩阵构建的流程图,词对齐矩阵构建根据双语平行语料生成词对齐矩阵,用于词对齐建模训练,词对齐矩阵的示意图参见图2-203。本方案提供的词对齐矩阵构建包括:
[0117]
s310、构建一定规模的双语平行语料数据集:
[0118]
所述平行语料数据集与s110中平行语料数据集必须相同;
[0119]
s320、安装无监督词对齐算法工具并配置运行环境:
[0120]
需要在符合条件的电子设备中安装具有无监督词对齐功能的工具及其运行所必须的运行环境,并配置相关参数;
[0121]
s330、通过无监督词对齐算法对平行语料进行无监督词对齐,得到词对齐分数:
[0122]
所述无监督词对齐算法通过无监督词对齐算法对平行语料数据集中的每一对平行文本的词语进行评分,生成词对齐分数;
[0123]
s340、根据词对齐分数生成词对齐矩阵:
[0124]
针对平行语料数据集中的每一对平行句对,首先生成以固定维度零矩阵,根据词语间的词对齐分数,选取分数最高的一个词作为对齐词,并在词对齐矩阵中记为1,进而生成词对齐矩阵;
[0125]
示例性地,对输入的双语文本(s,t)构建跨语言词对齐矩阵,那么对齐词对可表示为a(s,t)={(i1,j1),...,(im,jm)},例如:
[0126][0127]
a(s,t)={(0,0),(1,1),(2,2)}
[0128]
图4是本技术实施例提供的一种掩码语言建模训练方法的流程图,掩码语言建模训练通过使模型根据上下文推断被掩码位置地原有词语,进而使模型具有一定的上下文特征提取及语义表征能力。本方案提供的掩码语言建模训练方法包括:
[0129]
s410、以源语言-目标语言拼接文本作为输入:
[0130]
源语言文本和对应地目标语言文本进行拼接,中间通过预训练模型自有的分隔符[sep]进行分隔,拼接后的语句作为模型的输入;
[0131]
示例性地,输入文本可以为:我吃苹果[sep]i eat apples;
[0132]
s420、通过tokenizer分词器进行分词并编码:
[0133]
跨语言预训练模型自有的tokenizer分词器将对输入文本进行分词,并将每个词语映射为对应的输入编码;
[0134]
s430、以一定的比例对词语进行掩码替换,并输入至模型:
[0135]
输入文本的词语将一定的比例被替换为[mask],用于在掩码语言建模过程中根据上下文推断该位置的原有词语;
[0136]
可选地,替换比例可根据使用场景进行调整,15%为常用做法。在本技术实施例中,采用了15%的替换比例;
[0137]
s440、以词对齐适配器最后一层输出作为语义特征,对掩码位置原有词语进行推断:
[0138]
以词对齐适配器模块的最后一层输出特征作为输入,由推理层预测掩码位置的原有词语;
[0139]
s450、根据真实标签计算掩码语言建模损失,进行反向传播;
[0140]
根据预测的词语和真实的词语,计算损失,并进行反向传播,更新词对齐适配器参数。本技术实施例中,计算损失采用交叉熵损失函数;
[0141]
图5是本技术实施例提供的一种词对齐建模训练方法的流程图;根据所述词对齐矩阵,获取每一组对齐词的词向量,并计算对齐词向量的相似度,以缩小同义词词向量在语义空间中的距离,本方案提供的词对齐建模训练方法包括:
[0142]
s510、以源语言-目标语言拼接文本作为输入;
[0143]
源语言文本和对应地目标语言文本进行拼接,中间通过预训练模型自有的分隔符[sep]进行分隔,拼接后的语句作为模型的输入;
[0144]
s520、通过tokenizer分词器进行分词并编码:
[0145]
跨语言预训练模型自有的tokenizer分词器将对输入文本进行分词,并将每个词语映射为对应的输入编码;
[0146]
s530、以词对齐适配器最后一层的输出作为语义特征,根据词对齐矩阵提取对齐词对的词向量;
[0147]
经过编码后的文本输入至模型中,并提取词对齐适配器模块的最后一层输出作为语义特征,根据前述步骤生成的词对齐矩阵提取对齐词对的词向量;
[0148]
s540、根据每一对词向量计算词对齐相似度损失,进行反向传播:
[0149]
对每一组对齐词对的词向量计算相似度,以相似度分数作为词对齐损失,并以此进行反向传播;
[0150]
可选地,相似度计算算法可以为欧氏距离、切比雪夫距离、余弦相似度、皮尔逊相关系数等。本技术实施例中,采用了mse均方损失,即欧氏距离的平方和;
[0151]
示例性地,设f为具有词对齐适配器模块的跨语言预训练模型,sim(
·
)为相似度计算函数,ali(
·
)为词对齐适配器,(i,t)表示第i个样本的第t个词语,那么词对齐建模训练损失l
align
可表示为:
[0152]
l
align
(f;c)=-∑
(s,t)∈c

(i,j)∈a(s,t)
sim(ali(i;s),ali(i;t))
[0153]
图6是本技术实施例提供的一种词对齐适配器模块联合训练方法的流程图,为了使模型在表征多语言文本时既能充分提取上下文特征,也能较好的语义对齐,本技术实施例采用了联合训练的方法,提供的词对齐适配器模块联合训练方法包括:
[0154]
s610、保持预训练模型参数固定、词对齐适配器参数可训:
[0155]
为了充分利用预训练模型的先验知识,防止灾难性遗忘问题,采用保持跨语言预训练模型原有参数固定,适配器参数可训的方案;
[0156]
s620、以词对齐适配器最后一层的输出作为语义特征:
[0157]
联合训练方法在实现掩码语言建模与词对齐建模时,将以词对齐适配器最后一层输出作为语义特征向量,即跨语言文本表示特征;
[0158]
s630、根据语义特征分别计算掩码语言建模损失和词对齐建模损失:
[0159]
根据s620得到的语义特征将用于同时计算掩码语言建模损失和词对齐建模损失;
[0160]
s640、计算掩码语言建模损失与词对齐建模损失之和作为联合损失:
[0161]
联合训练方法可以理解为合并多种任务的损失,本技术实施例以掩码语言建模损失与词对齐建模损失之和作为联合损失:
[0162]
示例性地,设l
mlm
为掩码语言建模损失,l
align
为词对齐损失,则联合损失loss可表示为:
[0163]
loss=l
mlm
+l
align
[0164]
s650、根据联合损失进行反向传播:
[0165]
图7是本技术实施例提供的一种词对齐适配器模块的结构图,其中,适配器模块由两个线性变换层、残差链接和归一化网络组成;
[0166]
线性变换层分别为上投影层和下投影层,两层之间具有激活函数运算;
[0167]
图8是本技术实施例提供的一种任务适配器模块训练方法的流程图,任务适配器总体结构与词对齐适配器相同,但其以词对齐适配器模块的输出特征作为输入,用于实现特定的跨语言下游任务;本方案提供的任务适配器模块训练方法包括:
[0168]
s810、保持词对齐适配器参数固定,在其后连接任务适配器模块;
[0169]
词对齐适配器模块经过掩码语言建模与词对齐建模联合训练后,具有了跨语言表
征能力,故保持其参数固定,并在其后连接任务适配器;
[0170]
s820、词对齐适配器的输出作为语义特征,输入至任务适配器;
[0171]
s830、任务适配器模块针对特定跨语言任务进行训练;
[0172]
任务适配器用于训练特定的跨语言下游任务,不同的任务具有不同的任务适配器模块;其中,同一个词对齐适配器可连接多个任务适配器实现多任务训练,但同一个任务适配器模块一般仅用于同一个任务;
[0173]
示例性地,所述跨语言下游任务包括但不限于跨语言词性标注、跨语言命名实体识别、跨语言句法分析等;
[0174]
图9为本技术实施例提供的一种融合词对齐适配器模块的跨语言文本表示装置的结构示意图,参见图9,本实施例提供的融合词对齐适配器模块的跨语言文本表示装置包括:词对齐矩阵构建模块、词对齐适配器模块、任务适配器模块,其中,
[0175]
词对齐矩阵构建模块:用于获取双语平行语料数据集,通过无监督词对齐算法对所述数据集进行词对齐训练,对每一组双语文本计算词级别对齐分数并生成词对齐矩阵;
[0176]
词对齐适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,插入到transformer编码器的每个子层之间,用于对词对齐适配器模型进行掩码语言建模和词对齐建模联合训练,针对每一组源语言-目标语言平行语句输入,计算掩码语言损失及词对齐建模损失,其中所述词对齐建模损失根据对齐词对特征向量计算均方误差损失;
[0177]
任务适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,以所述词对齐适配器模块输出的跨语言表示特征作为模型输入,用于训练特定的跨语言下游任务。
[0178]
进一步地,所述词对齐矩阵构建模块,包括:
[0179]
源语言-目标语言平行语料数据集构建单元,用于构建源语言-目标语言组成的一定规模双语平行语料数据集;
[0180]
词对齐矩阵生成单元,用于通过无监督词对齐算法对所述平行语料数据集实现词级别对齐,针对每一组平行语句对,通过对齐分数生成词对齐矩阵。
[0181]
进一步地,所述词对齐适配器模块,包括:
[0182]
掩码语言建模单元,用于对拼接后的平行语句进行掩码替换,并通过推断掩码位置的原有词语增强上下文特征提取能力;
[0183]
词对齐建模单元,用于对拼接后的平行语句进行词对齐建模,通过词对齐矩阵获取对齐词对,通过计算对齐词对特征向量的相似度实现同义词语义对齐。
[0184]
进一步地,所述任务适配器模块,包括:
[0185]
跨语言下游任务训练单元,用于将所述词对齐适配器模块的输出特征作为任务适配器模块的输入,实现特定的跨语言下游任务。
[0186]
根据本技术的实施例,本技术还提供了一种电子设备和一种可读存储介质。
[0187]
如图10所示,是根据本技术实施例的一种小样本意图识别方法的电子设备的框图。电子设备指各种各样的现代电子数字计算机,包括如:个人计算机、便携式计算机、各种服务器设备。本文所示的构件及其互联关系和功能仅作为示例;
[0188]
如图10所示,所述电子设备包括:一个或多个多核处理器、一个或多个gpu计算卡、
存储器,为使电子设备产生交互,还应包括:输入设备、输出设备。各种设备之间通过总线进行互联通信。
[0189]
存储器即为本技术所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个多核处理器或至少一个gpu计算卡执行的指令,以使本技术所提供的融合词对齐适配器模块的跨语言文本表示方法被执行。本技术的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本技术所提供的融合词对齐适配器模块的跨语言文本表示方法。
[0190]
输入设备,提供并接受用户输入到电子设备中的控制信号,包括产生数字或字符信息的键盘以及用来控制设备产生其他关键信号的鼠标。输出设备提供用户电子设备的反馈信息,包括打印执行结果或过程的显示器。
[0191]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

技术特征:


1.一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于按下列步骤进行:a、对双语平行语料中的源语言与目标语言文本构建词对齐矩阵,所述双语平行语料输入至无监督词对齐算法模型中,设定相关参数,并获取包括源语言到目标语言和目标语言到源语言两个方向上的词对齐矩阵;b、为每个源语言-目标语言对构造一个词对齐适配器模块并初始化相应的适配器模块参数,所述词对齐适配器模块包括:两个前馈神经网络线性层、残差连接层及归一化网络;c、将所述适配器模块插入到transformer结构的跨语言预训练模型编码器的各个子层之间;d、将所述双语平行语料作为所述跨语言预训练模型编码器的输入,对模型进行掩码语言建模和词对齐建模联合训练,从而生成针对每个语言对具有词对齐特征的跨语言文本表示;e、在所述词对齐适配器模块后连接任务适配器模块,用于实现特定的跨语言下游任务。2.根据权利要求1所述的一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于,步骤d将双语平行语料作为输入,具体为:将源语言和目标语言平行语句进行拼接,拼接处加入分隔符,并通过所述跨语言预训练模型的tokenizer分词器进行编码。3.根据权利要求1所述的一种融合词对齐适配器模块的跨语言文本表示方法,其特征在于,步骤d所述掩码语言建模和词对齐建模联合训练,具体为:将输入文本的词语按照一定的概率进行掩码替换,并通过推断替换位置的原有词语,实现上下文建模训练;所述词对齐建模根据所述词对齐矩阵,对所述双语平行语句中对齐词语的词向量计算相似度,实现同义词表示对齐;所述联合训练指同时进行掩码语言建模与所述词对齐建模两种训练;所述具有词对齐特征的跨语言文本表示,具体为:通过利用适配器模块,在所述跨语言预训练模型的基础上注入所述词对齐信息,从而使不同语言的同义词特征表示在语义空间中实现对齐,生成跨语言表示特征,服务于下游任务;所述下游任务,包括:跨语言词性标注、跨语言句法分析、跨语言命名实体识别及其他依赖跨语言文本表示特征的自然语言处理任务;所述任务适配器模块包括:两层前馈神经网络、残差连接和归一化网络。4.一种融合词对齐适配器模块的跨语言文本表示装置,其特征在于该装置包括:词对齐矩阵构建模块:用于获取双语平行语料数据集,通过无监督词对齐算法对所述数据集进行词对齐训练,对每一组双语文本计算词级别对齐分数并生成词对齐矩阵;词对齐适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,插入到transformer编码器的每个子层之间,用于对词对齐适配器模型进行掩码语言建模和词对齐建模联合训练,针对每一组源语言-目标语言平行语句输入,计算掩码语言损失及词对齐建模损失,其中所述词对齐建模损失根据对齐词对特征向量计算均方误差损失;任务适配器模块:词对齐适配器模块由前馈神经网路、残差链接及归一化网络组成,以所述词对齐适配器模块输出的跨语言表示特征作为模型输入,用于训练特定的跨语言下游任务。
进一步地,所述词对齐矩阵构建模块,包括:源语言-目标语言平行语料数据集构建单元,用于构建源语言-目标语言组成的一定规模双语平行语料数据集;词对齐矩阵生成单元,用于通过无监督词对齐算法对所述平行语料数据集实现词级别对齐,针对每一组平行语句对,通过对齐分数生成词对齐矩阵。进一步地,所述词对齐适配器模块,包括:掩码语言建模单元,用于对拼接后的平行语句进行掩码替换,并通过推断掩码位置的原有词语增强上下文特征提取能力;词对齐建模单元,用于对拼接后的平行语句进行词对齐建模,通过词对齐矩阵获取对齐词对,通过计算对齐词对特征向量的相似度实现同义词语义对齐。进一步地,所述任务适配器模块,包括:跨语言下游任务训练单元,用于将所述词对齐适配器模块的输出特征作为任务适配器模块的输入,实现特定的跨语言下游任务。5.一种电子设备,其中,包括:至少一个处理器;至少一张gpu计算卡;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行或所述至少一个gpu计算卡执行,以使所述至少一个处理器能或所述至少一个gpu计算卡能够执行权利要求1-8中任一项所述的方法。6.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法。

技术总结


本发明公开了一种融合词对齐适配器模块的跨语言文本表示方法、装置、设备及存储介质,涉及人工智能、自然语言处理、文本建模等技术领域。具体实现方案为:构建源语言-目标语言平行语料数据集,通过无监督词对齐算法对平行语句构建词对齐矩阵;在Transformer结构的跨语言预训练模型的每个子层之间插入词对齐适配器,通过掩码语言建模与词对齐建模联合训练,实现跨语言表示特征的语义对齐;将所述词对齐适配器模块生成的跨语言表示特征输入至任务适配器,从而实现多种跨语言下游任务。解决了现有技术中低资源小语种难以形成词对齐映射导致的跨语言表示效果较差的问题。根据本申请的技术提高了面向低资源小语种的跨语言文本表示及多种跨语言下游任务的性能。表示及多种跨语言下游任务的性能。表示及多种跨语言下游任务的性能。


技术研发人员:

杨雅婷 艾合塔木江

受保护的技术使用者:

中国科学院新疆理化技术研究所

技术研发日:

2022.12.22

技术公布日:

2023/3/10

本文发布于:2024-09-24 03:26:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69862.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语言   适配器   所述   模块
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议