语音意图识别模型的训练方法、装置及电子设备与流程

1.本公开涉及语音识别技术领域，尤其涉及一种语音意图识别模型的训练方法、装置及电子设备。

背景技术：

2.目前，语音意图识别的应用越来越广泛，例如，通过对直播中产生的语音进行语音意图识别，来确定直播过程中当前所处的环节。
3.在相关技术中，往往是基于带有意图标签的语音样本，直接训练获取语音意图识别模型，以基于该语音意图识别模型进行意图识别。这种方式中，需要大量带有意图标签的语音样本才能实现训练，而带有意图标签的语音样本需要人工标注，获取成本较高。因此，模型训练的实现难度较大。

技术实现要素：

4.本公开提供一种语音意图识别模型的训练方法、装置及电子设备，以至少解决相关技术中模型训练的实现难度较大的问题。本公开的技术方案如下：
5.根据本公开实施例的第一方面，提供了一种语音意图识别模型的训练方法，包括：
6.获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；
7.获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；
8.基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；
9.其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。
10.可选的，所述获取经训练的第一多模态提取网络，包括：
11.将n个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到n个所述语音语义特征，以及，将n个所述第二语音样本对应的n个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到n个所述文本语义特征；所述n为大于等于2的正整数；
12.计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度；
13.基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络
参数，以得到经训练的所述第一多模态提取网络。
14.可选的，所述基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，包括：
15.基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述n，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征；
16.根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值；
17.根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。
18.可选的，所述根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值，包括：
19.对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关；
20.对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关；
21.基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。
22.可选的，所述计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度之前，所述方法还包括：
23.对于n个所述第二语音样本中的任一所述第二语音样本，对所述第二语音样本的语音语义特征进行时间维度上的池化处理，得到所述语音语义特征的语音表示向量；
24.所述计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度，包括：
25.计算各所述语音语义特征的语音表示向量与各所述文本语义特征的文本表示向量之间的语义相似度。
26.可选的，所述基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型，包括：
27.将所述第一语音样本以及所述第一文本样本分别输入所述第二多模态提取网络中的语音提取子网络及文本提取子网络进行语义特征提取，得到目标语音语义特征及目标文本语义特征；
28.将所述目标语音语义特征及目标文本语义特征输入所述意图识别网络，得到所述预估语音意图；
29.根据所述预估语音意图和所述意图标签，确定第二目标损失值；
30.基于所述第二目标损失值，调整所述意图识别网络的网络参数，或调整所述意图识别网络、所述第二多模态提取网络中语音提取子网络及文本提取子网络的网络参数，以得到经训练的所述语音意图识别模型。
31.根据本公开实施例的第二方面，提供了一种语音意图识别模型的训练装置，包括：
32.第一获取模块，被配置为执行获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；
33.第二获取模块，被配置为执行获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；
34.训练模块，被配置为执行基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；
35.其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。
36.可选的，所述第二获取模块，具体被配置为执行：
37.将n个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到n个所述语音语义特征，以及，将n个所述第二语音样本对应的n个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到n个所述文本语义特征；所述n为大于等于2的正整数；
38.计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度；
39.基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，以得到经训练的所述第一多模态提取网络。
40.可选的，所述第二获取模块，具体还被配置为执行：
41.基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述n，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征；
42.根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值；
43.根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。
44.可选的，所述第二获取模块，具体还被配置为执行：
45.对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关；
46.对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关；
47.基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。
48.可选的，所述装置还包括：
49.池化模块，被配置为在所述第二获取模块202执行计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度之前，执行对于n个所述第二语音样本中的任一所述第二语音样本，对所述第二语音样本的语音语义特征进行时间维度上的池化处理，得到所述语音语义特征的语音表示向量；
50.所述第二获取模块，具体还被配置为执行：计算各所述语音语义特征的语音表示向量与各所述文本语义特征的文本表示向量之间的语义相似度。
51.可选的，所述训练模块，具体被配置为执行：
52.将所述第一语音样本以及所述第一文本样本分别输入所述第二多模态提取网络中的语音提取子网络及文本提取子网络进行语义特征提取，得到目标语音语义特征及目标文本语义特征；
53.将所述目标语音语义特征及目标文本语义特征输入所述意图识别网络，得到所述预估语音意图；
54.根据所述预估语音意图和所述意图标签，确定第二目标损失值；
55.基于所述第二目标损失值，调整所述意图识别网络的网络参数，或调整所述意图识别网络、所述第二多模态提取网络中语音提取子网络及文本提取子网络的网络参数，以得到经训练的所述语音意图识别模型。
56.根据本公开实施例的第三方面，提供一种电子设备，包括：
57.处理器；用于存储所述处理器可执行指令的存储器；
58.其中，所述处理器被配置为执行所述指令，以实现如第一方面中任一项所述的方法。
59.根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面中任一项所述的方法。
60.根据本公开实施例的第五方面，提供一种计算设备程序产品，所述计算设备程序产品包括可读性程序指令，所述可读性程序指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面中任一项所述的方法。
61.本公开的实施例提供的技术方案至少带来以下有益效果：获取第一训练样本集，第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本。获取经训练的第一多模态提取网络，第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到。基于带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型。其中，语音意图识别模型包括第二多模态提取网络和意图识别网络，第二多模态提取网络与第一多模态提取网络的网络结构相同、且继承经训练的第一多模态提取网络的网络参数，意图识别网络基于第二多模态提取网络提取的各模态特征得到预估语音意图。由于先使用易获取的第二训练样本集训练了第一多模态提取网络，待训练的语音意图识别模型中的第二多模态提取网络，继承了第一训练阶段中使用易获取的训练数据训练得到的第一多模态提取网络的网络参数，即，相当于第二多模态提取网络已经使用易获取的第二训练样本集进行了预训练，仅剩余意图识别网络未进行训练。因此，后续利用少量带
有意图标签的样本即可实现语音意图识别模型的训练，一定程度上可以减少所需使用的携带意图标签的训练数据的数量，从而一定程度上可以降低训练样本获取成本，降低模型训练的实现难度。
62.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
63.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
64.图1是根据一示例性实施例示出的一种语音意图识别模型的训练方法的流程图；
65.图2是根据一示例性实施例示出的一种相似度矩阵示意图；
66.图3是根据一示例性实施例示出的一种训练流程示意图；
67.图4是根据一示例性实施例示出的另一种训练过程示意图；
68.图5是根据一示例性实施例示出的一种语音意图识别模型的训练装置框图；
69.图6是根据一示例性实施例示出的一种用于语音意图识别模型训练的装置的框图；
70.图7是根据一示例性实施例示出的另一种用于语音意图识别模型训练的装置的框图。
具体实施方式
71.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
72.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
73.图1是根据一示例性实施例示出的一种语音意图识别模型的训练方法的流程图，如图1所示，该方法可以包括：
74.步骤101、获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本。
75.步骤102、获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到。
76.本公开实施例中，语音样本可以为语音意图识别模型所应用的领域中产生的语音，例如，可以为历史直播中产生的语音数据，从而一定程度上可以提高语音意图识别模型后续的应用效果。当然，也可以为其他领域中产生的语音数据，本公开对此不做限制。
77.第一文本样本可以是对第一语音样本进行自动语音识别(automatic speech recognition，asr)得到的，第一文本样本与第一语音样本的内容对应。第二文本样本可以是对第二语音样本进行asr识别得到的，第二文本样本与第二语音样本的内容对应。
78.需要说明的是，本公开实施例可以应用于训练设备，该训练设备可以为智能手机、平板电脑、个人电脑(pc)等终端设备，也可以为服务器。
79.本公开实施例中，可以以语音提取子网络提取到的至少两个第二语音样本的语音语义特征，分别与文本提取子网络提取到的至少两个第二文本样本的文本语义特征相匹配为训练目标，对语音提取子网络及文本提取子网络进行预训练，从而得到经训练的第一多模态提取网络。
80.本公开实施例中，语音提取子网络可以从至少两个第二语音样本中提取至少两个语音语义特征，文本提取子网络可以从对应的至少两个第二文本样本中提取至少两个文本语义特征，通过判断哪个语音语义特征与哪个文本语义特征相匹配，实现对语音提取子网络及文本提取子网络的预训练，使得语音提取子网络以及文本提取子网络能够学习到丰富的语义信息，以及学习到针对成对的语音-文本生成准确且相对应匹配的语义特征的能力，进而确保后续意图识别网络的识别准确率。其中，预训练可以视为语音意图识别模型的训练过程中的第一训练阶段，第一训练阶段中的训练数据为《语音-文本》对，由于语音对应的文本直接基于asr算法即可得到，因此，第一训练阶段中的训练数据的获取难度较低，第一训练阶段中基于易获取的第二训练样本集，即可实现对语音提取子网络及文本提取子网络的训练。
81.步骤103、基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。
82.其中，本步骤中的训练可以视为语音意图识别模型的训练过程中的第二训练阶段，第二训练阶段中的训练数据为《语音、文本-意图标签》对，虽然第二训练阶段中的训练数据需要人工标注，获取难度以及成本较高。但是，由于待训练的语音意图识别模型中的第二多模态提取网络，继承了第一训练阶段中使用易获取的训练数据训练得到的第一多模态提取网络的网络参数，相当于待训练的语音意图识别模型中的第二多模态提取网络已经使用易获取的第二训练样本集进行了预训练，仅剩余意图识别网络未进行训练。因此，相较于在先技术中仅设置一个训练阶段，需要使用大量带有意图标签的样本直接对语音意图识别模型进行训练的方式，在第二训练阶段利用少量带有意图标签的第一训练集即可实现语音意图识别模型的训练，一定程度上可以减少所需使用的携带意图标签的训练数据的数量，从而一定程度上可以降低样本获取成本，降低模型训练的实现难度。
83.综上所述，本公开实施例提供的语音意图识别模型的训练方法，获取第一训练样本集，第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本。获取经训练的第一多模态提取网络，第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到。基于带有意
图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型。其中，语音意图识别模型包括第二多模态提取网络和意图识别网络，第二多模态提取网络与第一多模态提取网络的网络结构相同、且继承经训练的第一多模态提取网络的网络参数，意图识别网络基于第二多模态提取网络提取的各模态特征得到预估语音意图。由于先使用易获取的第二训练样本集训练了第一多模态提取网络，待训练的语音意图识别模型中的第二多模态提取网络，继承了第一训练阶段中使用易获取的训练数据训练得到的第一多模态提取网络的网络参数，即，相当于第二多模态提取网络已经使用易获取的第二训练样本集进行了预训练，仅剩余意图识别网络未进行训练。因此，后续利用少量带有意图标签的样本即可实现语音意图识别模型的训练，一定程度上可以减少所需使用的携带意图标签的训练数据的数量，从而一定程度上可以降低训练样本获取成本，降低模型训练的实现难度。
84.可选的，本公开实施例中，上述获取经训练的第一多模态提取网络的步骤，具体可以包括：
85.步骤s21、将n个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到n个所述语音语义特征，以及，将n个所述第二语音样本对应的n个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到n个所述文本语义特征；所述n为大于等于2的正整数。
86.其中，n的具体值可以根据实际需求设置，只要确保n不小于2且为正整数即可。示例性地，n的值可以等于训练过程中定义的一批(batch)数据的数量，例如，n可以等于16。语音提取子网络可以为深度神经网络，例如，语音提取子网络可以为采用带卷积的深度自注意力网络(conformer)。其中，conformer是语音领域效果较好的神经网络，因此，采用conformer作为语音提取子网络，一定程度上可以提高模型的语音意图识别效果。且相较于采用循环神经网络的方式，可以确保在长序列语音相关任务上的效果。当然，也可以采用其他网络，本公开实施例对此不做限制。文本提取子网络可以是掩码语言模型，具体的，可以为利用海量无监督文本数据已训练完成的掩码语言模型，例如，深度双向自注意力网络(bidirectional encoder representation from transformers，bert)，或者，也可以为效果相当的鲁棒深度双向自注意力网络(robustly optimized bert pretraining approach，roberta)或掩码矫正的深度双向自注意力网络(mlm as correction bert，macbert)。
87.可以将一个batch的成对的第二语音样本以及第二文本样本分别输入语音提取子网络以及文本提取子网络。语音提取子网络可以先提取第二语音样本的语音特征，具体的提取方式可以参照在先技术，例如，进行独热编码，此处不再赘述。基于语音特征进行处理，得到语音语义特征。在界定语音提取子网络时，可以将提取语音特征的网络视为语音提取子网络的一部分，也可以将二者视为两个独立的网络，即语音提取子网络的输入可以是语音样本，也可以是语音样本的语音特征，二者只是对提取语音特征的网络的归属划分有所不同，本质是一致的。
88.对于文本提取子网络，也可以先提取文本样本的文本特征。例如，基于预设的文字表，通过文字查表来转换提取文本特征。基于文本特征进行处理，得到文本语义特征。提取文本特征的网络的归属与提取语音特征的网络的归属同理，在此不再赘述。
89.步骤s22、计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度。
90.可选地，本公开实施例中，在计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度之前，可以对语音语义特征进行下述处理：步骤s31、对于所述n个第二语音样本中的任一第二语音样本，对所述第二语音样本的语音语义特征进行时间维度上的池化处理，得到所述语音语义特征的语音表示向量。
91.具体的，对于第二语音样本而言，语音提取子网络输出的语音语义特征可以是矩阵形式，每个时间单位(例如一个音频帧)对应提取一个p维的特征向量，该第二语音样本的所有时间单位的特征向量汇集在一起，形成一个特征矩阵。其中，该特征矩阵的一行对应一个时间单位，一列对应一维特征向量。假设第二语音样存在q个音频帧，那么可以得到q*p的特征矩阵。
92.可以对语音语义特征进行时间维度上的池化处理，例如平均池化处理，又如最大池化处理，即，针对特征矩阵中的每一列，提取最大的元素值，最终得到一个1*p的语音表示向量。该语音表示向量即为语音语义特征的语音表示向量。
93.相应地，可以计算各所述语音语义特征的语音表示向量与各所述文本语义特征的文本表示向量之间的语义相似度。本步骤中，通过确定语音语义特征和文本语义特征的语义相似度，可以为训练提供明确的参考标准。具体的，参与相似度计算的可以为n个语音语义特征中各语音语义特征的语音向量表示，以及，n个文本语义特征中各文本语义特征的文本向量表示。示例性地，可以计算各语音向量表示与各文本向量表示之间的余弦相似度来计算语义相似度。通过将语音语义特征和文本语义特征分别转换为句子级别的语音表示向量和文本表示向量，可直接计算两个向量的相似度，得到语义相似度。从而既能减少计算量，又可简化相似度计算。需要说明的是，此处提到句子级别，是因为语音数据和文本数据通常都会经过预处理，按照句子进行分段，所以一个语音样本或一个文本样本往往就是一个句子的内容，语音样本的语音表示向量或文本样本的文本表示向量就是句子级别的表示向量。
94.本公开实施例中，在使用语音语义特征计算相似度之前，先对于第二语音样本的语音语义特征进行时间维度上的池化处理，得到语音语义特征的语音表示向量，基于语音语义特征的语音表示向量参与相似度计算，一定程度上可以使得后续参与相似度计算的特征表示效果更好，进而确保模型的整体处理效果。
95.需要说明的是，文本提取子网络可以在输出文本语义特征时在句首增加一个字符，又或者在句首和句尾分别添加字符，用于表征这句话的文本表示，例如，在文本语音提取子网络为bert、roberta或macbert时，这类网络可以在句首增加一个字符。本公开实施例中，可以直接取文本语义特征的句首字符作为句子级别的文本表示向量。当然，对于不输出这个句首字符的网络，则可对文本语义特征同样执行前述的时间维度上的池化处理或做其他转化处理，得到文本表示向量。例如，按照字符进行最大池化。例如，第二文本样本包括10个字符以及在句首和句尾添加符号，共计12个字符。一个字符对应r维的特征向量，该第二文本样本的所有字符的特征向量汇集在一起，形成一个特征矩阵。其中，该特征矩阵的一行对应一个字符，一列对应一维特征向量，那么可以得到12*r的特征矩阵。进一步地，可以针
对该特征矩阵中的每一列，提取最大的元素值，最终得到一个1*r的文本表示向量。该文本表示向量即为文本语义特征的文本表示向量。本公开实施例中，在使用文本语义特征计算相似度之前，先对于第二文本样本的文本语义特征进行字符维度上的池化处理，得到文本语义特征的语音表示向量，基于文本语义特征的文本表示向量参与相似度计算，一定程度上可以使得后续参与相似度计算的特征表示效果更好，进而确保模型的整体处理效果。
96.上述p以及q的具体值可以根据实际情况设置，假设上述p以及q均为768，那么第二语音样本和第二文本样本的batch数据分别变成了两个16乘以768维度的向量。
97.步骤s23、基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，以得到经训练的所述第一多模态提取网络。
98.本步骤中，可以基于计算得到的多个语义相似度确定当前的损失值，基于当前的损失值对语音提取子网络以及文本提取子网络的网络参数均进行优化更新。例如，参数更新方法可为深度神经网络常用的反向传播法。并在更新之后继续重复上述训练过程，只至损失值符合预设要求，例如，小于预设损失值阈值。经过不断的更新迭代，就可以完成语音提取子网络以及文本提取子网络的预训练。其中，对更新后的语音提取子网络以及文本提取子网络再次进行训练时，可以使用还未使用过的batch中的第二语音样本及对应的第二文本样本。
99.本公开实施例中，将n个第二语音样本输入语音提取子网络进行语义特征提取，得到n个语音语义特征，以及，将n个第二语音样本对应的n个第二文本样本输入文本提取子网络进行语义特征提取，得到n个文本语义特征；n为大于等于2的正整数。计算n个语音语义特征中各语音语义特征与n个文本语义特征中各文本语义特征之间的语义相似度。基于语义相似度，调整语音提取子网络以及文本提取子网络的网络参数，以得到经训练的所述第一多模态提取网络。这样，一定程度上可以使得语音提取子网络以及文本提取子网络能够学习到丰富的语义信息以及学习到生成准确且相对应的语义特征的能力，进而确保预训练的训练效果。
100.可选的，上述基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数的步骤，具体可以包括：
101.步骤s41、基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述n，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征。
102.具体的，在第一语义特征为语音语义特征时，所述第二语义特征为文本语义特征，在第一语义特征为文本语义特征时，第二语义特征为语音语义特征。
103.本公开实施例中，相似度矩阵中的一行可以对应一个文本语义特征，一列可以对应一个语音语义特征，一个元素即为元素所在行对应的文本语义特征与元素所在列对应的语音语义特征之间的相似度。或者，相似度矩阵中的一行可以对应一个语音语义特征，一列可以对应一个文本语义特征。
104.示例的，图2是根据一示例性实施例示出的一种相似度矩阵示意图，假设一行对应一个文本语义特征，一列对应一个语音语义特征ti表示文本语义特征，sj表示语音语义特征，i，j∈1，
…
，n。那么相似度矩阵可以如图2所示。tisj可以表示第i个文本语义特征与第j
个语音语义特征之间的语义相似度。其中语义相似度矩阵a可以＝余弦相似度(s_n,t_n)，其中a
i,j
表示第i条第二文本样本的文本语义特征和第j条第二语音样本的语音语义特征的相似度，即，i行j列中的元素。
105.步骤s42、根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值。
106.本步骤中，在存在多个语义相似度的情况下，通过划分行列，一定程度上可以提高第一目标损失值的计算效率。
107.步骤s43、根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。
108.本公开实施例中，通过构建相似度矩阵，针对相似度矩阵按行按列计算第一目标损失值，从而一定程度上可以提高第一目标损失值的计算效率，进而提高后续的调参效率。
109.可选的，本发明实施例中，相似度矩阵中对角线上的元素用于表征第一目标语音样本与第一目标文本样本之间的相似度，所述第一目标语音样本与所述第一目标文本样本的内容相匹配；所述相似度矩阵中非对角线上的元素用于表征第二目标语音样本与第二目标文本样本之间的相似度，所述第二目标语音样本与所述第二目标文本样本的内容不相匹配；所述第一目标语音样本及所述第二目标语音样本属于n个所述第二语音样本，所述第一目标文本样本及所述第二目标文本样本属于n个所述第二文本样本。根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值的操作，具体可以包括：
110.步骤s51、对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关。
111.步骤s52、对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关。
112.具体的，第一损失值可以与第一占比负相关，第一占比用于表征行中对角线上的元素相对行中非对角线上的元素之和的比值，第二损失值与第二占比负相关，第二占比用于表征列中对角线上的元素相对列中非对角线上的元素之和的比值。本步骤中，对于任一行，可以计算该行中处于矩阵对角线上的元素与该行中所有元素之和的比值，或者，计算该行中处于矩阵对角线上的元素与该行中未处于矩阵对角线上的元素之和的比值，作为第一占比；基于该第一占比计算第一损失值，例如，直接将负的第一占比作为第一损失值。其中，该第一占比越大，第一损失值可以越小。对于任一列，可以计算该列中处于矩阵对角线上的元素与该列中所有元素之和的比值，或者计算该列中处于矩阵对角线上的元素与该列中未处于矩阵对角线上的元素之和的比值，作为第二占比；基于该第二占比计算第二损失值，例如，直接将负的第二占比作为第二损失值。其中，该第二占比越大，第二损失值可以越小。示例性地，可以基于预设的交叉熵损失函数，按行按列的分别计算交叉熵。其中，各行对应的交叉熵即为各行对应的第一损失值，各列对应的交叉熵即为各列对应的第二损失值。当然，也可以采用其他函数计算第一损失值、第二损失值，本发明实施例对此不作限制。
113.步骤s53、基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。
114.本步骤中，第一目标损失值可以与对角线上的元素负相关，与非对角线上的元素正相关。可以计算所有第一损失值之和以及所有第二损失值之和，得到第一和值以及第二和值，计算第一和值与第二和值之和与2n的比值。其中2n可以表示所有第一损失值与所有第二损失值的总数量。即，可以计算第一损失值与第二损失值的均值，作为第一目标损失值。
115.示例性地，在一种实现方式中，第一目标损失值的计算方式可以通过下述公式表示：
[0116][0117]
其中，可以表示第一损失值，可以表示第二损失值。
[0118]
本公开实施例中，由于相似度矩阵中对角线上的元素表示相匹配的一对第二语音样本与第二文本样本之间的相似度，即，对角线上的元素可以表征正确的配对关系，非对角线上的元素表征错误的配对关系。因此，本公开实施例中，以第一损失值与行中位于相似度矩阵的对角线上的元素负相关，与行中位于相似度矩阵的非对角线上的元素正相关，第二损失值与列中位于相似度矩阵的对角线上的元素负相关，与列中位于相似度矩阵的非对角线上的元素正相关的方式，计算第一目标损失值。这样，一定程度上可以使得确定损失值的过程中，可以最大化对角线上的配对数据的相似度，最小化非对角线上的配对数据的相似度，在第一目标损失值较大，即，还不能较好的针对成对的语音文本生成相匹配的语义特征的情况下，可以更大程度的调节优化模型参数，提高模型将至少两个语音语义特征分别与至少两个文本语义特征相匹配的能力，进而提高针对成对的语音文本生成相匹配的语义特征的能力，从而确保模型后续的意图识别效果。
[0119]
图3是根据一示例性实施例示出的一种训练流程示意图，如图3所示，针对成对第二语音样本以及第二文本样本，进行切分，即，可以先进行切分batch，即，划分n个第二语音样本以及n个第二语音样本对应的n个第二文本样本。接着，可以分别输入第二语音样本以及第二文本样本，提取语音特征以及提取文字特征。将提取到的语音特征以及文字特征输入语音提取子网络以及文本提取子网络。其中，语音提取子网络以及文本提取子网络可以分别为语音编码器的骨干网络以及文本编码器的骨干网络。对于得到的语音表示向量以及文本表示向量，计算语义相似度矩阵。最后，计算第一目标损失值，并基于第一目标损失值调整语音提取子网络以及文本提取子网络的网络参数。在这个过程中，语音提取子网络以及文本提取子网络均参与训练，经过大量的语音-文本对数据的训练，得到两个可以充分表示语音和文本信息的编码器。
[0120]
本公开实施例中，在构造的一个batch数据中，模型可以学习到准确的判断哪些语音和文本数据是配对关系，比如batch数据有两对音频-文本对，分别为音频a，音频b，文本a，文本b，分别两两组合计算得到音频a文本a之间的相似度、音频a文本b之间的相似度、音频b文本a之间的相似度以及音频b文本b之间的相似度，得到四种配对关系。以正确配对关系的音频文本之间的标签为1，错误配对关系的音频文本之间的标签为0为例，其中音频a与文本a以及音频b与文本b的标签为1，其他均为0。通过训练语音提取子网络以及文本提取子网络，使得模型能够判断出哪些配对的标签为1，哪些配对的标签为0，即，第一训练阶段的
参数优化可以对应一个分类问题，余弦相似度是作为关联两种模态信息的一种方式，通过使用交叉熵损失函数，使得模型学习到从一批数据中匹配正确的配对关系的能力，进而提高针对成对的语音文本生成相匹配的语义特征的能力，从而在以batch为单位进行训练的方式中，提高处理效率。
[0121]
可选的，上述基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型的步骤，具体可以包括：
[0122]
步骤s61、将所述第一语音样本以及所述第一文本样本分别输入所述第二多模态提取网络中的语音提取子网络及文本提取子网络进行语义特征提取，得到目标语音语义特征及目标文本语义特征。
[0123]
具体的，语音提取子网络及文本提取子网络提取得到目标语音语义特征及目标文本语义特征的实现方式可以参照前述提取语音语义特征以及文本语义特征的相关描述，此处不再赘述。
[0124]
步骤s62、将所述目标语音语义特征及目标文本语义特征输入所述意图识别网络，得到所述预估语音意图。
[0125]
具体的，对目标语音语义特征以及目标文本语义特征进行拼接，并将拼接后的特征输入意图识别网络，经过意图识别网络处理，即可得到预估语音意图。其中，意图识别网络可以为多模态语音意图识别模型。输入的目标语音语义特征以及目标文本语义特征可以是经过处理后得到的语音表示向量以及文本表示向量。具体的，得到语音表示向量以及文本表示向量的方式，可以参照前述相关描述，此处不再赘述。
[0126]
步骤s63、根据所述预估语音意图和所述意图标签，确定第二目标损失值。
[0127]
步骤s64、基于所述第二目标损失值，调整所述意图识别网络的网络参数，或调整所述意图识别网络、所述第二多模态提取网络中语音提取子网络及文本提取子网络的网络参数，以得到经训练的所述语音意图识别模型。
[0128]
具体的，计算第二目标损失值的方式可以根据实际需求选择，本公开对比不做限制。例如，可以计算预估语音意图和所述意图标签之间的相似度，基于相似度确定第二目标损失值，第二目标损失值与相似度负相关。具体的调参方式可以按需选择，本公开对此不做限制。
[0129]
由于语音提取子网络以及文本提取子网络经过预训练后，已经具备一定的准确率，因此，本公开实施例中可以可按需选择仅调整意图识别网络的网络参数，从而大幅减少调整的参数量，提升训练效率。或者，也可以同时调整预训练得到的语音提取子网络、文本提取子网络及意图识别网络的网络参数。这样，虽然调整的参数量相对前者较大，但由于语音提取子网络以及文本提取子网络已经经过预训练，整个调参计算会更容易收敛，即，相对于未经过预训练的情况，能够缩短训练耗时，因而同样有助于提升训练效率。作为示例，可以在确定的第二目标损失值不大时(例如，小于指定阈值时)仅调整意图识别网络的参数，在确定的第二目标损失值较大时(例如，不小于指定阈值时)同时调整预训练得到的语音提取子网络、文本提取子网络以及意图识别网络的网络参数，当然也可以配置其他的判断条件，或者按需选择语音提取子网络以及文本提取子网络中要调整参数的网络，本公开对此不作限制。
[0130]
本公开实施例中，可以加载导入第一训练阶段得到的语音提取子网络以及文本提
取子网络，并在导入之后，利用带有意图标签的第一语音样本及对应的第一文本样本的成对训练数据进行继续训练。具体的，可以获取经训练的所述第一多模态提取网络中网络参数的参数值。基于所述网络参数的参数值设置所述第二多模态提取网络中网络参数的值，以实现导入。示例性地，可以使用经训练的第一多模态提取网络中各项网络参数的参数值，初始化第二多模态提取网络中各项网络参数的值，从而使得第二多模态提取网络继承经训练的第一多模态提取网络的网络参数。这样，通过基于经训练的第一多模态提取网络中网络参数的参数值，设置第二多模态提取网络中网络参数的值，即可使得语音意图识别模型中的第二多模态提取网络达到经过预训练的效果，从而一定程度上可以提高语音意图识别模型的整体训练效率。
[0131]
图4是根据一示例性实施例示出的另一种训练过程示意图，如图4所示，可以输入带有意图标签的第一语音样本以及第一文本样本。然后，提取语音特征以及文本特征，接着，输入导入的预训练后的语音提取子网络及文本提取子网络，分别得到目标语音语义特征及目标文本语义特征。接着，将目标语音语义特征及目标文本语义特征输入意图识别网络，得到预估语音意图。基于预估语音意图和意图标签，确定第二目标损失值。基于第二目标损失值调整网络参数。
[0132]
需要说明的是，本公开实施例中，由于已经完成了语音提取子网络及文本提取子网络的预训练，因此获取带有意图标签的第一语音样本及对应的第一文本样本时，可以仅获取少量的人工标注数据，降低数据准备成本。
[0133]
下面对本公开实施例涉及的一种应用场景进行说明。目前，传统的语音意图识别较多用于人机交互领域，例如，智能家居和手机语音助手，在这些场景下，语音往往包含简单的指令性内容，语音内容本身就基本等同于意图，具体表达方式的变化相对较少。例如，意图是“打开窗帘”，对应的语音内容可以是“打开窗帘”、“开窗帘”、“把窗帘打开”。在这种场景下，传统的语音意图识别方法常常应用两阶段模型，第一步先经过自动语音识别(automatic speech recognition，asr)模型，将语音转换为文字(asr结果)，第二步再将asr结果输入自然语言理解(natural language understanding，nlu)模型，输出预定义好的意图类别。
[0134]
而直播场景或者智能客服场景中，所需识别的语音(例如主播的讲解语音)往往较长且为陈述性内容，讲解内容本身并不等同于意图，相同意图可以有大量不同的具体表达方式。例如，直播过程中，主播讲解的内容可以区分为营造气氛、介绍商品、回答观众问题等意图，不同意图往往表示当前所处的环节。不同环节直播平台对于直播间的流量分发策略不同。因此，需要对于主播的讲解意图进行识别。在一种实现方式中，是直接基于端到端的方法，构造语音内容理解的端到端模型(例如，e2e-slu模型)，这种方式中，直接输入语音信号，输出意图类别。
[0135]
本公开实施例中，采用两阶段多模态方法，先将语音转换为文本，将语音以及文本均输入语音意图识别模型，使得语音意图识别模型基于语音以及文本输出意图类别。这样，可以充分利用语音和文本这两种模态信息，从而一定程度上提高识别效果。且本公开实施例中，采用两阶段的训练方法，在第一阶段使用获取难度较低的语音-文本数据来预训练语音提取子网络以及文本提取子网络。由于第一阶段中已经训练了语音提取子网络以及文本提取子网络，因此，在第二阶段利用少量获取难度较高的意图-语音及文本数据即可实现语
音意图识别模型的训练。相较于直接使用携带意图标签的训练数据进行训练的方式，一定程度上可以降低对人工标注数据的依赖，减少所需使用的携带意图标签的训练数据的数量，从而一定程度上可以降低训练所需的数据成本，降低模型训练的实现难度，提高模型训练的可行性。
[0136]
且通过降低对人工标注数据的依赖，一定程度上可以解决由于意图识别准确率严重依赖于人工标注的训练数据的数据量的问题，而人工标注训练数据的成本较高，导致训练效果难以保证的问题。
[0137]
本公开实施例中，还提供一种语音意图识别方法。该语音意图识别方法可以在完成上述训练过程之后执行。该语音意图识别方法可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备中实现，也可以在诸如服务器的设备中实现。
[0138]
具体的，该方法中，可以获取待识别语音。待识别语音也就是需要识别其意图的语音，每个待识别语音可为一句话的语音。将待识别语音以及待识别语音对应的文本输入语音意图识别模型，得到预估语音意图。其中，语音意图识别模型是利用上述的语音意图识别模型的训练方法训练得到的，因而该语音意图识别方法具备更加本公开的示例性实施例的语音意图识别模型的训练方法的全部有益效果，在此不作赘述。应理解，在语音意图识别模型执行计算时，会先由语音提取子网络提取待识别语音的语音语义特征，由文本提取子网络提取待识别语音对应的文本的文本语义特征，之后再由意图识别网络计算出预估意图。
[0139]
图5是根据一示例性实施例示出的一种语音意图识别模型的训练装置框图，如图5所示，该装置20可以包括：
[0140]
第一获取模块201，被配置为执行获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；
[0141]
第二获取模块202，被配置为执行获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；
[0142]
训练模块203，被配置为执行基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；
[0143]
其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。
[0144]
在一种可选实施例方式中，所述第二获取模块202，具体被配置为执行：
[0145]
将n个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到n个所述语音语义特征，以及，将n个所述第二语音样本对应的n个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到n个所述文本语义特征；所述n为大于等于2的正整数；
[0146]
计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度；
[0147]
基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络
参数，以得到经训练的所述第一多模态提取网络。
[0148]
在一种可选实施例方式中，所述第二获取模块202，具体还被配置为执行：
[0149]
基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述n，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征；
[0150]
根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值；
[0151]
根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。
[0152]
在一种可选实施例方式中，所述第二获取模块202，具体还被配置为执行：
[0153]
对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关；
[0154]
对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关；
[0155]
基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。
[0156]
在一种可选实施例方式中，所述装置20还包括：
[0157]
池化模块，被配置为在所述第二获取模块202执行计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度之前，执行对于n个所述第二语音样本中的任一所述第二语音样本，对所述第二语音样本的语音语义特征进行时间维度上的池化处理，得到所述语音语义特征的语音表示向量；
[0158]
所述第二获取模块202，具体还被配置为执行：计算各所述语音语义特征的语音表示向量与各所述文本语义特征的文本表示向量之间的语义相似度。
[0159]
在一种可选实施例方式中，所述训练模块203，具体被配置为执行：
[0160]
将所述第一语音样本以及所述第一文本样本分别输入所述第二多模态提取网络中的语音提取子网络及文本提取子网络进行语义特征提取，得到目标语音语义特征及目标文本语义特征；
[0161]
将所述目标语音语义特征及目标文本语义特征输入所述意图识别网络，得到所述预估语音意图；
[0162]
根据所述预估语音意图和所述意图标签，确定第二目标损失值；
[0163]
基于所述第二目标损失值，调整所述意图识别网络的网络参数，或调整所述意图识别网络、所述第二多模态提取网络中语音提取子网络及文本提取子网络的网络参数，以得到经训练的所述语音意图识别模型。
[0164]
可选的，所述装置20还包括：第三获取模块，被配置为在所述训练模块203执行基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型之前，执行获取经训练的所述第一多模态提取网络中网络参数的参数值；设置模块，被配置为执行基于所述网络参数的参数值设置所述第二多
模态提取网络中网络参数的值。
[0165]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0166]
根据本公开的一个实施例，提供了一种电子设备，包括：处理器、用于存储处理器可执行指令的存储器，其中，处理器被配置为执行时实现如上述任一个实施例中的语音意图识别模型的训练方法中的步骤。
[0167]
根据本公开的一个实施例，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的语音意图识别模型的训练方法中的步骤。
[0168]
根据本公开的一个实施例，还提供了一种计算设备程序产品，该计算设备程序产品包括可读性程序指令，可读性程序指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一个实施例中的语音意图识别模型的训练方法中的步骤。
[0169]
图6是根据一示例性实施例示出的一种用于语音意图识别模型训练的装置的框图。其中，装置700可以包括处理组件702、存储器704、电源组件706、多媒体组件708、音频组件710、输入/输出接口712、传感器组件714、通信组件716以及处理器720。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的语音意图识别模型的训练方法的全部或部分步骤。在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器704，上述指令可由装置700的处理器720执行以完成上述方法。可选地，存储介质可以是非临时性计算设备可读存储介质，例如，所述非临时性计算设备可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0170]
图7是根据一示例性实施例示出的另一种用于语音意图识别模型训练的装置的框图。其中，装置800可以包括处理组件822、存储器832、输入输出接口858、网络接口850以及电源组件826。装置800可以被提供为一服务器。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述语音意图识别模型的训练方法。
[0171]
本公开所涉及的用户信息(包括但不限于用户的设备信息、用户个人信息等)、相关数据等均为经用户授权或经各方授权后的信息。
[0172]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0173]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征：

1.一种语音意图识别模型的训练方法，其特征在于，所述方法包括：获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。2.根据权利要求1所述的方法，其特征在于，所述获取经训练的第一多模态提取网络，包括：将n个所述第二语音样本输入所述语音提取子网络进行语义特征提取，得到n个所述语音语义特征，以及，将n个所述第二语音样本对应的n个所述第二文本样本输入所述文本提取子网络进行语义特征提取，得到n个所述文本语义特征；所述n为大于等于2的正整数；计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度；基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，以得到经训练的所述第一多模态提取网络。3.根据权利要求2所述的方法，其特征在于，所述基于所述语义相似度，调整所述语音提取子网络以及所述文本提取子网络的网络参数，包括：基于所述语义相似度，构建相似度矩阵；其中，所述相似度矩阵的行数及列数均为所述n，所述相似度矩阵中的一个元素表示所述元素所在行对应的第一语义特征与所在列对应的第二语义特征之间的相似度，在所述第一语义特征和所述第二语义特征中，两者择一为所述语音语义特征，另一为所述文本语义特征；根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值；根据所述第一目标损失值调整所述语音提取子网络以及所述文本提取子网络的网络参数。4.根据权利要求3所述的方法，其特征在于，所述根据所述相似度矩阵中的各行元素以及各列元素，计算第一目标损失值，包括：对于所述相似度矩阵中的任一行，基于所述行中位于对角线上的元素以及所述行中位于非对角线上的元素计算所述行对应的第一损失值；所述第一损失值与所述行中对角线上的元素负相关，且所述第一损失值与所述行中非对角线上的元素正相关；对于所述相似度矩阵中的任一列，基于所述列中位于对角线上的元素以及所述列中位于非对角线上的元素计算所述列对应的第二损失值；所述第二损失值与所述列中对角线上的元素负相关，且所述第二损失值与所述列中非对角线上的元素正相关；
基于各所述行对应的第一损失值以及各所述列对应的第二损失值，确定所述第一目标损失值。5.根据权利要求2-4任一所述的方法，其特征在于，所述计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度之前，所述方法还包括：对于n个所述第二语音样本中的任一所述第二语音样本，对所述第二语音样本的语音语义特征进行时间维度上的池化处理，得到所述语音语义特征的语音表示向量；所述计算n个所述语音语义特征中各所述语音语义特征与n个所述文本语义特征中各所述文本语义特征之间的语义相似度，包括：计算各所述语音语义特征的语音表示向量与各所述文本语义特征的文本表示向量之间的语义相似度。6.根据权利要求1所述的方法，其特征在于，所述基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型，包括：将所述第一语音样本以及所述第一文本样本分别输入所述第二多模态提取网络中的语音提取子网络及文本提取子网络进行语义特征提取，得到目标语音语义特征及目标文本语义特征；将所述目标语音语义特征及目标文本语义特征输入所述意图识别网络，得到所述预估语音意图；根据所述预估语音意图和所述意图标签，确定第二目标损失值；基于所述第二目标损失值，调整所述意图识别网络的网络参数，或调整所述意图识别网络、所述第二多模态提取网络中语音提取子网络及文本提取子网络的网络参数，以得到经训练的所述语音意图识别模型。7.一种语音意图识别模型的训练装置，其特征在于，所述装置包括：第一获取模块，被配置为执行获取第一训练样本集，所述第一训练样本集包括带有意图标签的第一语音样本及对应的第一文本样本；第二获取模块，被配置为执行获取经训练的第一多模态提取网络，所述第一多模态提取网络至少包括用于提取语音语义特征的语音提取子网络、和用于提取文本语义特征的文本提取子网络，所述第一多模态提取网络是利用由第二语音样本及对应的第二文本样本所构成的第二训练样本集进行训练得到；训练模块，被配置为执行基于所述带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型；其中，所述语音意图识别模型包括第二多模态提取网络和意图识别网络，所述第二多模态提取网络与所述第一多模态提取网络的网络结构相同、且继承经训练的所述第一多模态提取网络的网络参数，所述意图识别网络基于所述第二多模态提取网络提取的各模态特征得到预估语音意图。8.一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；
其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的方法。9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1至6中任一项所述的方法。10.一种计算设备程序产品，其特征在于，所述计算设备程序产品包括可读性程序指令，所述可读性程序指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1至6中任一项所述的方法。

技术总结

本公开关于一种语音意图识别模型的训练方法、装置及电子设备，涉及语音识别技术领域。本公开中，获取带有意图标签的第一语音样本及对应的第一文本样本。获取经训练的利由第二语音样本及对应的第二文本样本训练得到的第一多模态提取网络。基于带有意图标签的第一语音样本及对应的第一文本样本，对语音意图识别模型进行训练，得到经训练的语音意图识别模型。语音意图识别模型中的第二多模态提取网络与第一多模态提取网络的网络结构相同、且继承经训练的第一多模态提取网络的网络参数，语音意图识别模型中的意图识别网络基于第二多模态提取网络提取的各模态特征得到预估语音意图。这样，可以降低训练样本获取成本，降低模型训练的实现难度。练的实现难度。练的实现难度。