语音生成方法、装置、设备、介质及产品与流程

1.本发明涉及语音交互技术领域，尤其涉及一种语音生成方法、装置、设备、介质及产品。

背景技术：

2.随着人工智能技术的飞速发展，多模态数字人智能客服被广泛应用于金融、物流等领域，通过智能化的各功能提高了企业客服的服务水平。多模态数字人智能客服在传统电话外呼场景的智能客服的基础上，将计算机视觉、智能语音、自然语言处理等人工智能技术深度融合，给用户提供了一种更加真实的交互方式。
3.在目前的多模态数字人交互系统中，通常采用一个通用发音人进行模型训练和语音合成。该方法虽然可以满足智能语音交互的基本需求，但是音、情感比较单一，多轮对话后用户体验较差。

技术实现要素：

4.本发明提供一种语音生成方法、装置、设备、介质及产品，用以解决目前多模态数字人交互系统中，采用通用发音人，音和情感比较单一，导致的用户体验较差问题。
5.本发明第一方面提供一种语音生成方法，包括：
6.获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据；
7.将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据；
8.将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱；
9.将所述目标音频频谱输入预设声码器网络模型，以生成目标语音。
10.进一步地，如上所述的方法，所述情感分析网络模型包括：音频特征提取网络子模型和视频特征提取子网络模型；所述用户情感特征数据包括：用户动作情感特征向量和用户声音情感特征向量；
11.所述将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据，包括：
12.采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量；
13.采用所述视频特征提取子网络模型对所述用户面部特征向量和所述用户行为特征向量进行情感分析处理，以生成对应用户动作情感特征向量；
14.采用音频特征提取网络子模型对所述历史交互视频数据中的音频信息进行特征提取处理，以生成对应用户声音情感特征向量。
15.进一步地，如上所述的方法，所述采用所述视频特征提取子网络模型对历史交互
视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量，包括：
16.采用所述视频特征提取子网络模型对所述历史交互视频数据进行面部识别及表情分析处理，以生成对应用户面部特征向量；
17.采用所述视频特征提取子网络模型对所述历史交互视频数据进行动作捕捉分析处理，以生成对应用户行为特征向量。
18.进一步地，如上所述的方法，所述音频频谱合成网络模型包括：编码器、聚合子网络模型和解码器；
19.所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱，包括：
20.采用所述编码器对所述文本音素序列进行特征提取，以生成对应文本特征向量；
21.采用所述聚合子网络模型对所述文本特征向量和所述用户情感特征数据进行通道维度连接和线性变换融合处理，以使所述用户情感特征数据嵌入所述文本特征向量中，生成对应聚合特征向量；
22.将所述聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱。
23.进一步地，如上所述的方法，所述音频频谱合成网络模型还包括：注意力对齐子网络模型；
24.所述方法还包括：
25.采用所述解码器对所述聚合特征向量进行解码处理，以生成语音特征向量；
26.采用所述注意力对齐子网络模型对所述聚合特征向量和所述语音特征向量进行对齐处理，以生成对齐后的聚合特征向量；
27.所述将所述聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱，包括：
28.将所述对齐后的聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱。
29.进一步地，如上所述的方法，所述获取语音交互待生成语音的文本音素序列，包括：
30.获取语音交互待生成语音的文本数据；
31.将所述文本数据转化为对应文本音素序列。
32.进一步地，如上所述的方法，所述将所述目标音频频谱输入预设声码器网络模型，以生成目标语音，包括：
33.采用预设声码器网络模型将所述目标音频频谱转化为时域波形，以生成目标语音。
34.进一步地，如上所述的方法，所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱之前，还包括：
35.获取训练样本，所述训练样本中包括：用户的历史交互视频数据和用户实际音频频谱；
36.将所述训练样本输入到预设音频频谱合成网络模型中，以对所述预设音频频谱合成网络模型进行训练；
37.采用均方误差损失函数判断所述预设音频频谱合成网络模型是否满足收敛条件；
38.将满足收敛条件的所述预设音频频谱合成网络模型确定为训练至收敛的音频频谱合成网络模型。
39.本发明第二方面提供一种语音生成装置，包括：
40.获取模块，用于获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据；
41.输出模块，用于将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据；
42.频谱生成模块，用于将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱；
43.语音生成模块，用于将所述目标音频频谱输入预设声码器网络模型，以生成目标语音。
44.进一步地，如上所述的装置，所述情感分析网络模型包括：音频特征提取网络子模型和视频特征提取子网络模型；所述用户情感特征数据包括：用户动作情感特征向量和用户声音情感特征向量；
45.所述输出模块具体用于：
46.采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量；采用所述视频特征提取子网络模型对所述用户面部特征向量和所述用户行为特征向量进行情感分析处理，以生成对应用户动作情感特征向量；采用音频特征提取网络子模型对所述历史交互视频数据中的音频信息进行特征提取处理，以生成对应用户声音情感特征向量。
47.进一步地，如上所述的装置，所述输出模块在采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量时，具体用于：
48.采用所述视频特征提取子网络模型对所述历史交互视频数据进行面部识别及表情分析处理，以生成对应用户面部特征向量；采用所述视频特征提取子网络模型对所述历史交互视频数据进行动作捕捉分析处理，以生成对应用户行为特征向量。
49.进一步地，如上所述的装置，所述音频频谱合成网络模型包括：编码器、聚合子网络模型和解码器；
50.所述频谱生成模块具体用于：
51.采用所述编码器对所述文本音素序列进行特征提取，以生成对应文本特征向量；采用所述聚合子网络模型对所述文本特征向量和所述用户情感特征数据进行通道维度连接和线性变换融合处理，以使所述用户情感特征数据嵌入所述文本特征向量中，生成对应聚合特征向量；将所述聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱。
52.进一步地，如上所述的装置，所述音频频谱合成网络模型还包括：注意力对齐子网络模型；
53.所述频谱生成模块还用于：
54.采用所述解码器对所述聚合特征向量进行解码处理，以生成语音特征向量；采用所述注意力对齐子网络模型对所述聚合特征向量和所述语音特征向量进行对齐处理，以生
成对齐后的聚合特征向量；
55.所述频谱生成模块在将所述聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱时，具体用于：
56.将所述对齐后的聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱。
57.进一步地，如上所述的装置，所述获取模块具体用于：
58.获取语音交互待生成语音的文本数据；将所述文本数据转化为对应文本音素序列。
59.进一步地，如上所述的装置，所述语音生成模块具体用于：
60.采用预设声码器网络模型将所述目标音频频谱转化为时域波形，以生成目标语音。
61.进一步地，如上所述的装置，所述语音生成装置还包括：
62.训练模块，用于获取训练样本，所述训练样本中包括：用户的历史交互视频数据和用户实际音频频谱；将所述训练样本输入到预设音频频谱合成网络模型中，以对所述预设音频频谱合成网络模型进行训练；采用均方误差损失函数判断所述预设音频频谱合成网络模型是否满足收敛条件；将满足收敛条件的所述预设音频频谱合成网络模型确定为训练至收敛的音频频谱合成网络模型。
63.本发明第三方面提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；
64.所述存储器存储计算机执行指令；
65.所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面任一项所述的语音生成方法。
66.本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的语音生成方法。
67.本发明第五方面提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项所述的语音生成方法。
68.本发明提供的一种语音生成方法、装置、设备、介质及产品，该方法包括：获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据；将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据；将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱；将所述目标音频频谱输入预设声码器网络模型，以生成目标语音。本发明的语音生成方法，通过将目标用户上一次语音交互的历史交互视频数据输入训练至收敛的情感分析网络模型，可以输出用户情感特征数据，从而在将待生成语音的文本因素序列和用户情感特征数据输入训练至收敛的音频频谱合成网络模型后，可以生成更贴近实际音频频谱的目标音频频谱，最后通过将目标音频频谱输入预设声码器网络模型可以生成情感更丰富的目标语音，提高用户体验。
附图说明
69.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
70.图1为可以实现本发明实施例的语音生成方法的场景图；
71.图2为本发明第一实施例提供的语音生成方法的流程示意图；
72.图3为本发明第二实施例提供的语音生成方法的流程示意图；
73.图4为本发明第二实施例提供的语音生成方法的流程结构示意图；
74.图5为本发明第三实施例提供的语音生成装置的结构示意图；
75.图6为本发明第四实施例提供的语音生成装置的结构示意图；
76.图7为本发明第五实施例提供的电子设备的结构示意图。
77.通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
78.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
79.本发明实施例的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
80.下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。
81.为了清楚理解本技术的技术方案，首先对现有技术的方案进行详细介绍。目前相对于传统人工客服，多模态数字人智能客服具有以下优势：1、可以提供7x24小时在线服务，2、节省企业用工成本，3、减少客户排队时间，提高服务质量。因而，多模态数字人智能客服被广泛应用于金融、物流等领域。多模态数字人智能客服在交互时需要进行语音合成，语音合成是一个将文本转化为语音输出的过程，这个过程的工作主要是将输入的文本按照发音分解成音素，并对特殊符号进行处理，通过声学模型和声码器将音素序列转换成数字音频。在目前的多模态数字人交互系统中，通常采用一个通用发音人进行模型训练和语音合成。该方法虽然可以满足智能语音交互的基本需求，但是音、情感比较单一，多轮对话后用户体验较差。
82.所以针对现有技术中多模态数字人交互系统中，采用通用发音人，音和情感比较单一，导致的用户体验较差的问题，发明人在研究中发现，为了解决该问题，可以结合用户情感特征，丰富发音人音和情感，提高用户体验。
83.具体的，首先获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据。同时，将历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据。然后将文本音素序列和用户情感特征数据输入训
练至收敛的音频频谱合成网络模型，以生成目标音频频谱。最后将目标音频频谱输入预设声码器网络模型，以生成目标语音。
84.本发明的语音生成方法，通过将目标用户上一次语音交互的历史交互视频数据输入训练至收敛的情感分析网络模型，可以输出用户情感特征数据，从而在将待生成语音的文本因素序列和用户情感特征数据输入训练至收敛的音频频谱合成网络模型后，可以生成更贴近实际音频频谱的目标音频频谱，最后通过将目标音频频谱输入预设声码器网络模型可以生成情感更丰富的目标语音，提高用户体验。
85.发明人基于上述的创造性发现，提出了本技术的技术方案。
86.下面对本发明实施例提供的语音生成方法的应用场景进行介绍。如图1所示，其中，1为第一电子设备，2为第二电子设备。本发明实施例提供的语音生成方法对应的应用场景的网络架构中包括：第一电子设备1和第二电子设备2。第二电子设备2存储有待生成语音的文本音素序列和用户的历史交互视频数据。第二电子设备2中存储的数据可以是从多模态数字人交互系统获取的，也可以是人工输入的。第二电子设备2中存储的文本音素序列可以由文本数据转化而来。
87.当需要进行语音生成时，第一电子设备1从第二电子设备2处获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据。同时，第一电子设备1将历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据。将文本音素序列和用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱。然后，第一电子设备1将目标音频频谱输入预设声码器网络模型，以生成目标语音，在生成目标语音后可以根据该目标语音与用户进行语音交互，也可以存储在语音数据库中。
88.下面结合说明书附图对本发明实施例进行介绍。
89.图2为本发明第一实施例提供的语音生成方法的流程示意图，如图2所示，本实施例中，本发明实施例的执行主体为语音生成装置，该语音生成装置可以集成在多模态数字人交互系统中。则本实施例提供的语音生成方法包括以下几个步骤：
90.步骤s101，获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据。
91.本实施例中，直接获取文本音素序列并根据文本音素序列进行后续语音生成，可以改进一些罕见词、多音字、专有名词的发音问题。
92.当前语音交互可以为当前正在进行的语音交互，比如用户说我想吃饭，当前语音交互则是针对“我想吃饭”进行回复。文本音素序列中，音素是根据语音的自然属性划分出来的最小语音单位，文本音素序列是由文本数据转化成的音素序列。
93.历史交互视频数据包括用户面部表情、肢体动作和音频信息，可以反映用户的情感变化。
94.步骤s102，将历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据。
95.本实施例中，情感分析网络模型可以采用卷积神经网络、循环神经网络等，用于对历史交互视频数据进行情感分析，以确定用户情感特征数据。
96.用户情感特征数据可以从两方面分析得到，一方面从用户的面部表情、肢体动作
等动作情感特征数据，另一方面从用户的声音变化、声调等声音情感特征数据。
97.步骤s103，将文本音素序列和用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱。
98.本实施例中，音频频谱合成网络模型可以采用语音合成网络，如可以采用训练后的卷积神经网络、循环神经网络等，音频频谱合成网络模型可以将文本音素序列和用户情感特征数据进行融合，使目标音频频谱与实际音频频谱更相近，情感更丰富。
99.步骤s104，将目标音频频谱输入预设声码器网络模型，以生成目标语音。
100.本实施例中，通过将目标音频频谱输入预设声码器网络模型可以转化为时域波形，从而生成目标语音
101.本发明实施例提供的一种语音生成方法，该方法包括：获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据。将历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据。将文本音素序列和用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱。将目标音频频谱输入预设声码器网络模型，以生成目标语音。
102.本发明的语音生成方法，通过将目标用户上一次语音交互的历史交互视频数据输入训练至收敛的情感分析网络模型，可以输出用户情感特征数据，从而在将待生成语音的文本因素序列和情感分析网络模型输入训练至收敛的音频频谱合成网络模型后，可以生成更贴近实际音频频谱的目标音频频谱，最后通过将目标音频频谱输入预设声码器网络模型可以生成情感更丰富的目标语音，提高用户体验。
103.图3为本发明第二实施例提供的语音生成方法的流程示意图，如图3所示，本实施例提供的语音生成方法，是在本发明上一实施例提供的语音生成方法的基础上，进行了进一步的细化。则本实施例提供的语音生成方法包括以下步骤。
104.步骤s201，获取语音交互待生成语音的文本数据和目标用户在上一次语音交互的历史交互视频数据。
105.本实施例中，步骤201的实现方式与本发明上一实施例中的步骤101的实现方式类似，在此不再一一赘述。
106.步骤s202，将文本数据转化为对应文本音素序列。
107.本实施例中，待生成语音的文本数据如对话的“今天天气不错”可以变为对应的文本数据，由多个字符组成。然后将文本数据转化为对应文本音素序列，每个文本数据都对应至少一个音素。
108.需要说明的是，情感分析网络模型包括：音频特征提取网络子模型和视频特征提取子网络模型。用户情感特征数据包括：用户动作情感特征向量和用户声音情感特征向量。
109.步骤s203，采用视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量。
110.视频特征提取子网络模型可以采用卷积神经网络、循环神经网络等，通过预训练可以对历史交互视频数据进行用户面部和用户行为进行特征提取，生成对应用户面部特征向量和用户行为特征向量。
111.本实施例可以通过观察用户表情、行为和情感产生的前提环境来推断其情感状态。由于情感状态是内在的并包含生理和心理的变化，所以可通过获取情感状态的一些可
观测的东西，如表情、行为等。
112.面部表情是人的情感重要外在表现之一，可以帮助个体识别和表达情绪。同时肢体动作也是人类表达情感的重要组成部分，蕴含了丰富的情感信息。因而，在情感判断时我们需要综合考虑用户面部表情和身体移动。
113.具体的，如图4所示：
114.采用视频特征提取子网络模型对历史交互视频数据进行面部识别及表情分析处理，以生成对应用户面部特征向量。
115.采用视频特征提取子网络模型对历史交互视频数据进行动作捕捉分析处理，以生成对应用户行为特征向量。
116.动作捕捉分析处理包括图中所示动作捕捉和行为分析，面部识别及表情分析处理即图中的面部表情识别。通过视频特征提取子网络模型对历史交互视频数据中每一帧图像进行连续的面部识别及表情分析处理，从而得到用户面部特征向量，用户面部特征向量可以反映用户面部表情的特征，特征比如高兴、愤怒或其他表情等。
117.通过视频特征提取子网络模型对历史交互视频数据中每一帧图像进行连续的动作捕捉分析处理，动作捕捉可以得到用户动作轨迹，从而生成用户行为特征向量，用户行为特征向量可以反映用户行为特征，当用户行为为手臂大幅度挥舞、手指抖动等，对应的用户行为特征向量可以反映用户特征为愤怒、高兴等情感。
118.步骤s204，采用视频特征提取子网络模型对用户面部特征向量和用户行为特征向量进行情感分析处理，以生成对应用户动作情感特征向量。
119.本实施例中，如图4所示，由于单一的面部表情和行为动作可能并不能精确的反映用户情感，因而，在生成用户面部特征向量和用户行为特征向量后，可以进行情感分析处理，从而确定出可以综合反映用户情感的用户动作情感特征向量。动作情感识别可以使用人体姿态估计模型估计出骨架关节点，同时利用身体的动作特征和骨架特征，实现情感识别。
120.步骤s205，采用音频特征提取网络子模型对历史交互视频数据中的音频信息进行特征提取处理，以生成对应用户声音情感特征向量。
121.本实施例中，声音如高昂的声音、细微的声音等都可以较直观反映用户情感，音频特征提取网络子模型。该音频特征提取网络子模型可以采用编码器-解码器的语音合成声学模型中的编码器作为特征提取器提取声音特征向量。也可以直接采用音频频谱合成网络模型中的编码器提取声音特征向量。提取声音特征向量时，可以提取音频信息中包含上下文数据在内的音频数据，通过该包含上下文数据在内的音频数据来提取声音特征，以生成用户声音情感特征向量。上下文数据可以反映用户在发出声音时的前后逻辑性，可以生成更能反映用户情感的用户声音情感特征向量。
122.需要说明的是，音频频谱合成网络模型包括：编码器、聚合子网络模型和解码器。
123.步骤s206，采用编码器对文本音素序列进行特征提取，以生成对应文本特征向量。
124.本实施例中，文本特征向量可以反映文本音素序列的特征，比如音素种类、音素序列长度等特征。
125.需要说明的是，用户情感特征数据可以包括用户动作情感特征向量和用户声音情感特征向量。
126.步骤s207，采用聚合子网络模型对文本特征向量、用户动作情感特征向量和用户声音情感特征向量进行通道维度连接和线性变换融合处理，以使用户情感特征数据嵌入文本特征向量中，生成对应聚合特征向量。
127.本实施例中，聚合子网络模型用于将文本特征向量、用户动作情感特征向量和用户声音情感特征向量进行融合，首先从通道维度建立连接，然后通过线性变换融合处理，使用户动作情感特征向量和用户声音情感特征向量嵌入文本特征向量中，实现融合。
128.融合后的聚合特征向量具有用户动作情感特征向量和用户声音情感特征向量的部分特征。
129.步骤s208，将聚合特征向量输入解码器进行解码处理，以生成目标音频频谱。
130.通过解码器可以对聚合特征向量进行处理，从而生成目标音频频谱。目标音频频谱与实际音频频谱之间差别越小越好。
131.可选的，本实施例中，如图4所示，音频频谱合成网络模型还包括：注意力对齐子网络模型。
132.本实施例还可以通过注意力对齐子网络模型对聚合特征向量和解码器解码的语音特征向量进行对齐处理，具体如下：
133.采用解码器对聚合特征向量进行解码处理，以生成语音特征向量。
134.采用注意力对齐子网络模型对聚合特征向量和语音特征向量进行对齐处理，以生成对齐后的聚合特征向量。
135.此时，可以将对齐后的聚合特征向量输入解码器进行解码处理，以生成目标音频频谱。
136.对齐处理可以控制聚合特征向量的大小，使聚合特征向量不会过大，方便解码器的解码处理。
137.可选的，本实施例中，音频频谱合成网络模型可以进行预训练，训练流程如下：
138.获取训练样本，训练样本中包括：用户的历史交互视频数据和用户实际音频频谱。
139.将训练样本输入到预设音频频谱合成网络模型中，以对预设音频频谱合成网络模型进行训练。
140.采用均方误差损失函数判断预设音频频谱合成网络模型是否满足收敛条件。
141.当均方误差损失函数达到最小值时，判断预设音频频谱合成网络模型收敛，此时，可以将满足收敛条件的预设音频频谱合成网络模型确定为训练至收敛的音频频谱合成网络模型。
142.步骤s209，采用预设声码器网络模型将目标音频频谱转化为时域波形，以生成目标语音。
143.本实施例中，可以采用神经网络声码器将目标音频频谱转化为时域波形，由于目标音频频谱捕捉了高质量合成各种声音的所有相关细节，可以通过训练来自多个用户的数据来构建一个多用户声码器。
144.图5为本发明第三实施例提供的语音生成装置的结构示意图，如图5所示，本实施例中，该语音生成装置300可以设置在多模态数字人交互系统中，语音生成装置300包括：
145.获取模块301，用于获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据。
146.输出模块302，用于将历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据。
147.频谱生成模块303，用于将文本音素序列和用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱。
148.语音生成模块304，用于将目标音频频谱输入预设声码器网络模型，以生成目标语音。
149.本实施例提供的语音生成装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。
150.如图6所示，本发明提供的语音生成装置在上一实施例提供的语音生成装置的基础上，对语音生成装置进行了进一步的细化，为了方便说明，本实施例的语音生成装置采用语音生成装置400进行说明。
151.可选的，本实施例中，情感分析网络模型包括：音频特征提取网络子模型和视频特征提取子网络模型。用户情感特征数据包括：用户动作情感特征向量和用户声音情感特征向量。
152.输出模块302具体用于：
153.采用视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量。采用视频特征提取子网络模型对用户面部特征向量和用户行为特征向量进行情感分析处理，以生成对应用户动作情感特征向量。采用音频特征提取网络子模型对历史交互视频数据中的音频信息进行特征提取处理，以生成对应用户声音情感特征向量。
154.可选的，本实施例中，输出模块302在采用视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量时，具体用于：
155.采用视频特征提取子网络模型对历史交互视频数据进行面部识别及表情分析处理，以生成对应用户面部特征向量。采用视频特征提取子网络模型对历史交互视频数据进行动作捕捉分析处理，以生成对应用户行为特征向量。
156.可选的，本实施例中，音频频谱合成网络模型包括：编码器、聚合子网络模型和解码器。
157.频谱生成模块303具体用于：
158.采用编码器对文本音素序列进行特征提取，以生成对应文本特征向量。采用聚合子网络模型对文本特征向量和用户情感特征数据进行通道维度连接和线性变换融合处理，以使用户情感特征数据嵌入文本特征向量中，生成对应聚合特征向量。将聚合特征向量输入解码器进行解码处理，以生成目标音频频谱。
159.可选的，本实施例中，音频频谱合成网络模型还包括：注意力对齐子网络模型。
160.频谱生成模块303还用于：
161.采用解码器对聚合特征向量进行解码处理，以生成语音特征向量。
162.采用注意力对齐子网络模型对聚合特征向量和语音特征向量进行对齐处理，以生成对齐后的聚合特征向量。
163.频谱生成模块303在将聚合特征向量输入解码器进行解码处理，以生成目标音频
频谱时，具体用于：
164.将对齐后的聚合特征向量输入解码器进行解码处理，以生成目标音频频谱。
165.可选的，本实施例中，获取模块301具体用于：
166.获取语音交互待生成语音的文本数据。将文本数据转化为对应文本音素序列。
167.可选的，本实施例中，语音生成模块304具体用于：
168.采用预设声码器网络模型将目标音频频谱转化为时域波形，以生成目标语音。
169.可选的，本实施例中，语音生成装置400还包括：
170.训练模块401，用于获取训练样本，训练样本中包括：用户的历史交互视频数据和用户实际音频频谱。将训练样本输入到预设音频频谱合成网络模型中，以对预设音频频谱合成网络模型进行训练。采用均方误差损失函数判断预设音频频谱合成网络模型是否满足收敛条件。将满足收敛条件的预设音频频谱合成网络模型确定为训练至收敛的音频频谱合成网络模型。
171.本实施例提供的语音生成装置可以执行图2-图4所示方法实施例的技术方案，其实现原理和技术效果与图2-图4所示方法实施例类似，在此不再一一赘述。
172.根据本发明的实施例，本发明还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
173.如图7所示，图7是本发明第五实施例提供的电子设备的结构示意图。电子设备旨在各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
174.如图7所示，该电子设备包括：处理器501、存储器502。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。
175.存储器502即为本发明所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本发明所提供的语音生成方法。本发明的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本发明所提供的语音生成方法。
176.存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本发明实施例中的语音生成方法对应的程序指令/模块(例如，附图5所示的获取模块301、输出模块302、频谱生成模块303和语音生成模块304)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的语音生成方法。
177.同时，本实施例还提供一种计算机产品，当该计算机产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例的语音生成方法。
178.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明实施例的其它实施方案。本发明旨在涵盖本发明实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。
179.应当理解的是，本发明实施例并不局限于上面已经描述并在附图中示出的精确结
构，并且可以在不脱离其范围进行各种修改和改变。本发明实施例的范围仅由所附的权利要求书来限制。

技术特征：

1.一种语音生成方法，其特征在于，包括：获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据；将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据；将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱；将所述目标音频频谱输入预设声码器网络模型，以生成目标语音。2.根据权利要求1所述的方法，其特征在于，所述情感分析网络模型包括：音频特征提取网络子模型和视频特征提取子网络模型；所述用户情感特征数据包括：用户动作情感特征向量和用户声音情感特征向量；所述将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据，包括：采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量；采用所述视频特征提取子网络模型对所述用户面部特征向量和所述用户行为特征向量进行情感分析处理，以生成对应用户动作情感特征向量；采用音频特征提取网络子模型对所述历史交互视频数据中的音频信息进行特征提取处理，以生成对应用户声音情感特征向量。3.根据权利要求2所述的方法，其特征在于，所述采用所述视频特征提取子网络模型对历史交互视频数据进行动作相关特征提取，以生成对应用户面部特征向量和用户行为特征向量，包括：采用所述视频特征提取子网络模型对所述历史交互视频数据进行面部识别及表情分析处理，以生成对应用户面部特征向量；采用所述视频特征提取子网络模型对所述历史交互视频数据进行动作捕捉分析处理，以生成对应用户行为特征向量。4.根据权利要求1所述的方法，其特征在于，所述音频频谱合成网络模型包括：编码器、聚合子网络模型和解码器；所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱，包括：采用所述编码器对所述文本音素序列进行特征提取，以生成对应文本特征向量；采用所述聚合子网络模型对所述文本特征向量和所述用户情感特征数据进行通道维度连接和线性变换融合处理，以使所述用户情感特征数据嵌入所述文本特征向量中，生成对应聚合特征向量；将所述聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱。5.根据权利要求4所述的方法，其特征在于，所述音频频谱合成网络模型还包括：注意力对齐子网络模型；所述方法还包括：采用所述解码器对所述聚合特征向量进行解码处理，以生成语音特征向量；
采用所述注意力对齐子网络模型对所述聚合特征向量和所述语音特征向量进行对齐处理，以生成对齐后的聚合特征向量；所述将所述聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱，包括：将所述对齐后的聚合特征向量输入所述解码器进行解码处理，以生成目标音频频谱。6.根据权利要求1所述的方法，其特征在于，所述获取语音交互待生成语音的文本音素序列，包括：获取语音交互待生成语音的文本数据；将所述文本数据转化为对应文本音素序列。7.根据权利要求1所述的方法，其特征在于，所述将所述目标音频频谱输入预设声码器网络模型，以生成目标语音，包括：采用预设声码器网络模型将所述目标音频频谱转化为时域波形，以生成目标语音。8.根据权利要求1至7任一项所述的方法，其特征在于，所述将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱之前，还包括：获取训练样本，所述训练样本中包括：用户的历史交互视频数据和用户实际音频频谱；将所述训练样本输入到预设音频频谱合成网络模型中，以对所述预设音频频谱合成网络模型进行训练；采用均方误差损失函数判断所述预设音频频谱合成网络模型是否满足收敛条件；将满足收敛条件的所述预设音频频谱合成网络模型确定为训练至收敛的音频频谱合成网络模型。9.一种语音生成装置，其特征在于，包括：获取模块，用于获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据；输出模块，用于将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据；频谱生成模块，用于将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱；语音生成模块，用于将所述目标音频频谱输入预设声码器网络模型，以生成目标语音。10.一种电子设备，其特征在于，包括：处理器以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至8任一项所述的语音生成方法。11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的语音生成方法。12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述的在语音生成方法。

技术总结

本发明属于语音交互技术领域，具体提供一种语音生成方法、装置、设备、介质及产品，该方法包括：获取当前语音交互待生成语音的文本音素序列和目标用户在上一次语音交互的历史交互视频数据；将所述历史交互视频数据输入训练至收敛的情感分析网络模型，以输出对应用户情感特征数据；将所述文本音素序列和所述用户情感特征数据输入训练至收敛的音频频谱合成网络模型，以生成目标音频频谱；将所述目标音频频谱输入预设声码器网络模型，以生成目标语音。本发明的语音生成方法，可以生成情感更丰富的目标语音，提高用户体验。提高用户体验。提高用户体验。