语音转换模型的训练及语音转换方法、装置和相关设备与流程

1.本发明涉及人工智能领域，尤其涉及一种语音转换模型的训练及语音转换方法、装置和相关设备。

背景技术：

2.语音转换是将原说话人的语音的音和内容解耦，转换到目标说话人的音，同时保持内容相同。应用场景包括影视剧配音、电子书阅读中音转换以自动匹配不同的故事角等。但传统技术得到的已转换语音，一方面已转换语音中仍包含原说话人的音信息，另一方面已换换语音的内容与原说话人的语音的文本内容匹配度不高。

技术实现要素：

3.本发明实施例提供一种语音转换模型的训练及语音转换方法、装置、计算机设备及存储介质，以解决转换后的语音中原说话人音去除不彻底和文本内容匹配度不高的问题。
4.一种语音转换模型的训练方法，所述语音转换模型包括第一神经网络、第三神经网络和第四神经网络，所述方法包括：
5.将说话人的语音数据输入至所述第一神经网络，得到第一隐向量；
6.使用梯度翻转层去除所述第一隐向量中所述说话人的音信息，并计算翻转前和翻转后的第一损失；
7.将所述说话人的语音数据对应的文本内容数据输入至所述第二神经网络，得到第二隐向量，并计算所述第一隐向量与所述第二隐向量的第二损失；
8.将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量；
9.将所述第二隐向量和所述第三隐向量输入至所述第四神经网络，得到第四隐向量，并计算所述第三隐向量和所述第四隐向量的第三损失；
10.根据所述第一损失和所述第二损失调整所述第一神经网络的参数，根据所述第三损失调整所述第四神经网络的参数；
11.循环所述将说话人的语音数据输入至所述第一神经网络至所述根据所述第一损失和所述第二损失调整所述第一神经网络的参数之间的步骤，直至所述第一损失达到最大，且所述第二损失和所述第三损失都达到最小，得到训练完成的语音转换模型。
12.根据上述方法训练得到的语音转换模型进行语音转换的方法，该方法包括：
13.将原说话人的待转换语音数据输入至所述语音转换模型中的第一神经网络，得到目标语音内容隐向量；
14.将目标说话人的目标语音数据输入至所述语音转换模型中的第三神经网络，得到目标语音音隐向量；
15.将所述目标语音内容隐向量和所述目标语音音隐向量进行拼接，得到拼接语音隐向量；
16.将所述拼接语音隐向量输入至所述语音转换模型中的第四神经网络，得到已转换语音数据。
17.一种语音转换模型的训练装置，包括：
18.第一数据获取模块，用于将说话人的语音数据输入至所述第一神经网络，得到第一隐向量；
19.第一损失模块，用于使用梯度翻转层去除所述第一隐向量中所述说话人的音信息，并计算翻转前和翻转后的第一损失；
20.第二损失模块，用于将所述说话人的语音数据对应的文本内容数据输入至所述第二神经网络，得到第二隐向量，并计算所述第一隐向量与所述第二隐向量的第二损失；
21.第二数据获取模块，用于将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量；
22.第三损失模块，用于将所述第二隐向量和所述第三隐向量输入至所述第四神经网络，得到第四隐向量，并计算所述第三隐向量和所述第四隐向量的第三损失；
23.参数调整模块，用于根据所述第一损失和所述第二损失调整所述第一神经网络的参数，根据所述第三损失调整所述第四神经网络的参数；
24.训练模块，用于循环所述将说话人的语音数据输入至所述第一神经网络至所述根据所述第一损失和所述第二损失调整所述第一神经网络的参数之间的步骤，直至所述第一损失达到最大，且所述第二损失和所述第三损失都达到最小，得到训练完成的语音转换模型。
25.根据上述语音转换模型的训练装置提供的语音转换模型进行语音转换的装置，该装置包括：
26.语音内容模块，用于将原说话人的待转换语音数据输入至所述语音转换模型中的第一神经网络，得到目标语音内容隐向量；
27.语音音模块，用于将目标说话人的目标语音数据输入至所述语音转换模型中的第三神经网络，得到目标语音音隐向量；
28.语音拼接模块，用于将所述目标语音内容隐向量和所述目标语音音隐向量进行拼接，得到拼接语音隐向量；
29.语音转换模块，用于将所述拼接语音隐向量输入至所述语音转换模型中的第四神经网络，得到已转换语音数据。
30.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音转换模型的训练方法的步骤。
31.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音转换模型的训练方法的步骤。
32.上述语音转换模型的训练及语音转换方法、装置、计算机设备及存储介质，通过梯度翻转层对说话人的语音数据进行翻转去除所述说话人的音信息，使得所述语音转换模型经过训练后，在处理语音数据时能够最大程度去除语音数据中的音信息。同时，还通过利用所述说话人的语音数据对应的文本内容信息辅助训练，使得所述语音转换模型经过训练后，在处理语音数据时能够最大程度保留语音数据中的文本内容信息。使得完成训练的
所述语音转换模型，在被使用过程中能够完全去除原说话人的音信息且完整保留原说话人的语音数据中的文本内容信息。
附图说明
33.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
34.图1是本发明一实施例中语音转换模型的训练及语音转换方法的一应用环境示意图；
35.图2是本发明一实施例中语音转换模型的训练方法的一流程图；
36.图3是本发明一实施例中训练前的语音转换模型的架构示意图；
37.图4是本发明一实施例中语音转换方法的一流程图；
38.图5是本发明一实施例中训练好的语音转换模型的架构示意图；
39.图6是本发明一实施例中语音转换模型的训练装置的结构示意图；
40.图7是本发明一实施例中语音转换的装置的结构示意图；
41.图8是本发明一实施例中一类计算机设备的一示意图；
42.图9是本发明一实施例中另一类计算机设备的一示意图。
具体实施方式
43.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
44.本技术提供的语音转换模型的训练及语音转换方法，可应用在如图1的应用环境中其中，该计算机设备可以通过网络与外部设备进行通信，该外部设备例如服务器。其中，该计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集来实现。
45.在一实施例中，如图2所示，提供一种语音转换模型的训练方法，所述语音转换模型包括第一神经网络、第三神经网络和第四神经网络，以该方法应用在图1中的计算机设备为例进行说明，包括如下步骤s101至s107：
46.s101、将说话人的语音数据输入至所述第一神经网络，得到第一隐向量。
47.进一步地，所述第一神经网络包括第一预设层数的第一卷积神经网络和第二预设层数的第一循环神经网络。其中，在一个具体的实施例中，如图3所示，第一神经网络包括预设了三层卷积层的第一卷积神经网络和预设了两层lstm(long short term memory，长短期记忆)神经网络的第一循环神经网络。需要特别说明的是，所述第一循环神经网络还可选用gru(gate recurrent unit)神经网络。
48.具体地，首先对所述说话人的语音数据进行处理，将所述说话人的语音数据转换成对应的频谱数据。其中，所述频谱数据可以是梅尔频谱数据。然后通过所述第一卷积神经
网络提取所述第一频谱数据的频谱特征，得到第一隐向量。最后通过所述第一循环神经网络学习所述第一频谱数据中的时序关系，并将所述时序关系添加至所述第一隐向量。
49.s102、使用梯度翻转层去除所述第一隐向量中所述说话人的音信息，并计算翻转前和翻转后的第一损失。
50.进一步地，所述梯度翻转层还包括分类器，所述分类器用于对被梯度翻转的所述第一隐向量进行分类，所述分类结果包括所述被翻转后的所述第一隐向量仍包含所述音信息的第一概率。进一步地，还可以根据所述第一概率对所述梯度翻转层的参数进行优化，提升梯度翻转过程去除所述说话人的音信息的效果。
51.具体地，先使用所述分类器对被翻转后的所述第一隐向量进行分类，得到分类结果，所述分类结果包括所述被翻转后的所述第一隐向量仍包含所述音信息的第一概率。然后，判断所述第一概率是否达在预设概率范围内，若否，则根据所述第一概率优化所述梯度翻转层的参数。最后，循环所述使用所述分类器对被翻转后的所述第一隐向量进行分类至所述判断所述第一概率是否达到预设概率范围之间的步骤，直至所述第一概率在预设概率范围内。
52.s103、将所述说话人的语音数据对应的文本内容数据输入至第二神经网络，得到第二隐向量，并计算所述第一隐向量与所述第二隐向量的第二损失。
53.其中，在一个具体的实施例中，如图3所示，所述第二神经网络为预先设置一层的第一一维卷积神经网络。
54.具体地，首先通过预先设置的编码器将所述说话人的语音数据对应的文本内容数据进行编码处理，得到表示所述文本内容编码特征的第一文本编码隐向量。然后在所述文本编码隐向量中为所述文本内容数据中的每个字符添加位置编码信息，并使用多头注意力机制为所述文本内容数据中的每个字符添加重要度信息，得到包含了位置编码信息和重要度信息的第二文本编码隐向量。再通过预设的第二神经网络从所述文本内容数据中提取每个字符的空间特征，并将所述空间特征添加到所述第二文本编码隐向量。最后通过预先设置的时长预测器将所述第二文本编码隐向量进行扩展，使得所述第二文本编码隐向量与所述第一隐向量对齐，最终得到所述第二隐向量。其中，所述时长预测器不仅将所述第二文本编码隐向量中的总时长与所述第一隐向量中的总时长保持一致，还在所述总时长的范围内预测所述文本内容数据中每个字符的持续时长，并将所述每个字符的持续时长添加到所述第二文本编码隐向量。
55.其中，所述第二损失可以通过预先设置的mae(mean absolute error，平均绝对误差)损失函数或mse(mean squared error，均方误差)损失函数进行计算。
56.s104、将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量。
57.其中，将所述说话人的语音数据输入至所述语音转换模型中预设的第三神经网络之前，仍需要将所述说话人的语音数据转换成对应的频谱数据，具体的实施方法不再赘述。
58.进一步地，将所述说话人的语音数据输入至所述语音转换模型中预设的第三神经网络，得到第三隐向量之后还包括：将所述第三隐向量输入至第三预设层数的线性层，将所述第三隐向量的大小与所述第二隐向量的大小进行适配，使得所述第三隐向量和所述第二隐向量能够进行拼接。
59.其中，在一个具体的实施例中，如图3所示，所述第三神经网络包括预先设置的两
层gru神经网络和一层线性层神经网络。所述两层gru神经网络用于学习所述说话人的语音数据的时域特征。所述线性层用于调整所述第三隐向量的大小，使得所述第三隐向量的大小与所述第二隐向量的大小一致。
60.s105、将所述第二隐向量和所述第三隐向量输入至所述第四神经网络，得到第四隐向量，并计算所述第三隐向量和所述第四隐向量的第三损失。
61.其中，在一个具体的实施例中，如图3所示，所述第四神经网络包括预先设置的一层第二一维卷积神经网络。
62.进一步地，在所述将所述第二隐向量和所述第三隐向量输入至所述语音转换模型中预设的第四神经网络之前，将所述第二隐向量和所述第三隐向量进行拼接，所述拼接的过程会使用表示所述说话人的语音数据的内容特征的所述第二隐向量替换所述第三隐向量中的内容特征部分，得到拼接后的隐向量，再还向所述拼接后的隐向量中添加所述说话人的语音数据中每个字符的位置编码信息，并再使用多头注意力机制学习所述说话人的语音数据中每个字符的重要度信息，将所述每个字符的重要度信息添加到所述拼接后的隐向量，最后通过所述第二一维卷积神经网络提取所述说话人的语音数据的空间特征添加到所述拼接后的隐向量，得到所述第四隐向量。
63.s106、根据所述第一损失和所述第二损失调整所述第一神经网络的参数，根据所述第三损失调整所述第四神经网络的参数。
64.其中，所述第一损失反应的是所述第一神经网络在处理所述说话人的语音数据过程中对所述说话人的语音音信息的保留程度，即在语音转换的过程中，需要通过所述第一神经网络最大程度地去除所述说话人的语音数据中所述说话人的音信息。所述第二损失反应的是所述第一神经网络在处理所述说话人的语音数据过程中对所述说话人的语音内容信息的保留程度，即在语音转换的过程中，需要通过所述第一神经网络最大程度地保留所述说话人的语音数据中所述说话人的语音内容信息。所述第三损失反应的是所述第四神经网络对所述拼接后的隐向量的处理的损失程度，即在所述语音转换的过程中，需要通过所述第四神经网络最大程度的在所述拼接后的隐向量中保留所述说话人的语音内容信息和所述说话人的音信息。
65.s107、循环所述将说话人的语音数据输入至所述第一神经网络至所述根据所述第一损失和所述第二损失调整所述第一神经网络的参数之间的步骤，直至所述第一损失达到最大，且所述第二损失和所述第三损失都达到最小，得到训练完成的语音转换模型。
66.需要特别指出的是，在所述语音转换模型的训练方法开始执行的初始阶段，因为第一隐向量中包含了所述说话人的音信息和语音内容信息，而所述第二隐向量中只包含了所述说话人的语音内容信息，则计算所述第一隐向量和第二隐向量的第二损失会异常大，但是会随着训练方法的循环执行次数增加，所述第二损失会逐渐减小至最小。
67.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
68.本实施例提出的语音转换模型的训练方法，通过梯度翻转层对说话人的语音数据进行翻转去除所述说话人的音信息，使得所述语音转换模型经过训练后，在处理语音数据时能够最大程度去除语音数据中的音信息。同时，还通过利用所述说话人的语音数据
对应的文本内容信息辅助训练，使得所述语音转换模型经过训练后，在处理语音数据时能够最大程度保留语音数据中的文本内容信息。使得最终完成训练的所述语音转换模型在被使用过程中，能够完全去除原说话人的音信息且完整保留原说话人的语音数据中的文本内容信息。
69.图4是本发明一实施例中根据上述语音转换模型的训练方法训练得到的语音转换模型进行语音转换的方法的一流程图，根据本发明另一实施例提出了根据上述语音转换模型的训练方法训练得到的语音转换模型进行语音转换的方法，如图4所示，该方法包括以下步骤s201至s204。
70.s201、将原说话人的待转换语音数据输入至所述语音转换模型中的第一神经网络，得到目标语音内容隐向量；
71.s202、将目标说话人的目标语音数据输入至所述语音转换模型中的第三神经网络，得到目标语音音隐向量；
72.s203、将所述目标语音内容隐向量和所述目标语音音隐向量进行拼接，得到拼接语音隐向量；
73.s204、将所述拼接语音隐向量输入至所述语音转换模型中的第四神经网络，得到已转换语音数据。
74.具体地，在一个具体的实施例中，如图5所示，待转换语音数据被输入至所述语音转换模型的第一神经网络进行处理，目标语音数据被输入至所述语音转换模型的第三神经网络进行处理，最终通过所述语音转换模型的第四神经网络输出已转换语音数据模型。
75.需要特别说明的是，所述语音转换模型在训练过程中，所述第三神经网络接收的语音数据与所述第一神经网络相同，即都为原说话人的语音数据，而所述语音转换模型在被使用过程中，所述第三神经网络接收的语音数据为目标说话人的语音数据，而所述第一神经网络仍然接收原说话人的语音数据。因为在训练过程中，需要通过所述第三损失来优化所述第四神经网络的参数，以保证所述第四神经网络能够较好将文本内容数据和音特征数据合成最后的目标语音数据。
76.在一实施例中，提供一种语音转换模型的训练装置100，所述语音转换模型包括第一神经网络、第三神经网络和第四神经网络，该语音转换模型的训练装置100与上述实施例中语音转换模型的训练方法一一对应。如图6所示，该语音转换模型的训练装置100包括第一数据获取模块11、第一损失模块12、第二损失模块13、第二数据获取模块14、第三损失模块15、参数调整模块16和训练模块17。各功能模块详细说明如下：
77.第一数据获取模块11，用于将说话人的语音数据输入至所述第一神经网络，得到第一隐向量；
78.第一损失模块12，用于使用梯度翻转层去除所述第一隐向量中所述说话人的音信息，并计算翻转前和翻转后的第一损失；
79.第二损失模块13，用于将所述说话人的语音数据对应的文本内容数据输入至所述第二神经网络，得到第二隐向量，并计算所述第一隐向量与所述第二隐向量的第二损失；
80.第二数据获取模块14，用于将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量；
81.第三损失模块15，用于将所述第二隐向量和所述第三隐向量输入至所述第四神经
网络，得到第四隐向量，并计算所述第三隐向量和所述第四隐向量的第三损失；
82.参数调整模块16，用于根据所述第一损失和所述第二损失调整所述第一神经网络的参数，根据所述第三损失调整所述第四神经网络的参数；
83.训练模块17，用于循环所述将说话人的语音数据输入至所述第一神经网络至所述根据所述第一损失和所述第二损失调整所述第一神经网络的参数之间的步骤，直至所述第一损失达到最大，且所述第二损失和所述第三损失都达到最小，得到训练完成的语音转换模型。
84.进一步地，所述第一数据获取模块11还包括：
85.频谱数据获取子模块，用于转换说话人的语音数据，得到对应的第一频谱数据；
86.频谱特征提取子模块，用于通过所述第一卷积神经网络提取所述第一频谱数据的频谱特征，得到第一隐向量；
87.时序关系学习子模块，用于通过所述第一循环神经网络学习所述第一频谱数据中的时序关系，并将所述时序关系添加至所述第一隐向量。
88.进一步地，所述第一损失模块12还包括：
89.分类器子模块，用于使用所述分类器对被翻转后的所述第一隐向量进行分类，得到分类结果，所述分类结果包括所述被翻转后的所述第一隐向量仍包含所述音信息的第一概率；
90.第一概率子模块，用于判断所述第一概率是否达在预设概率范围内，若否，则根据所述第一概率优化所述梯度翻转层的参数；
91.翻转优化子模块，用于循环所述使用所述分类器对被翻转后的所述第一隐向量进行分类至所述判断所述第一概率是否达到预设概率范围之间的步骤，直至所述第一概率在预设概率范围内。
92.进一步地，所述第二损失模块13还包括：
93.文本内容向量获取子模块，用于通过预设编码器将所述说话人的语音数据对应的文本内容数据进行编码，得到第一文本编码隐向量；
94.文本内容向量处理子模块，用于在所述文本编码隐向量中为所述文本内容数据的每个字符添加位置编码，并使用多头注意力机制为所述每个字符添加重要度信息，得到第二文本编码隐向量；
95.空间特征处理子模块，用于通过预设的第二神经网络提取所述文本内容数据的每个字符的空间特征，将所述空间特征添加到所述第二文本编码隐向量；
96.向量扩展子模块，用于通过预设的时长预测器将所述第二文本编码隐向量扩展到与所述第一隐向量对齐，得到所述第二隐向量。
97.进一步地，所述第二数据获取模块14还包括：
98.向量大小适配子模块，用于将所述第三隐向量输入至第三预设层数的线性层，将所述第三隐向量的大小与所述第二隐向量的大小进行适配，使得所述第三隐向量和所述第二隐向量能够进行拼接。
99.进一步地，所述第三损失模块15还包括：
100.向量拼接子模块，用于将所述第二隐向量和所述第三隐向量进行拼接，所述拼接的过程会使用表示所述说话人的语音数据的内容特征的所述第二隐向量替换所述第三隐
向量中的内容特征部分，得到拼接后的隐向量；
101.拼接位置编码子模块，用于向所述拼接后的隐向量中添加所述说话人的语音数据中每个字符的位置编码信息；
102.拼接重要度子模块，用于使用多头注意力机制学习所述说话人的语音数据中每个字符的重要度信息，将所述每个字符的重要度信息添加到所述拼接后的隐向量；
103.拼接空间特征子模块，用于通过所述第二一维卷积神经网络提取所述说话人的语音数据的空间特征添加到所述拼接后的隐向量，得到所述第四隐向量。
104.关于语音转换模型的训练装置的具体限定可以参见上文中对于语音转换模型的训练方法的限定，在此不再赘述。上述语音转换模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
105.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音转换模型的训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换模型的训练方法。
106.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换模型的训练方法。
107.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音转换模型的训练方法的步骤，例如图2所示的步骤s101至步骤s107及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中语音转换模型的训练装置的各模块/单元的功能，例如图6所示模块11至模块17的功能。为避免重复，这里不再赘述。
108.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音转换模型的训练方法的步骤，例如图2所示的步骤s101至步骤s107及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中语音转换模型的训练装置的各模块/单元的功能，例如图6所示模块11至模块17的功能。为避免重复，这里不再赘述。
109.图7是本发明一实施例中语音转换装置200的结构示意图，如图7所示，该根据上述语音转换模型的训练装置100提供的语音转换模型进行语音转换的装置200包括语音内容
模块21、语音音模块22、语音拼接模块23和语音转换模块24。各功能模块详细说明如下：
110.语音内容模块21，用于将原说话人的待转换语音数据输入至所述语音转换模型中的第一神经网络，得到目标语音内容隐向量；
111.语音音模块22，用于将目标说话人的目标语音数据输入至所述语音转换模型中的第三神经网络，得到目标语音音隐向量；
112.语音拼接模块23，用于将所述目标语音内容隐向量和所述目标语音音隐向量进行拼接，得到拼接语音隐向量；
113.语音转换模块24，用于将所述拼接语音隐向量输入至所述语音转换模型中的第四神经网络，得到已转换语音数据。
114.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本技术中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。
115.关于语音转换装置的具体限定可以参见上文中对于语音转换方法的限定，在此不再赘述。上述语音转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
116.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音转换方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换方法。
117.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换方法。
118.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音转换方法的步骤，例如图4所示的步骤s201至步骤s204及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中语音转换装置的各模块/单元的功能，例如图7所示模块21至模块24的功能。为避免重复，这里不再赘述。
119.所述处理器可以是中央处理单元(central processing unit，cpu)，还可以是其
他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
120.所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
121.所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。
122.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音转换方法的步骤，例如图4所示的步骤s201至步骤s204及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中语音转换装置的各模块/单元的功能，例如图7所示模块21至模块24的功能。为避免重复，这里不再赘述。
123.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
124.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
125.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

技术特征：

1.一种语音转换模型的训练方法，其特征在于，所述语音转换模型包括第一神经网络、第三神经网络和第四神经网络，所述方法包括：将说话人的语音数据输入至所述第一神经网络，得到第一隐向量；使用梯度翻转层去除所述第一隐向量中所述说话人的音信息，并计算翻转前和翻转后的第一损失；将所述说话人的语音数据对应的文本内容数据输入至预设的第二神经网络，得到第二隐向量，并计算所述第一隐向量与所述第二隐向量的第二损失；将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量；将所述第二隐向量和所述第三隐向量输入至所述第四神经网络，得到第四隐向量，并计算所述第三隐向量和所述第四隐向量的第三损失；根据所述第一损失和所述第二损失调整所述第一神经网络的参数，根据所述第三损失调整所述第四神经网络的参数；循环所述将说话人的语音数据输入至所述第一神经网络至所述根据所述第一损失和所述第二损失调整所述第一神经网络的参数之间的步骤，直至所述第一损失达到最大，且所述第二损失和所述第三损失都达到最小，得到训练完成的语音转换模型。2.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述第一神经网络包括第一预设层数的第一卷积神经网络和第二预设层数的第一循环神经网络，所述将说话人的语音数据输入至所述第一神经网络，得到第一隐向量包括：转换说话人的语音数据，得到对应的第一频谱数据；通过所述第一卷积神经网络提取所述第一频谱数据的频谱特征，得到第一隐向量；通过所述第一循环神经网络学习所述第一频谱数据中的时序关系，并将所述时序关系添加至所述第一隐向量。3.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述梯度翻转层还包括分类器，所述使用梯度翻转层去除所述第一隐向量中所述说话人的音信息之后还包括：使用所述分类器对被翻转后的所述第一隐向量进行分类，得到分类结果，所述分类结果包括被翻转后的所述第一隐向量仍包含所述音信息的第一概率；判断所述第一概率是否达到预设概率范围，若否，则根据所述第一概率优化所述梯度翻转层的参数；循环所述使用所述分类器对被翻转后的所述第一隐向量进行分类至所述判断所述第一概率是否达到预设概率范围之间的步骤，直至所述第一概率在所述预设概率范围内。4.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述将所述说话人的语音数据对应的文本内容数据输入至所述第二神经网络，得到第二隐向量包括：通过预设编码器将所述说话人的语音数据对应的文本内容数据进行编码，得到第一文本编码隐向量；在所述文本编码隐向量中为所述文本内容数据的每个字符添加位置编码，并使用多头注意力机制为所述每个字符添加重要度信息，得到第二文本编码隐向量；通过所述第二神经网络提取所述文本内容数据的每个字符的空间特征，将所述空间特征添加到所述第二文本编码隐向量；
通过预设的时长预测器将所述第二文本编码隐向量扩展到与所述第一隐向量对齐，得到所述第二隐向量。5.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量之后还包括：将所述第三隐向量输入至第三预设层数的线性层，将所述第三隐向量的大小与所述第二隐向量的大小进行适配，使得所述第三隐向量和所述第二隐向量能够进行拼接。6.根据权利要求1至5任一项所述方法得到的语音转换模型进行语音转换的方法，其特征在于，所述方法包括：将原说话人的待转换语音数据输入至所述语音转换模型中的第一神经网络，得到目标语音内容隐向量；将目标说话人的目标语音数据输入至所述语音转换模型中的第三神经网络，得到目标语音音隐向量；将所述目标语音内容隐向量和所述目标语音音隐向量进行拼接，得到拼接语音隐向量；将所述拼接语音隐向量输入至所述语音转换模型中的第四神经网络，得到已转换语音数据。7.一种语音转换模型的训练装置，其特征在于，所述语音转换模型包括第一神经网络、第三神经网络和第四神经网络，所述装置包括：第一数据获取模块，用于将说话人的语音数据输入至所述第一神经网络，得到第一隐向量；第一损失模块，用于使用梯度翻转层去除所述第一隐向量中所述说话人的音信息，并计算翻转前和翻转后的第一损失；第二损失模块，用于将所述说话人的语音数据对应的文本内容数据输入至所述第二神经网络，得到第二隐向量，并计算所述第一隐向量与所述第二隐向量的第二损失；第二数据获取模块，用于将所述说话人的语音数据输入至所述第三神经网络，得到第三隐向量；第三损失模块，用于将所述第二隐向量和所述第三隐向量输入至所述第四神经网络，得到第四隐向量，并计算所述第三隐向量和所述第四隐向量的第三损失；参数调整模块，用于根据所述第一损失和所述第二损失调整所述第一神经网络的参数，根据所述第三损失调整所述第四神经网络的参数；训练模块，用于循环所述将说话人的语音数据输入至所述第一神经网络至所述根据所述第一损失和所述第二损失调整所述第一神经网络的参数之间的步骤，直至所述第一损失达到最大，且所述第二损失和所述第三损失都达到最小，得到训练完成的语音转换模型。8.根据权利要求7提供的语音转换模型进行语音转换的装置，其特征在于，包括：语音内容模块，用于将原说话人的待转换语音数据输入至所述语音转换模型中的第一神经网络，得到目标语音内容隐向量；语音音模块，用于将目标说话人的目标语音数据输入至所述语音转换模型中的第三神经网络，得到目标语音音隐向量；语音拼接模块，用于将所述目标语音内容隐向量和所述目标语音音隐向量进行拼
接，得到拼接语音隐向量；语音转换模块，用于将所述拼接语音隐向量输入至所述语音转换模型中的第四神经网络，得到已转换语音数据。9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。

技术总结

本发明公开了一种语音转换模型的训练方法，应用于人工智能领域。本发明提供的语音转换模型包括第一神经网络、第三神经网络和第四神经网络，本发明提供的方法包括：计算样本语音数据向量化后经过梯度翻转层后的第一损失；计算所述样本语音数据向量化后与对应的文本内容数据向量化后的第二损失；将所述样本语音数据向量化后和所述文本内容数据向量化后拼接成语音隐向量，将所述语音隐向量转换为目标语音数据；计算所述目标语音数据与样本语音数据的第三损失；根据所述第一损失、所述第二损失和所述第三损失调整所述语音转换模型中神经网络的参数；循环前述步骤，直至所述第一损失最大，且所述第二损失和所述第三损失都最小时，得到训练完成的语音转换模型。得到训练完成的语音转换模型。得到训练完成的语音转换模型。