语音转换模型的训练及语音转换方法、装置和相关设备与流程

1.本发明涉及人工智能领域，尤其涉及一种语音转换模型的训练及语音转换方法、装置和相关设备。

背景技术：

2.语音转换是在不改变话语内容信息的情况下，将原说话人的语音数据中原说话人的语音属性信息替换成目标说话人的语音属性信息，该语音属性信息包括声音的音高、音强、音长和音，使得原说话人的语音经过转换后从听觉上最大程度像目标说话人在讲话，而不是原说话人在讲话，同时还需要保证转换后的语音内容与原说话人的语音中的语音内容保持一致。但传统技术中处理原说话人的语音数据后，仍然部分包含原说话人的语音属性信息。

技术实现要素：

3.本发明实施例提供一种语音转换模型的训练及语音转换方法、装置、计算机设备及存储介质，以解决传统技术进行语音转换过程中原说话人的语音属性去除不彻底的问题。
4.一种语音转换模型的训练方法，所述语音转换模型包括编码器、实例化归一层、声纹提取器和解码器，所述方法包括：
5.通过所述编码器处理待训的原说话人的语音样本，得到第一语音编码数据；
6.通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性，得到第一语音隐向量；
7.通过所述声纹提取器从目标说话人的语音中获取包含所述目标说话人的声纹信息的第一声纹向量；
8.通过所述解码器合成所述第一语音隐向量和所述第一声纹向量，得到重构语音数据；
9.通过预设第一损失函数计算所述重构语音数据与所述原说话人的语音样本的损失，得到第一损失；
10.判断所述第一损失是否达到最大，若否，则根据所述第一损失优化所述实例化归一层的参数，循环所述抽取原说话人的语音样本至所述判断所述第一损失是否达到最大之间的步骤，直至所述第一损失达到最大，得到训练完成的语音转换模型。
11.一种语音转换方法，该方法包括：
12.将编码后的原说话人的语音数据输入至根据上述语音转换模型的训练方法训练得到的语音转换模型的实例化归一层，得到第二语音隐向量；
13.将编码后的目标说话人的语音输入至所述语音转换模型，获取包含所述目标说话人声纹信息的第二声纹向量；
14.通过所述语音转换模型中所述解码器对所述第二语音隐向量和所述第二声纹向
量进行合成，得到目标重构语音数据。
15.一种语音转换模型的训练装置，包括：
16.第一语音处理模块，用于抽取原说话人的语音样本，将抽取的所述语音样本输入至所述编码器，得到第一语音编码数据；
17.归一化模块，用于通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性，得到第一语音隐向量；
18.第一声纹获取模块，用于通过所述声纹提取器从目标说话人的语音中获取包含所述目标说话人的声纹信息的第一声纹向量；
19.重构语音数据模块，用于通过所述解码器合成所述第一语音隐向量和所述第一声纹向量，得到重构语音数据；
20.损失计算模块，用于通过预设第一损失函数计算所述重构语音数据与所述原说话人的语音样本的损失，得到第一损失；
21.训练模块，用于判断所述第一损失是否达到最大，若否，则根据所述第一损失优化所述实例化归一层的参数，循环所述抽取原说话人的语音样本至所述判断所述第一损失是否达到最大之间的步骤，直至所述第一损失达到最大，得到训练完成的语音转换模型。
22.一种语音转换的装置，该装置包括：
23.第二语音处理模块，用于将编码后的原说话人的语音数据输入至根据上述语音转换模型的训练装置提供的语音转换模型的实例化归一层，得到第二语音隐向量；
24.第二声纹获取模块，用于将编码后的目标说话人的语音输入至所述语音转换模型，获取包含所述目标说话人声纹信息的第二声纹向量；
25.语音重构模块，用于通过所述语音转换模型中所述解码器对所述第二语音隐向量和所述第二声纹向量进行合成，得到目标重构语音数据。
26.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音转换模型的训练方法和/或根据所述语音转换模型进行语音转换的方法的步骤。
27.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音转换模型的训练方法和/或根据所述语音转换模型进行语音转换的方法的步骤。
28.上述语音转换模型的训练及语音转换方法、装置、计算机设备及存储介质，通过实例化归一方法处理原说话人的语音数据，将原说话人的语音属性从原说话人的语音数据中分离，将原说话人的语音数据中的语音属性和语音内容进行解耦，然后从目标说话人的语音数据中提取目标说话人的声纹向量，最后将所述声纹向量和原说话人的语音数据的语音内容部分进行合成，得到转换后的重构语音数据。通过实例化归一方法及分类器将原说话人的语音数据中原说话人的语音属性去除的更加彻底。
附图说明
29.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图
获得其他的附图。
30.图1是本发明一实施例中语音转换模型的训练及语音转换的方法的一应用环境示意图；
31.图2是本发明一实施例中语音转换模型的训练方法的一流程图；
32.图3是本发明一实施例中训练前的语音转换模型的架构示意图；
33.图4是本发明一实施例中语音转换方法的一流程图；
34.图5是本发明一实施例中语音转换模型的训练装置的结构示意图；
35.图6是本发明一实施例中语音转换的装置的结构示意图；
36.图7是本发明一实施例中一类计算机设备的一示意图；
37.图8是本发明一实施例中另一类计算机设备的一示意图。
具体实施方式
38.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
39.本技术提供的语音转换模型的训练及语音转换方法，可应用在如图1的应用环境中，其中，该计算机设备可以通过网络与外部设备进行通信，该外部设备例如服务器。其中，该计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集来实现。
40.在一实施例中，如图2所示，提供一种语音转换模型的训练方法，所述语音转换模型包括编码器、实例化归一层、声纹提取器和解码器，以该方法应用在图1中的服务器为例进行说明，包括如下步骤s101至s106。
41.s101、抽取原说话人的语音样本，将抽取的所述语音样本输入至所述编码器，得到第一语音编码数据。
42.具体地，先从收集的原说话人的语音数据中抽取合适的语音数据作为语音样本，所述语音样本的筛选基于预先设置的筛选规则，所述筛选规则对所述语音数据的属性要求包括但不限于：市场、采样率、采样位数、帧率、比特率及声道数。然后，被抽取的所述原说话人的语音样本将被发送至所述语音转换模型中预先设置的所述编码器进行编码处理，得到第一语音编码数据。其中，需要特殊说明的是，所述编码器为所述语音转换模型中内置的一部分，但是在实际的训练过程和使用过程中，可以根据实际情况替换成不同种类的编码器，以适应各种多变的需求。
43.s102、通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性，得到第一语音隐向量。
44.具体地，所述实例化归一层包含预设第一层数的卷积神经网络。所述实例化归一层接收所述第一语音编码数据后，先计算所述第一语音数据中包含的每个通道的均值和方差，然后将所述第一语音数据包含的每个通道的数据、所述每个通道的均值和所述每个通道的方法作为一组语音数据依次输入至所述预设第一层数的卷积神经网络，得到第一语音隐向量。其中，在一具体的实施例中，所述预设第一层数的卷积神经网络是预设三层的一维
卷积神经网络。其中，所述语音属性包括声音的音高、音强、音长和音。
45.进一步地，如图3所示，所述实例化归一层还包含分类器。所述通过所述解码器合成所述第一语音隐向量和所述第一声纹向量之前，还使用所述分类器对所述第一语音隐向量进行分类操作。具体地，先将所述第一语音隐向量输入至所述分类器进行分类，得到分类结果，所述分类结果包含所述第一语音隐向量仍然包含原说话人的语音属性的第一概率。然后，判断所述第一概率是否在预设概率范围内，若否，根据所述第一概率优化所述实例化归一层的参数。最后，循环所述通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性至所述判断所述第一概率是否在预设概率范围内之间的步骤，直至所述第一概率在预设概率范围内。其中，在所述实例化归一层根据所述第一概率优化所述实例化归一层的参数，能够在局部的循环中使得所述实例化归一层的参数在单次的整个训练过程结束前被优化，进一步提高所述语音转换模型的训练效率。
46.s103、通过所述声纹提取器从目标说话人的语音中获取包含所述目标说话人的声纹信息的第一声纹向量。
47.具体地，首先获取所述目标说话人的声音数据，将所述声音数据拆分成帧数据。然后，将所述帧数据依次输入至所述声纹提取器包含的预设第二层数的深度神经网络。再从所述深度神经网络的最后隐藏层获取声音激活向量，对所述声音激活向量进行正则化处理，得到声音帧向量。最后，将所述声音帧向量进行累加，得到所述第一声纹向量。其中，在一具体的实施例中，所述正则化处理采用l2正则化方式，也可以根据实际需求更换为l1正则化方式或其他正则化方式。
48.s104、通过所述解码器合成所述第一语音隐向量和所述第一声纹向量，得到重构语音数据。
49.其中，所述第一语音隐向量包含了所述重构语音数据的语音内容部分，所述第一声纹向量包含了所述重构语音数据的语音属性部分，通过所述解码器合成的所述重构语音数据已经将原说话人的语音属性替换成了目标说话人的语音属性，但是保留了语音内容部分。
50.s105、通过第一损失函数计算所述重构语音数据与所述原说话人的语音样本的损失，得到第一损失。
51.具体地，所述预设第一损失函数如下：
52.l
recon
＝||x-x1||153.其中，l
recon
表示损失值，x表示所述原说话人的语音样本，x1表示所述重构语音数据。
54.s106、判断所述第一损失是否达到最大，若否，则根据所述第一损失优化所述实例化归一层的参数，循环所述抽取原说话人的语音样本至所述判断所述第一损失是否达到最大之间的步骤，直至所述第一损失达到最大，得到训练完成的语音转换模型。
55.其中，如图3所示，所述第一损失反映的是所述重构语音数据与所述原说话人语音之间的损失，经过训练后需保证所述损失越大越好，即所述重构语音数据与所述原说话人语音从听觉上是两个人完全不同的人在说话。而根据所述第一损失优化所述实例化归一层的参数，使得实例化归一层对于原说话人的语音样本中原说话人的语音属性去除更加彻底，进而保证所述解码器在合成所述第一语音隐向量和所述第一声纹向量后，得到的所述
重构语音数据所包含的原说话人的语音属性信息更少，即所述重构语音数据包含的目标说话人的语音属性信息更多，进行语音转换的效果更佳。
56.进一步地，还可以计算所述重构语音与所述目标说话人语音之间的第二损失，根据所述第二损失的计算方法可知，所述第二损失经过训练后必然是越小越好，即所述重构语音与所述目标说话人语音从听觉上是同一个人在说话。具体地，计算所述重构语音数据与所述目标说话人语音的第二损失，然后判断所述第二损失是否达到最小且所述第一损失是否达到最大，若否，则根据所述第一损失和所述第二损失优化所述实例化归一层的参数，循环所述抽取原说话人的语音样本至所述判断所述第二损失是否达到最小且所述第一损失是否达到最大之间的步骤，直至所述第一损失达到最大且所述第二损失达到最小，得到训练完成的语音转换模型。
57.本实施例提出的语音转换模型的训练方法，通过实例化归一方法处理原说话人的语音数据，将原说话人的语音属性从原说话人的语音数据中分离，将原说话人的语音数据中的语音属性和语音内容进行解耦，并使用分类器识别解耦后的语音内容数据，进一步强化实例化归一方法的处理效果，然后从目标说话人的语音数据中提取目标说话人的声纹向量，最后将所述声纹向量和原说话人的语音数据的语音内容部分进行合成，得到转换后的重构语音数据。通过实例化归一方法及分类器将原说话人的语音数据中原说话人的语音属性去除的更加彻底，同时可根据不同的目标说话人的声纹向量合成包含不同目标说话人的语音属性的多种目标重构语音数据。
58.图4是本发明一实施例中根据上述语音转换模型的训练方法训练得到的语音转换模型进行语音转换的方法的一流程图，根据本发明另一实施例提出了根据上述语音转换模型的训练方法训练得到的语音转换模型进行语音转换的方法，如图4所示，该方法包括以下步骤s201至s203：
59.s201、将编码后的原说话人的语音数据输入至根据上述语音转换模型的训练方法训练得到的语音转换模型的实例化归一层，得到第二语音隐向量；
60.s202、将编码后的目标说话人的语音输入至所述语音转换模型，获取包含所述目标说话人声纹信息的第二声纹向量；
61.s203、通过所述语音转换模型中所述解码器对所述第二语音隐向量和所述第二声纹向量进行合成，得到目标重构语音数据。
62.其中，需要特别说明的是，在使用过程中，可以选择不同目标说话人的语音数据，则在原说话人的语音数据输入完成后，可以选择不同目标说话人的语音数据来实现语音转换过程，即可以得到一个或多个不同的目标说话人的语音属性的重构语音数据。
63.进一步地，还可以使用本实施例中的语音转换模型提前将目标说话人的声纹向量进行提取，并将提取到的目标说话人的声纹向量提前预存在所述语音转换模型中。在进行语音转换过程中，只需要接收原说话人的语音数据，无需再接收目标说话人的语音数据，所述语音转换模型中的解码器直接利用预先存储的目标说话人的声纹向量和所述原说话人的语音数据进行合成，得到目标重构语音数据，进一步提高语音转换的效率。
64.进一步地，在实际应用过程中，所述语音转换模型中包含的目标说话人的语音数据还会增多，即随着目标说话人的语音数据增多，同一个目标说话人的声纹向量还可以进一步进行训练优化，将同一个目标说话人的语音属性进一步强化。同时，还可以向所述语音
转换模型中增加新的目标说话人的语音数据或新的目标说话人的声纹向量，以得到更多目标说话人语音属性的重构语音数据。
65.在一实施例中，提供一种语音转换模型的训练装置100，所述语音转换模型包括矢量量化层，所述语音转换模型包括编码器、实例化归一层、声纹提取器和解码器，该语音转换模型的训练装置100与上述实施例中语音转换模型的训练方法一一对应。如图5所示，该语音转换模型的训练装置100包括第一语音处理模块11、归一化模块12、第一声纹获取模块13、重构语音数据模块14、损失计算模块15和训练模块16。各功能模块详细说明如下：
66.第一语音处理模块11，用于抽取原说话人的语音样本，将抽取的所述语音样本输入至所述编码器，得到第一语音编码数据；
67.归一化模块12，用于通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性，得到第一语音隐向量；
68.第一声纹获取模块13，用于通过所述声纹提取器从目标说话人的语音中获取包含所述目标说话人的声纹信息的第一声纹向量；
69.重构语音数据模块14，用于通过所述解码器合成所述第一语音隐向量和所述第一声纹向量，得到重构语音数据；
70.损失计算模块15，用于通过预设第一损失函数计算所述重构语音数据与所述原说话人的语音样本的损失，得到第一损失；
71.训练模块16，用于判断所述第一损失是否达到最大，若否，则根据所述第一损失优化所述实例化归一层的参数，循环所述抽取原说话人的语音样本至所述判断所述第一损失是否达到最大之间的步骤，直至所述第一损失达到最大，得到训练完成的语音转换模型。
72.进一步地，所述归一化模块12还包括：
73.均值和方差计算子模块，用于计算所述第一语音编码数据中每个通道的均值和方差；
74.第一语音隐向量子模块，用于将所述第一语音编码数据包含的每个通道的数据、所述每个通道的均值和所述每个通道的方差作为一组语音通道数据，按组依次将所述语音通道数据输入至所述预设第一层数的卷积神经网络，得到所述第一语音隐向量；
75.第一概率子模块，用于将所述第一语音隐向量输入至所述分类器进行分类，得到分类结果，所述分类结果包含所述第一语音隐向量仍然包含原说话人的语音属性的第一概率；
76.第一优化子模块，用于判断所述第一概率是否在预设概率范围内，若否，根据所述第一概率优化所述实例化归一层的参数；
77.分类器循环子模块，用于循环所述通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性至所述判断所述第一概率是否在预设概率范围内之间的步骤，直至所述第一概率在预设概率范围内。
78.进一步地，所述第一声纹获取模块13还包括：
79.帧数据子模块，用于获取所述目标说话人的声音数据，将所述声音数据拆分成帧数据；
80.深度神经网络子模块，用于将所述帧数据依次输入至所述声纹提取器包含的预设第二层数的深度神经网络；
81.声音帧向量子模块，用于从所述深度神经网络的最后隐藏层获取声音激活向量，对所述声音激活向量进行正则化处理，得到声音帧向量；
82.向量累加子模块，用于将所述声音帧向量进行累加，得到所述第一声纹向量。
83.进一步地，所述损失计算模块15还包括：
84.第一损失函数子模块，用于根据如下公式计算所述预设第一损失：
85.l
recon
＝||x-x1||186.其中，l
recon
表示损失值，x表示所述原说话人的语音样本，x1表示所述重构语音数据。
87.关于语音转换模型的训练装置的具体限定可以参见上文中对于语音转换模型的训练方法的限定，在此不再赘述。上述语音转换模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
88.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音转换模型的训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换模型的训练方法。
89.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种语音转换模型的训练方法。
90.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音转换模型的训练方法的步骤，例如图2所示的步骤s101至步骤s106及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中语音转换模型的训练装置的各模块/单元的功能，例如图5所示模块11至模块16的功能。为避免重复，这里不再赘述。
91.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音转换模型的训练方法的步骤，例如图2所示的步骤s101至步骤s106及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中语音转换模型的训练装置的各模块/单元的功能，例如图5所示模块11至模块16的功能。为避免重复，这里不再赘述。
92.图6是本发明一实施例中语音转换装置200的结构示意图，如图6所示，该根据上述
语音转换模型的训练装置100提供的语音转换模型进行语音转换的装置200包括第二语音处理模块21、第二声纹获取模块22和语音重构模块23。各功能模块详细说明如下：
93.第二语音处理模块21，用于将编码后的原说话人的语音数据输入至根据上述语音转换模型的训练装置提供的语音转换模型的实例化归一层，得到第二语音隐向量；
94.第二声纹获取模块22，用于将编码后的目标说话人的语音输入至所述语音转换模型，获取包含所述目标说话人声纹信息的第二声纹向量；
95.语音重构模块23，用于通过所述语音转换模型中所述解码器对所述第二语音隐向量和所述第二声纹向量进行合成，得到目标重构语音数据。
96.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本技术中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。
97.关于语音转换装置的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。上述语音转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
98.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音合成方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。
99.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。
100.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音合成方法的步骤，例如图4所示的步骤s201至步骤s203及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中语音转换装置的各模块/单元的功能，例如图6所示模块21至模块23的功能。为避免重复，这里不再赘述。
101.所述处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路
(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
102.所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
103.所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。
104.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音转换方法的步骤，例如图4所示的步骤s201至步骤s203及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中语音转换装置的各模块/单元的功能，例如图6所示模块21至模块23的功能。为避免重复，这里不再赘述。
105.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
106.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
107.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

技术特征：

其中，l
recon
表示损失值，x表示所述原说话人的语音样本，x1表示所述重构语音数据。6.一种语音转换方法，其特征在于，所述方法包括：将编码后的原说话人的语音数据输入至如权利要求1至5任一项所述方法得到的语音转换模型的实例化归一层，得到第二语音隐向量；将编码后的目标说话人的语音输入至所述语音转换模型，获取包含所述目标说话人声纹信息的第二声纹向量；通过所述语音转换模型中所述解码器对所述第二语音隐向量和所述第二声纹向量进行合成，得到目标重构语音数据。7.一种语音转换模型的训练装置，其特征在于，所述语音转换模型包括编码器、实例化归一层、声纹提取器和解码器，所述装置包括：第一语音处理模块，用于抽取原说话人的语音样本，将抽取的所述语音样本输入至所述编码器，得到第一语音编码数据；归一化模块，用于通过所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性，得到第一语音隐向量；第一声纹获取模块，用于通过所述声纹提取器从目标说话人的语音中获取包含所述目标说话人的声纹信息的第一声纹向量；重构语音数据模块，用于通过所述解码器合成所述第一语音隐向量和所述第一声纹向量，得到重构语音数据；损失计算模块，用于通过预设第一损失函数计算所述重构语音数据与所述原说话人的语音样本的损失，得到第一损失；训练模块，用于判断所述第一损失是否达到最大，若否，则根据所述第一损失优化所述实例化归一层的参数，循环所述抽取原说话人的语音样本至所述判断所述第一损失是否达到最大之间的步骤，直至所述第一损失达到最大，得到训练完成的语音转换模型。8.一种语音转换的装置，其特征在于，包括：第二语音处理模块，用于将编码后的原说话人的语音数据输入至根据权利要求7提供的语音转换模型的实例化归一层，得到第二语音隐向量；第二声纹获取模块，用于将编码后的目标说话人的语音输入至所述语音转换模型，获取包含所述目标说话人声纹信息的第二声纹向量；语音重构模块，用于通过所述语音转换模型中所述解码器对所述第二语音隐向量和所述第二声纹向量进行合成，得到目标重构语音数据。9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5，和/或权利要求6中任一项所述方法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5，和/或权利要求6中任一项所述方法的步骤。

技术总结

本发明公开了一种语音转换模型的训练方法，应用于人工智能领域。本发明提供的语音转换模型包括编码器、实例化归一层、声纹提取器和解码器，本发明提供的方法包括：抽取原说话人的语音样本输入所述编码器，得到第一语音编码数据；所述实例化归一层去除所述第一语音编码数据中原说话人的语音属性，得到第一语音隐向量；获取所述目标说话人的第一声纹向量；所述解码器合成所述第一语音隐向量和所述第一声纹向量，得到重构语音数据；计算所述重构语音数据与所述原说话人的语音样本的第一损失；判断所述第一损失是否达到最大，若否，则优化所述实例化归一层的参数，循环前述步骤，直至所述第一损失达到最大，得到训练完成的语音转换模型。换模型。换模型。