特征解耦模型的训练、语音解耦、语音合成的方法及设备与流程

1.本技术涉及人工智能技术领域，尤其涉及一种特征解耦模型的训练、语音解耦、语音合成的方法及设备。

背景技术：

2.语音转换技术(voice conversion)是受到世界各地研究人员关注的语音领域之一。语音转换广泛应用于许多领域，例如应用于非并行多对多vc上，如深度风格转移算法、生成对抗网络(gan)和条件变分自动编码器(cvae)等。
3.语音转换的基础是对语音成分特征进行解耦和重组。而其中语音解耦是将原始说话人语音拆分成多个维度的成分特征或音频成分，如内容向量、音向量、音高向量和节奏向量等。重组是指例如指定内容向量、音高向量和节奏向量，给定任何的音向量，即可转换为任意说话人的语音。
4.现有技术只能解耦出内容和音，但音高、节奏和内容仍然混杂，不能实现将说话人语音的各个成分特征完全解耦。而且为了进一步解开剩余的语音成分特征，需要对相关模型进行有效训练。但是训练样本并没有明确的标签，且这些标签获取成本高昂。

技术实现要素：

5.为了解决现有技术中无法将语音中的各个成分特征完全解耦的技术问题。本技术提供了一种特征解耦模型的训练、语音解耦、语音合成的方法及设备，其主要目的在于实现语音各个成分的完全解耦。
6.为实现上述目的，本技术提供了一种语音特征解耦模型的训练方法，该方法包括：
7.获取样本音频的第一频谱特征和经标准化后得到的音高轮廓特征；
8.将第一频谱特征输入至预训练的语音特征解耦模型所包含的节奏编码器进行第一编码，得到节奏编码；
9.利用预训练的语音特征解耦模型所包含的内容编码器对第一频谱特征进行第二编码，得到内容编码；
10.利用预训练的语音特征解耦模型所包含的音高编码器对音高轮廓特征进行第三编码，得到音高编码；
11.通过预训练的语音特征解耦模型所包含的解码器对输入至解码器中的节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征；
12.根据第一频谱特征和第二频谱特征计算重构损失函数；
13.根据音频成分对之间的相关性计算正交损失函数，其中，每组音频成分对包括两个不同的音频成分，音频成分包括节奏编码、音高编码和内容编码，或，音频成分包括节奏编码、音高编码、音编码和内容编码；
14.根据重构损失函数和正交损失函数得到预训练的语音特征解耦模型的整体损失函数；
15.根据整体损失函数计算梯度，根据梯度迭代更新预训练的语音特征解耦模型的模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。
16.此外，为实现上述目的，本技术还提供了一种语音特征的解耦方法，该方法包括：
17.获取待解耦语音的目标频谱特征和经归一化后得到的目标音高轮廓特征；
18.将目标频谱特征输入至根据前面任一项得到的已训练的语音特征解耦模型的节奏编码器和内容编码器、将目标音高轮廓特征输入至已训练的语音特征解耦模型的音高编码器分别进行编码解耦，得到目标节奏编码、目标内容编码和目标音高编码。
19.此外，为实现上述目的，本技术还提供了一种语音合成方法，该方法包括：
20.获取第一语音的第三频谱特征和经归一化后得到的第二音高轮廓特征；
21.获取第二语音的第四频谱特征和经归一化后得到的第三音高轮廓特征；
22.将第三频谱特征和第四频谱特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的节奏编码器中进行编码，得到目标节奏编码；
23.将第三频谱特征和第四频谱特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的内容编码器中进行编码，得到目标内容编码；
24.将第二音高轮廓特征和第三音高轮廓特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的音高编码器中进行编码，得到目标音高编码；
25.将从第一语音对应的第一用户身份特征和第二语音对应的第二用户身份特征中选取的目标用户身份特征以及得到的目标节奏编码、目标内容编码、目标音高编码输入至根据前面任一项得到的已训练的语音特征解耦模型的解码器中进行解码，得到合成的目标频谱特征，其中，已训练的语音特征解耦模型中的节奏编码器、内容编码器、音高编码器的输入以及输入至已训练的语音特征解耦模型中的解码器的目标用户身份特征不为同一个语音对应的特征；
26.利用声码器将目标频谱特征转换为目标合成语音。
27.此外，为实现上述目的，本技术还提供了一种语音特征解耦模型的训练装置，该装置包括：
28.数据获取模块，用于获取样本音频的第一频谱特征和经标准化后得到的音高轮廓特征；
29.节奏编码模块，用于将第一频谱特征输入至预训练的语音特征解耦模型所包含的节奏编码器进行第一编码，得到节奏编码；
30.内容编码模块，用于利用预训练的语音特征解耦模型所包含的内容编码器对第一频谱特征进行第二编码，得到内容编码；
31.音高编码模块，用于利用预训练的语音特征解耦模型所包含的音高编码器对音高轮廓特征进行第三编码，得到音高编码；
32.解码模块，用于通过预训练的语音特征解耦模型所包含的解码器对输入至解码器中的节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征；
33.第一计算模块，用于根据第一频谱特征和第二频谱特征计算重构损失函数；
34.第二计算模块，用于根据每两种音频成分之间的相关性计算正交损失函数，其中，音频成分包括节奏编码、音高编码和内容编码，或，音频成分包括节奏编码、音高编码、音编码和内容编码；
35.第三计算模块，用于根据重构损失函数和正交损失函数得到预训练的语音特征解耦模型的整体损失函数；
36.参数更新模块，用于根据整体损失函数计算梯度，根据梯度迭代更新预训练的语音特征解耦模型的模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。
37.为实现上述目的，本技术还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时执行如前面任一项的语音特征解耦模型的训练方法的步骤，或，处理器执行计算机可读指令时执行如前面任一项的语音特征的解耦方法的步骤，或，处理器执行计算机可读指令时执行如前面任一项的语音合成方法的步骤。
38.为实现上述目的，本技术还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如前面任一项的语音特征解耦模型的训练方法的步骤，或，使得处理器执行如前面任一项的语音特征的解耦方法的步骤，或，使得处理器执行如前面任一项的语音合成方法的步骤。
39.本技术提出的特征解耦模型的训练、语音解耦、语音合成的方法及设备，通过构建语音特征解耦模型，并对语音特征解耦模型所包含的节奏编码器、音高编码器、内容编码器和解码器进行训练，通过重构损失函数和正交损失函数来计算整体损失函数，以尽可能最小化整体损失函数的目的根据整体损失函数来迭代优化模型参数，以更加优化语音特征解耦模型的解耦能力，使得训练后得到的语音特征解耦模型能够对语音进行充分的解耦，各个成分特征被独立分解出来。且本实施例的训练样本不需要复杂的样本标签，且样本标签容易获取。
附图说明
40.图1为本技术一实施例中语音特征解耦模型的训练方法的流程示意图；
41.图2为本技术一实施例中语音特征解耦模型的结构框图；
42.图3为本技术一实施例中语音特征解耦模型的训练装置的结构框图；
43.图4为本技术一实施例中计算机设备的内部结构框图。
44.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
45.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
46.图1为本技术一实施例中语音特征解耦模型的训练方法的流程示意图；参考图1。该语音特征解耦模型的训练方法包括以下步骤s100-s900。
47.s100：获取样本音频的第一频谱特征和经标准化后得到的音高轮廓特征。
48.具体地，第一频谱特征具体为对样本音频进行变换得到的梅尔谱图(mel频谱或mel谱图)。第一频谱特征包含了样本音频所包含的节奏特征(rhythm)、音高特征(pitch)、
内容特征(content)和音特征(timbre)。音高轮廓特征为将音高标准化为统一均值和统一方差的音高轮廓。音高轮廓特征只包含音频的部分节奏特征(不完整的节奏特征)和音高特征。
49.本技术提供的语音特征解耦模型的训练方法中的语音特征解耦模型的结构框图具体如图2所示。参考图2，该语音特征解耦模型是一种基于自动编码器的生成模型，包括节奏编码器、内容编码器、音高编码器及解码器。
50.s200：将第一频谱特征输入至预训练的语音特征解耦模型所包含的节奏编码器进行第一编码，得到节奏编码。
51.s300：利用预训练的语音特征解耦模型所包含的内容编码器对第一频谱特征进行第二编码，得到内容编码。
52.s400：利用预训练的语音特征解耦模型所包含的音高编码器对音高轮廓特征进行第三编码，得到音高编码。
53.具体地，在一个具体实施例中，对节奏编码器、内容编码器和音高编码器分别添加对应的信息瓶颈(informationbottleneck)。信息瓶颈迫使编码器只传递其他编码器不能提供的特征或信息并丢弃其他特征。每个编码器添加的信息瓶颈的尺寸可能不同，而且会根据对应的规则设置调整。
54.节奏编码器用于从第一频谱特征中提取出节奏编码。内容编码器用于从第一频谱特征中提取出内容编码。音高编码器用于从音高轮廓特征中提取出音高编码。节奏编码即节奏代码，内容编码即内容代码，音高编码即音高代码。节奏编码、内容编码和音高编码均为隐藏表示(隐藏向量)或解纠缠表示。
55.因为音特征相当于是用户身份特征，是直接提供给解码器的，因此，所有编码器都不需要编码音特征。不同编码器单独编码内容、音高和节奏。
56.节奏编码器是唯一一个可以完成节奏编码的编码器，其他编码器只能获取部分节奏特征。而且其他编码器没有办法猜测节奏特征缺失的部分，并提供缺失的部分。因此，节奏编码器必须传递所有的节奏特征。
57.又由于除了节奏特征，其他特征在其他编码器都存在，因此节奏编码器会强制利用对应的信息瓶颈按优先顺序丢掉内容特征、音高特征和音特征。
58.节奏编码器只编码节奏特征，而音高编码器的输入为音高轮廓特征不包含内容特征，因此只剩下内容编码器可以用来编码所有的内容特征。内容编码器会利用对应的信息瓶颈丢弃节奏特征、音高特征和音特征，只编码内容特征。
59.音高编码器的输入包含部分节奏特征和全部音高特征，由于音高编码器无法猜测节奏特征丢失的部分，因此音高编码器会利用对应的信息瓶颈只编码音高特征，其他特征丢弃。
60.s500：通过预训练的语音特征解耦模型所包含的解码器对输入至解码器中的节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征。
61.具体地，用户身份特征具体为一种特征向量，例如用户身份特征可以编码为one-hot向量或embedding，是单独提供给解码器的。
62.解码器通过对节奏编码、内容编码、音高编码、用户身份特征这些输入进行重构以生成新的语音频谱即第二频谱特征，即实现了对输入的第一频谱特征进行重构。
63.s600：根据第一频谱特征和第二频谱特征计算重构损失函数。
64.具体地，重构损失函数的计算公式具体如公式(1)所示：
[0065][0066]
其中，l
recon
为重构损失函数，θ是模型所有的可训练参数，是预测的第二频谱特征，s是第一频谱特征。
[0067]
s700：根据音频成分对之间的相关性计算正交损失函数，其中，每组音频成分对包括两个不同的音频成分，音频成分包括节奏编码、音高编码和内容编码，或，音频成分包括节奏编码、音高编码、音编码和内容编码。
[0068]
具体地，音频成分即音频的成分特征。本实施例每两种音频成分之间都具有相关性，相关性即两个音频成分之间的向量距离。正交损失函数根据所有音频成分对之间的相关性计算得到，每组音频成分对包括两个不同的音频成分。
[0069]
如果音频成分包括节奏编码、音高编码和内容编码，则正交损失函数是根据节奏编码与音高编码之间的相关性、节奏编码与内容编码之间的相关性以及音高编码与内容编码之间的相关性计算得到的。
[0070]
如果音频成分包括节奏编码、音高编码、音编码和内容编码，则正交损失函数是根据节奏编码与音高编码之间的相关性、节奏编码与音编码之间的相关性、节奏编码与内容编码之间的相关性、音高编码与音编码之间的相关性、音高编码与内容编码之间的相关性以及音编码与内容编码之间的相关性计算得到的。
[0071]
音频成分之间的相关性即相关关系可以使用音频成分之间的正交性mi来表示还可以使用音频成分之间的相似度来表示。正交性mi可以使用互信息来表示，但本技术不局限于此。
[0072]
通过最小化正交损失函数可以最小化多个音频成分之间的相关关系。使分离或解耦出的音频成分之间尽可能无关或没有重叠成分。
[0073]
s800：根据重构损失函数和正交损失函数得到预训练的语音特征解耦模型的整体损失函数。
[0074]
具体地，整体损失函数可以是重构损失函数和正交损失函数的加权，也可以是重构损失函数和正交损失函数与权重的乘积之和。
[0075]
s900：根据整体损失函数计算梯度，根据梯度迭代更新预训练的语音特征解耦模型的模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。
[0076]
具体地，收敛条件可以为训练次数达到次数阈值也可以是整体损失函数降低到某个阈值。如果未达到收敛条件，则在模型的训练过程中根据整体损失函数计算得到梯度，根据梯度对编码器或编码器与解码器的参数进行迭代更新，得到更新的预训练的语音特征解耦模型。再选取新的样本音频再次执行s100-s900的步骤对更新的预训练的语音特征解耦模型进行训练，循环执行直至达到收敛条件。
[0077]
本实施例通过构建语音特征解耦模型，并对语音特征解耦模型所包含的节奏编码器、音高编码器、内容编码器和解码器进行训练，通过重构损失函数和正交损失函数来计算整体损失函数，以尽可能最小化整体损失函数的目的根据整体损失函数来迭代优化模型参数，以更加优化语音特征解耦模型的解耦能力，使得训练后得到的语音特征解耦模型能够
对语音进行充分的解耦，各个成分特征被独立分解出来。且本实施例的训练样本不需要复杂的样本标签，且样本标签容易获取。
[0078]
在一个实施例中，步骤s500具体包括：
[0079]
对节奏编码、内容编码、音高编码进行上采样，得到第一采样特征；
[0080]
对用户身份特征沿着匹配第一采样特征的时间维度重复，得到第二采样特征；
[0081]
对第一采样特征和第二采样特征沿通道维度进行拼接预测，得到第二频谱特征。
[0082]
具体地，因为音特征相当于是用户身份特征，是直接提供给解码器的，因此，所有编码器不需要编码音特征。
[0083]
解码器包括上采样层、连接层、blstm层和linear层(线性层)。通过上采样层对为隐藏表示的节奏编码、内容编码、音高编码进行上采样得到为上采样表示的第一采样特征，以恢复原始采样率。
[0084]
用户身份标签是一个one-hot向量，它也沿着时间维度重复，以匹配其他上采样表示的时间维度。由第一采样特征和第二采样特征组成的所有上采样表示沿着通道维度连接起来给到解码器的blstm层。解码器的blstm层的输出给到线性层，得到最终的输出即第二频谱特征。
[0085]
在一个实施例中，步骤s700具体包括：
[0086]
计算每两种音频成分的互信息；
[0087]
对得到的互信息取上限后求和，得到正交损失函数。
[0088]
具体地，本实施例音频成分之间的相关性使用正交性mi来表示，正交性mi采用互信息表示。给定随机变量u和v，正交性mi是它们的联合分布和边际分布之间的kullback-leibler(kl)即散度，使用互信息表示散度。
[0089]
其中，互信息为i(u,v)＝d
kl
(p(u,v)；p(u)p(v))
ꢀꢀꢀ
公式(2)
[0090]
其中，p(u,v)、p(u)、p(v)均为概率分布。
[0091]
mi正交性的上限为：
[0092][0093]
其中，本实施例的音频成分包括内容编码、音编码、音高编码和节奏编码。其中，本实施例的音频成分包括内容编码、音编码、音高编码和节奏编码。s,p,r分别为内容编码、音编码、音高编码和节奏编码。为给定v的u的真实值后验的变分近似值，且可以通过模型参数进行参数化。e为期望函数。
[0094]
在一个实施例中，整体损失的计算公式如公式(4)所示：
[0095]
l＝l
reco
n+λl
mi
ꢀꢀ
公式(4)
[0096]
其中，l为整体损失函数，l
recon
为自重构损失函数，l
mi
为正交损失函数，λ为正交损失函数对整体损失函数的损失权重；
[0097]
正交损失函数的计算公式如公式(5)所示：
[0098][0099]
其中，u、v为随机给定的两种音频成分对应的编码，为互信息对应的上限。
损失权重λ为给定的定值，代表正交损失函数对整体损失函数的影响程度。
[0100]
本实施例通过降低各音频特征之间的互信息以增大各音频特征之间的解耦程度。
[0101]
在一个实施例中，步骤s300具体包括：
[0102]
利用预训练的语音特征解耦模型所包含的内容编码器对第一频谱特征进行第一卷积处理，
[0103]
对第一卷积处理得到的输出进行第一随机重采样操作，得到第三采样特征，
[0104]
利用第一blstm层对第三采样特征进行处理得到第一中间特征，
[0105]
对第一中间特征进行下采样，得到内容编码；
[0106]
步骤s400具体包括：
[0107]
利用预训练的语音特征解耦模型所包含的音高编码器对音高轮廓特征进行第二卷积处理，
[0108]
对第二卷积处理得到的输出进行第二随机重采样操作，得到第四采样特征，
[0109]
利用第二blstm层对第四采样特征进行处理得到第二中间特征，
[0110]
对第二中间特征进行下采样，得到音高编码。
[0111]
具体地，对第一卷积处理得到的输出进行第一随机重采样操作，得到第一采样特征，包括：将第一卷积处理得到的输出切分为随机长度的多个第一片段，对每个第一片段沿时间维度进行随机拉伸或压缩得到对应的第一采样特征。
[0112]
第一频谱特征经过随机重采样后，节奏特征会随机缺失部分特征，其他特征不变。
[0113]
对第二卷积处理得到的输出进行第二随机重采样操作，得到第二采样特征，包括：将第二卷积处理得到的输出切分为随机长度的多个第二片段，对每个第二片段沿时间维度进行随机拉伸或压缩得到对应的第二采样特征。
[0114]
音高轮廓本身包含不完整的节奏特征，而且音高轮廓特征在经过随机重采样中的随机拉伸或压缩后会失去更多的节奏特征，因此无法使用破坏或的节奏特征进行编码。
[0115]
节奏编码器、内容编码器和音高编码器的网络结构相似。其中，内容编码器和音高编码器均包括一组5x 1卷积层、归一化层或组归一化层、随机重采样层、blstm层和下采样层。节奏编码器包括一组5x 1卷积层、归一化层或组归一化层、blstm层和下采样层。
[0116]
内容编码器和音高编码器的卷积层的输出都给到随机重采样层，以进一步的污染或打乱节奏特征。卷积层通过采样后得到的输出给到编码器的blstm层，以减少特征尺寸或降低特征维度；编码器的blstm层的输出通过下采样操作，以降低时间维度，从而产生隐藏表示即对应的内容编码或音高编码。
[0117]
由于每个编码器都添加了对应的信息瓶颈，因此，每个编码器都不会编码音特征。
[0118]
本实施例确保了每个编码器编码各自负责的成分特征，以达到特征解耦的目的。
[0119]
在一个实施例中，该方法还包括：
[0120]
对节奏编码器、内容编码器和音高编码器分别添加对应的信息瓶颈。
[0121]
下面具体说明本技术语音特征解耦的原理：
[0122]
假设语音数据可以解耦成四种成分，节奏、音高、内容、音，我们提出这个模型希望能够完全解耦开四种语音成分，实现每个成分的单独控制。
[0123]
音特征：用户身份特征提供了音信息，因此可以认为其他编码器不再需要编
码音特征。
[0124]
节奏特征：由于输入内容编码器的地域频谱特征和输入音高编码器的音高轮廓特征都经过了随机重采样处理，打乱了语音节奏，因此输入到内容编码器和音高编码器的节奏信息已不完整，所以完整的节奏信息仅能通过节奏编码器来进行编码，再利用添加至节奏编码器的信息瓶颈使得节奏编码器只编码节奏特征丢弃其他特征，这样节奏编码器只会输出节奏编码。
[0125]
音高特征：由于输入到音高编码器的是归一化的音高轮廓特征，而音高轮廓特征仅包含音高特征和不完整的节奏特征。且不完整的节奏特征经过随机重采样会进一步确实部分节奏特征。当节奏特征由节奏编码器提供后，利用添加至音高编码器的信息瓶颈使得音高编码器所编码的特征仅为音高特征，即输出仅为音高编码。
[0126]
内容特征：由于语音信息的其他三个信息：节奏和音高已经由其他两个编码器提供，且第一频谱特征输入内容编码器后会经过随机重采样，其完整的节奏特征会被随机丢弃，利用添加至内容编码器的信息瓶颈使得内容编码器丢弃其他特征仅对内容特征进行编码，进而预期输出为内容编码。
[0127]
本技术使用encoder-decoder(编码器-解码器)的结构，编码器限制输出维度，加入的信息瓶颈过滤了其他无效特征；时间维度随机采样进一步过滤扰乱节奏特征，通过不同的编码器传递不同的编码给到解码器，实现了从语音中解耦出timbre(音)、pitch(音高)、rhythm(节奏)、content(内容)四个部分。
[0128]
本技术还提供了一种语音特征的解耦方法，该方法包括：
[0129]
获取待解耦语音的目标频谱特征和经归一化后得到的目标音高轮廓特征；
[0130]
将目标频谱特征输入至根据前面任一项得到的已训练的语音特征解耦模型的节奏编码器和内容编码器、将目标音高轮廓特征输入至已训练的语音特征解耦模型的音高编码器分别进行编码解耦，得到目标节奏编码、目标内容编码和目标音高编码。
[0131]
具体地，已训练的语音特征解耦模型包含编码器和解码器，解码器用于合成或重构语音对应的频谱特征。因此，如果需要提取音频或语音中的音频成分或成分特征只需要用到已训练的语音特征解耦模型的编码器。通过各个已训练的编码器即可对待解耦语音中的音频成分解纠缠，得到对应的目标节奏编码、目标内容编码和目标音高编码。
[0132]
本技术还提供了一种语音合成方法，该方法包括：
[0133]
获取每个候选语音的第三频谱特征和经归一化后得到的第二音高轮廓特征；
[0134]
将第三频谱特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的节奏编码器中进行编码，得到目标节奏编码；
[0135]
将第三频谱特征中的一个输入至已训练的语音特征解耦模型的内容编码器中进行编码，得到目标内容编码；
[0136]
将第二音高轮廓特征中的一个输入至已训练的语音特征解耦模型的音高编码器中进行编码，得到目标音高编码；
[0137]
将从候选语音对应的第一用户身份特征中选取的目标用户身份特征以及得到的目标节奏编码、目标内容编码、目标音高编码输入至已训练的语音特征解耦模型的解码器中进行解码，得到合成的目标频谱特征，其中，已训练的语音特征解耦模型中的节奏编码器、内容编码器、音高编码器的输入以及输入至已训练的语音特征解耦模型中的解码器的
目标用户身份特征不全为同一个候选语音对应的特征；
[0138]
利用声码器将目标频谱特征转换为目标合成语音。
[0139]
具体地，语音合成作为人工智能的一个重要分支，已经被应用到大家日常生活的各个方面。它通过输入文字，经由人工智能的算法，合成像人类语音一样自然的音频。本实施例的语音合成模型包括声学模型(acoustic model)和声码器(vocoder)两部分组成，其中，声学模型(acoustic model)包括前面任意一项得到的已训练的语音特征解耦模型。
[0140]
以两个候选语音进行语音合成为例。该语音合成方法具体为：
[0141]
获取第一语音的第三频谱特征和经归一化后得到的第二音高轮廓特征；
[0142]
获取第二语音的第四频谱特征和经归一化后得到的第三音高轮廓特征；
[0143]
将第三频谱特征和第四频谱特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的节奏编码器中进行编码，得到目标节奏编码；
[0144]
将第三频谱特征和第四频谱特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的内容编码器中进行编码，得到目标内容编码；
[0145]
将第二音高轮廓特征和第三音高轮廓特征中的一个输入至根据前面任一项得到的已训练的语音特征解耦模型的音高编码器中进行编码，得到目标音高编码；
[0146]
将从第一语音对应的第一用户身份特征和第二语音对应的第二用户身份特征中选取的目标用户身份特征以及得到的目标节奏编码、目标内容编码、目标音高编码输入至根据前面任一项得到的已训练的语音特征解耦模型的解码器中进行解码，得到合成的目标频谱特征，其中，已训练的语音特征解耦模型中的节奏编码器、内容编码器、音高编码器的输入以及输入至已训练的语音特征解耦模型中的解码器的目标用户身份特征不全为同一个语音对应的特征；
[0147]
利用声码器将目标频谱特征转换为目标合成语音。
[0148]
向已训练的语音特征解耦模型的节奏编码器和内容编码器中输入第三频谱特征、第四频谱特征中的一个，节奏编码器和内容编码器的输入可以相同也可以不相同。向已训练的语音特征解耦模型的音高编码器中输入第二音高轮廓特征、第三音高轮廓特征中的一个。向已训练的语音特征解耦模型的解码器中输入第一语音对应的第一用户身份特征、第二语音对应的第二用户身份特征中的一个。必须同时保证已训练的语音特征解耦模型的编码器和解码器的输入不全来自同一个语音对应的特征，这样才能保证输入至解码器的特征是来自两个不同语音的特征，才能达到语音合成的目的和意义。
[0149]
本实施例使用至少两个候选语音，可以为三个、四个不局限于此。
[0150]
声码器的作用是将得到的mel图转换为语音。本实施例从音、音高、内容以及节奏实现了各种成分特征的语音合成，丰富了语音合成的应用。
[0151]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0152]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深
度学习等几大方向。
[0153]
图3为本技术一实施例中语音特征解耦模型的训练装置的结构框图，参考图3，该装置包括：
[0154]
数据获取模块100，用于获取样本音频的第一频谱特征和经标准化后得到的音高轮廓特征；
[0155]
节奏编码模块200，用于将第一频谱特征输入至预训练的语音特征解耦模型所包含的节奏编码器进行第一编码，得到节奏编码；
[0156]
内容编码模块300，用于利用预训练的语音特征解耦模型所包含的内容编码器对第一频谱特征进行第二编码，得到内容编码；
[0157]
音高编码模块400，用于利用预训练的语音特征解耦模型所包含的音高编码器对音高轮廓特征进行第三编码，得到音高编码；
[0158]
解码模块500，用于通过预训练的语音特征解耦模型所包含的解码器对输入至解码器中的节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征；
[0159]
第一计算模块600，用于根据第一频谱特征和第二频谱特征计算重构损失函数；
[0160]
第二计算模块700，用于根据每两种音频成分之间的相关性计算正交损失函数，其中，音频成分包括节奏编码、音高编码和内容编码，或，音频成分包括节奏编码、音高编码、音编码和内容编码；
[0161]
第三计算模块800，用于根据重构损失函数和正交损失函数得到预训练的语音特征解耦模型的整体损失函数；
[0162]
参数更新模块900，用于根据整体损失函数计算梯度，根据梯度迭代更新预训练的语音特征解耦模型的模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。
[0163]
在一个实施例中，解码模块500包括：
[0164]
第一上采样模块，用于对节奏编码、内容编码、音高编码进行上采样，得到第一采样特征；
[0165]
第二上采样模块，用于对用户身份特征沿着匹配第一采样特征的时间维度重复，得到第二采样特征；
[0166]
合成模块，用于对第一采样特征和第二采样特征沿通道维度进行拼接预测，得到第二频谱特征。
[0167]
在一个实施例中，第二计算模块700包括：
[0168]
互信息计算模块，用于计算每两种音频成分的互信息；
[0169]
求和模块，用于对得到的互信息取上限后求和，得到正交损失函数。
[0170]
在一个实施例中，整体损失的计算公式为：
[0171]
l＝l
recon
+λl
mi
[0172]
其中，l为整体损失函数，l
recon
为自重构损失函数，l
mi
为正交损失函数，λ为正交损失函数对整体损失函数的损失权重；
[0173]
正交损失函数的计算公式为：
[0174]
[0175]
其中，u、v为随机给定的两种音频成分对应的编码，为互信息对应的上限。
[0176]
在一个实施例中，内容编码模块300包括：
[0177]
第一卷积模块，用于利用预训练的语音特征解耦模型所包含的内容编码器对第一频谱特征进行第一卷积处理，
[0178]
第一随机重采样模块，用于对第一卷积处理得到的输出进行第一随机重采样操作，得到第三采样特征，
[0179]
第一blstm模块，用于利用第一blstm层对第三采样特征进行处理得到第一中间特征，
[0180]
第一下采样模块，用于对第一中间特征进行下采样，得到内容编码；
[0181]
音高编码模块400包括：
[0182]
第二卷积模块，用于利用预训练的语音特征解耦模型所包含的音高编码器对音高轮廓特征进行第二卷积处理，
[0183]
第二随机重采样模块，用于对第二卷积处理得到的输出进行第二随机重采样操作，得到第四采样特征，
[0184]
第二blstm模块，用于利用第二blstm层对第四采样特征进行处理得到第二中间特征，
[0185]
第二下采样模块，用于对第二中间特征进行下采样，得到音高编码。
[0186]
在一个实施例中，该装置还包括：
[0187]
瓶颈信息添加模块，用于对节奏编码器、内容编码器和音高编码器分别添加对应的信息瓶颈。
[0188]
本技术还提供了一种语音特征的解耦装置，该装置包括：
[0189]
目标数据获取模块，用于获取待解耦语音的目标频谱特征和经归一化后得到的目标音高轮廓特征；
[0190]
特征解耦模块，用于将目标频谱特征输入至前面任一项得到的已训练的语音特征解耦模型的节奏编码器和内容编码器、将目标音高轮廓特征输入至已训练的语音特征解耦模型的音高编码器分别进行编码解耦，得到目标节奏编码、目标内容编码和目标音高编码。
[0191]
本技术还提供了一种语音合成装置，该装置包括：
[0192]
第一数据获取模块，用于获取第一语音的第三频谱特征和经归一化后得到的第二音高轮廓特征；
[0193]
第二数据获取模块，用于获取第二语音的第四频谱特征和经归一化后得到的第三音高轮廓特征；
[0194]
目标节奏编码模块，用于将第三频谱特征和第四频谱特征中的一个输入至前面任一项得到的已训练的语音特征解耦模型的节奏编码器中进行编码，得到目标节奏编码；
[0195]
目标内容编码模块，用于将第三频谱特征和第四频谱特征中的一个输入至已训练的语音特征解耦模型的内容编码器中进行编码，得到目标内容编码；
[0196]
目标音高编码模块，用于将第二音高轮廓特征和第三音高轮廓特征中的一个输入至已训练的语音特征解耦模型的音高编码器中进行编码，得到目标音高编码；
[0197]
目标解码模块，用于将从第一语音对应的第一用户身份特征和第二语音对应的第二用户身份特征中选取的目标用户身份特征以及得到的目标节奏编码、目标内容编码、目
标音高编码输入至已训练的语音特征解耦模型的解码器中进行解码，得到合成的目标频谱特征，其中，已训练的语音特征解耦模型中的节奏编码器、内容编码器、音高编码器的输入以及输入至已训练的语音特征解耦模型中的解码器的目标用户身份特征不为同一个语音对应的特征；
[0198]
转换模块，用于利用声码器将目标频谱特征转换为目标合成语音。
[0199]
应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0200]
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本技术中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。
[0201]
关于语音特征解耦模型的训练装置的具体限定可以参见上文中对于语音特征解耦模型的训练方法的限定，在此不再赘述。上述语音特征解耦模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0202]
图4为本技术一实施例中计算机设备的内部结构框图。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质，也可以是易失性存储介质。存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现语音特征解耦模型的训练方法方法，或，语音特征的解耦方法，或，语音合成方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行语音特征解耦模型的训练方法方法，或，语音特征的解耦方法，或，语音合成方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0203]
在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序)，处理器执行计算机可读指令时实现上述实施例中语音特征解耦模型的训练方法的步骤(例如图1所示的步骤s100至步骤s900及该方法的其它扩展和相关步骤的延伸)，或，语音特征的解耦方法，或，语音合成方法。或者，处理器执行计算机可读指令时实现上述实施例中语音特征解耦模型的训练装置的各模块/单元的功能，例如图3所示模块100至模块900的功能。为避免重复，这里不再赘述。
[0204]
处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通
用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
[0205]
存储器可用于存储计算机可读指令和/或模块，处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
[0206]
存储器可以集成在处理器中，也可以与处理器分开设置。
[0207]
本领域技术人员可以理解，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0208]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中语音特征解耦模型的训练方法的步骤(例如图1所示的步骤s100至步骤s900及该方法的其它扩展和相关步骤的延伸)，或，语音特征的解耦方法，或，语音合成方法。或者，计算机可读指令被处理器执行时实现上述实施例中语音特征解耦模型的训练装置的各模块/单元的功能，例如图3所示模块100至模块900的功能。为避免重复，这里不再赘述。
[0209]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指示相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双倍速率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0210]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0211]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于
这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0212]
以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

技术特征：

1.一种语音特征解耦模型的训练方法，其特征在于，所述方法包括：获取样本音频的第一频谱特征和经标准化后得到的音高轮廓特征；将所述第一频谱特征输入至预训练的语音特征解耦模型所包含的节奏编码器进行第一编码，得到节奏编码；利用所述预训练的语音特征解耦模型所包含的内容编码器对所述第一频谱特征进行第二编码，得到内容编码；利用所述预训练的语音特征解耦模型所包含的音高编码器对所述音高轮廓特征进行第三编码，得到音高编码；通过所述预训练的语音特征解耦模型所包含的解码器对输入至所述解码器中的所述节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征；根据所述第一频谱特征和第二频谱特征计算重构损失函数；根据音频成分对之间的相关性计算正交损失函数，其中，每组所述音频成分对包括两个不同的音频成分，所述音频成分包括节奏编码、音高编码和内容编码，或，所述音频成分包括节奏编码、音高编码、音编码和内容编码；根据所述重构损失函数和正交损失函数得到所述预训练的语音特征解耦模型的整体损失函数；根据所述整体损失函数计算梯度，根据所述梯度迭代更新所述预训练的语音特征解耦模型的模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。2.根据权利要求1所述的方法，其特征在于，所述通过所述预训练的语音特征解耦模型所包含的解码器对输入至所述解码器中的所述节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征，包括：对所述节奏编码、内容编码、音高编码进行上采样，得到第一采样特征；对所述用户身份特征沿着匹配所述第一采样特征的时间维度重复，得到第二采样特征；对所述第一采样特征和第二采样特征沿通道维度进行拼接预测，得到第二频谱特征。3.根据权利要求1所述的方法，其特征在于，所述根据音频成分对之间的相关性计算正交损失函数，包括：计算每两种音频成分的互信息；对得到的互信息取上限后求和，得到正交损失函数。4.根据权利要求3所述的方法，其特征在于，所述整体损失的计算公式为：l＝l
recon
+λl
mi
其中，l为整体损失函数，l
recon
为自重构损失函数，l
mi
为正交损失函数，λ为所述正交损失函数对整体损失函数的损失权重；所述正交损失函数的计算公式为：其中，u、v为随机给定的两种音频成分对应的编码，为互信息对应的上限。
5.根据权利要求1所述的方法，其特征在于，所述利用所述预训练的语音特征解耦模型所包含的内容编码器对所述第一频谱特征进行第二编码，得到内容编码，包括：利用所述预训练的语音特征解耦模型所包含的内容编码器对所述第一频谱特征进行第一卷积处理，对第一卷积处理得到的输出进行第一随机重采样操作，得到第三采样特征，利用第一blstm层对所述第三采样特征进行处理得到第一中间特征，对所述第一中间特征进行下采样，得到内容编码；利用所述预训练的语音特征解耦模型所包含的音高编码器对所述音高轮廓特征进行第三编码，得到音高编码，包括：利用所述预训练的语音特征解耦模型所包含的音高编码器对所述音高轮廓特征进行第二卷积处理，对第二卷积处理得到的输出进行第二随机重采样操作，得到第四采样特征，利用第二blstm层对所述第四采样特征进行处理得到第二中间特征，对所述第二中间特征进行下采样，得到音高编码。6.根据权利要求1所述的方法，其特征在于，在所述通过所述预训练的语音特征解耦模型所包含的解码器对输入至所述解码器中的所述节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征之前，所述方法还包括：对所述节奏编码器、内容编码器和音高编码器分别添加对应的信息瓶颈。7.一种语音特征的解耦方法，其特征在于，所述方法包括：获取待解耦语音的目标频谱特征和经归一化后得到的目标音高轮廓特征；将所述目标频谱特征输入至根据权利要求1-6任一项得到的已训练的语音特征解耦模型的节奏编码器和内容编码器、将所述目标音高轮廓特征输入至所述已训练的语音特征解耦模型的音高编码器分别进行编码解耦，得到目标节奏编码、目标内容编码和目标音高编码。8.一种语音合成方法，其特征在于，所述方法包括：获取每个候选语音的第三频谱特征和经归一化后得到的第二音高轮廓特征；将所述第三频谱特征中的一个输入至根据权利要求1-6任一项得到的已训练的语音特征解耦模型的节奏编码器中进行编码，得到目标节奏编码；将所述第三频谱特征中的一个输入至所述已训练的语音特征解耦模型的内容编码器中进行编码，得到目标内容编码；将所述第二音高轮廓特征中的一个输入至所述已训练的语音特征解耦模型的音高编码器中进行编码，得到目标音高编码；将从所述候选语音对应的第一用户身份特征中选取的目标用户身份特征以及得到的所述目标节奏编码、目标内容编码、目标音高编码输入至所述已训练的语音特征解耦模型的解码器中进行解码，得到合成的目标频谱特征，其中，所述已训练的语音特征解耦模型中的节奏编码器、内容编码器、音高编码器的输入以及输入至所述已训练的语音特征解耦模型中的解码器的目标用户身份特征不全为同一个候选语音对应的特征；利用声码器将所述目标频谱特征转换为目标合成语音。9.一种语音特征解耦模型的训练装置，其特征在于，所述装置包括：
数据获取模块，用于获取样本音频的第一频谱特征和经标准化后得到的音高轮廓特征；节奏编码模块，用于将所述第一频谱特征输入至预训练的语音特征解耦模型所包含的节奏编码器进行第一编码，得到节奏编码；内容编码模块，用于利用所述预训练的语音特征解耦模型所包含的内容编码器对所述第一频谱特征进行第二编码，得到内容编码；音高编码模块，用于利用所述预训练的语音特征解耦模型所包含的音高编码器对所述音高轮廓特征进行第三编码，得到音高编码；解码模块，用于通过所述预训练的语音特征解耦模型所包含的解码器对输入至所述解码器中的所述节奏编码、内容编码、音高编码、用户身份特征进行解码，得到第二频谱特征；第一计算模块，用于根据所述第一频谱特征和第二频谱特征计算重构损失函数；第二计算模块，用于根据音频成分对之间的相关性计算正交损失函数，其中，每组所述音频成分对包括两个不同的音频成分，所述音频成分包括节奏编码、音高编码和内容编码，或，所述音频成分包括节奏编码、音高编码、音编码和内容编码；第三计算模块，用于根据所述重构损失函数和正交损失函数得到所述预训练的语音特征解耦模型的整体损失函数；参数更新模块，用于根据所述整体损失函数计算梯度，根据所述梯度迭代更新所述预训练的语音特征解耦模型的模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时执行如权利要求1-6任一项所述的语音特征解耦模型的训练方法的步骤，或，所述处理器执行所述计算机可读指令时执行如权利要求7所述的语音特征的解耦方法的步骤，或，所述处理器执行所述计算机可读指令时执行如权利要求8所述的语音合成方法的步骤。11.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求1-6任一项所述的语音特征解耦模型的训练方法的步骤，或，使得所述处理器执行如权利要求7所述的语音特征的解耦方法的步骤，或，使得所述处理器执行如权利要求8所述的语音合成方法的步骤。

技术总结

本申请涉及人工智能技术，提出了一种特征解耦模型的训练、语音解耦、语音合成的方法及设备，该方法包括：将样本音频的第一频谱特征输入至预训练的语音特征解耦模型的节奏编码器进行编码得到节奏编码；利用模型的内容编码器对第一频谱特征进行编码得到内容编码；利用模型的音高编码器对音高轮廓特征进行编码得到音高编码；通过模型的解码器对输入至解码器中的节奏编码、内容编码、音高编码、用户身份特征进行解码得到第二频谱特征；根据计算得到的重构损失函数和正交损失函数得到整体损失函数；根据整体损失函数计算梯度迭代更新模型参数，直至达到收敛条件，得到已训练的语音特征解耦模型。本申请可以优化语音特征解耦达到充分解耦的目的。分解耦的目的。分解耦的目的。