一种变声控制方法、装置、设备、存储介质及产品与流程

1.本技术实施例涉及音频处理技术领域，尤其涉及一种变声控制方法、装置、设备、存储介质及产品。

背景技术：

2.随着音频处理技术的发展，对音频的处理方式也越来越丰富，例如对原始音频进行音转换处理得到不同音的音频。音转换广泛运用于音频内容生成、娱乐音频制作和保密通话等场景。
3.目前变声控制一般是通过两个编码器网络提取原始音频的音信息和语义信息，再通过声学模型重构出声学特征，进而通过声码器将声学特征合成语音波形。但是这种变声控制方式对音信息和语义信息的解耦效果较差，容易丢失原始音频的语气语调等特征，变声音频与原始音频的相似度较低，变声效果较差。

技术实现要素：

4.本技术实施例提供一种变声控制方法、装置、设备、存储介质及产品，以解决相关技术中的变声控制方式容易出现变声音频与原始音频的相似度较低，变声效果较差的技术问题，提高变声音频与原始音频的相似度，有效提高变声效果。
5.在第一方面，本技术实施例提供了一种变声控制方法，包括：
6.获取待转换语音信息；
7.将所述待转换语音信息输入至设定的音转换模型，通过所述音转换模型基于所述待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对所述语音特征进行变声处理，以得到目标语音信息。
8.在第二方面，本技术实施例提供了一种变声控制装置，包括语音获取模块和语音转换模块，其中：
9.所述语音获取模块，配置为获取待转换语音信息；
10.所述语音转换模块，配置为将所述待转换语音信息输入至设定的音转换模型，通过所述音转换模型基于所述待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对所述语音特征进行变声处理，以得到目标语音信息。
11.在第三方面，本技术实施例提供了一种变声控制设备，包括：存储器以及一个或多个处理器；
12.所述存储器，用于存储一个或多个程序；
13.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的变声控制方法。
14.在第四方面，本技术实施例提供了一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的变声控制方法。
15.在第五方面，本技术实施例提供了一种计算机程序产品，该计算机程序产品包括
计算机程序，该计算机程序存储在计算机可读存储介质中，设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序，使得设备执行如第一方面所述的变声控制方法。
16.本技术实施例通过将待转换语音信息输入到音转换模型中，由音转换模型将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理得到目标语音信息，通过将与待转换语音信息的语气语调相关的基频特征与语义特征以及音特征进行结合，提升语气语调转换的自然度，提高变声音频与原始音频的相似度，有效提高变声效果。
附图说明
17.图1是本技术实施例提供的一种变声控制方法的流程图；
18.图2是本技术实施例提供的一种音转换模型的框架示意图；
19.图3是本技术实施例提供的一种语音特征的生成流程示意图；
20.图4是本技术实施例提供的一种目标语音信息的生成流程示意图；
21.图5是本技术实施例提供的一种变声控制装置的结构示意图；
22.图6是本技术实施例提供的一种变声控制设备的结构示意图。
具体实施方式
23.为了使本技术的目的、技术方案和优点更加清楚，下面结合附图对本技术具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本技术，而非对本技术的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时上述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。上述处理可以对应于方法、函数、规程、子例程、子程序等等。
24.图1给出了本技术实施例提供的一种变声控制方法的流程图，本技术实施例提供的变声控制方法可以由变声控制装置来执行，该变声控制装置可以通过硬件和/或软件的方式实现，并集成在变声控制设备中。
25.下述以变声控制装置执行变声控制方法为例进行描述。参考图1，该变声控制方法包括：
26.s101：获取待转换语音信息。
27.示例性的，获取需要进行音转换的待转换语音信息。本方案提供的待转换语音信息可理解为需要进行音转换的原始音频，待转换语音可以是通过音转换设备进行声音采集得到、基于本地保存的音频文件进行选择得到，还可以是通过网络进行下载得到、通过实时采集音频流(例如在采集声音的同时输出转换音后的声音)得到或者是从视频文件或视频流中提取音频信息得到。在一个可能的实施例中，待转换语音信息可以是原始音频对应的梅尔频谱(mel spectrogram)。
28.在相关技术中，对待转换语音的音转换一般是基于asr(automatic speech recognition，语音识别)/tts(text-to-speech，语音合成)框架进行，基于asr/tts的变声
框架通常是是首先将待转换语音转化为表示语义信息的语义特征ppg(phonetic posteriorgrams，一个时间对音素类别的矩阵，其表示对于语音的每个特定时间帧，每个音素的后验概率)或文本，然后通过语音合成网络的声学模型将其转化为声学特征，再通过声码器将声学特征合成语音波形。该变声方式比较依赖语音识别模型，对音信息和语义信息的解耦效果较差，尤其是基于tts的语音模型，其变声效果在说话风格、语调上会完全变成目标说话人的风格，容易丢失原始说话人的语气语调等特征，变声质量较低。并且这种变声方式需要分阶段训练语音识别模型，语音识别模型的部署也比较复杂。
29.本方案通过将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，再对语音特征进行变声处理得到目标语音信息，更好地解耦待转换语音信息的音信息和语义信息，目标语音信息的语调信息与待转换语音信息的语调信息更接近，在转换得到的目标语音信息中保留了原始的待转换语音信息的语气信息，有效提高音转换效果。并可将声学模型与声码器进行合并，声学模型与声码器的训练可同时进行，音转换模型的训练和部署更方便，并提高变声音频的质量。
30.s102：将待转换语音信息输入至设定的音转换模型，通过音转换模型基于待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理，以得到目标语音信息。
31.示例性的，在获取需要转换音的待转换语音信息后，将待转换语音信息发送到预先设定的音转换模型中，由音转换模型对待转换语音信息进行音转换处理得到目标语音信息。
32.其中，音转换模型在对待转换语音信息进行音转换处理时，先从待转换语音信息中提取基频(f0，fundamental frequency)特征以及语义特征，以及获取设定的音特征，将基频特征、语义特征以及音特征进行结合得到语音特征，并对语音波形进行变声处理(音转换处理)得到对应目标音的目标语音信息。其中，不同的音特征对应不同的音，可根据对音转换的需要确定对应的目标音，并将该目标音对应的音特征确定为设定的音特征。此时目标语音信息将包含有上述设定的音特征对应的目标音以及待转换语音信息对应的语气语调，即得到的目标语音信息的音转换为目标音，并且保留有待转换语音信息对应的语气的目标语音信息。
33.在一个可能的实施例中，如图2提供的一种音转换模型的框架示意图所示，本方案提供的音转换模型包括基频提取网络、语音识别网络(asr网络)、音映射网络(embedding网络、声纹网络等)、声学模型网络(encoder网络)和声码器(decoder网络)。其中，音映射网络可将一个one-hot向量(有且只有一个元素为1，其余元素都为0的向量)转换为256维特征，该256维特征可用于表示说话人的音，音映射网络可基于输入的目标音标识(speaker_id)输出对应设定的音特征。基频提取网络可提取输入的音频信息的基频特征。语音识别网络为预训练的语音识别网络(例如基于wenet框架的语音识别网络，可用于提取语义特征)，语音识别网络可提取输入的音频信息的语义特征。声学模型网络(例如由16层全卷积构成的声学模型网络)可基于输入的声音特征信息(包括音特征、语义特征和基频特征)输出语音特征。声码器(例如基于hifigan声码器的网络结构，其包含生成器(g)和判别器(d))可基于输入的音特征和语音特征，将语音特征转换为音特征对应的目标语音波形。
34.基于此，如图3提供的一种语音特征的生成流程示意图所示，本方案提供的音转换模型在基于待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征时，包括步骤s1021-s1024：
35.s1021：通过基频提取网络提取待转换语音信息的基频特征。
36.示例性的，将待转换语音(例如wav格式的原始音频)发送给基频提取网络，由基频提取网络提取待转换语音信息的基频特征(logf0)。可选的，基频提取网络可通过设定的基频提取算法提取待转换语音信息的基频特征，基频提取算法可以是基于信号处理的时域法(yin算法)、基于信号处理的频域法(swipe算法)、基于机器学习的时域法(crepe算法)、基于机器学习的频域法(spice算法)等。
37.在一个可能的实施例中，本方案提供的基频提取网络在提取待转换语音信息的基频特征时，包括：提取待转换语音信息的基频特征，并对待转换语音信息的基频特征进行高斯标准化处理。
38.示例性的，基频提取网络在提取待转换语音信息中的基频特征后，对基频特征进行高斯标准化处理。其中，在音转换模型的训练过程中，同样通过基频提取网络提取样本语音信息中的基频特征，并对样本语音信息的基频特征进行高斯标准化处理。在得到对样本语音信息的基频特征的高斯标准化处理结果后，可将高斯标准化处理结果发送至声学模型网络。
39.本方案通过对待转换语音信息的基频特征进行高斯标准化处理后，可将待转换语音信息的基频特征调整到目标音对应的基频范围中，转换后的目标语音信息仍保留待转换语音信息的原始说话人的语气语调，有效提升语气语调转换的自然度。在音转换模型的训练和使用阶段，均对语音信息的基频特征进行高斯标准化处理，在提升语气语调转换的自然度的同时，在性别变声转换(例如男女声的变声转换)的变声质量，减少性别变声转换时出现哑音或刺耳声音的情况，提高变声效果。
40.在一个可能的实施例中，本方案提供的基频提取网络在对待转换语音信息的基频特征进行高斯标准化处理时，包括：
41.s10211：确定待转换语音信息的基频特征对应的第一基频均值和第一基频标准差，以及目标音的基频特征对应的第二基频均值和第二基频标准差。
42.s10212：基于第一基频均值、第一基频标准差、第二基频均值和第二基频标准差对待转换语音信息的基频特征进行高斯标准化处理。
43.示例性的，在对待转换语音信息的基频特征进行高斯标准化处理时，先计算待转换语音信息的基频特征的均值和标准差，以确定待转换语音的基频特征对应的第一基频均值和第一基频标准差。同时，确定目标音的基频特征的均值和标准差，以确定目标音的基频特征的第二基频均值和第二基频标准差。其中，不同的目标音的基频特征的均值和标准差在音转换模型的训练过程中已保存，根据需要转换的目标音对应的目标音表示即可确定目标音的基频特征以及基频特征对应的均值和标准差。
44.进一步的，根据待转换语音信息的基频特征对应的第一基频均值和第一基频标准差，以及目标音的基频特征对应的第二基频均值和第二基频标准差，对待转换语音信息的基频特征进行高斯标准化处理，得到高斯标准化处理后的待转换语音信息的基频特征，此时待转换语音信息的基频特征被调整到目标音的基频特征对应的基频范围内。
45.在一个可能的实施例中，本方案提供的基频提取网络在基于第一基频均值、第一基频标准差、第二基频均值和第二基频标准差对待转换语音信息的基频特征进行高斯标准化处理时，包括：将待转换语音信息的基频特征和第一基频均值的差与第一基频标准差和第二基频标准差的比值相乘，并将相乘结果与第二基频均值相加得到对待转换语音信息的基频特征的高斯标准化处理结果。
46.示例性的，在确定待转换语音信息的基频特征对应的第一基频均值和第一基频标准差，以及目标音的基频特征对应的第二基频均值和第二基频标准差后，将待转换语音信息的基频特征和第一基频均值的差与第一基频标准差和第二基频标准差的比值相乘，并将上述的相乘结果与第二基频均值相加得到对待转换语音信息的基频特征的高斯标准化处理结果。
47.需要进行解释的是，在音转换模型的训练阶段，提取并记录训练集中每个样本语音信息的基频特征，确定并记录每个样本语音信息的基频特征的均值和标准差，计算并记录全部样本语音信息的基频特征的均值和标准差。其中，训练集中的样本语音信息包括多个不同音的说话人对应的样本语音信息，不同的音对应不同的音标识。在对音转换模型进行训练时，对各个样本语音提取到的基频特征进行高斯标准化处理时，将具体的样本语音提取到的基频特征的均值和标准差作为第一基频均值和第一基频标准差，将记录的全部样本语音信息的基频特征的均值和标准差作为第二基频均值和第二基频标准差，对样本语音信息的基频特征进行高斯标准化处理。
48.而在音转换模型的使用阶段(即执行本方案提供的变声控制方法的过程)，在对待转换语音信息提取到的基频特征进行高斯标准化处理时，将从待转换语音信息提取到的基频特征的均值和标准差作为第一基频均值和第一基频标准差，并将目标音对应的样本语音信息的基频特征的均值和标准差作为第二基频均值和第二基频标准差，对待转换语音信息的基频特征进行高斯标准化处理。
49.例如，可基于以下公式对待转换语音信息的基频特征的高斯标准化处理结果：
[0050][0051]
其中，log(f
conv
)为对样本语音信息的基频特征的高斯标准化处理结果，在音转换模型的训练阶段，log(f
src
)为样本语音提取到的基频特征，μ
src
和σ
src
为样本语音提取到的基频特征的第一基频均值和第一基频标准差，μ
tgt
和σ
tgt
为全部样本语音信息的基频特征对应的第二基频均值和第二基频标准差。而在音转换模型的使用阶段，log(f
conv
)为对待转换语音信息的基频特征的高斯标准化处理结果，log(f
src
)为待转换语音信息提取到的基频特征，μ
src
和σ
src
为待转换语音信息的基频特征的第一基频均值和第一基频标准差，μ
tgt
和σ
tgt
为目标音对应的样本语音信息的第二基频均值和第二基频标准差。
[0052]
s1022：通过语音识别网络提取待转换语音信息的语义特征。
[0053]
示例性的，将待转换语音输入至训练好的语音识别网络中，由语音识别网络基于设定的语义特征提取算法提取待转换语音信息的语义特征，并将语义特征输入到声学模型网络中。
[0054]
s1023：通过音映射网络，基于目标音标识确定设定的音特征。
[0055]
示例性的，确定需要转换的目标音对应的目标音标识(speaker_id)，并将目
标音表示输入到音映射网络(embedding网络)中。音映射网络将根据输入的目标音标识确定设定的音特征，并将设定的音特征发送至声学模型网络和声码器。其中，各个目标音标识所对应的音特征在对音转换模型的训练过程中进行提取和记录，在音转换模型的使用过程中，可根据目标音标识直接确定对应的音特征。
[0056]
s1024：通过声学模型网络将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征。
[0057]
示例性的，声学模型网络在将接收到待转换语音信息的基频特征和语义特征，以及设定的音特征后，将基频特征、语义特征和音特征进行结合得到语音特征。例如，声学模型网络可由16层残差连接的全卷积层构成，声学模型网络在语义特征的基础上添加基频特征和音特征以得到语音特征。
[0058]
在得到语音特征后，可将语音特征发送至声码器进行目标语音信息的生成。
[0059]
在一个可能的实施例中，如图4提供的一种目标语音信息的生成流程示意图所示，方案提供的音转换模型在对语音特征进行变声处理，以得到目标语音信息时，包括步骤s1025-s1026：
[0060]
s1025：通过卷积模块对设定的音特征进行卷积处理。
[0061]
s1026：将语音特征以及卷积处理后的音特征输入到设定的声码器中，由声码器基于语音特征以及卷积处理后的音特征，通过反转卷积的方式进行上采样，以得到目标音对应的目标语音信息。
[0062]
示例性的，在音映射网络向声码器(decoder网络)发送音特征的通道中添加一个卷积模块(conv1d)，通过该卷积模块对音映射网络发出的音特征进行卷积处理，将音特征转换到与语音特征对应的维度。卷积模块将卷积处理后的音特征输入到声码器中。
[0063]
声码器在接收到声学模型网络发出的语音特征以及卷积模块打出的卷积处理后的音特征后，通过反转卷积的方式对语音特征以及卷积处理后的音特征进行上采样，并生成目标音对应的目标语音信息。其中，在声学模型网络的每层反卷积层之后接一组不同感受野的卷积层，每组卷积层之间残差连接，使得声学模型网络能够并行地观察语音特征以及音特征不同长度的上下文信息，提高目标语音信息生成质量。
[0064]
在一个可能的实施例中，本方案提供的音转换模型基于生成对抗网络损失函数(adv-loss)、特征匹配度损失函数(fm-loss)、梅尔频谱损失函数(mel-loss)和尺度不变信噪比损失函数(sisnr-loss)、平均绝对误差损失函数(l1-loss)中的一种或多种的组合进行训练。
[0065]
示例性的，本方案提供的声码器可基于hifigan声码器的网络结构进行搭建，其包含生成器(g)和判别器(d)。其中，生成器的损失函数为对抗网络损失函数、特征匹配度损失函数、梅尔频谱损失函数和尺度不变信噪比损失函数基于设定权重系数的加权求和结果，判别器的损失函数为对抗网络损失函数。生成器和判别器的损失函数可基于以下公式进行确定：
[0066]
lg＝l
adv
(g；d)+λ
fm
l
fm
(g；d)+λ
mel
l
mel
(g)+λ
sisnr
l
sisnr
(g)
[0067]
ld＝ l
adv
(d；g)
[0068]
其中，lg为生成器的损失函数，l
adv
(g；d)为生成器对应的对抗网络损失函数，l
fm
(g；d)为生成器对应的特征匹配度损失函数，λ
fm
为生成器的特征匹配度损失函数对应的权重系数，l
mel
(g)为生成器对应的梅尔频谱损失函数，λ
mel
为生成器的梅尔频谱损失函数对应的权重系数，l
sisnr
(g)为生成器对应的尺度不变信噪比损失函数，λ
sisnr
为生成器的尺度不变信噪比损失函数对应的权重系数。ld为判别器的损失函数，l
adv
(d；g)为判别器的对抗网络损失函数。其中l
sisnr
＝sisnr(x，z)，其中x为真实梅尔频谱(真实语音信息)，z为声学模型网络(encoder)输出的隐变量(语音特征)。
[0069]
需要进行解释的是，在相关技术中，对生成器和判别器的训练是将样本的梅尔频谱特征作为声码器的输入进行训练，两个训练阶段是单独的训练过程，本方案将生成器和判别器的训练过程合并为一个训练阶段，有效简化音转换模型的训练过程，并能有效地提高变声质量，方便了音转换模型的部署。同时，本方案除了使用传统的hifigan损失函数(包括生成对抗网络损失函数、特征匹配度损失函数和梅尔频谱损失函数)之外，还加入了另外的梅尔频谱损失函数，即尺度不变信噪比损失函数和/或平均绝对误差损失函数，对声学模型网络(encoder)输出的隐变量(语音特征)和真实梅尔频谱(真实语音信息)进行约束，有效保留转换音后原说话人的语气语调，提高变声效果。
[0070]
在音转换模型对待转换语音信息进行音转换处理得到目标语音信息后，获取音转换模型输出的目标语音信息，并输出该目标语音视频。
[0071]
在输出目标语音信息后，可以是将目标语音信息保存为对应的音转换后的变音语音信息，或者是保存目标语音信息后进行播放，还可以是将目标语音信息添加到对应的视频信息中。可以理解的是，在播放目标语音信息时，目标语音信息对应的声音的音变换成了目标音对应的音，并且语气语调与待转换语音信息对应的语气语调一致或接近，相对传统的音转换方案，本方案能很好的保留原始音频的语气和语调，转换后的目标语音信息更生动，音转换质量更高。
[0072]
其中，本方案提供的变声控制方法可应用在变声应用或提供变声功能的程序上，或者应用在语音聊天，视频、语音直播互动中。例如，可在应用提供的变声功能页面上提供不同的音的选择界面(可根据不同音对应的形象提供不同头像的选择按钮)以及音频录制按钮，用户可选择目标音，以及通过音频录制按钮录制原始音频作为待转换语音信息。在确定目标音和待转换语音信息后，将目标音对应的目标音标识和待转换语音信息输入到设定的音转换模型中，由音转换模型基于待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理得到目标音对应的目标语音信息，并将目标语音信息保存在设定的目录中，或者提供目标语音信息的播放按钮，并在点击播放按钮时播放对应的目标语音信息，或者是在聊天界面中进行待转换语音信息的变声时，(在目标语音信息播放完毕后)向聊天对象发送目标语音信息。
[0073]
上述，通过将待转换语音信息输入到音转换模型中，由音转换模型将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理得到目标语音信息，通过将与待转换语音信息的语气语调相关的基频特征与语义特征以及音特征进行结合，提升语气语调转换的自然度，提高变声音频与原始音频的相似度，有效提高变声效果。同时，分别通过音转换模型中的基频提取网络、语音识别网络、音映射网络、声学模型网络和声码器进行基频特征和语义特征的提取、结合以
及变声处理，更好地还原原音频的语气语调，得到更佳的音转换效果，并且通过声学模型网络对音转换模型进行了轻量化处理，实现更小体积，且推理速度更快的音转换模型。并且通过对基频特征进行高斯标准化处理，更好地维持原音频的语气语调，提高对待转换语音信息的变声效果，对于性别变声转换的变声质量更好。并且可将声学模型与声码器进行合并，便于音转换模型的训练和部署，并提高变声音频的质量。相比于相关技术中需要通过两个训练阶段独立训练声学模型和声码器的模型训练方式，即在声学模型的训练完成后，再利用声学模型的输出对声码器进行训练的模型训练方式，本方案通过将声学模型和声码器的训练进行合并，在一个训练阶段即可完成模型训练工作，模型的训练效率以及部署效率更高。
[0074]
图5是本技术实施例提供的一种变声控制装置的结构示意图。参考图5，该变声控制装置包括语音获取模块51和语音转换模块52。
[0075]
其中，语音获取模块51，配置为获取待转换语音信息；语音转换模块52，配置为将待转换语音信息输入至设定的音转换模型，通过音转换模型基于待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理，以得到目标语音信息。
[0076]
上述，通过将待转换语音信息输入到音转换模型中，由音转换模型将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理得到目标语音信息，通过将与待转换语音信息的语气语调相关的基频特征与语义特征以及音特征进行结合，提升语气语调转换的自然度，提高变声音频与原始音频的相似度，有效提高变声效果。
[0077]
在上述实施例的基础上，音转换模型包括基频提取网络、语音识别网络、音映射网络和声学模型网络，其中：
[0078]
基频提取网络，配置为提取待转换语音信息的基频特征；
[0079]
语音识别网络，配置为提取待转换语音信息的语义特征；
[0080]
音映射网络，配置为基于目标音标识确定设定的音特征；
[0081]
声学模型网络，配置为将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征。
[0082]
在上述实施例的基础上，基频提取网络在提取待转换语音信息的基频特征时，配置为：
[0083]
提取待转换语音信息的基频特征，并对待转换语音信息的基频特征进行高斯标准化处理。
[0084]
在上述实施例的基础上，基频提取网络在对待转换语音信息的基频特征进行高斯标准化处理时，配置为：
[0085]
确定待转换语音信息的基频特征对应的第一基频均值和第一基频标准差，以及目标音的基频特征对应的第二基频均值和第二基频标准差；
[0086]
基于第一基频均值、第一基频标准差、第二基频均值和第二基频标准差对待转换语音信息的基频特征进行高斯标准化处理。
[0087]
在上述实施例的基础上，基频提取网络在基于第一基频均值、第一基频标准差、第二基频均值和第二基频标准差对待转换语音信息的基频特征进行高斯标准化处理时，配置
为：
[0088]
将待转换语音信息的基频特征和第一基频均值的差与第一基频标准差和第二基频标准差的比值相乘，并将相乘结果与第二基频均值相加得到对待转换语音信息的基频特征的高斯标准化处理结果。
[0089]
在上述实施例的基础上，音转换模型还配置为通过卷积模块对设定的音特征进行卷积处理，并将语音特征以及卷积处理后的音特征输入到设定的声码器中；
[0090]
音转换模型还包括声码器，声码器配置为基于语音特征以及卷积处理后的音特征，通过反转卷积的方式进行上采样，以得到目标音对应的目标语音信息。
[0091]
在上述实施例的基础上，音转换模型基于生成对抗网络损失函数、特征匹配度损失函数、梅尔频谱损失函数和尺度不变信噪比损失函数、平均绝对误差损失函数中的一种或多种的组合进行训练。
[0092]
值得注意的是，上述变声控制装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。
[0093]
本技术实施例还提供了一种变声控制设备，该变声控制设备可集成本技术实施例提供的变声控制装置。图6是本技术实施例提供的一种变声控制设备的结构示意图。参考图6，该变声控制设备包括：输入装置63、输出装置64、存储器62以及一个或多个处理器61；存储器62，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器61执行，使得一个或多个处理器61实现如上述实施例提供的变声控制方法。上述提供的变声控制装置、设备和计算机可用于执行上述任意实施例提供的变声控制方法，具备相应的功能和有益效果。
[0094]
本技术实施例还提供一种存储计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的变声控制方法。当然，本技术实施例所提供的一种存储计算机可执行指令的存储介质，其计算机可执行指令不限于如上提供的变声控制方法，还可以执行本技术任意实施例所提供的变声控制方法中的相关操作。上述实施例中提供的变声控制装置、设备及存储介质可执行本技术任意实施例所提供的变声控制方法，未在上述实施例中详尽描述的技术细节，可参见本技术任意实施例所提供的变声控制方法。
[0095]
在一些可能的实施方式中，本公开提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当上述程序产品在计算机设备上运行时，程序代码用于使上述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤，例如，计算机设备可以执行本公开实施例所记载的变声控制方法。其中，程序产品可以采用一个或多个可读介质的任意组合。

技术特征：

1.一种变声控制方法，其特征在于，包括：获取待转换语音信息；将所述待转换语音信息输入至设定的音转换模型，通过所述音转换模型基于所述待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对所述语音特征进行变声处理，以得到目标语音信息。2.根据权利要求1所述的变声控制方法，其特征在于，所述音转换模型包括基频提取网络、语音识别网络、音映射网络以及声学模型网络，所述音转换模型在基于所述待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征时，包括：通过所述基频提取网络提取所述待转换语音信息的基频特征；通过所述语音识别网络提取所述待转换语音信息的语义特征；通过所述音映射网络，基于目标音标识确定设定的音特征；通过所述声学模型网络将所述待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征。3.根据权利要求2所述的变声控制方法，其特征在于，所述基频提取网络在提取所述待转换语音信息的基频特征时，包括：提取所述待转换语音信息的基频特征，并对所述待转换语音信息的基频特征进行高斯标准化处理。4.根据权利要求3所述的变声控制方法，其特征在于，所述基频提取网络在对所述待转换语音信息的基频特征进行高斯标准化处理时，包括：确定所述待转换语音信息的基频特征对应的第一基频均值和第一基频标准差，以及目标音的基频特征对应的第二基频均值和第二基频标准差；基于所述第一基频均值、所述第一基频标准差、所述第二基频均值和所述第二基频标准差对所述待转换语音信息的基频特征进行高斯标准化处理。5.根据权利要求4所述的变声控制方法，其特征在于，所述基频提取网络在基于所述第一基频均值、所述第一基频标准差、所述第二基频均值和所述第二基频标准差对所述待转换语音信息的基频特征进行高斯标准化处理时，包括：将所述待转换语音信息的基频特征和所述第一基频均值的差与所述第一基频标准差和所述第二基频标准差的比值相乘，并将相乘结果与所述第二基频均值相加得到对所述待转换语音信息的基频特征的高斯标准化处理结果。6.根据权利要求1所述的变声控制方法，其特征在于，所述音转换模型在对所述语音特征进行变声处理，以目标语音信息时，包括：通过卷积模块对所述设定的音特征进行卷积处理；将所述语音特征以及卷积处理后的所述音特征输入到设定的声码器中，由所述声码器基于所述语音特征以及卷积处理后的所述音特征，通过反转卷积的方式进行上采样，以得到目标音对应的目标语音信息。7.一种变声控制装置，其特征在于，包括语音获取模块和语音转换模块，其中：所述语音获取模块，配置为获取待转换语音信息；所述语音转换模块，配置为将所述待转换语音信息输入至设定的音转换模型，通过所述音转换模型基于所述待转换语音信息的基频特征和语义特征，以及设定的音特征
进行结合得到语音特征，并对所述语音特征进行变声处理，以得到目标语音信息。8.一种变声控制设备，其特征在于，包括：存储器以及一个或多个处理器；所述存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的变声控制方法。9.一种存储计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一项所述的变声控制方法。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的变声控制方法。

技术总结

本申请实施例提供了一种变声控制方法、装置、设备、存储介质及产品。本申请实施例提供的技术方案通过将待转换语音信息输入到音转换模型中，由音转换模型将待转换语音信息的基频特征和语义特征，以及设定的音特征进行结合得到语音特征，并对语音特征进行变声处理得到目标语音信息，通过将与待转换语音信息的语气语调相关的基频特征与语义特征以及音特征进行结合，提升语气语调转换的自然度，提高变声音频与原始音频的相似度，有效提高变声效果。效果。效果。