语音合成模型的训练方法、电子设备和存储介质与流程



1.本发明属于语音合成模型的训练技术领域,尤其涉及语音合成模型的训练方法、电子设备和存储介质。


背景技术:



2.相关技术主要分为两大类,一类是使用relative attributes rank(rar,相对属性排序,一种相对信息建模方式)技术,通过一种人工构造的优化问题,用svm(support vector machine,支持向量机)方法寻一个最优的排序矩阵,从而预先得到相对的情感强度值用于训练。训练完成之后即可使用这种强度值对合成的情感进行控制。第二类是在情感嵌入空间上进行操作,比如插值等。
3.发明人在实现本技术的过程中发现:基于rar的方法需要预先计算出所有训练数据的相对情感强度值,这一阶段的优化问题解的好坏程度,将直接影响到后续的训练。第二类对于情感嵌入表达的提取也至关重要,经常需要对这个空间施加仔细的额外约束才能提升效果。此外,有些方法的合成质量较差,极有可能是由前序阶段所导致。


技术实现要素:



4.本发明实施例提供一种语音合成模型的训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
5.第一方面,本发明实施例提供一种语音合成模型的训练方法,包括:训练一个无情感输入的声学模型,其中,在所述声学模型的训练过程中用到了一种扩散过程,所述声学模型的训练目标为对于所述扩散过程中的任何中间时刻,估计数据分布的对数梯度;训练一个情感分类器,其中,所述情感分类器的输入至少包括所述扩散过程中的某一中间时刻对应的对数梯度;使用软标签指导技术进行情感可控的语音合成采样,其中,所述扩散过程对应于所述语音合成采样的反向去噪过程,所述反向去噪过程的梯度项为语音合成模型估计的目标,软标签指导项在数学上等同于交叉熵,其一边为所述情感分类器的输出,另一边为目标情感强度所对应的分布。
6.第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音合成模型的训练方法的步骤。
7.第三方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音合成模型的训练方法的步骤。
8.在本技术实施例的方法中,情感强度可以由发明人提出的软标签指导技术来操控,这里软标签指导技术是基于分类器指导技术来进行扩展得到的,从而能够得到情感可
控、高质量的语音合成。
附图说明
9.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1为本发明一实施例提供的一种语音合成模型的训练方法的流程图;
11.图2为本发明一实施例提供的emodiff的训练和采样图;
12.图3为本发明一实施例提供的平均意见得分(mos)和美尔锥体失真(mcd)的评价;
13.图4为本发明一实施例提供的控制强度α∈{0.0,0.2,0.4,0.6,0.8,1.0}时的分类概率图;
14.图5为本发明一实施例提供的每种情绪的多样性偏好测试;
15.图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
16.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
17.请参考图1,其示出了本技术的语音合成模型的训练方法一实施例的流程图。
18.如图1所示,在步骤101中,训练一个无情感输入的声学模型,其中,在所述声学模型的训练过程中用到了一种扩散过程,所述声学模型的训练目标为对于所述扩散过程中的任何中间时刻,估计数据分布的对数梯度;
19.在步骤102中,训练一个情感分类器,其中,所述情感分类器的输入至少包括所述扩散过程中的某一中间时刻对应的对数梯度;
20.在步骤103中,使用软标签指导技术进行情感可控的语音合成采样,其中,所述扩散过程对应于所述语音合成采样的反向去噪过程,所述反向去噪过程的梯度项为语音合成模型估计的目标,软标签指导项在数学上等同于交叉熵,其一边为所述情感分类器的输出,另一边为目标情感强度所对应的分布。
21.在本技术实施例的方法中,情感强度可以由发明人提出的软标签指导技术来操控,这里软标签指导技术是基于分类器指导技术来进行扩展得到的,从而能够得到情感可控、高质量的语音合成。
22.在一些可选的实施例中,所述情感分类器在训练的过程中冻结了声学模型参数,只更新了情感分类器的权重。
23.在一些可选的实施例中,所述情感分类器使用标准的交叉熵损失lce来训练。
24.在一些可选的实施例中,所述声学模型通过训练学习如何从给定的文本、给定的延续时长序列中生成逼真的梅尔频谱,所述情感分类器的输入还包括与所述给定的文本相关的表征和与所述给定的文本相关的时间。
25.在一些可选的实施例中,所述扩散过程采用去噪扩散模型,所述去噪扩散模型在模型权重上使用指数移动平均数。从而可以提高去噪扩散模型的性能。
26.需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本技术在此没有限制。
27.下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本技术的方案。
28.发明人发现上述缺陷主要是由以下原因导致的:无论基于rar还是情感嵌入空间的方法,都需要较为复杂的优化问题求解过程,其很可能产出次优的结果,导致后续模型优化困难。
29.本领域技术人员在面对上述缺陷时,通常会采用预训练、增加数据进行优化问题求解、换用更好的求解器等等方法。因为我们本技术实施例的方案基于去噪扩散模型(denoising diffusion model),这是一种较为新颖的生成式模型,数学原理深厚,目前用于语音合成较少,因此不容易想到。
30.本技术实施例的方法基于去噪扩散模型的分类器指导(classifier guidance)技术,扩展其成一种名为软标签指导(soft-label guidance)的方法,来直接对情感强度进行控制。具体来说,我们发明人训练一个不依赖于情感标签的声学模型,然后训练一个分类器,来从扩散过程的中间变量进行情感的分类。随后,在合成阶段,我们发明人直接用该分类器的梯度,就可以进行合成时的指导,使得合成某种特定的情感。
31.这种方法训练非常直接,只需要额外训练情感分类器,而这已经在语音情感识别任务(speech emotion recognition)中被广泛研究了,其是基于神经网络优化的,训练质量可以得到保证。我们发明人扩展的软标签指导技术可以使得我们发明人用这个分类器,就能直接进行情感强度控制。。
32.请参考图2,其示出了本发明一实施例提供的语音合成模型的训练方法和系统的一个具体示例的结构框图。具体的,图2示出了本技术实施例的emodiff的训练和采样图。在训练中,xt是直接从已知分布p(xt|x0)中取样。当采样时,分数函数由分数估计器来估计。"sg"表示停止梯度操作。中英文对照如下:mel-spec:梅梅尔谱,score estimator:分数估计器,forward sde:前向扩散sde,phoneme-dependent gaussian noise:音素相关高斯噪声,duration predictor:时长预测器,duration adaptor:时长扩展器,phoneme encoder:音素编码器,phoneme sequence:音素序列,input encoder:输入编码器,input duration:输入时长,input text:输入文本,unconditional acoustic model training:无条件声学模型训练;emotion classifier:情感分类器,input emotion:目标情感,classifier training:情感分类器训练;reverse-time sde:反向时间sde,sde numerical solver:sde数值模拟器,unconditional acoustic model sample:无条件升学模型采样,soft-label guidance:软标签指导,neutral:中立,target emotion d with intensity a 40% neutral 60%:强度为a的目标情感40%中立60%,intensity controllable emotional sampling:强度可控的情感采样。
33.如图2所示,图2中的(a):发明人训练一个无情感输入的声学模型。该模型学习如何从给定的文本、给定的duration(延续时长)序列中生成逼真的梅尔频谱。该模型用到了一种扩散过程,训练目标是对于该扩散过程的任何中间时刻t,估计数据分布的对数梯度,

34.图2中的(b):发明人训练一个情感分类器。这个分类器的输入是上述扩散过程中某个时刻t的中间变量x
t
,以及与文本相关的表征μ和时间t。该分类器的训练指标就是普通的交叉熵分类准则。
35.图2中的(c):发明人用软标签指导技术进行情感可控的语音合成采样。上图(a)中所述的扩散过程此时对应于一个反向的去噪过程,其中的梯度项就是本技术实施例的声学模型估计的目标。本技术实施例的软标签指导项此时相当于一个负交叉熵,其一边是发明人分类器的输出,一边是目标情感强度所对应的分布。本技术实施例的情感强度值现在限定为0到1之内的数值。假设发明人需要强度为0.4的愤怒情感,则此时等价于在所有情感标签上的一个类别分布,在愤怒上为0.4的概率,在中立(neutral)上为0.6的概率。发明人需要通过数值方法来进行去噪过程的模拟,在每一个数值模拟的迭代过程中,发明人都是用软标签进行指导。最后,发明人就能生成符合情感强度要求,并且逼真的样本。
36.在解决上述技术问题时,发明人考虑过将语音每个音素的延续时长(duration)也纳入扩散模型和去噪模型的一部分中,这样可以通过情感来直接控制时长。但是如何构造一个较好的去噪扩散模型的目标,是一个较为棘手的问题,实现难度也较大,因此没有作进一步的探讨。
37.发明人还尝试过对去噪扩散模型的生成阶段作一些改进,比如使用dps(diffusion posterior sampling,一种新颖的扩散模型采样方法)、rk45ode solver等等。这些方法理论上有助于扩散模型的生成质量。其均不需要额外改动训练过程。其中,dps提出先用已训练的模型从带噪数据x_t恢复x_0,然后进行一步加噪,直接用这个加噪结果来计算梯度,可以近似于原本去噪过程的结果。rk45(runge-kutta-fehlberg method,一种4阶并具有5阶噪声估计的ode采样方法)是一种ode(ordinary differential equation,常微分方程)数值解法,由于去噪过程本质上是一个随机微分方程(sde),其有一个ode的等价版本,因此可用rk45等ode解法进行改良的求解,能获得更高质量的样本。但是实际中发现这些方法降低了结果的多样性,因此并未采用。
38.本技术实施例的模型除去能够作情感可控、高质量的语音合成之外,本技术实施例的方法还具有以下优点:具有较强的多样性,即便在同一情感内部。这是采用去噪扩散模型所直接带来的优点。本技术实施例的软标签指导方法很容易能被泛化成为一种控制任意情感组合的方法,而不是仅控制情感强度。深层次而言,本技术实施例的方法使得控制多种情感的任意组合变成了一件可行的事。
39.以下通过具体的实验和实验数据验证本技术实施例相对于现有技术具有的有益效果。
40.尽管目前的语音合成模型可以生成高质量的语音,但是情感强度可控的语音合成仍然是一个富有挑战性的任务。目前大部分工作都需要额外的优化过程来计算情感强度值,这会导致次优的结果,或劣化的合成质量。在本技术实施例中,发明人提出emodiff,它是一个基于扩散模型的语音合成模型。在emodiff中,情感强度可以由我们提出的软标签指导技术来操控,这里软标签指导技术是基于分类器指导技术来进行扩展得到的。具体来说,emodiff使用一个软标签来控制情感强度而不是一个one-hot向量。在这个软标签中,发明人分别用α和1-α来设置某个待控制的情感和中立情感,其中α是情感强度值,可以从0到1中
选取。本技术实施例的实验表明emodiff可以准确地控制情感强度,并且保持高质量的合成效果。此外,在给定情感时,emodiff仍可以取得不错的多样性。
41.1.简介
42.尽管目前的tts(语音合成)模型能够产生高质量的语音,如grad-tts、vits和vqtts,但强度可控的情感tts仍然是一项具有挑战性的任务。与情感tts相似的任务是tts中的韵律建模,其一般不具有给定具体标签的数据。与之不同的是,情感tts通常利用带有分类情感标签的数据集。主流的情感tts模型只能根据情感标签合成情感语音,而没有强度可控性。
43.在强度可控的tts模型中,已有的工作大部分希望为训练过程正确定义和计算情感强度值。最受欢迎的定义和获得情感强度的方法是相对属性排序(relative attributes rank,rar)。rar通过一个最大边际优化问题寻求一个排序矩阵,该问题由支持向量机(support vector machine,svm)来解决。然后,得到的解被送入模型进行训练。由于这是一个分离出来并人为构建的阶段,它可能导致次优的结果,给训练带来偏差。除了rar,有些工作对情感嵌入空间的操作也进行了探索。相关技术设计了一种算法来最大化情感嵌入之间的距离,并对嵌入空间进行插值来控制情感强度。另外的相关技术将情感嵌入的距离量化,以获得情感强度。然而,嵌入空间的结构也极大地影响了这些模型的性能,导致需要仔细设计额外约束。情感语音转换转换中的强度控制也在相关技术中进行了研究,存在类似的方法。一些提到的工作也有语音质量下降的现象。作为一个例子,"mixedemotion"是一个自回归模型,用rar的强度值来加权情感嵌入。它采用预训练来提高合成质量,但仍有明显的质量下降。
44.为了克服这些问题,发明人需要一种能够直接控制情绪加权强度的条件采样方法。在这项工作中,发明人提出了一种软标签指导技术,基于语音情感识别任务中的分类器指导技术。分类器指导是一种高效的采样技术,它利用分类器的梯度来引导给定的独热(one-hot)类标签的采样轨迹。
45.在本技术中,基于扩展的软标签指导,发明人提出了emodiff,这是一个具有足够强度可控性的情感tts模型。具体来说,发明人首先训练一个无情感输入的声学模型。然后在扩散过程轨迹的任何xt上训练一个情感分类器,其中t是扩散过程中的时间戳(任何中间时刻)。在推理中,发明人用分类器和软情感标签指导反向去噪过程,其中指定情感和中性情感的值分别被设置为α和1-α,而不是只有指定情感为1而其他都为0的独热分布。本技术实施例的实验表明,emodiff可以精确控制情绪强度,同时保持较高的语音质量。此外,即使是相同的情绪,它也能生成不同的语音样本,这也是其作为扩散模型的优点。
46.简而言之,emodiff的主要优点是:
47.1.在使用软标签时,发明人将情绪强度定义为分类器指导的权重。这在分类器概率方面实现了精确的强度控制,不需要额外的优化。因此,它使发明人能够有效地生成具有任意指定情感强度的语音。
48.2.它对合成的语音没有危害。生成的样本具有良好的质量和自然度。
49.3.即使在相同的情绪下,它也能生成不同的样本。
50.2.带有分类器指导的扩散模型
51.2.1.去噪扩散模型和tts应用
52.去噪扩散概率模型已经在许多生成任务中被证明是成功的。在基于分数的解释中,扩散模型构建了一个正向随机微分方程(stochastic differential equation,sde),将数据分布p0(x0)转化为已知分布p
t
(x
t
),并使用相应的反向时间sde从噪声开始生成逼真的样本。因此,这个反向过程也被称为"去噪"过程。然后,神经网络要对sde轨迹上的任何t∈[0,t]估计分数函数其目标是分数匹配(score matching)。在应用中,扩散模型绕过了gans中的训练不稳定性和模式崩溃问题,并且在样本质量和多样性上优于以前的方法。
[0053]
去噪扩散模型也被用于tts和词汇编码任务中,取得了显著的效果。在本技术中,发明人在gradtts的设计上建立emodiff。表示x∈rd是一帧梅尔频谱(mel-spectrogram),它构建了一个前向sde:
[0054][0055]
其中,b
t
是标准布朗运动,t∈[0,1]是sde时间指数。β
t
被称为噪声时间表,其中β
t
是增加的,并且那么有p1(x1)≈n(x;μ,σ)。这个sde也能推出条件分布x
t
|x0~n(ρ(x0,σ,μ,t),λ(σ,t)),其中ρ(.),λ(.)都有已知的封闭形式。因此,发明人可以直接从x0取样x
t
。在实践中,发明人将σ设置为单位矩阵,因此λ(σ,t)成为λ
t
i,其中λ
t
是一个已知封闭形式的标量。同时,发明人将终端分布(terminal distribution)p1(x1)作为文本的条件,即让μ=μ
θ
(y),其中y是该帧的对齐音素表示(the aligned phoneme representation)。公式(1)的sde有一个对应反向时间sde:
[0056][0057]
其中,是要估计的分数函数,而是一个反向时间的布朗运动。它与公式(1)中的正向sde共享分布p
t
(x
t
)的轨迹。因此,从x1~n(μ,σ)开始求解,发明人可以得到一个逼真的样本x0~p(x0|y)。一个神经网络s
θ
(x
t
,y,t)被训练来估计分数函数,在下面的分数匹配目标中:
[0058][0059]
2.2.基于分类器指导的条件取样
[0060]
去噪扩散模型提供了一种新的方法来模拟条件概率p(x|c),其中c是一个类标签。假设发明人现在有一个无条件的生成模型p(x),和一个分类器p(c|x)。根据贝叶斯公式,有:
[0061][0062]
在扩散框架中,为了从条件分布p(x|c)中取样,发明人需要估计得分函数根据公式(4),发明人只需要将分类器的梯度加入到无条件模型中。这种
条件采样方法被命名为分类器指导,也已被用于无监督tts。
[0063]
在实践中,分类器梯度经常被缩放,以控制引导的强度。发明人现在使用代替公式(4)中的原始其中γ≥0被称为引导水平。较大的γ会导致高度类相关的样本,而较小的γ会鼓励样本的变化。
[0064]
与普通的分类器不同,这里使用的分类器的输入是沿着公式(1)中sde的轨迹的所有x
t
,而不是只有干净的x0。时间指数t可以是[0,1]中的任何东西。因此,分类器也可以表示为p(c|x
t
,t)。
[0065]
虽然公式(6)可以有效地控制对类标签c的取样,但它不能直接应用于软标签,即用强度加权的标签,因为指导p(c|x)现在还不能很好地定义。因此,发明人在后续介绍中对这个技术进行了扩展,用于情感强度控制。
[0066]
3.emodiff
[0067]
3.1.无条件声学模型和分类器训练
[0068]
emodiff的训练主要包括无条件声学模型和情绪分类器的训练。发明人首先在情感数据上训练一个基于扩散的声学模型,但不为它提供情感条件。这被称为"无条件声学模型训练",如图2中的(a)。这个模型是基于gradtts,只是发明人通过强制对齐器提供明确的时长序列,以方便时长建模。在这个阶段,训练目标是l
dur
+l
diff
,其中l
dur
是对数时长的l2损失,l
diff
是扩散损失,如公式(3)。在实践中,和gradtts相同,发明人也采用先验损失l
prior
=-logn(x0;μ,i)来鼓励收敛。为了简化符号,发明人在图2的(a)中用l
diff
来同时表示扩散和先验损失。
[0069]
经过训练,声学模型可以在输入音素序列y的情况下,估计出带噪声梅尔谱图x
t
的得分函数,即这时对情感标签无条件限制。根据第2.2,发明人需要一个情感分类器来从带噪的梅尔频谱x
t
中分辨出情感类别e。同时,由于发明人总是有一个文本条件y,该分类器被表述为p(e|x
t
,y,t)。如图2中的(b)所示,分类器的输入包括三个部分:sde的时间戳t,噪声的梅尔频谱x
t
和与语音有关的高斯均值μ。这个分类器是用标准的交叉熵损失l
ce
来训练的。请注意,发明人在这个阶段冻结(freeze)了声学模型参数,只更新情感分类器的权重,否则前文所述扩散模型的轨迹将会发生改变,在数学上产生错误。
[0070]
由于发明人在论文中一直需要文本y作为条件,所以在后面的章节中发明人省略它,并将这个分类器表示为p(e|x)以简化符号,如果没有引起歧义的话。
[0071]
3.2.带有软标签指导的强度可控取样
[0072]
在本技术实施例中,发明人将分类器指导扩展到软标签指导,它可以控制情绪的强度加权。假设基本情绪的数量为m,每个基本情绪ei都有一个独热向量(one-hot vector)形式ei∈rm,i∈{0,1,...,m-1}。对于每个ei来说,只有第i个维度是1,特别地,发明人用e0来表示中性。对于ei上强度为α的情绪加权,发明人定义为d=αei+(1-α)e0。那么,分类器p(d|x)的对数概率梯度与x的关系可以被定义为:
[0073][0074]
这个定义的直觉理解是,强度α代表情绪ei对x的采样轨迹的贡献。较大的α意味着发明人沿着对情绪ei有较大"力量"的轨迹对x进行采样,否则就是e0。因此,发明人可以将公
式(4)扩展为:
[0075][0076]
当强度α为1.0(100%的情感ei)或0.0(100%的中性)时,上述操作简化为标准分类器指导形式的公式(4)。因此,发明人可以在采样过程中使用软标签指导公式(5),并产生一个具有指定情感d=αei+(1-α)e0的强度α的逼真的样本。
[0077]
图2:emodiff的训练和采样图。在训练中,x
t
是直接从已知分布p(x
t
|x0)中采样的。当以某种情绪强度进行采样时,分数函数由分数估计器估计。"sg"表示停止梯度操作。
[0078]
图2中的(c)说明了强度可控的采样过程。在喂入(feeding)声学模型并获得与语音相关的μ序列后,发明人对x1~n(μ,i)进行采样,并通过数值模拟器模拟从t=1到t=0的反向时间sde。在每个模拟器的更新步骤中,发明人用当前的x
t
提供给分类器,并得到输出概率p
t
(.|x
t
)。然后用公式(6)来计算指导项。与2.2中类似,发明人也用指导水平γ来衡量指导项。最后,发明人得到它不仅可以理解输入文本,而且还对应于具有强度α的目标情感d。这导致精确的强度,与分类器的概率很好地相关。
[0079]
更广义地,除了强度控制之外,本技术实施例的软标签指导能够对混合情绪进行更复杂的控制。表示是所有情绪的组合,其中公式(5)可以被概括为:
[0080][0081]
那么公式(6)也可以用这种广义的形式来表达。这种扩展也可以从概率的角度来解释。由于组合权重{wi}可以被看作是基本情感{ei}上的分类分布pe(.),公式(7)相当于
[0082][0083][0084]
其中ce是交叉熵函数。公式(9)意味着这样一个事实:当沿着梯度logp(d|x)采样时,发明人实际上是在减少目标情感分布pe和分类器输出p(.|x)的交叉熵。交叉熵的梯度对x的影响可以指导采样过程。因此,这种软标签指导技术一般可用于控制任何任意的复杂情绪,作为几种基本情绪的加权组合。
[0085]
在图2中的(c)中,发明人使用交叉熵作为软标签指导术语的简明符号。在本技术实施例的强度控制方案中,它简化为前面提到的公式(5)。
[0086]
4.实验和结果
[0087]
4.1.实验设置
[0088]
发明人使用情感语音数据集(esd)的英语部分来进行所有的实验。它有10个发言人,每个人都有mos和mcd的比较。mos是以95%的置信区间表示的。注意,实验中的"gradtts w/emo label"不能控制情绪强度。
[0089]
有4个情绪类别:愤怒、快乐、悲伤、惊讶。以及一个中性类别。每个说话人和情绪类别有350个平行语料,每个说话人大约有1.2小时。melspectrogram和强制对齐是由kaldi[32]在12.5ms的帧移和50ms的帧长中提取的,然后进行倒谱归一化。这些实验中的音频样本是公开的。
[0090]
在本技术中,发明人只考虑单人说话的情感tts问题。在下面的章节中,发明人对所有10个英语演讲者进行了无条件的gradtts声学模型的训练,以获得合理的数据覆盖率,并只对一个女性演讲者(id:0015)进行了分类和控制。无条件的gradtts模型是用adam优化器以10-4的学习率训练了11000000步。发明人在模型权重上使用了指数移动平均数,因为它可以提高扩散模型的性能。分类器的结构是一个4层的1d cnn,每层都有batchnorm和dropout。在推理阶段,指导水平γ被固定为100。
[0091]
发明人选择hifigan对这里的所有英语使用者进行训练,作为以下所有实验的声码器。
[0092]
4.2.情感tts质量
[0093]
发明人首先测量语音质量,其中包括音频质量和语音自然度。发明人将提议的emodiff与下列系统进行了比较。
[0094]
1.gt和gt(voc.):真实录音和分析合成结果(用真实mel-spectrogram经过声码器重新合成)。
[0095]
2.mixedemotion:它是一个基于相对属性排序的自回归模型,用于预先计算训练的强度值。它非常类似于emovox的强度可控情感转换。
[0096]
3.gradtts w/emo label:一个有条件的gradtts模型,以硬性情感标签作为输入。因此,它没有强度可控性,但作为一个经过认证的声学模型,应该有很好的样本质量。
[0097]
4.请注意,在这个实验中,来自emodiff和mixedemotion的样本被控制在α=1.0的强度权重下,因此它们可以直接与其他样本进行比较。
[0098]
5.图3列出了平均意见得分(mos)和梅尔倒谱失真(mcd)的评测。结果显示,声码器对样本质量的影响很小,本技术实施例的emodiff以很大的幅度超过了mixedemotion基线。同时,emodiff和硬条件的gradtts都有不错的、非常接近的mos结果。它们的mcd结果只有很小的差别。这意味着emodiff不会像mixedemotion那样损害样本质量的强度可控性。
[0099]
其中,图2中的中英文翻译对照如下:gt:真实录音,gt(voc.):分析合成,mixedemotion不用翻译,gradtts w/emo label:有情感输入的gradtts,emodiff为提出的方法,mos:mos主观听测评分,mcd:梅尔倒谱失真。以上翻译内容全文通用。
[0100]
图4:控制强度α∈{0.0,0.2,0.4,0.6,0.8,1.0}时的分类概率。误差条代表标准差。其中,中英文翻译对照如下:emotion xxx intensity:xxx情感的强度,classifier prob:分类器输出概率。surprise、sad、happy、angry分别表示相应的情感(惊喜、悲伤、欢乐、愤怒,由于本技术实验是在英文场景下做的,此处不用翻译)。
[0101]
4.3.情感强度的可控性
[0102]
为了评估情绪强度的可控性,发明人用训练完成的分类器将合成的样本分类到某
个被控制的强度下。对分类器的t输入现在被设置为0。对目标情绪类别的平均分类概率被用作评估指标。较大的数值表明有较大的辨别置信度。对于每种情绪下的emodiff和mixedemotion,发明人将强度从α=0.0变化到1.0。当强度为0.0时,它相当于合成了100%的中性样本。更大的强度应该导致更大的概率。
[0103]
图4显示了结果。为了证明这个分类器的能力,发明人绘制了地面真实数据的分类概率。为了显示硬条件gradtts模型的性能,发明人也在其合成的样本上绘制了概率。由于它没有强度可控性,发明人只绘制了强度为1.0时的数值。在这里,每个实验的标准偏差也是以误差条的形式呈现的。
[0104]
从图中可以发现,首先,训练完成分类器在真实数据上有合理的表现。值得一提的是,验证集上的分类准确率为93.1%。来自gradtts w/emo标签的样本有一些较低的分类概率。最重要的是,提议的emodiff总是比基线覆盖更大的范围,从强度α=0.0到1.0。emodiff的误差范围也总是比基线低,这意味着本技术实施例的控制更加稳定。这证明了发明人提出的软标签指导技术的有效性。发明人还注意到,有时emodiff在强度为1.0时达到的分类概率比硬条件的gradtts高。这也是合理的,因为在训练时对情感标签的调理并不能保证达到比分类器指导更好的类相关,如果有一个强大的分类器和足够的引导水平。
[0105]
4.4.情感样本的多样性
[0106]
尽管生成了高质量和强度可控的情感样本,emodiff也有很好的样本多样性,即使在同一情感中,也受益于扩散模型的强大生成能力。为了评估情感样本的多样性,发明人在emodiff和mixedemotion之间对每种情感进行了主观的偏好测试。听众被要求选择更多样化的那个,或者"无法决定"。请注意,该测试是在α=1.0的权重下对每种情绪进行的。
[0107]
图5:每种情绪的多样性偏好测试。中英文翻译对照如下:标题“diversity preference test of each emotion”:多样性偏好测试,图例的cannot decide:无法决定,percent:百分比,surprise、sad、happy、angry分别表示相应的情感(惊喜、悲伤、欢乐、愤怒,由于本技术实验是在英文场景下做的,此处不用翻译)。
[0108]
图5显示了偏好的结果。很明显,对于愤怒、快乐和惊讶这三种情绪类别中的每一种,emodiff在多样性上都拥有很大的优势。只有在悲伤的情况下,emodiff以小幅度的优势胜过基线。这主要是因为mixedemotion是自回归的,而且发明人发现它在持续时间上的变化占了很大的比重,特别是对于悲伤的样本。
[0109]
5.结论
[0110]
在本技术中,发明人研究了情感语音合成系统中的强度控制问题。发明人把带有强度的情绪定义为特定情绪和中性情绪的加权总和,其权重为强度值。在这种建模方式下,发明人将分类器指导技术扩展到软标签指导,这使得发明人能够直接控制任何任意的情绪强度,而不是单一的类别标签。通过这种技术,所提出的emodiff可以通过无条件的声学模型和情感分类器,实现对情感强度的简单而有效的控制。主观和客观评价表明,emodiff在tts质量、强度可控性和样本多样性方面优于基线。另外,所提出的软标签指导一般可以应用于控制更复杂的自然情绪,发明人将其作为未来的工作。
[0111]
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音合成模型的训练方法;
[0112]
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
[0113]
训练一个无情感输入的声学模型,其中,在所述声学模型的训练过程中用到了一种扩散过程,所述声学模型的训练目标为对于所述扩散过程中的任何中间时刻,估计数据分布的对数梯度;
[0114]
训练一个情感分类器,其中,所述情感分类器的输入至少包括所述扩散过程中的某一中间时刻对应的对数梯度;
[0115]
使用软标签指导技术进行情感可控的语音合成采样,其中,所述扩散过程对应于所述语音合成采样的反向去噪过程,所述反向去噪过程的梯度项为语音合成模型估计的目标,软标签指导项在数学上等同于交叉熵,其一边为所述情感分类器的输出,另一边为目标情感强度所对应的分布。
[0116]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音合成模型的训练方法和系统的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音合成模型的训练方法。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0117]
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音合成模型的训练方法。
[0118]
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。语音合成模型的训练方法和系统的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音合成模型的训练方法。输入装置630可接收输入的数字或字符信息,以及产生与语音合成模型的训练装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
[0119]
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0120]
作为一种实施方式,上述电子设备应用于语音合成模型的训练方法中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
[0121]
训练一个无情感输入的声学模型,其中,在所述声学模型的训练过程中用到了一种扩散过程,所述声学模型的训练目标为对于所述扩散过程中的任何中间时刻,估计数据分布的对数梯度;
[0122]
训练一个情感分类器,其中,所述情感分类器的输入至少包括所述扩散过程中的某一中间时刻对应的对数梯度;
[0123]
使用软标签指导技术进行情感可控的语音合成采样,其中,所述扩散过程对应于所述语音合成采样的反向去噪过程,所述反向去噪过程的梯度项为语音合成模型估计的目标,软标签指导项在数学上等同于交叉熵,其一边为所述情感分类器的输出,另一边为目标情感强度所对应的分布。
[0124]
本技术实施例的电子设备以多种形式存在,包括但不限于:
[0125]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
[0126]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
[0127]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0128]
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
[0129]
(5)其他具有数据交互功能的电子装置。
[0130]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0131]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0132]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种语音合成模型的训练方法,包括:训练一个无情感输入的声学模型,其中,在所述声学模型的训练过程中用到了一种扩散过程,所述声学模型的训练目标为对于所述扩散过程中的任何中间时刻,估计数据分布的对数梯度;训练一个情感分类器,其中,所述情感分类器的输入至少包括所述扩散过程中的某一中间时刻对应的对数梯度;使用软标签指导技术进行情感可控的语音合成采样,其中,所述扩散过程对应于所述语音合成采样的反向去噪过程,所述反向去噪过程的梯度项为语音合成模型估计的目标,软标签指导项在数学上等同于交叉熵,其一边为所述情感分类器的输出,另一边为目标情感强度所对应的分布。2.根据权利要求1所述的方法,其中,所述情感分类器在训练的过程中冻结了声学模型参数,只更新了情感分类器的权重。3.根据权利要求1所述的方法,其中,所述情感分类器使用标准的交叉熵损失lce来训练。4.根据权利要求1所述的方法,其中,所述声学模型通过训练学习如何从给定的文本、给定的延续时长序列中生成逼真的梅尔频谱,所述情感分类器的输入还包括与所述给定的文本相关的表征和与所述给定的文本相关的持续时间。5.根据权利要求1所述的方法,其中,所述扩散过程采用去噪扩散模型,所述去噪扩散模型在模型权重上使用指数移动平均数。6.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。

技术总结


本发明公开语音合成模型的训练方法、电子设备和存储介质,其中,一种语音合成模型的训练方法,包括:训练一个无情感输入的声学模型,在所述声学模型的训练过程中用到了一种扩散过程,所述声学模型的训练目标为对于所述扩散过程中的任何中间时刻,估计数据分布的对数梯度;训练一个情感分类器,其中,所述情感分类器的输入至少包括所述扩散过程中的某一中间时刻对应的对数梯度;使用软标签指导技术进行情感可控的语音合成采样,其中,所述扩散过程对应于所述语音合成采样的反向去噪过程,所述反向去噪过程的梯度项为语音合成模型估计的目标,软标签指导项在数学上等同于交叉熵,其一边为所述情感分类器的输出,另一边为目标情感强度所对应的分布。强度所对应的分布。强度所对应的分布。


技术研发人员:

俞凯 陈谐 郭奕玮 杜晨鹏

受保护的技术使用者:

思必驰科技股份有限公司

技术研发日:

2022.11.07

技术公布日:

2023/3/7

本文发布于:2024-09-20 14:50:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/67959.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:情感   所述   发明人   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议