基于互信息量和SE注意力机制的跨语种语音转换方法


基于互信息量和se注意力机制的跨语种语音转换方法
技术领域
1.本发明涉及语音转换技术领域,具体地说,是一种基于互信息量和se注意力机制的跨语种语音转换方法。


背景技术:



2.语音转换是语音信号处理领域中重要的研究分支,该技术的研究有着重要的理论价值和应用前景。语音转换是一种将语音中源说话人的身份特征转换为目标说话人的身份特征,同时保证语音中的语义特征不变的技术。简言之,就是将一个人的一段语音转换成听起来像是由另一个指定说话人发出的。
3.随着语音转换技术的蓬勃发展,1990年,abe等人提出了跨语种语音转换问题。传统的语音转换仅专注于解决同语种转换问题,即要求源和目标说话人语音的语种相同,而在跨语种语音转换的研究中,由于源、目标说话人所说的语种、文本均不同,且不同语种下的音素、音调和重音都会存在显著差异,因此跨语种语音转换的研究难度较高。最初实现跨语种语音转换的方法对训练语料的要求很高,它要求同一个说话人提供两套不同语种的语料,即依赖于双语说话人的平行数据集。然而,语音数据的获取本就困难,要获取双语说话人的平行文本数据集的成本更高,并不现实。2003年,kumar等人提出基于声道长度归一化(vocal tract length normalization,vtln)的跨语种语音转换方法,该方法在两种语言系统的音素或声学类别之间构建规整函数,但该转换模型的规模有限,只能实现性别特征的转换。在2010年前后的较长时间内,涌现了很多从非平行文本数据集中寻源-目标帧对的对齐方法,比如:单元选择,迭代帧对齐方法。但是由于不同语种之间的音素存在较大差异,跨语种的对齐处理不可避免地会引入误差,从而影响到系统性能。2018年,表征学习被用于解决跨语种语音转换问题。mohammadi等人提出因式分层变分自编码器(factorized hierarchical variational autoencoder,fhvae),该方法虽然不再受限于双语说话人的平行数据集,但是由于变分自编码器(variational autoencoder,vae)的过平滑效应导致转换后的语音中存在明显的噪音。2019年,语音概率后验图(phonetic posteriorgram,ppg)被应用于跨语种语音转换,但该方法直接依赖于涉及的语音识别系统的性能。
4.上述提到的各种语音转换方法大多数只能实现闭集情形下的语音转换,即在模型训练过程中,源、目标说话人都需要参与训练。然而在实际的应用场景中,对于源或目标说话人而言,可能只有少数或一句语料参与训练,甚至没有参与训练,这类问题属于开集情形下的语音转换范畴,具有更大的挑战性。


技术实现要素:



5.为了解决上述问题,本发明提供一种基于互信息量和se注意力机制的跨语种语音转换方法,该方法采用互信息量作为相关度量,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠;进一步在内容编码器中引入se模块,se模块将局部特征压缩成单个全局上下文向量权重,并通过全局上下文向量权重与
特征元素相乘生成se模块的输出,得到更好的内容表征,提升转换语音的质量,最终实现开集情形下任意说话人的高质量跨语种语音转换。
6.本发明采用的具体技术方案如下:
7.一种基于互信息量和se注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段:
8.所述训练阶段包括以下步骤:
9.步骤1、获取大量的训练语料,训练语料由不同语言的多名说话人的语句组成;
10.步骤2、将获取的训练语料通过预处理和特征提取,从每句训练语料的梅尔频谱特征中随机选取128帧并通过级联操作得到梅尔频谱特征片段,表征为声学特征x;
11.步骤3、将所述声学特征输入到转换网络中进行训练,所述转换网络由内容编码器、说话人编码器、音高提取器和解码器四部分组成;其中,所述内容编码器、说话人编码器用于对说话人的语音进行解纠缠,从中获得语句的内容信息和说话人信息,所述音高提取器用于从说话人语音的波形中提取基频f0,所述解码器用于将获得的内容信息、说话人信息和基频f0进行重构,得到重构后的梅尔频谱特征,表征为声学特征x';
12.步骤4、对转换网络进行训练的过程中,使所述转换网络的重构损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络;
13.所述转换阶段包括以下步骤:
14.步骤5、选取不同语种的语音作为测试语料,分别提取测试语料中的源说话人梅尔频谱特征x1和目标说话人梅尔频谱特征x2作为声学特征;
15.步骤6、将所述声学特征x1、x2输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征x1→2;
16.步骤7、采用parallel wavegan声码器,将获得的转换语句的梅尔频谱特征转换为语音进行输出,从而获得跨语种语音转换的合成语音;
17.在上述技术方案中,转换网络由内容编码器、说话人编码器、音高提取器、解码器组成,内容编码器由1个h-net网络、1个量化器q和1个g-net网络组成,h-net网络由1个步长为2的一维标准卷积层、4个卷积模块和1个512维线性层组成,卷积模块共有4个,前3个卷积模块由层归一化、512维线性层和relu激活函数组成,最后1个卷积模块由层归一化、512维线性层、se模块和relu激活函数组成,se模块由1个一维全局平均池化层、2个全连接层、1个relu激活函数、1个sigmoid激活函数和密集残差连接组成。
18.本发明的进一步改进,步骤4中的训练过程如下:
19.4.1、将说话人梅尔频谱特征序列xk={x
k,1
,x
k,2
,

,x
k,t
}输入到内容编码器的h-net网络得到密集特征序列zk={z
k,1
,z
k,2
,

,z
k,t/2
},序列长度由t变为t/2;
20.4.2、将密集特征序列zk={z
k,1
,z
k,2
,

,z
k,t/2
}输入至se模块,se模块由1个一维标准平均池化层、2个全连接层、1个relu激活函数、1个sigmoid激活函数和密集残差连接组成,2个全连接层与relu激活函数和sigmoid激活函数交替放置,se模块将局部特征压缩成单个全局上下文向量权重,并通过全局上下文向量权重与特征元素相乘,将密集特征序列zk重新加权生成se模块的输出z
′k={z

k,1
,z

k,2
,

,z

k,t/2
};
21.4.3、将se模块重新加权后的密集特征序列z'k={z'
k,1
,z'
k,2
,

,z'
k,t/2
}输入至量
化器q,量化器q根据可训练码本b进行量化操作,将z'k={z'
k,1
,z'
k,2
,

,z'
k,t/2
}离散化得到密集特征序列到密集特征序列是可训练码本b中最接近z'k的向量,矢量量化通过设置信息瓶颈去除z'k中的非必要信息,使得与底层语音信息相关联,接着通过最小化量化器q的损失函数训练内容编码器;
22.4.4、将密集特征序列输入至g-net网络中生成聚合序列rk={r
k,1
,r
k,2
,

,r
k,t/2
},给定r
k,t
,采用对比预测编码,通过最小化g-net网络的损失函数来区分m步后的正样本和从负样本集合ω中提取的负样本,通过预测具有概率对比损失的未来样本,将跨越多个时间步的局部特征编码至中,将作为内容表征;
23.4.5、将说话人梅尔频谱特征序列xk={x
k,1
,x
k,2
,

,x
k,t
}输入到说话人编码器生成说话人特征向量sk,将sk作为说话人表征;
24.4.6、将说话人梅尔频谱特征序列xk={x
k,1
,x
k,2
,

,x
k,t
}输入至音高提取器提取基频f0,并对f0作对数归一化生成与说话人无关的基频特征序列pk={p
k,1
,p
k,2
,

,p
k,t
};
25.4.7、将内容表征说话人表征sk和基频特征序列pk={p
k,1
,p
k,2
,

,p
k,t
}输入至解码器进行训练,最小化解码器的损失函数;
26.4.8、计算内容表征说话人表征sk和基频特征序列pk三者两两之间的互信息量,并将其乘以恒定权重加入到语音转换的总损失中,然后最小化语音转换的总损失;
27.4.9、重复4.1至4.8的过程,直至达到设置的迭代次数,从而得到训练好的网络。
28.本发明的进一步改进,在上述技术方案中,步骤6中的输入过程如下:
29.6.1、将源说话人的梅尔频谱特征x1输入至内容编码器和音高提取器,分别生成内容表征基频特征向量p'k,将目标说话人的梅尔频谱特征x2输入至说话人编码器生成说话人表征s'k;
30.6.2、将内容表征说话人表征s'k和基频特征向量p'k输入至解码器,生成转换后的梅尔频谱特征x1→2。
31.在本发明中,语音转换模型的总损失为:
32.l
vc
=l
vq
+l
cpc
+l
rec

mi
l
mi
33.其中,λ
mi
≥0表示互信息量损失的正则化参数,l
vq
、l
cpc
、l
rec
、l
mi
分别表示量化器q的矢量量化损失、对比预测编码的信息噪声对比估计损失、解码器的重构损失和互信息量损失。
34.量化器q的损失函数为:
[0035][0036]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,z'
k,t
表示se模块重新加权后得到的密集特征序列,表示可训练码本量化后的密集特征序列,sg(
·
)表示停止梯度算子,表示2-范数的平方。
[0037]
对比预测编码的损失函数为:
[0038][0039]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,m表示对比预测的步长,t'=t/2-m,exp(
·
)表示e的(
·
)次方,wm表示可训练投影矩阵,ω
k,t,m
是从当前训练语句中随机选取样本组成的负样本集合,表示负样本集合ω
k,t,m
中的随机样本,rk={r
k,1,rk,2
,

,r
k,t/2
}表示密集特征序列}表示密集特征序列经过1个256维单向循环神经网络后输出的聚合序列,r
k,t
表示聚合序列rk的1个样本。
[0040]
解码器的重构损失为:
[0041][0042]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,x
t
表示输入的梅尔频谱特征片段,表示解码器重构的频谱特征,||
·
||1表示1-范数,||
·
||2表示2-范数。
[0043]
互信息量损失为:
[0044][0045]
其中,分别表示内容表征和说话人表征、内容表征和基频特征、基频特征和说话人表征之间的变分对比对数上界的无偏估计。
[0046]
在本发明中,内容表征和说话人表征之间的变分对比对数上界的无偏估计为:
[0047][0048]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对(说话人表征,内容表征)的条件对数似然,表示负样本对(说话人表征,内容表征)的条件对数似然,表示给定说话人表征s时,经过网络参数化后的内容表征对应的真实后验的变分近似,表示正样本对中第k句话的第t帧对应的内容表征,表示负样本对中第l句话的第t帧对应的内容表征,sk表示正样本对中第k句话的说话人表征。
[0049]
内容表征和基频特征之间的变分对比对数上界的无偏估计为:
[0050][0051]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对(基频特征,内容表征)的条件对数似然,表
示负样本对(基频特征,内容表征)的条件对数似然,示负样本对(基频特征,内容表征)的条件对数似然,示负样本对(基频特征,内容表征)的条件对数似然,表示给定基频特征p时,经过网络参数化后的内容表征对应的真实后验的变分近似,表示正样本对中第k句话的第t帧对应的内容表征,表示负样本对中第l句话的第t帧对应的内容表征。
[0052]
基频特征和说话人表征之间的变分对比对数上界的无偏估计为:
[0053][0054]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对(说话人表征,基频特征)的条件对数似然,表示负样本对(说话人表征,基频特征)的条件对数似然,表示给定说话人表征s时,经过θ
p,s
网络参数化后的基频特征p对应的真实后验的变分近似,p
k,t
表示正样本对中第k句话的第t帧对应的基频特征,sk表示正样本对中第k句话的说话人表征,p
l,t
表示负样本对中第l句话的第t帧对应的基频特征。
[0055]
本发明的有益效果:与现有技术相比,本发明中的模型通过学习对语音的解纠缠能力来实现跨语种语音转换,将互信息量损失集成到模型训练过程中,互信息量为内容表征、说话人表征和基频特征三者两两之间联合分布和边缘分布的kl散度(kullback-leibler divergence),采用变分对比对数上界计算互信息量的上界,通过最小化内容表征、说话人表征和基频特征三者两两之间的变分对比对数上界无偏估计来降低相互依赖性,实现高效的解纠缠,从而提升转换语音的质量;本发明将se模块引入至编码器最后一个卷积块中,对输入到se模块的密集特征序列进行全局平均池化操作,使密集特征序列在空间维度上聚合,生成通道描述符和一个与通道特征相应的全局分布的嵌入,允许所有层使用,聚合之后采用一个简单的门控机制和sigmoid函数,以生成的与通道特征相应的全局分布的嵌入作为输入,并产生每个通道调制权值的集合,将这些权值与特征元素相乘,形成新的特征序列作为se模块的输出,此时特征序列中包含全局上下文信息,可以生成更好的内容表征,提升转换语音的质量;本发明通过se模块可以使得卷积神经网络(convolutional neural networks,cnn)能够获取全局信息,因此内容编码器可以生成高质量的内容表征,通过引入互信息量作为相关度量,然后最小化互信息量损失,可以减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠。通过以上两个创新点的提出,该方法可以实现高质量的跨语种语音转换。因为互信息量的引入使得模型实现了高效的解纠缠,所以在转换阶段,对于任意新的源或目标说话人,模型可以通过上述步骤分别获取内容表征、说话人表征和基频特征,只需将源说话人的说话人表征替换为目标说话人的说话人表征即可实现语音转换,即本发明中的模型也适用于开集情形下的语音转换任务。因此,本发明是具有高合成音质和个性相似度的跨语种任意说话人语音转换方法。
附图说明
[0056]
图1是本发明实施例所述的模型的原理示意图。
net网络、1个量化器q和1个g-net网络组成,其中h-net网络由1个步长为2的一维标准卷积层、4个卷积模块和1个512维线性层组成,所述卷积模块共有4个,前3个卷积模块由层归一化、512维线性层和relu激活函数组成,最后1个卷积模块由层归一化、512维线性层、se模块和relu激活函数组成,所述se模块由1个一维全局平均池化层、2个全连接层、1个relu激活函数、1个sigmoid激活函数和密集残差连接组成,量化器q包含1个码本,该码本拥有512个64维可学习向量,g-net是1个256维的单向循环神经网络层。
[0068]
量化器q的损失函数为:
[0069][0070]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,z'
k,t
表示se模块重新加权后得到的密集特征序列,表示可训练码本量化后的密集特征序列,sg(
·
)表示停止梯度算子,表示2-范数的平方。本实例中,k为16000,t为128。
[0071]
对比预测编码的损失函数为:
[0072][0073]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,m表示对比预测的步长,t'=t/2-m,exp(
·
)表示e的(
·
)次方,wm表示可训练投影矩阵,ω
k,t,m
是从当前训练语句中随机选取样本组成的负样本集合,表示负样本集合ω
k,t,m
中的随机样本,rk={r
k,1
,r
k,2
,

,r
k,t/2
}表示密集特征序列}表示密集特征序列经过1个256维单向循环神经网络后输出的聚合序列,r
k,t
表示聚合序列rk的1个样本。本实例中,k为16000,t为128,m为6,负样本集合ω
k,t,m
的样本数量为10。
[0074]
(2)在说话人编码器中,将梅尔频谱特征序列xk作为输入,生成特征向量sk作为说话人表征。说话人编码器如图3所示。说话人编码器由8个convbank层和12个卷积层组成,每个卷积层由1个平均池化层和4个线性层组成,convbank层用于对长期信息进行编码,卷积层用于推导出256维说话人表征。
[0075]
(3)在音高提取器中,由于基频特征预计包含语调变化,但不包含内容信息和说话人信息,因此直接从波形中提取f0,并对每个语音独立进行z归一化(z-normalization)。本实例中采用对数归一化logf0作为基频特征pk,由于pk是说话人无关的,因此说话人信息将依靠说话人编码器来提供。
[0076]
(4)在解码器中,将输入的内容表征、说话人表征和基频特征融合并进行解码,生成与输入频谱特征高度相似的重构频谱特征。解码器如图4所示。解码器由1个1024维的双向长短期记忆网络层、3个卷积层、2个1024维的双向长短期记忆网络层和1个80维的线性层组成。
[0077]
所述解码器的重构损失为:
[0078][0079]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,x
t
表示输入的梅尔频谱特征片段,表示解码器重构的频谱特征,||
·
||1表示1-范数,||
·
||2表示2-范数。本实例中,k为16000,t为128。
[0080]
(5)在模型训练过程中,引入互信息量作为相关度量,将互信息量损失加入语音转换的总损失中,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠。
[0081]
语音转换模型的总损失为:
[0082]
l
vc
=l
vq
+l
cpc
+l
rec

mi
l
mi
[0083]
其中,λ
mi
≥0表示互信息量损失的正则化参数,l
vq
、l
cpc
、l
rec
、l
mi
分别表示量化器q的矢量量化损失、对比预测编码的信息噪声对比估计损失、解码器的重构损失和互信息量损失。在本实例中,λ
mi
为0.1。
[0084]
互信息量损失为:
[0085][0086]
其中,分别表示内容表征和说话人表征、内容表征和基频特征、基频特征和说话人表征之间的变分对比对数上界的无偏估计。
[0087]
所述内容表征和说话人表征之间的变分对比对数上界的无偏估计为:
[0088][0089]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对(说话人表征,内容表征)的条件对数似然,表示负样本对(说话人表征,内容表征)的条件对数似然,表示给定说话人表征s时,经过网络参数化后的内容表征对应的真实后验的变分近似,表示正样本对中第k句话的第t帧对应的内容表征,表示负样本对中第l句话的第t帧对应的内容表征,sk表示正样本对中第k句话的说话人表征。本实例中,k为16000,t为128。
[0090]
所述内容表征和基频特征之间的变分对比对数上界的无偏估计为:
[0091][0092]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对(基频特征,内容表征)的条件对数似然,表示负样本对(基频特征,内容表征)的条件对数似然,表示负样本对(基频特征,内容表征)的条件对数似然,
表示给定基频特征p时,经过网络参数化后的内容表征对应的真实后验的变分近似,表示正样本对中第k句话的第t帧对应的内容表征,表示负样本对中第l句话的第t帧对应的内容表征。本实例中,k为16000,t为128。
[0093]
所述基频特征和说话人表征之间的变分对比对数上界的无偏估计为:
[0094][0095]
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对(说话人表征,基频特征)的条件对数似然,表示负样本对(说话人表征,基频特征)的条件对数似然,表示给定说话人表征s时,经过θ
p,s
网络参数化后的基频特征p对应的真实后验的变分近似,p
k,t
表示正样本对中第k句话的第t帧对应的基频特征,sk表示正样本对中第k句话的说话人表征,p
l,t
表示负样本对中第l句话的第t帧对应的基频特征。本实例中,k为16000,t为128。
[0096]
步骤3-1、将步骤2中提取的声学特征x输入到内容编码器、说话人编码器和音高提取器中,生成内容表征说话人表征s和基频特征p;
[0097]
步骤3-2、将上述得到的内容表征说话人表征s和基频特征p输入到解码器中,经过解码网络,重构频谱特征x',在训练过程中,上述语音转换的总损失越小,即表明重构的频谱与真实频谱越相似。
[0098]
步骤4、重复步骤3-1至步骤3-2,直至达到设置的迭代次数,从而得到训练好的网络。由于神经网络具体设置不同以及实验设备性能不同,设置的迭代次数也各不相同。本实验中设置迭代次数为100000次;
[0099]
转换阶段包括以下步骤:
[0100]
步骤5、获取测试语料,测试语料来自于aishell-3中文语料库和cstr vctk英文语料库;从获取的中英文语料库中,随机选取aishell-3中文语料库中的8名说话人,每位说话人约有200个语句,从200个语句中随机选取10个语句,每句时长2~10s不等;选取cstrvctk英文语料库中的8名说话人,每位说话人约有200个语句,从200个语句中随机选取10个语句,每句时长2~8s不等。将选取出来的中文和英文两种语言的语句共同组成测试语料,分别提取测试语料的源说话人梅尔频谱特征x1和目标说话人梅尔频谱特征x2作为声学特征;
[0101]
步骤6、将所述声学特征输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
[0102]
步骤6-1、将步骤5中提取到的声学特征x1输入至训练好的内容编码器和音高提取器中,生成源说话人的内容表征和基频特征p',将步骤5中提取到的声学特征x2输入至训练好的说话人编码器中,生成目标说话人的说话人表征s';
[0103]
步骤6-2、将上述模型输出的源说话人的内容表征基频特征p'和目标说话人的说话人表征s'输入到训练好的解码器中,重构出转换语句的梅尔频谱特征。
[0104]
步骤7、采用parallel wavegan声码器,将步骤6-2中获得的转换语句的梅尔频谱特征转换为语音进行输出,从而获得跨语种语音转换的合成语音。
[0105]
以上所述为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段;所述训练阶段包括以下步骤:步骤1、获取大量的训练语料,训练语料由不同语言的多名说话人的语句组成;步骤2、将获取的训练语料通过预处理和特征提取,从每句训练语料的梅尔频谱特征中随机选取128帧并通过级联操作得到梅尔频谱特征片段,表征为声学特征x;步骤3、将所述声学特征输入到转换网络中进行训练,所述转换网络由内容编码器、说话人编码器、音高提取器和解码器四部分组成,其中,所述内容编码器、说话人编码器用于对说话人的语音进行解纠缠,从中获得语句的内容信息和说话人信息,所述音高提取器用于从说话人语音的波形中提取基频f0,所述解码器用于将获得的内容信息、说话人信息和基频f0进行重构,得到重构后的梅尔频谱特征,表征为声学特征x';步骤4、对转换网络进行训练的过程中,使所述转换网络的重构损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络;所述转换阶段包括以下步骤:步骤5、选取不同语种的语音作为测试语料,分别提取测试语料中的源说话人梅尔频谱特征x1和目标说话人梅尔频谱特征x2作为声学特征;步骤6、将所述声学特征x1、x2输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征x1→2;步骤7、采用parallel wavegan声码器,将获得的转换语句的梅尔频谱特征转换为语音进行输出,从而获得跨语种语音转换的合成语音。2.根据权利要求1所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,在步骤3中,所述转换网络由内容编码器、说话人编码器、音高提取器和解码器组成,所述内容编码器由1个h-net网络、1个量化器q和1个g-net网络组成,所述h-net网络由1个步长为2的一维标准卷积层、4个卷积模块和1个512维线性层组成,所述卷积模块共有4个,前3个卷积模块由层归一化、512维线性层和relu激活函数组成,最后1个卷积模块由层归一化、512维线性层、se模块和relu激活函数组成,所述se模块由1个一维全局平均池化层、2个全连接层、1个relu激活函数、1个sigmoid激活函数和密集残差连接组成。3.根据权利2所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,步骤4中的训练过程如下:4.1、将说话人梅尔频谱特征序列x
k
={x
k,1
,x
k,2
,

,x
k,t
}输入到内容编码器的h-net网络得到密集特征序列z
k
={z
k,1
,z
k,2
,

,z
k,t/2
},序列长度由t变为t/2;4.2、将密集特征序列z
k
={z
k,1
,z
k,2
,

,z
k,t/2
}输入至se模块,se模块由1个一维标准平均池化层、2个全连接层、1个relu激活函数、1个sigmoid激活函数和密集残差连接组成,2个全连接层与relu激活函数和sigmoid激活函数交替放置,se模块将局部特征压缩成单个全局上下文向量权重,并通过全局上下文向量权重与特征元素相乘,将密集特征序列z
k
重新加权生成se模块的输出z’k
={z’k,1
,z’k,2
,

,z’k,t/2
};4.3、将se模块重新加权后的密集特征序列z'
k
={z'
k,1
,z'
k,2
,

,z'
k,t/2
}输入至量化器q,量化器q根据可训练码本b进行量化操作,将z'
k
={z'
k,1
,z'
k,2
,

,z'
k,t/2
}离散化得到密
集特征序列集特征序列是可训练码本b中最接近z'
k
的向量,矢量量化通过设置信息瓶颈去除z'
k
中的非必要信息,使得与底层语音信息相关联,接着通过最小化量化器q的损失函数训练内容编码器;4.4、将密集特征序列输入至g-net网络中生成聚合序列r
k
={r
k,1
,r
k,2
,

,r
k,t/2
},给定r
k,t
,采用对比预测编码,通过最小化g-net网络的损失函数来区分m步后的正样本和从负样本集合ω中提取的负样本,通过预测具有概率对比损失的未来样本,将跨越多个时间步的局部特征编码至中,将作为内容表征;4.5、将说话人梅尔频谱特征序列x
k
={x
k,1
,x
k,2
,

,x
k,t
}输入到说话人编码器生成说话人特征向量s
k
,将s
k
作为说话人表征;4.6、将说话人梅尔频谱特征序列x
k
={x
k,1
,x
k,2
,

,x
k,t
}输入至音高提取器提取基频f0,并对f0作对数归一化生成与说话人无关的基频特征序列p
k
={p
k,1
,p
k,2
,

,p
k,t
};4.7、将内容表征说话人表征s
k
和基频特征序列p
k
={p
k,1
,p
k,2
,

,p
k,t
}输入至解码器进行训练,最小化解码器的损失函数;4.8、计算内容表征说话人表征s
k
和基频特征序列p
k
三者两两之间的互信息量,并将其乘以恒定权重加入到语音转换的总损失中,然后最小化语音转换的总损失;4.9、重复4.1至4.8的过程,直至达到设置的迭代次数,从而得到训练好的网络。4.根据权利要求3所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,步骤6中的输入过程如下:6.1、将源说话人的梅尔频谱特征x1输入至内容编码器和音高提取器,分别生成内容表征基频特征向量p'
k
,将目标说话人的梅尔频谱特征x2输入至说话人编码器生成说话人表征s'
k
;6.2、将内容表征说话人表征s'
k
和基频特征向量p'
k
输入至解码器,生成转换后的梅尔频谱特征x1→2。5.根据权利要求4所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,所述语音转换模型的总损失为:l
vc
=l
vq
+l
cpc
+l
rec

mi
l
mi
其中,λ
mi
≥0表示互信息量损失的正则化参数,l
vq
、l
cpc
、l
rec
、l
mi
分别表示量化器q的矢量量化损失、对比预测编码的信息噪声对比估计损失、解码器的重构损失和互信息量损失。6.根据权利要求5所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,所述量化器q的损失函数为:其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,z'
k,t
表示se模块重新加权后得到的密集特征序列,表示可训练码本量化后的密集特征序列,sg(
·
)表
示停止梯度算子,表示2-范数的平方。7.根据权利要求6所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,所述对比预测编码的损失函数为:其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,m表示对比预测的步长,t'=t/2-m,exp(
·
)表示e的(
·
)次方,w
m
表示可训练投影矩阵,ω
k,t,m
是从当前训练语句中随机选取样本组成的负样本集合,表示负样本集合ω
k,t,m
中的随机样本,r
k
={r
k,1
,r
k,2
,

,r
k,t/2
}表示密集特征序列}表示密集特征序列经过1个256维单向循环神经网络后输出的聚合序列,r
k,t
表示聚合序列rk的1个样本。8.根据权利要求7所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,所述解码器的重构损失为:其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,x
t
表示输入的梅尔频谱特征片段,表示解码器重构的频谱特征,||
·
||1表示1-范数,||
·
||2表示2-范数。9.根据权利要求8所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,所述互信息量损失为:其中,分别表示内容表征和说话人表征、内容表征和基频特征、基频特征和说话人表征之间的变分对比对数上界的无偏估计。10.根据权利要求9所述的基于互信息量和se注意力机制的跨语种语音转换方法,其特征在于,所述内容表征和说话人表征之间的变分对比对数上界的无偏估计为:其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对说话人表征、内容表征的条件对数似然,表示负样本对说话人表征、内容表征的条件对数似然,表示给定说话人表征s时,经过网络参数化后的内容表征对应的真实后验的变分近似,表示正样本对中第k句话的第t帧对应的内容表征,表示负样本对中第l句话的第t帧对应的内容表征,s
k
表示正样本对中第k句话的说话人表征;所述内容表征和基频特征之间的变分对比对数上界的无偏估计为:
其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对基频特征、内容表征的条件对数似然,表示负样本对基频特征、内容表征的条件对数似然,示负样本对基频特征、内容表征的条件对数似然,示负样本对基频特征、内容表征的条件对数似然,表示给定基频特征p时,经过网络参数化后的内容表征对应的真实后验的变分近似,表示正样本对中第k句话的第t帧对应的内容表征,表示负样本对中第l句话的第t帧对应的内容表征;所述基频特征和说话人表征之间的变分对比对数上界的无偏估计为:其中,k表示训练语句数,t表示每条训练语句梅尔频谱特征的固定帧数,表示正样本对说话人特征、基频特征的条件对数似然,表示负样本对说话人特征、基频特征的条件对数似然,表示给定说话人表征s时,经过θ
p,s
网络参数化后的基频特征p对应的真实后验的变分近似,p
k,t
表示正样本对中第k句话的第t帧对应的基频特征,s
k
表示正样本对中第k句话的说话人表征,p
l,t
表示负样本对中第l句话的第t帧对应的基频特征。

技术总结


本发明涉及语音转换技术领域,具体地说,是一种基于互信息量和SE注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段包括以下步骤:首先在内容编码器中引入SE模块,通过该模块,网络可以学习获取全局信息,提升内容编码器生成的内容表征的质量;进一步引入互信息量作为相关度量,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠;最后在解码器中将目标说话人语句中的个性信息与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种语音转换。形下任意说话人的跨语种语音转换。


技术研发人员:

李燕萍 胡澄阳

受保护的技术使用者:

南京邮电大学

技术研发日:

2022.11.15

技术公布日:

2023/2/23

本文发布于:2024-09-22 21:30:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/59497.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:表征   特征   基频   说话
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议