一种基于互信息最小化的任意情感语音转换系统及方法与流程

1.本发明涉及深度学习、语音信号处理技术领域，更具体涉及一种基于互信息最小化的任意情感语音转换系统及方法。

背景技术：

2.情感语音转换(emotion voice conversion)是语音转换(voice conversion)的一种类型。情感语音转换系统改变的是语音中的情感信息，即情感语音转换的任务是在不改变句子语言信息的情况下，将源语音的情感转换为目标语音的情感。
3.以往有许多围绕情感语音转换的任务使用深度学习的方法，例如基于深度神经网络(dnn)、深度置信网络(dbn)、深度双向长短时记忆网络(dblstm)、序列到序列的情感语音转换模型。然而，这些模型都使用的是平行语音数据，需要额外的时间对齐程序，这使得其应用范围大大地受限。
4.为了克服这个问题，基于非平行数据的方法已经被提出，例如循环一致的生成对抗网络(cycle-consistent generative adversarial network)、自动编码器(autoencoder)、变分自编码wasserstein对抗网络等，例如文献《钟昕孜,廖闻剑.基于自编码器的语音情感识别方法研究[j].电子设计工程,2020,28(6)：69-72》公开了基于自编码器结合对抗训练的方法并在对抗训练中引入改进的对抗损失函数进行特征降维。尽管这些模型克服了平行语料的限制，但是这些模型都只能实现一对或者一组特定情感的转换。
[0005]
能够完成不可见情感转换的模型也被称为任意对任意转换模型，针对任意对任意情感转换模型，特征分离(feature separation)思想则更适应于不可见情感这类少样本的情感语音转换。在说话人语音转换领域，研究者们常常使用特征分离的方法来分离说话人信息和文本内容信息，这样模型就能够学习到不同的语音表示，并且将其中说话人表示替换为目标语音的，从而实现说话人的转换。常用的特征分离方法有三种：降维采样、矢量量化(vector quantization,vq)、实例归一化。由于说话人信息和情感信息都是语音中的副语言信息，这个模型也有潜在的应用于情感语音转换任务的可能性。但是在部分模型中，不同特征之间的分离程度较低，源语音的非情感信息还保留了一部分情感表示内容，当与目标情感语音的情感信息融合进行情感转换时，转换结果中包含了源语音的部分情感信息，从而导致情感转换的结果不准确，这是一大技术不足。

技术实现要素：

[0006]
本发明所要解决的技术问题在于现有技术任意情感语音转换方法不同特征之间的分离程度较低，导致情感转换的结果不准确的问题。
[0007]
本发明通过以下技术手段实现解决上述技术问题的：一种基于互信息最小化的任意情感语音转换系统，应用于训练阶段，包括训练模块，所述训练模块包括：
[0008]
情感编码器，用于提取一句语音中的情感嵌入表示；
[0009]
非情感编码器，用于提取一句语音中的情感无关表示；
[0010]
解码器，用于从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征；
[0011]
变分近似网络，用于得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量；
[0012]
训练控制模块，用于不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练。
[0013]
本发明针对情感相关信息和情感无关信息分离不彻底的问题，提出了一种基于互信息最小化的情感语音转换系统，不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练，通过最小化互信息上界能够减少情感相关信息和情感无关信息的相似度，从而使得两者信息分离得更加深度彻底，情感转换的结果较为准确。
[0014]
进一步地，所述训练阶段选择多说话人情感语音数据集esd中的2名男性和2名女性的四种情感，分别为：快乐、悲伤、中性、愤怒，针对每个说话人的每一种情感提取330句音频作为训练集。
[0015]
更进一步地，在训练阶段对每个说话人进行中性转开心、中性转悲伤和中性转愤怒的训练。
[0016]
本发明还提供一种基于互信息最小化的任意情感语音转换系统，应用于转换阶段，包括转换模块，所述转换模块包括：
[0017]
第一声码器，用于提取源语音中的声学特征并输入经过互信息量最小化训练的非情感编码器中；
[0018]
第二声码器，用于提取目标语音中的声学特征并输入经过互信息量最小化训练的情感编码器中；
[0019]
解码器，用于融合非情感编码器输出的源语音的情感无关表示以及情感编码器输出的目标语音的情感嵌入表示；
[0020]
第三声码器，用于接收解码器输出的融合结果并输出转换后的语音。
[0021]
进一步地，所述转换阶段选择多说话人情感语音数据集esd中的2名男性和2名女性的四种情感，分别为：快乐、悲伤、中性、愤怒，针对每个说话人的每一种情感提取20句音频作为测试集的一部分，选择情感语音数据集jl-corpus的4个英语说话人的四种主要情感：中性、快乐、愤怒、悲伤，每种情感共有15句平行语料所录制的数据，共220个句子，作为测试集的另一部分；选择德语的表演型语料库emo-db中的四种基础情感都包含的平行数据共有30句作为测试集的另一部分。
[0022]
进一步地，所述第一声码器、第二声码器以及第三声码器为world声码器。
[0023]
进一步地，所述第一声码器提取源语音中的24维梅尔倒谱系数以及基频构成25维输入向量并输入经过互信息量最小化训练的非情感编码器中。
[0024]
进一步地，述第二声码器提取目标语音中的24维梅尔倒谱系数以及基频构成25维输入向量并输入经过互信息量最小化训练的情感编码器中。
[0025]
本发明还提供一种基于互信息最小化的任意情感语音转换系统，应用于训练阶段和转换阶段，包括上述所述的训练模块和上述所述的转换模块。
[0026]
本发明还提供一种基于互信息最小化的任意情感语音转换方法，所述方法包括：
[0027]
1)选定多个情感语音数据集，划分训练集及测试集；
[0028]
2)声学特征提取；
[0029]
3)训练阶段：将提取到的声学特征输入到情感编码器和非情感编码器中，解码器从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征，变分近似网络得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量，不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练；
[0030]
4)转换阶段：选择一句源语音和一句目标语音经声学特征提取以后分别输入到非情感编码器以及情感编码器中，解码器融合非情感编码器输出的源语音的情感无关表示以及情感编码器输出的目标语音的情感嵌入表示。
[0031]
本发明的优点在于：
[0032]
(1)本发明针对情感相关信息和情感无关信息分离不彻底的问题，提出了一种基于互信息最小化的情感语音转换系统，不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练，通过最小化互信息上界能够减少情感相关信息和情感无关信息的相似度，从而使得两者信息分离得更加深度彻底，情感转换的结果较为准确。
[0033]
(2)本发明通过模型训练的方式使得情感相关信息和情感无关信息分离得彻底，从而信息纠缠程度降低，能够实现任意情感语音转换的任务。
附图说明
[0034]
图1为本发明实施例1所提供的一种基于互信息最小化的任意情感语音转换系统的训练框架图；
[0035]
图2为本发明实施例2所提供的一种基于互信息最小化的任意情感语音转换系统的转换过程框架图；
[0036]
图3为本发明提供的主观意见得分打分界面；
[0037]
图4为主观意见得分结果统计图；
[0038]
图5为本发明提供的对比选择得分打分界面；
[0039]
图6为对比选择得分结果统计图。
具体实施方式
[0040]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0041]
实施例1
[0042]
本发明中，实施例1至实施例4均需要使用到语料库，所使用的语料库有三个。
[0043]
第一、由新加坡南洋理工大学于2020年所发布的多语言、多说话人情感语音数据集esd。采用了英语母语说话人的数据，2名男性和2名女性，其在esd数据集中的编号分别为：0011、0012、0017和0018。选择了数据集中的四种情感，分别为：1)快乐、2)悲伤、3)中性、
4)愤怒，针对每个说话人的每一种情感，共有350句音频，其中330句作为训练集，其余的20句则属于测试集。
[0044]
第二、jl-corpus是由4个英语说话人和10种情感组成的情感语音数据集，常用于社交机器人的语音合成任务。本发明选用此数据集仅作为测试集，用于验证模型的鲁棒性。同esd一样使用数据集中的四种主要情感：1)中性、2)快乐、3)愤怒、4)悲伤，每种情感共有15句平行语料所录制的数据，则测试集包含：4(说话人)
×
4(主要情感)
×
15(句子)＝240个句子。
[0045]
第三、emo-db数据集是一个德语的表演型语料库，由柏林工业大学录制。该数据集由10名德语说话人组成，5名男性说话人和5名女性说话人，他们的职业都是演员。经过筛选，其中4种基础情感都包含的平行数据共有30句，全部作为测试集使用。
[0046]
上述训练集仅用于训练阶段，而测试集应用于转换阶段。
[0047]
如图1所示，图中e
θ
和d分别是非情感编码器和解码器；ee是情感编码器；c是由某一句话所提取的情感嵌入表示；z是与情感无关的信息表示，q是变分近似网络。本发明实施例1提供一种基于互信息最小化的任意情感语音转换系统，应用于训练阶段，包括训练模块，所述训练模块包括：
[0048]
情感编码器，用于提取一句语音中的情感嵌入表示；情感编码器是由一个参考编码器和一个全局情感嵌入gees模块构成。全局情感嵌入(global emotion embeddings,gees)由一组标记嵌入(emotion token embeddings)和多头注意力模块构成。
[0049]
非情感编码器，用于提取一句语音中的情感无关表示；语音信息均采用上述训练集中的数据。
[0050]
解码器，用于从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征；
[0051]
变分近似网络，用于得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量；
[0052]
训练控制模块，用于不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练。
[0053]
需要说明的是，对于每个说话人进行中性转开心(n2h)、中性转悲伤(n2s)和中性转愤怒(n2a)的训练，通过多种情感转换提升模型训练的准确性。
[0054]
训练模型的目的是减小情感相关表示和情感无关表示之间的相关性，即两者的互信息量值越小越好。具体方法是对互信息量的上界进行估计，当上界估计值越小时，说明两个变量的相似性小，情感相关信息和情感无关信息互相交叉混杂程度低、互相依赖程度低，那么特征分离得就更加彻底。在经过一定数量的训练步骤后，能够得到一个损失函数值较小的模型，即完成了训练阶段。
[0055]
通过以上技术方案，本发明针对情感相关信息和情感无关信息分离不彻底的问题，提出了一种基于互信息最小化的情感语音转换系统，不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练，通过最小化互信息上界能够减少情感相关信息和情感无关信息的相似度，从而使得两者信息分离得更加深度彻底，情感转换的结果较为准确。
[0056]
实施例2
[0057]
如图2所示，本发明实施例2与实施例1的区别在于：本发明还提供一种基于互信息最小化的任意情感语音转换系统，应用于转换阶段，包括转换模块，所述转换模块包括：
[0058]
第一声码器，用于提取源语音中的声学特征并输入经过互信息量最小化训练的非情感编码器中；
[0059]
第二声码器，用于提取目标语音中的声学特征并输入经过互信息量最小化训练的情感编码器中；在本发明中，用于特征提取和合成波形的第一声码器至第三声码器均为world声码器，world声码器需要提取三种声学特征：基频f0，谱包络(spectrum envelop)也叫频谱参数(spectrum parameter,sp),非周期信号参数(aperiodic parameter，ap)。使用dio算法提取基频f0。world声码器用cheaptrick去做谱分析获得频谱包络。在world声码器中采用d4c算法来提取ap。其中ap仅在转换阶段使用，训练阶段不参与训练。world声码器属于现有技术，在此不做赘述。实际应用过程中，将测试数据集输入到world声码器中，world声码器提取24维梅尔倒谱系数mecp和基频f0，将其连接为25维输入向量作为输入特征，将输入特征分别输入到情感编码器和非情感编码器中。
[0060]
解码器，用于融合非情感编码器输出的源语音的情感无关表示以及情感编码器输出的目标语音的情感嵌入表示；
[0061]
第三声码器，用于接收解码器输出的融合结果并输出转换后的语音。
[0062]
实施例3
[0063]
如图1和图2所示，本发明实施例3提供一种基于互信息最小化的任意情感语音转换系统，应用于训练阶段和转换阶段，包括实施例1所述的训练模块和实施例2所述的转换模块，实际应用中先训练，训练好以后进行语音转换，完成任意情感语音转换任务。
[0064]
实施例4
[0065]
如图1和图2所示，本发明实施例4与实施例3的区别在于基于实施例3所提供的系统详细解释该系统的语音转换方法，所述方法包括：
[0066]
1)选定多个情感语音数据集，划分训练集及测试集；具体数据集选取方法参照实施例1中的相关介绍。
[0067]
2)声学特征提取；与实施例2所介绍的一样，采用world声码器进行声学特征提取，提取完以后将信息输入给情感编码器和非情感编码器。
[0068]
3)训练阶段：将提取到的声学特征输入到情感编码器和非情感编码器中，解码器从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征，变分近似网络得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量，不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练；通过最小化互信息上界能够减少情感相关信息和情感无关信息的相似度，从而使得两者信息分离得更加深度彻底，这样在后续转换过程中，源语音的非情感信息中不会保留情感表示内容，当与目标情感语音的情感信息融合进行情感转换时，转换结果中仅包含源语音的非情感信息以及目标语音的情感信息，使得情感转换的结果准确，实现任意选择一句源情感语音和一句目标情感语音，将源语音的非情感信息保留不变，情感信息从目标语音中提取。
[0069]
4)转换阶段：选择一句源语音和一句目标语音经声学特征提取以后分别输入到非情感编码器以及情感编码器中，解码器融合非情感编码器输出的源语音的情感无关表示以
及情感编码器输出的目标语音的情感嵌入表示，获得转换后的声学特征，通过第三声码器将转换后的声学特征输出成转换后的语音，实现任意选择一句源情感语音和一句目标情感语音，将源语音的非情感信息保留不变，情感信息从目标语音中提取。
[0070]
本发明的两个编码器模型是基于变分自编码构建的生成模型，首先通过基于全局情感嵌入(global emotion embeddings,gees)的情感编码器提取情感相关信息，以及通过激活函数引导(activation guidance,ag)作为信息瓶颈的非情感编码器提取情感无关表征，然后在解码器中通过自适应实例归乒化层(adaptive instance normalization,adain)将情感信息嵌入转换语音中，最后通过声码器重构为波形。
[0071]
为了验证本发明的效果，进行了实验，以下详细介绍实验内容：
[0072]
本发明首先采用了客观评估对于模型的特征分离程度进行衡量。使用一个简单的情感分类网络，用于判断情感无关表示z的分离程度，如果z输入到情感分类器中得到的分类精度越低，说明该信息中包含的情感信息越少，证明模型对情感相关信息和情感无关信息的分离程度越高。该分类器是由三层256个隐藏节点的conv1d一维卷积层和一个全连接层构成，这是一种常用设置。分类器的输入为模型提取到的情感无关表示z，输出为分类正确率。用于对比的数据是数据集esd中所选的四个说话人、四种情感的全部数据。对比添加互信息最小化的模型(也即本发明的模型)与不添加此方法的模型，分类精度降低了3％，这说明特征分离程度加深了3％，证明了本系统和方法在特征分离程度的有效性。
[0073]
实验结果也采用了主观评估，包括主观意见得分(mos)、对比选择得分，衡量转换语音的自然度和情感相似度。
[0074]
本发明主观意见得分的标准为1-5分，1代表最差，5代表最好，得分越高表示结果的语音自然度更好。本发明采用图3设计了主观评估打分界面，如图4所示为本发明的模型与基准模型的转换语质量的主观意见得分的结果对比，图4中n2h、n2s以及n2a情况下三个柱形图中从左到右分别是两个基准模型以及本发明的模型的结果，例如，n2h情况下，3.29以及3.05分别是两个基准模型的得分，4.67是本发明的模型的得分，结果表明，本发明所提出的模型比基准模型得分高，本发明的模型产生的语音质量略优于两个基准模型，这说明本发明的系统转换语音具有较好的音质和自然度，拥有有效的语音情感转换能力。
[0075]
本发明对比选择得分的方法采用了图5设计的打分界面，给听力测试者一句参考语音和两句转换语音，听力测试者根据问题“please choose which of the two audio’s emotion you think is more like the reference audio？”和三个选项“audio a”、“audio b”、“no difference”选择一个选项。如图6所示为模型与vawgan-evc的xab打分结果，其中中性转快乐(n2h)、中性转悲伤(n2s)、中性转愤怒(n2a)。对于前两者，本发明提出的模型转换语音与参考语音更为相似。愤怒对于基准模型是可见的，但在本发明的模型中是不可见情感，所以造成了n2a中占比柔高的为“no difffference”，这表明与vawgan-evc相比，尽管愤怒是不可见情感，但模型仍具有可以与之匹配的转换能力，因此，在本实验中，可见情感转换和不可见情感转换均优于基准模型。这些实验结果说明，本发明的模型在情感相似度上也有良好的表现，甚至能够实现任意情感的转换。
[0076]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者
替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种基于互信息最小化的任意情感语音转换系统，其特征在于，应用于训练阶段，包括训练模块，所述训练模块包括：情感编码器，用于提取一句语音中的情感嵌入表示；非情感编码器，用于提取一句语音中的情感无关表示；解码器，用于从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征；变分近似网络，用于得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量；训练控制模块，用于不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练。2.根据权利要求1所述的一种基于互信息最小化的任意情感语音转换系统，其特征在于，所述训练阶段选择多说话人情感语音数据集esd中的2名男性和2名女性的四种情感，分别为：快乐、悲伤、中性、愤怒，针对每个说话人的每一种情感提取330句音频作为训练集。3.根据权利要求2所述的一种基于互信息最小化的任意情感语音转换系统，其特征在于，在训练阶段对每个说话人进行中性转开心、中性转悲伤和中性转愤怒的训练。4.一种基于互信息最小化的任意情感语音转换系统，其特征在于，应用于转换阶段，包括转换模块，所述转换模块包括：第一声码器，用于提取源语音中的声学特征并输入经过互信息量最小化训练的非情感编码器中；第二声码器，用于提取目标语音中的声学特征并输入经过互信息量最小化训练的情感编码器中；解码器，用于融合非情感编码器输出的源语音的情感无关表示以及情感编码器输出的目标语音的情感嵌入表示；第三声码器，用于接收解码器输出的融合结果并输出转换后的语音。5.根据权利要求4所述的一种基于互信息最小化的任意情感语音转换系统，其特征在于，所述转换阶段选择多说话人情感语音数据集esd中的2名男性和2名女性的四种情感，分别为：快乐、悲伤、中性、愤怒，针对每个说话人的每一种情感提取20句音频作为测试集的一部分，选择情感语音数据集jl-corpus的4个英语说话人的四种主要情感：中性、快乐、愤怒、悲伤，每种情感共有15句平行语料所录制的数据，共220个句子，作为测试集的另一部分；选择德语的表演型语料库emo-db中的四种基础情感都包含的平行数据共有30句作为测试集的另一部分。6.根据权利要求4所述的一种基于互信息最小化的任意情感语音转换系统，其特征在于，所述第一声码器、第二声码器以及第三声码器为world声码器。7.根据权利要求4所述的一种基于互信息最小化的任意情感语音转换系统，其特征在于，所述第一声码器提取源语音中的24维梅尔倒谱系数以及基频构成25维输入向量并输入经过互信息量最小化训练的非情感编码器中。8.根据权利要求4所述的一种基于互信息最小化的任意情感语音转换系统，其特征在于，所述第二声码器提取目标语音中的24维梅尔倒谱系数以及基频构成25维输入向量并输入经过互信息量最小化训练的情感编码器中。
9.一种基于互信息最小化的任意情感语音转换系统，其特征在于，应用于训练阶段和转换阶段，包括权利要求1-3任一项所述的训练模块和权利要求4-8任一项所述的转换模块。10.一种基于互信息最小化的任意情感语音转换方法，其特征在于，所述方法包括：1)选定多个情感语音数据集，划分训练集及测试集；2)声学特征提取；3)训练阶段：将提取到的声学特征输入到情感编码器和非情感编码器中，解码器从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征，变分近似网络得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量，不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练；4)转换阶段：选择一句源语音和一句目标语音经声学特征提取以后分别输入到非情感编码器以及情感编码器中，解码器融合非情感编码器输出的源语音的情感无关表示以及情感编码器输出的目标语音的情感嵌入表示。

技术总结

本发明公开了一种基于互信息最小化的任意情感语音转换系统及方法，所述系统包括训练模块，训练模块包括：情感编码器，用于提取一句语音中的情感嵌入表示；非情感编码器，用于提取一句语音中的情感无关表示；解码器，用于从情感编码器以及非情感编码器生成的情感隐表示和非情感信息隐表示中重构转换后的声学特征；变分近似网络，用于得到情感嵌入表示近似分布的均值和方差，再与情感无关表示计算互信息量；训练控制模块，用于不断迭代更新情感编码器和非情感编码器的参数，变分近似网络计算的互信息量最小时停止训练；本发明的优点在于：使得情感相关信息和情感无关信息分离得更加深度彻底，情感转换的结果较为准确。情感转换的结果较为准确。情感转换的结果较为准确。