一种语音转换方法、装置以及设备与流程

1.本技术涉及人工智能技术领域，尤其涉及一种语音转换方法、装置以及设备。

背景技术：

2.随着人工智能技术的不断发展，语音转换(voice conversion，vc)对说话人身份转换、个性化语音合成等应用的发展具有重要意义。训练语音转换模型时需要的语料库分为平行语料或者非平行语料。其中，平行语料是指源说话人和目标说话人说话内容相同，而非平行语料是指源说话人和目标说话人说话的内容不同。基于平行语料的语音转换模型采集成本高。因此，非平行语料的语音转换方法越来越受到关注。
3.相关技术中，利用语言信息来辅助模型训练，采用时频自适应归一化(time-frequency adaptive normalization，tfan)模块实现非平行语料的语音转换。tfan模块的引入增加了模型参数，导致模型收敛速度变慢，会降低模型在使用过程中的转换速度；而且模型转换后生成的语音与目标语音存在差距，导致语音效果欠佳。

技术实现要素：

4.本技术提出一种语音转换方法、装置以及设备。
5.本技术的技术方案是这样实现的：
6.第一方面，本技术实施例提供了一种语音转换方法，该方法包括：
7.获取待转换语音；
8.将所述待转换语音输入到转换模型；
9.通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；
10.其中，所述目标风格语音与所述待转换语音的语义信息相同、非语义信息不同。
11.在一些实施例中，所述通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦，并分别对语义信息和非语义信息进行转换处理，以生成目标风格语音，包括：
12.将所述待转换语音进行拆分，得到至少一个单元词；
13.在所述至少一个单元词中，对含有重读音的单元词进行解耦处理，得到语义信息和非语义信息；
14.对所述语义信息进行保留以及对所述非语义信息进行转换，以生成所述目标风格语音。
15.在一些实施例中，在所述将所述待转换语音输入到转换模型之后，所述方法还包括：
16.确定所述待转换语音的频谱图，并提取所述频谱图中的频域特征信息；
17.对所述频域特征信息进行特征分类，确定至少一类频域特征；
18.对归属所述语义信息的频域特征分配第一类权重；对归属所述非语义信息的频域
特征分配第二类权重；其中，所述第一类权重小于所述第二类权重；
19.将进行权重分配之后的频谱图确定为类激活图。
20.在一些实施例中，所述方法还包括：
21.对所述类激活图中的频域特征进行转换，得到时频特征信息；
22.使用自注意力模块对所述时频特征信息进行卷积处理，以生成所述目标风格语音。
23.在一些实施例中，所述方法还包括：
24.获取样本集；其中，所述样本集包括原始样本集和目标样本集，所述原始样本集包括至少一条转换前的原始样本语音，所述目标样本集包括至少一条转换后的目标样本语音；
25.根据所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音对卷积模型进行训练，得到所述转换模型；
26.其中，所述卷积模型包括自注意力模块和内容风格解耦模块。
27.在一些实施例中，所述自注意力模块包括交互注意力模块，所述根据所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音进行模型训练，得到所述转换模型，包括：
28.将所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音通过编码器进行编码处理，得到所述原始样本语音和目标样本语音对应的第一训练特征信息；
29.使用所述交互注意力模块对所述第一训练特征信息进行特征分类，并对所述分类得到的至少一类训练频域特征进行权重分配，确定类激活图；
30.对所述类激活图通过解码器进行解码处理，得到所述转换模型。
31.在一些实施例中，所述自注意力模块包括自注意力模块，所述对所述类激活图通过解码器进行解码处理，得到所述转换模型，包括：
32.对所述类激活图中的频域特征进行转换，得到第二训练特征信息；
33.使用所述自注意力模块对所述第二训练特征信息进行卷积模型训练，得到所述转换模型。
34.在一些实施例中，所述得到所述转换模型之后，所述方法还包括：
35.将待验证语音输入到所述转换模型，生成验证转换语音；
36.使用所述内容风格解耦模块对所述待验证语音和所述验证转换语音进行解耦处理，得到语义信息和非语义信息；
37.对所述待验证语音和所述验证转换语音的语义信息进行一致性计算，确定语义损失值；
38.对所述验证转换语音和所述目标风格语音的非语义信息进行感知损失判断，确定风格损失值；
39.在所述语义损失值和风格损失值收敛的情况下，确定所述模型训练完成。
40.第二方面，本技术实施例提供了一种语音转换装置，包括：
41.获取单元，配置为获取待转换语音；
42.转换单元，配置为将所述待转换语音输入到转换模型；以及通过所述转换模型对
所述待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，所述目标风格语音与所述待转换语音的语义信息相同、非语义信息不同。
43.第三方面，本技术实施例提供了一种电子设备，包括存储器和处理器；其中，
44.所述存储器，用于存储能够在所述处理器上运行的计算机程序；
45.所述处理器，用于在运行所述计算机程序时，执行如第一方面所述的方法。
46.第四方面，本技术实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现如第一方面所述的方法。
47.本技术提供了一种语音转换方法、装置以及设备，通过获取待转换语音；将待转换语音输入到转换模型；通过转换模型对待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，目标风格语音与待转换语音的语义信息相同、非语义信息不同。这样，通过转换模型进行待转换语音的转换，不仅能够提高语音合成质量，而且该转换模型无需引入额外的模型参数，还能够提高模型的转换性能；另外，对于语义信息和非语义信息的解耦，还能够实现高质量转换。
附图说明
48.图1为本技术实施例提供的一种语音转换方法的流程示意图；
49.图2为本技术实施例提供的另一种语音转换方法的流程示意图；
50.图3为本技术实施例提供的一种转换模型生成器的网络结构示意图；
51.图4为本技术实施例提供的一种转换模型生成器中交互注意力模块的结构示意图；
52.图5为本技术实施例提供的一种转换模型生成器中自注意力模块的结构示意图；
53.图6为本技术实施例提供的一种转换模型判别器的网络结构示意图；
54.图7为本技术实施例提供的一种语音转换装置的组成结构示意图；
55.图8为本技术实施例提供的一种电子设备的具体硬件结构示意图；
56.图9为本技术实施例提供的一种电子设备的组成结构示意图。
具体实施方式
57.为了能够更加详尽地了解本技术实施例的特点与技术内容，下面结合附图对本技术实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本技术实施例。
58.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
59.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。还需要指出，本技术实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图
示或描述的以外的顺序实施。
60.可以理解，语音转换(voice conversion，vc)对说话人身份转换、个性化语音合成等应用的发展具有重要意义。训练语音转换模型时需要的语料库分为平行语料和非平行语料。平行语料是指源说话人和目标说话人说话内容相同，而非平行语料是指源说话人和目标说话人说话的内容不同。基于平行语料的语音转换模型需要输入一组音频，源说话人和目标说话人要表达相同的内容，采集成本高。因此，非平行语料的语音转换方法越来越受到关注。
61.相关技术中，利用语言信息来辅助模型训练，实现非平行语料的语音转换。由于获取此类语言信息需要额外的模块和数据，这会带来额外的成本，并限制其应用。近几年出现了深度生成模型(deep generative model)，如基于变分自编码器的方法(vae-based methods)，基于生成式对抗神经网络的方法(gan-based methods)。这类方法仅使用声学数据就可以实现非平行语料的语音合成。其中，cyclegan-vc及其变体，如cyclegan-vc2和stargan-vcs，已被广泛接受为基准方法。但是，以上提到的这些算法仅适用于梅尔倒谱(mel-cepstrum)转换，无法捕获梅尔频谱(mel-spectrogram)的时频结构。为了克服这些限制，cyclegan-vc3提出时频自适应归一化(tfan)模块实现了梅尔谱图转换。但cylcegan-vc3存在以下缺点：模型转换后效果欠佳，生成的语音与目标语音存在差距，尤其是对于语音中含有重读音的词转换效果不佳；tfan模块的引入增加了模型参数，导致模型收敛速度变慢。
62.基于此，本技术实施例提出了一种语音转换方法，该方法的基本思想是：获取待转换语音；将待转换语音输入到转换模型；通过转换模型对待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，目标风格语音与待转换语音的语义信息相同、非语义信息不同。这样，通过转换模型进行待转换语音的转换，不仅能够提高语音合成质量，而且该转换模型无需引入额外的模型参数，还能够提高模型的转换性能，同时提高训练效率；另外，对于语义信息和非语义信息的解耦，还能够实现高质量转换。
63.本技术的一实施例中，参见图1，其示出了本技术实施例提供的一种语音转换方法的流程示意图。如图1所示，该方法可以包括：
64.s101：获取待转换语句。
65.需要说明的是，本技术实施例提供的语音转换方法可以应用于需要进行语音转换的装置，或者集成有该装置的电子设备。这里，电子设备可以是诸如计算机、智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personal digital assistant，pda)、导航装置、服务器等等，本技术实施例对此不作具体限定。
66.还需要说明的是，待转换语音可以包括语义信息和非语义信息。其中，在语音转换过程中，待转换语音可以为词汇、短语或句子，或者待转换语音也可以为各种语言，本技术实施例对此不作具体限定。
67.s102：将待转换语音输入到转换模型。
68.s103：通过转换模型对待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，目标风格语音与待转换语音的语义信息相同、非语义信息不同。
69.需要说明的是，将待转换语音输入到转换模型的过程中，既可以对待转换语音限定目标风格，即：限定转换后目标风格语音的非语义信息；其中，非语义信息可以包括音、停顿习惯、说话风格等等，也可以不对待转换语音限定目标风格，通过转换生成不同风格的语音，供用户进行选择，本技术实施例对此也不作任何限定。
70.还需要说明的是，在限定目标风格的情况下，针对不同的待转换语音，在转换过程中，既可以限定不同的目标风格，也可以针对这些输入语句限定相同的目标风格，本技术实施例不作任何限定。
71.在一些实施例中，所述通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦，并分别对语义信息和非语义信息进行转换处理，以生成目标风格语音，可以包括：
72.将所述待转换语音进行拆分，得到至少一个单元词；
73.在所述至少一个单元词中，对含有重读音的单元词进行解耦处理，得到语义信息和非语义信息；
74.对所述语义信息进行保留以及对所述非语义信息进行转换，以生成所述目标风格语音。
75.需要说明的是，对于待转换语音而言，可以将整体待转换语音进行解耦处理，得到语义信息和非语义信息，在进行转换的过程中，对所述语义信息进行保留以及对所述非语义信息进行转换，得到高转换质量的目标风格语音，也可以将待转换语音进行拆分成单元词，只对含有重读音的单元词进行解耦处理，得到语义信息和非语义信息，在进行转换的过程中，对所述语义信息进行保留以及对所述非语义信息进行转换，其余单元词直接进行转换，得到高转换质量的目标风格语音，这样，不仅对待转换语音的转换质量高，而且减轻了模型的运算压力，加快了语音转换的速度。
76.在一些实施例中，在所述将所述待转换语音输入到转换模型之后，所述方法还可以包括：
77.确定所述待转换语音的频谱图，并提取所述频谱图中的频域特征信息；
78.对所述频域特征信息进行特征分类，确定至少一类频域特征；
79.对归属所述语义信息的频域特征分配第一类权重；对归属所述非语义信息的频域特征分配第二类权重；其中，所述第一类权重小于所述第二类权重；
80.将进行权重分配之后的频谱图确定为类激活图。
81.需要说明的是，频谱图也称为梅尔频谱图，从频谱中提取的频域特征信息为一维特征信息，在获取频域特征信息的过程中，转换模型对频谱图进行了二维到一维的转换，将频谱图中提取出的频域特征信息进行特征分类后，按照不同类别频域特征需要关注的程度，对不同的频域特征分配不同的权重，需要被关注的频域特征分配更高的权重，这样可以提高转换效率。
82.还需要说明的是，对于转换模型来说，非语义信息需要进行转换，而语义信息需要被保留，所以转换模型的转换过程中需要更加关注非语义信息，因此在转换模型中，非语义信息分配的权重较高，而语义信息分配的权重较低。
83.还需要说明的是，在对频域特征进行权重分配后，得到了类激活图，类激活图中包括源域和目标域。其中，源域可以包括权重较低的频域特征，即语义信息包括的频域特征；
目标域可以包括权重较高的频域特征，即非语义信息包括的频域特征。
84.在一些实施例中，所述方法还可以包括：
85.对所述类激活图中的频域特征进行转换，得到时频特征信息；
86.使用自注意力模块对所述时频特征信息进行卷积处理，以生成所述目标风格语音。
87.还需要说明的是，在对所述类激活图中的频域特征进行转换，得到时频特征信息时，可以将一维的频域特征转换为二维的时频特征，然后针对时频特征，采用自注意力模块进行卷积训练，增加了时域信息和频域信息的关联性，提高了待转换语音转换之后目标风格语音帧与帧之间的联系，进而提高了目标风格语音的连贯性。
88.在本技术实施例中，转换模型可以分为转换模型生成器和转换模型判别器。其中，转换模型生成器可以包括语句编码器、自注意力模块和解码器；转换模型判别器可以包括内容风格解耦模块。
89.在一些实施例中，参见图2，其示出了本技术实施例提供的另一种语音转换方法的流程示意图。具体为转换模型的训练过程，如图2所示，该方法可以包括：
90.s201：获取样本集；其中，样本集包括原始样本集和目标样本集，原始样本集包括至少一条转换前的原始样本语音，目标样本集包括至少一条转换后的目标样本语音。
91.需要说明的是，至少一条转换前的原始样本语音和至少一条转换后的目标样本语音为两个独立的训练集，也就是采用的是非平行语料进行训练，具体地，非平行语料是指在转换过程中，原始样本语音和目标样本语音的说话内容不同，两个样本训练集也无关联关系。
92.s202：根据至少一条转换前的原始样本语音和至少一条转换后的目标样本语音对卷积模型进行训练，得到转换模型；其中，所述卷积模型可以包括自注意力模块和内容风格解耦模块。
93.需要说明的是，自注意力模块用于调节模型关注更重要的特征，加快模型中参数的调整速度，提高模型转换性能，同时提高训练效率，内容风格解耦模块用于将非语义信息从原始样本信号转换到转换样本信号。另一方面，自注意力模块还需要保留源语音信号的语义，加强语音转换的转换质量。
94.在一些实施例中，所述自注意力模块可以包括交互注意力模块，所述根据所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音进行模型训练，得到所述转换模型，可以包括：
95.将所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音通过编码器进行编码处理，得到所述原始样本语音和目标样本语音对应的第一训练特征信息；
96.使用所述交互注意力模块对所述第一训练特征信息进行特征分类，并对所述分类得到的至少一类训练频域特征进行权重分配，确定类激活图；
97.对所述类激活图通过解码器进行解码处理，得到所述转换模型。
98.需要说明的是，将至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音通过编码器进行编码处理，得到第一训练特征信息，第一训练特征信息为一维特征信息，在编码过程中，对原始样本语音和目标样本语音的频谱图进行了二维到一维的转
换，第一训练特征信息进行特征分类后，按照不同类别频域特征需要关注的程度，对不同的频域特征分配不同的权重，需要被关注的频域特征分配更高的权重，这样可以提高转换效率。
99.在一些实施例中，所述自注意力模块可以包括自注意力模块，所述对所述类激活图通过解码器进行解码处理，得到所述转换模型，可以包括：
100.对所述类激活图中的频域特征进行转换，得到第二训练特征信息；
101.使用所述自注意力模块对所述第二训练特征信息进行卷积模型训练，得到所述转换模型。
102.需要说明的是，在对所述类激活图中的频域特征进行转换，得到第二训练特征信息时，将一维的第一训练特征信息转换为二维的第二训练特征信息，针对第二训练特征信息，采用自注意力模块进行卷积训练，增加了时域信息和频域信息的关联性，提高了待转换语音转换之后目标风格语音帧与帧之间的联系，提高了目标风格语音的连贯性。
103.在一些实施例中，所述得到所述转换模型之后，所述方法还可以包括：
104.将待验证语音输入到所述转换模型，生成验证转换语音；
105.使用所述内容风格解耦模块对所述待验证语音和所述验证转换语音进行解耦处理，得到语义信息和非语义信息；
106.对所述待验证语音和所述验证转换语音的语义信息进行一致性计算，确定语义损失值；
107.对所述验证转换语音和所述目标风格语音的非语义信息进行感知损失判断，确定风格损失值；
108.在所述语义损失值和风格损失值收敛的情况下，确定所述模型训练完成。
109.需要说明的是，相较于常规的判别器只对语义信息转换知否准确进行判断，本技术实施例的判别器中增加了针对风格损失进行计算的模块，在判别过程中，在确定语义损失值的同时，也计算风格损失值，然后结合语义损失值和风格损失值对模型的转换质量进行判断，在语义损失值和风格损失值收敛的情况下，确定所述模型训练完成。
110.这样，根据至少一条转换前的原始样本语音和至少一条转换后的目标样本语音对卷积模型进行训练，得到最终的转换模型；而且该转换模型的模型参数少，收敛速度快，合成效果好。
111.本实施例提供了一种语音转换方法，通过获取待转换语音；将待转换语音输入到转换模型；通过转换模型对待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，目标风格语音与待转换语音的语义信息相同、非语义信息不同。这样，通过转换模型进行待转换语音的转换，不仅能够提高语音合成质量，而且该转换模型无需引入额外的模型参数，还能够提高模型的转换性能；另外，对于语义信息和非语义信息的解耦，还能够实现高质量转换。
112.本技术的另一实施例中，基于前述实施例的语音转换方法，参见图3，其示出了申请实施例提供的一种转换模型生成器的网络结构示意图。如图3所示，该转换模型的生成器可以包括编码模块301、注意力模块和解码模块302。其中，注意力模块可以包括交互注意力模块和自注意力模块。
113.需要说明的是，端到端的非监督的语音合成系统(u-gat-vc，即前述实施例中的转
换模型)中生成器网络结构。其中，h,w和c分别代表特征的高，宽和通道数量。在每个卷积层中，k,c和s分别代表核数，通道数和步长。
114.具体地，一方面，参见图4，其示出了本技术实施例提供的一种转换模型生成器中交互注意力模块的结构示意图。如图4所示，对于交互注意力(inter-attention)模块40而言，进行语音转换时，待转换语音的音是说话人的语音特征，是由共振峰频率反映。在梅尔频谱图中，共振峰对应于谱包络的显著频率分量。我们在生成器中嵌入辅助分类器，通过使用辅助分类器导出的类激活图(class activation maps，cam)，交互注意力模块40用于给不同分类的类别分配不同的权重，类激活图中作为梅尔频谱图的注意力图(特征图的权重)来区分源域和目标域。其中，源域中的特征分配的权重较低，目标域中的特征分配的权重较高，从而能够引导模型关注梅尔频谱图更重要的区域，提高转换效率。
115.另一方面，参见图5，其示出了本技术实施例提供的一种转换模型生成器中自注意力模块的结构示意图。如图5所示，对于自注意力(intra-attention/self-attention)模块50而言，梅尔频谱图是语音信号的二维时频表示，通过加入自注意力机制，能够捕捉梅尔频谱图的时频信息，增加了时域信息和频域信息之间的联系，提高了待转换语音转换之后的目标风格语音的流畅性，也提高合成模型的连贯性，同时也提高模型训练效率。
116.参见图6，其示出了本技术实施例提供的一种转换模型判别器的网络结构示意图。如图6所示，该转换模型判别器包括内容风格解耦模块60，对于内容风格解耦模块60而言，该模块主要是内容风格解耦的感知损失(disentangled perceptual loss)，该模块需要完成两项任务：一方面，需要将非语义信息(即音)从源语音信号传输到目标信号。另一方面，需要保留源语音信号的语义(即内容)。因此，本技术实施例在网络训练过程中，除了对语义内容损失的判别之外，同时在判别器中加入一个额外的内容风格解耦的感知损失来实现对非语义信息转换效果的判别。
117.在一些实施例中，本技术实施例提供了一种端到端的非监督的语音合成系统u-gat-vc(unsupervised generative attentional networks for non-parallel voice conversion)。该系统至少包括以下两个模块：
118.模块一：注意力模块(inter-attention和0intra-attention/self-attention)。
119.注意力模块是为了引导模型快速捕捉梅尔频谱图重要信息，提高模型转换性能，同时提高训练效率，具体如下：
120.(1)inter-attention：音是说话人的语音特征，是由共振峰频率反映。在梅尔频谱图中，共振峰对应于谱包络的显著频率分量。我们在生成器中嵌入辅助分类器，通过使用辅助分类器导出的类激活图(cam)作为梅尔频谱图的注意力图(即特征图的权重)来区分源域和目标域，来引导模型关注梅尔频谱图更重要的区域，提高转换效率。
121.(2)intra-attention/self-attention：梅尔频谱图是语音信号的二维时频表示，通过加入自注意力机制，能够捕捉梅尔频谱图的时频信息，提高合成模型的连贯性，同时也提高模型训练效率。
122.注意力模块是为了引导模型快速捕捉梅尔频谱图重要信息，提高模型转换性能，同时提高训练效率，具体如下：
123.(1)inter-attention：我们在生成器中嵌入辅助分类器，通过使用辅助分类器导出的类激活图(cam)作为梅尔频谱图的注意力图(特征图的权重)来区分源域和目标域，来
引导模型关注：梅尔频谱图更重要的区域，提高转换效率。
124.具体来讲，u-gat-vc转换模型由编码器、解码器和辅助分类器组成，其中辅助分类器ηx(x)表示当前信号来自源域x的概率。通过训练辅助分类器，并且借助于平均池化层(gap)和最大池化层(gmp)来训练得到第k个特征图的权重。注意力特征图可通过以下公式得到：
[0125][0126]
其中，x表示源域，x表示源域里面的单个样本信号，ω表示特征图的权重，n表示特征图的个数。
[0127]
而cam损失l
cam
可通过以下公式得到：
[0128][0129][0130]
其中，y表示目标域，y表示目标域里面的单个样本信号，和表示，当前信号来自源域的期望值。
[0131]
(2)intra-attention/self-attention：将当前特征层x通过f,g和h产生变量query,key和value，然后通过以下公式计算注意力矩阵：
[0132][0133]
其中，i，j表示注意力矩阵的坐标，n表示矩阵的大小，t表示转置矩阵，f,g和h分别表示一个卷积核。
[0134]
在这里，计算带有权重的注意力图s：
[0135]
s＝v(x)(h(x)a
t
)
[0136]
其中，v表示权重函数，h表示价值函数，s乘以一个比例参数即可得到自注意力模块的最终输出。
[0137]
模块二：内容风格解耦的感知损失(disentangled perceptual loss)。
[0138]
在本技术实施例中，引入内容风格解耦的感知损失优化生成器，可以提高语音合成质量；尤其是对于语音中含有重读音的词通过语义和音解耦，实现高质量转换。
[0139]
语音转换模型需要完成两项任务：一方面，需要将非语义信息(包括音、风格等)从源语音信号传输到目标信号。另一方面，需要保留源语音信号的语义(即内容)。因此，本技术实施例在网络训练过程中，在判别器中加入一个额外的内容风格解耦的感知损失来实现这个目标。
[0140]
具体来说，该感知损失l
perc
可以分为两个子损失：内容损失(即前述实施例中的语义损失)l
cont
和风格损失l
sty
，感知损失的计算公式如下：
[0141]
l
perc
＝l
cont
+l
sty
[0142]
在这里，给定一个内容目标(源说话人语音)x，风格目标(目标说话人语音)y，以及模型合成的语音y’，内容损失是通过对感知网络的第三层特征图计算欧氏距离，具体计算如下：
[0143][0144]
风格损失是通过计算感知网络的四层的特征图的gram矩阵的距离得到，具体计算如下：
[0145][0146]
其中，欧式距离，c：通道，h：高，w：宽。gram矩阵,输出和目标语音信号的梅尔频谱图的gram矩阵的欧式frobenius距离
[0147]
通过上述实施例对前述实施例的具体实现进行了详细阐述，从中可以看出，通过前述实施例的技术方案，一方面，本技术实施例提供的转换模型仅需要很少的非平行语料即可训练模型，模型参数少，收敛速度快，合成效果好(在训练集vcc2018中使用频率为22.05khz,窗长为1024的256个源域和目标域语料进行训练，模型参数减少34.69％，训练时长降低34.33％，主客观评价提高)；另一方面，模型转换效果好，解决了含有重读音的词转换效果不佳的问题；又一方面，本技术实施例的效果是可检测的，目前众多语音合成算法在转换时重读音位置并不能恰当的保留，而本技术实施例可以实现在语音转换过程中准确的对含有重读音的单元词进行转换，大幅提高转换后的语音质量。
[0148]
本技术的又一实施例中，基于前述实施例相同的发明构思，参见图7，其示出了本技术实施例提供的一种语音转换装置70的组成结构示意图。如图7所示，所述语音转换装置70可以包括：获取单元701、和转换单元702；其中，
[0149]
获取单元701，配置为获取待转换语音；
[0150]
转换单元702，配置为将所述待转换语音输入到转换模型；以及通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，所述目标风格语音与所述待转换语音的语义信息相同、非语义信息不同。
[0151]
在一些实施例中，转换单元702，具体配置为将所述待转换语音进行拆分，得到至少一个单元词；以及在所述至少一个单元词中，对含有重读音的单元词进行解耦处理，得到语义信息和非语义信息；以及对所述语义信息进行保留以及对所述非语义信息进行转换，以生成所述目标风格语音。
[0152]
在一些实施例中，转换单元702，还配置为确定所述待转换语音的频谱图，并提取所述频谱图中的频域特征信息；以及对所述频域特征信息进行特征分类，确定至少一类频域特征；以及对归属所述语义信息的频域特征分配第一类权重；对归属所述非语义信息的频域特征分配第二类权重；其中，所述第一类权重小于所述第二类权重；以及将进行权重分配之后的频谱图确定为类激活图。
[0153]
在一些实施例中，转换单元702，还配置为对所述类激活图中的频域特征进行转换，得到时频特征信息；以及使用自注意力模块对所述时频特征信息进行卷积处理，以生成所述目标风格语音。
[0154]
在上述方案中，参见图7，所述语音转换装置70还包括训练单元703，配置为获取样本集；其中，所述样本集包括原始样本集和目标样本集，所述原始样本集包括至少一条转换前的原始样本语音，所述目标样本集包括至少一条转换后的目标样本语音；以及根据所述
至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音对卷积模型进行训练，得到所述转换模型；其中，所述卷积模型包括自注意力模块和内容风格解耦模块。
[0155]
在一些实施例中，训练单元703，具体配置为将所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音通过编码器进行编码处理，得到所述原始样本语音和目标样本语音对应的第一训练特征信息；以及使用所述交互注意力模块对所述第一训练特征信息进行特征分类，并对所述分类得到的至少一类训练频域特征进行权重分配，确定类激活图；以及对所述类激活图通过解码器进行解码处理，得到所述转换模型。
[0156]
在一些实施例中，训练单元703，具体配置为对所述类激活图中的频域特征进行转换，得到第二训练特征信息；以及使用所述自注意力模块对所述第二训练特征信息进行卷积模型训练，得到所述转换模型。
[0157]
在一些实施例中，训练单元703，还配置为将待验证语音输入到所述转换模型，生成验证转换语音；以及使用所述内容风格解耦模块对所述待验证语音和所述验证转换语音进行解耦处理，得到语义信息和非语义信息；以及对所述待验证语音和所述验证转换语音的语义信息进行一致性计算，确定语义损失值；以及对所述验证转换语音和所述目标风格语音的非语义信息进行感知损失判断，确定风格损失值；以及在所述语义损失值和风格损失值收敛的情况下，确定所述模型训练完成。
[0158]
可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0159]
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有语音转换程序，所述语音转换程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
[0161]
基于上述语音转换装置70的组成以及计算机存储介质，参见图8，其示出了本技术实施例提供的一种电子设备的具体硬件结构示意图。如图8所示，可以包括：通信接口801、存储器802和处理器803；各个组件通过总线系统804耦合在一起。可理解，总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统804。其中，通信接口801，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；
[0162]
存储器802，用于存储能够在处理器803上运行的计算机程序；
[0163]
处理器803，用于在运行所述计算机程序时，执行：
[0164]
获取待转换语音；
[0165]
将所述待转换语音输入到转换模型；
[0166]
通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；
[0167]
其中，所述目标风格语音与所述待转换语音的语义信息相同、非语义信息不同。
[0168]
可以理解，本技术实施例中的存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步链动态随机存取存储器(synchronous link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的系统和方法的存储器802旨在包括但不限于这些和任意其它适合类型的存储器。
[0169]
而处理器803可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器803中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器803可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802，处理器803读取存储器802中的信息，结合其硬件完成上述方法的步骤。
[0170]
可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dsp device，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0171]
对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0172]
可选地，作为另一个实施例，处理器803还配置为在运行所述计算机程序时，执行前述实施例中任一项所述的方法的步骤。
[0173]
在一些实施例中，参见图9，其示出了本技术实施例提供的一种电子设备80的组成结构示意图。如图9所示，该电子设备80至少包括前述实施例中任一项所述的语音转换装置70。
[0174]
在本技术实施例中，对于电子设备80而言，通过获取待转换语音；将待转换语音输入到转换模型；通过转换模型对待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，目标风格语音与待转换语音的语义信息相同、非语义信息不同。这样，通过转换模型进行待转换语音的转换，不仅能够提高语音合成质量，而且该转换模型无需引入额外的模型参数，还能够提高模型的转换性能；另外，对于语义信息和非语义信息的解耦，还能够实现高质量转换。
[0175]
需要说明的是，在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0176]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0177]
本技术所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。
[0178]
本技术所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。
[0179]
本技术所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。
[0180]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

技术特征：

1.一种语音转换方法，所述方法包括：获取待转换语音；将所述待转换语音输入到转换模型；通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，所述目标风格语音与所述待转换语音的语义信息相同、非语义信息不同。2.根据权利要求1所述的方法，所述通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦，并分别对语义信息和非语义信息进行转换处理，以生成目标风格语音，包括：将所述待转换语音进行拆分，得到至少一个单元词；在所述至少一个单元词中，对含有重读音的单元词进行解耦处理，得到语义信息和非语义信息；对所述语义信息进行保留以及对所述非语义信息进行转换，以生成所述目标风格语音。3.根据权利要求1所述的方法，在所述将所述待转换语音输入到转换模型之后，所述方法还包括：确定所述待转换语音的频谱图，并提取所述频谱图中的频域特征信息；对所述频域特征信息进行特征分类，确定至少一类频域特征；对归属所述语义信息的频域特征分配第一类权重；对归属所述非语义信息的频域特征分配第二类权重；其中，所述第一类权重小于所述第二类权重；将进行权重分配之后的频谱图确定为类激活图。4.根据权利要求3所述的法，所述方法还包括：对所述类激活图中的频域特征进行转换，得到时频特征信息；使用自注意力模块对所述时频特征信息进行卷积处理，以生成所述目标风格语音。5.根据权利要求1所述的方法，所述方法还包括：获取样本集；其中，所述样本集包括原始样本集和目标样本集，所述原始样本集包括至少一条转换前的原始样本语音，所述目标样本集包括至少一条转换后的目标样本语音；根据所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音对卷积模型进行训练，得到所述转换模型；其中，所述卷积模型包括自注意力模块和内容风格解耦模块。6.根据权利要求5所述的方法，所述自注意力模块包括交互注意力模块，所述根据所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音进行模型训练，得到所述转换模型，包括：将所述至少一条转换前的原始样本语音和所述至少一条转换后的目标样本语音通过编码器进行编码处理，得到所述原始样本语音和目标样本语音对应的第一训练特征信息；使用所述交互注意力模块对所述第一训练特征信息进行特征分类，并对所述分类得到的至少一类训练频域特征进行权重分配，确定类激活图；对所述类激活图通过解码器进行解码处理，得到所述转换模型。7.根据权利要求6所述的方法，所述自注意力模块包括自注意力模块，所述对所述类激
活图通过解码器进行解码处理，得到所述转换模型，包括：对所述类激活图中的频域特征进行转换，得到第二训练特征信息；使用所述自注意力模块对所述第二训练特征信息进行卷积模型训练，得到所述转换模型。8.根据权利要求5至7任一项所述的方法，所述得到所述转换模型之后，所述方法还包括：将待验证语音输入到所述转换模型，生成验证转换语音；使用所述内容风格解耦模块对所述待验证语音和所述验证转换语音进行解耦处理，得到语义信息和非语义信息；对所述待验证语音和所述验证转换语音的语义信息进行一致性计算，确定语义损失值；对所述验证转换语音和所述目标风格语音的非语义信息进行感知损失判断，确定风格损失值；在所述语义损失值和风格损失值收敛的情况下，确定所述模型训练完成。9.一种语音转换装置，包括：获取单元，配置为获取待转换语音；转换单元，配置为将所述待转换语音输入到转换模型；以及通过所述转换模型对所述待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，所述目标风格语音与所述待转换语音的语义信息相同、非语义信息不同。10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；其中，所述存储器，用于存储能够在所述处理器上运行的计算机程序；所述处理器，用于在运行所述计算机程序时，执行如权利要求1至8任一项所述的方法。

技术总结

本申请公开了一种语音转换方法、装置以及设备，该方法包括：获取待转换语音；将待转换语音输入到转换模型；通过转换模型对待转换语音的语义信息和非语义信息进行解耦处理，以及分别对语义信息和非语义信息进行转换处理，以生成目标风格语音；其中，目标风格语音与待转换语音的语义信息相同、非语义信息不同。非语义信息不同。非语义信息不同。