混合语音的合成方法、系统、电子设备及介质与流程

1.本发明涉及语音处理技术领域，特别涉及一种混合语音的合成方法、系统、电子设备及介质。

背景技术：

2.语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音，目前单语言的语音合成技术已经比较成熟，而对于混合语音的合成技术的研究还不成熟，例如中英文混合语音。随着全球化的发展，国际交流越加频繁，很多场景会出现混合语音的情况，然而目前缺少同一种音能流利的说不同语言的数据集，从而难以训练得到混合语音的合成模型。因此，如何在保持说话人一致性的条件下，用单语言数据建立多说话人、多语言的语言合成系统是一个难题。

技术实现要素：

3.本发明要解决的技术问题是为了克服现有技术中由于缺少混合语音的数据而导致混合语音的合成难度大的缺陷，提供一种混合语音的合成方法、系统、电子设备及介质。
4.本发明是通过下述技术方案来解决上述技术问题：
5.根据本发明的第一方面，提供一种混合语音的合成方法，所述合成方法包括：
6.根据待合成文本生成对应国际音标的待合成文本向量；
7.获取目标说话人的目标声纹特征；
8.将所述待合成文本向量和所述目标声纹特征输入语音合成模型，得到所述待合成文本对应的合成音频；所述语音合成模型包括声学模型和声码器模型，所述声学模型基于变分自编码器构成，所述声学模型的输出与所述声码器模型的输入连接。
9.较佳地，所述声学模型包括文本编码器、第一全连接层、对齐搜索器、时长预测器、解码器、第二全连接层和第一判别器；所述声学模型利用训练文本向量、训练声纹特征和训练声学特征训练得到，包括：
10.采用所述文本编码器从所述训练文本向量中提取训练文本特征；
11.采用所述第一全连接层将所述训练文本特征和所述训练声纹特征处理为对应文本特征和声纹特征的第一隐变量，其中，隐变量为多维高斯分布的均值和方差；
12.采用所述对齐搜索器建立所述第一隐变量与所述训练声学特征之间的对应关系；
13.采用所述时长预测器根据所述训练文本特征、所述训练声纹特征和所述对应关系预测时长信息；其中，所述时长信息还用于在推理预测阶段时反向输入至所述对齐搜索器以学习所述对应关系；
14.采用所述解码器根据所述对应关系将所述第一隐变量转换成对应声学特征的第二隐变量；
15.采用所述第二全连接层将所述第二隐变量处理为合成声学特征；
16.采用所述第一判别器计算所述合成声学特征与所述训练声学特征的第一损失度，
并在所述第一损失度不满足第一预设条件时进行迭代处理，直至所述第一损失度满足所述第一预设条件以得到所述声学模型。
17.较佳地，所述声码器模型包括生成器和第二判别器，所述声码器模型利用所述声学模型输出的合成声学特征、训练声纹特征和训练音频训练得到，包括：
18.采用所述生成器将所述合成声学特征转换为对应所述训练声纹特征的合成音频；
19.采用所述第二判别器计算所述合成音频与所述训练音频的第二损失度，并在所述第二损失度不满足第二预设条件时进行迭代处理，直至所述第二损失度满足所述第二预设条件以得到所述声码器模型。
20.较佳地，所述根据待合成文本生成对应国际音标的待合成文本向量的步骤包括：
21.对所述待合成文本进行正则化处理；
22.根据国际音标发音字典将正则化处理后的待合成文本转换为对应国际音标的音素；
23.通过embedding(嵌入)层将所述音素转换成对应的所述待合成文本向量。
24.根据本发明的第二方面，提供一种混合语音的合成系统，所述合成系统包括生成模块、获取模块和语音合成模块：
25.生成模块，用于根据待合成文本生成对应国际音标的待合成文本向量；
26.获取模块，用于获取目标说话人的目标声纹特征；
27.语音合成模块，用于将所述待合成文本向量和所述目标声纹特征输入语音合成模型，得到所述待合成文本对应的合成音频；所述语音合成模型包括声学模型和声码器模型，所述声学模型基于变分自编码器构成，所述声学模型的输出与所述声码器模型的输入连接。
28.较佳地，所述声学模型包括文本编码器、第一全连接层、对齐搜索器、时长预测器、解码器、第二全连接层和第一判别器；所述合成系统还包括声学模型训练模块，所述声学模型训练模块用于利用训练文本向量、训练声纹特征和训练声学特征训练得到所述声学模型；
29.所述声学模型训练模块包括编码单元、第一处理单元、对齐单元、时长预测单元、解码单元、第二处理单元和声学模型获取单元：
30.编码单元，用于采用所述文本编码器从所述训练文本向量中提取训练文本特征；
31.第一处理单元，用于采用所述第一全连接层将所述训练文本特征和所述训练声纹特征处理为对应文本特征和声纹特征的第一隐变量，其中，隐变量为多维高斯分布的均值和方差；
32.对齐单元，用于采用所述对齐搜索器建立所述第一隐变量与所述训练声学特征之间的对应关系；
33.时长预测单元，用于采用所述时长预测器根据所述训练文本特征、所述训练声纹特征和所述对应关系预测时长信息；其中，所述时长信息还用于在推理预测阶段时反向输入至所述对齐搜索器以学习所述对应关系；
34.解码单元，用于采用所述解码器根据所述对应关系将所述第一隐变量转换成对应声学特征的第二隐变量；
35.第二处理单元，用于采用所述第二全连接层将所述第二隐变量处理为合成声学特
征；
36.声学模型获取单元，用于采用所述第一判别器计算所述合成声学特征与所述训练声学特征的第一损失度，并在所述第一损失度不满足第一预设条件时进行迭代处理，直至所述第一损失度满足所述第一预设条件以得到所述声学模型。
37.较佳地，所述声码器模型包括生成器和第二判别器，所述合成系统还包括声码器模型训练模块，所述声码器模型训练模块用于利用所述声学模型输出的合成声学特征、训练声纹特征和训练音频训练得到所述声码器模型；
38.所述声码器模型训练模块包括音频生成单元和声码器模型获取单元：
39.音频生成单元，用于采用所述生成器将所述合成声学特征转换为对应所述训练声纹特征的合成音频；
40.声码器模型获取单元，用于采用所述第二判别器计算所述合成音频与所述训练音频的第二损失度，并在所述第二损失度不满足第二预设条件时进行迭代处理，直至所述第二损失度满足所述第二预设条件以得到所述声码器模型。
41.较佳地，所述生成模块包括正则化处理单元、第一转换单元和第二转换单元：
42.正则化处理单元，用于对所述待合成文本进行正则化处理；
43.第一转换单元，用于根据国际音标发音字典将正则化处理后的待合成文本转换为对应国际音标的音素；
44.第二转换单元，用于通过embedding层将所述音素转换成对应的所述待合成文本向量。
45.根据本发明的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述的混合语音的合成方法。
46.根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的混合语音的合成方法的步骤。
47.本发明的积极进步效果在于：
48.通过将文本转换为统一国际音标的文本向量，有利于后续混合语音数据的联合训练，同时从训练音频中提取说话人的声纹向量，然后将文本向量和声纹向量输入基于变分自编码器构建的声学模型，最后经声码器模型转换成音频，其中声学模型利用变分自编码器解耦文本向量和声纹向量得到表示文本信息和音信息的混合高斯分布变量，模拟出混合语音数据的效果，解决了因缺少混合语音数据集而导致混合语音的合成模型训练困难的问题，有效提高了混合语音的合成效果。
附图说明
49.图1为本发明实施例1的混合语音的合成方法的流程示意图。
50.图2为本发明实施例1的混合语音的合成方法的步骤s11的流程示意图。
51.图3为本发明实施例1的混合语音的合成方法的框架示意图。
52.图4为本发明实施例2的混合语音的合成方法中训练语音合成模型的流程示意图。
53.图5为本发明实施例2的混合语音的合成方法中训练声学模型的框架示意图。
54.图6为本发明实施例2的混合语音的合成方法的声学模型的fft block的结构示意
73.在实际应用时，存在中文拼音和英文单词共存的情况，例如“shanghai museum”，如不做处理，“shanghai”将被认为是一个单词，按照英文的发音习惯进行发音，显然不符合实际的使用场景，本实施例使用设计的拼音单词动态匹配算法匹配单词和拼音，比如对于待合成文本中出现的字母组合，首先需要经过设计的拼音字典进行动态匹配，若能够完整匹配出，则认为该“单词”为拼音，例如上述的“shanghai”会被匹配为“shang hai”，使其按照中文的发音习惯进行发音。又比如缩写单词的发音，例如“dr”实际上应该是按照“doctor”进行发音，在经过设计的拼音字典进行动态匹配后，还需要经过设计的单词字典进行动态匹配，比如将“dr”扩展成“doctor”等。
74.作为可选的一种实施方式，在经过上述处理后，将待合成文本中的所有汉字转换为带音调的拼音，例如“你好”转为“ni3 hao3”，其中“ni”表示拼音音节，数字“3”表示“ni”对应的音调信息。
75.s112、根据国际音标发音字典将正则化处理后的待合成文本转换为对应国际音标的音素。
76.在本实施例中，处理后的待合成文本包括拼音和单词，根据国际音标发音字典与中英文的对照关系，将拼音和单词转换成国际音标，再将国际音标转换为音素。其中，国际音标是一套用来标音的系统，遵循“一音一符，一符一音”的原则，目前已经有分别针对汉语拼音和英文单词的国际音标发音字典。比如拼音“ni3 hao3”转换为“[n]”、“[i]3”、“[x]”、单词“hello”转换为“[h]”、“[l]”、
[0077]
s113、通过embedding层将音素转换成对应的待合成文本向量。
[0078]
文本向量具体是embedding向量，embedding是指将离散变量转变为连续向量。作为可选的一种实施方式，预先建立不同音素建立对应数字序列的音素字典，通过该音素字典能够将待合成文本转换为一个数字序列，然后通过一个embedding层将数字序列转换为后续语音合成模型能够处理的文本向量。
[0079]
s12、获取目标说话人的目标声纹特征。
[0080]
作为可选的一种实施方式，可以选择输出语音的人声，也即目标说话人，使用声纹模型提取目标说话人的目标声纹特征，声纹模型可以直接与后续的语音合成模型进行拼接，比如使用ecapa-tdnn声纹模型，该模型维度为256维。具体地，获取目标说话人若干条的历史说话音频，使用声纹模型提取每条历史说话音频的声纹特征，再对所有历史说话音频的声纹特征进行计算，作为可选的一种实施方式，取平均值作为目标说话人的目标声纹特征，使得后续输出的合成音频以目标说话人的音和口音进行发音。
[0081]
作为可选的一种实施方式，在声纹模型和语音合成模型之间还连接一全连接层，全连接层用于对声纹特征进行组合和分类，从而进一步提高目标声纹特征的质量，使其能够为后续的语音合成模型处理。
[0082]
s13、将待合成文本向量和目标声纹特征输入语音合成模型，得到待合成文本对应的合成音频。
[0083]
其中，语音合成模型包括声学模型和声码器模型，声学模型基于变分自编码器构成，声学模型的输出与声码器模型的输入连接。
[0084]
在本实施例中，步骤s13具体包括将待合成文本向量和目标声纹特征输入到声学模型，得到声学特征，然后再将声学特征和目标声纹特征输出到声码器模型，得到待合成文
本对应的合成音频两个过程。
[0085]
在本实施例中，声学模型采用vae(变分自编码器)的结构进行建模，变分自编码器可以简单概况为一个encoder-decoder的网络结构，数据经过encoder部分进行编码，得到隐变量，再通过decoder解码还原出原数据。其中，隐变量可以看成无穷个独立高斯分布变量混合而成，在本实施例中，隐变量中的某个高斯分布变量可以表示音信息，某个高斯分布变量可以表示文本信息，从而完美的将音信息和文本信息解耦开来，作为可选的一种实施方式，待合成文本向量用于提取文本信息，目标声纹特征用于提取音信息。当然，本实施例中的高斯分布变量并不限于上述的音信息和文本信息。
[0086]
下面举例说明，假设x为数据，z为高斯分布变量(也即隐变量)，p(z)表示从高斯分布(常用标准正态分布)中随机采样得到高斯分布变量z的概率，p(x|z)当输入高斯分布变量z时，输出数据x的概率。可以得到数据x的概率分布p(x)为：
[0087]
p(x)＝∫p(z)p(x|z)dz
[0088]
其中，x|z～n(μ(z),σ(z))，μ(z)为对应到高斯分布的均值，σ(z)为对应到高斯分布的方差，n为参数，该参数可以通过神经网络拟合。本实施例是指将文本信息和音信息映射为高斯分布的均值和方差，进而通过均值和方差得到表示音信息和文本信息的高斯分布变量。
[0089]
作为可选的一种实施方式，声学模型联合中文数据和英文数据进行训练，其中，只说中文的数据和只说英文的数据是非常容易获取的，本实施例使用的数据集包括开源英文数据集和版权中文数据集。作为可选的一种实施方式，开源英文数据集为vctk数据集，本实施例使用了其中的共60说话人数据，说话人数据包括说话人的音频数据和文本数据。作为可选的一种实施方式，版权中文数据集主要从电商平台的酒店客服以及酒店商家的通话记录中统计得到；文本数据对应的音频数据为专门的人工客服在录音棚中录制得到。例如，总共录制了10000条16khz的音频，音频总时长约10小时，每条音频对应的文本由专门的人工进行处理。
[0090]
在本实施例中，声学模型通过变分自编码器将音信息和文本信息解耦开，让中文说话人说英文，让英文说话人说中文，从而模拟出中英文混合数据的效果，使得同一种音既能流利说中文，也能流利说英文。
[0091]
本实施例中的声学特征主要使用80维梅尔谱，作为可选的一种实施方式，声学特征包括但不限于梅尔谱特征。
[0092]
作为可选的一种实施方式，声学模型在训练时，使用的服务器为英伟达生产的v100 gpu，batch size(批量大小)设置为32。
[0093]
作为可选的一种实施方式，声码器模型可以直接采用hifigan模型或melgan模型等，也可以基于生成式对抗网络构建声码器模型，再与声学模型进行联合训练。声码器模型主要包括生成器和判别器，作为可选的一种实施方式，生成器使用全卷积网络，通过反卷积进行上采样，可以在gpu上并行计算，大大提升了模型推理速度，判别器包括多尺度判别器和多周期判别器，可以更好的区分合成音频和真实音频，其中多周期判别器用于识别音频中不同的周期信号，多尺度判别器用于判别音频合成的好坏。
[0094]
图3示出了本实施例一种混合语音的合成方法的框架示意图，主要包括对输入的文本进行前端处理以得到文本向量，利用声纹模型从训练音频中提取说话人的声纹特征，
将文本向量与声纹特征输入到声学模型以输出声学特征，再将声学模型输出的声学特征和说话人的声纹特征拼接输入至声码器(声码器模型)，并输出音频。
[0095]
在本实施例中，通过将文本转换为统一国际音标的文本向量，有利于后续混合语音数据的联合训练，同时从训练音频中提取说话人的声纹向量，然后将文本向量和声纹向量输入基于变分自编码器构建的声学模型，最后经声码器模型转换成音频，其中声学模型利用变分自编码器解耦文本向量和声纹向量得到表示文本信息和音信息的混合高斯分布变量，模拟出混合语音数据的效果，解决了因缺少混合语音数据集而导致混合语音的合成模型训练困难的问题，有效提高了混合语音的合成效果。
[0096]
实施例2
[0097]
本实施例的混合语音的合成方法是对实施例1的进一步改进，主要包括语音合成模型在训练阶段的改进，下面主要针对使用中英文训练数据训练语音合成模型来进行说明，如图4所示，混合语音的合成方法中训练语音合成模型的步骤包括：
[0098]
s101、利用训练文本向量、训练声纹特征和训练声学特征训练得到声学模型。
[0099]
在本实施例中，中英文训练数据包括训练音频和训练文本，具体地，中英文训练数据包括中文音频以及对应的中文文本，英文音频以及对应的英文文本，中英文混合的音频以及对应的中英文混合文本。
[0100]
作为可选的一种实施方式，由于只说中文的数据和只说英文的数据是非常容易获取的，本实施例使用的中英文训练数据主要包括开源英文数据集和版权中文数据集，然后根据训练文本生成对应国际音标的训练文本向量，从训练音频中提取声学特征，以及从训练音频中获取同一说话人的训练声纹特征。
[0101]
其中，生成训练文本向量和获取训练声纹特征的步骤与实施例1中生成待合成文本向量和获取目标声纹特征的步骤一致。
[0102]
参见图5，声学模型的结构主要包括文本编码器、第一全连接层、对齐搜索器、时长预测器、解码器、第二全连接层和第一判别器。其中，文本编码器和解码器的结构均为transformer(自注意力网络)结构，作为可选的一种实施方式，transformer(自注意力网络)结构包括若干个fft block，如图6所示，fft block主要由multi-head attention模块组成，multi-head attention模块层连接cnn卷积层(用于提取特征)和add&norm全连接层(用于残差连接和层归一化操作)，层之间使用layer normalization(对一个样本同一层所有神经元进行标准化)。
[0103]
参见图7，步骤s101具体包括以下步骤：
[0104]
s1011、采用文本编码器从训练文本向量中提取训练文本特征。
[0105]
s1012、采用第一全连接层将训练文本特征和训练声纹特征处理为对应文本特征和声纹特征的第一隐变量，其中，隐变量为多维高斯分布的均值和方差。
[0106]
s1013、采用对齐搜索器建立第一隐变量与训练声学特征之间的对应关系。
[0107]
s1014、采用时长预测器根据训练文本特征、训练声纹特征和对应关系预测时长信息。
[0108]
其中，时长信息还用于在推理预测阶段时反向输入至对齐搜索器以学习对应关系。
[0109]
s1015、采用解码器根据对应关系将第一隐变量转换成对应声学特征的第二隐变
量。
[0110]
s1016、采用第二全连接层将第二隐变量处理为合成声学特征。
[0111]
s1017、采用第一判别器计算合成声学特征与训练声学特征的第一损失度，并在第一损失度不满足第一预设条件时进行迭代处理，直至第一损失度满足第一预设条件以得到声学模型。
[0112]
在本实施例中，训练文本向量作为文本编码器的输入，经过文本编码器后再和训练声纹特征进行拼接，作为第一全连接层和时长预测器的输入，经过第一全连接层后得到对应文本特征和声纹特征的隐变量(高斯分布的均值和方差)，将该隐变量输入到对齐搜索器，对齐搜索器用于对齐文本分布到音频分布的映射，时长预测器用于学习文本向量映射到声学特征的时长。
[0113]
其中，对齐搜索器包括多种可选的对齐搜索算法，作为可选的一种实施方式，对齐搜索器采用mas(monotonic alignment search单调对齐搜索)算法。
[0114]
在训练阶段时，对齐搜索器得到音频时间帧和文本字符的映射关系，为训练时长预测器提供无监督时长标签，为了防止训练时长预测器时影响到其它部分，作为可选的一种实施方式，对时长预测器进行梯度中断处理。而在预测推理阶段时，对齐搜索器根据时长预测器提供的时长信息和对应文本特征和声纹特征的隐变量将文本和合成音频一一对齐，通过解码器得到对应声学特征的隐变量，再经过第二全连接层后得到合成声学特征。
[0115]
在训练阶段时，将合成声学特征和训练声学特征输入到第一判别器中，作为可选的一种实施方式，通过观察loss值来判别声学模型是否完成训练，loss值包括但不限于mse损失，mse损失越小越好，而在预测推理阶段时，则不需要再使用第一判别器。
[0116]
作为可选的一种实施方式，第一判别器同时通过计算mcd(mel cepstral distance梅尔-倒谱距离)来客观判别声学模型合成音频的质量好坏，mcd量化了两个声学特征之间的失真，在计算mcd值时，需要把训练音频和合成音频的声学特征序列对齐，其计算公式如下：
[0117][0118]
其中，y表示真实音频提取的声学特征(训练声学特征)，y’表示合成音频提取的声学特征(合成声学特征)。
[0119]
作为可选的一种实施方式，声学模型迭代训练十万次后，开始在验证集上进行测试，其中，验证集同样包括中英文音频和对应的中英文文本，每迭代一万次进行测试一次，观察loss(损失度)的下降趋势，并且查看文本信息和声学特征的对齐效果。例如，当总共训练了40万次，loss基本不再下降，文本和声学特征完美的对齐，则确定模型收敛，达到预期效果，此时获取到声学模型。
[0120]
s102、利用声学模型输出的合成声学特征、训练声纹特征和训练音频训练得到声码器模型。
[0121]
其中，声码器模型包括生成器和第二判别器，作为可选的一种实施方式，生成器和第二判别器均采用采用全卷积的网络结构，即包括多个依次连接的cnn网络，可以接受任意长度的声学特征输入，输出任意长度的音频，即不受声学特征输入的长度以及输出音频的长度的限制，能够满足更高的实际使用需求。如图8所示，步骤s102具体包括以下步骤：
[0122]
s1021、采用生成器将合成声学特征转换为对应训练声纹特征的合成音频。
[0123]
s1022、采用第二判别器计算合成音频与训练音频的第二损失度，并在第二损失度不满足第二预设条件时进行迭代处理，直至第二损失度满足第二预设条件以得到声码器模型。
[0124]
由于判别器计算的标准与人们主观感受到的音质有一定的差距，作为可选的一种实施方式，对于合成音频的评判还包括主观评测，例如根据mos测评标准，对合成音频进行人工打分测评。
[0125]
作为可选的一种实施方式，让被试听者分别听取测试音频和合成音频，按照1到5分进行打分，其中5分表示合成音频与测试音频最相似，且音质最好，1分为最差，然后计算平均值作为mos分。
[0126]
通过本实施例的混合语音的合成方法得到的合成音频，按照mos测评标准，mos分达到4.43分，高于现有的其他混合语音合成模型。另外，本实施例的语音合成模型在gpu上rtf可以达到0.028，在cpu上rtf可以达到0.11，其中，rtf用于表征合成音频的效率，其计算公式如下：
[0127][0128]
本实施例基于变分自编码器的结构搭建声学模型，摒弃了传统的残差连接结构，在简化了网络结构的同时，提升了数据处理速率。另外，对声学模型和声码器模型进行联合训练，在保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足语音机器人使用大量外呼的实时需求。
[0129]
实施例3
[0130]
本实施例提供一种混合语音的合成系统，如图9所示，该合成系统包括生成模块11、获取模块12、语音合成模块13。
[0131]
生成模块11用于根据待合成文本生成对应国际音标的待合成文本向量。其中，待合成文本可以是单一语种的文本，比如中文、英语、日语等不同国家或地区的语种，也可以是多语种混杂的文本，例如“春树coffee bar”。本实施例的合成系统不仅支持多语言混合语音的合成，同样也支持单语言语音的合成。
[0132]
下面主要针对中英文混合的待合成文本进行说明，在进行语音合成前，需要对待合成文本进行一些前端处理，如图10所示，生成模块11包括正则化处理单元111、第一转换单元112和第二转换单元113。
[0133]
正则化处理单元111用于对待合成文本进行正则化处理。其中，正则化处理包括去除待合成文本的乱码和非标准标点符号，将待合成文本的阿拉伯数字和符号转换为对应的发音汉字或单词，使用多音字模型预测多音字的发音，使用韵律预测模型预测韵律停顿，使用设计的拼音单词动态匹配算法匹配单词和拼音，将汉字转为拼音等等。
[0134]
作为可选的一种实施方式，乱码是指一些无意义的字符或者是符号等，比如“@#￥”或者是表情符号等；正则化处理单元111在去除非标准标点符号时，仅保留逗号、句号和问号这三种标点符号，将其余标点符号删除，对于中文格式的标点符号，正则化处理单元111还需要进一步的将这三种标点符号转为英文格式的标点符号。
[0135]
作为可选的一种实施方式，正则化处理单元111将中文文本中的阿拉伯数字和符号转换为对应的发音汉字时，考虑到数字在不同的场景中发音不同，将阿拉伯数字和符号按照实际场景读法转换成不同的汉字，例如：“现在是2：02”应转为“现在是两点零三分”，“房价为203元”应转为“房价为二百零三元”，“房间号203”应转为“房间号二零三”等等。
[0136]
作为可选的一种实施方式，如果是夹杂在英文文本中的阿拉伯数字，则应该转换为单词，例如“203dollars”应转换为“two hundred and three dollars”[0137]
在实际应用时，存在中文拼音和英文单词共存的情况，例如“shanghai museum”，如不做处理，“shanghai”将被认为是一个单词，按照英文的发音习惯进行发音，显然不符合实际的使用场景，正则化处理单元111使用设计的拼音单词动态匹配算法匹配单词和拼音，比如对于待合成文本中出现的字母组合，首先需要经过设计的拼音字典进行动态匹配，若能够完整匹配出，则认为该“单词”为拼音，例如上述的“shanghai”会被匹配为“shang hai”，使其按照中文的发音习惯进行发音。又比如缩写单词的发音，例如“dr”实际上应该是按照“doctor”进行发音，在经过设计的拼音字典进行动态匹配后，还需要经过设计的单词字典进行动态匹配，比如将“dr”扩展成“doctor”等。
[0138]
作为可选的一种实施方式，在经过上述处理后，正则化处理单元111将待合成文本中的所有汉字转换为带音调的拼音，例如“你好”转为“ni3 hao3”，其中“ni”表示拼音音节，数字“3”表示“ni”对应的音调信息。
[0139]
第一转换单元112用于根据国际音标发音字典将正则化处理后的待合成文本转换为对应国际音标的音素。在本实施例中，处理后的待合成文本包括拼音和单词，第一转换单元112根据国际音标发音字典与中英文的对照关系，将拼音和单词转换成国际音标，第一转换单元112再将国际音标转换为音素。其中，国际音标是一套用来标音的系统，遵循“一音一符，一符一音”的原则，目前已经有分别针对汉语拼音和英文单词的国际音标发音字典。比如拼音“ni3 hao3”转换为“[n]”、“[i]3”、“[x]”、单词“hello”转换为“[h]”、“[l]”、
[0140]
第二转换单元113用于通过embedding层将音素转换成对应的待合成文本向量。文本向量具体是embedding向量，embedding是指将离散变量转变为连续向量。作为可选的一种实施方式，预先建立不同音素建立对应数字序列的音素字典，通过该音素字典能够将待合成文本转换为一个数字序列，然后第二转换单元113通过一个embedding层将数字序列转换为后续语音合成模型能够处理的文本向量。
[0141]
获取模块12用于获取目标说话人的目标声纹特征。作为可选的一种实施方式，可以选择输出语音的人声，也即目标说话人，获取模块12使用声纹模型提取目标说话人的目标声纹特征，声纹模型可以直接与后续的语音合成模型进行拼接，比如使用ecapa-tdnn声纹模型，该模型维度为256维。具体地，获取模块12获取目标说话人若干条的历史说话音频，使用声纹模型提取每条历史说话音频的声纹特征，获取模块12再对所有历史说话音频的声纹特征进行计算，作为可选的一种实施方式，获取模块12取平均值作为目标说话人的目标声纹特征，使得后续输出的合成音频以目标说话人的音和口音进行发音。
[0142]
作为可选的一种实施方式，获取模块12在声纹模型和语音合成模型之间还连接一全连接层，全连接层用于对声纹特征进行组合和分类，从而进一步提高目标声纹特征的质
量，使其能够为后续的语音合成模型处理。
[0143]
语音合成模块13用于将待合成文本向量和目标声纹特征输入语音合成模型，得到待合成文本对应的合成音频。其中，语音合成模型包括声学模型和声码器模型，声学模型基于变分自编码器构成，声学模型的输出与声码器模型的输入连接。
[0144]
在本实施例中，语音合成模块13用于将待合成文本向量和目标声纹特征输入到声学模型，得到声学特征，然后语音合成模块13再将声学特征和目标声纹特征输出到声码器模型，得到待合成文本对应的合成音频。
[0145]
在本实施例中，声学模型采用vae(变分自编码器)的结构进行建模，变分自编码器可以简单概况为一个encoder-decoder的网络结构，数据经过encoder部分进行编码，得到隐变量，再通过decoder解码还原出原数据。其中，隐变量可以看成无穷个独立高斯分布变量混合而成，在本实施例中，隐变量中的某个高斯分布变量可以表示音信息，某个高斯分布变量可以表示文本信息，从而完美的将音信息和文本信息解耦开来，作为可选的一种实施方式，待合成文本向量用于提取文本信息，目标声纹特征用于提取音信息。当然，本实施例中的高斯分布变量并不限于上述的音信息和文本信息。
[0146]
下面举例说明，假设x为数据，z为高斯分布变量(也即隐变量)，p(z)表示从高斯分布(常用标准正态分布)中随机采样得到高斯分布变量z的概率，p(x|z)当输入高斯分布变量z时，输出数据x的概率。可以得到数据x的概率分布p(x)为：
[0147]
p(x)＝∫p(z)p(x|z)dz
[0148]
其中，x|z～n(μ(z),
°
(z))，μ(z)为对应到高斯分布的均值，σ(z)为对应到高斯分布的方差，n为参数，该参数可以通过神经网络拟合。声学模型训练模块101是指将文本信息和音信息映射为高斯分布的均值和方差，进而通过均值和方差得到表示音信息和文本信息的高斯分布变量。
[0149]
在本实施例中，声学模型通过变分自编码器将音信息和文本信息解耦开，让中文说话人说英文，让英文说话人说中文，从而模拟出中英文混合数据的效果，使得同一种音既能流利说中文，也能流利说英文。
[0150]
本实施例中的声学特征主要使用80维梅尔谱，作为可选的一种实施方式，声学特征包括但不限于梅尔谱特征。
[0151]
作为可选的一种实施方式，声学模型在训练时，使用的服务器为英伟达生产的v100 gpu，batch size(批量大小)设置为32。
[0152]
作为可选的一种实施方式，声码器模型可以直接采用hifigan模型或melgan模型等，也可以基于生成式对抗网络构建声码器模型，再与声学模型进行联合训练。声码器模型主要包括生成器和判别器，作为可选的一种实施方式，生成器使用全卷积网络，通过反卷积进行上采样，可以在gpu上并行计算，大大提升了模型推理速度，判别器包括多尺度判别器和多周期判别器，可以更好的区分合成音频和真实音频，其中多周期判别器用于识别音频中不同的周期信号，多尺度判别器用于判别音频合成的好坏。
[0153]
在本实施例中，通过将文本转换为统一国际音标的文本向量，有利于后续混合语音数据的联合训练，同时从训练音频中提取说话人的声纹向量，然后将文本向量和声纹向量输入基于变分自编码器构建的声学模型，最后经声码器模型转换成音频，其中声学模型利用变分自编码器解耦文本向量和声纹向量得到表示文本信息和音信息的混合高斯分
布变量，模拟出混合语音数据的效果，解决了因缺少混合语音数据集而导致混合语音的合成模型训练困难的问题，有效提高了混合语音的合成效果。
[0154]
实施例4
[0155]
本实施例的混合语音合成系统是对实施例3的进一步改进，主要包括语音合成模型在训练阶段的改进，下面主要针对使用中英文训练数据训练语音合成模型来进行说明，如图9所示，该合成系统还包括声学模型训练模块101和声码器模型训练模块102。
[0156]
实际应用中，混合语音的合成系统还用于训练语音合成模型，如图9所示，该合成系统还包括声学模型训练模块101和声码器模型训练模块102。
[0157]
声学模型训练模块101用于利用训练文本向量、训练声纹特征和训练声学特征训练得到声学模型。
[0158]
在本实施例中，中英文训练数据包括训练音频和训练文本，具体地，中英文训练数据包括中文音频以及对应的中文文本，英文音频以及对应的英文文本，中英文混合的音频以及对应的中英文混合文本。声学模型训练模块101根据训练文本生成对应国际音标的训练文本向量，声学模型训练模块101从训练音频中提取声学特征，以及声学模型训练模块101从训练音频中获取同一说话人的训练声纹特征。
[0159]
作为可选的一种实施方式，声学模型训练模块101联合中文数据和英文数据进行训练，其中，只说中文的数据和只说英文的数据是非常容易获取的，声学模型训练模块101使用的数据集包括开源英文数据集和版权中文数据集。作为可选的一种实施方式，开源英文数据集为vctk数据集，声学模型训练模块101使用了其中的共60说话人数据，说话人数据包括说话人的音频数据和文本数据。作为可选的一种实施方式，版权中文数据集主要从电商平台的酒店客服以及酒店商家的通话记录中统计得到；文本数据对应的音频数据为专门的人工客服在录音棚中录制得到。例如，总共录制了10000条16khz的音频，音频总时长约10小时，每条音频对应的文本由专门的人工进行处理。
[0160]
参见图5，声学模型的结构主要包括文本编码器、第一全连接层、对齐搜索器、时长预测器、解码器、第二全连接层和第一判别器。其中，文本编码器和解码器的结构均为transformer(自注意力网络)结构，作为可选的一种实施方式，transformer(自注意力网络)结构包括若干个fft block，如图6所示，fft block主要由multi-head attention模块组成，multi-head attention模块层连接cnn卷积层(用于提取特征)和add&norm全连接层(用于残差连接和层归一化操作)，层之间使用layer normalization(对一个样本同一层所有神经元进行标准化)。
[0161]
参见图11，声学模型训练模块101包括编码单元1011、第一处理单元1012、对齐单元1013、时长预测单元1014、解码单元1015、第二处理单元1016和声学模型获取单元1017。
[0162]
编码单元1011用于采用文本编码器从训练文本向量中提取训练文本特征。
[0163]
第一处理单元1012用于采用第一全连接层将训练文本特征和训练声纹特征处理为对应文本特征和声纹特征的第一隐变量，其中，隐变量为多维高斯分布的均值和方差。
[0164]
对齐单元1013用于采用对齐搜索器建立第一隐变量与训练声学特征之间的对应关系。
[0165]
时长预测单元1014用于采用时长预测器根据训练文本特征、训练声纹特征和对应关系预测时长信息。其中，时长信息还用于在推理预测阶段时反向输入至对齐搜索器以学
习对应关系。
[0166]
解码单元1015用于采用解码器根据对应关系将第一隐变量转换成对应声学特征的第二隐变量。
[0167]
第二处理单元1016用于采用第二全连接层将第二隐变量处理为合成声学特征。
[0168]
声学模型获取单元1017用于采用第一判别器计算合成声学特征与训练声学特征的第一损失度，并在第一损失度不满足第一预设条件时进行迭代处理，直至第一损失度满足第一预设条件以得到声学模型。
[0169]
在本实施例中，训练文本向量作为编码单元1011的输入，经过编码单元1011后再和训练声纹特征进行拼接，作为第一处理单元1012和时长预测单元1014的输入，经过第一处理单元1012后得到对应文本特征和声纹特征的隐变量(高斯分布的均值和方差)，将该隐变量输入到对齐单元1013，对齐单元1013用于对齐文本分布到音频分布的映射，时长预测单元1014用于学习文本向量映射到声学特征的时长。
[0170]
其中，对齐单元1013包括多种可选的对齐搜索算法，作为可选的一种实施方式，对齐单元1013采用mas(monotonic alignment search单调对齐搜索)算法。
[0171]
在训练阶段时，对齐单元1013得到音频时间帧和文本字符的映射关系，为训练时长预测器提供无监督时长标签，为了防止训练时长预测器时影响到其它部分，作为可选的一种实施方式，对时长预测器进行梯度中断处理。而在预测推理阶段时，对齐单元1013根据时长预测单元1014提供的时长信息和对应文本特征和声纹特征的隐变量将文本和合成音频一一对齐，通过解码单元1015得到对应声学特征的隐变量，再经过第二处理单元1016后得到合成声学特征。
[0172]
在训练阶段时，声学模型获取单元1017将合成声学特征和训练声学特征输入到第一判别器中，作为可选的一种实施方式，声学模型获取单元1017通过观察loss值来判别声学模型是否完成训练，loss值包括但不限于mse损失，mse损失越小越好，而在预测推理阶段时，合成系统不需要再使用声学模型获取单元1017。
[0173]
作为可选的一种实施方式，声学模型获取单元1017同时通过计算mcd(mel cepstral distance梅尔-倒谱距离)来客观判别声学模型合成音频的质量好坏，mcd量化了两个声学特征之间的失真，声学模型获取单元1017在计算mcd值时，需要把训练音频和合成音频的声学特征序列对齐，其计算公式如下：
[0174][0175]
其中，y表示真实音频提取的声学特征(训练声学特征)，y’表示合成音频提取的声学特征(合成声学特征)。
[0176]
作为可选的一种实施方式，声学模型迭代训练十万次后，开始在验证集上进行测试，其中，验证集同样包括中英文音频和对应的中英文文本，每迭代一万次进行测试一次，观察loss(损失度)的下降趋势，并且查看文本信息和声学特征的对齐效果。例如，当总共训练了40万次，loss基本不再下降，文本和声学特征完美的对齐，则确定模型收敛，达到预期效果，此时获取到声学模型。
[0177]
声码器模型训练模块102用于利用声学模型输出的合成声学特征、训练声纹特征和训练音频训练得到声码器模型。
[0178]
其中，声码器模型包括生成器和第二判别器，作为可选的一种实施方式，生成器和第二判别器均采用采用全卷积的网络结构，即包括多个依次连接的cnn网络，可以接受任意长度的声学特征输入，输出任意长度的音频，即不受声学特征输入的长度以及输出音频的长度的限制，能够满足更高的实际使用需求。如图12所示，声码器模型训练模块102包括音频生成单元1021和声码器模型获取单元1022。
[0179]
音频生成单元1021用于采用生成器将合成声学特征转换为对应训练声纹特征的合成音频。
[0180]
声码器模型获取单元1022用于采用第二判别器计算合成音频与训练音频的第二损失度，并在第二损失度不满足第二预设条件时进行迭代处理，直至第二损失度满足第二预设条件以得到声码器模型。
[0181]
作为可选的一种实施方式，声码器模型也可以直接采用hifigan模型或melgan模型等。例如，hifigan模型包括生成器和判别器，生成器使用全卷积网络，通过反卷积进行上采样，可以在gpu上并行计算，大大提升了模型推理速度，判别器包括多尺度判别器和多周期判别器，可以更好的区分合成音频和真实音频，其中多周期判别器用于识别音频中不同的周期信号，多尺度判别器用于判别音频合成的好坏。
[0182]
由于判别器计算的标准与人们主观感受到的音质有一定的差距，作为可选的一种实施方式，对于合成音频的评判还包括主观评测，例如根据mos测评标准，对合成音频进行人工打分测评。
[0183]
作为可选的一种实施方式，让被试听者分别听取测试音频和合成音频，按照1到5分进行打分，其中5分表示合成音频与测试音频最相似，且音质最好，1分为最差，然后计算平均值作为mos分。
[0184]
通过本实施例的混合语音的合成系统得到的合成音频，按照mos测评标准，mos分达到4.43分，高于现有的其他混合语音合成模型。另外，本实施例的语音合成模型在gpu上rtf可以达到0.028，在cpu上rtf可以达到0.11，其中，rtf用于表征合成音频的效率，其计算公式如下：
[0185][0186]
在本实施例中，基于变分自编码器的结构搭建声学模型，摒弃了传统的残差连接结构，在简化了网络结构的同时，提升了数据处理速率。另外，对声学模型和声码器模型进行联合训练，在保证语音合成质量的同时，大大地提升了语音合成速度，从而能够满足语音机器人使用大量外呼的实时需求。
[0187]
实施例5
[0188]
本实施例提供一种电子设备，图13为实施例提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1或2中任意一实施例中的混合语音的合成方法。图13显示的电子设备20仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0189]
如图13所示，电子设备20可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备20的组件可以包括但不限于：上述至少一个处理器21、上述至少一个存储器
22、连接不同系统组件(包括存储器22和处理器21)的总线23。
[0190]
总线23包括数据总线、地址总线和控制总线。
[0191]
存储器22可以包括易失性存储器，例如随机存取存储器(ram)221和/或高速缓存存储器222，还可以进一步包括只读存储器(rom)223。
[0192]
存储器22还可以包括具有一组(至少一个)程序模块224的程序/实用工具225，这样的程序模块224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0193]
处理器21通过运行存储在存储器22中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或2中任意一实施例中的混合语音的合成方法。
[0194]
电子设备20也可以与一个或多个外部设备24(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口25进行。并且，模型生成的设备20还可以通过网络适配器26与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图13所示，网络适配器26通过总线23与模型生成的设备20的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备20使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
[0195]
应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0196]
实施例6
[0197]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1或2中任意一实施例中的混合语音的合成方法中的步骤。
[0198]
其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0199]
在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1或2中任意一实施例中的混合语音的合成方法中的步骤。
[0200]
其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0201]
虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

技术特征：

1.一种混合语音的合成方法，其特征在于，所述合成方法包括：根据待合成文本生成对应国际音标的待合成文本向量；获取目标说话人的目标声纹特征；将所述待合成文本向量和所述目标声纹特征输入语音合成模型，得到所述待合成文本对应的合成音频；所述语音合成模型包括声学模型和声码器模型，所述声学模型基于变分自编码器构成，所述声学模型的输出与所述声码器模型的输入连接。2.根据权利要求1所述的混合语音的合成方法，其特征在于，所述声学模型包括文本编码器、第一全连接层、对齐搜索器、时长预测器、解码器、第二全连接层和第一判别器；所述声学模型利用训练文本向量、训练声纹特征和训练声学特征训练得到，包括：采用所述文本编码器从所述训练文本向量中提取训练文本特征；采用所述第一全连接层将所述训练文本特征和所述训练声纹特征处理为对应文本特征和声纹特征的第一隐变量，其中，隐变量为多维高斯分布的均值和方差；采用所述对齐搜索器建立所述第一隐变量与所述训练声学特征之间的对应关系；采用所述时长预测器根据所述训练文本特征、所述训练声纹特征和所述对应关系预测时长信息；其中，所述时长信息还用于在推理预测阶段时反向输入至所述对齐搜索器以学习所述对应关系；采用所述解码器根据所述对应关系将所述第一隐变量转换成对应声学特征的第二隐变量；采用所述第二全连接层将所述第二隐变量处理为合成声学特征；采用所述第一判别器计算所述合成声学特征与所述训练声学特征的第一损失度，并在所述第一损失度不满足第一预设条件时进行迭代处理，直至所述第一损失度满足所述第一预设条件以得到所述声学模型。3.根据权利要求2所述的混合语音的合成方法，其特征在于，所述声码器模型包括生成器和第二判别器，所述声码器模型利用所述声学模型输出的合成声学特征、训练声纹特征和训练音频训练得到，包括：采用所述生成器将所述合成声学特征转换为对应所述训练声纹特征的合成音频；采用所述第二判别器计算所述合成音频与所述训练音频的第二损失度，并在所述第二损失度不满足第二预设条件时进行迭代处理，直至所述第二损失度满足所述第二预设条件以得到所述声码器模型。4.根据权利要求1所述的混合语音的合成方法，其特征在于，所述根据待合成文本生成对应国际音标的待合成文本向量的步骤包括：对所述待合成文本进行正则化处理；根据国际音标发音字典将正则化处理后的待合成文本转换为对应国际音标的音素；通过embedding层将所述音素转换成对应的所述待合成文本向量。5.一种混合语音的合成系统，其特征在于，所述合成系统包括生成模块、获取模块和语音合成模块：生成模块，用于根据待合成文本生成对应国际音标的待合成文本向量；获取模块，用于获取目标说话人的目标声纹特征；语音合成模块，用于将所述待合成文本向量和所述目标声纹特征输入语音合成模型，
得到所述待合成文本对应的合成音频；所述语音合成模型包括声学模型和声码器模型，所述声学模型基于变分自编码器构成，所述声学模型的输出与所述声码器模型的输入连接。6.根据权利要求5所述的混合语音的合成系统，其特征在于，所述声学模型包括文本编码器、第一全连接层、对齐搜索器、时长预测器、解码器、第二全连接层和第一判别器；所述合成系统还包括声学模型训练模块，所述声学模型训练模块用于利用训练文本向量、训练声纹特征和训练声学特征训练得到所述声学模型；所述声学模型训练模块包括编码单元、第一处理单元、对齐单元、时长预测单元、解码单元、第二处理单元和声学模型获取单元：编码单元，用于采用所述文本编码器从所述训练文本向量中提取训练文本特征；第一处理单元，用于采用所述第一全连接层将所述训练文本特征和所述训练声纹特征处理为对应文本特征和声纹特征的第一隐变量，其中，隐变量为多维高斯分布的均值和方差；对齐单元，用于采用所述对齐搜索器建立所述第一隐变量与所述训练声学特征之间的对应关系；时长预测单元，用于采用所述时长预测器根据所述训练文本特征、所述训练声纹特征和所述对应关系预测时长信息；其中，所述时长信息还用于在推理预测阶段时反向输入至所述对齐搜索器以学习所述对应关系；解码单元，用于采用所述解码器根据所述对应关系将所述第一隐变量转换成对应声学特征的第二隐变量；第二处理单元，用于采用所述第二全连接层将所述第二隐变量处理为合成声学特征；声学模型获取单元，用于采用所述第一判别器计算所述合成声学特征与所述训练声学特征的第一损失度，并在所述第一损失度不满足第一预设条件时进行迭代处理，直至所述第一损失度满足所述第一预设条件以得到所述声学模型。7.根据权利要求6所述的混合语音的合成系统，其特征在于，所述声码器模型包括生成器和第二判别器，所述合成系统还包括声码器模型训练模块，所述声码器模型训练模块用于利用所述声学模型输出的合成声学特征、训练声纹特征和训练音频训练得到所述声码器模型；所述声码器模型训练模块包括音频生成单元和声码器模型获取单元：音频生成单元，用于采用所述生成器将所述合成声学特征转换为对应所述训练声纹特征的合成音频；声码器模型获取单元，用于采用所述第二判别器计算所述合成音频与所述训练音频的第二损失度，并在所述第二损失度不满足第二预设条件时进行迭代处理，直至所述第二损失度满足所述第二预设条件以得到所述声码器模型。8.根据权利要求5所述的混合语音的合成系统，其特征在于，所述生成模块包括正则化处理单元、第一转换单元和第二转换单元：正则化处理单元，用于对所述待合成文本进行正则化处理；第一转换单元，用于根据国际音标发音字典将正则化处理后的待合成文本转换为对应国际音标的音素；第二转换单元，用于通过embedding层将所述音素转换成对应的所述待合成文本向量。
9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-4中任一项所述的混合语音的合成方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的混合语音的合成方法的步骤。

技术总结

本发明公开了一种混合语音的合成方法、系统、电子设备及介质，该合成方法包括：根据待合成文本生成对应国际音标的待合成文本向量；获取目标说话人的目标声纹特征；将待合成文本向量和目标声纹特征输入语音合成模型，得到合成音频；语音合成模型包括声学模型和声码器模型，声学模型基于变分自编码器构成，声学模型的输出与声码器模型的输入连接。本发明通过将文本转换为国际音标的文本向量，有利于不同语音的联合训练，将文本向量和声纹特征输入语音合成模型，利用变分自编码器得到文本信息和音信息的高斯分布，模拟出混合语音数据的效果，解决了因缺少混合语音数据而导致混合语音的合成模型训练困难的问题，提高了混合语音的合成效果。合成效果。合成效果。