一种个性化语音的合成方法及系统与流程

1.本发明涉及语音合成处理技术领域，尤其涉及一种个性化语音的合成方法及系统。

背景技术：

2.当前常见的语音合成技术在合成音角的多样性和个性化上，普遍有如下的方案：
3.第一种是提供多角的切换，通过设置界面提供给用户提供多个合成角音的选择，通常是有两个，分别为男声和女声，多则有四个左右，会增加一些情感化的选项，但这种方案事实上并非是真正的个性化的语音合成。虽然在一定程度上预备了多种说话人的声音特征来增加合成音效果的选择，但选择十分有限且都是已经预置好的角声音特征，完全无法满足个性化的声音克隆需求。同时，其在选择不同的语音合成角的技术上，是通过调用预先根据不同的特定说话人音频训练好的语音合成的静态模型，多模型的存在也会造成占用内存以及存储资源过多的问题。
4.第二种常见的方案，利用了端云平台提供个性化语音合成的接口和能力，需要对目标说话人先进行音频的录制，通常情况下需要录制数小时甚至数十小时的语音音频，并且需要标注音频对应的transcript(可认为是语音数据的文本标签)，然后将该语音音频数据上传到语音合成引擎中进行手动或半自动化的训练和部署，该训练合成过程操作过程复杂，需要相关的专业性，同时所需要的时间较长，整个流程需要数日甚至数月的时间。
5.综上所述，无论是引入可选的合成声音角，还是进行用户自定义的合成音效的个性化合成定制，都是通过引入新的模型来实现的。即要么是切换到预先训练好的另一个语音合成模型，要么是通过录制音频语料重新训练一个个性化的模型；在模型的训练方面，都需要重新训练整个端到端的模型。

技术实现要素：

6.本发明提供一种个性化语音的合成方法及系统，解决了现有的语音合成技术较为死板，无法根据用户需求进行个性化定制，或者定制方案过于繁琐、耗时过长的技术问题。
7.为解决以上技术问题，本发明提供一种个性化语音的合成方法，包括步骤：
8.s1、对获取到的输入语音音频进行特征提取，获取对应的音频特征向量；
9.s2、根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量；
10.s3、获取所述音频特征向量和所述语义嵌入表示向量，并采用深度神经网络进行语音合成，得到对应的目标梅尔频谱；
11.s4、将所述目标梅尔频谱转换成时域的音频波形，合成个性化语音音频。
12.本基础方案可预先或现场对输入语音音频进行特征提取以获取音频特征向量，同时在进行语音合成时，根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量，进而根据采用深度神经网络进行语音合成音频特征向量和语义嵌入表示向量，以得到
目标梅尔频谱进而转换为时域的音频波形，如此即可对任意的非指定人的声音实现复刻和音转换，得到专属定制的个性化语音；音频特征向量和语义嵌入表示向量的获取过程相互独立，且数据量较小，在充分满足合成音角的多样性和个性化的前提下，还大幅度的减小了语音包的占用内存空间，同时由于语音合成是向量合成，语音合成效率大幅度提高。
13.在进一步的实施方案中，所述步骤s1包括步骤：
14.s10、根据不同的音频训练语料设定神经网络模型的损失目标函数，根据所述损失目标函数计算音频训练误差，进而根据反向传播算法和所述音频训练误差调整所述神经网络模型的模型参数；
15.s11、获取输入语音音频，并建立对应的说话人id；
16.s12、对所述输入语音音频进行mfcc特征提取，获取对应的高维特征向量；
17.s13、采用所述神经网络模型对所述高维特征向量进行进一步的特征提取，得到代表说话人声音特质的嵌入向量表征作为音频特征向量；
18.所述神经网络模型包括依次连接的lstm网络结构、全链接神经网络层。
19.本方案采用mfcc特征提取、神经网络模型对输入语音音频进行特征提取，可快速获取代表说话人特征的音频特征向量，为个性化语音提供合成基础，相较于超大内存的语音包，音频特征向量的数据量微乎其微，既可充分地复刻出说话人的语音，又不会占用语音系统内存，同时音频特征向量的提取只需输入秒级的参考音频(即输入语音音频)，语音定制过程快速便捷；在模型和算法层面，采用了损失函数来进行综合的训练目标的设定和权衡，使得即使是对 zero-shot的样本进行提取也能保证精度，实现说话人声音的灵活性复刻。
20.在进一步的实施方案中，所述步骤s2包括步骤：
21.s21、根据预设分词策略对目标合成文本进行分词处理，得到对应的目标序列；
22.s22、根据三音素模型对所述目标序列进行音素转换得到文本音素序列；
23.s23、对所述文本音素序列进行向量转换，得到语义嵌入表示向量；
24.所述目标序列包括词序列、字序列和字母序列；
25.所述预设分词策略包括：将输入的中文文本序列进行分词划分为词序列或者处理成字序列，将输入的英文文本序列进行分词划分为词序列或者字母序列。
26.本方案在接收到语音合成需求时，现场根据目标合成文本进行分词处理、音素转换得到文本音素序列，消除不同种类文字读音的差异性，语音合成更加灵活，提升了语音合成模型的适应性；考虑到协同发音，采用三音素模型进行音素转换，可进一步提高语音合成的精度。
27.在进一步的实施方案中，所述步骤s3包括：
28.s31、在encoder层中，采用神经网络结构对将所述语义嵌入表示向量输进行进一步的抽象和提取，将所述语义嵌入表示向量转换为语言学中间表示空间特征，得到第一embedding表示；
29.s32、在attention层中，融合拼接所述第一embedding表示和所述音频特征向量得到合成数据；
30.s33、在decoder层中根据向量自回归模型对所述合成数据进行解码，得到待合成语音对应的目标梅尔频谱。
31.在进一步的实施方案中，在所述步骤s33中，所述向量自回归模型包括 ffnn层、bi-lstm层、linear层、res-normal层；
32.则，所述根据向量自回归模型对所述合成数据进行解码具体为：
33.a、将上一时间步所述linear层的输出返回到ffnn层；
34.b、将所述ffnn层的输出与当前时间步的所述合成数据一同输入到所述 bi-lstm层进行进一步的信息提取；
35.c、将所述bi-lstm层的输出分别输入到所述linear层进行映射、输入到所述res-normal层进行归一化处理，获取所述linear层和res-normal层的输出进行叠加处理得到待合成语音对应的目标梅尔频谱。
36.本方案采用encoder-decoder的深度神经网络对语义嵌入表示向量和音频特征向量进行进一步的抽象、特征提取以及向量融合拼接、转化，相比机器学习的语音合成方法，具有端到端的效果，使得不必过度关注对齐的过程，在一定程度上降低了流程复杂度，提升了语音合成效率。
37.在进一步的实施方案中，本发明还包括步骤：s0、确定当前说话人id，根据所述当前说话人id与数据库进行匹配，若匹配成功则获取对应的音频特征向量并进入步骤s2，否则进入步骤s1。
38.本方案设置音频特征向量的独立训练流程，并将说话人id与对应的音频特征向量进行绑定存储，可根据用户需求进行预先训练或现场训练，使用便利。
39.本发明还提供一种个性化语音的合成系统，用于实现上述的一种个性化语音的合成方法，包括语音特征提取模块、语言特征提取模块、语音合成模块和音频转换模块；所述语音合成模块与所述语音特征提取模块、语言特征提取模块、音频转换模块连接；
40.所述语音特征提取模块用于根据获取到的输入语音音频，进行特征提取获取对应的音频特征向量；
41.所述语言特征提取模块用于根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量；
42.所述语音合成模块用于根据所述音频特征向量和所述语义嵌入表示向量进行语音合成，得到对应的目标梅尔频谱；
43.所述音频转换模块用于将所述目标梅尔频谱转换成时域的音频波形，合成个性化语音音频。
44.本基础方案在系统结构上，将整个过程分成四个部分，包括独立的语音特征提取模块、语言特征提取模块、语音合成模块和音频转换模块，各个独立模块可以进行独立的并行或平行训练，而非完全耦合一起训练，各个模型根据各自的特点可以复用和扩展语料，模块之间的分离关注使系统的稳定性大幅提升，各个模型中多样性的训练语料也提升了系统的整体效果，从而提高了训练效率，也降低了系统熵值。
45.在进一步的实施方案中，所述语音特征提取模块包括音频特征提取模块、特征转换模块和损失函数计算模块，所述损失函数计算模块与所述音频特征提取模块、特征转换模块连接；
46.所述损失函数计算模块用于根据不同的音频训练语料设定神经网络模型的损失目标函数，根据所述损失目标函数计算音频训练误差，进而根据所述音频训练误差调整所
述特征转换模块的模型参数；
47.所述音频特征提取模块用于对输入语音音频的参考音频波形进行特征提取，得到高维特征向量；
48.所述特征转换模块连接采用所述神经网络模型对所述高维特征向量进行进一步的特征提取，得到代表说话人声音特质的嵌入向量表征作为音频特征向量。
49.在进一步的实施方案中，所述语言特征提取模块包括依次连接的预处理模块、音素转换模块和向量转化模块；
50.所述预处理模块用于根据预设分词策略对目标合成文本进行分词处理，得到对应的目标序列；
51.所述音素转换模块用于对所述目标序列进行音素转换得到文本音素序列；
52.所述向量转化模块用于对所述文本音素序列进行向量转换，得到语义嵌入表示向量。
53.在进一步的实施方案中，所述语音合成模块包括依次连接的encoder层、attention层和decoder层；
54.所述encoder层用于完成输入的所述语义嵌入表示向量到语言学中间表示空间特征的进行进一步的抽象和提取，得到第一embedding表示；
55.所述attention层用于对所述第一embedding表示和音频特征向量进行融合拼接，得到合成数据；
56.所述decoder层用于根据向量自回归模型和所述合成数据进行语音合成预测，得到待合成语音对应的目标梅尔频谱。
附图说明
57.图1是本发明实施例提供的一种个性化语音的合成方法工作流程图；
58.图2是本发明实施例提供的一种个性化语音的合成系统的系统框架图；
59.图3是本发明实施例提供的语音特征提取模块的内部结构图；
60.图4是本发明实施例提供的语言特征提取模块的内部结构图；
61.图5是本发明实施例提供的语音合成模块的内部结构图。
具体实施方式
62.下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。
63.实施例1
64.本发明实施例提供的一种个性化语音的合成方法及系统，如图1所示，在本实施例中，包括步骤s0～s4：
65.s0、确定当前说话人id，根据当前说话人id与数据库进行匹配，若匹配成功则获取对应的音频特征向量并进入步骤s2，否则进入步骤s1。
66.本实施例设置音频特征向量的独立训练流程，并将说话人id与对应的音频特征向量进行绑定存储，可根据用户需求进行预先训练或现场训练，使用便利。
67.在本实施例中，步骤s1和步骤s2不分先后，可同时进行。
68.s1、对获取到的输入语音音频进行特征提取，获取对应的音频特征向量，包括步骤s10～s13：
69.s10、根据不同的音频训练语料设定神经网络模型的损失目标函数，根据损失目标函数计算音频训练误差，进而根据反向传播算法和音频训练误差调整神经网络模型的模型参数；
70.在本实施例中，步骤s10可单独执行，也可与步骤s11～步骤s13串行。
71.s11、获取输入语音音频，并建立对应的说话人id；
72.s12、对输入语音音频进行mfcc特征提取，获取对应的高维特征向量；
73.s13、采用神经网络模型对高维特征向量进行进一步的特征提取，得到代表说话人声音特质的嵌入向量表征作为音频特征向量。
74.在本实施例中，将音频特征向量与对应的说话人id绑定后存储到数据库中，在需要时，配合步骤s0的调用。
75.神经网络模型包括依次连接的lstm网络结构、全链接神经网络层。
76.本实施例采用mfcc特征提取、神经网络模型对输入语音音频进行特征提取，可快速获取代表说话人特征的音频特征向量，为个性化语音提供合成基础，相较于超大内存的语音包，音频特征向量的数据量微乎其微，既可充分地复刻出说话人的语音，又不会占用语音系统内存，同时音频特征向量的提取只需输入秒级的参考音频(即输入语音音频)，语音定制过程快速便捷；在模型和算法层面，采用了损失函数来进行综合的训练目标的设定和权衡，使得即使是对 zero-shot的样本进行提取也能保证精度，实现说话人声音的灵活性复刻。
77.s2、根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量，包括步骤s21～s23：
78.s21、根据预设分词策略对目标合成文本进行分词处理，得到对应的目标序列；
79.s22、根据三音素模型对目标序列进行音素转换得到文本音素序列。
80.s23、对文本音素序列进行向量转换，得到语义嵌入表示向量；
81.目标序列包括词序列、字序列和字母序列；
82.预设分词策略包括：将输入的中文文本序列进行分词划分为词序列或者处理成字序列，将输入的英文文本序列进行分词划分为词序列或者字母序列。
83.本实施例在接收到语音合成需求时，现场根据目标合成文本进行分词处理、音素转换得到文本音素序列，消除不同种类文字读音的差异性，语音合成更加灵活，提升了语音合成模型的适应性；考虑到协同发音，采用三音素模型进行音素转换，可进一步提高语音合成的精度。
84.其中，协同发音指的是指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。三音素模型的建模主要是考虑了上下文，音素的第一部分与在它之前的音素存在关联，中间部分是稳定的部分，而最后一部分则与下一个音素存在关联。三音素模型使得同一个字符在不同的上下文环境中对应的三音素是不同的，三音素模型最后表现为映射后音素不同状态的序列。
85.s3、获取音频特征向量和语义嵌入表示向量，并采用深度神经网络进行语音合成，得到对应的目标梅尔频谱，包括步骤s31～s33：
86.s31、在encoder层中，采用神经网络结构对将语义嵌入表示向量输进行进一步的抽象和提取，将语义嵌入表示向量转换为语言学中间表示空间特征，得到第一embedding表示；
87.s32、在attention层中，融合拼接第一embedding表示和音频特征向量得到合成数据；
88.s33、在decoder层中根据向量自回归模型对合成数据进行解码，得到待合成语音对应的目标梅尔频谱。
89.在本实施例中，向量自回归模型包括ffnn层(两层全链接前馈神经网络)、 bi-lstm层(两层双向lstm结构)、linear层(线性转换层)、res-normal层 (残差层)；
90.则，根据向量自回归模型对合成数据进行解码具体为：
91.a、将上一时间步linear层的输出返回到ffnn层；
92.b、将ffnn层的输出与当前时间步的合成数据一同输入到bi-lstm层进行进一步的信息提取；
93.c、将bi-lstm层的输出分别输入到linear层进行映射、输入到res-normal 层进行归一化处理，获取linear层和res-normal层的输出进行叠加处理得到待合成语音对应的目标梅尔频谱。
94.在本实施例中，res-normal层采用cnn结构(卷积神经网络)，对信息进行进一步的提取，同时进行批量归一化。
95.本实施例采用encoder-decoder的深度神经网络对语义嵌入表示向量和音频特征向量进行进一步的抽象、特征提取以及向量融合拼接、转化，相比机器学习的语音合成方法，具有端到端的效果，使得不必过度关注对齐的过程，在一定程度上降低了流程复杂度，提升了语音合成效率。
96.s4、将目标梅尔频谱转换成时域的音频波形，合成个性化语音音频。
97.在获取个性化语音音频后，由应用层的交互系统播报此音频，完成特定的交互。
98.本发明实施例可预先或现场对输入语音音频进行特征提取以获取音频特征向量，同时在进行语音合成时，根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量，进而根据采用深度神经网络进行语音合成音频特征向量和语义嵌入表示向量，以得到目标梅尔频谱进而转换为时域的音频波形，如此即可对任意的非指定人的声音实现复刻和音转换，得到专属定制的个性化语音；音频特征向量和语义嵌入表示向量的获取过程相互独立，且数据量较小，在充分满足合成音角的多样性和个性化的前提下，还大幅度的减小了语音包的占用内存空间，同时由于语音合成是向量合成，语音合成效率大幅度提高。
99.实施例2
100.本实施例中说明书附图中的附图标记包括：语音特征提取模块1，音频特征提取模块11、特征转换模块12、损失函数计算模块13；语言特征提取模块2，预处理模块21、音素转换模块22、向量转化模块23；语音合成模块3，音频转换模块4。
101.本发明实施例还提供一种个性化语音的合成系统，用于实现上述实施例1 提供一种个性化语音的合成方法，参见图2，包括语音特征提取模块1、语言特征提取模块2、语音合
成模块3和音频转换模块4；语音合成模块3与语音特征提取模块1、语言特征提取模块2、音频转换模块4连接；
102.语音特征提取模块1用于根据获取到的输入语音音频，进行特征提取获取对应的音频特征向量；
103.语言特征提取模块2用于根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量；
104.语音合成模块3用于根据音频特征向量和语义嵌入表示向量进行语音合成，得到对应的目标梅尔频谱；
105.音频转换模块4用于将目标梅尔频谱转换成时域的音频波形，合成个性化语音音频。
106.在本实施例中，音频转换模块4采用wavenet或者wavernn等较典型的网络结构来实现音频波形的转换。
107.在本实施例中，参见图3，语音特征提取模块1包括音频特征提取模块11、特征转换模块12和损失函数计算模块13，损失函数计算模块13与音频特征提取模块11、特征转换模块12连接；
108.损失函数计算模块13用于根据不同的音频训练语料设定神经网络模型的损失目标函数，根据损失目标函数计算音频训练误差，进而根据音频训练误差调整特征转换模块12的模型参数。
109.根据本模型的任务，将损失目标函数设计为softmax损失l1，即类似与说话人辨识的分类模型，根据训练语料集中说话人的数量n，构建n各类别的分类，该分类通过softmax函数来计算损失。或者将该任务设计成不同说话人之间特征相似度的衡量，对应地通过对比学习的方式通过相似度矩阵计contrast 损失l2。或者，将两者结合起来作为总体的损失函数l3＝l1+l2来进行模型的训练。在运行使用时，特征转换模块12的神经网络模型的参数已经训练冻结，此时输入的说话人参考语音音频波形信号(即输入语音音频)，通过该模型即可得到对应的可与其他说话人区分的与具体目标说话人相关的音频特征向量。
110.损失函数计算模块13的模型可以独立地进行训练，并且可以利用非文本标注，而只是标注了不同说话人的语料进行训练，可以迁移类似声纹识别的语料，这种简化的标注方式可以方便地获取大量语料，增加模型特征提取的准确度。
111.音频特征提取模块11用于对输入语音音频的参考音频波形进行特征提取，得到高维特征向量；例如，采用较常使用的mfcc的特征提取流程，分帧后每帧音频信号最终得到高维度的特征向量(即高维特征向量)。
112.特征转换模块12连接采用神经网络模型对高维特征向量进行进一步的特征提取，得到代表说话人声音特质的嵌入向量表征作为音频特征向量。
113.其中，神经网络模型不拘泥于某种形式，包括但不限于采用transformer的编码器来实现，或者使用lstm的网络结构后接全链接神经网络层来实现。
114.在本实施例中，除了标准录制的语料、公开语音语料集外，广泛的有声书甚至是各类能够提取音频的影视品节目都可以成为语料的来源，来源广泛的语料再加上具有鲁棒性的语音特征提取模块1，能够使得训练得到的语音特征提取模块1具有强大的说话人声音特质有关的特征提取能力。
115.在本实施例中，参见图4，语言特征提取模块2包括依次连接的预处理模块 21、音素转换模块22和向量转化模块23；
116.预处理模块21用于根据预设分词策略对目标合成文本进行分词处理，得到对应的目标序列；
117.音素转换模块22用于对目标序列进行音素转换得到文本音素序列；
118.向量转化模块23用于对文本音素序列进行向量转换，得到语义嵌入表示向量。
119.同理，语言特征提取模块2也可对模型进行独立的预训练，通过大量的自然语言的文本语料，再将对应的语料进行预处理，并结合特定语种的发音词典进行音速的转换，通过自监督的方式进行特征向量的训练。
120.在本实施例中，参见图5，语音合成模块3包括依次连接的encoder层、 attention层和decoder层；
121.encoder层用于完成输入的语义嵌入表示向量到语言学中间表示空间特征的进行进一步的抽象和提取，得到第一embedding表示；
122.其中，encoder层可以采用多种网络结构，例如采用卷积层、lstm层两种类型结构的串行，首先经过卷积层(比如2层)，卷积神经网络的网络结构适合于将局部的关键特征进行提取和融合，然后经过一个双向的lstm层，lstm 的网络结构更适合于将序列性的输入进行基于上文的特征融合。
123.attention层用于对第一embedding表示和音频特征向量进行融合拼接，得到合成数据；
124.decoder层用于根据向量自回归模型和合成数据进行语音合成预测，得到待合成语音对应的目标梅尔频谱。
125.本发明实施例在系统结构上，将整个过程分成四个部分，包括独立的语音特征提取模块1、语言特征提取模块2、语音合成模块3和音频转换模块4，各个独立模块可以进行独立的并行或平行训练，而非完全耦合一起训练，各个模型根据各自的特点可以复用和扩展语料，模块之间的分离关注使系统的稳定性大幅提升，各个模型中多样性的训练语料也提升了系统的整体效果，从而提高了训练效率，也降低了系统熵值。
126.本实施例所提供的合成系统采用各个模块实现合成方法中的各个步骤，为合成方法提供硬件基础，便于方法实施。
127.上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

技术特征：

normal层进行归一化处理，获取所述linear层和res-normal层的输出进行叠加处理得到待合成语音对应的目标梅尔频谱。6.如权利要求1所述的一种个性化语音的合成系统，其特征在于，还包括步骤：s0、确定当前说话人id，根据所述当前说话人id与数据库进行匹配，若匹配成功则获取对应的音频特征向量并进入步骤s2，否则进入步骤s1。7.一种个性化语音的合成系统，用于实现如权利要求1～6所述的一种个性化语音的合成方法，其特征在于：包括语音特征提取模块、语言特征提取模块、语音合成模块和音频转换模块；所述语音合成模块与所述语音特征提取模块、语言特征提取模块、音频转换模块连接；所述语音特征提取模块用于根据获取到的输入语音音频，进行特征提取获取对应的音频特征向量；所述语言特征提取模块用于根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量；所述语音合成模块用于根据所述音频特征向量和所述语义嵌入表示向量进行语音合成，得到对应的目标梅尔频谱；所述音频转换模块用于将所述目标梅尔频谱转换成时域的音频波形，合成个性化语音音频。8.如权利要求7所述的一种个性化语音的合成系统，其特征在于：所述语音特征提取模块包括音频特征提取模块、特征转换模块和损失函数计算模块，所述损失函数计算模块与所述音频特征提取模块、特征转换模块连接；所述损失函数计算模块用于根据不同的音频训练语料设定神经网络模型的损失目标函数，根据所述损失目标函数计算音频训练误差，进而根据所述音频训练误差调整所述特征转换模块的模型参数；所述音频特征提取模块用于对输入语音音频的参考音频波形进行特征提取，得到高维特征向量；所述特征转换模块连接采用所述神经网络模型对所述高维特征向量进行进一步的特征提取，得到代表说话人声音特质的嵌入向量表征作为音频特征向量。9.如权利要求7所述的一种个性化语音的合成系统，其特征在于：所述语言特征提取模块包括依次连接的预处理模块、音素转换模块和向量转化模块；所述预处理模块用于根据预设分词策略对目标合成文本进行分词处理，得到对应的目标序列；所述音素转换模块用于对所述目标序列进行音素转换得到文本音素序列；所述向量转化模块用于对所述文本音素序列进行向量转换，得到语义嵌入表示向量。10.如权利要求7所述的一种个性化语音的合成系统，其特征在于：所述语音合成模块包括依次连接的encoder层、attention层和decoder层；所述encoder层用于完成输入的所述语义嵌入表示向量到语言学中间表示空间特征的进行进一步的抽象和提取，得到第一embedding表示；所述attention层用于对所述第一embedding表示和音频特征向量进行融合拼接，得到合成数据；
所述decoder层用于根据向量自回归模型和所述合成数据进行语音合成预测，得到待合成语音对应的目标梅尔频谱。

技术总结

本发明涉及语音合成处理技术领域，提供一种个性化语音的合成方法及系统，可预先或现场对输入语音音频进行特征提取以获取音频特征向量，同时在进行语音合成时，根据预设处理方案将目标合成文本转换为对应的语义嵌入表示向量，进而根据采用深度神经网络进行语音合成音频特征向量和语义嵌入表示向量，以得到目标梅尔频谱进而转换为时域的音频波形，如此即可对任意的非指定人的声音实现复刻和音转换，得到专属定制的个性化语音；音频特征向量和语义嵌入表示向量的获取过程相互独立，且数据量较小，在充分满足合成音角的多样性和个性化的前提下，还大幅度的减小了语音包的占用内存空间，同时由于语音合成是向量合成，语音合成效率大幅度提高。效率大幅度提高。效率大幅度提高。