语音合成方法、装置、设备及存储介质与流程

1.本技术涉及语音合成技术领域，更具体的说，是涉及一种语音合成方法、装置、设备及存储介质。

背景技术：

2.人类在日常生活中相互交流的方式多种多样，而最直接易懂和自然的交流模式就是语音，计算机和互联网科技的飞速发展很大程度上改变了人们的生活方式，人与计算机之间的关系密不可分。如今语音合成在智能家居、智能机器人等交互领域得到了广泛应用，例如手机、车载语音助手等。
3.但是现有的智能语音设备在合成语音时，一般是采用单一音的语音合成，也即仅能够按照系统提供的有限几种模板音，进行语音合成。这就导致合成的语音缺乏个性化、不符合用户对合成语音的音需求。

技术实现要素：

4.鉴于上述问题，提出了本技术以便提供一种语音合成方法、装置、设备及存储介质，以解决现有语音合成方案合成的语音的音单一，缺乏个性化的问题。具体方案如下：
5.第一方面，提供了一种语音合成方法，包括：
6.获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种；
7.其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；
8.基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；
9.采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。
10.第二方面，提供了一种语音合成装置，包括：
11.音描述信息获取单元，用于获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种，其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；
12.音编码单元，用于基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；
13.语音合成单元，用于采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。
14.第三方面，提供了一种语音合成设备，包括：存储器和处理器；
15.所述存储器，用于存储程序；
16.所述处理器，用于执行所述程序，实现如上所述的语音合成方法的各个步骤。
17.第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音合成方法的各个步骤。
18.借由上述技术方案，本技术支持用户输入待合成语音的虚拟音描述信息，该虚拟音描述信息包括从至少一个音维度对待合成语音的音的描述信息，示例如从性别、口音、年龄等维度对音的描述信息，基于此，用户可以按照自己的偏好定义所要合成语音的音的描述信息，在此基础上，本技术基于虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到与虚拟音描述信息匹配的虚拟音编码特征，进而采用声学模型，基于待合成文本及虚拟音编码特征进行语音合成，得到最终的合成语音。显然，按照本技术的语音合成方案，用户可以根据自己的喜好定义音描述信息，并最终生成符合用户定义的音的合成语音，使得合成语音更加个性化、更加有亲近感，也满足了用户在不同场景下对合成语音的音的个性化需求。
19.进一步，本技术可以支持用户通过多种不同的输入模式进行虚拟音描述信息的输入，输入模式包括但不限于：图像输入模式、文本输入模式等。在图像输入模式下的输入可以包括：包含目标对象的图片，该目标对象为具备用户所期望合成的音的对象；在文本输入模式下的输入可以包括：从各音维度描述用户所期望合成的音的描述文本。显然，本技术丰富了虚拟音描述信息的输入方式，用户可以通过图像、文本等不同形式输入虚拟音的描述信息，极大方便了用户的日常使用。
附图说明
20.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
21.图1为本技术实施例提供的语音合成方法的一流程示意图；
22.图2示例了一种多输入模式下获取虚拟音描述信息的处理流程示意图；
23.图3示例了一种图像分析模型处理流程示意图；
24.图4示例了一种语音分类模型处理流程示意图；
25.图5示例了一种模板语音分析模型处理流程示意图；
26.图6示例了一种语义分析模型处理流程示意图；
27.图7示例了一种标注格式输入界面示意图；
28.图8示例了一种语音合成方法整体架构示意图；
29.图9为本技术实施例提供的一种语音合成装置结构示意图；
30.图10为本技术实施例提供的语音合成设备的结构示意图。
具体实施方式
31.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
32.本技术提供了一种语音合成方案，可以适用于各种需要进行语音合成的场景，示例如公共服务(信息播报、智能客服等)、智能硬件(如智能音响、智能机器人等)、智慧交通(语音导航、智能车载设备等)、教育(智慧课堂、外语学习等)、泛娱乐(有声阅读、影视配音、虚拟ip等)等领域，采用本技术的语音合成方案，能够合成用户所期望的音的语音，提升了合成语音的个性化。
33.本技术方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。
34.接下来，结合图1所述，本技术的语音合成方法可以包括如下步骤：
35.步骤s100、获取用户通过设定输入模式所输入的待合成语音的虚拟音描述信息。
36.其中，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息。示例如，从性别、年龄、语言、口语、性格、职业等维度对音进行描述。本实施例中示例了一条虚拟音描述信息，如：“我喜欢的声音是一个十岁左右的男生，他说中文普通话，是一名性格自信的小学生”，其中，从年龄、性别、语言、口语、性格、职业几个维度对音进行的描述。
37.当然，用户可以通过多种不同的输入模式，输入虚拟音描述信息。
38.示例性的，输入模式可以包括图像输入模式、文本输入模式等。图像输入模式下的输入可以包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象。文本输入模式下的输入可以包括：从各所述音维度描述用户所期望合成的音的描述文本。
39.当然，输入模式不仅仅可以是图像输入模式和文本输入模式，除此之外还可以有其它多种不同的输入模式，关于各种输入模式的介绍，参照下文。
40.步骤s110、基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征。
41.具体地，虚拟音描述信息中包含了若干个不同音维度的描述信息，可以综合考虑各音维度的描述信息进行音编码，得到能够表征虚拟音描述信息的虚拟音编码特征。
42.步骤s120、采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。
43.具体地，在上述步骤得到虚拟音编码特征之后，可以将待合成文本及虚拟音编码特征输入声学模型，得到语音信号，进而基于该语音信号即可得到合成语音，示例如，当语音信号为频谱特征时，可以将频谱特征输入声码器，即可得到声码器输出的合成语音。
44.本技术实施例提供的语音合成方法，支持用户输入待合成语音的虚拟音描述信息，该虚拟音描述信息包括从至少一个音维度对待合成语音的音的描述信息，示例
如从性别、口音、年龄等维度对音的描述信息，基于此，用户可以按照自己的偏好定义所要合成语音的音的描述信息，在此基础上，本技术基于虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到与虚拟音描述信息匹配的虚拟音编码特征，进而采用声学模型，基于待合成文本及虚拟音编码特征进行语音合成，得到最终的合成语音。显然，按照本技术的语音合成方案，用户可以根据自己的喜好定义音描述信息，并最终生成符合用户定义的音的合成语音，使得合成语音更加个性化、更加有亲近感，也满足了用户在不同场景下对合成语音的音的个性化需求。
45.进一步，本技术可以支持用户通过多种不同的输入模式进行虚拟音描述信息的输入，输入模式包括但不限于：图像输入模式、文本输入模式等。在图像输入模式下的输入可以包括：包含目标对象的图片，该目标对象为具备用户所期望合成的音的对象；在文本输入模式下的输入可以包括：从各音维度描述用户所期望合成的音的描述文本。显然，本技术丰富了虚拟音描述信息的输入方式，用户可以通过图像、文本等不同形式输入虚拟音的描述信息，极大方便了用户的日常使用。
46.接下来，本技术实施例对上述步骤s100，获取用户通过设定输入模式所输入的待合成语音的虚拟音描述信息的过程进行介绍。
47.本技术可以支持用户通过多种不同的输入模式进行虚拟音描述信息的输入，输入模式包括但不限于：图像输入模式、语音输入模式、文本输入模式、标准格式输入模式。
48.对于不同的输入模式，本技术可以提供匹配的处理方法，以基于用户在不同输入模式下输入的数据进行处理，得到最终的虚拟音描述信息。
49.参照图2所示，其示例了一种多输入模式下获取虚拟音描述信息的处理流程。
50.为了能够区分不同的输入模式，本技术可以设置输入模式分类系统，用于确定当前用户选择的输入模式。一种可选的实施方式中，输入模式分类系统可以采用交互界面上的标签区分，也即，可以在用户交互界面上提供不同输入模式的入口标签，用户可以选择对应的入口标签，进而按照入口标签对应的输入模式进行数据的输入。示例如，可以在用户交互界面上提供图像输入模式入口标签、语音输入模式入口标签、文本输入模式入口标签、标准格式输入模式入口标签。
51.接下来，分别对上述示例的各输入模式，以及不同输入模式下获取虚拟音描述信息的处理流程进行介绍。
52.1、图像输入模式：
53.在图像输入模式下的输入可以包括：包含目标对象的图片。其中，所述目标对象为具备用户所期望合成的音的对象。
54.其中，目标对象可以是人物、卡通形象等。示例如，用户想要合成汪汪队莱德队长的音的声音，可以获取包含汪汪队莱德队长形象的图片作为输入。
55.为了能够基于用户输入的目标图片，分析得到虚拟音描述信息，本技术实施例可以预先设置图像分析模型，以对输入的目标图片进行分析处理，得到匹配的虚拟音描述信息。
56.其中，图像分析模型可以是，以训练图像作为训练样本，以训练图像中包含的对象所属的各音维度的描述标签作为样本标签，训练得到。
57.图像分析模型可以采用多标签分类模型，其可以是dnn、cnn、rnn等神经网络结构，
能够对输入图像进行多个维度的分类，其中多个维度可以是多个音描述维度，示例如：性别、年龄、语言、口语、性格、职业等。
58.结合图3所示，其提供了一种图像分析模型的处理过程示意图。
59.将目标图像输入至图像分析模型后，即可输出各音维度的描述标签，由各音维度的描述标签组成虚拟音描述信息。
60.以“汪汪队莱德队长”的图像作为输入目标图像为例，通过图像分析模型可以得出各音维度的标签包括：男、20岁以下、中文、普通话、自信、学生。
61.2、语音输入模式：
62.在语音输入模式下的输入可以包括：具备用户所期望合成的音的模板语音，或，从各音维度描述用户所期望合成的音的描述语音。
63.具体地，用户在语音输入模式下可以输入模板语音或描述语音。其中，模板语音是指，具备用户所期望合成的音的语音，示例如，用户想要合成汪汪队莱德队长的音的语音，则可以获取一段汪汪队莱德队长的语音作为模板语音输入。
64.描述语音是指，用户从各个音维度描述所期望合成的音的描述语音，示例如，用户可以说一段描述自己喜爱音的描述语音，如：“我喜欢的声音是一个十岁左右的男生，他说中文普通话，是一名性格自信的小学生”。
65.对于模板语音和描述语音，可以通过不同的处理方式进行处理，以得到最终的虚拟音描述信息。为此，本技术首先需要确定用户在语音输入模式下所输入的目标语音属于模板类型还是描述类型，进而按照对应的处理方式进行后续处理。
66.对于上述区分输入的目标语音的类型的过程，一种可选的实现方式中，本实施例可以预先训练一个语音分类模型，用于对输入的目标语音进行分类，以确定输入的目标语音是属于模板类型还是描述类型。
67.其中，语音分类模型可以是，以标注有语音分类结果标签的训练语音作为训练数据训练得到。
68.语音分类模型可以采用单标签分类模型，其可以是dnn、cnn、rnn等神经网络结构，能够对输入目标语音进行类别的判别。
69.结合图4所示，其提供了一种语音分类模型的处理过程示意图。
70.将目标语音输入至语音分类模型后，即可输出目标语音的分类结果，即属于模板类型还是描述类型。
71.在确定了输入的目标语音的类别之后，进一步介绍对模板语音和描述语音各自的处理流程。
72.对于模板语音：
73.本技术可以预先训练一个模板语音分析模型，用于当输入的目标语音属于模板语音时，对该目标语音进行处理，以得到模板语音分析模型输出的各音维度的描述标签，由各音维度的描述标签组成虚拟音描述信息。
74.其中，模板语音分析模型可以是，以训练语音作为训练样本，以训练语音对应的各音维度的描述标签作为样本标签，训练得到。
75.模板语音分析模型可以采用多标签分类模型，其可以是dnn、cnn、rnn等神经网络结构，能够对输入图像进行多个维度的分类，其中多个维度可以是多个音描述维度，示例
如：性别、年龄、语言、口语、性格、职业等。
76.结合图5所示，其提供了一种模板语音分析模型的处理过程示意图。
77.将目标语音输入至模板语音分析模型后，即可输出各音维度的描述标签，由各音维度的描述标签组成虚拟音描述信息。
78.以“汪汪队莱德队长”的语音作为输入目标语音为例，通过模板语音分析模型可以得出各音维度的标签包括：男、20岁以下、中文、普通话、自信、学生。
79.对于描述语音：
80.若输入的目标语音属于描述语音，则将目标语音识别为描述文本，并按照所述描述文本确定待合成语音的虚拟音描述信息。
81.具体地，本技术可以预先训练语音识别模型，用于对目标语音进行识别，得到识别文本，该识别文本也即对虚拟音的描述文本。进一步地，可以按照文本输入模式下的处理方式，基于该描述文本确定虚拟音描述信息，详细过程参照下文对文本输入模式的介绍。
82.本实施例中预训练的语音识别模型，可以是基于声学模型、语言模型、解码器的语音识别系统，也可以是基于编码器、解码器的端到端语音识别系统。
83.3、文本输入模式：
84.在文本输入模式下的输入可以包括：从各音维度描述用户所期望合成的音的描述文本。
85.具体地，用户在语音输入模式下输入的描述文本是指，对用户所期望合成的音的文本描述信息，示例如用户可以在文本输入模式下输入如下文本信息：“我喜欢的声音是一个十岁左右的男生，他说中文普通话，是一名性格自信的小学生”。
86.为了能够基于用户输入的目标文本，分析得到虚拟音描述信息，本技术实施例可以预先设置语义分析模型，以对输入的目标文本进行分析处理，得到匹配的虚拟音描述信息。
87.其中，语义分析模型可以，以训练文本作为训练样本，以训练文本包含的各音维度的描述标签作为样本标签，训练得到。
88.语义分析模型可以采用实体抽取模型，能够从输入的目标文本中抽取各类型的实体词，其中多个类型可以是多个音描述维度，示例如：性别、年龄、语言、口语、性格、职业等。
89.结合图6所示，其提供了一种语义分析模型的处理过程示意图。
90.将目标文本输入至语义分析模型后，即可输出目标文本中属于各音维度的描述标签的标注结果，由各标注结果组成虚拟音描述信息。
91.以“我喜欢的声音是一个十岁左右的男生，他说中文普通话，是一名性格自信的小学生”作为输入目标文本为例，通过语义分析模型可以得出各音维度的描述标签包括：男、十岁、中文、普通话、自信、学生。
92.其中，语义分析模型可以采用多种网络结构，示例如采用lstm网络结构等，对实体的标注方式可以有多种，示例如采用bio等标注形式。
93.4、标准格式输入模式：
94.在标准格式输入模式下的输入可以包括：用户对输入界面显示的各音维度的备选描述标签的选取操作。
95.具体地，本技术可以对用户提供输入界面，在该输入界面上显示有各个音维度的备选描述标签，用于供用户选择。
96.参照图7所示，其示例了一种标准格式输入界面示意图。
97.在每一音维度下，提供有若干个备选描述标签，用户可以自行选择，由最终用户选择的各音维度下的描述标签，组成虚拟音描述信息。
98.示例如，当用户选择了性别维度下的“男”，年龄维度下的“20岁以下”，语言维度下的“汉语”，口音维度下的“普通话”，性格维度下的“刚毅”，职业维度下的“学生”时，即可得到各音维度的标签包括：男、20岁以下、汉语、普通话、刚毅、学生，并组合为虚拟音描述信息。
99.上述示例的几种不同的输入模式下，分别用到了不同的模型进行数据处理，如：图像分析模型、语音分类模型、模板语音分析模型、语音识别模型、语义分析模型等，上述各模型可以是一个完整的模型中的各个不同的功能模块，也可以是单独的多个不同的功能模块。
100.在本技术的一些实施例中，进一步对上述步骤s110，基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征的过程进行介绍。
101.本技术可以预先训练音编码预测模型，用于对虚拟音描述信息进行编码预测，得到虚拟音描述信息匹配的虚拟音编码特征。
102.在此基础上，步骤s110的具体实现过程可以包括：
103.将所述虚拟音描述信息输入预训练的音编码预测模型，得到所述音编码预测模型输出的虚拟音编码特征；
104.结合图8所示，音编码预测模型输出的虚拟音编码特征送入声学模型，并配合声码器，得到最终的合成语音。
105.本实施例中，音编码预测模型可以是与声学模型联合训练的。
106.为了对音编码预测模型和声学模型进行联合训练，本技术实施例中可以预先收集训练集，训练集包括不同发音人的训练语音、与训练语音匹配的虚拟音描述文本，以及待合成的训练文本。
107.在此基础上，对上述联合训练过程进行介绍，可以包括如下步骤：
108.s1、将训练集中训练语音的虚拟音描述信息输入音编码预测模型，得到训练语音的虚拟音编码特征。
109.具体地，可以将虚拟音描述信息对应的文本特征输入音编码预测模型，由音编码预测模型提取更高层级的编码特征，作为训练语音的虚拟音编码特征。
110.其中，音编码预测模型可以采用预训练语言模型如bert等结构。
111.s2、将所述训练语音的虚拟音编码特征，及待合成的训练文本输入声学模型，得到声学模型输出的声学特征，并利用声码器将所述声学特征转换为语音信号。
112.s3、计算所述语音信号与所述训练语音间的损失，并按照损失对所述音编码预测模型和所述声学模型进行联合训练，直至达到训练结束条件为止。
113.本实施例中通过对音编码预测模型和声学模型联合进行训练，使得音编码预测模型能够基于输入的虚拟音描述信息，预测输出更能够表征虚拟音描述信息所对应的训练语音的音的编码特征。
114.进一步可选的，为了提升合成语音音的多样性，在前述实施例步骤s120，采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成之前，本技术实施例还可以进一步增加如下处理步骤：
115.对所述虚拟音编码特征进行扰动采样，得到扰动采样后的虚拟音编码特征。
116.音编码预测模型得到的虚拟音编码特征可以看作是一个均值信息，为了提升合成语音音的多样性，本实施例中可以对虚拟音编码特征进行扰动采样，进而将扰动采样后的虚拟音编码特征送入声学模型进行语音合成，使得最终得到的合成语音的音更加多样性。
117.下面对本技术实施例提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。
118.参见图9，图9为本技术实施例公开的一种语音合成装置结构示意图。
119.如图9所示，该装置可以包括：
120.音描述信息获取单元11，用于获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种，其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；
121.音编码单元12，用于基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；
122.语音合成单元13，用于采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。
123.可选的，上述音描述信息获取单元获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息的过程，其中输入模式还可以包括：
124.语音输入模式和标准格式输入模式中的至少一种；
125.所述语音输入模式下的输入包括：具备用户所期望合成的音的模板语音，或，从各所述音维度描述用户所期望合成的音的描述语音；
126.所述标准格式输入模式下的输入包括：用户对输入界面显示的各音维度的备选描述标签的选取操作。
127.可选的，上述音描述信息获取单元获取用户通过所述图像输入模式所输入的待合成语音的虚拟音描述信息的过程，可以包括：
128.将用户在所述图像输入模式下所输入的目标图片输入至预训练的图像分析模型，得到图像分析模型输出的各音维度的描述标签，由所述各音维度的描述标签组成虚拟音描述信息。
129.可选的，上述图像分析模型可以是，以训练图像作为训练样本，以训练图像中包含的对象所属的各音维度的描述标签作为样本标签，训练得到。
130.可选的，上述音描述信息获取单元获取用户通过所述语音输入模式所输入的待合成语音的虚拟音描述信息的过程，可以包括：
131.确定用户在所述语音输入模式下所输入的目标语音属于模板语音还是描述语音；
132.若所述目标语音属于模板语音，则将所述目标语音输入至预训练的模板语音分析模型，得到模板语音分析模型输出的各音维度的描述标签，由所述各音维度的描述标签组成虚拟音描述信息；
133.若所述目标语音属于描述语音，则将所述目标语音识别为描述文本，并按照所述描述文本确定待合成语音的虚拟音描述信息。
134.可选的，上述模板语音分析模型可以是，以训练语音作为训练样本，以训练语音对应的各音维度的描述标签作为样本标签，训练得到。
135.可选的，上述音描述信息获取单元确定用户在所述语音输入模式下所输入的目标语音属于模板语音还是描述语音的过程，可以包括：
136.将用户在所述语音输入模式下所输入的目标语音输入至预训练的语音分类模型，得到语音分类模型输出的分类结果，所述分类结果包括：属于模板语音或属于描述语音。
137.可选的，上述语音分类模型可以是，以标注有语音分类结果标签的训练语音作为训练数据训练得到。
138.可选的，上述音描述信息获取单元获取用户通过所述文本输入模式所输入的待合成语音的虚拟音描述信息的过程，可以包括：
139.将用户在所述文本输入模式下所输入的目标文本输入至预训练的语义分析模型，得到语义分析模型输出的所述目标文本中属于各音维度的描述标签的标注结果，由各标注结果组成虚拟音描述信息。
140.可选的，上述语义分析模型可以是，以训练文本作为训练样本，以训练文本包含的各音维度的描述标签作为样本标签，训练得到。
141.可选的，上述音编码单元基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征的过程，可以包括：
142.将所述虚拟音描述信息输入预训练的音编码预测模型，得到所述音编码预测模型输出的虚拟音编码特征。
143.可选的，所述音编码预测模型与所述声学模型联合训练，本技术装置还可以包括模型训练单元，用于对所述音编码预测模型与所述声学模型进行联合训练，该过程可以包括：
144.将训练集中训练语音的虚拟音描述信息输入音编码预测模型，得到训练语音的虚拟音编码特征；
145.将所述训练语音的虚拟音编码特征，及待合成的训练文本输入声学模型，得到声学模型输出的声学特征，并利用声码器将所述声学特征转换为语音信号；
146.计算所述语音信号与所述训练语音间的损失，并按照损失对所述音编码预测模型和所述声学模型进行联合训练，直至达到训练结束条件为止。
147.可选的，本技术的装置还可以包括：扰动采样单元，用于在所述语音合成单元采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成之前，对所述虚拟音编码特征进行扰动采样。在此基础上，语音合成单元具体用于：
148.采用声学模型，基于待合成文本及扰动采样后的虚拟音编码特征进行语音合成。
149.本技术实施例提供的语音合成装置可应用于语音合成设备，如终端、服务器等。可
选的，图10示出了语音合成设备的硬件结构框图，参照图10，语音合成设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；
150.在本技术实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；
151.处理器1可能是一个中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；
152.存储器3可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；
153.其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：
154.获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种；
155.其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；
156.基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；
157.采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。
158.可选的，所述程序的细化功能和扩展功能可参照上文描述。
159.本技术实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：
160.获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种；
161.其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；
162.基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；
163.采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。
164.可选的，所述程序的细化功能和扩展功能可参照上文描述。
165.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
166.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。
167.对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种语音合成方法，其特征在于，包括：获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种；其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。2.根据权利要求1所述的方法，其特征在于，所述输入模式还包括：语音输入模式和标准格式输入模式中的至少一种；所述语音输入模式下的输入包括：具备用户所期望合成的音的模板语音，或，从各所述音维度描述用户所期望合成的音的描述语音；所述标准格式输入模式下的输入包括：用户对输入界面显示的各音维度的备选描述标签的选取操作。3.根据权利要求1所述的方法，其特征在于，获取用户通过所述图像输入模式所输入的待合成语音的虚拟音描述信息，包括：将用户在所述图像输入模式下所输入的目标图片输入至预训练的图像分析模型，得到图像分析模型输出的各音维度的描述标签，由所述各音维度的描述标签组成虚拟音描述信息。4.根据权利要求1所述的方法，其特征在于，获取用户通过所述文本输入模式所输入的待合成语音的虚拟音描述信息，包括：将用户在所述文本输入模式下所输入的目标文本输入至预训练的语义分析模型，得到语义分析模型输出的所述目标文本中属于各音维度的描述标签的标注结果，由各标注结果组成虚拟音描述信息。5.根据权利要求2所述的方法，其特征在于，获取用户通过所述语音输入模式所输入的待合成语音的虚拟音描述信息，包括：确定用户在所述语音输入模式下所输入的目标语音属于模板类型还是描述类型；若所述目标语音属于模板类型，则将所述目标语音输入至预训练的模板语音分析模型，得到模板语音分析模型输出的各音维度的描述标签，由所述各音维度的描述标签组成虚拟音描述信息；若所述目标语音属于描述类型，则将所述目标语音识别为描述文本，并按照所述描述文本确定待合成语音的虚拟音描述信息。6.根据权利要求5所述的方法，其特征在于，所述确定用户在所述语音输入模式下所输入的目标语音属于模板类型还是描述类型，包括：将用户在所述语音输入模式下所输入的目标语音输入至预训练的语音分类模型，得到语音分类模型输出的分类结果，所述分类结果包括：属于模板类型或属于描述类型。
7.根据权利要求1-6任一项所述的方法，其特征在于，基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征的过程，包括：将所述虚拟音描述信息输入预训练的音编码预测模型，得到所述音编码预测模型输出的虚拟音编码特征。8.根据权利要求7所述的方法，其特征在于，所述音编码预测模型与所述声学模型联合训练，联合训练的过程，包括：将训练集中训练语音的虚拟音描述信息输入音编码预测模型，得到训练语音的虚拟音编码特征；将所述训练语音的虚拟音编码特征，及待合成的训练文本输入声学模型，得到声学模型输出的声学特征，并利用声码器将所述声学特征转换为语音信号；计算所述语音信号与所述训练语音间的损失，并按照损失对所述音编码预测模型和所述声学模型进行联合训练，直至达到训练结束条件为止。9.根据权利要求7所述的方法，其特征在于，在所述采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成之前，该方法还包括：对所述虚拟音编码特征进行扰动采样；所述采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，包括：采用声学模型，基于待合成文本及扰动采样后的虚拟音编码特征进行语音合成。10.根据权利要求1-6任一项所述的方法，其特征在于，所述至少一个音维度包括：性别、年龄、语言、口语、性格、职业中的至少一个。11.一种语音合成装置，其特征在于，包括：音描述信息获取单元，用于获取用户通过设定的输入模式所输入的待合成语音的虚拟音描述信息，所述虚拟音描述信息包括从至少一个音维度对所述待合成语音的音的描述信息，所述输入模式至少包括图像输入模式和文本输入模式中的一种，其中，所述图像输入模式下的输入包括：包含目标对象的图片，所述目标对象为具备用户所期望合成的音的对象；所述文本输入模式下的输入包括：从各所述音维度描述用户所期望合成的音的描述文本；音编码单元，用于基于所述虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到虚拟音编码特征；语音合成单元，用于采用声学模型，基于待合成文本及所述虚拟音编码特征进行语音合成，得到合成语音。12.一种语音合成设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储程序；所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的语音合成方法的各个步骤。13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的语音合成方法的各个步骤。

技术总结

本申请公开了一种语音合成方法、装置、设备及存储介质，本申请支持用户输入待合成语音的虚拟音描述信息，该虚拟音描述信息包括从至少一个音维度对待合成语音的音的描述信息，在此基础上，本申请基于虚拟音描述信息中包含的各音维度的描述信息进行音编码，得到与虚拟音描述信息匹配的虚拟音编码特征，进而采用声学模型，基于待合成文本及虚拟音编码特征进行语音合成，得到最终的合成语音。按照本申请的语音合成方案，用户可以根据自己的喜好定义音描述信息，并最终生成符合用户定义的音的合成语音，使得合成语音更加个性化、更加有亲近感，也满足了用户在不同场景下对合成语音的音的个性化需求。不同场景下对合成语音的音的个性化需求。不同场景下对合成语音的音的个性化需求。