语音合成的方法、设备和存储介质与流程

1.本技术涉及语音合成领域，特别涉及一种语音合成的方法、设备和存储介质。

背景技术：

2.随着语音助手、智能导航、智能客服和电子书等产品的发展，文语转换(text-to-speech，tts)，又称语音合成，在日常生活中越来越常见。
3.相关技术中，采用多个说话人朗读文本的朗读音频作为样本并为每个说话人分配标识进行训练，这样，可以得到能输出多种不同说话人的朗读音频的语音合成模型。在实际应用中，将文本和说话人标识输入语音合成模型中，可以得到相应说话人朗读文本的朗读音频。
4.上述技术中，在模型训练过程中，说话人朗读文本时朗读风格(朗读风格可以包括语速、音高等特点)一般是固定不变的，如果朗读风格改变会导致模型输出的音频混乱。可见，相关技术中的语音合成模型都是只能合成固定说话人(朗读风格和朗读音固定)的朗读音频，缺少一种对音和风格都进行任意选择以合成朗读音频的方案。

技术实现要素：

5.本技术实施例提供了一种语音合成的方法、设备和存储介质，可以解决语音合成效率低的问题，所述技术方案如下：
6.第一方面，提供了一种语音合成的方法，所述方法包括：
7.确定目标文本，并确定所述目标文本的目标朗读音及目标朗读风格；
8.将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型，由所述第一音高语速确定模型输出所述目标文本在所述目标朗读风格下进行朗读时的第一朗读风格特征；
9.将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型，由所述第二音高语速确定模型输出所述目标文本以所述目标朗读音进行朗读的第二朗读风格特征；
10.将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征；
11.将所述融合发音特征和所述目标朗读音的音信息输入预先训练的频谱合成模型，由所述频谱合成模型输出所述目标文本对应的朗读音频。
12.在一种可能的实现方式中，所述将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型，包括：
13.将所述目标文本的所述文本发音特征输入预先训练的第一朗读风格对应的第一音高语速确定模型。
14.在一种可能的实现方式中，所述第一音高语速确定模型和所述第二音高语速确定模型为同一音高语速确定模型，所述音高语速确定模型由多种朗读音在多种朗读风格下
的朗读音频样本进行训练得到，且每种朗读音频样本具有各自对应的朗读音编码；
15.所述将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型，以及所述将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型，包括：
16.将所述目标文本的文本发音特征和所述目标朗读风格对应的朗读音编码输入所述音高语速确定模型，以及将所述目标文本的文本发音特征和所述目标朗读音对应的朗读音编码输入所述音高语速确定模型。
17.在一种可能的实现方式中，所述第一朗读风格特征包括第一音高特征及第一语速特征；所述第二朗读风格特征包括第二音高特征及第二语速特征；
18.所述将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征，包括：
19.根据所述第一音高特征和所述第二音高特征生成融合音高特征；
20.根据所述第一语速特征和所述第二语速特征生成融合语速特征；
21.将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征。
22.在一种可能的实现方式中，所述第一音高特征包括多个第一基频，所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频，所述第二音高特征包括多个第二基频，所述第二基频为所述目标文本以所述目标朗读音进行朗读时各音频帧的基频；
23.所述根据所述第一音高特征和所述第二音高特征生成融合音高特征，包括：
24.确定所述多个第二基频的平均值，确定每个所述第一基频分别与所述平均值的差值，将多个所述差值组成第三音高特征；
25.根据所述第三音高特征对应的第一权重和所述第二音高特征对应的第二权重，对所述第三音高特征和所述第二音高特征进行加权求和，得到融合音高特征，其中，所述第一权重大于所述第二权重。
26.在一种可能的实现方式中，所述第一音高特征包括多个第一基频，所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频，所述第二音高特征包括多个第二基频，所述第二基频为所述目标文本以所述目标朗读音进行朗读时各音频帧的基频；
27.所述根据所述第一音高特征和所述第二音高特征确定融合音高特征，包括：
28.对所述多个第一基频计算平均值得到第一平均值，对所述多个第二基频计算平均值得到第二平均值，确定所述第二音高特征的方差与所述第一音高特征的方差的比值；
29.确定每个所述第一基频分别与所述第一平均值的差值，确定每个所述差值分别与所述比值的乘积，确定每个所述乘积分别与所述第二平均值的和值，将多个所述和值组成的序列作为融合音高特征。
30.在一种可能的实现方式中，所述第一语速特征包括所述目标文本在所述目标朗读风格下进行朗读时各音素的第一音频时长，所述第二语速特征包括所述目标文本以所述目标朗读音进行朗读时各音素的第二音频时长；
31.所述根据所述第一语速特征和所述第二语速特征确定融合语速特征，包括：
32.根据所述第一语速特征对应的权重和所述第二语速特征对应的权重，对所述第一
语速特征和所述第二语速特征进行加权求和，得到融合语速特征，其中，所述第一语速特征对应的权重大于所述第二语速特征对应的权重。
33.在一种可能的实现方式中，所述将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型，包括：
34.确定所述融合音高特征包括的多个融合基频的平均值和方差；
35.确定每个所述融合基频分别与所述平均值的差值，确定每个所述差值分别与预设控制参数相乘并与所述方差相除后所得的数值，确定每个所述数值分别与所述平均值的和值，将多个所述和值组成的序列作为调整后的融合音高特征；
36.将所述调整后的融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型。
37.在一种可能的实现方式中，所述方法还包括：
38.确定所述目标文本对应的音素序列；
39.将所述音素序列输入预先训练的编码器，由所述编码器输出所述目标文本的文本发音特征。
40.在一种可能的实现方式中，频谱合成模型包括解码器和声码器；
41.所述将所述融合发音特征和所述目标朗读音的音信息输入预先训练的频谱合成模型，由所述频谱合成模型输出所述目标文本对应的朗读音频，包括：
42.将所述融合发音特征和所述目标朗读音的音信息输入所述解码器，由所述解码器输出梅尔谱特征；
43.将所述梅尔谱特征输入所述声码器，由所述声码器输出所述目标文本对应的朗读音频。
44.第二方面，提供了一种语音合成的装置，所述装置包括：
45.确定模块，用于确定目标文本，并确定所述目标文本的目标朗读音及目标朗读风格；
46.输入模块，用于将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型，由所述第一音高语速确定模型输出所述目标文本在所述目标朗读风格下进行朗读时的第一朗读风格特征；还用于将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型，由所述第二音高语速确定模型输出所述目标文本以所述目标朗读音进行朗读的第二朗读风格特征；
47.融合模块，用于将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征；
48.合成模块，用于将所述融合发音特征和所述目标朗读音的音信息输入预先训练的频谱合成模型，由所述频谱合成模型输出所述目标文本对应的朗读音频。
49.在一种可能的实现方式中，所述输入模块用于：
50.将所述目标文本的文本发音特征输入预先训练的第一朗读风格对应的第一音高语速确定模型。
51.在一种可能的实现方式中，所述第一音高语速确定模型和所述第二音高语速确定模型为同一音高语速确定模型，所述音高语速确定模型由多种朗读音在多种朗读风格下
的朗读音频样本进行训练得到，且每种朗读音频样本具有各自对应的朗读音编码；
52.所述输入模块，用于将所述目标文本的文本发音特征和所述目标朗读风格对应的朗读音编码输入所述音高语速确定模型，以及将所述目标文本的文本发音特征和所述目标朗读音对应的朗读音编码输入所述音高语速确定模型。
53.在一种可能的实现方式中，所述第一朗读风格特征包括第一音高特征及第一语速特征；所述第二朗读风格特征包括第二音高特征及第二语速特征；
54.所述融合模块，用于根据所述第一音高特征和所述第二音高特征生成融合音高特征；
55.根据所述第一语速特征和所述第二语速特征生成融合语速特征；
56.将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征。
57.在一种可能的实现方式中，所述第一音高特征包括多个第一基频，所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频，所述第二音高特征包括多个第二基频，所述第二基频为所述目标文本以所述目标朗读音进行朗读时各音频帧的基频；
58.所述融合模块，用于确定所述多个第二基频的平均值，确定每个所述第一基频分别与所述平均值的差值，将多个所述差值组成第三音高特征；
59.根据所述第三音高特征对应的第一权重和所述第二音高特征对应的第二权重，对所述第三音高特征和所述第二音高特征进行加权求和，得到融合音高特征，其中，所述第一权重大于所述第二权重。
60.在一种可能的实现方式中，所述第一音高特征包括多个第一基频，所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频，所述第二音高特征包括多个第二基频，所述第二基频为所述目标文本以所述目标朗读音进行朗读时各音频帧的基频；
61.所述融合模块，用于对所述多个第一基频计算平均值得到第一平均值，对所述多个第二基频计算平均值得到第二平均值，确定所述第二音高特征的方差与所述第一音高特征的方差的比值；
62.确定每个所述第一基频分别与所述第一平均值的差值，确定每个所述差值分别与所述比值的乘积，确定每个所述乘积分别与所述第二平均值的和值，将多个所述和值组成的序列作为融合音高特征。
63.在一种可能的实现方式中，所述第一语速特征包括所述目标文本在所述目标朗读风格下进行朗读时各音素的第一音频时长，所述第二语速特征包括所述目标文本以所述目标朗读音进行朗读时各音素的第二音频时长；
64.所述融合模块，用于根据所述第一语速特征对应的权重和所述第二语速特征对应的权重，对所述第一语速特征和所述第二语速特征进行加权求和，得到融合语速特征，其中，所述第一语速特征对应的权重大于所述第二语速特征对应的权重。
65.在一种可能的实现方式中，所述融合模块，用于：
66.确定所述融合音高特征包括的多个融合基频的平均值和方差；
67.确定每个所述融合基频分别与所述平均值的差值，确定每个所述差值分别与预设
控制参数相乘并与所述方差相除后所得的数值，确定每个所述数值分别与所述平均值的和值，将多个所述和值组成的序列作为调整后的融合音高特征；
68.将所述调整后的融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型。
69.在一种可能的实现方式中，所述确定模块，还用于：
70.确定所述目标文本对应的音素序列；
71.将所述音素序列输入预先训练的编码器，由所述编码器输出所述目标文本的文本发音特征。
72.在一种可能的实现方式中，频谱合成模型包括解码器和声码器；
73.所述合成模块，用于将所述融合发音特征和所述目标朗读音的音信息输入所述解码器，由所述解码器输出梅尔谱特征；
74.将所述梅尔谱特征输入所述声码器，由所述声码器输出所述目标文本对应的朗读音频。
75.第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令所述处理器加载并执行以实现如上述第一方面所述的语音合成的方法。
76.第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的语音合成的方法。
77.第五方面，提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，在计算机程序代码被计算机设备执行时，计算机设备执行第一方面及其可能的实现方式的方法。
78.本技术实施例提供的技术方案带来的有益效果至少包括：
79.本技术实施例中，用户可以选择朗读音频的目标朗读音、目标朗读风格和目标文本，然后使用音高语速确定模型、特征融合模型和频谱合成模型合成朗读音频，合成的朗读音频中融入了目标朗读风格的朗读风格特征，还融入了目标朗读音的音信息。在合成过程中，目标朗读音和目标朗读风格是可以任意选择、任意组合的，可见，本技术实施例提供了一种能够对音和风格都进行任意选择以合成朗读音频的方案。
附图说明
80.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
81.图1是本技术实施例提供的一种计算机设备的结构示意图；
82.图2是本技术实施例提供的一种语音合成方法的流程图；
83.图3是本技术实施例提供的一种语音合成方法的算法流程图；
84.图4是本技术实施例提供的一种生成融合发音特征方法的流程图；
85.图5是本技术实施例提供的一种调整融合发音特征方法的流程图；
86.图6是本技术实施例提供的一种模型训练的流程图；
87.图7是本技术实施例提供的一种模型训练的算法流程图；
88.图8是本技术实施例提供的一种语音合成的装置结构图。
具体实施方式
89.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
90.本技术实施例提供的一种语音合成的方法，该方法的执行主体可以为计算机设备，该计算机设备可以是服务器或终端。该计算机设备可以是一个单独的服务器也可以是一个服务器组，如果是单独的服务器，该服务器可以负责下述方案中的所有处理，如果是服务器组，服务器组中的不同服务器分别可以负责下述方案中的不同处理，具体的处理分配情况可以由技术人员根据实际需求任意设置，此处不再赘述。
91.该服务器可以是某应用程序的后台服务器，该应用程序可以是具有文本语音转换(语音合成)功能的应用程序或网站，该应用程序或网站可以是语音合成应用程序或网站等。本技术实施例以应用程序为语音合成程序为例进行方案的详细说明，其他情况与之类似，本实施例不再赘述。
92.图1是本技术实施例提供的一种计算机设备的结构示意图，从硬件组成上来看，计算机设备的结构可以如图1所示，包括处理器110、存储器120和通信部件130。
93.处理器110可以是中央处理器(central processing unit，cpu)或系统级芯片(system on chip，soc)等，处理器110可以用于获取文本发音特征，生成融合发音特征，生成目标文本对应的朗读音频等。
94.存储器120可以包括各种易失性存储器或非易失性存储器，如固态硬盘(solid state disk，ssd)、动态随机存取存储器(dynamic random access memory，dram)内存等。存储器120可以用于存储记录语音合成过程中使用到的初始数据、中间数据和结果数据，例如，待转换为朗读音频的文本，合成的朗读音频，等等。
95.通信部件130可以是有线网络连接器、超宽带技术(ultra wide band，uwb)、无线保真(wireless fidelity，wifi)模块、蓝牙模块、蜂巢网通信模块等。通信部件130可以用于与其他设备进行数据传输，其他设备可以是服务器、也可以是终端等。例如，接收待转换为朗读音频的文本，发送合成的朗读音频，等等。
96.在使用目标朗读音和目标朗读风格进行音频合成时，为了使语音更真实自然，可以在目标朗读风格中融入少量的目标朗读音的朗读风格特征，再进行音频合成。相应的处理流程可以如图2所示，整体算法架构如图3所示。
97.201，确定目标文本，并确定所述目标文本的目标朗读音及目标朗读风格。
98.目标文本可以是字、词或短语，也可以是单一的文本句，还可以是多个文本句等。目标文本可以在文本库中随机获取，或者也可以通过网络爬取的方式获取，或者也可以通过人工录入的方式获取。用户可以在音选项和风格选项中手动设定目标朗读音及目标朗读风格，目标朗读风格可以认为是第一人物朗读目标文本使用的风格，目标朗读音可以认为是第二人物的朗读音，第一人物和第二人物可以是相同人物也可以是不同人物。
99.例如，语音助手中目标文本的获取方式可以为：服务器或终端将问题文本输入问
答模型得到答案文本，作为目标文本。又例如，智能导航中目标文本的获取方式可以为：服务器或终端依据定位的位置和路线，实时生成路线提示文本，作为目标文本。又例如，智能客服中目标文本的获取方式可以为：在接收到终端的指令或者问题后，服务器在文本库中获取相应指令或问题的答复文本，作为目标文本。又例如，生成听书音频的过程中目标文本的获取方式可以为：电子书中所有文本都可以作为目标文本，也可以单独选择某段或某句文本作为目标文本。
100.计算机设备获取目标文本后，首先将目标文本转换为对应的音素序列。之后，将目标文本对应的音素序列输入编码器，输出目标文本的文本发音特征。文本发音特征也可以称作文本编码。
101.202，将目标文本的文本发音特征输入预先训练的第一音高语速确定模型，由第一音高语速确定模型输出目标文本在目标朗读风格下进行朗读时的第一朗读风格特征。
102.其中，音高语速确定模型可以是机器学习模型，如卷积神经网络、循环神经网络和递归神经网络等。音高语速确定模型由多种朗读音在多种朗读风格下的朗读音频样本进行训练得到，且每种朗读音频样本具有各自对应的朗读音编码。朗读音编码可以是一个代号，每个代号是为一种音分配的，与一种音相对应。每个人都有自己独有的音，也就是说每个代号可以与一个人物相对应。另外，可以设置每个人物只对应一种朗读风格，这样，每个代号则可以与一种朗读风格相对应。
103.例如，可以设置朗读风格所属的第一人物的人物代号为0001，即朗读音编码为0001；或者，可以设置朗读风格所属的第一人物的人物代号为speaker1，即朗读音编码为speaker1。
104.音高语速确定模型的训练过程在后面内容中会详细说明。第一朗读风格特征包括第一音高特征及第一语速特征，音高特征可以是目标文本对应的朗读音频中各音频帧的基频，语速特征可以是目标文本对应的朗读音频中各音素的音频时长。
105.第一朗读风格特征的确定方法可以多种多样，下面对其中几种可行的确定方法进行说明：
106.方法一，训练一个可以针对各朗读风格使用的音高语速确定模型，计算机设备可以将目标文本的文本发音特征和目标朗读风格对应的朗读音编码输入音高语速确定模型，音高语速确定模型输出目标文本在目标朗读风格下进行朗读时的第一朗读风格特征。
107.方法二，训练多个针对不同朗读风格使用的音高语速确定模型，计算机设备可以将文本发音特征输入目标朗读风格对应的第一音高语速确定模型，可以输出目标文本在目标朗读风格下进行朗读时的第一朗读风格特征。
108.203，将目标文本的文本发音特征输入预先训练的第二音高语速确定模型，由第二音高语速确定模型输出目标文本以目标朗读音进行朗读的第二朗读风格特征。
109.其中，步骤203与步骤202处理方法相同，可以参见步骤202的相关说明内容，此处不再赘述。
110.第一音高语速确定模型和第二音高语速确定模型可以为同一音高语速确定模型，音高语速确定模型由多种朗读音在多种朗读风格下的朗读音频样本进行训练得到，且每种朗读音频样本具有各自对应的朗读音编码。第一朗读风格特征包括第一音高特征及第一语速特征，第二朗读风格特征包括第二音高特征及第二语速特征。确定的第一朗读风格
特征和第二朗读风格特征用于后续生成融合发音特征。第二朗读风格特征和目标朗读音都属于第二人物。
111.204，将目标文本的文本发音特征、第一朗读风格特征和第二朗读风格特征输入预先设置的特征融合模型，由特征融合模型输出融合发音特征。
112.其中，特征融合模型可以是机器学习模型，如卷积神经网络、循环神经网络和递归神经网络等。特征融合模型可以预先设置，设置过程在后面内容中会详细说明。特征融合模型与可以在训练音高语速确定模型时设置，或者也可以单独设置。融合发音特征融入了目标文本的发音特点和第一人物、第二人物的朗读风格特征。
113.计算机设备可以将目标文本的文本发音特征、第一朗读风格特征和第二朗读风格特征输入特征融合模型，从而得到融合发音特征。由于文本发音特征也可以称为文本编码，则融合发音特征可以认为是融合有第一朗读风格特征和第二朗读风格特征(具体是第一音高特征、第一语速特征、第二音高特征和第二语速特征)的文本编码。
114.融合发音特征的生成方法可以多种多样，下面对其中几种可行的确定方法进行说明：
115.方法一，计算机设备可以将文本发音特征、第一音高特征、第一语速特征、第二音高特征和第二语速特征一起输入特征融合模型，输出融合发音特征。
116.方法二，计算机设备可以分别进行音高特征融合、以及语速特征融合，再将得到的融合音高特征、融合语速特征与文本发音特征输入特征融合模型，输出融合发音特征。音高特征融合和语速特征融合的具体方法在后面内容中进行详细说明。
117.205，将融合发音特征和目标朗读音的音信息输入预先训练的频谱合成模型，由频谱合成模型输出目标文本对应的朗读音频。
118.其中，频谱合成模型为解码器和声码器。音信息可以是与目标朗读音唯一对应的一个代号，该代号可以是为目标朗读音分配的代号，即音代号，也可以是为目标朗读音所属的人物分配的代号，即人物代号。该步骤中输入的音信息可以认为是目标朗读音所属的第二人物的音信息，第二人物和目标朗读风格所属的第一人物可以是不同的人物，也可以是相同的人物。音信息也可以是音特征向量。
119.计算机设备可以将融合发音特征和目标朗读音的音信息输入解码器，由解码器输出梅尔谱特征。然后，计算机设备可以将得到的梅尔谱特征输入声码器，可以输出目标文本对应的朗读音频。按照上述方式生成的朗读音频融入了目标朗读音和目标朗读风格。
120.在得到朗读音频后，后续处理根据使用场景不同也存在差别。例如，语音助手在得到目标文本对应的朗读音频后，直接进行播放；智能导航终端实时播放朗读音频以进行驾驶提示；智能客服在通话中播放朗读音频以回答用户的问题；电子书的应用场景中将生成的朗读音频进行存储，作为听书音频供用户下载。
121.本技术实施例中，用户可以选择朗读音频的目标朗读音、目标朗读风格和目标文本，然后使用音高语速确定模型、特征融合模型和频谱合成模型合成朗读音频，合成的朗读音频中融入了目标朗读风格的朗读风格特征，还融入了目标朗读音的音信息。在合成过程中，目标朗读音和目标朗读风格是可以任意选择、任意组合的，可见，本技术实施例提供了一种能够对音和风格都进行任意选择以合成朗读音频的方案。
122.本技术实施例提供的生成融合发音特征的方法的处理流程可以如图4所示，包括如下步骤：
123.401，根据第一音高特征和第二音高特征生成融合音高特征。
124.其中，第一音高特征包括多个第一基频f01，第一基频为目标文本在目标朗读风格下进行朗读时各音频帧的基频，第二音高特征包括多个第二基频f02，第二基频为目标文本以目标朗读音进行朗读时各音频帧的基频。基于上文的介绍，目标朗读风格对应第一人物，目标朗读音对应第二人物。在设置每个人物只对应一种朗读风格的情况下，以目标朗读音进行朗读时得到的音频帧会具有第二人物的朗读风格。所以，第一基频与第一人物的朗读风格相对应，第二基频与第二人物的朗读风格相对应。
125.音高特征融合实现方法可以多种多样，下面对其中几种可行的融合方法进行说明：
126.方法一，确定多个第二基频f02的平均值mean2，确定每个第一基频f01分别与平均值mean2的差值，如式1所示计算得到多个第三基频f03，此多个第三基频f03组成第三音高特征。
127.f0
1-mean2＝f03………………
式1
128.根据第三基频f03对应的第一权重x1和第二基频f02对应的第二权重x2，对第三基频f03和第二基频f02进行加权求和，如式2所示计算得到多个融合基频f0，此多个融合基频f0组成融合音高特征。其中，第一权重大于第二权重，第一权重和第二权重的关系可以为式3所示。例如，第一权重为0.8，第二权重为0.2。
129.x1×
f01+x2×
mean2＝f0
………………
式2
130.1-x1＝x2………………
式3
131.方法二，确定多个第一基频f01的平均值mean1与方差sigma1、多个第二基频f02的平均值mean2与方差sigma2，如式4所示计算得到第二基频f02的方差sigma2与第一基频f01的方差sigma1的比值y。
[0132][0133]
确定每个第一基频f01分别与平均值mean1的差值，确定每个差值分别与比值y的乘积，确定每个乘积分别与平均值mean2的和值，如式5所示计算得到多个融合基频f0，此多个融合基频f0组成融合音高特征。
[0134]
(f0
1-mean1)
×
y+mean2＝f0
………………
式5
[0135]
402，根据第一语速特征和第二语速特征生成融合语速特征。
[0136]
其中，第一语速特征包括目标文本在目标朗读风格下进行朗读时各音素的第一音频时长t1，第二语速特征包括目标文本以目标朗读音进行朗读时各音素的第二音频时长t2。
[0137]
根据第一音频时长t1对应的权重x3和第二音频时长t2对应的权重x4，对第一音频时长t1和第二音频时长t2进行加权求和，如公式6所示计算得到多个融合时长t，此多个融合时长t组成融合语速特征，其中，第一音频时长t1对应的权重大于第二音频时长t1对应的权重，x3和x4的关系可以为式7所示。
[0138]
x3×
t1+x4×
t2＝t
………………
式6
[0139]
1-x3＝x4………………
式7
[0140]
403，将融合音高特征、融合语速特征和文本发音特征输入预先设置的特征融合模型，由特征融合模型输出融合发音特征。
[0141]
其中，融合音高特征包括多个融合基频，融合语速特征包括多个融合时长。
[0142]
计算机设备可以将融合音高特征、融合语速特征和文本发音特征输入特征融合模型，输出融合发音特征。
[0143]
上述步骤401和402在时序上没有必然的先后关系，可以401在先，也可以402在先，还可以同时执行。
[0144]
本技术实施例还可以对上述的融合音高特征进行调整，以调整朗读音频的语气强弱，相应的，上述步骤403的处理可以如图5所示，包括如下步骤：
[0145]
501，确定融合音高特征包括的多个融合基频的平均值和方差。
[0146]
基于多个融合基频f0，确定多个融合基频f0的平均值mean和方差sigma。
[0147]
502，根据多个融合基频、平均值、方差和预设控制参数，生成调整后的融合音高特征。
[0148]
确定每个融合基频f0分别与平均值mean的差值，确定每个差值分别与预设控制参数a相乘并与方差sigma相除后所得的数值，如式8所示计算得到每个数值分别与平均值的和值f0
′
，此多个和值f0
′
组成调整后的融合音高特征。
[0149][0150]
其中，预设控制参数可以人为设定，预设控制参数越大，根据该预设控制参数调整后的音高特征方差越大，生成语音的音高起伏越大。例如，合成的语音用于朗读电子书。而电子书中在小说文本的“旁白”处不需要很大的音高起伏，但在“对话”处则需要较大的音高起伏，因此，可以对“旁白”文本和“对话”文本设置不同的预设控制参数，“旁白”文本的预设控制参数可以设置为0.8，“对话”文本的预设控制参数可以设置为1.2。
[0151]
503，将调整后的融合音高特征、融合语速特征和文本发音特征输入预先设置的特征融合模型，由特征融合模型输出融合发音特征。
[0152]
计算机设备可以将调整后的融合音高特征、融合语速特征和文本发音特征输入特征融合模型，输出融合发音特征。
[0153]
采用本技术实施例的方法对融合音高特征进行调整，可以调整融合音高特征中基频的方差，从而调整朗读音频的语气强弱，例如，调整融合音高特征，使融合音高特征中基频的方差增大，用该融合音高特征合成出的朗读音频的音高起伏加大，即朗读音频的声音起伏更明显，声音起伏越明显语气越强。
[0154]
本技术实施例中音高语速确定模型为步骤202中的可以针对各朗读风格使用的音高语速确定模型，在本技术实施例中模型训练流程可以如图6所示，包括如下步骤：
[0155]
601，获取样本文本，获取第三人物在第三朗读风格下朗读样本文本的朗读音频，作为基准朗读音频，为基准朗读音频分配朗读音编码。
[0156]
其中，训练需要多个风格的基准朗读音频。属于同一种风格的基准朗读音频由同一个人物进行录制，朗读音编码可以为人物代号，朗读音编码可以用于向音高语速确定模型指示人物对应的朗读风格，向频谱合成模型指示人物对应的朗读音。
[0157]
602，获取样本文本的文本发音特征。
[0158]
步骤702与步骤201处理方法相同，可以参见步骤201的相关说明内容，此处不再赘述。
[0159]
603，确定基准朗读音频的朗读风格特征，作为训练的基准朗读风格特征。
[0160]
基准朗读风格特征包含基准音高特征和基准语速特征。计算机设备在基准朗读音频中提取基频，将基准朗读音频中各音频帧的基频作为基准音高特征。其中，基频的提取方法可以为时域法和频域法等。
[0161]
计算机设备根据样本文本，确定样本文本对应的基准音素序列。计算机设备根据基准音素序列识别出基准朗读音频中每个音素对应的帧数和音频帧的时长，得到基准朗读音频中每个音素的音频时长，将基准朗读音频中每个音素的音频时长组成的序列作为基准语速特征。
[0162]
604，将文本发音特征和基准朗读音频的朗读音编码输入待训练的音高语速确定模型，由待训练的音高语速确定模型输出样本文本在第三朗读风格下进行朗读时的预测朗读风格特征。
[0163]
其中，预测朗读风格特征包含预测音高特征和预测语速特征。
[0164]
605，将预测朗读风格特征和样本文本的文本发音特征输入预先设置的特征融合模型，由预先设置的特征融合模型输出预测融合发音特征。
[0165]
其中，特征融合模型中的参数为技术人员根据经验预先设置。
[0166]
606，将预测融合发音特征和第三人物朗读音的音信息输入频谱合成模型，由待训练的频谱合成模型输出样本文本对应的预测朗读音频。
[0167]
其中，频谱合成模型可以是已经训练完毕的模型。音信息可以是基准朗读音频的朗读音编码。
[0168]
步骤604-606与步骤202-204处理方法相同，可以参见步骤202-204的相关说明内容，此处不再赘述。
[0169]
607，将预测朗读风格特征和基准朗读风格特征输入第一损失函数，由第一损失函数输出第一损失值，将预测朗读音频和基准朗读音频输入第二损失函数，由第二损失函数输出第二损失值。
[0170]
其中，第一损失函数和第二损失函数可以为对应的平方损失函数、对数损失函数或指数损失函数，等等。
[0171]
608，根据第一损失值和第二损失值对待训练的音高语速确定模型和预先设置的特征融合模型进行调参。
[0172]
609，若满足训练结束条件，则将调参后的音高语速确定模型确定为训练完成的音高语速确定模型，并将调参后的特征融合模型确定为设置完成的特征融合模型，若不满足训练结束条件，则获取其他样本文本重新执行上述流程。
[0173]
训练结束条件可以有很多种选择，以下给出几种：
[0174]
条件一，达到指定的训练次数。条件二，各损失值小于指定数值。条件三，各损失值不再有缩小的趋势。条件四，使用一定数量的样本对调参后的各模型进行准确度验证，将预测音高特征与基准音高特征对比，将预测语速特征与基准语速特征对比，将预测朗读音频与基准朗读音频对比，匹配度均达到指定数值。本技术实施例以音高语速确定模型训练与
设置特征融合模型同时进行为例进行说明，特征融合模型可以由技术人员单独进行预先设置，不进行调参。
[0175]
在图7中，示出了音高语速确定模型、特征融合模型和频谱合成模型的内部结构，并示出了上述流程中模型之间的数据传输关系。在本技术实施例中，音高语速确定模型的具体结构中可以包括两个卷积层和一个全连接层，该卷积层由修正线性单元(rectified linear units，relu)激活层、一维卷积层、归一化层和随机失活(dropout)层组成。特征融合模型的具体结构中可以包括一维卷积层和位置编码(positional encoding)层，频谱合成模型的具体结构中可以包括一维转置卷积层、一维膨胀卷积层、门控激活层、1
×
1卷积层和一维卷积层，可以根据实际需求或者实验效果对频谱合成模型的一维膨胀卷积层的数目进行设置。
[0176]
本技术实施例中，用户可以选择朗读音频的目标朗读音、目标朗读风格和目标文本，然后使用音高语速确定模型、特征融合模型和频谱合成模型合成朗读音频，合成的朗读音频中融入了目标朗读风格的朗读风格特征，还融入了目标朗读音的音信息。在合成过程中，目标朗读音和目标朗读风格是可以任意选择、任意组合的，可见，本技术实施例提供了一种能够对音和风格都进行任意选择以合成朗读音频的方案。
[0177]
上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。
[0178]
基于相同的技术构思，本技术实施例还提供了一种语音合成的装置，该装置应用于上述实施例中的计算机设备，如图8所示，该装置包括：
[0179]
确定模块810，用于确定目标文本，并确定目标文本的目标朗读音及目标朗读风格。具体可以实现上述步骤201中的确定功能，以及其他隐含步骤。
[0180]
输入模块820，用于将目标文本的文本发音特征输入预先训练的第一音高语速确定模型，由第一音高语速确定模型输出目标文本在目标朗读风格下进行朗读时的第一朗读风格特征。还用于将目标文本的文本发音特征输入预先训练的第二音高语速确定模型，由第二音高语速确定模型输出目标文本以目标朗读音进行朗读的第二朗读风格特征。具体可以实现上述步骤202-203中的输入功能，以及其他隐含步骤。
[0181]
融合模块830，用于将目标文本的文本发音特征、第一朗读风格特征和第二朗读风格特征输入预先设置的特征融合模型，由特征融合模型输出融合发音特征。具体可以实现上述步骤204中的融合功能，以及其他隐含步骤。
[0182]
合成模块840，用于将融合发音特征和目标朗读音的音信息输入预先训练的频谱合成模型，由频谱合成模型输出目标文本对应的朗读音频。具体可以实现上述步骤205中的合成功能，以及其他隐含步骤。
[0183]
在一种可能的实现方式中，输入模块820用于将目标文本的文本发音特征输入预先训练的第一朗读风格对应的第一音高语速确定模型。
[0184]
在一种可能的实现方式中，第一音高语速确定模型和第二音高语速确定模型为同一音高语速确定模型，音高语速确定模型由多种朗读音在多种朗读风格下的朗读音频样本进行训练得到，且每种朗读音频样本具有各自对应的朗读音编码。
[0185]
输入模块820用于将目标文本的文本发音特征和目标朗读风格对应的朗读音编码输入音高语速确定模型，以及将目标文本的文本发音特征和目标朗读音对应的朗读音
编码输入音高语速确定模型。
[0186]
在一种可能的实现方式中，第一朗读风格特征包括第一音高特征及第一语速特征，第二朗读风格特征包括第二音高特征及第二语速特征。
[0187]
融合模块830用于根据第一音高特征和第二音高特征生成融合音高特征。根据第一语速特征和第二语速特征生成融合语速特征。将融合音高特征、融合语速特征和文本发音特征输入预先设置的特征融合模型，由特征融合模型输出融合发音特征。具体可以实现上述步骤204中的融合功能，以及其他隐含步骤。
[0188]
在一种可能的实现方式中，第一音高特征包括多个第一基频，第一基频为目标文本在目标朗读风格下进行朗读时各音频帧的基频，第二音高特征包括多个第二基频，第二基频为目标文本以目标朗读音进行朗读时各音频帧的基频。
[0189]
融合模块830用于确定多个第二基频的平均值，确定每个第一基频分别与平均值的差值，将多个差值组成第三音高特征。根据第三音高特征对应的第一权重和第二音高特征对应的第二权重，对第三音高特征和第二音高特征进行加权求和，得到融合音高特征，其中，第一权重大于第二权重。具体可以实现上述步骤401中的融合功能，以及其他隐含步骤。
[0190]
在一种可能的实现方式中，第一音高特征包括多个第一基频，第一基频为目标文本在目标朗读风格下进行朗读时各音频帧的基频，第二音高特征包括多个第二基频，第二基频为目标文本以目标朗读音进行朗读时各音频帧的基频。
[0191]
融合模块830用于对多个第一基频计算平均值得到第一平均值，对多个第二基频计算平均值得到第二平均值，确定第二音高特征的方差与第一音高特征的方差的比值。确定每个第一基频分别与第一平均值的差值，确定每个差值分别与比值的乘积，确定每个乘积分别与第二平均值的和值，将多个和值组成的序列作为融合音高特征。具体可以实现上述步骤401中的融合功能，以及其他隐含步骤。
[0192]
在一种可能的实现方式中，第一语速特征包括目标文本在目标朗读风格下进行朗读时各音素的第一音频时长，第二语速特征包括目标文本以目标朗读音进行朗读时各音素的第二音频时长。
[0193]
融合模块830用于根据第一语速特征对应的权重和第二语速特征对应的权重，对第一语速特征和第二语速特征进行加权求和，得到融合语速特征，其中，第一语速特征对应的权重大于第二语速特征对应的权重。具体可以实现上述步骤402中的融合功能，以及其他隐含步骤。
[0194]
在一种可能的实现方式中，融合模块830用于确定融合音高特征包括的多个融合基频的平均值和方差。确定每个融合基频分别与平均值的差值，确定每个差值分别与预设控制参数相乘并与方差相除后所得的数值，确定每个数值分别与平均值的和值，将多个和值组成的序列作为调整后的融合音高特征。将调整后的融合音高特征、融合语速特征和文本发音特征输入预先设置的特征融合模型。具体可以实现上述步骤501-503中的融合功能，以及其他隐含步骤。
[0195]
在一种可能的实现方式中，确定模块810还用于确定目标文本对应的音素序列。将音素序列输入预先训练的编码器，由编码器输出目标文本的文本发音特征。具体可以实现上述步骤201中的确定功能，以及其他隐含步骤。
[0196]
在一种可能的实现方式中，频谱合成模型包括解码器和声码器。合成模块840用于
将融合发音特征和目标朗读音的音信息输入解码器，由解码器输出梅尔谱特征。将梅尔谱特征输入声码器，由声码器输出目标文本对应的朗读音频。具体可以实现上述步骤205中的合成功能，以及其他隐含步骤。
[0197]
本技术实施例中，用户可以选择朗读音频的目标朗读音、目标朗读风格和目标文本，然后使用音高语速确定模型、特征融合模型和频谱合成模型合成朗读音频，合成的朗读音频中融入了目标朗读风格的朗读风格特征，还融入了目标朗读音的音信息。在合成过程中，目标朗读音和目标朗读风格是可以任意选择、任意组合的，可见，本技术实施例提供了一种能够对音和风格都进行任意选择以合成朗读音频的方案。
[0198]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0199]
需要说明的是：上述实施例提供的语音合成的装置在合成语音时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音合成的装置与语音合成的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0200]
在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的语音合成的方法。例如，所述计算机可读存储介质可以是只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、只读光盘存储器(compact disc read-only memory，cd-rom)、磁带、软盘和光数据存储设备等。
[0201]
在示例性实施例中，还提供了一种计算机程序产品，计算机程序产品中包括有至少一条指令，所述至少一条指令由处理器加载并执行以实现语音合成的方法。
[0202]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0203]
以上所述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
[0204]
需要说明的是，本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本技术中涉及到的基准朗读音频都是在充分授权的情况下获取的。

技术特征：

1.一种语音合成的方法，其特征在于，所述方法包括：确定目标文本，并确定所述目标文本的目标朗读音及目标朗读风格；将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型，由所述第一音高语速确定模型输出所述目标文本在所述目标朗读风格下进行朗读时的第一朗读风格特征；将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型，由所述第二音高语速确定模型输出所述目标文本以所述目标朗读音进行朗读的第二朗读风格特征；将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征；将所述融合发音特征和所述目标朗读音的音信息输入预先训练的频谱合成模型，由所述频谱合成模型输出所述目标文本对应的朗读音频。2.根据权利要求1所述的方法，其特征在于，所述第一音高语速确定模型和所述第二音高语速确定模型为同一音高语速确定模型，所述音高语速确定模型由多种朗读音在多种朗读风格下的朗读音频样本进行训练得到，且每种朗读音频样本具有各自对应的朗读音编码；所述将所述目标文本的文本发音特征输入预先训练的第一音高语速确定模型，以及所述将所述目标文本的文本发音特征输入预先训练的第二音高语速确定模型，包括：将所述目标文本的文本发音特征和所述目标朗读风格对应的朗读音编码输入所述音高语速确定模型，以及将所述目标文本的文本发音特征和所述目标朗读音对应的朗读音编码输入所述音高语速确定模型。3.根据权利要求1所述的方法，其特征在于，所述第一朗读风格特征包括第一音高特征及第一语速特征；所述第二朗读风格特征包括第二音高特征及第二语速特征；所述将所述目标文本的文本发音特征、所述第一朗读风格特征和所述第二朗读风格特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征，包括：根据所述第一音高特征和所述第二音高特征生成融合音高特征；根据所述第一语速特征和所述第二语速特征生成融合语速特征；将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征。4.根据权利要求3所述的方法，其特征在于，所述第一音高特征包括多个第一基频，所述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频，所述第二音高特征包括多个第二基频，所述第二基频为所述目标文本以所述目标朗读音进行朗读时各音频帧的基频；所述根据所述第一音高特征和所述第二音高特征生成融合音高特征，包括：确定所述多个第二基频的平均值，确定每个所述第一基频分别与所述平均值的差值，将多个所述差值组成第三音高特征；根据所述第三音高特征对应的第一权重和所述第二音高特征对应的第二权重，对所述第三音高特征和所述第二音高特征进行加权求和，得到融合音高特征，其中，所述第一权重大于所述第二权重。5.根据权利要求3所述的方法，其特征在于，所述第一音高特征包括多个第一基频，所
述第一基频为所述目标文本在所述目标朗读风格下进行朗读时各音频帧的基频，所述第二音高特征包括多个第二基频，所述第二基频为所述目标文本以所述目标朗读音进行朗读时各音频帧的基频；所述根据所述第一音高特征和所述第二音高特征确定融合音高特征，包括：对所述多个第一基频计算平均值得到第一平均值，对所述多个第二基频计算平均值得到第二平均值，确定所述第二音高特征的方差与所述第一音高特征的方差的比值；确定每个所述第一基频分别与所述第一平均值的差值，确定每个所述差值分别与所述比值的乘积，确定每个所述乘积分别与所述第二平均值的和值，将多个所述和值组成的序列作为融合音高特征。6.根据权利要求3所述的方法，其特征在于，所述第一语速特征包括所述目标文本在所述目标朗读风格下进行朗读时各音素的第一音频时长，所述第二语速特征包括所述目标文本以所述目标朗读音进行朗读时各音素的第二音频时长；所述根据所述第一语速特征和所述第二语速特征确定融合语速特征，包括：根据所述第一语速特征对应的权重和所述第二语速特征对应的权重，对所述第一语速特征和所述第二语速特征进行加权求和，得到融合语速特征，其中，所述第一语速特征对应的权重大于所述第二语速特征对应的权重。7.根据权利要求3所述的方法，其特征在于，所述将所述融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型，包括：确定所述融合音高特征包括的多个融合基频的平均值和方差；确定每个所述融合基频分别与所述平均值的差值，确定每个所述差值分别与预设控制参数相乘并与所述方差相除后所得的数值，确定每个所述数值分别与所述平均值的和值，将多个所述和值组成的序列作为调整后的融合音高特征；将所述调整后的融合音高特征、所述融合语速特征和所述文本发音特征输入预先设置的特征融合模型。8.根据权利要求1-7任一项所述的方法，其特征在于，频谱合成模型包括解码器和声码器；所述将所述融合发音特征和所述目标朗读音的音信息输入预先训练的频谱合成模型，由所述频谱合成模型输出所述目标文本对应的朗读音频，包括：将所述融合发音特征和所述目标朗读音的音信息输入所述解码器，由所述解码器输出梅尔谱特征；将所述梅尔谱特征输入所述声码器，由所述声码器输出所述目标文本对应的朗读音频。9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机指令；所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行上述权利要求1-8中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，响应于所述计算机程序代码被计算机设备执行，所述计算机设备执行上述权利要求1-8中任一项所述的方法。

技术总结

本申请公开了一种语音合成的方法、设备和存储介质，属于语音合成领域。所述方法包括：获取目标文本的文本发音特征；将所述文本发音特征输入预先训练的音高语速确定模型，由所述音高语速确定模型输出所述目标文本在第一朗读风格下进行朗读时的第一音高特征和第一语速特征；将所述第一音高特征、所述第一语速特征和所述文本发音特征输入预先设置的特征融合模型，由所述特征融合模型输出融合发音特征；将所述融合发音特征和音信息输入预先训练的频谱合成模型，由所述频谱合成模型输出所述目标文本对应的朗读音频。可见，本申请实施例提供了一种能够对音和风格都进行任意选择以合成朗读音频的方案。以合成朗读音频的方案。以合成朗读音频的方案。