重音标注生成方法、语音合成方法及相关装置与流程

1.本发明涉及语音合成技术领域，具体而言，涉及一种重音标注生成方法、语音合成方法及相关装置。

背景技术：

2.随着人工智能(artificial intelligence，ai)技术的发展，语音合成(text to speech，tts)技术越来越收到人们的重视，利用tts技术可以将任意文本信息转换成相应语音。
3.目前，通常是采用语音合成模型来实现语音的合成，但在训练语音合成模型的过程中，需人工对训练文本中的音节进行重音标注，时间成本较高，并且重音标注的准确度也受限于操作人员的语言学知识，影响训练后的语音合成模型所合成的语音的节奏和表现力。

技术实现要素：

4.为了克服现有技术的不足，本发明实施例提供一种重音标注生成方法、语音合成方法及相关装置，其能够降低重音标注的时间成本，提高重音标注的准确性，保障训练后的音合成模型所合成的语音的节奏和表现力。
5.本发明实施例的技术方案可以这样实现：
6.第一方面，本发明实施例提供一种重音标注生成方法，所述方法包括：
7.基于预设文本对应的音频数据，获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间；
8.提取所述音频数据的声学特征；
9.根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间，生成每个所述音节的重音标注。
10.可选地，所述音频数据包括多个语音帧，所述声学特征包括每个所述语音帧的基频，所述根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间，生成每个所述音节的重音标注的步骤包括：
11.针对每个所述音节，根据所述音节的持续时间和每个所述语音帧的产生时间，确定所述音节对应的至少一个目标语音帧，并基于所有所述目标语音帧的基频，生成所述音节的音高曲线，其中，每个所述目标语音帧的产生时间均在所述音节的持续时间之内；
12.基于所有所述目标语音帧的基频，生成所述音节的音高曲线，得到每个所述音节的音高曲线；
13.根据每个所述音节的音高曲线，生成每个所述音节的初始重音标注；
14.利用所述韵律边界和每个所述音节的声调，对每个所述音节的初始重音标注进行处理，得到每个所述音节的重音标注。
15.可选地，所述根据每个所述音节的音高曲线，生成每个所述音节的初始重音标注
的步骤包括：
16.对所有所述音节的音高曲线进行统计分析，得到音高中位数和音高标准差；
17.针对每个所述音节，根据所述音高中位数、所述音高标准差和所述音节的音高曲线的峰值，确定所述音节的初始重音标注。
18.可选地，所述重音标注包括第一标注、第二标注和第三标注，所述第一标注、第二标注和第三标注表征的重音水平依次降低；
19.所述利用所述韵律边界和每个所述音节的声调，对每个所述音节的初始重音标注进行处理，得到每个所述音节的重音标注的步骤包括：
20.针对所有所述音节中的任一待处理音节，若所述待处理音节的初始重音标注为所述第一标注或所述第二标注，则根据所述待处理音节的声调和所述预设文本中位于所述待处理音节之前的每个所述音节的声调，对所述待处理音节的初始重音标注进行处理，得到所述待处理音节的重音标注；
21.若所述待处理音节的初始重音标注为所述第三标注、且所述待处理音节的声调为阳平或上声，则根据所述待处理音节的音高曲线的谷值、所述待处理音节的持续时间以及所述韵律边界，对所述待处理音节的初始重音标注进行处理，得到所述待处理音节的重音标注；
22.遍历每个所述音节，得到每个所述音节的重音标注。
23.可选地，所述重音标注包括第一标注、第二标注和第三标注，所述第一标注、第二标注和第三标注表征的重音水平依次降低，所述方法还包括：
24.将所有所述音节中，所述重音标注为所述第一标注或所述第二标注的音节均作为目标音节；
25.针对每个所述目标音节，根据所述预设文本中位于所述目标音节前后的相邻音节的声调和音高曲线的峰值，判断是否将所述相邻音节的重音标注修改为所述目标音节的重音标注。
26.第二方面，本发明实施例提供一种语音合成方法，所述方法包括：
27.获取参考文本和所述参考文本对应的语言学特征；
28.获取参考音频数据和所述参考音频对应的声学特征；
29.将所述参考文本、所述参考音频数据、所述语言学特征和所述声学特征输入预先训练的语音合成模型，得到所述参考文本对应的具有重音效果的合成语音；
30.其中，用于训练所述语音合成模型的训练样本是基于如前述第一方面所述的重音标注生成方法得到的。
31.第三方面，本发明实施例提供一种重音标注生成装置，所述装置包括：
32.第一获取模块，用于基于预设文本对应的音频数据，获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间；
33.提取模块，用于提取所述音频数据的声学特征；
34.生成模块，用于根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间，生成每个所述音节的重音标注。
35.第四方面，本发明实施例提供一种语音合成装置，所述装置包括：
36.第二获取模块，用于获取参考文本和所述参考文本对应的语言学特征；
frequency，f0)，基频可以表征音高，其可以通过基频检测算法pda进行提取。
72.s103，根据韵律边界、声学特征以及每个音节的声调和持续时间，生成每个音节的重音标注。
73.其中，重音标注表征音节是否发重音以及重音水平。示例地，可以通过对音节标记2、1或0，来得到音节的重音标注，当音节被标记为2时，表示该音节需发强重音(strongly stressed)，当音节被标记为1时，表示该音节发正常重音(regularly stressed)，当音节被标记为0时，表示该音节不发重音(unstressed)。
74.需要注意地是，上述实施例的方法主要对音频数据的中文录音内容对应的每个音节进行重音标注，对于英文及中英文混合录音内容，则直接对非中文部分进行重音置零，即标记为0，表示该部分不发重音。
75.下面将对步骤s103进行详细介绍。
76.请参照图2，步骤s103包括子步骤s103-1～s103-3。
77.s103-1，针对每个音节，根据音节的持续时间和每个语音帧的产生时间，确定音节对应的至少一个目标语音帧，并基于所有目标语音帧的基频，生成音节的音高曲线。
78.其中，每个目标语音帧的产生时间均在音节的持续时间之内。
79.由于不同发音人基频的取值范围不同，例如，男性发音时基频的取值范围一般为55～300赫兹，女性发音时基频的取值范围一般为75～450赫兹，儿童发音时基频的取值范围一般为100～700赫兹。因此，可以根据音频数据中发音人基频的取值范围对每个语音帧的基频进行调整。
80.例如，假设发音人基频的取值范围为55～300赫兹，则对于基频的值大于300赫兹的语音帧，则将这类语音帧的基频的值调整为300赫兹，同样地，对于基频的值低于55赫兹的语音帧，则将这类语音帧的基频的值调整为55赫兹。
81.通常人类对音高的差异感知不是线性的，而是近似对数的，因此，可以采用下述公式将每个语音帧的基频的单位从赫兹归一处理为半音程。
[0082][0083]
公式中，s为处理后的基频，单位为半音程；f0处理前的基频，单位为赫兹；f0
ref
为发音人的基频下限值，单位为赫兹。
[0084]
在本发明实施例中，任一音节对应的所有目标语音帧的基频均经上述处理，由该音节对应的所有目标语音帧的基频拟合成如图3所示的音高曲线，音高曲线的横轴为该音节的持续时间，音高曲线的纵轴为基频。
[0085]
s103-2，根据每个音节的音高曲线，生成每个音节的初始重音标注。
[0086]
可选地，步骤s103-2可以包括子步骤s103-2-1～s103-2-2。
[0087]
s103-2-1，对所有音节的音高曲线进行统计分析，得到音高中位数和音高标准差。
[0088]
其中，音高中位数是指将所有音节的音高曲线上每个时间坐标的基频由小到大排列后，处在中间位置的数或最中间两个数的平均值。
[0089]
音高标准差是指所有音节的音高曲线上所有时间坐标的基频的方差的算数平方根。
[0090]
s103-2-2，针对每个音节，根据音高中位数、音高标准值和音节的音高曲线的峰值，确定音节的初始重音标注。
[0091]
其中，重音标注包括第一标注、第二标注和第三标注，第一标注、第二标注和第三标注表征的重音水平依次降低。
[0092]
可选地，s103-2-2的实现过程可以如下：
[0093]
对于任一音节，将该音节的音高曲线的峰值与预设文本中位于该音节前后的两个相邻音节的音高曲线的峰值进行比较。
[0094]
此时，比较结果存在两种可能的情形，分别是“该音节的音高曲线的峰值同时大于两个相邻音节的音高曲线的峰值”和“该音节的音高曲线的峰值不同时大于两个相邻音节的音高曲线的峰值”。
[0095]
针对前一种情形，需再将该音节的音高曲线的峰值与第一参考值和第二参考值进行比较，根据比较结果确定该音节的初始重音标注。
[0096]
其中，第一参考值和第二参考值是由音高中位数和音高标准值按照下述公式计算的。
[0097]
a＝med+1.5δ
[0098]
b＝med+0.5δ
[0099]
公式中，a为第一参考值，b为第二参考值，med为音高中位数，δ为音高标准差。
[0100]
若比较结果为该音节的音高曲线的峰值大于第一参考值，则将该音节的重音标注设置为第一标注。
[0101]
若比较结果为该音节的音高曲线的峰值大于第二参考值、且不大于第一参考值，则将该音节的重音标注设置为第二标注。
[0102]
若比较结果为该音节的音高曲线的峰值不大于第二参考值，则将该音节的重音标注设置为第三标注。
[0103]
针对后一种情形，即该音节的音高曲线的峰值不大于两个相邻音节的音高曲线的峰值，需将该音节的重音标注设置为第三标注。
[0104]
示例地，可以通过对音节标记2、1或0来实现将音节的重音标注设置为第一标注、第二标注或第三标注。可以理解地，当音节被标记为2时，即音节的重音标注为第一标注，表示音节需发强重音(strongly stressed)，当音节被标记为1时，即音节的重音标注为第二标注，表示该音节发正常重音(regularly stressed)，当音节被标记为0时，即音节的重音标注为第三标注，表示该音节不发重音(unstressed)。
[0105]
s103-3，利用韵律边界和每个音节的声调，对每个音节的初始重音标注进行处理，得到每个音节的重音标注。
[0106]
可选地，步骤s103-3可以包括子步骤s103-3-1～s103-3-2。
[0107]
s103-3-1，针对所有音节中的任一待处理音节，若待处理音节的初始重音标注为第一标注或第二标注，则根据待处理音节的声调和预设文本中位于待处理音节之前的每个音节的声调，对待处理音节的初始重音标注进行处理，得到待处理音节的重音标注。
[0108]
在本发明实施例中，“根据待处理音节的声调和预设文本中位于待处理音节之前的每个音节的声调，对待处理音节的初始重音标注进行处理”的实现过程可以如下：
[0109]
情况一：待处理音节的声调为上声(t3)或轻声(t5)。
[0110]
此时，需将预设文本中位于待处理音节之前、距离最近、且声调不为t5的音节的重音标注设置为待处理音节的初始重音标注，待处理音节的重音标注设置为第三标注。
[0111]
情况二：待处理音节的声调为阳平(t2)。
[0112]
此时，需判断待处理音节满足下述哪些条件：
[0113]
(1)待处理音节不为预设文本中的首个音节；
[0114]
(2)待处理音节为预设文本中的首个音节；
[0115]
(3)待处理音节的音高曲线的后半段每个时间坐标的基频均小于(0.5*音高标准差)。
[0116]
当待处理音节满足条件(1)和(3)时，将预设文本中位于待处理音节之前、距离最近、且声调不为t5的音节的重音标注设置为待处理音节的初始重音标注，待处理音节的重音标注设置为第三标注；
[0117]
当待处理音节满足条件(2)时，直接将待处理音节的重音标注设置为第三标注。
[0118]
可以理解地，对于其他情形，待处理音节最终的重音标注就是其初始重音标注。
[0119]
情况三：待处理音节的声调为去声(t4)。
[0120]
此时，需获取如图4所示的待处理音节的音高曲线的峰值、峰值时间坐标、谷值和谷值时间坐标，采用下述公式计算音高变化率。
[0121][0122]
公式中，slope为音高变化率，max为峰值，min为谷值，t1为峰值时间坐标，t2为谷值时间坐标。
[0123]
需要注意地是，若音高曲线没有明显的峰值和谷值，则将音高曲线中的最大值和最小值视作峰值和谷值。
[0124]
若音高变化率小于10、且预设文本中位于待处理音节之前的相邻音节的声调为t2或t3，则将相邻音节的重音标注设置为待处理音节的初始重音标注，待处理音节的重音标注设置为第三标注。
[0125]
若音高变化率小于10、且预设文本中位于待处理音节之前的相邻音节的声调不为t2或t3，则将待处理音节的重音标注设置为第三标注。
[0126]
若音高变化率大于10、且待处理音节的音高曲线峰值小于(音高中位数+0.75*音高标准差)，则将待处理音节的重音标注设置为第三标注。
[0127]
可以理解地，对于其他情形，待处理音节最终的重音标注就是其初始重音标注。
[0128]
情况四，待处理音节的声调为阴平(t1)。
[0129]
此时，需获取如图5所示的待处理音节的音高曲线的峰值、峰值时间坐标、谷值和谷值时间坐标，采用下述公式计算音高变化率。
[0130][0131]
公式中，slope为音高变化率，max为峰值，min为谷值，t1为峰值时间坐标，t2为谷值时间坐标。
[0132]
需要注意地是，若音高曲线没有明显的峰值和谷值，则将音高曲线中的最大值和
最小值视作峰值和谷值。
[0133]
若音高变化率小于15、且待处理音节的音高曲线峰值小于(音高中位数+0.75*音高标准差)，则将待处理音节的重音标注设置为第三标注。
[0134]
可以理解地，对于其他情形，待处理音节最终的重音标注就是其初始重音标注。
[0135]
s103-3-2，针对所有音节中的任一待处理音节，若待处理音节的初始重音标注为第三标注、且待处理音节的声调为阳平(t2)或上声(t3)，则根据待处理音节的音高曲线的谷值、待处理音节的持续时间以及韵律边界，对待处理音节的初始重音标注进行处理，得到待处理音节的重音标注。
[0136]
在本发明实施例中，“根据待处理音节的音高曲线的谷值、待处理音节的持续时间以及韵律边界，对待处理音节的初始重音标注进行处理”的实现过程可以如下：
[0137]
情况一：待处理音节的声调为上声(t3)。
[0138]
此时，需判断待处理音节满足以下哪些条件：
[0139]
(1)待处理音节的音高曲线的谷值小于预设文本中位于待处理音节前后的两个相邻音节的音高曲线的谷值；
[0140]
(2)待处理音节的音高曲线的谷值是预设文本的所有音节的音高曲线的谷值中的最小值；
[0141]
(3)待处理音节的音高曲线的谷值是其所在最大短语中所有音节的音高曲线的谷值中的最小值；
[0142]
(4)待处理音节的持续时间大于两个相邻音节的持续时间；
[0143]
(5)待处理音节的持续时间大于预设文本的所有音节的持续时间的平均值。
[0144]
当待处理音节满足条件(1)、(2)、(4)和(5)时，将待处理音节的重音标注修改为第一标注。
[0145]
当待处理音节满足条件(1)、(3)、(4)和(5)时，将待处理音节的重音标注修改为第二标注。
[0146]
需注意地是，待处理音节所在的最大短语，是由预设文本中位于待处理音节前后、距离待处理音节最近的两个韵律边界#3确定的。
[0147]
可以理解地，对于其他情形，则其重音标注保持为第三标注。
[0148]
情况二：待处理音节的声调为阳平(t2)。
[0149]
此时，需获取如图6所示的待处理音节的音高曲线的峰值、峰值时间坐标、谷值和谷值时间坐标，采用下述公式计算音高变化率。
[0150][0151]
公式中，slope为音高变化率，max为峰值，min为谷值，t1为谷值时间坐标，t2为峰值时间坐标。
[0152]
需要注意地是，若音高曲线没有明显的峰值和谷值，则将音高曲线中的最大值和最小值视作峰值和谷值。
[0153]
判断待处理音节满足以下哪些条件：
[0154]
(1)音高变化率大于30；
[0155]
(2)t
2-t1的值大于待处理音节的持续时间；
[0156]
(3)待处理音节的持续时间大于(1.75*预设文本的所有音节的持续时间的平均值)；
[0157]
(4)待处理音节的持续时间大于(1.2*预设文本的所有音节的持续时间的平均值)。
[0158]
当待处理音节满足条件(1)、(2)和(3)，将待处理音节的重音标注修改为第一标注。
[0159]
当待处理音节满足条件(1)、(2)和(4)，将待处理音节的重音标注修改为第二标注。
[0160]
可以理解地，对于其他情形，则待处理音节的重音标注保持为第三标注。
[0161]
遍历每个音节，对每个音节均执行步骤s103-3-1～s103-3-2的步骤，得到每个音节的重音标注。
[0162]
为了进一步提升预设文本中每个音节的重音标注的准确性，请参照图7，在步骤s103之后，该重音标注生成方法还包括步骤s104～s105。
[0163]
s104，将所有音节中，重音标注为第一标注或第二标注的音节均作为目标音节。
[0164]
可以理解地，对于重音标注为第三标注的音节则不执行步骤s105。
[0165]
s105，针对每个目标音节，根据预设文本中位于目标音节前后的相邻音节的声调和音高曲线的峰值，判断是否将相邻音节的重音标注修改为目标音节的重音标注。
[0166]
可选地，“根据预设文本中位于目标音节前后的相邻音节的声调和音高曲线的峰值，判断是否将相邻音节的重音标注修改为目标音节的重音标注”的实现过程可以如下：
[0167]
判断目标音节是否满足下述所有条件：
[0168]
(1)目标音节前后的两个相邻音节的声调均为t1或t4；
[0169]
(2)目标音节的音高曲线的峰值与两个相邻音节的音高曲线的峰值之间的差值均小于(0.45*音高标准差)；
[0170]
(3)目标音节的音高曲线的峰值大于(音高中位数+0.45*音高标准差)。
[0171]
当目标音节满足上述所有条件时，将前后两个相邻音节的重音标注均修改为目标音节的重音标注。
[0172]
可以理解地，当目标音节没有同时满足上述所有条件时，则无需将前后两个相邻音节的重音标注修改为目标音节的重音标注。
[0173]
本发明实施例还提供了一种语音合成方法，请参照图8，该语音合成方法包括步骤s201～s202。
[0174]
s201，获取参考文本和参考文本对应的语言学特征。
[0175]
其中，参考文本可以是具有确定身份的任意一个想要转换音的人所发出的语音转换成的说话文本，例如，a说了一句普通话“我爱祖国”，则参考文本就可以是以文字形式表示的“我爱祖国”。
[0176]
参考文本对应的语言学特征包括由参考文本的每个音节的声调组成的声调序列和由参考文本的韵律边界组成的韵律序列。
[0177]
s202，获取参考音频数据和参考音频数据对应的声学特征。
[0178]
参考音频数据可以是需要转换成的音对应的音频数据，例如，可以是录b的声音的音频数据，也可以是c的声音的音频数据。
[0179]
参考音频数据对应的声学特征可以为帧级别的基频特征。
[0180]
s203，将参考文本、参考音频数据、语言学特征和声学特征输入预先训练的语音合成模型，得到参考文本对应的具有重音效果的合成语音。
[0181]
其中，用于训练语音合成模型的训练样本是基于前述的重音标注生成方法得到的。
[0182]
如图9所示，语音合成模型包括前端模型和后端模型，基于前述的重音标注生成方法得到的训练样本主要用于对语音合成模型中的前端模型进行训练。
[0183]
前端模型的整体框架是基于albert模型，其加入了若干与重音相关的先验信息，包括基于词库寻的字词对、韵律序列、声调序列和篇章级别的语境信息。
[0184]
字词对信息{char，{word1,word2,
…
,wordm}}中，wordi表示该句中包含了char的所有词的词向量，例如：句子“中国人民”，中-{中国，中国人，中国人}，国-{中国，国人，《pad》}以此类推。字词对信息经过非线性转换，引入albert模型的transformer层。
[0185]
声调嵌入：每个音节的声调e
tone
＝e
t
(tone
t
)，其中，embedding e
t
是可训练的随机初始化嵌入查表，tone
t
表示t时刻当前字的声调，embedding的size为5，因为声调tone共有五个类别：{t1、t2、t3、t4、t5}。
[0186]
韵律嵌入：每个音节的韵律边界e
prosody
＝e
p
(prosody
t
)，其中，embedding e
p
是可训练的随机初始化嵌入查表，prosody
t
表示t时刻当前音节的韵律边界，embedding的size为3，因为韵律边界共有3个类别：{pw、pph、iph}。
[0187]
章节信息嵌入：在对话语境编码器的类似结构设置中，可以将句窗设置为2，截取当前句子的前两句到当前句的bert embedding作为编码器的输入，得到包含{sentence
t-2
,sentence
t-1
,sentence
t
}的上下文语义信息的输出。
[0188]
根据字词对信息、声调嵌入、韵律嵌入以及章节信息嵌入作为特征，从预训练的albert-chinese-base模型中随机初始化密集层进行finetune(微调、调整)，并使用crf层进行重音标注。
[0189]
在训练过程中，前端模型的任务是最小化句子级的负对数似然损失。
[0190]
在解码阶段，输入参考文本t＝{t1,t2,t3,
…
,tn}至前端模型，得到由文本的各音节的重音标注组成的序列st＝{st1,st2,st3,
…
,stn}，其中，概率最佳的序列st是由viterbi算法获得的。
[0191]
后端模型整体框架是基于改进的durian的模型，参考音频数据通过ipa级别的重音提取器，获得了重音的位置和程度，例如wav：今天天气可真不错—》^1今^1天^1天^0气^0可^2真^1不^0错
–
》，再将前端模型输出的音节级别的重音标注序列st对齐到音素级别上，最终得到ipa级别的重音embedding。
[0192]
将128维的重音embedding与f0 embedding、能量embedding和文本编码器层的输出共同连接起来，并按照音素时长信息做信息的音素级别的对齐，再共同作为durian解码器的输入，最终得到具有重音效果的音频。
[0193]
相较于现有技术，本发明实施例具有以下效果：
[0194]
(1)利用韵律边界、声学特征以及每个音节的声调和持续时间，自动生成每个音节的重音标注，能够降低重音标注的时间成本，提高重音标注的准确性；
[0195]
(2)利用基于本发明实施例提供的重音标注生成方法得到的训练样本训练语音合
成模型中的前端模型，保障语音合成模型所合成的语音的节奏和表现力。
[0196]
为了执行上述方法实施例及各个可能的实施方式中的相应步骤，下面分别给出一种重音标注生成装置100的实现方式和一种语音合成装置200的实现方式。
[0197]
请参照图10，重音标注生成装置100包括第一获取模块101、提取模块102和生成模块103。
[0198]
第一获取模块101用于基于预设文本对应的音频数据，获取预设文本的韵律边界和预设文本中每个音节的声调和持续时间。
[0199]
提取模块102用于提取音频数据的声学特征。
[0200]
生成模块103用于根据韵律边界、声学特征以及每个音节的声调和持续时间，生成每个音节的重音标注。
[0201]
可选地，音频数据包括多个语音帧，声学特征包括每个语音帧的基频，生成模块103具体用于针对每个音节，根据音节的持续时间和每个语音帧的产生时间，确定音节对应的至少一个目标语音帧，并基于所有目标语音帧的基频，生成音节的音高曲线，其中，每个目标语音帧的产生时间均在音节的持续时间之内；根据每个音节的音高曲线，生成每个音节的初始重音标注；利用韵律边界和每个音节的声调，对每个音节的初始重音标注进行处理，得到每个音节的重音标注。
[0202]
可选地，生成模块103在用于根据每个音节的音高曲线，生成每个音节的初始重音标注时，具体用于对所有音节的音高曲线进行统计分析，得到音高中位数和音高标准差；针对每个音节，根据音高中位数、音高标准值和音节的音高曲线的峰值，确定音节的初始重音标注。
[0203]
可选地，重音标注包括第一标注、第二标注和第三标注，第一标注、第二标注和第三标注表征的重音水平依次降低，生成模块103在用于利用韵律边界和每个音节的声调，对每个音节的初始重音标注进行处理，得到每个音节的重音标注时，具体用于针对所有音节中的任一待处理音节，若待处理音节的初始重音标注为第一标注或第二标注，则根据待处理音节的声调和预设文本中位于待处理音节之前的每个音节的声调，对待处理音节的初始重音标注进行处理，得到待处理音节的重音标注；若待处理音节的初始重音标注为第三标注、且待处理音节的声调为阳平或上声，则根据待处理音节的音高曲线的谷值、待处理音节的持续时间以及韵律边界，对待处理音节的初始重音标注进行处理，得到待处理音节的重音标注；遍历每个音节，得到每个音节的重音标注。
[0204]
可选地，重音标注包括第一标注、第二标注和第三标注，第一标注、第二标注和第三标注表征的重音水平依次降低，生成模块103还用于将所有音节中，重音标注为第一标注或第二标注的音节均作为目标音节；针对每个目标音节，根据预设文本中位于目标音节前后的相邻音节的声调和音高曲线的峰值，判断是否将相邻音节的重音标注修改为目标音节的重音标注。
[0205]
请参照图11，语音合成装置200包括第二获取模块201和合成模块202。
[0206]
第二获取模块201用于获取参考文本和参考文本对应的语言学特征。
[0207]
第二获取模块201还用于获取参考音频数据和参考音频数据对应的声学特征。
[0208]
合成模块202用于将参考文本、参考音频数据、语言学特征和声学特征输入预先训练的语音合成模型，得到参考文本对应的具有重音效果的合成语音；其中，用于训练语音合
成模型的训练样本是基于前述的重音标注生成方法得到的。
[0209]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的重音标注生成装置100和语音合成装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0210]
进一步地，本发明实施例还提供了一种计算机设备300。请参照图12，计算机设备300可以包括存储器310和处理器320。
[0211]
其中，处理器320可以是一个通用的中央处理器(central processing unit，cpu)，微处理器，特定应用集成电路(application-specific integrated circuit，asic)，或一个或多个用于控制上述方法实施例提供的重音标注生成方法，和/或，语音合成方法的程序执行的集成电路。
[0212]
存储器310可以是rom或可存储静态信息和指令的其它类型的静态存储设备，ram或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmabler-only memory，eeprom)、只读光盘(compactdisc read-only memory，cd-rom)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器310可以是独立存在，通过通信总线与处理器320相连接。存储器310也可以和处理器320集成在一起。其中，存储器310用于存储执行本发明方案的机器可执行指令。处理器320用于执行存储器310中存储的机器可执行指令，以实现上述的方法实施例。
[0213]
本发明实施例还提供一种包含计算机程序的计算机可读存储介质，计算机程序在被执行时可以用于执行上述的方法实施例提供的重音标注生成方法，和/或，语音合成方法中的相关操作。
[0214]
综上，本发明实施例提供了一种重音标注生成方法、语音合成方法及相关装置，首先，基于预设文本对应的音频数据，获取预设文本的韵律边界和预设文本中每个音节的声调和持续时间；然后，提取音频数据的声学特征；最后，根据韵律边界、声学特征以及每个音节的声调和持续时间，生成每个音节的重音标注。由于本发明实施例是利用韵律边界、声学特征以及每个音节的声调和持续时间，自动生成每个音节的重音标注，能够降低重音标注的时间成本，提高重音标注的准确性，进而保障训练后的音合成模型所合成的语音的节奏和表现力。
[0215]
以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

技术特征：

1.一种重音标注生成方法，其特征在于，所述方法包括：基于预设文本对应的音频数据，获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间；提取所述音频数据的声学特征；根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间，生成每个所述音节的重音标注。2.如权利要求1所述的方法，其特征在于，所述音频数据包括多个语音帧，所述声学特征包括每个所述语音帧的基频，所述根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间，生成每个所述音节的重音标注的步骤包括：针对每个所述音节，根据所述音节的持续时间和每个所述语音帧的产生时间，确定所述音节对应的至少一个目标语音帧，并基于所有所述目标语音帧的基频，生成所述音节的音高曲线，其中，每个所述目标语音帧的产生时间均在所述音节的持续时间之内；根据每个所述音节的音高曲线，生成每个所述音节的初始重音标注；利用所述韵律边界和每个所述音节的声调，对每个所述音节的初始重音标注进行处理，得到每个所述音节的重音标注。3.如权利要求2所述的方法，其特征在于，所述根据每个所述音节的音高曲线，生成每个所述音节的初始重音标注的步骤包括：对所有所述音节的音高曲线进行统计分析，得到音高中位数和音高标准差；针对每个所述音节，根据所述音高中位数、所述音高标准差所述音节的音高曲线的峰值，确定所述音节的初始重音标注。4.如权利要求2所述的方法，其特征在于，所述重音标注包括第一标注、第二标注和第三标注，所述第一标注、第二标注和第三标注表征的重音水平依次降低；所述利用所述韵律边界和每个所述音节的声调，对每个所述音节的初始重音标注进行处理，得到每个所述音节的重音标注的步骤包括：针对所有所述音节中的任一待处理音节，若所述待处理音节的初始重音标注为所述第一标注或所述第二标注，则根据所述待处理音节的声调和所述预设文本中位于所述待处理音节之前的每个所述音节的声调，对所述待处理音节的初始重音标注进行处理，得到所述待处理音节的重音标注；若所述待处理音节的初始重音标注为所述第三标注、且所述待处理音节的声调为阳平或上声，则根据所述待处理音节的音高曲线的谷值、所述待处理音节的持续时间以及所述韵律边界，对所述待处理音节的初始重音标注进行处理，得到所述待处理音节的重音标注；遍历每个所述音节，得到每个所述音节的重音标注。5.如权利要求1所述的方法，其特征在于，所述重音标注包括第一标注、第二标注和第三标注，所述第一标注、第二标注和第三标注表征的重音水平依次降低，所述方法还包括：将所有所述音节中，所述重音标注为所述第一标注或所述第二标注的音节均作为目标音节；针对每个所述目标音节，根据所述预设文本中位于所述目标音节前后的相邻音节的声调和音高曲线的峰值，判断是否将所述相邻音节的重音标注修改为所述目标音节的重音标注。
6.一种语音合成方法，其特征在于，所述方法包括：获取参考文本和所述参考文本对应的语言学特征；获取参考音频数据和所述参考音频对应的声学特征；将所述参考文本、所述参考音频数据、所述语言学特征和所述声学特征输入预先训练的语音合成模型，得到所述参考文本对应的具有重音效果的合成语音；其中，用于训练所述语音合成模型的训练样本是基于如权利要求1～5任一项所述的重音标注生成方法得到的。7.一种重音标注生成装置，其特征在于，所述装置包括：第一获取模块，用于基于预设文本对应的音频数据，获取所述预设文本的韵律边界和所述预设文本中每个音节的声调和持续时间；提取模块，用于提取所述音频数据的声学特征；生成模块，用于根据所述韵律边界、所述声学特征以及每个所述音节的声调和持续时间，生成每个所述音节的重音标注。8.一种语音合成装置，其特征在于，所述装置包括：第二获取模块，用于获取参考文本和所述参考文本对应的语言学特征；所述第二获取模块，还用于获取参考音频数据和所述参考音频数据对应的声学特征；合成模块，用于将所述参考文本、所述参考音频数据、所述语言学特征和所述声学特征输入预先训练的语音合成模型，得到所述参考文本对应的具有重音效果的合成语音；其中，用于训练所述语音合成模型的训练样本是基于如权利要求1～5任一项所述的重音标注生成方法得到的。9.一种计算机设备，其特征在于，其包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5任一项所述的重音标注生成方法，和/或，如权利要求6所述的语音合成方法。10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5任一项所述的重音标注生成方法，和/或，如权利要求6所述的语音合成方法。

技术总结

本发明提供一种重音标注生成方法、语音合成方法及相关装置，涉及语音合成领域。所述重音标注生成方法：首先，基于预设文本对应的音频数据，获取预设文本的韵律边界和预设文本中每个音节的声调和持续时间；然后，提取音频数据的声学特征；最后，根据韵律边界、声学特征以及每个音节的声调和持续时间，生成每个音节的重音标注，从而降低重音标注的时间成本，提高重音标注的准确性，进而保障训练后的音合成模型所合成的语音的节奏和表现力。型所合成的语音的节奏和表现力。型所合成的语音的节奏和表现力。