一种音频合成方法、装置、电子设备及存储介质与流程



1.本公开涉及计算机技术领域,尤其涉及一种音频合成方法、装置、电子设备及存储介质。


背景技术:



2.音频合成技术可以将文字信息转化为流畅的语音输出。相关技术在实现音频合成的过程中,以待合成文本直接映射到梅尔频谱的方式得到合成音频,使用这种音频合成方式,合成音频的音高准确度无法调整,音频合成的灵活性差,无法适用于像歌唱合成这种对音高准确度有限制的音频合成场景。


技术实现要素:



3.本公开提供一种音频合成方法、装置、电子设备及存储介质,以至少解决相关技术中音频合成灵活性差,无法适用于对音高准确度有限制的音频合成场景的问题。本公开的技术方案如下:
4.根据本公开实施例的第一方面,提供一种音频方法,包括:
5.获取待合成基频和待合成文本;
6.将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;
7.将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;
8.根据所述预测梅尔频谱得到目标合成音频。
9.在一示例性的实施方式中,所述获取待合成基频包括:
10.获取乐谱数据;
11.确定所述乐谱数据对应的原始基频;
12.对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;
13.将所述调整基频作为所述待合成基频。
14.在一示例性的实施方式中,所述对所述原始基频进行调整,得到所述乐谱数据对应的调整基频包括:
15.将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;
16.对所述基频残差进行调整,得到调整基频残差;
17.计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。
18.在一示例性的实施方式中,所述对所述基频残差进行调整,得到调整基频残差包括:
19.根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;
20.判断所述基频残差是否超过所述半音基频;
21.若所述基频残差超过所述半音基频,则对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。
22.在一示例性的实施方式中,所述获取待合成基频包括:
23.获取用户语音音频;
24.确定所述用户语音音频的语音基频;
25.将所述语音基频作为所述待合成基频。
26.在一示例性的实施方式中,所述方法还包括训练音频合成模型的步骤;所述训练音频合成模型包括:
27.构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;
28.获取训练数据,所述训练数据包括样本数据和参考数据,所述样本数据包括样本文本和样本乐谱数据,所述参考数据包括参考梅尔频谱和参考基频残差;
29.将所述样本文本和所述样本乐谱数据分别输入所述待训练的谱预测模型和待训练的基频残差预测模型,得到训练谱包络信息和训练基频残差;
30.将所述训练谱包络信息和所述训练基频残差输入所述待训练的梅尔频谱预测模型,得到训练梅尔频谱;
31.根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型;所述训练结束时的音频合成模型包括所述谱预测模型、所述基频残差预测模型和所述梅尔频谱预测模型。
32.在一示例性的实施方式中,所述根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型包括:
33.根据所述训练基频残差和所述参考基频残差,确定第一损失值;
34.根据所述训练梅尔频谱和所述参考梅尔频谱,确定第二损失值;
35.根据所述第一损失值和所述第二损失值,确定目标损失值;
36.根据所述目标损失值分别对所述待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数进行调整,直至满足预设训练结束条件,得到所述音频合成模型。
37.根据本公开实施例的第二方面,提供一种音频合成装置,包括:
38.获取单元,被配置为执行获取待合成基频和待合成文本;
39.谱包络预测单元,被配置为执行将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;
40.梅尔频谱预测单元,被配置为执行将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;
41.音频合成单元,被配置为执行根据所述预测梅尔频谱得到目标合成音频。
42.在一示例性的实施方式中,所述获取单元包括:
43.乐谱获取单元,被配置为执行获取乐谱数据;
44.第一确定单元,被配置为执行确定所述乐谱数据对应的原始基频;
45.第一调整单元,被配置为执行对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;将所述调整基频作为所述待合成基频。
46.在一示例性的实施方式中,所述第一调整单元包括:
47.基频残差预测单元,被配置为执行将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;
48.第二调整单元,被配置为执行对所述基频残差进行调整,得到调整基频残差;
49.第一计算单元,被配置为执行计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。
50.在一示例性的实施方式中,所述第二调整单元包括:
51.第二确定单元,被配置为执行根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;
52.判断单元,被配置为执行判断所述基频残差是否超过所述半音基频;
53.调整子单元,被配置为执行在所述基频残差超过所述半音基频时,对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。
54.在一示例性的实施方式中,所述获取单元包括:
55.用户语音音频获取单元,被配置为执行获取用户语音音频;
56.第三确定单元,被配置为执行确定所述用户语音音频的语音基频;将所述语音基频作为所述待合成基频。
57.在一示例性的实施方式中,所述装置还包括用于训练音频合成模型的训练单元,所述训练单元包括:
58.模型构建单元,被配置为执行构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;
59.训练数据获取单元,被配置为执行获取训练数据,所述训练数据包括样本数据和参考数据,所述样本数据包括样本文本和样本乐谱数据,所述参考数据包括参考梅尔频谱和参考基频残差;
60.第一输入单元,被配置为执行将所述样本文本和所述样本乐谱数据分别输入所述待训练的谱预测模型和待训练的基频残差预测模型,得到训练谱包络信息和训练基频残差;
61.第二输入单元,被配置为执行将所述训练谱包络信息和所述训练基频残差输入所述待训练的梅尔频谱预测模型,得到训练梅尔频谱;
62.训练子单元,被配置为执行根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型;所述训练结束时的音频合成模型包括所述谱预测模型、所述基频残差预测模型和所述梅尔频谱预测模型。
63.在一示例性的实施方式中,所述训练子单元包括:
64.第一损失确定单元,被配置为执行根据所述训练基频残差和所述参考基频残差,确定第一损失值;
65.第二损失确定单元,被配置为执行根据所述训练梅尔频谱和所述参考梅尔频谱,
确定第二损失值;
66.目标损失确定单元,被配置为执行根据所述第一损失值和所述第二损失值,确定目标损失值;
67.参数调整单元,被配置为执行根据所述目标损失值分别对所述待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数进行调整,直至满足预设训练结束条件,得到所述音频合成模型。
68.根据本公开实施例的第三方面,提供一种电子设备,包括:
69.处理器;
70.用于存储所述处理器可执行指令的存储器;
71.其中,所述处理器被配置为执行所述指令,以实现如上述任一实施方式所述的音频合成方法。
72.根据本公开实施例的第四方面,提供一种计算机存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一实施方式所述的音频合成方法。
73.根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一种实施方式中提供的音频合成方法。
74.本公开的实施例提供的技术方案至少带来以下有益效果:
75.通过获取待合成基频和待合成文本,将待合成文本输入预先训练的谱预测模型得到谱包络信息,进而将该谱包络信息和待合成基频输入预先训练的梅尔频谱预测模型得到预测梅尔频谱,并根据该预测梅尔频谱得到目标合成音频,可见上述技术方案将待合成基频与谱包络相分离,从而在预测梅尔频谱时允许通过对待合成基频的精准控制来调整所预测的梅尔频谱,最终达到精准控制合成音频的目的,有利于确保合成音频的音高准确度,大大提高了音频合成的灵活性,非常适用于像歌唱合成这种对音高准确度有限制的音频合成场景。
76.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
77.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
78.图1是根据一示例性实施例示出的一种音频合成方法的应用环境图;
79.图2是根据一示例性实施例示出的一种音频合成方法的流程图;
80.图3是根据一示例性实施例示出的另一种音频合成方法的流程图;
81.图4是根据一示例性实施例示出的另一种音频合成方法的流程图;
82.图5是根据一示例性实施例示出的对基频残差进行调整得到调整基频残差的一种可选流程示意图;
83.图6是根据一示例性实施例示出的另一种音频合成方法的流程图;
84.图7是根据一示例性实施例示出的训练音频合成模型的流程示意图;
85.图8是根据一示例性实施例示出的一种音频合成装置的框图;
86.图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
87.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
88.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
89.梅尔频率代表一般人耳对频率的感受度,频率的单位是赫兹(hz),人耳能听到的频率范围是20-20000hz,但人耳对hz这种标度单位并不是线性感知关系。例如如果我们适应了1000hz的音调,如果把音调频率提高到2000hz,我们的耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。如果将普通的频率标度转化为梅尔频率标度,则人耳对频率的感知度就成了线性关系。也就是说,在梅尔频率标度下,如果两段语音的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。梅尔频率与赫兹频率的关系为:f
mel
=1125ln(1+f/700),其中,f
mel
为梅尔频率,f为赫兹频率,将在线性频谱图中加上梅尔滤波函数转换得到的非线性频谱图称之为梅尔频谱。
90.梅尔频谱中同时包含频谱包络和基频信息。基频(fundamental frequency,f0)是指一组正弦波组成原始信号,频率最低的正弦波为基频,其他为泛音;基频与音高存在以下的对应关系:其中,n为音高,p为基频。
91.频谱包络(spectral envelope,sp)即常说的音,是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线。
92.相关技术中以待合成文本直接映射到梅尔频谱的方式合成音频,而梅尔频谱中频谱包络和基频信息同时结合在一起,使得相关技术中的音频合成方法无法对基频做出精准的控制,音频合成的灵活性差,对于合成音频“跑调”的情况无法调整,进而无法适用于像歌唱合成这种对音高准确度有限制的音频合成场景。
93.鉴于此,本公开实施例提供了一种音频合成方法,该方法将待合成基频与谱包络相分离,从而在预测梅尔频谱时允许通过对待合成基频的精准控制来调整所预测的梅尔频谱,最终达到精准控制合成音频的目的,有利于确保合成音频的音高准确度,大大提高了音频合成的灵活性,非常适用于对像歌唱合成这种对音高准确度有限制的音频合成场景。
94.请参阅图1,其所示为根据一示例性实施例示出的一种音频合成方法的应用环境图,该应用环境可以包括终端110和服务器120,该终端110和服务器120之间可以通过有线网络或者无线网络连接。
95.终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端110中可以安装有提供音频合成功能的客户端软件如应用程序(application,简称
为app),该应用程序可以是专门提供音频合成的应用程序,也可以是具有音频合成功能的其他应用程序,例如具有音频合成功能的直播应用程序等等。终端110的用户可以通过预先注册的用户信息登录应用程序,该用户信息可以包括账号和密码。
96.服务器120可以是为终端110中的应用程序提供后台服务的服务器,也可以是与应用程序的后台服务器连接通信的其它服务器,可以是一台服务器,也可以是由多台服务器组成的服务器集。服务器120中可以存储有音频合成模型,该音频合成模型可以包括谱预测模型、基频残差预测模型和梅尔频谱预测模型,服务器120可以按照预定周期对该音频合成模型进行训练更新。终端110在需要进行音频合成时,可以将相应数据发送给服务器120,由服务器120调用音频合成模型根据该数据进行音频合成,并将合成的音频返回给终端110。
97.可以理解的,终端110也可以从服务器120下载音频合成模型,并在本地存储,当需要进行音频合成操作时,终端110可以直接调用本地存储的音频合成模型实施音频合成。
98.由此可见,本公开实施例的音频合成方法可以由电子设备来执行,该电子设备可以是终端或者服务器,可以由终端或者服务器单独执行,也可以是终端和服务器相互配合执行。
99.图2是根据一示例性实施例示出的一种音频合成方法的流程图,如图2所示,以音频合成方法应用于电子设备进行说明,包括以下步骤。
100.在步骤s210中,获取待合成基频和待合成文本。
101.其中,待合成文本可以是歌词文本,待合成基频为用于合成目标合成音频的基频序列。
102.在步骤s220中,将待合成文本输入预先训练的谱预测模型,得到谱包络信息。
103.其中,谱预测模型可以是cbhg(convolution bank+highway network+bidirectionalgated recurrent unit,卷积层+高速网络+双向递归神经网络)模型,也即谱预测模型由1-d卷积滤波器、高速网络以及双向递归神经网络组成,将待合成文本输入至该谱预测模型,通该谱预测模型的隐层输出可以得到谱包络信息,该谱包络信息包括频谱包络和文本内容。
104.对于该谱预测模型的具体训练过程将在本公开实施例的后续部分进行详细介绍。
105.在步骤s230中,将上述谱包络信息和待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱。
106.其中,梅尔频谱预测模型可以是递归神经网络如循环神经网络(rnn,recurrent neuralnetwork),其可以根据输入的谱包络信息和待合成基频预测梅尔频谱。
107.对于该梅尔频谱预测模型的具体训练过程将在本公开实施例的后续部分进行详细介绍。
108.在步骤s240中,根据上述预测梅尔频谱得到目标合成音频。
109.具体的,可以调用声码器将上述预测梅尔频谱转换为音频得到目标合成音频。其中,声码器可以为wavenet、griffin-lim、单层循环神经网络模型wavernn等等,以获取更好的音质,达到与真人讲话接近的音质效果。
110.本公开实施例的上述技术方案将待合成基频与谱包络相分离,从而在预测梅尔频谱时允许通过对待合成基频的精准控制来调整所预测的梅尔频谱,最终达到精准控制合成
音频的目的有利于确保合成音频的音高准确度,大大提高了音频合成的灵活性。
111.作为一个可能的实施方式,待合成基频可以来源于乐谱数据,为了提高目标合成音频的音高与乐谱音高的贴合度,降低目标合成音频出现的“跑调”情形,如图3所示,上述步骤s210在获取待合成基频时可以包括以下步骤:
112.在步骤310中,获取乐谱数据。
113.乐谱是用符号即音符来记录音乐的方法,音符以自身在乐谱中的形状体现相对持续时长即音长,以自身在乐谱中所处的位置表示特定音高。
114.在步骤320中,确定上述乐谱数据对应的原始基频。
115.具体的,可以解析乐谱数据中各音符对应的音高,从而可以得到该乐谱数据的原始基频,该原始基频实质为与乐谱数据中音符一一对应的基频序列。
116.示例性的,对于乐谱数据的解析可以按照基频与音高存在的以下对应关系进行:其中,n代表音符音高,p代表基频。
117.在步骤330中,对上述原始基频进行调整,得到上述乐谱数据对应的调整基频。
118.本公开实施例中,将谱包络与基频相分离,允许对预测梅尔频谱的基频进行调整,从而可以对预测梅尔频谱进行精准控制。
119.作为一个可能的实施方式,为了实现对预测梅尔频谱的精准控制,可以采用图4所示的方法对原始基频进行调整,如图4所示,该方法可以包括:
120.在步骤s410中,将乐谱数据输入预先训练的基频残差预测模型,得到该乐谱数据对应的基频残差。
121.其中,基频残差预测模型可以是长短期记忆网络(long short-term memory,lstm),该基频残差预测模型可以根据输入的乐谱数据预测出该乐谱数据对应的基频残差,可以理解的,该基频残差实质为与乐谱数据中音符一一对应的基频残差序列。
122.关于上述基频残差预测模型的训练将在本公开实施例的后续部分进行说明。
123.在步骤s420中,对上述基频残差进行调整,得到调整基频残差。
124.本公开实施例中,为了使得目标合成音频的音高与乐谱音高具有更高的贴合度,在一个可能的实施方式中可以对预测的基频残差进行限制调整,如图5所示,在对基频残差进行调整得到调整基频残差时可以包括以下步骤:
125.在步骤s510中,根据乐谱数据的原始基频,确定乐谱数据的半音基频。
126.需要说明的是,本公开实施例中乐谱数据的半音基频实质是与乐谱数据中音符一一对应的半音基频序列,该序列中每个半音基频为由上限半音基频和下限半音基频限定的一个范围,其中,上限半音基频和下限半音基频为当前音符的原始基频与左右相邻两个音符的原始基频的差值。
127.举例而言,假设乐谱数据中有三个相邻音符,这三个相邻音符对应的音高分别64、65、66,则根据前述音高与基频的转换公式可以得到这三个音符对应的三个原始基频,比如是340hz、360hz、400hz,那么65和66之间的半音距离为40hz(400hz-360hz),65和64之间的半音距离为20hz(360hz-340hz),所以对于音符音高65而言,其半音基频为-20hz~40hz。
128.在步骤s520中,判断基频残差是否超过上述半音基频。
129.在步骤s530中,若基频残差超过半音基频,则对该基频残差进行调整得到调整基
频残差。
130.其中,调整基频残差不超过乐谱数据的半音基频。
131.具体的,可以对乐谱数据中各音符对应的基频残差和半音基频进行比对,若某个音符的基频残差超过了其相应半音基频,则对该音符的基频残差进行调整以使得调整后的基频残差不超过该音符对应的半音基频。若某个音符的基频残差未超过其相应半音基频,则可以不对该音符的基频残差进行调整。
132.仍以上述对于半音基频的举例进行说明,假设对于音符音高65而言,其对应的基频残差为60hz,则该基频残差超过了相应半音基频-20hz~40hz,此时需要对该基频残差进行调整,使得调整后的调整基频残差在-20hz~40hz范围内。对于基频残差的具体调整幅度可以随机,只要调整后的调整基频残差不超过相应的半音基频即可。
133.本公开的实施例通过上述方法实现了对基频残差的限制调整,有利于对待合成基频的精准控制,保证了目标合成音频中音高的准确度。
134.在步骤s430中,计算上述原始基频与上述调整基频残差的和值,将该和值作为上述乐谱数据对应的调整基频。
135.在步骤340中,将上述调整基频作为待合成基频。
136.本公开的实施例通过对基频残差的限制调整,实现了对待合成基频的精准控制,进而使得基于该待合成基频得到的预测梅尔频谱可以得到精准控制,提高了目标合成音频音高与乐谱音高的贴合度,避免了歌唱合成中“跑调”的问题。
137.作为一个可能的实施方式,为了进一步提高音频合成的灵活性,实现合成任意音调或者风格的音频并提高目标合成音频的自然度,待合成基频可以来源于真人语音,如真人的演唱等,基于此,如图6所示,上述步骤s210在获取待合成基频时可以包括以下步骤:
138.在步骤s610中,获取用户语音音频。
139.在步骤s620中,确定上述用户语音音频的语音基频。
140.具体的,可以采用语言基频识别算法就是将上述用户语音音频信号的基频提取出来,该算法可以包括自相关算法、平行处理法、倒谱法和简化逆滤波法等等。
141.在步骤s630中,将上述语音基频作为待合成基频。
142.通过采用已有的真人语音音频的基频,直接送入梅尔频谱预测模型并结合输入的谱包络信息预测梅尔频谱可以有效提升目标合成音频的自然度,同时还可以合成任意不同音调或者风格的合成音频。
143.作为一个可能的实施方式,本公开实施例的音频合成方法还包括训练音频合成模型,该音频合成模型包括谱预测模型、梅尔频谱预测模型和基频残差预测模型,也即本公开的实施例中对于谱预测模型、梅尔频谱预测模型和基频残差预测模型作为一个整体来训练。下面结合图7对本公开实施例的音频合成模型的训练过程进行详细介绍,该训练过程可以包括以下步骤:
144.(1)构建如图7所示待训练的音频合成模型,该待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型。
145.其中,待训练的谱预测模型可以是cbhg模型,由1-d卷积滤波器、高速网络以及双向递归神经网络组成。待训练的基频残差预测模型可以是长短期记忆网络lstm模型。待训练的梅尔频谱预测模型可以是循环神经网络rnn模型。
146.(2)获取训练数据,该训练数据包括样本数据和参考数据,样本数据包括样本文本和样本乐谱数据,参考数据包括参考梅尔频谱和参考基频残差。
147.其中,参考基频残差可以根据样本乐谱数据的样本原始基频与样本用户语音音频的样本语音基频确定,也即可以将样本原始基频与样本语音基频之间的差值作为参考基频残差。参考梅尔频谱可以从样本合成音频中提取得到,该样本合成音频可以根据需要进行选取,并特殊限定。
148.(3)将样本文本和样本乐谱数据分别输入待训练的谱预测模型和待训练的基频残差预测模型,得到训练谱包络信息和训练基频残差。
149.具体的,在训练过程中,将样本文本作为待训练的谱预测模型的输入得到该待训练的谱预测模型的输出即为训练谱包络信息;将样本乐谱数据作为待训练的基频残差预测模型的输入,得到该待训练的基频残差预测模型的输出即为训练基频残差。
150.(4)将训练谱包络信息和训练基频残差输入待训练的梅尔频谱预测模型,得到训练梅尔频谱。
151.(5)根据训练基频残差、训练梅尔频谱、参考基频残差和参考梅尔频谱对待训练的音频合成模型进行训练,得到训练结束时的音频合成模型,该训练结束时的音频合成模型即包括本公开实施例的前述谱预测模型、基频残差预测模型和梅尔频谱预测模型。
152.具体的实施中该步骤可以包括:
153.根据训练基频残差和参考基频残差确定第一损失值。
154.根据训练梅尔频谱和参考梅尔频谱确定第二损失值。
155.根据第一损失值和第二损失值确定目标损失值。
156.根据上述目标损失值分别对待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数进行调整,直至满足预设训练结束条件,得到音频合成模型。
157.实际应用中,上述第一损失值loss1和第二损失值loss2均可以是均方误差(mse,mean square error)损失,该均方误差mse损失的计算公式如下:
[0158][0159]
其中,yi为训练值,为参考值,n为样本数量。
[0160]
目标损失值loss可以是第一损失值loss1和第二损失值loss2的和值即:
[0161]
loss=loss1+loss2
[0162]
在通过上述公式计算得到目标损失值loss后,可以按照最小化目标损失值loss的方向去反向调整待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数,直至预设训练结束条件。示例性的,预设训练结束条件可以是达到预设迭代次数,也可以是目标损失值达到预设最小损失值。
[0163]
通过本公开实施例的上述方法可以训练得到音频合成模型,该音频合成模型即包括本公开实施例前述的谱预测模型、梅尔频谱预测模型和基频残差预测模型,从而可以基于该音频合成模型实现本公开实施例的音频合成方法,在提高音频合成灵活性的同时还可以实现对音高的精细控制解决合成音频“跑调”的问题,使得合成音频与乐谱音高具有更高的贴合度,非常适用于像歌唱合成这种对音高准确度有限制的场景,
[0164]
图8是根据一示例性实施例示出的一种音频合成装置的框图。参照图8,该装置包括获取单元810,谱包络预测单元820,梅尔频谱预测单元830和音频合成单元840。
[0165]
该获取单元810,被配置为执行获取待合成基频和待合成文本;
[0166]
该谱包络预测单元820,被配置为执行将上述待合成文本输入预先训练的谱预测模型,得到谱包络信息;
[0167]
该梅尔频谱预测单元830,被配置为执行将上述谱包络信息和待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;
[0168]
该音频合成单元840,被配置为执行根据上述预测梅尔频谱得到目标合成音频。
[0169]
在一示例性的实施方式中,上述获取单元810可以包括:
[0170]
乐谱获取单元,被配置为执行获取乐谱数据;
[0171]
第一确定单元,被配置为执行确定上述乐谱数据对应的原始基频;
[0172]
第一调整单元,被配置为执行对上述原始基频进行调整,得到上述乐谱数据对应的调整基频;将该调整基频作为待合成基频。
[0173]
在一示例性的实施方式中,第一调整单元可以包括:
[0174]
基频残差预测单元,被配置为执行将上述乐谱数据输入预先训练的基频残差预测模型,得到该乐谱数据对应的基频残差;
[0175]
第二调整单元,被配置为执行对上述基频残差进行调整,得到调整基频残差;
[0176]
第一计算单元,被配置为执行计算上述原始基频与调整基频残差的和值,将该和值作为上述乐谱数据对应的调整基频。
[0177]
在一示例性的实施方式中,第二调整单元可以包括:
[0178]
第二确定单元,被配置为执行根据上述乐谱数据的原始基频,确定该乐谱数据的半音基频;
[0179]
判断单元,被配置为执行判断上述基频残差是否超过上述半音基频;
[0180]
调整子单元,被配置为执行在上述基频残差超过上述半音基频时,对该基频残差进行调整得到调整基频残差;该调整基频残差不超过上述半音基频。
[0181]
在一示例性的实施方式中,获取单元810可以包括:
[0182]
用户语音音频获取单元,被配置为执行获取用户语音音频;
[0183]
第三确定单元,被配置为执行确定上述用户语音音频的语音基频;将该语音基频作为待合成基频。
[0184]
在一示例性的实施方式中,该装置还可以包括用于训练音频合成模型的训练单元,该训练单元包括:
[0185]
模型构建单元,被配置为执行构建待训练的音频合成模型,该待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;
[0186]
训练数据获取单元,被配置为执行获取训练数据,该训练数据包括样本数据和参考数据,该样本数据包括样本文本和样本乐谱数据,该参考数据包括参考梅尔频谱和参考基频残差;
[0187]
第一输入单元,被配置为执行将上述样本文本和样本乐谱数据分别输入上述待训练的谱预测模型和待训练的基频残差预测模型,得到训练谱包络信息和训练基频残差;
[0188]
第二输入单元,被配置为执行将上述训练谱包络信息和训练基频残差输入上述待训练的梅尔频谱预测模型,得到训练梅尔频谱;
[0189]
训练子单元,被配置为执行根据上述训练基频残差、训练梅尔频谱、参考基频残差和参考梅尔频谱对上述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型;该训练结束时的音频合成模型包括谱预测模型、基频残差预测模型和梅尔频谱预测模型。
[0190]
在一示例性的实施方式中,上述训练子单元可以包括:
[0191]
第一损失确定单元,被配置为执行根据上述训练基频残差和参考基频残差,确定第一损失值;
[0192]
第二损失确定单元,被配置为执行根据上述训练梅尔频谱和参考梅尔频谱,确定第二损失值;
[0193]
目标损失确定单元,被配置为执行根据上述第一损失值和第二损失值,确定目标损失值;
[0194]
参数调整单元,被配置为执行根据上述目标损失值分别对待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数进行调整,直至满足预设训练结束条件,得到上述音频合成模型。
[0195]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0196]
在示例性实施例中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述实施例中任一音频合成方法的步骤。
[0197]
该电子设备可以是终端、服务器或者类似的运算装置,以该电子设备是终端为例,图9是根据一示例性实施例示出的运行一种音频合成方法的终端的框图,具体来讲:
[0198]
终端可以包括rf(radio frequency,射频)电路910、包括有一个或一个以上计算机可读存储介质的存储器920、输入单元930、显示单元940、传感器950、音频电路960、wifi(wireless fidelity,无线保真)模块970、包括有一个或者一个以上处理核心的处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0199]
rf电路910可用于收发信息或通话过程中,信号的接收和发送,特别地,将的下行信息接收后,交由一个或者一个以上处理器980处理;另外,将涉及上行的数据发送给。通常,rf电路910包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim)卡、收发信机、耦合器、lna(low noise amplifier,低噪声放大器)、双工器等。此外,rf电路910还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议,包括但不限于gsm(global system of mobile communication,全球移动通讯系统)、gprs(general packet radio service,通用分组无线服务)、cdma(code division multiple access,码分多址)、wcdma(wideband code division multiple access,宽带码分多址)、lte(long term evolution,长期演进)、、sms(short messaging service,短消息服务)等。
[0200]
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述终端的使用所创建的数据等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器920还可以包括存储器控制器,以提供处理器980和输入单元930对存储器920的访问。
[0201]
输入单元930可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元930可包括触敏表面931以及其他输入设备932。触敏表面931,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面931上或在触敏表面931附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器980,并能接收处理器980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面931。除了触敏表面931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0202]
显示单元940可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元940可包括显示面板941,可选的,可以采用lcd(liquid crystal display,液晶显示器)、oled(organic light-emitting diode,有机发光二极管)等形式来配置显示面板941。进一步的,触敏表面931可覆盖显示面板941,当触敏表面931检测到在其上或附近的触摸操作后,传送给处理器980以确定触摸事件的类型,随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。其中,触敏表面931与显示面板941可以两个独立的部件来实现输入和输入功能,但是在某些实施例中,也可以将触敏表面931与显示面板941集成而实现输入和输出功能。
[0203]
所述终端还可包括至少一种传感器950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板941的亮度,接近传感器可在所述终端移动到耳边时,关闭显示面板941和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0204]
音频电路960、扬声器961,传声器962可提供用户与所述终端之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号,传输到扬声器961,由扬声器961转换为声音信号输出;另一方面,传声器962将收集的声音信号转换为电信号,由音频电路960接收
后转换为音频数据,再将音频数据输出处理器980处理后,经rf电路910以发送给比如另一终端,或者将音频数据输出至存储器920以便进一步处理。音频电路960还可能包括耳塞插孔,以提供外设耳机与所述终端的通信。
[0205]
wifi属于短距离无线传输技术,所述终端通过wifi模块970可以帮助用户收发、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了wifi模块970,但是可以理解的是,其并不属于所述终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0206]
处理器980是所述终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行所述终端的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器980可包括一个或多个处理核心;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
[0207]
所述终端还包括给各个部件供电的电源990(比如电池),优选的,电源可以通过电源管理系统与处理器980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源990还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0208]
尽管未示出,所述终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的音频合成的指令。
[0209]
本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,终端900还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
[0210]
在示例性实施例中,还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例中任一音频合成方法的步骤。
[0211]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一种实施方式中提供的音频合成方法。
[0212]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0213]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0214]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:


1.一种音频合成方法,其特征在于,包括:获取待合成基频和待合成文本;将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;根据所述预测梅尔频谱得到目标合成音频。2.根据权利要求1所述的音频合成方法,其特征在于,所述获取待合成基频包括:获取乐谱数据;确定所述乐谱数据对应的原始基频;对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;将所述调整基频作为所述待合成基频。3.根据权利要求2所述的音频合成方法,其特征在于,所述对所述原始基频进行调整,得到所述乐谱数据对应的调整基频包括:将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;对所述基频残差进行调整,得到调整基频残差;计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。4.根据权利要求3所述的音频合成方法,其特征在于,所述对所述基频残差进行调整,得到调整基频残差包括:根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;判断所述基频残差是否超过所述半音基频;若所述基频残差超过所述半音基频,则对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。5.根据权利要求1所述的音频合成方法,其特征在于,所述获取待合成基频包括:获取用户语音音频;确定所述用户语音音频的语音基频;将所述语音基频作为所述待合成基频。6.根据权利要求3所述的音频合成方法,其特征在于,所述方法还包括训练音频合成模型的步骤;所述训练音频合成模型包括:构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;获取训练数据,所述训练数据包括样本数据和参考数据,所述样本数据包括样本文本和样本乐谱数据,所述参考数据包括参考梅尔频谱和参考基频残差;将所述样本文本和所述样本乐谱数据分别输入所述待训练的谱预测模型和待训练的基频残差预测模型,得到训练谱包络信息和训练基频残差;将所述训练谱包络信息和所述训练基频残差输入所述待训练的梅尔频谱预测模型,得到训练梅尔频谱;根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所
述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型;所述训练结束时的音频合成模型包括所述谱预测模型、所述基频残差预测模型和所述梅尔频谱预测模型。7.根据权利要求6所述的音频合成方法,其特征在于,所述根据所述训练基频残差、所述训练梅尔频谱、所述参考基频残差和参考梅尔频谱对所述待训练的音频合成模型进行训练,得到训练结束时的音频合成模型包括:根据所述训练基频残差和所述参考基频残差,确定第一损失值;根据所述训练梅尔频谱和所述参考梅尔频谱,确定第二损失值;根据所述第一损失值和所述第二损失值,确定目标损失值;根据所述目标损失值分别对所述待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型的模型参数进行调整,直至满足预设训练结束条件,得到所述音频合成模型。8.一种音频合成装置,其特征在于,包括:获取单元,被配置为执行获取待合成基频和待合成文本;谱包络预测单元,被配置为执行将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;梅尔频谱预测单元,被配置为执行将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;音频合成单元,被配置为执行根据所述预测梅尔频谱得到目标合成音频。9.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的音频合成方法。10.一种计算机存储介质,当所述计算机存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的音频合成方法。

技术总结


本公开关于一种音频合成方法、装置、电子设备及存储介质,该方法包括:获取待合成基频和待合成文本;将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;根据所述预测梅尔频谱得到目标合成音频。本公开将待合成基频与谱包络相分离,从而在预测梅尔频谱时允许通过对待合成基频的精准控制来调整所预测的梅尔频谱,最终达到精准控制合成音频的目的,有利于确保合成音频的音高准确度,大大提高了音频合成的灵活性,非常适用于像歌唱合成这种对音高准确度有限制的音频合成场景。对音高准确度有限制的音频合成场景。对音高准确度有限制的音频合成场景。


技术研发人员:

肖金霸 王晓瑞

受保护的技术使用者:

北京达佳互联信息技术有限公司

技术研发日:

2020.12.28

技术公布日:

2022/6/30

本文发布于:2024-09-22 17:26:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/6860.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基频   所述   频谱   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议