语音合成方法以及装置、存储介质、电子装置与流程



1.本技术涉及文本数据语音化的处理领域,具体而言,涉及一种语音合成方法以及装置、存储介质、电子装置。


背景技术:



2.由谷歌在2017年提出tacotron端到端语音合成技术,2018年提出tacotron 2端到端技术,2020年提出non-attentive tacotron,大大提高了端到端语音合成模型的音质和稳定性。
3.但是,由于编码器包含双向lstm模型,高斯上采样需要在全部编码器输出上计算,在一些计算能力有限的处理器上,无法满足语音合成的要求。另外,tacotron输出的声学参数是梅尔频谱,无法用于lpc的声码器。
4.针对相关技术中语音合成整体系统的延时以及无法合成语音的问题,目前尚未提出有效的解决方案。


技术实现要素:



5.本技术的主要目的在于提供一种语音合成方法以及装置、存储介质、电子装置,以解决语音合成整体系统的延时以及无法合成语音的问题。
6.为了实现上述目的,根据本技术的一个方面,提供了一种语音合成方法,用于客户端。
7.根据本技术的语音合成方法包括:获取文本数据;通过预设的nat处理模型,得到语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果。
8.进一步地,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器包括:通过预测的梅尔特征向量和预测的lpl特征向量;确定基于神经网络的梅尔声码器和基于神经网络的lpl声码器,用以得到合成结果。
9.进一步地,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。
10.进一步地,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。
11.进一步地,所述通过预设的nat处理模型,得到文本数据合成的语音音频数据,包括:通过控所述制编码器以及所述高斯上采样模块的延时,控制整个系统的延时。
12.进一步地,所述根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果,包括:根据所述神经网络的梅
尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据中不同的合成音质或者合成韵律。
13.为了实现上述目的,根据本技术的另一个方面,提供了一种语音合成方法,用于服务端。
14.根据本技术的语音合成方法包括:接收客户端的文本数据;通过预设的nat处理模型,解析文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;将基于所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据得到的所述语音音频数据的合成结果下发至所述客户端。
15.为了实现上述目的,根据本技术的另一方面,提供了一种语音合成装置。
16.根据本技术的语音合成装置包括:获取模块,用于获取文本数据;处理模块,用于通过预设的nat处理模型,得到文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;合成模块,用于根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果。
17.为了实现上述目的,根据本技术的另一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
18.为了实现上述目的,根据本技术的再一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
19.在本技术实施例中语音合成方法以及装置、存储介质、电子装置,采用获取文本数据的方式,通过预设的nat处理模型,得到文本数据合成的语音音频数据,达到了根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理结果,得到所述文本数据的合成结果的目的,从而实现了控制延时和能合成语音的技术效果,进而解决了语音合成整体系统的延时以及无法合成语音的技术问题。
附图说明
20.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
21.图1是根据本技术实施例的语音合成方法的硬件结构示意图;
22.图2是根据本技术实施例的语音合成方法的流程示意图;
23.图3是根据本技术实施例的语音合成装置结构示意图;
24.图4是根据本技术实施例的语音合成方法的流程示意图;
25.图5是根据本技术实施例的语音合成方法的编码器和上采样结构示意图;
26.图6是根据本技术实施例的语音合成方法的解码器结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
28.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.在本技术中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
30.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本技术中的具体含义。
31.此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
32.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
33.如图1所示,是根据本技术实施例的语音合成方法的硬件结构示意图,其中包括,用户100、nat处理模型200、服务端300、语音合成结果400。所述用户100输入语音后转换为语音信号至所述nat处理模型200进行处理。所述服务端300用于提供所述nat处理模型200所需的算力。所述语音合成结果400为所述nat处理模型200的语音输出结果。
34.如图2所示,该方法包括如下的步骤s201至步骤s203:
35.步骤s201,获取文本数据;
36.步骤s202,通过预设的nat处理模型,得到文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;
37.步骤s203,根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器
处理语音音频数据,得到所述语音音频数据的合成结果。
38.从以上的描述中,可以看出,本技术实现了如下技术效果:
39.采用获取文本数据的方式,通过预设的nat处理模型,得到文本数据合成的语音音频数据,达到了根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理结果,得到所述文本数据的合成结果的目的,从而实现了控制延时和能合成语音的技术效果,进而解决了语音合成整体系统的延时以及无法合成语音的技术问题。
40.上述步骤s201中通过多种方式可获取文本数据,包括但不限于用户实时文本数据等、用户历史文本数据等。
41.作为一种可选的实施方式,所述文本数据是待进行语音合成的数据。
42.作为一种优选的实施方式,所述文本数据按照时序排列得到语音序列。
43.上述步骤s202中通过预设的nat处理模型,得到文本数据合成的语音音频数据。针对相关技术中的non-attentive tacotron模型提高了端到端语音合成模型的音质和稳定性。但是,由于编码器包含双向lstm模型,高斯上采样需要在全部编码器输出上计算,在一些计算能力有限的处理器上,无法满足试试合成的要求。另外,tacotron输出的声学参数是梅尔频谱,无法用于lpc的声码器。所以,所述预设的nat处理模型中包括了改进后的编码器、高斯上采样模块以及解码器。
44.作为一种优选的实施方式,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络。
45.所述编码器中,使用单向长短时记忆网络和反向延时可控的循环神经网络代替双向长短时记忆网络(2017年由shaofei xue和zhijie yan在improving latency-controlled blstm acoustic models for online speech recognition),通过将该模型首次用于语音合成的编码器部分,保证合成保证编码器的延时可控。
46.优选地,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。
47.作为一种优选的实施方式,所述高斯上采样模块按照预设块进行高斯上采样。
48.所述高斯上采样模块,经过按块高斯上采样,计算使用的编码器输入,只和块大小有关,实现延时可控。
49.优选地,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。
50.作为一种优选的实施方式,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器。
51.所述自回归的解码器,采用同时预测梅尔频谱和线性预测系数,支持使用梅尔神经网络声码器和lpc声码器合成声音。
52.上述步骤s203中根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果。
53.优选地,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器包括:通过预测的梅尔特征向量和预测的lpl特征向量;确定基于神经网络的梅尔声码器和基于神经网络的lpl声码器,用以得到合成结果。
54.作为本实施例中的优选,所述通过预设的nat处理模型,得到文本数据合成的语音
音频数据,包括:通过控所述制编码器以及所述高斯上采样模块的延时,控制整个系统的延时。
55.具体实施时,通过控所述制编码器以及每个所述高斯上采样模块按照预设块进行上采样的延时,控制整个系统的延时。
56.作为本实施例中的优选,所述根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果,包括:根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据中不同的合成音质或者合成韵律。
57.具体实施时,在用户端或服务端根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据中不同的合成音质或者合成韵律。
58.如图4所示,语音合成方法用于服务端,该方法包括如下的步骤s401至步骤s403:
59.步骤s401,接收客户端的文本数据;
60.步骤s402,通过预设的nat处理模型,解析文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;
61.步骤s403,将基于所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据得到的语音音频数据的合成结果下发至所述客户端。
62.上述步骤401中,在服务端通过多种方式可获取文本数据,包括但不限于用户实时文本数据等、用户历史文本数据等。
63.作为一种可选的实施方式,所述文本数据是待进行语音合成的数据。
64.作为一种优选的实施方式,所述文本数据按照时序排列得到语音序列。
65.上述步骤s402中,服务端通过预设的nat处理模型,得到文本数据合成的语音音频数据。针对相关技术中的non-attentive tacotron模型提高了端到端语音合成模型的音质和稳定性。但是,由于编码器包含双向lstm模型,高斯上采样需要在全部编码器输出上计算,在一些计算能力有限的处理器上,无法满足试试合成的要求。另外,tacotron输出的声学参数是梅尔频谱,无法用于lpc的声码器。所以,所述预设的nat处理模型中包括了改进后的编码器、高斯上采样模块以及解码器。
66.作为一种优选的实施方式,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络。
67.所述编码器中,使用单向长短时记忆网络和反向延时可控的循环神经网络代替双向长短时记忆网络(2017年由shaofei xue和zhijie yan在improving latency-controlled blstm acoustic models for online speech recognition),通过将该模型首次用于语音合成的编码器部分,保证合成保证编码器的延时可控。
68.优选地,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。
69.作为一种优选的实施方式,所述高斯上采样模块按照预设块进行高斯上采样。
70.所述高斯上采样模块,经过按块高斯上采样,计算使用的编码器输入,只和块大小
有关,实现延时可控。
71.优选地,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。
72.作为一种优选的实施方式,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器。
73.所述自回归的解码器,采用同时预测梅尔频谱和线性预测系数,支持使用梅尔神经网络声码器和lpc声码器合成声音。
74.上述步骤s403中,服务端将基于所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据得到的所述语音音频数据的合成结果下发至所述客户端。
75.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
76.根据本技术实施例,还提供了一种用于实施上述方法的语音合成装置,如图3所示,该装置包括:
77.获取模块301,用于获取文本数据;
78.处理模块302,用于通过预设的nat处理模型,得到文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;
79.合成模块303,用于根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到的所述语音音频数据的合成结果。
80.本技术实施例的所述获取模块301中通过多种方式可获取文本数据,包括但不限于用户实时文本数据等、用户历史文本数据等。
81.作为一种可选的实施方式,所述文本数据是待进行语音合成的数据。
82.作为一种优选的实施方式,所述文本数据按照时序排列得到语音序列。
83.本技术实施例的所述处理模块302中通过预设的nat处理模型,得到文本数据合成的语音音频数据。针对相关技术中的non-attentive tacotron模型提高了端到端语音合成模型的音质和稳定性。但是,由于编码器包含双向lstm模型,高斯上采样需要在全部编码器输出上计算,在一些计算能力有限的处理器上,无法满足试试合成的要求。另外,tacotron输出的声学参数是梅尔频谱,无法用于lpc的声码器。所以,所述预设的nat处理模型中包括了改进后的编码器、高斯上采样模块以及解码器。
84.作为一种优选的实施方式,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络。
85.所述编码器中,使用单向长短时记忆网络和反向延时可控的循环神经网络代替双向长短时记忆网络,通过将该模型首次用于语音合成的编码器部分,保证合成保证编码器的延时可控。
86.优选地,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。
87.作为一种优选的实施方式,所述高斯上采样模块按照预设块进行高斯上采样。
88.所述高斯上采样模块,经过按块高斯上采样,计算使用的编码器输入,只和块大小有关,实现延时可控。
89.优选地,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。
90.作为一种优选的实施方式,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器。
91.所述自回归的解码器,采用同时预测梅尔频谱和线性预测系数,支持使用梅尔神经网络声码器和lpc声码器合成声音。
92.本技术实施例的所述合成模块303中根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据得到的所述语音音频数据的合成结果。
93.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
94.为了更好的理解上述语音合成方法流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案。
95.本技术实施例中语音合成方法,通过控制编码器和高斯上采样的延时,在控制整体整个系统的延时同时,能够保证高品质的合成音质、韵律等合成效果。通过多输出的解码器,可以在声学模型后接不同的声码器,达到高音质、表现力的语音合成。
96.技术名词解释:
97.lstm:长短时记忆网络
98.llbwdrnn:延时可控的反向循环神经网络
99.positional embedding:位置信息编码
100.lpc:线性预测系数
101.如图5所示,是根据本技术实施例的语音合成方法的编码器和上采样结构示意图,实现的具体过程包括如下步骤:
102.具体而言,所述高斯上采样模块,经过按块高斯上采样,计算使用的编码器输入,只和块大小有关,实现延时可控。
103.所述编码器中,使用单向长短时记忆网络和反向延时可控的循环神经网络代替双向长短时记忆网络,通过将该模型首次用于语音合成的编码器部分,保证合成保证编码器的延时可控。
104.如图6所示,是根据本技术实施例的语音合成方法的解码器结构示意图,所述自回归的解码器,采用同时预测梅尔频谱和线性预测系数,支持使用梅尔神经网络声码器和lpc声码器合成声音。
105.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种语音合成方法,其特征在于,用于客户端,所述方法包括:获取文本数据;通过预设的nat处理模型,得到文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果。2.根据权利要求1所述的方法,其特征在于,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器包括:通过预测的梅尔特征向量和预测的lpl特征向量;确定基于神经网络的梅尔声码器和基于神经网络的lpl声码器,用以得到合成结果。3.根据权利要求2所述的方法,其特征在于,所述编码器通过所述单向长短时记忆网络以及所述反向延时可控的循环神经网络代替双向长短时记忆网络,用以控制所述编码器的延时。4.根据权利要求1所述的方法,其特征在于,所述高斯上采样模块按照预设块进行高斯上采样作为所述编码器的输入,且与块大小相关。5.根据权利要求1所述的方法,其特征在于,所述通过预设的nat处理模型,得到文本数据合成的语音音频数据,包括:通过控所述制编码器以及所述高斯上采样模块的延时,控制整个系统的延时。6.根据权利要求1所述的方法,其特征在于,所述根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果,包括:根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据中不同的合成音质或者合成韵律。7.一种语音合成方法,其特征在于,用于服务端,所述方法包括:接收客户端的文本数据;通过预设的nat处理模型,解析文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;将基于所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据得到的所述语音音频数据的合成结果下发至所述客户端。8.一种语音合成装置,其特征在于,包括:获取模块,用于获取文本数据;处理模块,用于通过预设的nat处理模型,得到文本数据合成的语音音频数据,其中,所述预设的nat处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的lpl声码器;
合成模块,用于根据所述神经网络的梅尔声码器以及所述基于神经网络的lpl声码器处理语音音频数据,得到所述语音音频数据的合成结果。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项所述的方法。

技术总结


本申请公开了一种语音合成方法以及装置、存储介质、电子装置。该方法包括获取文本数据;通过预设的NAT处理模型,得到文本数据合成的语音音频数据,其中,所述预设的NAT处理模型中包括编码器、高斯上采样模块、解码器,所述编码器采用单向长短时记忆网络以及反向延时可控的循环神经网络,所述高斯上采样模块按照预设块进行高斯上采样,所述解码器包括基于神经网络的梅尔声码器和基于神经网络的LPL声码器;根据所述神经网络的梅尔声码器以及所述基于神经网络的LPL声码器处理结果,得到所述文本数据的合成结果。本申请解决了语音合成整体系统的延时以及无法合成语音的技术问题。统的延时以及无法合成语音的技术问题。统的延时以及无法合成语音的技术问题。


技术研发人员:

司玉景 张钦 王通 郗雯 沈彬彬 蒲瑶 李全忠

受保护的技术使用者:

普强时代(珠海横琴)信息技术有限公司

技术研发日:

2022.07.22

技术公布日:

2022/10/25

本文发布于:2024-09-23 16:29:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/20782.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   声码   神经网络   编码器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议