语音合成、语音合成模型训练方法、装置及设备与流程



1.本发明实施例涉及计算机技术,尤其涉及一种语音合成、语音合成模型训练方法、装置及设备。


背景技术:



2.语音合成是通过机械或者电子的方法产生人造语音的技术,目前市场上的语音合成系统分为在线语音合成和离线语音合成两种。在线语音合成所使用的模型一般比较复杂,对设备的算力要求较高,且在线语音合成对网络依赖性高,在网络环境不稳定时,无法实现稳定的语音合成。
3.离线语音合成可以脱离网络的束缚,在本地实现语音合成,但在算力较低的移动设备上进行语音合成时,为了能达到实时合成的效果,往往使用一个集成语音合成算法的简单模型来进行语音合成,一方面,由于模型较为简单,合成的语音更像机器人,没有情感及抑扬顿挫的语气,另一方面,如果需要变更说话人或者变更语种时,还需要耗费大量时间重新进行模型训练。


技术实现要素:



4.本发明实施例提供一种语音合成、语音合成模型训练方法、装置及设备,通过双模型进行语音合成,优化语音合成效果的同时,降低计算资源消耗。
5.第一方面,本发明实施例提供了一种语音合成模型训练方法,所述方法包括:
6.对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;
7.通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
8.通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
9.将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
10.第二方面,本发明实施例还提供了一种语音合成方法,所述方法包括:
11.将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
12.通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
13.通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
14.第三方面,本发明实施例还提供了一种语音合成模型训练装置,所述装置包括:
15.训练样本获取模块,用于对音频数据样本进行预处理,得到所述音频数据样本对
应的目标音素训练样本和目标频谱训练样本;
16.第一模型训练模块,用于通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
17.第二模型训练模块,用于通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
18.合成模型构建模块,用于将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
19.第四方面,本发明实施例还提供了一种语音合成装置,所述装置包括:
20.音素输入模块,用于将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
21.频谱输出模块,用于通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
22.音频输出模块,用于通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
23.第五方面,本发明实施例还提供了一种电子设备,包括:
24.一个或多个处理器;
25.存储器,用于存储一个或多个程序;
26.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的语音合成模型训练方法或者语音合成方法。
27.第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的语音合成模型训练方法或者语音合成方法。
28.本发明实施例的技术方案,服务器首先对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本,然后通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,并通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,最终将音素转换模型和频谱转换模型组合构成语音合成模型,解决了现有离线语音合成方法中由于算力的限制,只能使用简单模型导致合成语音效果不好,且变更模型时模型训练耗时较多的问题,通过双模型进行语音合成,一方面,优化了语音合成效果,另一方面,在需要变更合成语音模型时只需要根据实际需求变更其中一个模型,减少模型重新训练耗时。
附图说明
29.图1是本发明实施例一中的一种语音合成模型训练方法的流程图;
30.图2a是本发明实施例二中的一种语音合成模型训练方法的流程图;
31.图2b是本发明实施例二中的一种音素转换示意图(图2b仅用于说明由音 素到音频频谱的转换流程,不对转换内容作出限制);
32.图2c是本发明实施例二中的一种频谱转换示意图(图2c仅用于说明由音 频频谱
到音频数据的转换流程,不对转换内容作出限制);
33.图3是本发明实施例三中的一种语音合成方法的流程图;
34.图4是本发明实施例四中的一种语音合成方法的流程图;
35.图5是本发明实施例五中的一种语音合成模型训练装置示意图;
36.图6是本发明实施例六中的一种语音合成装置示意图;
37.图7是本发明实施例七提供的一种设备的结构示意图。
具体实施方式
38.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
39.实施例一
40.图1为本发明实施例一中的一种语音合成模型训练方法的流程图,本实施例的技术方案适用于通过两个模型配合实现语音合成的情况,该方法可以由语音合成模型训练装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:
41.步骤110、对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本。
42.其中,音素是根据语音的自然属性划分出来的最小语音单位,示例性的,中文的音素是拼音,英文的音素是音标;本实施例中的目标音素训练样本是与音频数据样本对应的音素,目标频谱训练样本是与音频数据样本对应的音频频谱,二者均用于进行语音合成模型的训练。语音合成模型是指能够将用户输入的文字转换为音频数据的模型。
43.本实施例中,为了获取语音合成模型,首先采集大量音频数据样本,然后对音频数据样本进行预处理,得到训练语音合成模型所需要的目标音素训练样本和目标频谱训练样本,具体的,采集音频数据样本可以是使用麦克风在安静的环境下录制同一说话者,或者多个说话者输入的语音数据,作为语音数据样本,由于本实施例中的语音合成模型是由两部分组成,一部分是将输入的音素转换为音频频谱的音素转换模型,另一部分是将输入的音频频谱转换为音频数据的频谱转换模型,因此,需要对音频数据样本进行预处理,一方面将音频数据样本转换为对应的音素作为目标音素训练样本,用于训练音素转换模型,另一方面将音频数据样本转换为对应的音频频谱作为目标频谱训练样本,用于训练频谱转换模型。
44.示例性的,使用麦克风采集一个说话者输入的语音数据,然后对语音数据进行语音识别,得到对应的文本,并进一步的将文本转换为对应的音素,将音素作为目标音素训练样本;同时将语音数据进行频谱转换,得到为对应的音频频谱,作为目标频谱训练样本。
45.步骤120、通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,音素转换模型用于在离线模式下,将输入的音素转换为音频频谱。
46.本实施例中,将得到的目标音素训练样本输入至第一初始模型,进行模型训练,得到音素转换模型,该训练过程为有监督训练。其中,音素转换模型是语音合成模型的第一部分,用于在离线模式下将用户输入的音素转换为音频频谱。
47.步骤130、通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据。
48.本实施例中,将得到的目标频谱训练样本输入至第二初始模型,进行模型训练,得到频谱转换模型,该训练过程为无监督训练。其中,频谱转换模型是语音合成模型的第二部分,用于在离线模式下将音素转换模型输出的音频频谱转换为音频数据。
49.步骤140、将音素转换模型和频谱转换模型,组合构成语音合成模型,语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
50.本实施例中,在训练得到音素转换模型和频谱转换模型后,将二者进行组合构成语音合成模型,在用户将音素输入至语音合成模型后,语音合成模型可以在离线模式下输出对应的音频数据,具体的,由音素转换模型将输入的音素转换为对应音频频谱输出,然后将输出的音频频谱输入至频谱转换模型,最终由频谱转换模型输出可以进行播放的音频数据。
51.其中,语音合成模型的合成效果取决于音频数据训练样本,当音频数据样本中包含多个人的声音时,则可以合成多个人中任意一个人的声音,当音频数据样本仅包含一个人的声音时,语音合成模型也只能合成一个人的声音。
52.本发明实施例的技术方案,服务器首先对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本,然后通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,并通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,最终将音素转换模型和频谱转换模型组合构成语音合成模型,解决了现有离线语音合成方法中由于算力的限制,只能使用简单模型导致合成语音效果不好,且变更模型时模型训练耗时较多的问题,通过双模型进行语音合成,一方面,脱离了网络束缚,优化了语音合成效果,另一方面,在需要变更合成语音模型时只需要根据实际需求变更其中一个模型,减少模型重新训练耗时。
53.实施例二
54.图2a为本发明实施例二中的一种语音合成模型训练方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了对音频数据样本进行预处理的具体步骤,以及将音素转换模型和频谱转换模型,组合构成语音合成模型的具体步骤。下面结合图2a对本发明实施例二提供的一种语音合成模型训练方法进行说明,包括以下步骤:
55.步骤210、对音频数据样本进行语音识别,获取音频数据样本对应的文本。
56.本实施例中,为了获取目标音素训练样本,首先对采集到的音频数据样本进行语音识别,获取音频数据样本对应的文本,并将根据获取的文本对音频数据样本进行标注,由于音素转换模型的需要根据这些标注文本对应的音素进行训练,所以文本标注的准确度会影响音素转换模型生成音频频谱的准确度。
57.示例性的,对第一个音频数据样本进行语音识别,获取到对应文本为“今天天气怎么样”,对第二个音频数据样本进行语音识别,获取到对应文本为“我想去公园”,根据上述文本分别对匹配的音频数据样本进行标注。
58.步骤220、将文本转换为对应音素,并将音素作为目标音素训练样本。
59.如果直接将汉字或者英文单词作为模型的输入的话,需要对所有汉字及单词进行学习,工作量巨大,因此将文字转换为音素的话,输入的可能性就会少很多,会答复提升模
型的性能。
60.本实施例中,将步骤210中标注的文本进行转换,得到对应的音素,将音素作为目标音素训练样本进行音素转换模型的训练。示例性的,将文本“我想去公园”转换为音素后,得到“w o3,x iang3,q u4,g ong1,y uan2”,其中的数字表示每个字的音调。
61.步骤230、根据音频数据样本,生成与音频数据样本对应的音频频谱,并将音频频谱作为目标频谱训练样本。
62.本实施例中,为了获取目标频谱训练样本,可以将音频数据样本转换为对应的音频频谱,将得到的音频频谱作为目标频谱训练样本。
63.步骤240、通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,音素转换模型用于在离线模式下,将输入的音素转换为音频频谱。
64.本实施例中,对音素转换模型的具体工作流程进行说明。如图2b所示,具体的,首先通过强制对齐方法(montreal-forced-aligner)将输入的音素对应到音频数据的各时间段上,然后提取每个音素在对应时间段中的梅尔倒谱系数特征(montreal-forced-aligner,mfcc),进一步的将梅尔倒谱系数特征转换为音频频谱。
65.为了提高音频频谱的转换速率,音素转换模型可以同时对多个音素进行处理,实现并发策略,即同时对多个音素提取梅尔倒谱系数特征,进而转换为音频频谱,最终将得到的各音素对应的音频频谱按照时间进行拼接,得到完整的音频频谱。
66.另外,音素转换模型还引入了时长控制层,可以根据用户选择的语速,来调整每个音素的时长,例如,在音素转换模型训练过程中,将相同的音素样本的时长求取平均值,作为该音素的默认时长,在进行转换时,可以根据用户输入的语速(例如,1.5倍速)对各音素时长进行调整,解决了语音合成后无法调节语速的问题,可以根据用户需求生成更加自然的语音。
67.示例性的,在将“天”字对应的音素“t”和“ian1”转换为音频频谱时,音素转换模型首先将两个音素“t”和“ian1”分别对应到音频数据样本的时间段上,例如,“t”对应0.5~0.6秒,“ian1”对应0.6~0.8秒,然后同时提取两个音素在这个时间段内的40维度的梅尔倒谱系数特征,然后分别转换为上述两个音素的音频频谱。
68.步骤250、通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据。
69.本实施例中,对频谱转换模型的具体工作流程进行说明,如图2c所示,具体的,频谱转换模型使用多波段合成技术,将输入的音频频谱切分为多个音频频谱块,然后分别对各音频频谱块进行音频数据的转换,最终将转换后的音频数据按照时间进行拼接,得到最终生成的音频数据,提高了音频数据的转换速率。
70.另外,频谱转换模型会在训练时,学习训练音频数据的发声特征,所以可以通过该模型达到模拟不同人说话声音的目的。
71.步骤260、将音素转换模型和频谱转换模型的计算精度调节至与待部署终端匹配的计算精度。
72.本实施例中,由于模型训练是在服务器上进行的,因此训练得到的模型计算精度是与服务器匹配的,通常是浮点型64位,而语音转换模型最终需要部署到移动终端中使用,一般移动终端的算力与服务器相比较弱,因此,将模型的计算精度降低至与部署模型的移
动终端相匹配的精度,例如,浮点型32位。最终将调整精度后的模型部署在移动终端中,降低了移动终端语音合成时的计算量,提升语音合成速率,实现移动终端在离线模式下能够快速完成高质量的语音合成。示例性的,移动终端可以是android及ios等系统架构的终端设备。
73.步骤270、将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型。
74.本实施例中,将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型,即音素转换模型的输出作为频谱转换模型的输入,实现语音合成。
75.另外,采用两个模型构成语音合成模型,可以在需要进行模型更新时,根据实际需求变更其中一个模型,不必重新对整个语音合成模型进行训练,减少了模型更新的计算量。示例性的,在需要更换语种时,只需要对音素转换模型进行更新即可,在需要更换音时,仅需要更换频谱转换模型。
76.可选的,在通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型之前,还包括:
77.对音频数据样本和音频数据样本对应的文本进行情感分析,得到音频数据样本对应的情感类型;
78.相应的,通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,包括:
79.通过目标音素训练样本和音频数据样本对应的情感类型对第一初始模型进行训练,得到音素转换模型;
80.通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,包括:
81.通过目标频谱训练样本和音频数据样本对应的情感类型对第二初始模型进行训练,得到频谱转换模型。
82.本可选的实施例中,在通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型之前,可以对音频数据样本对应的文本进行语义分析,根据音频数据样本对应的文本中包含的语气词等因素,确定音频数据样本的情感类型,还可以是对根据音频数据样本的音调等因素,确定音频数据样本的情感类型,示例性的,类型1为普通,类型2为疑问,类型3为感叹,在实际应用中也可以根据需求进行更细粒度的情感类型划分,这里不做具体限定。
83.在获取到音频数据样本对应的情感类型后,可以将目标音素训练样本和音频数据样本对应的情感类型共同输入至第一初始模型进行训练,得到音素转换模型,并将目标频谱训练样本和音频数据样本对应的情感类型共同输入至第二初始模型进行训练,得到频谱转换模型。在模型训练过程中引入情感类型可以实现不同情感类型的语音合成,例如,在进行语音合成时,可以将文本和对应情感类型共同输入至语音合成模型,最终合成的语音可以是具有情感类型的语音,合成效果更好。
84.本发明实施例的技术方案,首先对音频数据样本进行语音识别,获取音频数据样本对应的文本,将文本转换为对应音素,将音素作为目标音素训练样本,且根据音频数据样本,生成与音频数据样本对应的音频频谱,将音频频谱作为目标频谱训练样本,然后通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型,并通过目标频谱训练样本
对第二初始模型进行训练,得到频谱转换模型,进一步的,将音素转换模型和频谱转换模型的计算精度由与服务器匹配的计算精度调节至与待部署终端匹配的计算精度,最终将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型,通过双模型进行语音合成,优化离线语音合成效果的同时,降低计算资源消耗,并且训练过程中加入情感类型,可以使合成语音包含设定类型的情感,提升了合成效果。
85.实施例三
86.图3为本发明实施例三中的一种语音合成方法的流程图,本实施例的技术方案适用于通过两个模型配合实现语音合成的情况,该方法可以由语音合成装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:
87.步骤310、将待合成文本对应的音素输入至语音合成模型中,语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成。
88.本实施例中,在移动终端首先将音素输入至语音合成模型中,其中,语音合成模型是由单独训练得到的音素转换模型和频谱转换模型组合构成的,用于通过音素转换模型将输入的音素转换为音频频谱并输入至频谱转换模型,通过频谱转换模型将音频频谱转换为音频数据进行输出。
89.示例性的,用户在移动终端中输入待合成文本“我想去公园”后,首先由移动终端将文本转换为对应的音素“w o3,x iang3,q u4,g ong1,y uan2”,然后将音素输入至语音合成模型。可选的,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:
90.将用户输入的待合成文本转换为对应的音素。
91.本可选的实施例中,在将待合成文本对应的音素输入至语音合成模型之前,需要部署了语音合成模型的移动终端将用户输入的待合成文本转为为对应的音素。示例性的,将用户输入的中文文本转换为拼音,将用户输入的英文文本转换为音标。
92.在本实施例中,为了提高语音合成效率,可以先将待合成文本进行分割,分割为多个较小的文本片段,具体的,可以采用标点符号分割规则、语种分割规则以及词义分割规则等规则实现待合成文本的分割。这样设置的好处在于,对于离线语音合成模型而言,短句的语音合成速度明显优于长句的语音合成速度,将待合成文本分割为多个短小的文本片段进行语音合成,可以解决现有技术中的离线语音合成模型长句合成难的问题,提高语音合成的速度。
93.在得到与待合成文本对应的多个文本片段后,按照各文本片段在待合成文本中的先后顺序进行语音合成,在前的文本片段先进行语音合成,在后的文本片段后进行语音合成,生成的语音片段的排列顺序与文本片段在待合成文本中的排列顺序相同。示例性的,可以以上述文本片段为单位,并按照文本片段的排列顺序,将各文本片段对应的音素输入至语音合成模型,实现分段合成,提高语音合成速度。
94.步骤320、通过音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给频谱转换模型。
95.本实施例中,通过音素转换模型,在离线模式下将待合成文本对应的音素转换为对应的音频频谱,并将音频频谱作为频谱转换模型的输入。
96.步骤330、通过频谱转换模型,将音素转换模型输出的音频频谱,转换为音频数据并进行输出。
97.本实施例中,通过频谱转换模型,在离线模式下将音素转换模型输出的音频频谱转换为音频数据,至此,针对待合成文本的语音合成完成。
98.本发明实施例的技术方案,首先将待合成文本对应的音素输入至语音合成模型中,然后通过语音合成模型中包含的音素转换模型,在离线模式下将待合成文本对应的音素转换为对应的音频频谱,并输出给频谱转换模型,且通过频谱转换模型,在离线模式下将音素转换模型输出的音频频谱,转换为音频数据并进行输出,解决了现有离线语音合成方法中由于算力的限制,只能使用简单模型导致合成语音效果不好,且变更模型时模型训练耗时较多的问题,通过双模型进行语音合成,一方面,优化了语音合成效果,另一方面,在需要变更合成语音模型时只需要根据实际需求变更其中一个模型,减少模型重新训练耗时。
99.实施例四
100.图4为本发明实施例四中的一种语音合成方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了通过音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱的具体步骤,通过频谱转换模型,在离线模式下,将音素转换模型输出的音频频谱,转换为音频数据的具体步骤,以及在将待合成文本对应的音素输入至语音合成模型之前的具体步骤。下面结合图4对本发明实施例四提供的一种语音合成方法进行说明,包括以下步骤:
101.步骤410、将待合成文本对应的音素输入至语音合成模型中,语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成。
102.可选的,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:
103.对待合成文本进行情感分析,得到待合成文本对应的情感类型;
104.相应的,将待合成文本对应的音素输入至语音合成模型中,包括:
105.将待合成文本对应的音素和情感类型共同输入至语音合成模型中。
106.本可选的实施例中,为了使最终合成的语音中能够包含用户所期望的情感类型,例如,惊讶或者疑问等语气,需要对待合成文本进行情感分析,得到待合成文本对应的情感类型,例如,可以根据待合成文本中的语气助词确定待合成文本对应的情感类型,进而将待合成文本对应的音素和情感类型共同输入至语音合成模型中,语音合成模型可以根据输入的音素生成音频数据,并且可以根据输入的情感类型,生成包含相应类型情感的音频数据。其中,情感类型还可以是用户在输入待合成文本时对应输入的,例如,用户输入对应输入待合成文本“今天天气真好啊!”,以及当前待合成文本对应的情感分类,例如,“类型3:感叹”。
107.可选的,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:
108.依次预估各段待合成文本的合成预估时长和播放预估时长,将当前预估的待合成文本作为目标待合成文本,并将当前预估的目标待合成文本的合成预估时长作为目标合成预估时长;
109.计算在目标待合成文本之前进行合成的各段待合成文本的播放预估时长总和,以及在目标待合成文本之前进行合成的各段待合成文本中,除首段待合成文本外,其它待合成文本的合成预估时长总和;
110.计算播放预估时长总和与合成预估时长总和的时长差值,当目标合成预估时长大于时长差值时,将首段待合成文本对应的音频数据延迟时长差值后播放。
111.本可选的实施例中,为了避免在分段语音合成时出现前一段已经播放完毕,后一
段的语音还未合成完毕,导致语音播放出现断点的情况,在将待合成文本对应的音素输入至语音合成模型之前进行时间预估,具体的,依次预估各段待合成文本的合成预估时长和播放预估时长,其中,一段待合成文本可以是以一句话或者一段话,将当前预估的待合成文本作为目标待合成文本,并将当前预估的目标待合成文本的合成预估时长作为目标合成预估时长,然后计算在目标待合成文本之前进行合成的各段待合成文本的播放预估时长总和,以及在目标待合成文本之前进行合成的各段待合成文本中,除首段待合成文本外,其它待合成文本的合成预估时长总和,并计算播放预估时长总和与合成预估时长总和的时长差值,当目标合成预估时长大于时长差值时,将首段待合成文本对应的音频数据延迟时长差值后播放。
112.示例性的,将第n段待合成文本作为目标待合成文本,则与第n段待合成文本对应的合成预估时长为目标合成预估时长itn,第n段待合成文本对应的播放预估时长表示为ptu,为了不出现播放断点,首先计算在目标待合成文本之前进行合成的各段待合成文本的播放预估时长总和以及在目标待合成文本之前进行合成的各段待合成文本中,除首段待合成文本外,其它待合成文本的合成预估时长总和在此之后,计算播放预估时长总和与合成预估时长总和的时长差值进一步的,可以计算目标合成预估时长itn与时长差值之间的差值δ=it
n-time_left,当δ》0时,说明在第n-1段待合成文本对应语音播放完毕时,第n段待合成文本仍未合成完毕,会出现播放断点,因此,将首段待合成文本对应的音频数据延迟时长δ后再开始播放。
113.步骤420、通过音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内。
114.本实施例中,将待合成文本对应的音素输入到语音合成模型后,通过强制对齐方法(montreal-forced-aligner,mfa),将输入的音素对应到匹配的时间段内,示例性的,音素转换模型首先将输入的两个音素“t”和“ian1”分别对应到匹配的时间段上,例如,“t”对应0.5~0.6秒,“ian1”对应0.6~0.8秒,该时间可以是在模型训练过程中计算得到的对应音素的平均值,例如,音素“t”是在0.5秒开始的,而其对应的播放时间平均值为0.1秒,则其对应时间段为 0.5~0.6秒。
115.步骤430、并行提取各时间段内的音素对应的梅尔倒谱系数特征。
116.本实施例中,为了节省语音合成时间,提高合成效率,一般各音素是同步合成的,在将各音素匹配到对应时间段后,以并行的方式提取各时间段内的音素对应的梅尔倒谱系数特征,各音素对应的梅尔倒谱系数特征可以为40维度的特征。
117.步骤440、将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到待合成文本对应的音频频谱。
118.本实施例中,在得到各音素对应的梅尔倒谱系数特征后,将梅尔倒谱系数转换为音频频谱,各音素对应的梅尔倒谱系数特征的转换过程也是并行进行的,因此在得到各音素对应的音频频谱后,需要按照其所属时间段进行拼接,最终得到待合成文本对应的音频频谱。
119.步骤450、通过频谱转换模型,在离线模式下,将音素转换模型输出的音频频谱切分为至少两个音频频谱块。
120.本实施例中,在得到待合成文本对应的音频频谱后,将音频频谱输入至频谱转换模型在离线模式下进行处理,为了进一步提升语音合成效率,需要将音频频谱再切分为至少两个音频频谱块,以便于对各音频频谱块进行并行处理,具体的,可以是根据时间进行切分,例如,每1秒且分为一个音频频谱块。
121.步骤460、并行将各音频频谱块转换为对应的子音频数据。
122.本实施例中,并行处理各音频频谱块,将各音频频谱块转换为对应的子音频数据,通过并行转换的方式,能够进一步提高音频频谱的转换效率。
123.步骤470、将各子音频数据按照对应时间段进行拼接,得到音频频谱对应的音频数据。
124.本实施例中,在得到各音频频谱块对应的子音频数据后,将各子音频数据按照对应时间段进行拼接,得到音频频谱对应音频数据作为最终的语音合成结果。
125.本发明实施例的技术方案,将待合成文本对应的音素输入至语音合成模型后,首先通过音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内,然后并行提取各时间段内的音素对应的梅尔倒谱系数特征,将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到待合成文本对应的音频频谱,进一步的,通过频谱转换模型,在离线模式下将音素转换模型输出的音频频谱切分为至少两个音频频谱块,并行将各音频频谱块转换为对应的子音频数据,最终将各子音频数据按照对应时间段进行拼接,得到音频频谱对应的音频数据,两个转换模型均采用了在离线模式下并行处理的方式,大大提高了语音合成的效率,且不会受到网络状态的影响。
126.实施例五
127.图5为本发明实施例五提供的一种语音合成模型训练装置的结构示意图,该语音合成模型训练装置,包括:训练样本获取模块510、第一模型训练模块 520、第二模型训练模块530和合成模型构建模块540。
128.训练样本获取模块510,用于对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;
129.第一模型训练模块520,用于通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
130.第二模型训练模块530,用于通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
131.合成模型构建模块540,用于将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
132.本发明实施例的技术方案,服务器首先对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本,然后通过目标音素训练样本对第一
初始模型进行训练,得到音素转换模型,并通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,最终将音素转换模型和频谱转换模型组合构成语音合成模型,解决了现有离线语音合成方法中由于算力的限制,只能使用简单模型导致合成语音效果不好,且变更模型时模型训练耗时较多的问题,通过双模型进行语音合成,一方面,优化了语音合成效果,另一方面,在需要变更合成语音模型时只需要根据实际需求变更其中一个模型,减少模型重新训练耗时。
133.可选的,所述训练样本获取模块510,包括:
134.文本获取单元,用于对所述音频数据样本进行语音识别,获取所述音频数据样本对应的文本;
135.音素获取单元,用于将所述文本转换为对应音素,并将所述音素作为目标音素训练样本;
136.频谱获取单元,用于根据所述音频数据样本,生成与所述音频数据样本对应的音频频谱,并将所述音频频谱作为目标频谱训练样本。
137.可选的,所述合成模型构建模块540,包括:
138.精度调整单元,用于将所述音素转换模型和频谱转换模型的计算精度调节至与待部署终端匹配的计算精度;
139.合成模型构建单元,用于将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型。
140.可选的,语音合成模型训练装置,还包括:
141.情感类型获取模,用于对所述音频数据样本和所述音频数据样本对应的文本进行情感分析,得到所述音频数据样本对应的情感类型;
142.相应的,第一模型训练模块,具体用于:
143.通过所述目标音素训练样本和所述音频数据样本对应的情感类型对第一初始模型进行训练,得到音素转换模型;
144.第一模型训练模块,具体用于:
145.通过所述目标频谱训练样本和所述音频数据样本对应的情感类型对第二初始模型进行训练,得到频谱转换模型。
146.本发明实施例所提供的语音合成模型训练装置可执行本发明任意实施例所提供的语音合成模型训练方法,具备执行方法相应的功能模块和有益效果。
147.实施例六
148.图6为本发明实施例六提供的一种语音合成装置的结构示意图,该语音合成装置,包括:音素输入模块610、频谱输出模块620和音频输出模块630。
149.音素输入模块610,用于将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
150.频谱输出模块620,用于通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
151.音频输出模块630,用于通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
152.本发明实施例的技术方案,首先将待合成文本对应的音素输入至语音合成模型
中,然后通过语音合成模型中包含的音素转换模型,在离线模式下将待合成文本对应的音素转换为对应的音频频谱,并输出给频谱转换模型,且通过频谱转换模型,在离线模式下将音素转换模型输出的音频频谱,转换为音频数据并进行输出,解决了现有离线语音合成方法中合成语音效果不好,且变更模型时模型训练耗时较多的问题,通过双模型进行语音合成,一方面,优化了语音合成效果,另一方面,在需要变更合成语音模型时只需要根据实际需求变更其中一个模型,减少模型重新训练耗时。
153.可选的,频谱输出模块620,具体用于:
154.通过所述音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内;
155.并行提取各时间段内的音素对应的梅尔倒谱系数特征;
156.将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到所述待合成文本对应的音频频谱。
157.可选的,音频输出模块630,具体用于:
158.通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱切分为至少两个音频频谱块;
159.并行将各音频频谱块转换为对应的子音频数据;
160.将各子音频数据按照对应时间段进行拼接,得到所述音频频谱对应的音频数据。
161.可选的,语音合成装置,还包括:
162.情感类型获取模块,用于在将待合成文本对应的音素输入至语音合成模型中之前,对所述待合成文本进行情感分析,得到待合成文本对应的情感类型;
163.相应的,音素输入模块,具体用于:
164.将所述待合成文本对应的音素和情感类型共同输入至语音合成模型中。
165.可选的,语音合成装置,还包括:
166.预估模块,用于在将待合成文本对应的音素输入至语音合成模型中之前,依次预估各段待合成文本的合成预估时长和播放预估时长,将当前预估的待合成文本作为目标待合成文本,并将当前预估的目标待合成文本的合成预估时长作为目标合成预估时长;
167.时长总和计算模块,用于计算在目标待合成文本之前进行合成的各段待合成文本的播放预估时长总和,以及在目标待合成文本之前进行合成的各段待合成文本中,除首段待合成文本外,其它待合成文本的合成预估时长总和;
168.延迟播放模块,用于计算所述播放预估时长总和与所述合成预估时长总和的时长差值,当所述目标合成预估时长大于所述时长差值时,将首段待合成文本对应的音频数据延迟所述时长差值后播放。
169.本发明实施例所提供的语音合成装置可执行本发明任意实施例所提供的语音合成方法,具备执行方法相应的功能模块和有益效果。
170.实施例七
171.图7为本发明实施例七提供的一种电子设备的结构示意图,如图7所示,该电子设备包括处理器70和存储器71;设备中处理器70的数量可以是一个或多个,图7中以一个处理器70为例;设备中的处理器70和存储器71可以通过总线或其它方式连接,图7中以通过总线连接为例。
172.存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种语音合成模型训练方法或者语音合成方法对应的程序指令/模块(例如,语音合成模型训练装置中训练样本获取模块510、第一模型训练模块520、第二模型训练模块530和合成模型构建模块540,或者语音合成装置中音素输入模块610、频谱输出模块620和音频输出模块630)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的语音合成模型训练方法或者语音合成方法。
173.其中,语音合成模型训练方法包括:
174.对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;
175.通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
176.通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
177.将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于将输入的待转换的音素转换为音频数据。
178.其中,语音合成方法包括:
179.将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
180.通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
181.通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
182.存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
183.实施例八
184.本发明实施例八还提供一种其上存储有计算机程序的计算机可读存储介质,所述计算机程序在由计算机处理器执行时用于执行一种语音合成模型训练方法或者语音合成方法。
185.其中,语音合成模型训练方法包括:
186.对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;
187.通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;
188.通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述
频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;
189.将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。
190.其中,语音合成方法包括:
191.将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;
192.通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;
193.通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。
194.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (read-only memory,rom)、随机存取存储器(random access memory, ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
195.值得注意的是,上述一种语音合成模型训练装置和语音合成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
196.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其它等效实施例,而本发明的范围由所附的权利要求范围决定。

技术特征:


1.一种语音合成模型训练方法,应用于服务器,其特征在于,包括:对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。2.根据权利要求1所述的方法,其特征在于,对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本,包括:对所述音频数据样本进行语音识别,获取所述音频数据样本对应的文本;将所述文本转换为对应音素,并将所述音素作为目标音素训练样本;根据所述音频数据样本,生成与所述音频数据样本对应的音频频谱,并将所述音频频谱作为目标频谱训练样本。3.根据权利要求1所述的方法,其特征在于,将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,包括:将所述音素转换模型和频谱转换模型的计算精度调节至与待部署终端匹配的计算精度;将调整精度后的音素转换模型和频谱转换模型首尾相接,组合构成语音合成模型。4.根据权利要求2所述的方法,其特征在于,在通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型之前,还包括:对所述音频数据样本和所述音频数据样本对应的文本进行情感分析,得到所述音频数据样本对应的情感类型;相应的,通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,包括:通过所述目标音素训练样本和所述音频数据样本对应的情感类型对第一初始模型进行训练,得到音素转换模型;通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,包括:通过所述目标频谱训练样本和所述音频数据样本对应的情感类型对第二初始模型进行训练,得到频谱转换模型。5.一种语音合成方法,应用于终端设备,其特征在于,包括:将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。6.根据权利要求5所述的方法,其特征在于,通过所述音素转换模型,在离线模式下,将
待合成文本对应的音素转换为对应的音频频谱,包括:通过所述音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内;并行提取各时间段内的音素对应的梅尔倒谱系数特征;将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到所述待合成文本对应的音频频谱。7.根据权利要求5所述的方法,其特征在于,通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据,包括:通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱切分为至少两个音频频谱块;并行将各音频频谱块转换为对应的子音频数据;将各子音频数据按照对应时间段进行拼接,得到所述音频频谱对应的音频数据。8.根据权利要求5所述的方法,其特征在于,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:对所述待合成文本进行情感分析,得到待合成文本对应的情感类型;相应的,将待合成文本对应的音素输入至语音合成模型中,包括:将所述待合成文本对应的音素和情感类型共同输入至语音合成模型中。9.根据权利要求5所述的方法,其特征在于,在将待合成文本对应的音素输入至语音合成模型中之前,还包括:依次预估各段待合成文本的合成预估时长和播放预估时长,将当前预估的待合成文本作为目标待合成文本,并将当前预估的目标待合成文本的合成预估时长作为目标合成预估时长;计算在目标待合成文本之前进行合成的各段待合成文本的播放预估时长总和,以及在目标待合成文本之前进行合成的各段待合成文本中,除首段待合成文本外,其它待合成文本的合成预估时长总和;计算所述播放预估时长总和与所述合成预估时长总和的时长差值,当所述目标合成预估时长大于所述时长差值时,将首段待合成文本对应的音频数据延迟所述时长差值后播放。10.一种语音合成模型训练装置,其特征在于,包括:训练样本获取模块,用于对音频数据样本进行预处理,得到所述音频数据样本对应的目标音素训练样本和目标频谱训练样本;第一模型训练模块,用于通过所述目标音素训练样本对第一初始模型进行训练,得到音素转换模型,所述音素转换模型用于在离线模式下,将输入的音素转换为音频频谱;第二模型训练模块,用于通过所述目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型,所述频谱转换模型用于在离线模式下,将输入的音频频谱转换为音频数据;合成模型构建模块,用于将所述音素转换模型和所述频谱转换模型,组合构成语音合成模型,所述语音合成模型用于在离线模式下,将输入的待转换的音素转换为音频数据。11.根据权利要求10所述的装置,其特征在于,所述训练样本获取模块,包括:文本获取单元,用于对所述音频数据样本进行语音识别,获取所述音频数据样本对应
的文本;音素获取单元,用于将所述文本转换为对应音素,并将所述音素作为目标音素训练样本;频谱获取单元,用于根据所述音频数据样本,生成与所述音频数据样本对应的音频频谱,并将所述音频频谱作为目标频谱训练样本。12.一种语音合成装置,其特征在于,包括:音素输入模块,用于将待合成文本对应的音素输入至语音合成模型中,所述语音合成模型由单独训练得到的音素转换模型和频谱转换模型组合构成;频谱输出模块,用于通过所述音素转换模型,在离线模式下,将待合成文本对应的音素转换为对应的音频频谱,并输出给所述频谱转换模型;音频输出模块,用于通过所述频谱转换模型,在离线模式下,将所述音素转换模型输出的音频频谱,转换为音频数据并进行输出。13.根据权利要求12所述的装置,其特征在于,所述频谱输出模块,具体用于:通过所述音素转换模型,在离线模式下采用强制对齐方法,将待合成文本对应的至少一个音素匹配到对应时间段内;并行提取各时间段内的音素对应的梅尔倒谱系数特征;将各音素对应的梅尔倒谱系数特征转换为音频频谱,并将各音素对应的音频频谱按照所属时间段进行拼接,得到所述待合成文本对应的音频频谱。14.根据权利要求12所述的装置,其特征在于,还包括:情感类型获取模块,用于在将待合成文本对应的音素输入至语音合成模型中之前,对所述待合成文本进行情感分析,得到待合成文本对应的情感类型;相应的,所述音素输入模块,具体用于:将所述待合成文本对应的音素和情感类型共同输入至语音合成模型中。15.一种电子设备,其特征在于,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的语音合成模型训练方法或者如权利要求5-9所述语音合成方法。

技术总结


本发明实施例公开了一种语音合成、语音合成模型训练方法、装置及设备。其中,语音合成模型训练方法,包括:对音频数据样本进行预处理,得到音频数据样本对应的目标音素训练样本和目标频谱训练样本;通过目标音素训练样本对第一初始模型进行训练,得到音素转换模型;通过目标频谱训练样本对第二初始模型进行训练,得到频谱转换模型;将音素转换模型和频谱转换模型,组合构成语音合成模型。本发明实施例的技术方案,通过双模型进行语音合成,优化离线语音合成效果的同时,降低计算资源消耗。降低计算资源消耗。降低计算资源消耗。


技术研发人员:

丁雪枫

受保护的技术使用者:

大众问问(北京)信息科技有限公司

技术研发日:

2020.12.30

技术公布日:

2022/7/1

本文发布于:2024-09-22 03:55:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/7789.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音素   模型   频谱   音频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议