基于端到端的拼接合成音库制作方法及装置与流程

1.本发明属于人工智能技术领域，具体涉及一种基于端到端的拼接合成音库制作方法及装置。

背景技术：

2.随着社会的高速发展，智能语音技术逐步融入人们的生活，从普通的机场、车站的智能语音播报，到移动端设备的智能语音导航，再到智能机器人语音交互，人们对智能语音的需求越来越广，语音合成的质量要求也越来越高。
3.语音合成的音、音质、响应时间、合成效率等指标备受人们关注，这些指标组合成了一个关系网，缺一不可，又相互制衡。尤其体现在机器人、语音助手等语音交互领域，声音的清晰、自然、流畅决定了语音交互过程中的用户体验，而拟人度越高的声音，系统所需的计算量越大，随之在一定程度上影响到语音合成的响应时间和合成效率。tts技术随着市场需求的迭代优化，逐渐形成了三种主流合成方法：拼接合成、参数合成法、端到端合成法。具体如下：
4.拼接合成法具体为计算机根据算法，计算需要合成的文本中，每个字适合选择原录音数据中的哪个片段，进行拼接播报，是一项把预先录制的语音波形的小片段缝合在一起的技术，响应速度较快；但是拼接合成法的tts播报效果依赖录音语料库对韵律场景的覆盖情况，所需数据库录音量极大，生产一个音耗时过长，无法满足快速变化的市场需求。录音期间若发音人音无法保持稳定，此tts音会受到极大影响，严重者甚至废弃。同时对存储配置、拼接算法的要求较大，最终合成声音存在拼接边界人工痕迹等问题。
5.统计参数合成法具体为生成语音特征的平滑轨迹，然后交由声码器来合成语音，这种方法解决了拼接合成方法中出现的边界人工痕迹的很多问题。但是统计参数合成法根据参数调节tts发音效果，tts播报效果依赖录音语料的音素覆盖情况与所调的参数数值，语料数据量的要求比拼接合成法低很多，最终声音略显机械感，声音拟人度不足。
6.端到端合成法具体为端到端语音合成将时长、声学等参数模型，全部集成到一个深度学习模型中，可以接任何tts的前端与后端，输入输出极为方便。基于已有的模型，新音的制作也非常快速。但是端到端合成法在计算时使用深度学习模型计算量较大，导致语音合成响应时间较长，无法满足实时语音交互，对硬件的要求也较高，项目落地困难。
7.综上所述，现有技术中语音合成时，音质、响应时间、成本、硬件配置等指标相互制衡，想要追求高音质tts，就会伴随有时间成本或硬件成本等要求，因此，现有的语音合成方法均无法达到满意效果。

技术实现要素：

8.有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于端到端的拼接合成音库制作方法及装置，以解决现有技术中语音合成方法均无法达到满意效果的问题。
9.为实现以上目的，本发明采用如下技术方案：一种基于端到端的拼接合成音库制
作方法，包括：
10.录制新音；
11.将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；
12.获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；
13.对所述合成语音进行韵律标注，得到拼接合成的音库。
14.进一步的，构建端到端合成模型，包括：
15.获取准备语料；所述准备语料包括多个发音人录音；
16.对所述语料进行韵律标注并校对，得到训练语料；
17.利用所述训练语料训练深度学习模型，得到端到端合成模型。
18.进一步的，所述录制新音，包括：
19.基于所述准备语料，录制新发音人音库，所述新发音人音库包括新音。
20.进一步的，还包括：
21.对韵律标注后的合成语音进行校对，并输入预构建的拼接合成模型中；
22.所述拼接合成模型对校对过的合成语音进行处理，输出拼接合成语音，拼接合成语音构成音库。
23.进一步的，所述端到端合成模型采用深度学习模型。
24.本技术实施例提供一种基于端到端的拼接合成音库制作装置，包括：
25.录制模块，用于录制新音；
26.训练模块，用于将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；
27.输出模块，用于获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；
28.合成模块，用于对所述合成语音进行韵律标注，得到拼接合成的音库。
29.本技术实施例提供一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述任一项基于端到端的拼接合成音库制作方法的步骤。
30.本技术实施例还提供一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一项基于端到端的拼接合成音库制作方法的步骤。
31.本发明采用以上技术方案，能够达到的有益效果包括：
32.本发明提供一种基于端到端的拼接合成音库制作方法及装置，本技术提供的技术方案解决了拼接合成法音库录制耗时较长且录音人音不稳定带来的潜在影响，极大的节省了音库录制中的时间和人力成本。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
34.图1为本发明基于端到端的拼接合成音库制作方法的步骤示意图；
35.图2为本发明基于端到端的拼接合成音库制作方法的流程示意图；
36.图3为本发明基于端到端的拼接合成音库制作装置的结构示意图；
37.图4为本发明基于端到端的拼接合成音库制作方法的硬件实施环境的结构图。
具体实施方式
38.为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。
39.下面结合附图介绍本技术实施例中提供的一个具体的基于端到端的拼接合成音库制作方法及装置。
40.如图1所示，本技术实施例中提供的基于端到端的拼接合成音库制作方法包括：
41.s101，录制新音；
42.一些实施例中，所述录制新音，包括：
43.基于所述准备语料，录制新发音人音库，所述新发音人音库包括新音。
44.具体的，本技术是基于预构建的端到端合成模型使用的准备语料，录制准备语料中没有的，新发音人的新音。
45.s102，将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；
46.一些实施例中，所述构建端到端合成模型，包括：
47.获取准备语料；所述准备语料包括多个发音人录音；
48.对所述语料进行韵律标注并校对，得到训练语料；
49.利用所述训练语料训练深度学习模型，得到端到端合成模型。
50.具体的，本技术准备语料，然后对准备语料进行韵律标注，可以理解的是，在进行韵律标注后可进行人工校对，然后得到训练语料，采用训练语料对深度学习模型进行训练，得到端到端合成模型。
51.优选的，所述端到端合成模型采用深度学习模型。
52.s103，获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；
53.其中，待合成语料文本可根据实际应用进行选择，例如，新闻场景的tts播报，则待合成语料文本为新闻场景的语料文本。
54.s104，对所述合成语音进行韵律标注，得到拼接合成的音库。
55.一些实施例中，所述方法还包括：
56.对韵律标注后的合成语音进行校对，并输入预构建的拼接合成模型中；
57.所述拼接合成模型对校对过的合成语音进行处理，输出拼接合成语音，拼接合成语音构成音库。
58.现有技术中的端到端合成技术音拟人度非常高，但因其响应速度无法满足实时语音交互，故而在实际生产中难以商业落地；而拼接合成技术音拟人度也较高，但因庞大的音库需求，同样难以商业落地。本技术将两者结合使用，端到端tts输出音库，拼接合成法支持实时语音交互，使得本技术解决了拼接法超大语料库所需的录音时长及成本问题，同时保证了tts高拟人度音质效果。此音库制作方案，将端到端技术输出的录音，做为拼接合成法前期的庞大录音数据来源，故称为一种基于端到端技术的拼接合成音库制作方案。相比于真人录制音库，基于已有的端到端高拟人度tts录音，音音质更为稳定，不会受外界环境因素干扰，且对于缺失的语料场景方便随时补充，极大的加快了语料录音收集效率，节约录音成本，成功解决了拼接合成技术难以商业化落地的根本痛点问题。
59.本技术提供的技术方案解决了拼接合成法音库录制耗时较长且录音人音不稳定带来的潜在影响，极大的节省了音库录制中的时间和人力成本。
60.基于端到端的拼接合成音库制作方法的工作原理为：参见图2，首先根据已有的端到端语料，录制新发音人音库；然后将新音放入已有的端到端合成模型(简称“基础模型”)中，在“基础模型”中自动学习新音的特征，并训练出新音模型(简称“新模型”)；再将拼接合成法所需要的录制的大批量语料原始文本，推送到“新模型”中，批量输出音库录音；如此录音制作完成，标音后即可作为拼接合成的音库了。本技术中拼接合成模型内设有前端模块和后端模块，前端模块通过文本分析输出文本的拼音信息与韵律结构信息。后端模块基于前端输出的分析结果，在录制的音库中，寻最佳候选单元，最终输出候选单元波形拼接后的音频。
61.如图3所示，本技术实施例提供一种基于端到端的拼接合成音库制作装置，包括：
62.录制模块301，用于录制新音；
63.训练模块302，用于将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；
64.输出模块303，用于获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；
65.合成模块304，用于对所述合成语音进行韵律标注，得到拼接合成的音库。
66.本技术实施例提供的基于端到端的拼接合成音库制作装置的工作原理为，录制模块301录制新音；训练模块302将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；输出模块303获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；合成模块304对所述合成语音进行韵律标注，得到拼接合成的音库。
67.本技术提供一种计算机设备，包括：存储器和处理器，还可以包括网络接口，所述存储器存储有计算机程序，存储器可以包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。该计算机设备存储有操作系统，存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时，使得所述处理器执行基于端到端的拼接合成音库制作方法，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
68.在一个实施例中，本技术提供的基于端到端的拼接合成音库制作方法可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。
69.一些实施例中，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：录制新音；将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；对所述合成语音进行韵律标注，得到拼接合成的音库。
70.本技术还提供一种计算机存储介质，计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光光盘(dvd)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
71.一些实施例中，本发明还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，录制新音；将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；对所述合成语音进行韵律标注，得到拼接合成的音库。
72.综上所述，本发明提供一种基于端到端的拼接合成音库制作方法及装置，所述方法包括录制新音；将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；对所述合成语音进行韵律标注，得到拼接合成的音库。本发明基于已有的端到端tts技术基础上，录制拼接合成tts所需的大批量音库，本技术解决了拼接合成法音库录制耗时较长且录音人音不稳定带来的潜在影响，极大的节省了音库录制中的时间和人力成本。
73.可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。
74.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
75.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
76.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
77.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
78.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

技术特征：

1.一种基于端到端的拼接合成音库制作方法，其特征在于，包括：录制新音；将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；对所述合成语音进行韵律标注，得到拼接合成的音库。2.根据权利要求1所述的方法，其特征在于，构建端到端合成模型，包括：获取准备语料；所述准备语料包括多个发音人录音；对所述语料进行韵律标注并校对，得到训练语料；利用所述训练语料训练深度学习模型，得到端到端合成模型。3.根据权利要求2所述的方法，其特征在于，所述录制新音，包括：基于所述准备语料，录制新发音人音库，所述新发音人音库包括新音。4.根据权利要求1所述的方法，其特征在于，还包括：对韵律标注后的合成语音进行校对，并输入预构建的拼接合成模型中；所述拼接合成模型对校对过的合成语音进行处理，输出拼接合成语音，拼接合成语音构成音库。5.根据权利要求1所述的方法，其特征在于，所述端到端合成模型采用深度学习模型。6.一种基于端到端的拼接合成音库制作装置，其特征在于，包括：录制模块，用于录制新音；训练模块，用于将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；输出模块，用于获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；合成模块，用于对所述合成语音进行韵律标注，得到拼接合成的音库。7.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述的基于端到端的拼接合成音库制作方法。8.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述的基于端到端的拼接合成音库制作方法。

技术总结

本发明涉及一种基于端到端的拼接合成音库制作方法及装置，所述方法包括录制新音；将所述新音输入至预构建的端到端合成模型中，基于所述新音的特征对所述端到端模型进行训练，得到新音模型；获取基于拼接合成模型所需的待合成语料原始文本，将所述待合成语料原始文本输入至所述新音模型中，输出合成语音；对所述合成语音进行韵律标注，得到拼接合成的音库。本发明基于已有的端到端TTS技术基础上，录制拼接合成TTS所需的大批量音库，本申请解决了拼接合成法音库录制耗时较长且录音人音不稳定带来的潜在影响，极大的节省了音库录制中的时间和人力成本。音库录制中的时间和人力成本。音库录制中的时间和人力成本。