歌曲合成模型的训练方法和装置、歌曲合成方法和装置与流程

1.本技术涉及计算机技术领域，特别是涉及一种歌曲合成模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，以及一种歌曲合成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着计算机技术的发展，出现了歌曲合成技术，通过歌曲合成技术能够将多段音乐合成完整的音频，也可以基于歌词和曲谱合成相应的歌唱音频。
3.传统的歌声合成是通过训练好的合成模型基于歌词和曲谱合成对应的歌声。目前主要通过人工录制歌曲的方式来构建合成模型的训练数据，由于歌声合成对数据的多样性要求很高，而人工录制的歌曲在一些分布较少的高音或低音处会存在不稳定，导致合成模型所合成歌曲的自然度较差。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高歌曲合成自然度的歌曲合成模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，以及一种能够提高歌曲合成自然度的歌曲合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.本技术提供了一种歌曲合成模型的训练方法，所述方法包括：
6.获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；
7.基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息；
8.根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型；
9.获取目标声源的音频，基于所述目标声源的音频提取音特征；
10.基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。
11.本技术还提供了一种歌曲合成模型的训练装置，所述装置包括：
12.获取模块，用于获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；
13.增广模块，用于基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息；
14.预训练模块，用于根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型；
15.提取模块，用于获取目标声源的音频，基于所述目标声源的音频提取音特征；
16.训练模块，用于基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。
17.在一个实施例中，所述增广模块，还用于按照音频变换方式对多个所述初始样本的录制音频进行变换，得到与每个所述录制音频分别对应的增广音频；根据多个所述初始样本的源歌词时长信息，确定与每个所述增广音频分别对应的增广歌词时长信息；通过与所述音频变换方式相匹配的乐谱变换方式，对多个所述初始样本的源乐谱信息进行调整，得到与每个所述增广音频分别对应的增广乐谱信息；根据各所述增广音频、各所述增广音频的增广歌词时长信息和各所述增广音频的增广乐谱信息形成增广样本集。
18.在一个实施例中，所述增广模块，还用于对多个所述初始样本的录制音频分别进行音高调整处理，得到与每个所述录制音频分别对应的增广音频；将多个所述初始样本的每个录制音频的源歌词时长信息，作为相应增广音频对应的增广歌词时长信息；按照对多个所述初始样本的录制音频的音高调整处理，对多个所述录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个所述增广音频分别对应的增广乐谱信息。
19.在一个实施例中，所述增广模块，还用于将多个所述初始样本的录制音频进行划分处理，得到每个所述录制音频各自对应的音频片段；对于每个所述录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频；按照对多个所述初始样本的录制音频的划分处理，将多个所述初始样本的源歌词时长信息进行划分，得到每个所述音频片段对应的歌词时长信息片段；按照对各所述音频片段的拼接处理，对各所述音频片段的歌词时长信息片段进行拼接，得到与每个所述增广音频分别对应的增广歌词时长信息；按照对多个所述初始样本的录制音频的划分处理，将多个所述初始样本的源乐谱信息进行划分，得到每个所述音频片段对应的乐谱信息片段；按照对各所述音频片段的拼接处理，对各所述音频片段的乐谱信息片段进行拼接，得到与每个所述增广音频分别对应的增广乐谱信息。
20.在一个实施例中，所述预训练模块，还用于从所述初始样本集和所述增广样本集构成的集合中获取样本音频、与所述样本音频对应的样本歌词时长信息，以及与所述样本音频对应的样本乐谱信息；根据所述样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征；按照所述样本歌词时长信息的样本歌词时长特征，扩展所述样本编码特征的时长特征，得到样本时长扩展编码特征；提取所述样本音频的样本音特征，将所述样本音特征和所述样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征；基于所述预测频谱特征合成预测歌曲，根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数；基于所述目标损失函数进行模型预训练，获得歌曲合成初始模型。
21.在一个实施例中，所述预训练模块，还用于根据所述样本歌词时长信息的样本歌词特征、所述样本乐谱信息的样本乐谱特征和所述样本音特征进行时长预测处理，得到所述样本歌词时长信息中每个音素对应的预测音素时长；确定每个所述音素的预测音素时长和所述样本歌词时长信息中每个音素的样本音素时长之间的音素时长损失；确定所述预测歌曲和所述样本音频之间的合成损失；根据所述音素时长损失和所述合成损失，构建目标损失函数。
22.在一个实施例中，所述预训练模块，还用于根据所述样本歌词时长信息中每个音素对应的预测音素时长，确定所述样本歌词时长信息中每个音节对应的预测音节时长；确定每个所述音节的预测音节时长和所述样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失；根据所述音素时长损失、所述音节时长损失和所述合成损失，构建目标损失函数。
23.在一个实施例中，所述预训练模块，还用于对所述样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到所述样本音频的分类结果；确定所述分类结果和所述样本音频的分类标签之间的对抗损失；确定所述预测歌曲和所述样本音频之间的合成损失；根据所述对抗损失和所述合成损失，构建目标损失函数。
24.在一个实施例中，所述预训练模块，还用于提取所述样本音频的样本频谱特征，并确定所述预测频谱特征和所述样本频谱特征之间的频谱损失；确定所述预测歌曲和所述样本音频之间的合成损失；根据所述频谱损失和所述合成损失，构建目标损失函数。
25.在一个实施例中，所述训练模块，用于基于所述目标声源的音特征对所述初始时长模型、所述初始声学模型和所述初始声码器的参数进行调整，得到与所述目标声源的音相匹配的歌曲合成模型。
26.本技术还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
27.获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息；根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型；获取目标声源的音频，基于所述目标声源的音频提取音特征；基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。
28.本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
29.获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息；根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型；获取目标声源的音频，基于所述目标声源的音频提取音特征；基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。
30.本技术还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
31.获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广
音频的增广乐谱信息；根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型；获取目标声源的音频，基于所述目标声源的音频提取音特征；基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。
32.上述歌曲合成模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取包括多种声源的初始样本所构成的初始样本集，以将初始样本所包括的录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息作为样本增广的基础数据。基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，该增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息，从而能够通过样本增广获得大量的训练语料，扩充了训练语料的数量和丰富度。并且，通过样本增广方式可以在基础数据上获得更多的训练语料，能够降低对基础数据的数量要求，从而使得对基础数据的人工录制和标注成本大幅降低。而根据初始样本集和增广样本集所包含的大量训练语料进行模型预训练，使得预训练获得的歌曲合成初始模型的鲁棒性得以提升。对目标声源的音频提取音特征，基于音特征对歌曲合成初始模型进行训练，能够基于单人的音频数据对预训练得到的歌曲合成初始模型进行微调处理，准确获得与目标声源的目标音相匹配的歌曲合成模型，能够有效实现歌曲合成的音定制效果，从而提高歌曲合成的自然度。
33.本技术提供了一种歌曲合成方法，所述方法包括：
34.获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；
35.获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；
36.确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；
37.基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。
38.本技术还提供了一种歌曲合成装置，所述装置包括：
39.编码模块，用于获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；
40.扩展模块，用于获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；
41.确定模块，用于确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；
42.合成模块，用于基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。
43.在一个实施例中，所述装置还包括时长预测模块，所述时长预测模块，用于根据所述目标歌词的歌词特征、所述目标乐谱信息的乐谱特征和所述目标音的音特征进行时长预测处理，得到所述目标歌词中每个音素对应的音素时长；按照每个所述音素的音素时长扩展所述编码特征的时长特征，得到时长扩展编码特征。
44.本技术还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存
储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
45.获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。
46.本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
47.获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。
48.本技术还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
49.获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。
50.上述歌曲合成方法、装置、计算机设备、存储介质和计算机程序产品，根据需要进行歌曲合成的目标歌词和目标乐谱信息进行特征编码，获得包含歌词特征和乐谱特征的编码特征。获取目标歌词的歌词时长特征，并按照歌词时长特征扩展编码特征的时长特征，能够使用目标歌词的真实时长作为扩展的依据，使得所得到的时长扩展编码特征更精准。并且，对于需要严格匹配伴奏的合成场景，使用真实时长作为扩展的依据而不采用预测的时长，能够让时长能精准对齐伴奏的时间点，从而使得合成歌曲的词和旋律更协调自然，听起来更加悦耳。确定目标音的音特征，将音特征和时长扩展编码特征拼接后进行声学特征提取，得到获得包含目标音的目标频谱特征，基于目标频谱特征合成与目标歌词、目标乐谱信息和目标音相匹配的目标歌曲，从而有效实现目标音的定制效果。并且，在已有歌词时长信息的情况下，结合歌词、乐谱和音合成具有特定音的目标歌曲，使得歌曲合成具备音定制功能，从而提高歌曲合成的自然度。
附图说明
51.图1为一个实施例中歌曲合成模型的训练方法的应用环境图；
52.图2为一个实施例中歌曲合成模型的训练方法的流程示意图；
53.图3为一个实施例中对源乐谱信息的音符进行音阶升高处理和音阶降低处理的流
程示意图；
54.图4为一个实施例中进行样本增广的流程示意图；
55.图5为一个实施例中根据初始样本集和增广样本集进行模型预训练，获得歌曲合成初始模型的流程示意图；
56.图6为一个实施例中进行模型预训练的整体架构图；
57.图7为一个实施例中歌曲合成方法的流程示意图；
58.图8为一个实施例中歌曲合成模型的整体架构图；
59.图9为一个实施例中歌曲合成模型的训练装置的结构框图；
60.图10为一个实施例中歌曲合成装置的结构框图；
61.图11为一个实施例中计算机设备的内部结构图。
具体实施方式
62.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
63.本技术实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶、数据挖掘等。例如，应用于人工智能(artificial intelligence，ai)技术领域，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本技术实施例提供的方案涉及人工智能的歌曲合成模型的训练方法，具体通过如下各实施例进行说明。
64.本技术实施例提供的歌曲合成模型的训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。终端102和服务器104均可单独执行本技术实施例中提供的歌曲合成模型的训练方法。终端102和服务器104也可协同用于执行本技术实施例中提供的歌曲合成模型的训练方法。当终端102和服务器104协同用于执行本技术实施例中提供的歌曲合成模型的训练方法时，终端102获取初始样本集，初始样本集包括多种声源的初始样本，初始样本包括录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息。终端102将初始样本集发送给服务器104，服务器104基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息。服务器104根据初始样本集和增广样本集进行模型预训练，获得歌曲合成初始模型。终端102获取目标声源的音频并发送给服务器104，服务器104基于目标声源的音频提取音特征；服务器104基于音特征对歌曲合成初始模型进行训练，获得歌曲合成模型。该歌曲合成模型可部署在服务器104或终端102中。
65.其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、智能语音交互设备、智能家电、车载终端、飞行器、便携式可穿戴设备等。该终端102上可
运行应用程序或安装应用程序的客户端，该应用程序可以是通信应用、邮件应用、视频应用、音乐应用和图像处理应用等，音乐应用可以是歌曲合成应用和音乐播放应用等，但不限于此。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
66.在一个实施例中，歌曲合成方法也可以应用于如图1所示的应用环境中。终端102和服务器104均可单独执行本技术实施例中提供的歌曲合成方法。终端102和服务器104也可协同用于执行本技术实施例中提供的歌曲合成方法。
67.需要说明的是，本技术各实施例中提及的“多个”等的数量均指代“至少两个”的数量。
68.本实施例的歌曲合成模型的训练和歌曲合成方法可以应用到任何具有语音合成能力的设备中，包括但不限于智能音箱、有屏音箱、智能手表、智能手机、智能家居、智能汽车等智能设备，智能机器人、虚拟主播、虚拟助教、ai客服、语音合成(text to speech，简称tts)云服务等，并且都可以通过本实施例提出的方法来降低ai数据录制的成本和增强ai设备的技能，并提供广阔的娱乐应用效果。
69.在一个实施例中，如图2所示，提供了一种歌曲合成模型的训练方法，以该方法应用于图1中的计算机设备(计算机设备可以是图1中的终端或服务器)为例进行说明，包括以下步骤：
70.步骤s202，获取初始样本集，该初始样本集包括多种声源的初始样本，该初始样本包括录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息。
71.其中，录制音频指的是录制的歌唱音频。源歌词时长信息指的是录制音频所对应的歌词的时长标注信息，可以包括歌词、歌词的每个音素对应的音素时长或每个音节对应的音节时长中的至少一种。音素是根据语音的自然属性划分出来的最小语音单位，音素分为元音与辅音两大类。音节(syllable)是由一个或多个音素组成的语音单位，是语言中单个元音音素和辅音音素组合发音的最小语音单位。单个元音音素也可构成音节。
72.每个音节可以对应歌词中的一个字，每个音节可以对应多个音素，每个音节的音节时长即每个音节对应的音素的音素时长之和。
73.乐谱是用符号来记录音乐的方式。源乐谱信息指的是录制音频所对应的旋律信息，包括音符、音符时值、节拍、连音、延音等信息。音符是乐谱上表示音长或音高的符号。连音线表示演奏信息，连音线可以把几个不同音高的音符连在一起，表示这几个音符要演奏得连贯、圆滑。音符时值即音符的演奏时长。每个音节可以对应歌词中的一个字，每个音节的音节时长即每个音节对应的音符的音符时值之和。音高(pitch)，是指各种音调高低不同的声音，即音的高度，音高作为音的基本特征的一种。
74.具体地，计算机设备可以从本地或其他设备或网络上获取多种声源的录制音频，并获取每个录制音频分别对应的源歌词时长信息，以及每个录制音频的源乐谱信息。将录制音频、该录制音频的源歌词时长信息和该录制音频的源乐谱信息构成单个初始样本。根据多种声源的初始样本，生成初始样本集，则该初始样本集中包括多种声源的初始样本。
75.本实施例中，计算机设备可获取每个录制音频分别对应的源歌词信息，对每个源歌词信息进行时长标注，得到源歌词中每个音素的时长标注信息和每个音节的时长标注信息。每个音节的时长标注信息即作为，源歌词中每个词的时长标注信息。将源歌词中每个音素的时长标注信息和每个音节的时长标注信息，作为该源歌词信息对应的源歌词时长信息，即录制音频的源歌词时长信息。
76.步骤s204，基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，该增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息。
77.其中，样本增广是指增加初始样本的丰富度，包括扩大初始样本的数量、初始样本的类型等，但不限于此。音频变换指的是音频的属性参数的变换方式，是指通过调整音频的属性参数生成新的音频。音频的属性参数包括但不限于音频的时长、音高和节拍。
78.增广音频是指对录制音频进行音频变换所得到的音频。增广音频与对应的录制音频至少存在一种属性参数不同，例如音高不同、或时长不同。
79.增广歌词时长信息指的是增广音频所对应的歌词的时长标注信息，可以包括歌词、歌词的每个音素对应的音素时长或每个音节对应的音节时长中的至少一种。增广乐谱信息指的是增广音频所对应的旋律信息，包括音符、音符时值、节拍、连音、延音等信息。
80.具体地，对于初始样本集中的每个初始样本，计算机设备对每个初始样本的录制音频分别进行音频变换处理，以调整录制音频的属性参数，得到每个录制音频分别对应的增广音频。计算机设备基于对录制音频的音频变换处理，对录制音频的源歌词时长信息进行相应处理，得到与录制音频的增广音频相对应的增广歌词时长信息。计算机设备基于对录制音频的音频变换处理，对录制音频的源乐谱信息进行相应乐谱变换处理，得到与录制音频的增广音频相对应的增广乐谱信息。
81.计算机设备将增广音频、该增广音频的增广歌词时长信息和该增广音频的增广乐谱信息构成单个增广样本。各增广样本构成增广样本集。
82.本实施例中，计算机设备可从初始样本集中选择多个初始样本，基于对所选择的多个初始样本中录制音频的音频变换进行样本增广，获得增广样本集。增广样本集中包括选择的每个初始样本分别对应的增广样本。
83.步骤s206，根据初始样本集和增广样本集进行模型预训练，获得歌曲合成初始模型。
84.具体地，歌曲合成初始模型是指经过预训练所获得的模型。计算机设备可将初始样本集中的初始样本和增广样本集中的增广样本作为模型预训练的训练样本，通过各初始样本和各增广样本对构建的模型进行预训练，并在训练中调整模型参数，直至满足预训练停止条件时停止，得到歌曲合成初始模型。
85.本实施例中，计算机设备从初始样本集和增广样本集构成的集合中获取样本音频，并获取与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息。计算机设备根据各样本音频，各样本音频的样本歌词时长信息，以及各样本音频的样本乐谱信息对构建的模型进行预训练，并在训练中调整模型参数，直至满足预训练停止条件时停止，得到歌曲合成初始模型。
86.当获取的样本音频为录制音频时，将录制音频对应的源歌词时长信息作为样本音
频对应的样本歌词时长信息，将录制音频对应的源乐谱信息作为样本音频对应的样本乐谱信息。当获取的样本音频为增广音频时，将增广音频对应的增广歌词时长信息作为样本音频对应的样本歌词时长信息，将增广音频对应的增广乐谱信息作为样本音频对应的样本乐谱信息。
87.步骤s208，获取目标声源的音频，基于目标声源的音频提取音特征。
88.其中，音作为声音的属性之一，主要由其泛音决定。音特征表征声音的特和本质，也称作“音质”。目标声源是指目标对象的声源，目标声源的音频指的是由目标对象的声音录制的音频。
89.具体地，计算机设备可获取目标声源对应的音频，并对目标声源的音频进行特征提取，得到对应的音特征。
90.本实施例中，目标声源的音频指的是由目标对象的声音录制的歌唱音频。
91.本实施例中，计算机设备可获取目标声源对应的歌唱音频，该歌唱音频对应的源歌词时长信息和该歌唱音频对应的源乐谱信息。
92.步骤s210，基于音特征对歌曲合成初始模型进行训练，获得歌曲合成模型。
93.具体地，计算机设备基于音特征对歌曲合成初始模型进行训练，并在训练中调整歌曲合成初始模型的参数，直至满足预训练停止条件时停止，得到与目标声源的目标音相匹配的歌曲合成模型。
94.当存在多个目标声源的音频时，对每个目标声源的音频进行特征提取，得到每个目标声源对应的音特征。基于每个目标声源的音特征对歌曲合成初始模型分别进行训练，获得与每个目标声源的目标音分别匹配的歌曲合成模型。
95.歌曲合成模型用于基于目标歌词和目标乐谱信息进行歌曲合成，得到以目标音演唱的目标歌曲。该目标音可由用户从多个候选音中选择得到。
96.本实施例中，计算机设备可获取目标声源对应的多个歌唱音频，以及每个歌唱音频对应的歌词时长信息，以及每个歌唱音频对应的乐谱信息。通过目标声源对应的多个歌唱音频、多个歌词时长信息和多个乐谱信息对歌曲合成初始模型进行训练，获得与目标声源的音相匹配的歌曲合成模型。
97.当存在多个目标声源时，分别使用每个目标声源的歌唱音频、歌词时长信息和乐谱信息对歌曲合成初始模型进行训练，以分别得到与每个目标声源的音相匹配的歌曲合成模型。不同的目标声源表征不同的目标对象。
98.例如获取目标对象a的歌唱数据，该歌唱数据包括目标对象a的多个歌唱音频，每个歌唱音频对应的歌词时长信息和乐谱信息。通过目标对象a的歌唱数据对歌曲合成初始模型进行训练，从而得到与目标对象a的音相匹配的歌曲合成模型。当存在多个目标对象a、b、c时，分别使用目标对象a、b、c的歌唱数据对歌曲合成初始模型进行训练，分别得到与目标对象a的音相匹配的歌曲合成模型、与目标对象b的音相匹配的歌曲合成模型和目标对象c的音相匹配的歌曲合成模型。也可以将与目标对象a、b、c的音相匹配的歌曲合成模型作为子模型，并将各子模型集成为目标歌曲合成模型。用户使用目标歌曲合成模型进行歌曲合成时，可输入目标歌词和目标乐谱信息，并从目标歌曲合成模型所提供的多个候选音中选择目标音，以通过与目标音相匹配的子模型对目标歌词和目标乐谱信息进行合成，得到以目标音进行演唱的目标歌曲。
99.本实施例中，获取包括多种声源的初始样本所构成的初始样本集，以将初始样本所包括的录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息作为样本增广的基础数据。基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，该增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息，从而能够通过样本增广获得大量的训练语料，扩充了训练语料的数量和丰富度。并且，通过样本增广方式可以在基础数据上获得更多的训练语料，能够降低对基础数据的数量要求，从而使得对基础数据的人工录制和标注成本大幅降低。而根据初始样本集和增广样本集所包含的大量训练语料进行模型预训练，使得预训练获得的歌曲合成初始模型的鲁棒性得以提升。对目标声源的音频提取音特征，基于音特征对歌曲合成初始模型进行训练，能够基于单人的音频数据对预训练得到的歌曲合成初始模型进行微调处理，准确获得与目标声源的目标音相匹配的歌曲合成模型，能够有效实现歌曲合成的音定制效果，从而提高歌曲合成的自然度。
100.在一个实施例中，基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，包括：
101.按照音频变换方式对多个初始样本的录制音频进行变换，得到与每个录制音频分别对应的增广音频；根据多个初始样本的源歌词时长信息，确定与每个增广音频分别对应的增广歌词时长信息；通过与音频变换方式相匹配的乐谱变换方式，对多个初始样本的源乐谱信息进行调整，得到与每个增广音频分别对应的增广乐谱信息；根据各增广音频、各增广音频的增广歌词时长信息和各增广音频的增广乐谱信息形成对应的增广样本。
102.其中，音频变换方式包括对录制音频的音高调整处理或对录制音频的音频片段的拼接处理中的至少一种。音高调整处理包括升音处理或降音处理中的至少一种。升音处理指的是提高录制音频的音高，降音处理指的是降低录制音频的音高。
103.乐谱变换方式包括对源乐谱信息的音阶调整处理或对源乐谱信息的乐谱信息片段的拼接处理中的至少一种。音阶是指以一定调式为标准，按音高次序向上或向下排列成的一组音。
104.具体地，计算机设备按照音频变换方式，对多个初始样本的录制音频的属性参数分别进行调整，得到与每个录制音频分别对应的增广音频。计算机设备确定与音频变换方式相匹配的时长变换方式，通过时长变换方式对多个初始样本的源歌词时长信息分别进行处理，得到与每个源歌词时长信息分别对应的增广歌词时长信息。增广歌词时长信息与源歌词时长信息对应，源歌词时长信息与录制音频对应，录制音频与增广音频对应，则可得到增广音频对应的增广歌词时长信息。时长变换方式包括对源歌词时长信息的重命名处理或对源歌词时长信息的歌词时长信息片段的拼接处理中的至少一种。
105.计算机设备确定与音频变换方式相匹配的乐谱变换方式，通过乐谱变换方式对多个初始样本的源乐谱信息进行乐谱调整，得到与每个源乐谱信息分别对应的增广乐谱信息。增广乐谱信息与源乐谱信息对应，源乐谱信息与录制音频对应，录制音频与增广音频对应，则可得到增广音频对应的增广乐谱信息。
106.计算机设备将增广音频、该增广音频的增广歌词时长信息和该增广音频的增广乐谱信息构成单个增广样本，以得到多个初始样本中每个初始样本分别对应的增广样本。每个初始样本可对应多个增广样本。
107.本实施例中，多个初始样本可基于录制音频的不同音频变换方式进行样本增广，例如，对至少一个初始样本的录制音频进行音高调整处理，对至少一个初始样本的录制音频进行录制音频的音频片段的拼接处理，对至少一个初始样本的录制音频进行音高调整处理和录制音频的音频片段的拼接处理。也可以所有初始样本的录制音频使用相同的音频变换方式进行样本增广。初始样本的源歌词时长信息和源乐谱信息的处理类似。可以理解的是，初始样本的录制音频的变换方式，与该初始样本的源歌词时长信息的时长变换方式、以及与该初始样本的源乐谱信息的乐谱变换方式相匹配。
108.本实施例中，按照音频变换方式对多个初始样本的录制音频进行变换，得到与每个录制音频分别对应的增广音频，能够对已有音频进行处理获得更多的音频数量。根据多个初始样本的源歌词时长信息，确定与每个增广音频分别对应的增广歌词时长信息，使得每个增广音频都对应正确的歌词时长标注信息，保证变换后的音频的歌词、歌词时长均是准确的。通过与音频变换方式相匹配的乐谱变换方式，对多个初始样本的源乐谱信息进行调整，能够按照与音频变换相匹配的乐谱变换方式对已有的乐谱信息进行自动修改，实现乐谱的扩增，并使得每个增广音频均对应的正确的乐谱信息。根据各增广音频、各增广音频的增广歌词时长信息和各增广音频的增广乐谱信息形成对应的增广样本，能够有效增加训练样本的数量，提高了训练样本的多样性。并且，对已有样本进行扩增，能够降低人工采集样本的成本，提高训练样本采集的效率。
109.在一个实施例中，按照音频变换方式对多个初始样本的录制音频进行变换，得到与每个录制音频分别对应的增广音频，包括：对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频；
110.根据多个初始样本的源歌词时长信息，确定与每个增广音频分别对应的增广歌词时长信息，包括：将多个初始样本的每个录制音频的源歌词时长信息，作为相应增广音频对应的增广歌词时长信息；
111.通过与音频变换方式相匹配的乐谱变换方式，对多个初始样本的源乐谱信息进行调整，得到与每个增广音频分别对应的增广乐谱信息，包括：按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个增广音频分别对应的增广乐谱信息。
112.具体地，音高调整处理包括升音处理或降音处理中的至少一种。计算机设备可对多个初始样本的录制音频进行升音处理或降音处理中的至少一种，得到与每个录制音频分别对应的调整音频。计算机设备可将该调整音频作为录制音频的增广音频。
113.例如，对于多个初始样本，可将每个初始样本的录制音频分别进行升音处理，或者将每个初始样本的录制音频分别进行降音处理，或者将每个初始样本的录制音频分别进行升音处理并分别进行降音处理。或者，将多个初始样本中部分初始样本的录制音频进行升音处理，部分初始样本的录制音频进行降音处理。
114.在其他实施例中，计算机设备可将该调整音频的各音频片段进行拼接，得到增广音频。
115.音高调整处理不改变录制音频的歌词时长信息，可直接将录制音频的源歌词时长信息作为相应增广音频的增广歌词时长信息。即可对多个初始样本的每个录制音频的源歌词时长信息进行重命名处理，即将录制音频的源歌词时长信息作为相应增广音频对应的增
广歌词时长信息。
116.音阶调整处理包括音阶升高处理或音阶降低处理。音阶升高处理与升音处理相匹配，音阶降低处理与降音处理相匹配。对于进行升音处理的录制音频，对该录制音频的源乐谱信息的音符进行音阶升高处理，得到与该录制音频的增广音频对应的增广乐谱信息。对于进行降音处理的录制音频，对该录制音频的源乐谱信息的音符进行音阶降低处理，得到与该录制音频的增广音频对应的增广乐谱信息。
117.将对录制音频进行升音处理所得到的增广音频、该增广音频对应的增广歌词时长信息、以及对该录制音频的源乐谱信息进行音阶升高处理所得到的增广乐谱信息构成增广样本。将对录制音频进行降音处理所得到的增广音频、该增广音频对应的增广歌词时长信息、以及对该录制音频的源乐谱信息进行音阶降低处理所得到的增广乐谱信息构成增广样本。
118.如图3所示，为一个实施例中对录制音频的源乐谱信息的音符进行音阶升高处理和音阶降低处理的示意图。
119.通过音频处理工具对录制音频进行统一升半音处理，例如，图中的歌词“来”在源乐谱信息中的原本音符为降mi，通过升高半音后，“来”的音符变成了还原mi，即升半音后的乐谱信息。一个半音等于100音分，可以通过音频处理工具sox的命令sox orig_audio_file pitch_shifted_up_audio_file pitch 100实现对录制音频和源乐谱信息的升半音处理。对源乐谱信息的升半音处理即为对源乐谱信息中音符的音阶升高处理。sox作为一种音频处理软件，支持不同音频格式文件的互相转换以及音频的风格调整，如音高调整、速度调整等。
120.类似地，通过音频处理工具对录制音频进行统一升半音处理。例如，图中的歌词“来”在源乐谱信息中的原本音符为降mi，通过降低半音后，“来”的音符变成了re。可以通过音频处理工具sox的命令sox orig_audio_file pitch_shifted_down_audio_file pitch-100实现对录制音频和源乐谱信息的降半音处理。对源乐谱信息的降半音处理即为对源乐谱信息中音符的音阶降低处理。
121.升1key是指将音频的每一帧的音高提高半个音符。降1key是指将音频的每一帧的音高降低半个音符。
122.本实施例中，对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频，使得所得到的增广音频覆盖更多的音域，从而能够自动扩展音频的数量。音高调整处理仅调整音高，对歌词和歌词的时长没有影响，则将多个初始样本的每个录制音频的源歌词时长信息，直接作为相应增广音频对应的增广歌词时长信息，能够保证增广音频的歌词、歌词的时长的准确性。按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，使得对录制音频的乐谱调整与对该录制音频的音高调整相对应，从而使得每个增广音频均对应正确的乐谱信息，有效保证增广音频、增广歌词时长信息和增广乐谱信息之间的映射，以及三者的映射关系的准确性，进而提升数据增广的有效性和准确性。
123.在一个实施例中，对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频，包括：对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的调整音频；将每个调整音频进行划分处理，得到每个调
整音频各自对应的音频片段；对于每个录制音频，将相应录制音频的调整音频所对应的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频；
124.将多个初始样本的每个录制音频的源歌词时长信息，作为相应增广音频对应的增广歌词时长信息，包括：按照对每个调整音频的划分处理，将相应录制音频的源歌词时长信息进行划分，得到各调整音频的每个音频片段所对应的歌词时长信息片段；按照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼接，得到与每个增广音频分别对应的增广歌词时长信息；
125.按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个增广音频分别对应的增广乐谱信息，包括：按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个调整音频分别对应的调整乐谱信息；按照对每个调整音频的划分处理，将相应调整音频的调整乐谱信息进行划分，得到相应调整音频的每个音频片段分别对应的乐谱信息片段；按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，得到与每个增广音频分别对应的增广乐谱信息。
126.本实施例中，音高调整处理包括升音处理或降音处理，调整音频包括升音音频或降音音频中的至少一种。升音音频是对录制音频进行升音处理所得到的音频，降音音频是对录制音频进行降音处理所得到的音频。同一录制音频分别进行升音处理和降音处理，则该录制音频所对于的增广音频包括升音处理所得到的升音音频和降音处理所得到的降音音频。
127.本实施例中，对录制音频进行音高调整处理后，再对调整音频进行划分和音频片段的拼接，能够获得更多的增广音频。按照对调整音频的划分和拼接，以相同的方式对录制音频的源歌词时长信息进行划分、对歌词时长信息片段进行拼接，能够准确获得每个增广音频对应的增广歌词时长信息。按照音高调整处理和音阶调整处理的匹配关系，相应对录制音频的源乐谱信息进行音阶调整，再按照对调整音频的划分和拼接，对调整乐谱信息进行划分和乐谱片段的拼接，能够准确获得每个增广音频对应的增广乐谱信息，从而有效保证音频、歌词时长信息和乐谱信息之间映射关系的准确性。
128.在一个实施例中，如图4所示，按照音频变换方式对多个初始样本的录制音频进行变换，得到与每个录制音频分别对应的增广音频，包括步骤s402-步骤s404：
129.步骤s402，将多个初始样本的录制音频进行划分处理，得到每个录制音频各自对应的音频片段。
130.具体地，对于多个初始样本中的每个初始样本，确定初始样本的录制音频中音频的停顿时间点，按照停顿时间点将录制音频进行划分处理，得到每个录制音频各自对应的多个音频片段。
131.在本实施例中，可将每个录制音频进行随机划分处理，得到每个录制音频各自对应的音频片段。进一步地，可将录制音频随机划分为预设数量的音频片段。
132.在其他实施例中，可将录制音频按照预设时长进行划分，得到录制音频对应的多个音频片段。例如，将录制音频按照每2-5秒进行划分，得到多个2-5秒的音频片段。
133.步骤s404，对于每个录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频。
134.具体地，对于录制音频的多个音频片段，计算机设备将至少两个音频片段按照相邻顺序进行拼接，以得到多个拼接音频，将所得到的拼接音频作为增广音频。按照相同的处理，可得到每个录制音频分别对应的多个增广音频。
135.例如，将录制音频被划分为abcd这4个音频片段，ab相邻、bc相邻、cd相邻，则可将ab拼接、bc拼接、cd拼接、abc拼接、bcd拼接，得到多个增广音频。
136.在本实施例中，计算机设备可将录制音频的多个音频片段按照相邻顺序进行拼接，以得到满足不同时长范围的增广音频。例如，不同时长范围为0～5秒、5～8秒和8～13秒，将录制音频按照停顿时间点进行切分，得到每句长度约为2～5秒的音频片段。将多个切分后的音频按照顺序进行相邻组合，分别形成0～5秒、5～8秒、8～13秒的增广音频。例如切分后相邻的两个音频片段分别为2秒和4秒，则组合得到6秒的增广音频，该6秒的增广音频满足5～8秒的时长范围。
137.根据多个初始样本的源歌词时长信息，确定与每个增广音频分别对应的增广歌词时长信息，包括步骤s406-步骤s408：
138.步骤s406，按照对多个初始样本的录制音频的划分处理，将多个初始样本的源歌词时长信息进行划分，得到每个音频片段对应的歌词时长信息片段。
139.具体地，计算机设备按照对多个初始样本的录制音频的划分处理，对每个录制音频的源歌词时长信息进行相同的划分处理，得到每个音频片段对应的歌词时长信息片段。
140.步骤s408，按照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼接，得到与每个增广音频分别对应的增广歌词时长信息。
141.具体地，计算机设备可确定构成增广音频的多个音频片段各自对应的歌词时长信息片段，按照对多个音频片段的拼接处理，将多个歌词时长信息片段按相邻顺序进行拼接，得到与每个增广音频分别对应的增广歌词时长信息。
142.通过与音频变换方式相匹配的乐谱变换方式，对多个初始样本的源乐谱信息进行调整，得到与每个增广音频分别对应的增广乐谱信息，包括步骤s410-步骤s412：
143.步骤s410，按照对多个初始样本的录制音频的划分处理，将多个初始样本的源乐谱信息进行划分，得到每个音频片段对应的乐谱信息片段。
144.具体地，计算机设备按照对多个初始样本的录制音频的划分处理，将每个录制音频的源乐谱信息进行相同的划分处理，得到每个音频片段对应的乐谱信息片段。
145.步骤s412，按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，得到与每个增广音频分别对应的增广乐谱信息。
146.具体地，计算机设备可确定构成增广音频的多个音频片段各自对应的乐谱信息片段，按照对多个音频片段的拼接处理，对多个音频片段按相邻顺序进行拼接，得到与每个增广音频分别对应的增广乐谱信息。
147.本实施例中，将多个初始样本的录制音频进行划分处理，得到每个录制音频各自对应的音频片段，对于每个录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频，能够通过对录制音频的划分和音频片段的拼接，得到更多的增广音频，有效实现音频增广。按照对多个初始样本的录制音频的划分处理，将多个初始样本的源歌词时长信息进行划分，使得每个音频片段和每个歌词时长信息片段一一对应。按照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼
接，使得增广音频与增广歌词时长信息一一对应。按照对多个初始样本的录制音频的划分处理，将多个初始样本的源乐谱信息进行划分，使得每个音频片段与每个乐谱信息片段保持准确的映射关系。按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，使得增广音频与增广乐谱信息保持准确的映射关系，从而有效实现样本增广，获得更多的训练样本。并且，通过划分和拼接所得到的增广样本能够获得更多的上下文信息，从而可以使歌曲合成模型在接受输入信息时具备更高的鲁棒性。
148.在一个实施例中，如图5所示，根据初始样本集和增广样本集进行模型预训练，获得歌曲合成初始模型，包括：
149.步骤s502，从初始样本集和增广样本集构成的集合中获取样本音频、与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息。
150.具体地，计算机设备从初始样本集和增广样本集构成的集合中获取样本音频，并获取与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息。
151.当获取的样本音频为录制音频时，将录制音频对应的源歌词时长信息作为样本音频对应的样本歌词时长信息，将录制音频对应的源乐谱信息作为样本音频对应的样本乐谱信息。
152.当获取的样本音频为增广音频时，将增广音频对应的增广歌词时长信息作为样本音频对应的样本歌词时长信息，将增广音频对应的增广乐谱信息作为样本音频对应的样本乐谱信息。
153.步骤s504，根据样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征。
154.具体地，计算机设备可对样本音频的样本歌词时长信息和样本乐谱信息分别进行特征提取，得到样本歌词时长信息对应的样本歌词特征和样本歌词时长特征，以及样本乐谱信息对应的样本乐谱特征。样本歌词特征可包括歌词的音素，还可以包括音节。样本歌词时长特征可包括每个音素对应的音素时长，还可以包括每个音节对应的音节时长。乐谱特征包括音符，还可以包括节拍。
155.计算机设备将样本歌词特征和样本乐谱特征进行拼接，并对拼接特征进行特征编码，得到对应的样本编码特征。
156.步骤s506，按照样本歌词时长信息的样本歌词时长特征，扩展样本编码特征的时长特征，得到样本时长扩展编码特征。
157.具体地，计算机设备按照样本歌词时长特征，对样本编码特征的时长特征进行扩展，得到对应的样本时长扩展编码特征。
158.本实施例中，样本歌词时长特征包括音素时长，则计算机设备按照样本歌词时长信息中每个音素的音素时长，对样本编码特征每个音素的时长特征进行扩展，得到对应的样本时长扩展编码特征。
159.在其他实施例中，样本歌词时长特征包括音节时长，则计算机设备按照样本歌词时长信息中每个音节的音节时长，对样本编码特征每个音节的时长特征进行扩展，得到对应的样本时长扩展编码特征。
160.步骤s508，提取样本音频的样本音特征，将样本音特征和样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征。
161.具体地，计算机设备对样本音频进行特征提取，得到对应的样本音特征。计算机设备将样本音特征和样本时长扩展编码特征进行拼接后，对拼接特征进行声学特征提取，以提取频谱特征，得到预测频谱特征。
162.步骤s510，基于预测频谱特征合成预测歌曲，根据预测歌曲和样本音频之间的合成损失构建目标损失函数。
163.其中，合成损失是指模型预测的预测歌曲和样本音频之间的整体损失。
164.具体地，计算机设备可基于预测频谱特征合成预测歌曲，将样本音频作为预测歌曲对应的真实标签。计算机设备计算预测歌曲和对应的样本音频之间的差异，该差异即为合成损失。根据预测歌曲和样本音频之间的合成损失构建目标损失函数。
165.步骤s512，基于目标损失函数进行模型预训练，获得歌曲合成初始模型。
166.具体地，计算机设备根据目标损失函数进行模型预训练，并基于预训练过程中的目标损失调整模型参数并继续训练，直至满足预训练停止条件时停止，得到预训练完成的歌曲合成初始模型。该预训练完成的歌曲合成初始模型用于根据歌词和乐谱信息合成对应的歌曲。其中，满足预训练停止条件可以是达到预设训练次数、预设迭代次数、损失值小于或等于损失阈值等。损失值是指目标损失函数所计算出的目标损失。
167.例如，当目标损失函数所计算出的目标损失大于损失阈值时，调整模型的参数并继续训练，直至预训练过程中的目标损失小于或等于损失阈值时停止预训练，得到预训练完成的歌曲合成初始模型。或者，根据目标损失调整模型的参数并继续训练，直至训练次数达到预设训练次数、或者预训练过程中的模型的迭代次数达到预设迭代次数时停止，得到预训练完成的歌曲合成初始模型。
168.本实施例中，从初始样本集和增广样本集构成的集合中获取样本音频、与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息，从而能够将初始样本和增广样本作为模型训练的训练样本，从而能够使用更丰富的训练样本对模型进行训练，有利于提高模型的鲁棒性。根据样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征，按照样本歌词时长信息的样本歌词时长特征，扩展样本编码特征的时长特征，得到样本时长扩展编码特征，提取样本音频的样本音特征，将样本音特征和样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征，基于预测频谱特征合成预测歌曲，从而得到模型预测的歌曲。根据预测歌曲和真实的样本音频之间的合成损失构建目标损失函数，以基于目标损失函数进行模型预训练，能够准确获得歌曲合成初始模型。并且，结合增广样本进行训练可以极大扩充歌唱合成的训练语料，从而提升模型在面对不同歌词、不同旋律组合时的稳定性、表现力和实用性。
169.在一个实施例中，该方法还包括：根据样本歌词时长信息的样本歌词特征、样本乐谱信息的样本乐谱特征和样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长；确定每个音素的预测音素时长和样本歌词时长信息中每个音素的样本音素时长之间的音素时长损失；
170.根据预测歌曲和样本音频之间的合成损失构建目标损失函数，包括：确定预测歌曲和样本音频之间的合成损失；根据音素时长损失和合成损失，构建目标损失函数。
171.其中，音素时长损失指的是模型对每个音素的预测时长和每个音素的真实时长之间的差异。样本音素时长即为音素的真实时长。
172.具体地，计算机设备可对样本音频的样本歌词时长信息和样本乐谱信息分别进行特征提取，得到样本歌词时长信息对应的样本歌词特征，以及样本乐谱信息对应的样本乐谱特征。样本歌词特征可包括歌词的音素，还可以包括音节。样本歌词时长特征可包括每个音素对应的音素时长，还可以包括每个音节对应的音节时长。乐谱特征包括音符，还可以包括节拍。计算机设备对样本音频进行特征提取，得到对应的样本音特征。
173.计算机设备根据样本歌词特征、样本乐谱特征和样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长。进一步地，计算机设备根据样本音频的音素、音符、节拍和样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长。
174.计算机设备确定样本歌词时长信息中每个音素分别对应的样本音素时长，计算每个音素对应的预测音素时长和对应的样本音素时长之间的差异，即可得到每个音素对应的音素时长损失。计算机设备计算预测歌曲和样本音频之间的合成损失，根据各音素时长损失和合成损失，构建目标损失函数。进一步地，计算机设备可将各音素时长损失和合成损失求和，得到目标损失函数。或者，计算机设备获取音素时长损失和合成损失各自对应的权重，将音素时长损失、合成损失和各自对应的权重进行加权求和处理，得到目标损失函数。
175.本实施例中，音素时长损失能够表征模型对每个音素的预测时长和每个音素的真实时长之间的差异。根据样本歌词时长信息的样本歌词特征、样本乐谱信息的样本乐谱特征和样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长，从而能够根据每个音素的预测时长和样本歌词时长信息中每个音素的真实时长之间的差异，判断模型在每个音素的时长预测上的损失。结合音素时长损失和合成损失构建目标损失函数，能够考虑到模型在音素时长预测的局部因素和歌曲合成的全局因素对模型产生的影响，从而结合局部损失和全局损失对模型进行训练，能够进一步提高模型在音素时长预测上的精准性，从而能够提高歌曲合成初始模型的精度。
176.在一个实施例中，该方法还包括：根据样本歌词时长信息中每个音素对应的预测音素时长，确定样本歌词时长信息中每个音节对应的预测音节时长；确定每个音节的预测音节时长和样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失；
177.根据音素时长损失和合成损失，构建目标损失函数，包括：根据音素时长损失、音节时长损失和合成损失，构建目标损失函数。
178.其中，音节时长损失表征模型对每个音节的预测时长和每个音节的真实时长之间的差异。
179.具体地，对于样本歌词时长信息中的每个音节，计算机设备分别确定构成每个音节的音素，将构成音节的音素所对应的预测音素时长求和，得到该音节对应的预测音节时长。将构成音节的音素所对应的样本音素时长求和，得到该音节对应的样本音节时长。按照相同的处理方式，计算机设备可得到每个音节对应的预测音节时长和每个音节对应的样本音节时长。
180.计算机设备可计算每个音节对应的预测音节时长和对应的样本音节时长之间的差异，即可得到每个音节对应的音节时长损失。计算机设备计算预测歌曲和样本音频之间的合成损失，根据各音素时长损失、各音节时长损失和合成损失，构建目标损失函数。进一步地，计算机设备可将各音素时长损失、各音节时长损失和合成损失求和，得到目标损失函
数。或者，计算机设备获取音素时长损失、音节时长损失和合成损失各自对应的权重，将音素时长损失、音节时长损失、合成损失和各自对应的权重进行加权求和处理，得到目标损失函数。
181.本实施例中，根据样本歌词时长信息中每个音素对应的预测音素时长，确定样本歌词时长信息中每个音节对应的预测音节时长，确定每个音节的预测音节时长和样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失，结合音素时长损失、音节时长损失和合成损失构建目标损失函数，能够考虑到模型在音素时长预测、音节时长预测等多个局部因素，以及歌曲合成的全局因素对模型产生的影响，从而结合多个局部损失和全局损失对模型进行训练，能够进一步提高模型在音素时长预测、音节时长预测上的精准性，从而能够提高歌曲合成初始模型的精度。
182.在一个实施例中，该方法还包括：对样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到样本音频的分类结果；确定分类结果和样本音频的分类标签之间的对抗损失；
183.根据预测歌曲和样本音频之间的合成损失构建目标损失函数，包括：确定预测歌曲和样本音频之间的合成损失；根据对抗损失和合成损失，构建目标损失函数。
184.其中，对抗损失表征模型提取的样本编码特征和期望提取的样本编码特征之间的差异。样本音频的分类标签指的是样本音频的真实分类，即样本音频属于哪个对象演唱的音频的真实类别。
185.具体地，计算机设备对样本编码特征进行梯度反转处理，得到梯度反转特征。计算机设备基于梯度反转特征进行样本音频的分类，得到样本音频的分类结果。该样本音频的分类结果表征样本音频的声源的分类结果，用于判断该声源属于哪个对象的声源，即判断样本音频属于哪个对象演唱的音频。
186.计算机设备可计算分类结果和样本音频的分类标签之间的差异，即可得到对抗损失。计算机设备计算预测歌曲和样本音频之间的合成损失，根据对抗损失和合成损失，构建目标损失函数。进一步地，计算机设备可将对抗损失和合成损失求和，得到目标损失函数。或者，计算机设备获取对抗损失和合成损失各自对应的权重，将对抗损失、合成损失和各自对应的权重进行加权求和处理，得到目标损失函数。
187.本实施例中，计算机设备将样本编码特征输入对抗式的对象分类器，通过对象分类器对样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，输出分类结果。
188.本实施例中，对抗损失能够体现模型提取的样本编码特征和期望提取的样本编码特征之间的差异。通过对样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到样本音频的分类结果，确定分类结果和样本音频的分类标签之间的对抗损失，以判断模型提取的样本编码特征是否符合预期，从而能够调整模型参数，使得提取的样本编码特征达到预期。结合对抗损失和合成损失构建目标损失函数，能够考虑到模型在提取样本编码特征方面的损失、歌曲合成的整体损失等多个因素对模型产生的影响，从而结合多方面的损失对模型进行训练，能够进一步提高模型在编码特征上的准确性，从而提高对歌曲合成的准确性。
189.在一个实施例中，该方法还包括：提取样本音频的样本频谱特征，并确定预测频谱
特征和样本频谱特征之间的频谱损失；
190.根据预测歌曲和样本音频之间的合成损失构建目标损失函数，包括：
191.确定预测歌曲和样本音频之间的合成损失；根据频谱损失和合成损失，构建目标损失函数。
192.其中，频谱损失表征模型预测的频谱特征和真实的频谱特征之间的差异。样本频谱特征作为真实的频谱标签。
193.具体地，计算机设备可对样本音频进行特征提取，以提取样本音频中的频谱特征，得到对应的样本频谱特征。将该样本频谱特征作为真实的频谱标签，计算机设备计算预测频谱特征和样本频谱特征之间的频谱损失，以及计算预测歌曲和样本音频之间的合成损失，根据频谱损失和合成损失，构建目标损失函数。进一步地，计算机设备可将频谱损失和合成损失求和，得到目标损失函数。或者，计算机设备获取频谱损失和合成损失各自对应的权重，将频谱损失、合成损失和各自对应的权重进行加权求和处理，得到目标损失函数。
194.本实施例中，频谱损失能够体现模型预测的频谱特征和真实的频谱特征之间的差异。提取样本音频的样本频谱特征，并确定预测频谱特征和样本频谱特征之间的频谱损失，以判断模型预测得到的频谱特征是否符合预期，从而能够调整模型参数，使得模型预测的频谱特征达到预期。结合频谱损失和合成损失构建目标损失函数，能够考虑到模型在频谱预测方面的局部损失、歌曲合成的整体损失等多个因素对模型产生的影响，从而结合局部损失和全局损失对模型进行训练，能够进一步提高模型在频谱预测上的精准性，从而提高对歌曲合成的准确性。
195.在一个实施例中，根据频谱损失和合成损失，构建目标损失函数，包括：根据音素时长损失、频谱损失和合成损失，构建目标损失函数。
196.在一个实施例中，根据频谱损失和合成损失，构建目标损失函数，包括：根据音节时长损失、频谱损失和合成损失，构建目标损失函数。
197.在一个实施例中，根据频谱损失和合成损失，构建目标损失函数，包括：根据音素时长损失、音节时长损失、频谱损失和合成损失，构建目标损失函数。
198.在一个实施例中，该歌曲合成初始模型包括初始时长模型、初始声学模型和初始声码器；基于音特征对歌曲合成初始模型进行训练，获得歌曲合成模型，包括：
199.基于目标声源的音特征对初始时长模型、初始声学模型和初始声码器的参数进行调整，得到与目标声源的音相匹配的歌曲合成模型。
200.具体地，该歌曲合成初始模型包括初始时长模型、初始声学模型和初始声码器，初始时长模型用于预测每个音素的音素时长。初始声学模型用于进行时长特征的扩展，以及声学特征的提取，以输出对应的频谱特征。初始声码器用于基于频谱特征合成对应的歌曲。训练完成的歌曲合成模型中包括时长模型、声学模型和声码器。
201.本实施例中，计算机设备可获取目标声源对应的多个歌唱音频，以及每个歌唱音频对应的源歌词时长信息，以及每个歌唱音频对应的源乐谱信息。该歌唱音频可以是从初始样本中的录制音频，也可以是不属于初始样本集和增广样本集中的音频。
202.在一个实施例中，计算机设备获取目标声源对应的音频、该音频对应的歌词时长信息和该音频对应的乐谱信息；基于目标声源的音频提取音特征，基于歌词时长信息提取歌词特征和歌词时长特征，基于乐谱信息提取乐谱特征。
203.通过初始时长模型根据歌词特征、乐谱特征和音特征进行时长预测处理，得到歌词时长信息中每个音素对应的预测音素时长。确定每个音素的预测音素时长和歌词时长信息中每个音素的音素时长之间的音素时长损失。
204.通过初始时长模型根据歌词时长信息中每个音素对应的预测音素时长，确定歌词时长信息中每个音节对应的预测音节时长。确定每个音节的预测音节时长和歌词时长信息中每个音节的音节时长之间的音节时长损失。
205.通过初始声学模型根据目标声源的音频的歌词时长信息和乐谱信息进行特征编码，获得编码特征。通过初始声学模型按照歌词时长信息的歌词时长特征，扩展编码特征的时长特征，得到时长扩展编码特征。通过初始声学模型将音特征和时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征。提取音频的频谱特征，并确定预测频谱特征和频谱特征之间的频谱损失。
206.通过初始声码器基于预测频谱特征合成预测歌曲。确定预测歌曲和目标声源的音频之间的合成损失。
207.根据音素时长损失、音节时长损失、频谱损失和合成损失，构建歌曲合成初始模型的目标损失函数；基于目标损失函数对歌曲合成初始模型进行训练，得到与目标声源的音相匹配的歌曲合成模型。
208.本实施例中，通过初始样本和增广样本等大量训练预料进行模型预训练，在获得歌曲合成初始模型的基础上，基于目标声源的音特征对初始时长模型、初始声学模型和初始声码器的参数进行调整，能够通过个人的歌唱数据对模型参数进行微调处理，使得微调所得到的歌曲合成模型与个人的音相匹配，从而能够通过任意歌词和乐谱合成以个人的音进行演唱的歌曲，实现个人音的定制。
209.本实施例中，基于目标声源的音特征对歌曲合成初始模型进行训练的训练过程与预训练过程基本相同，区别在于预训练使用大量不同声源的样本进行训练，而歌曲合成初始模型的训练使用单个目标对象的样本进行训练，得到与目标对象的音相匹配的歌曲合成模型。目标对象即对应目标音源。
210.在一个实施例中，提供了一种歌曲合成模型的训练方法，应用于计算机设备，包括：
211.获取初始样本集，该初始样本集包括多种声源的初始样本，初始样本包括录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息。
212.接着，对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频；将多个初始样本的每个录制音频的源歌词时长信息，作为相应增广音频对应的增广歌词时长信息；按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个增广音频分别对应的增广乐谱信息；根据各增广音频、各增广音频的增广歌词时长信息和各增广音频的增广乐谱信息形成对应的增广样本。
213.可选地，将多个初始样本的录制音频进行划分处理，得到每个录制音频各自对应的音频片段；对于每个录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频；按照对多个初始样本的录制音频的划分处理，将多个初始样本的源歌词时长信息进行划分，得到每个音频片段对应的歌词时长信息片段；按
照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼接，得到与每个增广音频分别对应的增广歌词时长信息；按照对多个初始样本的录制音频的划分处理，将多个初始样本的源乐谱信息进行划分，得到每个音频片段对应的乐谱信息片段；按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，得到与每个增广音频分别对应的增广乐谱信息。根据各增广音频、各增广音频的增广歌词时长信息和各增广音频的增广乐谱信息形成对应的增广样本。
214.进一步地，将各增广样本构成增广样本集，从初始样本集和增广样本集构成的集合中获取样本音频、与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息；当获取的样本音频为录制音频时，将录制音频对应的源歌词时长信息作为样本音频对应的样本歌词时长信息，将录制音频对应的源乐谱信息作为样本音频对应的样本乐谱信息。当获取的样本音频为增广音频时，将增广音频对应的增广歌词时长信息作为样本音频对应的样本歌词时长信息，将增广音频对应的增广乐谱信息作为样本音频对应的样本乐谱信息。
215.接着，对模型进行预训练，包括：
216.根据样本音频的样本歌词时长信息对应的样本歌词特征、样本乐谱信息的样本乐谱特征和样本音频的样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长；确定每个音素的预测音素时长和样本歌词时长信息中每个音素的样本音素时长之间的音素时长损失。
217.进一步地，根据样本歌词时长信息中每个音素对应的预测音素时长，确定样本歌词时长信息中每个音节对应的预测音节时长；确定每个音节的预测音节时长和样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失。
218.接着，根据样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征。
219.接着，对样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到样本音频的分类结果；确定分类结果和样本音频的分类标签之间的对抗损失。
220.进一步地，按照样本歌词时长信息的样本歌词时长特征，扩展样本编码特征的时长特征，得到样本时长扩展编码特征；将样本音特征和样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征；提取样本音频的样本频谱特征，并确定预测频谱特征和样本频谱特征之间的频谱损失。
221.接着，基于预测频谱特征合成预测歌曲，确定预测歌曲和样本音频之间的合成损失。
222.进一步地，根据音素时长损失、音节时长损失、对抗损失、频谱损失和合成损失，构建预训练的目标损失函数；基于目标损失函数进行模型预训练，获得歌曲合成初始模型。
223.接着，对歌曲合成初始模型进行训练，包括：
224.获取目标声源对应的音频、该音频对应的歌词时长信息和该音频对应的乐谱信息；基于目标声源的音频提取音特征，基于歌词时长信息提取歌词特征和歌词时长特征，基于乐谱信息提取乐谱特征。
225.根据歌词特征、乐谱特征和音特征进行时长预测处理，得到歌词时长信息中每个音素对应的预测音素时长；确定每个音素的预测音素时长和歌词时长信息中每个音素的
音素时长之间的音素时长损失。
226.根据歌词时长信息中每个音素对应的预测音素时长，确定歌词时长信息中每个音节对应的预测音节时长；确定每个音节的预测音节时长和歌词时长信息中每个音节的音节时长之间的音节时长损失。
227.接着，根据目标声源的音频的歌词时长信息和乐谱信息进行特征编码，获得编码特征；按照歌词时长信息的歌词时长特征，扩展编码特征的时长特征，得到时长扩展编码特征；将音特征和时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征；提取音频的频谱特征，并确定预测频谱特征和频谱特征之间的频谱损失。
228.接着，基于预测频谱特征合成预测歌曲，确定预测歌曲和目标声源的音频之间的合成损失。
229.进一步地，根据音素时长损失、音节时长损失、频谱损失和合成损失，构建歌曲合成初始模型的目标损失函数；基于目标损失函数对歌曲合成初始模型进行训练，得到与目标声源的音相匹配的歌曲合成模型。
230.本实施例中，对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频，使得所得到的增广音频覆盖更多的音域，从而能够自动扩展音频的数量。音高调整处理仅调整音高，对歌词和歌词的时长没有影响，则将多个初始样本的每个录制音频的源歌词时长信息，直接作为相应增广音频对应的增广歌词时长信息，能够保证增广音频的歌词、歌词的时长的准确性。按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，使得对录制音频的乐谱调整与对该录制音频的音高调整相对应，从而使得每个增广音频均对应正确的乐谱信息，有效保证增广音频、增广歌词时长信息和增广乐谱信息之间的映射，以及三者的映射关系的准确性，进而提升数据增广的有效性和准确性。
231.将多个初始样本的录制音频进行划分处理，得到每个录制音频各自对应的音频片段，对于每个录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频，能够通过对录制音频的划分和音频片段的拼接，得到更多的增广音频，有效实现音频增广。按照对多个初始样本的录制音频的划分处理，将多个初始样本的源歌词时长信息进行划分，使得每个音频片段和每个歌词时长信息片段一一对应。按照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼接，使得增广音频与增广歌词时长信息一一对应。按照对多个初始样本的录制音频的划分处理，将多个初始样本的源乐谱信息进行划分，使得每个音频片段与每个乐谱信息片段保持准确的映射关系。按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，使得增广音频与增广乐谱信息保持准确的映射关系，从而有效实现样本增广，获得更多的训练样本。并且，通过划分和拼接所得到的增广样本能够获得更多的上下文信息，从而可以使歌曲合成模型在接受输入信息时具备更高的鲁棒性。
232.从初始样本集和增广样本集构成的集合中获取样本音频、与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息，从而能够将初始样本和增广样本作为模型训练的训练样本，从而能够使用更丰富的训练样本对模型进行训练，有利于提高模型的鲁棒性。并且，结合增广样本进行训练可以极大扩充歌唱合成的训练语料，从而提升模型在面对不同歌词、不同旋律组合时的稳定性、表现力和实用性。
233.音素时长损失能够体现模型对每个音素的预测时长和每个音素的真实时长之间的差异、音节时长损失能够体现模型对每个音节的预测时长和每个音节的真实时长之间的差异、对抗损失能够体现模型提取的样本编码特征和期望提取的样本编码特征之间的差异、频谱损失能够体现模型预测的频谱特征和真实的频谱特征之间的差异、而合成损失能够体现模型预测的预测歌曲和样本音频之间的整体损失，结合音素时长损失、音节时长损失、对抗损失、频谱损失和合成损失构建目标损失函数，能够考虑到模型在音素时长预测、音节时长预测、编码特征提取、频谱特征预测等多个局部因素，以及歌曲合成的全局因素对模型产生的影响，从而结合多个局部损失和全局损失对模型进行训练，能够进一步提高模型在各个方面上预测精准性，从而能够提高歌曲合成初始模型的精度。
234.在歌曲合成初始模型的基础上，使用个人声源数据对歌曲合成初始模型进行微调处理，准确获得与目标声源的目标音相匹配的歌曲合成模型，从而能够有效实现歌曲合成的音定制效果。
235.在一个实施例中，提供了一种基于音高的样本增广方式和基于序列拼接的样本增广方式，样本增广也称为数据增广，包括：
236.数据预处理：
237.首先通过外部供应商采买得到一定量的多人歌唱数据集，即初始样本集，每个人的每首歌的初始样本包括一个人声歌唱的录制音频、一个时长标注文件和一个表示音乐谱子的musicxml文件。时长标注文件即录制音频的源歌词时长信息，时长标注文件包括歌词以及对每个歌词的时长标注，具体可以包括对每个音素时长的标注。表示音乐谱子的musicxml文件即录制音频的源乐谱信息。
238.对于这部分初始样本，按照录制音频的停顿时间点进行切分，得到每句长度约为2～5秒钟不等的音频片段，并且得到每个音频片段对应的时长标注数据和音乐谱子数据，即歌词时长信息片段和乐谱信息片段。切分后的音频片段、歌词时长信息片段和乐谱信息片段称之为基础数据，通过基础数据训练出来的效果称为基础效果。
239.基于音高的数据增广方法：
240.在音频处理阶段，对于原key的人声录制音频，首先使用音频工具sox对齐进行统一升半音，得到对应的增广音频。类似地，为了扩充音频数量和丰富度，还可以对原key的人声录制音频进行了统一的降半音处理，得到对应的增广音频。
241.对源歌词时长信息和源乐谱信息的数据增广：
242.由于音频工具对录制音频只修改了音调，而没有去改变每个歌词的时长，所以对于源歌词时长信息中的歌词和每个歌词的时长无需任何改动，直接复制源标注的时长即可。
243.由于对录制音频分别做了升半音和降半音的处理，因此，对于源乐谱信息同样需要对音符进行修改，得到每个增广音频各自对应的增广乐谱信息。
244.由于一个音符的升半音和降半音的表示方法并不唯一，本实施例中指定了一套修改规则，通过随机性来保证不同音符组合出现的多样性，从而可以提高乐谱标注的丰富度，从而得到升半音后的乐谱信息和降半音后的乐谱信息。
245.本实施例中提出的歌唱合成模型是基于transformer搭建的，transformer是一种完全基于全连接网络不包含循环神经网络的一种模型，它不同于循环神经网络的递归有序
建模，也不同于卷积神经网络的局部建模。transformer是完全基于自注意力机制的深度学习模型，它的自注意力机制决定着它可以进行全局建模，并以位置编码来区分一个序列的不同位置。本实施例中的歌唱合成模型属于一种基于transformer的生成式模型，对于这类模型，它的计算复杂度与序列长度成平方关系，同时，两个不同长度的序列即使同属于公共子序列，经过该模型之后所得到的特征表示也是不一样的。基于transformer结构的这个特点，本实施例中设计了基于序列长度拼接的数据增广方法：
246.由于基础数据是完全基于停顿时间点来进行录制音频的切分，则可以对基础数据进行拼接组合。拼接方式可以是划定三个范围分别0～5秒、5～8秒、8～13秒，然后对基础数据中的音频片段按照顺序进行相邻组合，分别得到属于0～5秒、5～8秒、8～13秒这三个范围内的增广音频。按照相同的切分和组合方式，对源歌词时长信息和源乐谱信息分别进行切分及组合，分别得到属于0～5秒、5～8秒、8～13秒这三个范围内的增广歌词时长信息和增广乐谱信息，即得到每个增广音频分别对于的增广歌词时长信息和增广乐谱信息。类似地，对于升半音和降半音所得到的音频也可以进行切分和拼接处理，得到更多的增广音频，升半音和降半音得到的音频所对应的歌词时长信息、乐谱信息的处理类似。
247.基于新得到的三个范围的增广样本集，由于每个增广音频的输入音素和谱子所包含的上下文信息不同，因此把三个增广样本集结合基础数据集来混合训练歌唱合成模型，相比于只使用基础数据而言，基于数据增广后的大数据集训练出来的模型能够学习到非常丰富的上下文信息，从而可以使歌唱合成模型在接受新的输入信息时具备更高的鲁棒性。
248.基于序列拼接的数据增广方式可以应用于歌曲合成，并且所有基于transformer结构的生成式模型都可以运用该数据增广方法来提升模型在训练中遇到的上下文丰富度问题，从而可以提升模型在应用时的鲁棒性。
249.本实施例的数据增广不仅可以应用到歌唱合成上，对于基于transformer这种全连接结构的生成式模型或不定长序列的分类模型，均可适用。例如，用于歌曲识别、歌曲分类等。
250.如图6所示，为一个实施例中进行模型预训练的整体架构图。在获得增广样本集后，可使用增广样本集和初始样本集进行模型预训练，得到一个平均模型，即歌曲合成初始模型，随后在单人歌唱数据集上进行微调，训练与微调的时候均需要用到特定的损失函数，微调后得到的歌曲合成模型可以用于合成最终的目标歌曲。下面将从模型结构和训练流程两个角度来进行介绍：
251.模型结构包括时长模型、声学模型和声码器三部分。
252.(1)时长模型
253.不同于文字转语音技术(automatic speech recognition，asr)中的说话风格多样性，歌曲合成中要求每个音符的持续时长遵从音乐谱子的约束。由于歌曲合成往往只提供歌词和乐谱，没有提供每个音素的精确时长，因此，需要构建一个时长模型用于预测每个音素的时长。本实施例的时长模型采用的是双向长短记忆网络(bi long-shortterm memory，bi-directional lstm)来去预测每个音素的音素时长。该时长模型的输入包括音素phonemes、音符notes、节拍beats，以及说话人的特征表示speaker embedding，输出是log级别的音素时长log durations。音素属于样本歌词特征、音符和节拍属于样本乐谱特征、说话人的特征表示属于样本音频的样本音特征。在模型的应用阶段，需要先对预测的
时长做一个e指数计算。这里的时长，指的是帧数，每一帧代表10毫秒。24khz的音频在计算机中是以每秒钟24000个16bit的整型数据构成的，在对音频进行特征提取的时候，需要将音频的采样点划分成帧级别的单位。本实施例中以10ms长度的采样点来代表一帧。
254.从时长标注文件或音乐谱子的musicxml文件中提取出样本音素时长和样本音节时长作为真实音素时长和真实音节时长，即gt phone-level&syllable-level durations。将时长模型预测出的每个音素的预测音素时长log durations和对应的样本音素时长gt phone-level durations，计算音素时长损失。
255.确定构成每个音节的音素，将各音素分别对应的预测音素时长相加形成相应音节对应的预测音节时长，将音节的预测音节时长和音节级别的真实时长gtsyllable-level durations计算音节时长损失。音素时长损失和音节时长损失形成多尺度韵律损失multi-scale rhythm loss。
256.(2)声学模型
257.声学模型是基于多层transformer编码器fft+时长扩展单元length regulator+多层transformer编码器fft+基于cbhg的后处理网络cbhg post-net构成。cbhg post-net是用于提取序列特征的后端处理网络，可称为序列特征提取单元。transformer编码器fft可称为自注意力编码器。
258.声学模型的输入包含音素phonemes和音符notes，在训练阶段，时长扩展单元以真实音素时长gtphone-level durations作为依据来对自注意力编码器输出的样本编码特征进行扩展，扩展前后状态由音素级别转变成帧级别，得到样本时长扩展编码特征。例如，第一个自注意力编码器fft输出的是abc，真实音素时长是123，则将abc和123作为时长扩展单元的输入，时长扩展单元将1、2、3作为依据对abc进行扩展，得到样本时长扩展编码特征abbccc。
259.第二个自注意力编码器fft对扩展时长单元的输出和样本音特征的特征表示speaker embedding拼接后进行声学特征提取，输出中间频谱特征。基于cbhg的后处理网络可以对中间频谱特征进行进一步的平滑操作，从而可以使得声学模型输出高质量的预测频谱特征lpc feature。将声学模型输出的预测频谱特征lpc feature(linearpredictive coefficients)和对应的音高，分别和对应的频谱标签gt bfccs(bark-frequency cepstral coefficients，bark尺度频率倒谱系数)&音高标签pitchs、计算频谱损失bfcc loss和音高损失。progressive pitch-weighted loss包括bfcc损失和音高损失。该频谱标签是从样本音频中提取的样本频谱特征。
260.由于预训练需要多个音的歌唱数据，为了避免数据过拟合或存在严重的不均衡，在自注意力编码器编码器fft的末端增加了一个对抗式的说话人分类器。通过说话人分类器对所述样本编码特征进行梯度反转gradient reversal处理，并基于梯度反转处理所得到的特征进行分类speaker classsifier，得到对应的分类结果。基于该分类器可以实现让编码器做到与说话人无关的效果，从而增强编码器对不同语料的鲁棒性而不受歌唱音的影响。将分类器输出的说话人的分类结果和分类标签计算说话人对抗损失speaker adversial 1oss。通过该对抗式分类器，使得自注意力编码器fft输出的特征不带有个人特征，即使得自注意力编码器fft编码所得到的特征中不包含个人特征。
261.(3)声码器模型
262.声码器是基于lpc net结构的，lpc net将预测频谱特征作为输入，输出24khz高质量的预测歌曲。将输出的24khz高质量的预测歌曲和样本音频gt song segments计算声音合成损失vocoder loss。
263.lpc net模型的作用是基于频谱特征回归地预测歌曲的所有采样点，原理就是对lpc feature进行上采样240倍，因为频谱特征是每10ms提取的，而对于24khz的歌曲而言，每秒钟有24000个采样点，因此每10ms就有240个采样点。所以这里的频谱特征首先需要上采样240倍，然后基于rnn(recurrent neural network，循环神经网络)来预测，rnn的每个时刻的输出就是一个采样点。
264.本实施例中的模型预训练可以分为两部分，时长模型和声学模型可以一起训练，而声码器模型可以单独训练。在训练中，时长模型采用了log级别的l1 loss作为目标函数，采用了音素级别和字级别的时长(gt phone-level&syllable-level durations)来共同作为真实时长标签指导时长模型进行参数更新。声学模型同样采用的是l1 loss作为目标函数，采用了更适合人耳听感的梅尔级别的频谱bfcc作为目标频谱指导声学模型进行参数更新，值得注意的是，声学模型的时长扩展单元在训练阶段采用的是音素的真实时长作为扩展的依据。声码器模型采用的是交叉熵分类损失函数作为目标函数vocoder loss，即合成损失。声码器模型的输入是梅尔级别的频谱bfcc，以样本音频gt song segments的真实波形的每个采样点的数值作为分类的目标类别索引。
265.应用推理阶段即应用阶段。歌曲合成模型在不同的应用场景可以有两种不同的应用策略：
266.1)以真实人声时长作为推理时长
267.对于需要严格匹配伴奏的合成场景，直接使用提供的伴奏的真实时长作为声学模型的时长扩展单元的依据，而不采用模型预测的时长，这样做的目的是为了让时长能精准对齐伴奏的时间点，从而让整首歌曲听起来更加悦耳。例如，如果用户需要合成的歌曲在样本集中存在，则可以直接获取对应的歌词时长信息的歌词时长特征，或者说用户不仅提供了目标歌词和目标乐谱信息，还提供了目标歌词的歌词时长信息，则可以直接用歌词时长信息的歌词时长特征来作为扩展依据，此时时长模型闲置，不需要预测时长。
268.2)以模型预测时长作为推理时长
269.对于不需要匹配伴奏的合成场景或者没有提供真实时长的场景，例如自由发挥式的清唱，可以直接采用时长模型预测出来的音素时长来作为时长扩展单元的依据。这样可以完全不需要预先提供时长，直接基于目标歌词和目标乐谱信息即可生成一首歌曲。
270.可以理解的是，无论采取哪种推理策略，歌曲合成模型都可以每次预测一句话，然后按照时序拼接起来形成目标歌曲。
271.传统的歌曲合成的训练样本基于人工录制和标注，需要高昂的人力成本，并且录制周期长，标注周期长。并且，在成本有限的约束下，通过人工录制和标注的数据训练出来的模型，在一些分布较少的高音或低音处以及延音处会存在不稳定性。而本实施例的数据增广可以使得语料数量要求降低，从而可以使得人工录制和标注成本大幅降低。并且，通过数据增广扩充了语料的数量和丰富度，提高了不同旋律组合的多样性，从而使得歌声合成的鲁棒性得以提升，实现了端到端的多音的歌曲合成效果。
272.本实施例的方法可以用于任意所有歌声合成或基于transformer的其他生成式模
型中，扩展训练模型所需要的数据数量和丰富度。另外，本实施例的方法可以基于用户已有的一小段歌声来进行用户个人的音定制能力，从而可以赋予更全面的歌唱能力。同时，本实施例的方法也可以用于培养虚拟偶像，可以随时随地为用户提供娱乐观赏价值。
273.在其他实施例中，可以结合用户日常的说话语料来提高模型的性能，这样可以进一步降低歌声数据的获取成本。
274.在一个实施例中，如图7所示，提供了一种歌曲合成方法，以该方法应用于图1中的计算机设备(计算机设备可以是图1中的终端或服务器)为例进行说明，包括以下步骤：
275.步骤s702，获取目标歌词和目标乐谱信息，根据目标歌词和目标乐谱信息进行特征编码，获得编码特征。
276.其中，目标歌词可以是待合成的歌曲音频对应的歌词，目标乐谱信息可以是待合成的歌曲音频对应的旋律信息，包括音符、音符时值、节拍、连音、延音等信息。目标歌词的歌词时长信息指的是歌词的时长信息，包括每个音素的音素时长，还可以包括每个音节的音节时长。
277.具体地，计算机设备获取需要进行歌曲合成的目标歌词、目标歌词对应的歌词时长信息，以及目标乐谱信息，对目标歌词和目标乐谱信息分别进行特征提取，得到目标歌词对应的歌词特征，以及目标乐谱信息对应的乐谱特征。歌词特征可包括歌词的音素，还可以包括音节。乐谱特征包括音符，还可以包括节拍。
278.计算机设备将歌词特征和乐谱特征进行拼接，并对拼接特征进行特征编码，得到对应的编码特征。
279.本实施例中，目标歌词、目标歌词对应的歌词时长信息和目标乐谱信息均由用户提供。
280.步骤s704，获取目标歌词的歌词时长特征，并按照歌词时长特征扩展编码特征的时长特征，得到时长扩展编码特征。
281.其中，目标歌词的歌词时长特征包括目标歌词的每个音素对应音素时长特征，还可以包括目标歌词的每个音节对应音节时长特征。
282.具体地，计算机设备对目标歌词的歌词时长信息进行特征提取，得到对应的歌词时长特征。计算机设备按照目标歌词的歌词时长特征，对编码特征的时长特征进行扩展，得到对应的时长扩展编码特征。
283.本实施例中，歌词时长特征包括音素时长，则计算机设备按照歌词时长信息中每个音素的音素时长，对编码特征每个音素的时长特征进行扩展，得到对应的时长扩展编码特征。
284.在其他实施例中，歌词时长特征包括音节时长，则计算机设备按照歌词时长信息中每个音节的音节时长，对编码特征每个音节的时长特征进行扩展，得到对应的时长扩展编码特征。
285.步骤s706，确定目标音的音特征，将音特征和时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征。
286.具体地，计算机设备确定进行歌曲合成所需要的目标音，并获取该目标音对应的音特征。计算机设备将目标音的音特征和时长扩展编码特征进行拼接后，对拼接特征进行声学特征提取，以提取频谱特征，得到目标频谱特征。
287.计算机设备可确定用户从多个候选音中选择的目标音，并获取目标音对应的音特征。在其他实施例中，计算机设备可对用户提供的目标音频的进行特征提取，得到对应的音特征，该音特征表征目标音频的目标音。
288.步骤s708，基于目标频谱特征合成目标歌曲，该目标歌曲与目标歌词、目标乐谱信息和目标音匹配。
289.具体地，计算机设备可基于目标频谱特征合成目标歌曲，该目标歌曲由目标歌词和目标乐谱信息构成，且以目标音进行演唱。
290.本实施例中，根据需要进行歌曲合成的目标歌词和目标乐谱信息进行特征编码，获得包含歌词特征和乐谱特征的编码特征。获取目标歌词的歌词时长特征，并按照歌词时长特征扩展编码特征的时长特征，能够使用目标歌词的真实时长作为扩展的依据，使得所得到的时长扩展编码特征更精准。并且，对于需要严格匹配伴奏的合成场景，使用真实时长作为扩展的依据而不采用预测的时长，能够让时长能精准对齐伴奏的时间点，从而使得合成歌曲的词和旋律更协调自然，听起来更加悦耳。确定目标音的音特征，将音特征和时长扩展编码特征拼接后进行声学特征提取，得到获得包含目标音的目标频谱特征，基于目标频谱特征合成与目标歌词、目标乐谱信息和目标音相匹配的目标歌曲，从而有效实现目标音的定制效果。并且，在已有歌词时长信息的情况下，结合歌词、乐谱和音合成具有特定音的目标歌曲，使得歌曲合成具备音定制功能，从而提高歌曲合成的自然度。
291.在一个实施例中，该方法还包括：
292.根据目标歌词的歌词特征、目标乐谱信息的乐谱特征和目标音的音特征进行时长预测处理，得到目标歌词中每个音素对应的音素时长；按照每个音素的音素时长扩展编码特征的时长特征，得到时长扩展编码特征。
293.具体地，计算机设备获取需要进行歌曲合成的目标歌词和目标乐谱信息，对目标歌词和目标乐谱信息分别进行特征提取，得到目标歌词对应的歌词特征，以及目标乐谱信息对应的乐谱特征。歌词特征可包括歌词的音素，还可以包括音节。乐谱特征包括音符，还可以包括节拍。
294.计算机设备可确定用户从多个候选音中选择的目标音，并获取目标音对应的音特征。在其他实施例中，计算机设备可对用户提供的目标音频的进行特征提取，得到对应的音特征，该音特征表征目标音频的目标音。
295.计算机设备根据歌词特征、乐谱特征和音特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长。进一步地，计算机设备根据音素、音符、节拍和音特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长。
296.本实施例中，在用户没有提供歌词时长信息时，可根据歌词特征、乐谱特征和目标音的音特征进行时长预测处理，以准确预测出目标歌词中每个音素分别对应的音素时长，从而能够可将预测的音素时长作为时长扩展的依据。按照每个音素的音素时长扩展编码特征的时长特征，将扩展所得到的时长扩展编码特征和目标音的音特征拼接后进行声学特征提取，以获得相应的目标频谱特征。基于目标频谱特征合成以目标音进行演唱的、由目标歌词和目标乐谱构成的目标歌曲，从而可以不需要预先提供歌词时长信息，直接基于歌词、乐谱和音合成具有特定音的目标歌曲。这种方式对于不需要匹配伴奏的合
成场景，例如自由发挥式的清唱场景，能够很好地合成具有特定音的歌曲，能够满足不同场景的歌曲合成需求。
297.在一个实施例中，歌曲合成方法通过歌曲合成模型执行，歌曲合成模型的整体架构图如图8所示。歌曲合成模型包括时长模型、声学模型、声码器模型三部分。
298.歌曲合成模型通过时长模型基于目标歌词的歌词特征、目标乐谱信息的乐谱特征和目标音的音特征进行时长预测处理，得到目标歌词中每个音素对应的音素时长。声学模型包括两个自注意力编码器、时长扩展单元和序列特征提取单元。通过第一个自注意力编码器对目标歌词的歌词特征和目标乐谱信息的乐谱特征进行特征编码，获得编码特征。将编码特征和每个音素对应的音素时长作为时长扩展单元的输入，时长扩展单元按照每个音素的音素时长扩展编码特征的时长特征，得到时长扩展编码特征。将音特征和时长扩展编码特征作为第二个自注意力编码器的输入，该自注意力编码器将音特征和时长扩展编码特征输入序列特征提取单元。序列特征提取单元将音特征和时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征。声码器基于目标频谱特征合成目标歌曲，该目标歌曲与目标歌词、目标乐谱信息和目标音匹配。
299.应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
300.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的歌曲合成模型的训练方法的歌曲合成模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个歌曲合成模型的训练装置实施例中的具体限定可以参见上文中对于歌曲合成模型的训练方法的限定，在此不再赘述。
301.在一个实施例中，如图9所示，提供了一种歌曲合成模型的训练装置900，包括：获取模块902、增广模块904、预训练模块906、提取模块908和训练模块910，其中：
302.获取模块902，用于获取初始样本集，初始样本集包括多种声源的初始样本，初始样本包括录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息。
303.增广模块904，用于基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息。
304.预训练模块906，用于根据初始样本集和增广样本集进行模型预训练，获得歌曲合成初始模型。
305.提取模块908，用于获取目标声源的音频，基于目标声源的音频提取音特征。
306.训练模块910，用于基于音特征对歌曲合成初始模型进行训练，获得歌曲合成模型。
307.本实施例中，获取包括多种声源的初始样本所构成的初始样本集，以将初始样本所包括的录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息作为样本增广的
基础数据。基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，该增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息，从而能够通过样本增广获得大量的训练语料，扩充了训练语料的数量和丰富度。并且，通过样本增广方式可以在基础数据上获得更多的训练语料，能够降低对基础数据的数量要求，从而使得对基础数据的人工录制和标注成本大幅降低。而根据初始样本集和增广样本集所包含的大量训练语料进行模型预训练，使得预训练获得的歌曲合成初始模型的鲁棒性得以提升。对目标声源的音频提取音特征，基于音特征对歌曲合成初始模型进行训练，能够基于单人的音频数据对预训练得到的歌曲合成初始模型进行微调处理，准确获得与目标声源的目标音相匹配的歌曲合成模型，从而能够有效实现歌曲合成的音定制效果。
308.在一个实施例中，增广模块904，还用于按照音频变换方式对多个初始样本的录制音频进行变换，得到与每个录制音频分别对应的增广音频；根据多个初始样本的源歌词时长信息，确定与每个增广音频分别对应的增广歌词时长信息；通过与音频变换方式相匹配的乐谱变换方式，对多个初始样本的源乐谱信息进行调整，得到与每个增广音频分别对应的增广乐谱信息；根据各增广音频、各增广音频的增广歌词时长信息和各增广音频的增广乐谱信息形成增广样本集。
309.本实施例中，按照音频变换方式对多个初始样本的录制音频进行变换，得到与每个录制音频分别对应的增广音频，能够对已有音频进行处理获得更多的音频数量。根据多个初始样本的源歌词时长信息，确定与每个增广音频分别对应的增广歌词时长信息，使得每个增广音频都对应正确的歌词时长标注信息，保证变换后的音频的歌词、歌词时长均是准确的。通过与音频变换方式相匹配的乐谱变换方式，对多个初始样本的源乐谱信息进行调整，能够按照与音频变换相匹配的乐谱变换方式对已有的乐谱信息进行自动修改，实现乐谱的扩增，并使得每个增广音频均对应的正确的乐谱信息。根据各增广音频、各增广音频的增广歌词时长信息和各增广音频的增广乐谱信息形成对应的增广样本，能够有效增加训练样本的数量，提高了训练样本的多样性。并且，对已有样本进行扩增，能够降低人工采集样本的成本，提高训练样本采集的效率。
310.在一个实施例中，增广模块904，还用于对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频；将多个初始样本的每个录制音频的源歌词时长信息，作为相应增广音频对应的增广歌词时长信息；按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个增广音频分别对应的增广乐谱信息。
311.本实施例中，对多个初始样本的录制音频分别进行音高调整处理，得到与每个录制音频分别对应的增广音频，使得所得到的增广音频覆盖更多的音域，从而能够自动扩展音频的数量。音高调整处理仅调整音高，对歌词和歌词的时长没有影响，则将多个初始样本的每个录制音频的源歌词时长信息，直接作为相应增广音频对应的增广歌词时长信息，能够保证增广音频的歌词、歌词的时长的准确性。按照对多个初始样本的录制音频的音高调整处理，对多个录制音频的源乐谱信息的音符进行音阶调整处理，使得对录制音频的乐谱调整与对该录制音频的音高调整相对应，从而使得每个增广音频均对应正确的乐谱信息，有效保证增广音频、增广歌词时长信息和增广乐谱信息之间的映射，以及三者的映射关系
的准确性，进而提升数据增广的有效性和准确性。
312.在一个实施例中，增广模块904，还用于将多个初始样本的录制音频进行划分处理，得到每个录制音频各自对应的音频片段；对于每个录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频；按照对多个初始样本的录制音频的划分处理，将多个初始样本的源歌词时长信息进行划分，得到每个音频片段对应的歌词时长信息片段；按照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼接，得到与每个增广音频分别对应的增广歌词时长信息；按照对多个初始样本的录制音频的划分处理，将多个初始样本的源乐谱信息进行划分，得到每个音频片段对应的乐谱信息片段；按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，得到与每个增广音频分别对应的增广乐谱信息。
313.本实施例中，将多个初始样本的录制音频进行划分处理，得到每个录制音频各自对应的音频片段，对于每个录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频，能够通过对录制音频的划分和音频片段的拼接，得到更多的增广音频，有效实现音频增广。按照对多个初始样本的录制音频的划分处理，将多个初始样本的源歌词时长信息进行划分，使得每个音频片段和每个歌词时长信息片段一一对应。按照对各音频片段的拼接处理，对各音频片段的歌词时长信息片段进行拼接，使得增广音频与增广歌词时长信息一一对应。按照对多个初始样本的录制音频的划分处理，将多个初始样本的源乐谱信息进行划分，使得每个音频片段与每个乐谱信息片段保持准确的映射关系。按照对各音频片段的拼接处理，对各音频片段的乐谱信息片段进行拼接，使得增广音频与增广乐谱信息保持准确的映射关系，从而有效实现样本增广，获得更多的训练样本。并且，通过划分和拼接所得到的增广样本能够获得更多的上下文信息，从而可以使歌曲合成模型在接受输入信息时具备更高的鲁棒性。
314.在一个实施例中，预训练模块906，还用于从初始样本集和增广样本集构成的集合中获取样本音频、与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息；根据样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征；按照样本歌词时长信息的样本歌词时长特征，扩展样本编码特征的时长特征，得到样本时长扩展编码特征；提取样本音频的样本音特征，将样本音特征和样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征；基于预测频谱特征合成预测歌曲，根据预测歌曲和样本音频之间的合成损失构建目标损失函数；基于目标损失函数进行模型预训练，获得歌曲合成初始模型。
315.本实施例中，从初始样本集和增广样本集构成的集合中获取样本音频、与样本音频对应的样本歌词时长信息，以及与样本音频对应的样本乐谱信息，从而能够将初始样本和增广样本作为模型训练的训练样本，从而能够使用更丰富的训练样本对模型进行训练，有利于提高模型的鲁棒性。根据样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征，按照样本歌词时长信息的样本歌词时长特征，扩展样本编码特征的时长特征，得到样本时长扩展编码特征，提取样本音频的样本音特征，将样本音特征和样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征，基于预测频谱特征合成预测歌曲，从而得到模型预测的歌曲。根据预测歌曲和真实的样本音频之间的合成损失构建目标损失函数，以基于目标损失函数进行模型预训练，能够准确获得歌曲合成初始
模型。并且，结合增广样本进行训练可以极大扩充歌唱合成的训练语料，从而提升模型在面对不同歌词、不同旋律组合时的稳定性、表现力和实用性。
316.在一个实施例中，预训练模块906，还用于根据样本歌词时长信息的样本歌词特征、样本乐谱信息的样本乐谱特征和样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长；确定每个音素的预测音素时长和样本歌词时长信息中每个音素的样本音素时长之间的音素时长损失；确定预测歌曲和样本音频之间的合成损失；根据音素时长损失和合成损失，构建目标损失函数。
317.本实施例中，音素时长损失能够表征模型对每个音素的预测时长和每个音素的真实时长之间的差异。根据样本歌词时长信息的样本歌词特征、样本乐谱信息的样本乐谱特征和样本音特征进行时长预测处理，得到样本歌词时长信息中每个音素对应的预测音素时长，从而能够根据每个音素的预测时长和样本歌词时长信息中每个音素的真实时长之间的差异，判断模型在每个音素的时长预测上的损失。结合音素时长损失和合成损失构建目标损失函数，能够考虑到模型在音素时长预测的局部因素和歌曲合成的全局因素对模型产生的影响，从而结合局部损失和全局损失对模型进行训练，能够进一步提高模型在音素时长预测上的精准性，从而能够提高歌曲合成初始模型的精度。
318.在一个实施例中，预训练模块906，还用于根据样本歌词时长信息中每个音素对应的预测音素时长，确定样本歌词时长信息中每个音节对应的预测音节时长；确定每个音节的预测音节时长和样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失；根据音素时长损失、音节时长损失和合成损失，构建目标损失函数。
319.本实施例中，根据样本歌词时长信息中每个音素对应的预测音素时长，确定样本歌词时长信息中每个音节对应的预测音节时长，确定每个音节的预测音节时长和样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失，结合音素时长损失、音节时长损失和合成损失构建目标损失函数，能够考虑到模型在音素时长预测、音节时长预测等多个局部因素，以及歌曲合成的全局因素对模型产生的影响，从而结合多个局部损失和全局损失对模型进行训练，能够进一步提高模型在音素时长预测、音节时长预测上的精准性，从而能够提高歌曲合成初始模型的精度。
320.在一个实施例中，预训练模块906，还用于对样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到样本音频的分类结果；确定分类结果和样本音频的分类标签之间的对抗损失；确定预测歌曲和样本音频之间的合成损失；根据对抗损失和合成损失，构建目标损失函数。
321.本实施例中，对抗损失能够体现模型提取的样本编码特征和期望提取的样本编码特征之间的差异。通过对样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到样本音频的分类结果，确定分类结果和样本音频的分类标签之间的对抗损失，以判断模型提取的样本编码特征是否符合预期，从而能够调整模型参数，使得提取的样本编码特征达到预期。结合对抗损失和合成损失构建目标损失函数，能够考虑到模型在提取样本编码特征方面的损失、歌曲合成的整体损失等多个因素对模型产生的影响，从而结合多方面的损失对模型进行训练，能够进一步提高模型在编码特征上的准确性，从而提高对歌曲合成的准确性。
322.在一个实施例中，预训练模块906，还用于提取样本音频的样本频谱特征，并确定
预测频谱特征和样本频谱特征之间的频谱损失；确定预测歌曲和样本音频之间的合成损失；根据频谱损失和合成损失，构建目标损失函数。
323.本实施例中，频谱损失能够体现模型预测的频谱特征和真实的频谱特征之间的差异。提取样本音频的样本频谱特征，并确定预测频谱特征和样本频谱特征之间的频谱损失，以判断模型预测得到的频谱特征是否符合预期，从而能够调整模型参数，使得模型预测的频谱特征达到预期。结合频谱损失和合成损失构建目标损失函数，能够考虑到模型在频谱预测方面的局部损失、歌曲合成的整体损失等多个因素对模型产生的影响，从而结合局部损失和全局损失对模型进行训练，能够进一步提高模型在频谱预测上的精准性，从而提高对歌曲合成的准确性。
324.在一个实施例中，训练模块910，用于基于目标声源的音特征对初始时长模型、初始声学模型和初始声码器的参数进行调整，得到与目标声源的音相匹配的歌曲合成模型。
325.本实施例中，通过初始样本和增广样本等大量训练预料进行模型预训练，在获得歌曲合成初始模型的基础上，基于目标声源的音特征对初始时长模型、初始声学模型和初始声码器的参数进行调整，能够通过个人的歌唱数据对模型参数进行微调处理，使得微调所得到的歌曲合成模型与个人的音相匹配，从而能够通过任意歌词和乐谱合成以个人的音进行演唱的歌曲，实现个人音的定制。
326.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的歌曲合成方法的歌曲合成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个歌曲合成装置实施例中的具体限定可以参见上文中对于歌曲合成方法的限定，在此不再赘述。
327.在一个实施例中，如图10所示，提供了一种歌曲合成装置1000，包括：编码模块1002、扩展模块1004、确定模块1006和合成模块1008，其中：
328.编码模块1002，用于获取目标歌词和目标乐谱信息，根据目标歌词和目标乐谱信息进行特征编码，获得编码特征。
329.扩展模块1004，用于获取目标歌词的歌词时长特征，并按照歌词时长特征扩展编码特征的时长特征，得到时长扩展编码特征。
330.确定模块1006，用于确定目标音的音特征，将音特征和时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征。
331.合成模块1008，用于基于目标频谱特征合成目标歌曲，目标歌曲与目标歌词、目标乐谱信息和目标音匹配。
332.本实施例中，根据需要进行歌曲合成的目标歌词和目标乐谱信息进行特征编码，获得包含歌词特征和乐谱特征的编码特征。获取目标歌词的歌词时长特征，并按照歌词时长特征扩展编码特征的时长特征，能够使用目标歌词的真实时长作为扩展的依据，使得所得到的时长扩展编码特征更精准。并且，对于需要严格匹配伴奏的合成场景，使用真实时长作为扩展的依据而不采用预测的时长，能够让时长能精准对齐伴奏的时间点，从而使得合成歌曲的词和旋律更协调自然，听起来更加悦耳。确定目标音的音特征，将音特征和时长扩展编码特征拼接后进行声学特征提取，得到获得包含目标音的目标频谱特征，基于目标频谱特征合成与目标歌词、目标乐谱信息和目标音相匹配的目标歌曲，从而有效
实现目标音的定制效果。并且，在已有歌词时长信息的情况下，结合歌词、乐谱和音合成具有特定音的目标歌曲，使得歌曲合成具备音定制功能，从而提高歌曲合成的自然度。
333.在一个实施例中，该装置还包括时长预测模块，该时长预测模块，用于根据目标歌词的歌词特征、目标乐谱信息的乐谱特征和目标音的音特征进行时长预测处理，得到目标歌词中每个音素对应的音素时长；按照每个音素的音素时长扩展编码特征的时长特征，得到时长扩展编码特征。
334.本实施例中，在用户没有提供歌词时长信息时，可根据歌词特征、乐谱特征和目标音的音特征进行时长预测处理，以准确预测出目标歌词中每个音素分别对应的音素时长，从而能够可将预测的音素时长作为时长扩展的依据。按照每个音素的音素时长扩展编码特征的时长特征，将扩展所得到的时长扩展编码特征和目标音的音特征拼接后进行声学特征提取，以获得相应的目标频谱特征。基于目标频谱特征合成以目标音进行演唱的、由目标歌词和目标乐谱构成的目标歌曲，从而可以不需要预先提供歌词时长信息，直接基于歌词、乐谱和音合成具有特定音的目标歌曲。这种方式对于不需要匹配伴奏的合成场景，例如自由发挥式的清唱场景，能够很好地合成具有特定音的歌曲，能够满足不同场景的歌曲合成需求。
335.上述歌曲合成模型的训练装置、歌曲合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
336.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器。以终端为例，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种歌曲合成模型的训练方法和歌曲合成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
337.本领域技术人员可以理解，图11中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
338.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
339.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
340.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
341.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
342.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
343.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
344.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：

1.一种歌曲合成模型的训练方法，其特征在于，所述方法包括：获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息；根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型；获取目标声源的音频，基于所述目标声源的音频提取音特征；基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。2.根据权利要求1所述的方法，其特征在于，所述基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，包括：按照音频变换方式对多个所述初始样本的录制音频进行变换，得到与每个所述录制音频分别对应的增广音频；根据多个所述初始样本的源歌词时长信息，确定与每个所述增广音频分别对应的增广歌词时长信息；通过与所述音频变换方式相匹配的乐谱变换方式，对多个所述初始样本的源乐谱信息进行调整，得到与每个所述增广音频分别对应的增广乐谱信息；根据各所述增广音频、各所述增广音频的增广歌词时长信息和各所述增广音频的增广乐谱信息形成增广样本集。3.根据权利要求2所述的方法，其特征在于，所述按照音频变换方式对多个所述初始样本的录制音频进行变换，得到与每个所述录制音频分别对应的增广音频，包括：对多个所述初始样本的录制音频分别进行音高调整处理，得到与每个所述录制音频分别对应的增广音频；所述根据多个所述初始样本的源歌词时长信息，确定与每个所述增广音频分别对应的增广歌词时长信息，包括：将多个所述初始样本的每个录制音频的源歌词时长信息，作为相应增广音频对应的增广歌词时长信息；所述通过与所述音频变换方式相匹配的乐谱变换方式，对多个所述初始样本的源乐谱信息进行调整，得到与每个所述增广音频分别对应的增广乐谱信息，包括：按照对多个所述初始样本的录制音频的音高调整处理，对多个所述录制音频的源乐谱信息的音符进行音阶调整处理，得到与每个所述增广音频分别对应的增广乐谱信息。4.根据权利要求2所述的方法，其特征在于，所述所述按照音频变换方式对多个所述初始样本的录制音频进行变换，得到与每个所述录制音频分别对应的增广音频，包括：将多个所述初始样本的录制音频进行划分处理，得到每个所述录制音频各自对应的音频片段；对于每个所述录制音频，将相应录制音频的各音频片段按照相邻顺序分别进行拼接，得到相应录制音频的多个增广音频；所述根据多个所述初始样本的源歌词时长信息，确定与每个所述增广音频分别对应的增广歌词时长信息，包括：
按照对多个所述初始样本的录制音频的划分处理，将多个所述初始样本的源歌词时长信息进行划分，得到每个所述音频片段对应的歌词时长信息片段；按照对各所述音频片段的拼接处理，对各所述音频片段的歌词时长信息片段进行拼接，得到与每个所述增广音频分别对应的增广歌词时长信息；所述通过与所述音频变换方式相匹配的乐谱变换方式，对多个所述初始样本的源乐谱信息进行调整，得到与每个所述增广音频分别对应的增广乐谱信息，包括：按照对多个所述初始样本的录制音频的划分处理，将多个所述初始样本的源乐谱信息进行划分，得到每个所述音频片段对应的乐谱信息片段；按照对各所述音频片段的拼接处理，对各所述音频片段的乐谱信息片段进行拼接，得到与每个所述增广音频分别对应的增广乐谱信息。5.根据权利要求1所述的方法，其特征在于，所述根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲合成初始模型，包括：从所述初始样本集和所述增广样本集构成的集合中获取样本音频、与所述样本音频对应的样本歌词时长信息，以及与所述样本音频对应的样本乐谱信息；根据所述样本音频的样本歌词时长信息和样本乐谱信息进行特征编码，获得样本编码特征；按照所述样本歌词时长信息的样本歌词时长特征，扩展所述样本编码特征的时长特征，得到样本时长扩展编码特征；提取所述样本音频的样本音特征，将所述样本音特征和所述样本时长扩展编码特征拼接后进行声学特征提取，得到预测频谱特征；基于所述预测频谱特征合成预测歌曲，根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数；基于所述目标损失函数进行模型预训练，获得歌曲合成初始模型。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：根据所述样本歌词时长信息的样本歌词特征、所述样本乐谱信息的样本乐谱特征和所述样本音特征进行时长预测处理，得到所述样本歌词时长信息中每个音素对应的预测音素时长；确定每个所述音素的预测音素时长和所述样本歌词时长信息中每个音素的样本音素时长之间的音素时长损失；所述根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数，包括：确定所述预测歌曲和所述样本音频之间的合成损失；根据所述音素时长损失和所述合成损失，构建目标损失函数。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：根据所述样本歌词时长信息中每个音素对应的预测音素时长，确定所述样本歌词时长信息中每个音节对应的预测音节时长；确定每个所述音节的预测音节时长和所述样本歌词时长信息中每个音节的样本音节时长之间的音节时长损失；所述根据所述音素时长损失和所述合成损失，构建目标损失函数，包括：根据所述音素时长损失、所述音节时长损失和所述合成损失，构建目标损失函数。
8.根据权利要求5所述的方法，其特征在于，所述方法还包括：对所述样本编码特征进行梯度反转处理，并基于梯度反转处理所得到的特征进行分类，得到所述样本音频的分类结果；确定所述分类结果和所述样本音频的分类标签之间的对抗损失；所述根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数，包括：确定所述预测歌曲和所述样本音频之间的合成损失；根据所述对抗损失和所述合成损失，构建目标损失函数。9.根据权利要求5所述的方法，其特征在于，所述方法还包括：提取所述样本音频的样本频谱特征，并确定所述预测频谱特征和所述样本频谱特征之间的频谱损失；所述根据所述预测歌曲和所述样本音频之间的合成损失构建目标损失函数，包括：确定所述预测歌曲和所述样本音频之间的合成损失；根据所述频谱损失和所述合成损失，构建目标损失函数。10.根据权利要求1至9中任一项所述的方法，其特征在于，所述歌曲合成初始模型包括初始时长模型、初始声学模型和初始声码器；所述基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型，包括：基于所述目标声源的音特征对所述初始时长模型、所述初始声学模型和所述初始声码器的参数进行调整，得到与所述目标声源的音相匹配的歌曲合成模型。11.一种歌曲合成方法，包括：获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。12.根据权利要求11所述的方法，其特征在于，所述方法还包括：根据所述目标歌词的歌词特征、所述目标乐谱信息的乐谱特征和所述目标音的音特征进行时长预测处理，得到所述目标歌词中每个音素对应的音素时长；按照每个所述音素的音素时长扩展所述编码特征的时长特征，得到时长扩展编码特征。13.一种歌曲合成模型的训练装置，其特征在于，所述装置包括：获取模块，用于获取初始样本集，所述初始样本集包括多种声源的初始样本，所述初始样本包括录制音频、所述录制音频的源歌词时长信息和所述录制音频的源乐谱信息；增广模块，用于基于对所述初始样本中录制音频的音频变换进行样本增广，获得增广样本集，所述增广样本集的增广样本包括经过所述音频变换得到的增广音频、所述增广音频的增广歌词时长信息和所述增广音频的增广乐谱信息；预训练模块，用于根据所述初始样本集和所述增广样本集进行模型预训练，获得歌曲
合成初始模型；提取模块，用于获取目标声源的音频，基于所述目标声源的音频提取音特征；训练模块，用于基于所述音特征对所述歌曲合成初始模型进行训练，获得歌曲合成模型。14.一种歌曲合成装置，其特征在于，所述装置包括：编码模块，用于获取目标歌词和目标乐谱信息，根据所述目标歌词和所述目标乐谱信息进行特征编码，获得编码特征；扩展模块，用于获取所述目标歌词的歌词时长特征，并按照所述歌词时长特征扩展所述编码特征的时长特征，得到时长扩展编码特征；确定模块，用于确定目标音的音特征，将所述音特征和所述时长扩展编码特征拼接后进行声学特征提取，得到目标频谱特征；合成模块，用于基于所述目标频谱特征合成目标歌曲，所述目标歌曲与所述目标歌词、所述目标乐谱信息和所述目标音匹配。15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

技术总结

本申请涉及一种人工智能的歌曲合成模型的训练方法，包括：获取初始样本集，初始样本集包括多种声源的初始样本，初始样本包括录制音频、录制音频的源歌词时长信息和录制音频的源乐谱信息；基于对初始样本中录制音频的音频变换进行样本增广，获得增广样本集，增广样本集的增广样本包括经过音频变换得到的增广音频、增广音频的增广歌词时长信息和增广音频的增广乐谱信息；根据初始样本集和增广样本集进行模型预训练，获得歌曲合成初始模型；获取目标声源的音频，基于目标声源的音频提取音特征；基于音特征对歌曲合成初始模型进行训练，获得歌曲合成模型。采用本方法能够实现合成歌曲的音定制，从而提高歌曲合成的自然度。度。度。