音频处理方法及相关装置与流程

1.本技术涉及计算机技术领域，尤其涉及一种音频处理方法及相关装置。

背景技术：

2.歌声合成是指利用语音合成技术让计算机能够像人类一样进行歌曲的演唱。歌声合成作为语音合成技术一个新的应用领域，在虚拟歌手、唱片制作、数字音乐创作等领域都有较大的应用价值和前景。由于歌声相比于语音而言带有更多的音调、节奏以及旋律等信息，因此不可避免地增加了歌声合成的难度，如何合成真实、自然的歌声，是研究人员亟待解决的技术问题。

技术实现要素：

3.本技术实施例提供了一种音频处理方法及相关装置，可以提高合成歌曲的音质，使合成歌声更加真实、自然。
4.一方面，本技术实施例提供了一种音频处理方法，所述方法包括：
5.获取歌曲训练样本的曲谱文件和干声音频；
6.根据所述曲谱文件确定所述歌曲训练样本的音节序列和音符序列，以及根据所述干声音频确定所述歌曲训练样本的第一基频序列和发音序列；
7.将所述歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据所述第二基频序列和所述第一基频序列对所述初始基频预测模型进行训练，得到目标基频预测模型，其中，所述目标基频预测模型用于根据待合成歌曲的曲谱文件生成所述待合成歌曲的预测基频序列；
8.将所述歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据所述第一声学特征和所述干声音频的第二声学特征对所述初始声学模型进行训练，得到目标声学模型，其中，所述目标声学模型用于根据所述待合成歌曲的预测基频序列生成所述待合成歌曲的预测声学特征，所述预测声学特征用于生成所述待合成歌曲的合成音频。
9.一方面，本技术实施例提供了一种音频处理方法，所述方法包括：
10.获取待合成歌曲的曲谱文件，并根据所述曲谱文件确定所述待合成歌曲的音节序列和音符序列；
11.将所述待合成歌曲的音节序列和音符序列输入目标基频预测模型，得到所述待合成歌曲的预测基频序列；
12.根据所述待合成歌曲的音节序列确定目标发音序列，并将所述目标发音序列和所述预测基频序列输入目标声学模型，得到所述待合成歌曲的预测声学特征；
13.调用声码器对所述预测声学特征进行音频合成处理，得到所述待合成歌曲的合成音频。
14.一方面，本技术实施例提供了一种音频处理装置，所述装置包括：
15.获取单元，用于获取歌曲训练样本的曲谱文件和干声音频；
16.处理单元，用于根据所述曲谱文件确定所述歌曲训练样本的音节序列和音符序列，以及根据所述干声音频确定所述歌曲训练样本的第一基频序列和发音序列；
17.所述处理单元，还用于将所述歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据所述第二基频序列和所述第一基频序列对所述初始基频预测模型进行训练，得到目标基频预测模型，其中，所述目标基频预测模型用于根据待合成歌曲的曲谱文件生成所述待合成歌曲的预测基频序列；
18.所述处理单元，还用于将所述歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据所述第一声学特征和所述干声音频的第二声学特征对所述初始声学模型进行训练，得到目标声学模型，其中，所述目标声学模型用于根据所述待合成歌曲的预测基频序列生成所述待合成歌曲的预测声学特征，所述预测声学特征用于生成所述待合成歌曲的合成音频。
19.一方面，本技术实施例提供了一种音频处理装置，所述装置包括：
20.获取单元，用于获取待合成歌曲的曲谱文件；
21.处理单元，用于根据所述曲谱文件确定所述待合成歌曲的音节序列和音符序列；
22.所述处理单元，还用于将所述待合成歌曲的音节序列和音符序列输入目标基频预测模型，得到所述待合成歌曲的预测基频序列；
23.所述处理单元，还用于根据所述待合成歌曲的音节序列确定目标发音序列，并将所述目标发音序列和所述预测基频序列输入目标声学模型，得到所述待合成歌曲的预测声学特征；
24.所述处理单元，还用于调用声码器对所述预测声学特征进行音频合成处理，得到所述待合成歌曲的合成音频。
25.一方面，本技术实施例提供了一种计算机设备，该计算机设备包括处理器、通信接口和存储器，该处理器、通信接口和存储器相互连接，其中，该存储器存储有计算机程序，该处理器用于调用该计算机程序，执行上述任一可能实现方式的音频处理方法。
26.一方面，本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现该任一可能实现方式的音频处理方法。
27.一方面，本技术实施例还提供了一种计算机程序产品，上述计算机程序产品包括计算机程序或计算机指令，上述计算机程序或计算机指令被处理器执行实现本技术实施例提供的音频处理方法的步骤。
28.一方面，本技术实施例还提供了一种计算机程序，上述计算机程序包括计算机指令，上述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令，上述处理器执行上述计算机指令，使得上述计算机设备执行本技术实施例提供的音频处理方法。
29.在本技术实施例中，通过培养初始基频预测模型对歌曲训练样本的音节序列和音符序列的深度建模能力，能够使目标基频预测模型准确地预测出待合成歌曲的基频序列；同时初始声学模型通过兼顾歌曲训练样本的基频序列和发音序列的学习，能够加强初始声学模型对声学特征的刻画能力，使得目标声学模型能够针对待合成歌曲生成准确性较高的
声学特征，从而提高合成歌曲的音质，使合成歌声更加真实、自然。
附图说明
30.为了更清楚地说明本技术实施例技术方法，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
31.图1为本技术实施例提供的一种音频处理系统的系统架构示意图；
32.图2为本技术实施例提供的一种音频处理方法的流程示意图；
33.图3为本技术实施例提供的一种曲谱文件的示例示意图；
34.图4为本技术实施例提供的另一种音频处理方法的流程示意图；
35.图5为本技术实施例提供的另一种音频处理方法的流程示意图；
36.图6为本技术实施例提供的另一种音频处理方法的流程示意图；
37.图7为本技术实施例提供的另一种音频处理方法的流程示意图；
38.图8为本技术实施例提供的另一种音频处理方法的流程示意图；
39.图9为本技术实施例提供的另一种音频处理方法的流程示意图；
40.图10为本技术实施例提供的另一种音频处理方法的流程示意图；
41.图11为本技术实施例提供的一种音频处理装置的结构示意图；
42.图12为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
43.下面将结合本技术实施例中的附图，对本技术实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
44.本技术提出了一种音频处理方法，能够应用于云技术、人工智能、区块链、车联网、智慧交通、智能家居等各种领域或场景。具体的，本技术提出的音频处理方法可以基于人工智能技术中的语音处理技术实现。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大视频处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。语音处理技术的关键技术有自动语音识别技术(automaticspeech recognition，asr)、语音合成技术(text to speech，tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
45.参阅图1，图1为本技术实施例提供的一种音频处理系统的系统架构示意图。如图1所示，该系统架构包括终端设备11和服务器12，终端设备11和服务器12之间可以通过网络通信，终端设备11可以为一个或多个。
46.其中，终端设备11可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端，等等，但并不局限于此。服务器12可以是独立的物理服务
器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
47.图1所示的系统架构可以实现本技术实施例提供的音频处理方法，以终端设备11和服务器12共同执行本方法为例，其实现流程大致包括：
48.在第一阶段中，服务器12需要获取歌曲训练样本的曲谱文件和干声音频，根据歌曲训练样本的曲谱文件确定歌曲训练样本的音节序列和音符序列，以及根据歌曲训练样本的干声音频确定歌曲训练样本的第一基频序列和发音序列。再将歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据第二基频序列和第一基频序列对初始基频预测模型进行训练，得到目标基频预测模型。以及将歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据第一声学特征和干声音频的第二声学特征对初始声学模型进行训练，得到目标声学模型。
49.在第二阶段中，服务器12会搭载训练得到的目标基频预测模型和目标声学模型，当服务器12接收到终端设备11发送的针对待合成歌曲的音频合成请求时，获取待合成歌曲的曲谱文件，并根据待合成歌曲的曲谱文件确定待合成歌曲的音节序列和音符序列。再将待合成歌曲的音节序列和音符序列输入搭载的目标基频预测模型，得到待合成歌曲的预测基频序列。以及根据待合成歌曲的音节序列确定目标发音序列，并将目标发音序列和预测基频序列输入搭载的目标声学模型，得到待合成歌曲的预测声学特征。最终调用声码器对预测声学特征进行音频合成处理，得到待合成歌曲的合成音频。采用本技术的方法，能够提高合成歌曲的音质，使合成歌声更加真实、自然。
50.下面对本技术提供的音频处理方法的具体实现方式进行详细阐述。参阅图2，图2为本技术实施例提供的一种音频处理方法的流程示意图。该方法可以应用于上述图1中的服务器12，该方法包括：
51.s201、获取歌曲训练样本的曲谱文件和干声音频。
52.曲谱文件中的曲谱是指记录有音乐音高或者节奏的各种书面符号的有规律的组合，如常见的简谱、五线谱、吉他谱、古琴谱等等。在一实施例中，服务器可以构建第一数据集，该第一数据集包括多个歌曲的曲谱文件，该多个歌曲的曲谱文件中的一个为歌曲训练样本的曲谱文件，服务器可以从第一数据集中获取歌曲训练样本的曲谱文件。
53.干声音频是指歌曲的人声演唱音频，不包括歌曲的伴奏音频；可以是歌曲的全部或部分人声演唱音频。在一实施例中，服务器可以构建第二数据集，该第二数据集包括至少一个歌曲的干声音频，该至少一个歌曲的干声音频中的一个为歌曲训练样本的干声音频，服务器可以从第二数据集中获取歌曲训练样本的干声音频。
54.需说明的是，上述第一数据集和上述第二数据集可以对应不同的歌曲集合，即上述多个歌曲和上述至少一个歌曲各自包括的歌曲可以不同，因此本技术无需成对的曲谱文本和干声音频，就能完成后续模型(包括初始基频预测模型和初始声学模型)的训练。
55.s202、根据曲谱文件确定歌曲训练样本的音节序列和音符序列，以及根据干声音频确定歌曲训练样本的第一基频序列和发音序列。
56.歌曲训练样本的曲谱文件中包含有歌曲训练样本的歌词以及多个音符(音乐符
号)，例如图3为一个示例的曲谱文件。在一实施方式中，可以通过歌曲训练样本的曲谱文件确定歌曲训练样本中的各个音符的时间信息，每个音符的时间信息包括音符开始时间(反映音符发音的开始时间)和音符结束时间(反映音符发音的结束时间)，以及根据音符开始时间和音符结束时间之间的差值确定的音符时长(反映音符发音的持续时间)。可理解的，在曲谱中，通常以拍号来表示每个小节的拍数以及每拍的时值。例如，4/4拍表示以四分音符为一拍并且每小节有四拍，3/8拍表示以八分音符为一拍并且每小节有三拍。当曲谱规定1分钟60拍的情况下，1拍的长度就是1秒；以4/4拍为例，每小节有四拍、亦即4秒，以此类推。因此，通过音符持续的拍数或以比例表示的音符的时值，就能得知各个音符的时间信息。
57.歌曲训练样本的曲谱文件记录有音节和音符之间的对应关系，每个音节可以对应一个或多个音符，可以将该一个或多个音符确定为该每个音节对应的各个辅助音符。进而根据该各个辅助音符的时间信息确定该每个音节的时间信息。每个音节的时间信息包括音节开始时间(反映音节发音的开始时间)、音节结束时间(反映音节发音的结束时间)以及音节时长(反映音节发音的持续时间)。具体的，将该各个辅助音符的音符时长之和，确定为该每个音节的音节时长。将该各个辅助音符的音符开始时间中最早的音符开始时间，确定为该每个音节的音节开始时间。将该各个辅助音符的音符结束时间中最晚的音符结束时间，确定为该每个音节的音节结束时间。
58.其中，音节对应一个完整发音单位(例如一个汉字、一个英语单词)。另外，一个音节通常包含有一个或多个音素(最小发音单位)，例如中文中的“b(波)、p(坡)、m(摸)”，英文中的“/i：/、/i/、/e/”。
59.在一实施例中，服务器在得到歌曲训练样本的曲谱文件中的各个音节的时间信息之后，可以根据预设单位帧长(可以人为设定，例如10-20毫秒)和该各个音节的时间信息确定歌曲训练样本的音节序列。
60.具体的，针对各个音节中的任一音节，根据预设单位帧长和该任一音节的时间信息包括的音节时长，确定任一音节的个数。其中，该任一音节的个数是将该音节的音节时长除以预设单位帧长后进行取整运算后得到的，取整运算可以是向上取整或向下取整。该任一音节的个数表示该任一音节需持续的预设单位帧长的个数，可以反映该音节演唱时需持续的时长。例如音节“我”的音节时长为63毫秒，预设单元帧长为15毫秒，音节“我”的个数可以为4(向下取整)或5(向上取整)，表示音节“我”需持续4或5个预设单位帧长。进一步地，根据预设单位帧长和任一音节的时间信息包括的音节开始时间，确定任一音节的序列开始位置。其中，任一音节的序列开始位置是将任一音节的音节开始时间除以预设单位帧长后进行取整运算得到的。例如音节“我”的音节开始时间为15毫秒，预设单位帧长为15毫秒，音节“我”的序列开始位置为1。最终根据任一音节的个数和序列开始位置，对各个音节进行排序处理，得到歌曲训练样本的音节序列。例如，歌词“我爱你”中的音节“我”、“爱”、“你”的个数分别为2、4、3，且序列开始位置分别为0、3、8，那么对应的音节序列为[我，我，补位符，爱，爱，爱，爱，补位符，你，你]。可见，音节序列不仅可以体现歌曲训练样本中的音节的自身信息，还可以体现音节在歌曲训练样本中的发音位置、发音持续时间等信息，可以有效表征歌曲训练样本的发音情况。
[0061]
进一步地，服务器在得到歌曲训练样本的曲谱文件中的各个音符的时间信息之后，可以根据预设单位帧长(可以人为设定，例如10-20毫秒)和该各个音符的时间信息确定
歌曲训练样本的音符序列。
[0062]
具体的，针对各个音符中的任一音符，根据预设单位帧长和任一音符的音符时长，确定任一音符的个数。其中，该任一音符的个数是将该音符的音符时长除以预设单位帧长后进行取整运算后得到的，取整运算可以是向上取整或向下取整。该任一音符的个数表示该任一音符需持续的预设单位帧长的个数，可以反映该任一音符演奏时需持续的时长。再根据预设单位帧长和任一音符的音符开始时间，确定任一音符的序列开始位置。其中，任一音符的序列开始位置是将任一音符的音符开始时间除以预设单位帧长后进行取整运算得到的。最终根据任一音符的个数和序列开始位置，对各个音符进行排序处理，得到歌曲训练样本的音符序列。可理解的，获取歌曲训练样本的音符序列的处理逻辑与前述获取歌曲训练样本的音节序列的处理方式一致，此处不再赘述。同样音符序列不仅可以体现歌曲训练样本中的音符的自身信息，还可以体现音符在歌曲训练样本中的发音位置、发音持续时间等信息，可以有效表征歌曲训练样本的旋律情况。需注意的是，通过歌曲训练样本的曲谱文件得到的音节序列和音符序列的序列长度是相同的，因此采用的预设单位帧长应该是相同的。
[0063]
参阅图4，针对歌曲训练样本的干声音频，一方面，可以通过对歌曲训练样本的干声音频进行歌词识别处理，得到歌曲训练样本的歌词文本。该歌词文本中包括干声音频中的各个发音元素以及各个发音元素的时间信息。每个发音元素的时间信息包括发音开始时间(反映发音元素发音的开始时间)、发音结束时间(反映发音元素发音的结束时间)、以及根据发音开始时间和发音结束时间确定的发音时长(反映发音元素发音的持续时间)。进一步可以根据干声音频中的各个发音元素的时间信息以及预设单位帧长(可以人为设定，例如10-20毫秒)确定歌曲训练样本的发音序列。需说明的是，发音元素可以是指音节或音素中的任一种。另一方面，可以根据预设单位帧长对干声音频进行基频提取处理，得到歌曲训练样本的基频序列，为了便于与下文模型得到的基频序列区分，可以将此处的基频序列称为第一基频序列。
[0064]
在可行的实施例中，可以先按照歌曲训练样本的干声音频中的气口位置对干声音频进行分段处理，进一步对分段处理后得到的多个音频分别进行歌词识别处理，以得到歌曲训练样本的歌词文本，其中气口位置是指歌曲中给予歌唱者换气和吸气的间隙。
[0065]
在一实施例中，根据干声音频中的各个发音元素的时间信息以及预设单位帧长确定歌曲训练样本的发音序列，包括：针对各个发音元素中的任一发音元素，根据预设单位帧长和任一发音元素的发音时长，确定任一发音元素的个数。其中，该任一发音元素的个数是将该发音元素的发音时长除以预设单位帧长后进行取整运算后得到的，取整运算可以是向上取整或向下取整。该任一发音元素的个数表示该任一发音元素需持续的预设单位帧长的个数。根据预设单位帧长和任一发音元素的发音开始时间，确定任一发音元素的序列开始位置。其中，任一发音元素的序列开始位置是将任一发音元素的发音开始时间除以预设单位帧长后进行取整运算得到的。根据任一发音元素的个数和序列开始位置，对各个发音元素进行排序处理，得到歌曲训练样本的发音序列。可理解的，获取歌曲训练样本的发音序列的处理逻辑与前述获取歌曲训练样本的音节序列的处理方式一致，此处不再赘述。发音序列不仅可以体现歌曲训练样本中的发音元素(音节或音符)的自身信息，还可以体现发音元素在歌曲训练样本中的发音位置和发音持续时间等信息，可以有效表征歌曲训练样本的发
音情况。
[0066]
进一步地，根据预设单位帧长对歌曲训练样本的干声音频进行基频提取处理，得到歌曲训练样本的第一基频序列，包括：根据预设单位帧长对歌曲训练样本的干声音频进行分帧处理，得到多帧子音频。通过基频提取算法获取多帧子音频中每帧子音频的基频值，常用的基频提取算法有自相关算法、平行处理法、倒谱法和简化逆滤波法等。再按照多帧子音频的时间先后顺序，对多帧子音频的多个基频值进行排序处理，得到歌曲训练样本的第一基频序列。其中，声音信号中频率最低的正弦波是基音，基音的频率是基频值。第一基频序列可以反映干声音频的音调在时间上的变化情况。需注意的是，通过歌曲训练样本的干声音频得到的发音序列和第一基频序列的序列长度是相同的，因此采用的预设单位帧长应该是相同的。
[0067]
本技术实施例中，目标基频预测模型可以利用待合成歌曲的曲谱文件预测待合成歌曲的基频序列，因此不需要从模板音频中提取基频信息，基频信息的提取方式更加简单。
[0068]
s203、将歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据第二基频序列和第一基频序列对初始基频预测模型进行训练，得到目标基频预测模型，其中，目标基频预测模型用于根据待合成歌曲的曲谱文件生成待合成歌曲的预测基频序列。
[0069]
参阅图5，将歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，包括：对歌曲训练样本的音节序列中的各个音节分别进行编码处理，得到音节编码序列，该编码处理可以通过使用n个序号来对n个状态进行编码而实现，例如，可以分别用序号1、2、3对音节序列中的“我”、“爱”、“你”这3个音节进行编码。对歌曲训练样本的音符序列中的各个音符分别进行编码处理，得到音符编码序列，音符可以表达声音的不同特性，例如音高、音量、音长等，该编码处理可以是将各个音符通过对应的音高(或频率)进行编码，音高可以反映发音物体振动时的频率，例如音符c4的音高为72(频率为523赫兹)，可以用72(或523)对音符序列中的c4编码。
[0070]
进一步地，通过将音节编码序列和音符编码序列分别输入初始基频预测模型包括的embedding层(嵌入层)，实现对音节编码序列和音符编码序列的特征提取处理，得到音节编码序列对应的音节序列特征和音符编码序列对应的音符序列特征(可以均是固定大小的向量)。再将音节序列特征输入初始基频预测模型包括的语义编码模块中，得到语义编码特征，该语言编码特征可以指示歌曲训练样本的语义内容表示，该语义编码模块可以是基于长短期记忆(long short-term memory，lstm)模型以及bert(bidirectional encoder representations from transformers，基于变换器的双向编码表示)模型等模型构建的编码器，本技术对此不作限制。
[0071]
进一步地，将语义编码特征和音符序列特征融合后输入初始基频预测模型包括的解码模块中，得到音符残差特征，该融合可以是将语义编码特征和音符序列特征进行相加或拼接，该解码模块可以是基于深度神经网络构建的解码器，例如深度神经网络可以是双向rnn(recurrent neural network，循环神经网络)。最终根据音符残差特征和音符编码序列确定基频序列，为了与第一基频序列区分，可以将此处得到的基频序列称为第二基频序列，如下述式(1)所示，可以是将音符残差特征f0_res和音符编码序列note相加之后得到第二基频序列f0_hat。歌唱时同一个音节内部的音高通常也是会有变化和抖动的，通过训练
音符残差特征可以仿真真实歌声的变化和抖动。音符残差特征的维度大小可以与音符编码序列的序列长度一样。
[0072]
f0_hat＝f0_res+note
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0073]
在一实施例中，服务器可以根据下述式(2)确定第二基频序列f0_hat和第一基频序列y
true
之间的差异数据loss1。再根据第二基频序列和第一基频序列之间的差异数据loss1对初始基频预测模型进行一次训练，一次训练是指利用差异数据loss1反向调整一次初始基频预测模型的模型参数。可理解的，可以利用第一训练集中的多个歌曲的曲谱文件对初始基频预测模型进行多次训练，当某次训练时获取的差异数据loss1小于第一预设阈值(可以人为设置)时或训练次数达到第一预设次数时，可以将训练后的初始基频预测模型确定为目标基频预测模型，目标基频预测模型可以用于根据待合成歌曲的曲谱文件生成待合成歌曲的预测基频序列，详细过程可以参见下述图8所示例的实施例。
[0074]
loss1＝(y
true-f0_hat)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0075]
需解释的是，本技术会沿着差异数据loss1变小的方向对初始基频预测模型进行训练，在这个训练的过程中，初始基频预测模型会通过使第二基频序列与第一基频序列之间越来越相似，培养对音节序列和音符序列的深度建模能力，通过借助音节信息、音符信息等多方信息，能够确保目标基频预测模型能够准确地针对待合成歌曲预测出基频序列。
[0076]
s204、将歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据第一声学特征和干声音频的第二声学特征对初始声学模型进行训练，得到目标声学模型，其中，目标声学模型用于根据待合成歌曲的预测基频序列生成待合成歌曲的预测声学特征，预测声学特征用于生成待合成歌曲的合成音频。其中，为了与模型得到的声学特征做区分，可以将干声音频的声学特征称为第二声学特征，将模型得到的声学特征称为第一声学特征。
[0077]
参阅图6，将歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，包括：对歌曲训练样本的发音序列中的各个发音元素分别进行编码处理，得到发音编码序列。该编码处理可以通过使用n个序号来对n个状态进行编码而实现，例如，可以用序号1、2、3分别对发音序列中的“b”、“p”、m”这3个音素进行编码；还可以采用独热(one-hot)编码实现，例如，可以用[001]、[010]、[100]分别对发音序列中的“b”、“p”、m”这3个音素进行编码；当然还可以采用其他编码方式，本技术对此不作限制。
[0078]
进一步地，通过将第一基频序列和发音编码序列分别输入初始声学特征包括的embedding层(嵌入层)，实现对第一基频序列和发音编码序列的特征提取处理，得到第一基频序列对应的基频序列特征和发音编码序列对应的发音序列特征(可以均是固定大小的向量)。再对基频序列特征和发音序列特征进行融合处理，得到融合特征，该融合处理可以是指将基频序列特征和发音序列特征进行拼接或相加。接着将融合特征输入初始声学模型包括的编解码模块中，得到转换特征，该编解码模块包括编码模块和解码模块，本技术对编码模块和解码模块的结构并不作具体限制。示例地，编码模块可以采用双向循环神经网络，比如双向lstm(long short-term memory，长短期记忆网络)实现，解码器可以采用单向循环神经网络，比如单向lstm实现。最终将转换特征输入初始声学模型包括的线性模块中，得到第一声学特征，该线性模块可以是指神经网络中的线性层。
[0079]
每个歌唱者对应有唯一标识(即歌唱者标识)，参阅图7，在可行的实施例中，可以
获取演唱歌曲训练样本的干声音频的歌唱者的歌唱者标识，将该歌唱者标识输入初始声学模型包括的embedding层，得到歌唱者特征，再对歌唱者特征、基频序列特征和发音序列特征进行融合处理，得到上述融合特征并继续执行后续步骤。通过融入歌唱者特征，可以使得初始声学特征能够学习歌唱者演唱时的个人特。
[0080]
在一实施例中，服务器可以获取歌曲训练样本的干声音频的第二声学特征，第二声学特征可以是根据该干声音频得到的梅尔倒谱系数等声学特征。进一步地，根据第一声学特征和干声音频的第二声学特征之间的差异数据loss2(可以是根据第一声学特征和干声音频的第二声学特征之间的差的平方得到的)对初始声学模型进行一次训练，一次训练是指利用差异数据loss2反向调整一次初始声学模型的模型参数。可理解的，可以利用第二训练集中的至少一个歌曲的干声音频对初始声学模型进行多次训练，当某次训练时获取的差异数据loss2小于第二预设阈值(可以人为设置)时或训练次数达到第二预设次数时，将训练后的初始声学模型确定为目标声学模型，目标声学模型可以用于根据待合成歌曲的预测基频序列生成待合成歌曲的预测声学特征，预测声学特征用于生成待合成歌曲的合成音频，详细过程可以参见下述图8所示例的实施例。可见，训练初始声学模型无需成对的干声音频和曲谱文件，可以降低训练样本的获取难度。
[0081]
需解释的是，本技术会沿着差异数据loss2变小的方向对初始声学模型进行训练，在这个训练的过程中，初始声学模型会通过使第一声学特征与第二声学特征之间越来越相似，从而兼顾基频序列和发音序列的学习，能够加强对声学特征的刻画能力，最终通过借助发音信息、基频信息等多方信息，能够确保目标生成模型能够准确地针对待合成歌曲预测出声学特征。
[0082]
在本技术实施例中，通过培养初始基频预测模型对歌曲训练样本的音节序列和音符序列的深度建模能力，能够使目标基频预测模型可以准确地预测出待合成歌曲的基频序列；同时初始声学模型通过兼顾歌曲训练样本的基频序列和发音序列的学习，能够加强初始声学模型对声学特征的刻画能力，使得目标声学模型能够针对待合成歌曲生成准确性较高的声学特征，从而提高合成歌曲的音质，使合成歌声更加真实、自然。
[0083]
参阅图8，图8为本技术实施例提供的另一种音频处理方法的流程示意图。该方法可以应用于上述图1中的服务器12，该方法包括：
[0084]
s801、获取待合成歌曲的曲谱文件，并根据曲谱文件确定待合成歌曲的音节序列和音符序列。
[0085]
在一实施例中，终端设备可以向服务器发送音频合成请求，服务器可以获取该音频合成请求携带的待合成歌曲的曲谱文件；或者服务器可以从本地或云端的数据库中获取存储的待合成歌曲的曲谱文件。然后可以获取待合成歌曲的曲谱文件中的各个音符的时间信息。以及确定该曲谱文件中每个音节对应的各个辅助音符，根据该各个辅助音符的时间信息确定该每个音节的时间信息。具体的，将该各个辅助音符的音符时长之和，确定为该每个音节的音节时长。将该各个辅助音符的音符开始时间中最早的音符开始时间，确定为该每个音节的音节开始时间。将该各个辅助音符的音符结束时间中最晚的音符结束时间，确定为该每个音节的音节结束时间。
[0086]
进一步地，针对各个音节中的任一音节，根据预设单位帧长(可以人为设定，例如10-20毫秒)和任一音节的时间信息包括的音节时长，确定任一音节的个数。其中，该任一音
节的个数是将该音节的音节时长除以预设单位帧长后进行取整运算后得到的，取整运算可以是向上取整或向下取整。该任一音节的个数表示该任一音节需持续的预设单位帧长的个数。再根据预设单位帧长和任一音节的时间信息包括的音节开始时间，确定任一音节的序列开始位置。其中，任一音节的序列开始位置是将任一音节的音节开始时间除以预设单位帧长后进行取整运算得到的。最终根据任一音节的个数和序列开始位置，对各个音节进行排序处理，得到待合成歌曲的音节序列。以及针对各个音符中的任一音符，根据预设单位帧长(可以人为设定，例如10-20毫秒)和任一音符的时间信息包括的音符时长，确定任一音符的个数。其中，该任一音符的个数是将该音符的音符时长除以预设单位帧长后进行取整运算后得到的，取整运算可以是向上取整或向下取整。该任一音符的个数表示该任一音符需持续的预设单位帧长的个数。再根据预设单位帧长和任一音符的时间信息包括的音符开始时间，确定任一音符的序列开始位置。其中，任一音符的序列开始位置是将任一音符的音符开始时间除以预设单位帧长后进行取整运算得到的。最终根据任一音符的个数和序列开始位置，对各个音符进行排序处理，得到待合成歌曲的音符序列。该音节(或音符)序列不仅可以体现待合成歌曲中的音节(或音符)的自身信息，还可以体现音节(或音符)在待合成歌曲中的发音位置、发音持续时间等信息，可以有效表征待合成歌曲的发音情况(或旋律情况)。
[0087]
s802、将待合成歌曲的音节序列和音符序列输入目标基频预测模型，得到待合成歌曲的预测基频序列。
[0088]
在一实施例中，服务器可以对待合成歌曲的音节序列中的各个音节分别进行编码处理，得到音节编码序列，该编码处理可以通过使用n个序号来对n个状态进行编码而实现。以及对待合成歌曲的音符序列中的各个音符分别进行编码处理，得到音符编码序列，该编码处理可以是将各个音符通过对应的音高(或频率)进行编码。进一步地，对音节编码序列和音符编码序列分别进行特征提取处理，得到音节序列特征和音符序列特征，该音节序列特征和音符序列特征具体可以是将音节编码序列和音符编码序列分别输入目标基频预测模型包括的embedding层(嵌入层)得到的。再将音节序列特征输入目标基频预测模型包括的语义编码模块中，得到语义编码特征。接着将语义编码特征和音符序列特征融合后输入目标基频预测模型包括的解码模块中，得到音符残差特征，该融合可以是将语义编码特征和音符序列特征进行相加或拼接。最终根据音符残差特征和音符编码序列确定待合成歌曲的预测基频序列，具体可以是将音符残差特征和音符编码序列相加后得到待合成歌曲的预测基频序列。
[0089]
一方面，预测基频序列中融合的音符编码序列(对应音高或频率)可以指示发音物体在每帧子音频振动的频率，另一方面，预测基频序列中融合的音符残差特征可以模拟真实的声音(具体是音高)变化和抖动，因此预测基频序列可以有效模拟待合成歌曲真实的基频序列。
[0090]
s803、根据待合成歌曲的音节序列确定目标发音序列，并将目标发音序列和预测基频序列输入目标声学模型，得到待合成歌曲的预测声学特征。
[0091]
在一实施例中，若发音元素为音节，则将待合成歌曲的音节序列确定为目标发音序列。
[0092]
在另一实施例中，若发音元素为音素，则将待合成歌曲的音节序列输入音素时长预测模型，得到待合成歌曲中的各个音素的预测音素时长。再根据预设单位帧长(可以人为
设定，例如10-20毫秒)、待合成歌曲中的各个音素的预测音素时长和各个音素对应的音节的时间信息构建预测音素序列。例如，预设单位帧长为15毫秒，歌词“我爱你”中的音节“我”、“爱”、“你”的音节开始时间分别为45毫秒、120毫秒、145毫秒，音节“我”对应的音素“w”和“o”的音素时长分别为30毫秒和30毫秒，音节“爱”对应的音素“ai”的音素时长为45毫秒，音节“你”对应的音素“n”和“i”的音素时长分别为15和45毫秒，则预测音素序列为[补位符，补位符，补位符，w，w，o，o，补位符，ai，ai，ai，n，i，i，i]。最终可以将预测音素序列确定为目标发音序列。可理解的，音素的个数表示了音素需持续的预设单位帧长的个数，可以反映音素演唱时需持续的时长。
[0093]
在一实施例中，可以获取歌曲训练样本的音节序列，对歌曲训练样本的音节序列中的各个音节分别进行编码处理，得到音节编码序列，该编码处理可以通过使用n个序号来对n个状态进行编码而实现，还可以通过one-hot编码等编码方式实现。将音节编码序列输入初始时长预测模型包括的embedding层(嵌入层)得到音节序列特征，再将音节序列特征输入初始时长预测模型包括的语义编码模块中，得到语义编码特征。接着将语义编码特征输入初始时长预测模型包括的解码模块中，得到解码特征，再将解码特征输入初始时长预测模型包括的线性模块得到歌曲训练样本中的各个音素的训练音素时长。进一步根据歌曲训练样本中的各个音素的真实音素时长和训练音素时长对初始时长预测模型进行训练得到音素时长预测模型，具体可以是根据歌曲训练样本中的各个音素的真实音素时长和训练音素时长之间的差异数据loss3(可以是根据真实音素时长和训练音素时长之间的差的平方得到的)对初始时长预测模型进行一次训练，一次训练是指利用差异数据loss3反向调整一次初始时长预测模型的模型参数。可理解的，可以利用多个歌曲的音节训练对初始时长预测模型进行多次训练，当某次训练时获取的差异数据loss3小于第三预设阈值(可以人为设置)时或训练次数达到第三预设次数时，将训练后的初始时长预测模型确定为音素时长预测模型。上述将待合成歌曲的音节序列输入音素时长预测模型，得到待合成歌曲中的各个音素的预测音素时长的处理逻辑与训练过程中将歌曲训练样本的音节序列输入初始时长预测模型得到歌曲训练样本中的各个音素的训练音素时长的处理逻辑一致，此处不再赘述。
[0094]
在一实施例中，对待合成歌曲的目标发音序列中的各个发音元素分别进行编码处理，得到发音编码序列。该编码处理可以通过使用n个序号来对n个状态进行编码而实现，例如，可以用1、2、3、4分别对目标发音序列中的“b”、“ao”、“n”、“i”这4个音素进行编码，还可以采用独热one-hot编码等其他编码方式实现。再对待合成歌曲的预测基频序列和发音编码序列分别进行特征提取处理，得到基频序列特征和发音序列特征，基频序列特征和发音序列特征具体可以是将第一基频序列和发音编码序列分别输入目标声学特征包括的embedding层(嵌入层)得到的。进一步对基频序列特征和发音序列特征进行融合处理，得到融合特征，该融合处理可以是指将基频序列特征和发音序列特征进行拼接或相加。接着将融合特征输入目标声学模型包括的编解码模块中，得到转换特征。最终将转换特征输入目标声学模型包括的线性模块中，得到预测声学特征。目标声学模型可以通过融合指示待合成歌曲的发音情况的目标发音序列以及指示待合成歌曲的音调变化情况的预测基频序列，生成准确性较高的预测声学特征。
[0095]
在可行的实施例中，若想要生成具有个人特的音频，则可以确定歌唱者标识，将
歌唱者标识输入目标声学模型包括的embedding层，得到歌唱者特征，对歌唱者特征、基频序列特征和发音序列特征进行融合处理，得到上述融合特征，最终利用上述融合特征生成的预测声学特征可以生成具有个人特的合成音频。
[0096]
综上所述，参阅图9，当发音元素为音节时，利用待合成歌曲的曲谱文件可以得到待合成歌曲中的各个音节和对应的时间信息，从而得到音节序列。以及利用待合成歌曲的曲谱文件可以得到待合成歌曲中的各个音符和对应的时间信息，从而得到音符序列，进一步，将音节序列和音符序列输入目标基频预测模型，可以得到预测基频序列。将预测基频序列和音节序列输入目标声学模型，得到预测声学特征。参阅图10，当发音元素为音素时，利用待合成歌曲的曲谱文件可以得到待合成歌曲中的各个音节和对应的时间信息，从而得到音节序列，将音节序列输入音素时长预测模型得到待合成歌曲中的各个音素的预测音素时长，并根据待合成歌曲中的各个音素的预测音素时长确定预测音素序列。以及利用待合成歌曲的曲谱文件可以得到待合成歌曲中的各个音符和对应的时间信息，从而得到音符序列，进一步，将音节序列和音符序列输入目标基频预测模型，可以得到预测基频序列。最终将预测基频序列和预测音素序列输入目标声学模型，得到预测声学特征。
[0097]
s804、调用声码器对预测声学特征进行音频合成处理，得到待合成歌曲的合成音频。
[0098]
声码器可以将声学特征编码生成声音波形，因此本技术利用声波器对预测声学特征进行音频合成处理，以重构语音波形，得到待合成歌曲的合成音频，该合成音频为一个干声音频。还可以获取待合成歌曲的伴奏音频，利用待合成歌曲的伴奏音频和合成音频生成待合成歌曲的播放音频。
[0099]
在本技术实施例中，能够利用目标基频预测模型准确地预测出待合成歌曲的基频序列，使得目标声学模型能够通过得到的基频序列和发音序列针对待合成歌曲生成准确性较高的声学特征，从而提高合成歌曲的音质，使合成歌声更加真实、自然。
[0100]
可以理解的是，在本技术的具体实施方式中，涉及到曲谱文件和干声音频等相关数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0101]
上述详细阐述了本技术实施例的方法，为了便于更好地实施本技术实施例的上述方法，相应地，下面提供了本技术实施例的装置。请参见图11，图11是本技术实施例提供的一种音频处理装置的结构示意图，在一实施例中，该音频处理装置110可以包括：
[0102]
获取单元1101，用于获取歌曲训练样本的曲谱文件和干声音频；
[0103]
处理单元1102，用于根据所述曲谱文件确定所述歌曲训练样本的音节序列和音符序列，以及根据所述干声音频确定所述歌曲训练样本的第一基频序列和发音序列；
[0104]
所述处理单元1102，还用于将所述歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据所述第二基频序列和所述第一基频序列对所述初始基频预测模型进行训练，得到目标基频预测模型，其中，所述目标基频预测模型用于根据待合成歌曲的曲谱文件生成所述待合成歌曲的预测基频序列；
[0105]
所述处理单元1102，还用于将所述歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据所述第一声学特征和所述干声音频的第二声学特征对所述初始声学模型进行训练，得到目标声学模型，其中，所述目标声学模型用于根据所
述待合成歌曲的预测基频序列生成所述待合成歌曲的预测声学特征，所述预测声学特征用于生成所述待合成歌曲的合成音频。
[0106]
在一实施例中，所述获取单元1101具体用于：获取所述曲谱文件中的各个音节的时间信息，并根据预设单位帧长和所述各个音节的时间信息确定所述歌曲训练样本的音节序列；获取所述曲谱文件中的各个音符的时间信息，并根据所述预设单位帧长和所述各个音符的时间信息确定所述歌曲训练样本的音符序列；获取所述干声音频中的各个发音元素的时间信息，并根据所述预设单位帧长和所述各个发音元素的时间信息确定所述歌曲训练样本的发音序列，所述发音元素包括音节和音素中的任一种；
[0107]
所述处理单元1102具体用于：根据所述预设单位帧长对所述干声音频进行基频提取处理，得到所述歌曲训练样本的第一基频序列。
[0108]
在一实施例中，所述发音元素的时间信息包括发音时长及发音开始时间；所述处理单元1102具体用于：针对各个所述发音元素，根据所述预设单位帧长和所述发音元素的发音时长，确定所述发音元素的个数，并根据所述预设单位帧长和所述发音元素的发音开始时间，确定所述发音元素的序列开始位置；根据各个所述发音元素的个数和序列开始位置，对所述各个发音元素进行排序处理，得到所述歌曲训练样本的发音序列。
[0109]
在一实施例中，所述处理单元1102具体用于：根据所述预设单位帧长对所述干声音频进行分帧处理，得到多帧子音频；
[0110]
所述获取单元1101具体用于：获取所述多帧子音频中每帧子音频的基频值；
[0111]
所述处理单元1102具体用于：对所述多帧子音频的多个基频值进行排序处理，得到所述歌曲训练样本的第一基频序列。
[0112]
在一实施例中，所述处理单元1102具体用于：对所述歌曲训练样本的发音序列中的各个发音元素分别进行编码处理，得到发音编码序列；对所述歌曲训练样本的第一基频序列和所述发音编码序列分别进行特征提取处理，得到基频序列特征和发音序列特征；对所述基频序列特征和所述发音序列特征进行融合处理，得到融合特征；将所述融合特征输入初始声学模型包括的编解码模块中，得到转换特征；将所述转换特征输入所述初始声学模型包括的线性模块中，得到第一声学特征。
[0113]
在一实施例中，所述处理单元1102具体用于：对所述歌曲训练样本的音节序列中的各个音节分别进行编码处理，得到音节编码序列，以及对所述歌曲训练样本的音符序列中的各个音符分别进行编码处理，得到音符编码序列；对所述音节编码序列和所述音符编码序列分别进行特征提取处理，得到音节序列特征和音符序列特征；将所述音节序列特征输入初始基频预测模型包括的语义编码模块中，得到语义编码特征，并将所述语义编码特征和所述音符序列特征融合后输入所述初始基频预测模型包括的解码模块中，得到音符残差特征；根据所述音符残差特征和所述音符编码序列确定第二基频序列。
[0114]
在另一实施例中，该音频处理装置110可以包括：
[0115]
获取单元1101，用于获取待合成歌曲的曲谱文件；
[0116]
处理单元1102，用于根据所述曲谱文件确定所述待合成歌曲的音节序列和音符序列；
[0117]
所述处理单元1102，还用于将所述待合成歌曲的音节序列和音符序列输入目标基频预测模型，得到所述待合成歌曲的预测基频序列；
[0118]
所述处理单元1102，还用于根据所述待合成歌曲的音节序列确定目标发音序列，并将所述目标发音序列和所述预测基频序列输入目标声学模型，得到所述待合成歌曲的预测声学特征；
[0119]
所述处理单元1102，还用于调用声码器对所述预测声学特征进行音频合成处理，得到所述待合成歌曲的合成音频。
[0120]
在一实施例中，所述处理单元1102具体用于：若发音元素为音节，则将所述待合成歌曲的音节序列确定为目标发音序列；若发音元素为音素，则将所述待合成歌曲的音节序列输入音素时长预测模型，得到所述待合成歌曲中的各个音素的预测音素时长，并根据预设单位帧长和所述待合成歌曲中的各个音素的预测音素时长确定目标发音序列；其中，所述音素时长预测模型是根据歌曲训练样本中的各个音素的真实音素时长和训练音素时长对初始时长预测模型进行训练得到的，所述训练音素时长是将所述歌曲训练样本的音节序列输入所述初始时长预测模型得到的。
[0121]
可以理解的是，本技术实施例所描述的音频处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
[0122]
在本技术实施例中，通过培养初始基频预测模型对歌曲训练样本的音节序列和音符序列的深度建模能力，能够使目标基频预测模型可以准确地预测出待合成歌曲的基频序列；同时初始声学模型通过兼顾歌曲训练样本的基频序列和发音序列的学习，能够加强初始声学模型对声学特征的刻画能力，使得目标声学模型能够针对待合成歌曲生成准确性较高的声学特征，从而提高合成歌曲的音质，使合成歌声更加真实、自然。
[0123]
如图12所示，图12是本技术实施例提供的一种计算机设备的结构示意图，该计算机设备120内部结构如图12所示，包括：一个或多个处理器1201、存储器1202、通信接口1203。上述处理器1201、存储器1202和通信接口1203可通过总线1204或其他方式连接，本技术实施例以通过总线1204连接为例。
[0124]
其中，处理器1201(或称cpu(central processing unit，中央处理器))是计算机设备120的计算核心以及控制核心，其可以解析计算机设备120内的各类指令以及处理计算机设备120的各类数据，例如：cpu可以用于解析用户向计算机设备120所发送的开关机指令，并控制计算机设备120进行开关机操作；再如：cpu可以在计算机设备120内部结构之间传输各类交互数据，等等。通信接口1203可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等)，受处理器1201的控制用于收发数据。存储器1202(memory)是计算机设备120中的记忆设备，用于存放计算机程序和数据。可以理解的是，此处的存储器1202既可以包括计算机设备120的内置存储器，当然也可以包括计算机设备120所支持的扩展存储器。存储器1202提供存储空间，该存储空间存储了计算机设备120的操作系统，可包括但不限于：windows系统、linux系统、android系统、ios系统，等等，本技术对此并不作限定。在一实施例中，处理器1201通过运行存储器1202中存储的计算机程序，执行如下操作：
[0125]
获取歌曲训练样本的曲谱文件和干声音频；
[0126]
根据所述曲谱文件确定所述歌曲训练样本的音节序列和音符序列，以及根据所述干声音频确定所述歌曲训练样本的第一基频序列和发音序列；
[0127]
将所述歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基
频序列，并根据所述第二基频序列和所述第一基频序列对所述初始基频预测模型进行训练，得到目标基频预测模型，其中，所述目标基频预测模型用于根据待合成歌曲的曲谱文件生成所述待合成歌曲的预测基频序列；
[0128]
将所述歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据所述第一声学特征和所述干声音频的第二声学特征对所述初始声学模型进行训练，得到目标声学模型，其中，所述目标声学模型用于根据所述待合成歌曲的预测基频序列生成所述待合成歌曲的预测声学特征，所述预测声学特征用于生成所述待合成歌曲的合成音频。
[0129]
在一实施例中，所述处理器1201具体用于：获取所述曲谱文件中的各个音节的时间信息，并根据预设单位帧长和所述各个音节的时间信息确定所述歌曲训练样本的音节序列；获取所述曲谱文件中的各个音符的时间信息，并根据所述预设单位帧长和所述各个音符的时间信息确定所述歌曲训练样本的音符序列；获取所述干声音频中的各个发音元素的时间信息，并根据所述预设单位帧长和所述各个发音元素的时间信息确定所述歌曲训练样本的发音序列，所述发音元素包括音节和音素中的任一种；根据所述预设单位帧长对所述干声音频进行基频提取处理，得到所述歌曲训练样本的第一基频序列。
[0130]
在一实施例中，所述发音元素的时间信息包括发音时长及发音开始时间；所述处理器1201具体用于：针对各个所述发音元素，根据所述预设单位帧长和所述发音元素的发音时长，确定所述发音元素的个数，并根据所述预设单位帧长和所述发音元素的发音开始时间，确定所述发音元素的序列开始位置；根据各个所述发音元素的个数和序列开始位置，对所述各个发音元素进行排序处理，得到所述歌曲训练样本的发音序列。
[0131]
在一实施例中，所述处理器1201具体用于：根据所述预设单位帧长对所述干声音频进行分帧处理，得到多帧子音频；获取所述多帧子音频中每帧子音频的基频值；对所述多帧子音频的多个基频值进行排序处理，得到所述歌曲训练样本的第一基频序列。
[0132]
在一实施例中，所述处理器1201具体用于：对所述歌曲训练样本的发音序列中的各个发音元素分别进行编码处理，得到发音编码序列；对所述歌曲训练样本的第一基频序列和所述发音编码序列分别进行特征提取处理，得到基频序列特征和发音序列特征；对所述基频序列特征和所述发音序列特征进行融合处理，得到融合特征；将所述融合特征输入初始声学模型包括的编解码模块中，得到转换特征；将所述转换特征输入所述初始声学模型包括的线性模块中，得到第一声学特征。
[0133]
在一实施例中，所述处理器1201具体用于：对所述歌曲训练样本的音节序列中的各个音节分别进行编码处理，得到音节编码序列，以及对所述歌曲训练样本的音符序列中的各个音符分别进行编码处理，得到音符编码序列；对所述音节编码序列和所述音符编码序列分别进行特征提取处理，得到音节序列特征和音符序列特征；将所述音节序列特征输入初始基频预测模型包括的语义编码模块中，得到语义编码特征，并将所述语义编码特征和所述音符序列特征融合后输入所述初始基频预测模型包括的解码模块中，得到音符残差特征；根据所述音符残差特征和所述音符编码序列确定第二基频序列。
[0134]
在另一实施例中，处理器1201通过运行存储器1202中存储的计算机程序，执行如下操作：
[0135]
获取待合成歌曲的曲谱文件，并根据所述曲谱文件确定所述待合成歌曲的音节序
列和音符序列；
[0136]
将所述待合成歌曲的音节序列和音符序列输入目标基频预测模型，得到所述待合成歌曲的预测基频序列；
[0137]
根据所述待合成歌曲的音节序列确定目标发音序列，并将所述目标发音序列和所述预测基频序列输入目标声学模型，得到所述待合成歌曲的预测声学特征；
[0138]
调用声码器对所述预测声学特征进行音频合成处理，得到所述待合成歌曲的合成音频。
[0139]
在一实施例中，所述处理器1201具体用于：若发音元素为音节，则将所述待合成歌曲的音节序列确定为目标发音序列；若发音元素为音素，则将所述待合成歌曲的音节序列输入音素时长预测模型，得到所述待合成歌曲中的各个音素的预测音素时长，并根据预设单位帧长和所述待合成歌曲中的各个音素的预测音素时长确定目标发音序列；其中，所述音素时长预测模型是根据歌曲训练样本中的各个音素的真实音素时长和训练音素时长对初始时长预测模型进行训练得到的，所述训练音素时长是将所述歌曲训练样本的音节序列输入所述初始时长预测模型得到的。
[0140]
具体实现中，本技术实施例中所描述的处理器1201、存储器1202及通信接口1203可执行本技术实施例提供的一种音频处理方法中所描述的实现方式，也可执行本技术实施例提供的一种音频处理装置中所描述的实现方式，在此不再赘述。
[0141]
在本技术实施例中，通过培养初始基频预测模型对歌曲训练样本的音节序列和音符序列的深度建模能力，能够使目标基频预测模型可以准确地预测出待合成歌曲的基频序列；同时初始声学模型通过兼顾歌曲训练样本的基频序列和发音序列的学习，能够加强初始声学模型对声学特征的刻画能力，使得目标声学模型能够针对待合成歌曲生成准确性较高的声学特征，从而提高合成歌曲的音质，使合成歌声更加真实、自然。
[0142]
本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机设备上运行时，使得计算机设备执行上述任一可能实现方式的音频处理方法。其具体实现方式可参考前文描述，此处不再赘述。
[0143]
本技术实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现本技术实施例提供的音频处理方法的步骤。其具体实现方式可参考前文描述，此处不再赘述。
[0144]
本技术实施例还提供了一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行本技术实施例提供的音频处理方法。其具体实现方式可参考前文描述，此处不再赘述。
[0145]
需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0146]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储
介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0147]
以上所揭露的仅为本技术部分实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：获取歌曲训练样本的曲谱文件和干声音频；根据所述曲谱文件确定所述歌曲训练样本的音节序列和音符序列，以及根据所述干声音频确定所述歌曲训练样本的第一基频序列和发音序列；将所述歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据所述第二基频序列和所述第一基频序列对所述初始基频预测模型进行训练，得到目标基频预测模型，其中，所述目标基频预测模型用于根据待合成歌曲的曲谱文件生成所述待合成歌曲的预测基频序列；将所述歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据所述第一声学特征和所述干声音频的第二声学特征对所述初始声学模型进行训练，得到目标声学模型，其中，所述目标声学模型用于根据所述待合成歌曲的预测基频序列生成所述待合成歌曲的预测声学特征，所述预测声学特征用于生成所述待合成歌曲的合成音频。2.根据权利要求1所述的方法，其特征在于，所述根据所述曲谱文件确定所述歌曲训练样本的音节序列和音符序列，以及根据所述干声音频确定所述歌曲训练样本的第一基频序列和发音序列，包括：获取所述曲谱文件中的各个音节的时间信息，并根据预设单位帧长和所述各个音节的时间信息确定所述歌曲训练样本的音节序列；获取所述曲谱文件中的各个音符的时间信息，并根据所述预设单位帧长和所述各个音符的时间信息确定所述歌曲训练样本的音符序列；获取所述干声音频中的各个发音元素的时间信息，并根据所述预设单位帧长和所述各个发音元素的时间信息确定所述歌曲训练样本的发音序列，所述发音元素包括音节和音素中的任一种；根据所述预设单位帧长对所述干声音频进行基频提取处理，得到所述歌曲训练样本的第一基频序列。3.根据权利要求2所述的方法，其特征在于，所述发音元素的时间信息包括发音时长及发音开始时间；所述根据所述预设单位帧长和所述各个发音元素的时间信息确定所述歌曲训练样本的发音序列，包括：针对各个所述发音元素，根据所述预设单位帧长和所述发音元素的发音时长，确定所述发音元素的个数，并根据所述预设单位帧长和所述发音元素的发音开始时间，确定所述发音元素的序列开始位置；根据各个所述发音元素的个数和序列开始位置，对所述各个发音元素进行排序处理，得到所述歌曲训练样本的发音序列。4.根据权利要求2所述的方法，其特征在于，所述根据所述预设单位帧长对所述干声音频进行基频提取处理，得到所述歌曲训练样本的第一基频序列，包括：根据所述预设单位帧长对所述干声音频进行分帧处理，得到多帧子音频；获取所述多帧子音频中每帧子音频的基频值；对所述多帧子音频的多个基频值进行排序处理，得到所述歌曲训练样本的第一基频序列。
5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将所述歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，包括：对所述歌曲训练样本的发音序列中的各个发音元素分别进行编码处理，得到发音编码序列；对所述歌曲训练样本的第一基频序列和所述发音编码序列分别进行特征提取处理，得到基频序列特征和发音序列特征，并对所述基频序列特征和所述发音序列特征进行融合处理，得到融合特征；将所述融合特征输入初始声学模型包括的编解码模块中，得到转换特征，并将所述转换特征输入所述初始声学模型包括的线性模块中，得到第一声学特征。6.根据权利要求1-4中任一项所述的方法，其特征在于，所述将所述歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，包括：对所述歌曲训练样本的音节序列中的各个音节分别进行编码处理，得到音节编码序列，以及对所述歌曲训练样本的音符序列中的各个音符分别进行编码处理，得到音符编码序列；对所述音节编码序列和所述音符编码序列分别进行特征提取处理，得到音节序列特征和音符序列特征；将所述音节序列特征输入初始基频预测模型包括的语义编码模块中，得到语义编码特征，并将所述语义编码特征和所述音符序列特征融合后输入所述初始基频预测模型包括的解码模块中，得到音符残差特征；根据所述音符残差特征和所述音符编码序列确定第二基频序列。7.一种音频处理方法，其特征在于，所述方法包括：获取待合成歌曲的曲谱文件，并根据所述曲谱文件确定所述待合成歌曲的音节序列和音符序列；将所述待合成歌曲的音节序列和音符序列输入如权利要求1至6任一项所述的目标基频预测模型，得到所述待合成歌曲的预测基频序列；根据所述待合成歌曲的音节序列确定目标发音序列，并将所述目标发音序列和所述预测基频序列输入如权利要求11至6任一项所述的目标声学模型，得到所述待合成歌曲的预测声学特征；调用声码器对所述预测声学特征进行音频合成处理，得到所述待合成歌曲的合成音频。8.根据权利要求7所述的方法，其特征在于，所述根据待合成歌曲的音节序列确定目标发音序列，包括：若发音元素为音节，则将所述待合成歌曲的音节序列确定为目标发音序列；若发音元素为音素，则将所述待合成歌曲的音节序列输入预先训练完成的音素时长预测模型，得到所述待合成歌曲中各个音素的预测音素时长，并根据预设单位帧长和所述待合成歌曲中各个音素的预测音素时长确定目标发音序列；其中，所述音素时长预测模型是由歌曲训练样本中各个音素的音素时长进行训练得到。9.一种计算机设备，其特征在于，所述计算机设备包括存储器、通信接口以及处理器，所述存储器、所述通信接口和所述处理器相互连接；所述存储器存储有计算机程序，所述处
理器调用所述存储器中存储的计算机程序，用于实现如权利要求1-8中任一项所述的音频处理方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的音频处理方法。

技术总结

一种音频处理方法及相关装置，该方法包括：获取歌曲训练样本的曲谱文件和干声音频；根据曲谱文件确定歌曲训练样本的音节序列和音符序列，以及根据干声音频确定歌曲训练样本的第一基频序列和发音序列；将歌曲训练样本的音节序列和音符序列输入初始基频预测模型得到第二基频序列，并根据第二基频序列和第一基频序列对初始基频预测模型进行训练得到目标基频预测模型；将歌曲训练样本的第一基频序列和发音序列输入初始声学模型得到第一声学特征，并根据第一声学特征和第二声学特征对初始声学模型进行训练得到目标声学模型，目标声学模型和目标基频预测模型用于生成待合成歌曲的合成音频。采用本申请的方法，可以提高合成歌曲的音质。歌曲的音质。歌曲的音质。