一种旋律与歌词对齐方法、装置、电子设备及存储介质与流程

1.本技术涉及网络技术领域，尤其涉及一种旋律与歌词对齐方法、装置、电子设备及存储介质。

背景技术：

2.本部分旨在为本技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.一首歌曲音频的主旋律是指歌曲音频中的一组有序的音高序列，由音高和每个音高所持续的时间长度组成。一首歌曲音频中的主旋律包括乐器主旋律(即前奏、间奏和尾奏部分)和人声主旋律(即人声演唱部分的人声和伴奏)。
4.旋律与歌词对齐是将歌词中每个字的时间信息与音高信息进行匹配，得到歌词中每个字对应的开始时间、结束时间以及对应的音高。相关技术中，旋律与歌词对齐的方式为：利用旋律提取模型将歌曲音频中的人声和旋律进行分离，提取出主旋律，实现主旋律与歌词文本的时间对齐，然而，旋律提取模型无法精准判断提取出的主旋律是乐器主旋律还是人声主旋律，从而，根据提取出的主旋律与歌词进行对齐的准确度较低。

技术实现要素：

5.针对背景技术中的问题，本技术实施例提供了一种旋律与歌词对齐方法、装置、电子设备及存储介质。
6.一方面，本技术一实施例提供了一种旋律与歌词对齐方法，包括：
7.将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、所述主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，所述旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的；
8.根据所述主旋律音高序列和所述主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列；
9.根据所述人声主旋律音高序列中各音高的开始时间、所述歌词中每个字的开始时间与参考歌词文件，确定所述歌词中每个字的目标开始时间；
10.根据所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。
11.在一种可能的实施方式中，将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、所述主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，具体包括：
12.将歌曲音频输入旋律提取多任务模型，获得在各设定时间点的各个音高概率、在所述各设定时间点的音高为人声的概率以及在所述各设定时间点为歌词中的字的开始时间的概率；
13.根据所述在各设定时间点的各个音高概率获得主旋律音高序列；
14.根据所述各设定时间点为歌词中的字的开始时间的概率确定所述歌词中每个字的开始时间；以及
15.根据所述主旋律音高序列和所述主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列，具体包括：
16.根据所述主旋律音高序列和在所述各设定时间点的音高为人声的概率获得人声主旋律音高序列。
17.在一种可能的实施方式中，根据所述在各设定时间点的各个音高概率获得主旋律音高序列，具体包括：
18.针对每一当前设定时间点，分别计算各个音高与上一设定时间点的目标音高之间的音程；
19.根据预设的音程与权重的对应关系，确定计算出的各音程对应的权重；
20.将所述当前设定时间点的各个音高概率分别乘以相应的所述各音程对应的权重，得到所述当前设定时间点的各个候选音高概率；
21.将最大候选音高概率对应的音高确定为所述当前设定时间点的目标音高；
22.将所述各设定时间点的目标音高确定为相应的主旋律音高，获得所述主旋律音高序列。
23.在一种可能的实施方式中，根据所述主旋律音高序列和在所述各设定时间点的音高为人声的概率获得人声主旋律音高序列，具体包括：
24.将为人声的概率大于第一预设阈值的设定时间点的主旋律音高确定为人声主旋律音高；
25.根据所述人声主旋律音高获得所述人声旋律音高序列。
26.在一种可能的实施方式中，根据所述各设定时间点为歌词中的字的开始时间的概率确定所述歌词中每个字的开始时间，具体包括：
27.根据所述各设定时间点为歌词中的字的开始时间的概率获得对应的概率曲线；
28.将所述概率曲线中的各个峰值对应的设定时间点确定为所述歌词中的字的开始时间。
29.在一种可能的实施方式中，根据所述人声主旋律音高序列中各音高的开始时间、所述歌词中每个字的开始时间与参考歌词文件，确定所述歌词中每个字的目标开始时间，具体包括：
30.将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间进行匹配，确定所述歌词中每个字的候选开始时间；
31.将所述歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间。
32.在一种可能的实施方式中，将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间进行匹配，确定所述歌词中每个字的候选开始时间，具体包括：
33.将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间，按照第一预设时间误差范围进行匹配；
34.若在所述第一预设时间误差范围内，任一音高的开始时间匹配到所述歌词中的任
一字的开始时间，则确定所述任一音高的开始时间为音高切换点与歌词切换点，将所述音高的开始时间确定为匹配到的所述任一字的候选开始时间；
35.若在所述第一预设时间误差范围内，任一音高的开始时间未匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为一字多音下的音高切换点；
36.若在所述第一预设时间误差范围内，所述歌词中的任一字的开始时间未匹配到任一音高的开始时间，则确定所述任一字的开始时间为一音多字下的歌词切换点，将所述任一字的开始时间确定为所述任一字的候选开始时间。
37.在一种可能的实施方式中，将所述歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间，具体包括：
38.在第二预设时间误差范围内，根据所述参考歌词文件中每一个字的开始时间匹配所述歌词中各个字的候选开始时间中的最接近的候选开始时间；
39.将匹配到的各个最接近的候选开始时间分别确定为所述歌词中每个字的目标开始时间。
40.在一种可能的实施方式中，所述方法，还包括：
41.根据预设节拍检测算法识别所述歌曲音频中的每个节拍点对应的时间点；
42.将人声主旋律音高序列中各音高的开始时间和所述歌词中每个字的目标开始时间匹配到所述每个节拍点对应的时间点上。
43.一方面，本技术一实施例提供了一种旋律与歌词对齐装置，包括：
44.旋律提取单元，用于将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、所述主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，所述旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的；
45.获得单元，用于根据所述主旋律音高序列和所述主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列；
46.确定单元，用于根据所述人声主旋律音高序列中各音高的开始时间、所述歌词中每个字的开始时间与参考歌词文件，确定所述歌词中每个字的目标开始时间；
47.处理单元，用于根据所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。
48.在一种可能的实施方式中，所述旋律提取单元，具体用于：
49.将歌曲音频输入旋律提取多任务模型，获得在各设定时间点的各个音高概率、在所述各设定时间点的音高为人声的概率以及在所述各设定时间点为歌词中的字的开始时间的概率；
50.根据所述在各设定时间点的各个音高概率获得主旋律音高序列；
51.根据所述各设定时间点为歌词中的字的开始时间的概率确定所述歌词中每个字的开始时间；以及
52.所述获得单元，具体用于根据所述主旋律音高序列和在所述各设定时间点的音高为人声的概率获得人声主旋律音高序列。
53.在一种可能的实施方式中，所述旋律提取单元，具体用于：
54.针对每一当前设定时间点，分别计算各个音高与上一设定时间点的目标音高之间
的音程；
55.根据预设的音程与权重的对应关系，确定计算出的各音程对应的权重；
56.将所述当前设定时间点的各个音高概率分别乘以相应的所述各音程对应的权重，得到所述当前设定时间点的各个候选音高概率；
57.将最大候选音高概率对应的音高确定为所述当前设定时间点的目标音高；
58.将所述各设定时间点的目标音高确定为相应的主旋律音高，获得所述主旋律音高序列。
59.在一种可能的实施方式中，所述获得单元，具体用于：
60.将为人声的概率大于第一预设阈值的设定时间点的主旋律音高确定为人声主旋律音高；
61.根据所述人声主旋律音高获得所述人声旋律音高序列。
62.在一种可能的实施方式中，所述旋律提取单元，具体用于：
63.根据所述各设定时间点为歌词中的字的开始时间的概率获得对应的概率曲线；
64.将所述概率曲线中的各个峰值对应的设定时间点确定为所述歌词中的字的开始时间。
65.在一种可能的实施方式中，所述确定单元，具体用于：
66.将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间进行匹配，确定所述歌词中每个字的候选开始时间；
67.将所述歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间。
68.在一种可能的实施方式中，所述确定单元，具体用于：
69.将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间，按照第一预设时间误差范围进行匹配；
70.若在所述第一预设时间误差范围内，任一音高的开始时间匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为音高切换点与歌词切换点，将所述音高的开始时间确定为匹配到的所述任一字的候选开始时间；
71.若在所述第一预设时间误差范围内，任一音高的开始时间未匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为一字多音下的音高切换点；
72.若在所述第一预设时间误差范围内，所述歌词中的任一字的开始时间未匹配到任一音高的开始时间，则确定所述任一字的开始时间为一音多字下的歌词切换点，将所述任一字的开始时间确定为所述任一字的候选开始时间。
73.在一种可能的实施方式中，所述确定单元，具体用于：
74.在第二预设时间误差范围内，根据所述参考歌词文件中每一个字的开始时间匹配所述歌词中各个字的候选开始时间中的最接近的候选开始时间；
75.将匹配到的各个最接近的候选开始时间分别确定为所述歌词中每个字的目标开始时间。
76.在一种可能的实施方式中，所述装置，还包括：
77.识别单元，用于根据预设节拍检测算法识别所述歌曲音频中的每个节拍点对应的时间点；
78.节拍量化单元，用于将人声主旋律音高序列中各音高的开始时间和所述歌词中每个字的目标开始时间匹配到所述每个节拍点对应的时间点上。
79.一方面，本技术一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本技术所述的旋律与歌词对齐方法。
80.一方面，本技术一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现本技术所述的旋律与歌词对齐方法中的步骤。
81.本技术实施例提供的旋律与歌词对齐方法、装置、电子设备及存储介质，将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的，根据主旋律音高序列和主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列，根据人声主旋律音高序列中各音高的开始时间、歌词中每个字的开始时间与参考歌词文件，确定歌词中每个字的目标开始时间，根据人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果，本技术实施例中，通过旋律提取多任务模型可以更准确地识别主旋律音高、主旋律音高中各音高为人声的概率以及歌词中每个字的开始时间，从而，根据主旋律音高、主旋律音高中各音高为人声的概率可以更准确地确定出人声主旋律音高，并根据识别出的人声主旋律各音高的开始时间、歌词中每个字的开始时间与参考歌词文件修正歌词中每个字的开始时间，得到更加精确的歌词中每个字的目标开始时间，再根据人声主旋律各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，实现了直接通过人声主旋律音高与歌词进行对齐，对齐效果更加准确。
附图说明
82.图1为本技术实施例提供的旋律与歌词对齐方法的一个应用场景示意图；
83.图2为本技术实施例提供的旋律与歌词对齐方法的流程图；
84.图3为本技术实施例提供的旋律提取多任务模型的结构图；
85.图4为本技术实施例提供的根据在各设定时间点的各个音高概率获得主旋律音高序列的流程图；
86.图5为本技术实施例提供的根据各设定时间点为歌词中的字的开始时间的概率确定歌词中每个字的开始时间的流程图；
87.图6为本技术实施例提供的确定歌词中每个字的目标开始时间的流程图；
88.图7为本技术实施例提供的对完成旋律与歌词对齐后的歌曲音频进行节拍量化的流程图；
89.图8为本技术实施例提供的旋律与歌词对齐装置的结构示意图；
90.图9为本技术实施例提供的电子设备的结构示意图。
具体实施方式
91.下面将参考若干示例性实施方式来描述本技术的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本技术，而并非以任何方式限制本技术的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
92.本领域技术人员知道，本技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
93.在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
94.下面参考本技术的若干代表性实施方式，详细阐释本技术的原理和精神。为了方便理解，对本技术实施例中涉及的技术术语进行解释：
95.1、主旋律：指歌曲音频中的一组有序的音高序列，由音高和每个音高所持续的时间长度组成。一首歌曲音频中的主旋律包括乐器主旋律(即前奏、间奏和尾奏部分)和人声主旋律(即人声演唱部分的人声和伴奏)。
96.2、音高的开始时间(onset)：主旋律中每个音符的开始时间。
97.3、歌词文件(yrc)：歌词数据的一种格式，记录歌词中每个字的开始时间以及持续时长，可精确到毫秒。
98.4、参考歌词文件(yrc)：网络上发布的人工制作的歌词文件，称为参考歌词文件。参考歌词文件的时间戳可反应歌词中每个字的时间信息，参考歌词文件中可包含无法对应到歌词和音高的冗余信息，如歌名、歌手、歌曲分段等信息。
99.5、歌词开始时间(onset)：歌词文件中歌词中每个字的开始时间。
100.6、旋律与歌词对齐：将歌词中每个字的时间信息以及音高信息进行匹配，得到歌词中每个字对应的开始时间、结束时间以及对应的音高。
101.7、节拍：音乐中表示固定单位时值和强弱规律的组织形式。例如，一般流行歌曲多为四四拍，一个小节包含四拍，每拍时值为四分之一音符。
102.8、节拍量化：歌曲音频中的歌词和旋律一般都在固定的节拍点上进行切换，节拍量化指将歌词和旋律的时间信息匹配到歌曲的节拍点上。
103.发明概述
104.一首歌曲音频的主旋律是指歌曲音频中的一组有序的音高序列，由音高和每个音高所持续的时间长度组成。一首歌曲音频中的主旋律包括乐器主旋律和人声主旋律。旋律与歌词对齐是将歌词中每个字的时间信息与音高信息进行匹配，得到歌词中每个字对应的开始时间、结束时间以及对应的音高。相关技术中，旋律与歌词对齐的方式为：利用旋律提取模型将歌曲音频中的人声和旋律进行分离，提取出主旋律，实现主旋律与歌词文本的时间对齐，然而，旋律提取模型无法精准判断提取出的主旋律是乐器主旋律还是人声主旋律，从而，根据提取出的主旋律与歌词进行对齐的准确度较低。
105.基于此，本技术实施例提供了一种旋律与歌词对齐方法、装置、电子设备及存储介质，将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，旋律提取多任务模型是对样本歌曲音频集合
中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的，根据主旋律音高序列和主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列，根据人声主旋律音高序列中各音高的开始时间、歌词中每个字的开始时间与参考歌词文件，确定歌词中每个字的目标开始时间，根据人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果，本技术实施例中，通过旋律提取多任务模型可以更准确地识别主旋律音高、主旋律音高中各音高为人声的概率以及歌词中每个字的开始时间，从而，根据主旋律音高、主旋律音高中各音高为人声的概率可以更准确地确定出人声主旋律音高，并根据识别出的人声主旋律各音高的开始时间、歌词中每个字的开始时间与参考歌词文件修正歌词中每个字的开始时间，得到更加精确的歌词中每个字的目标开始时间，再根据人声主旋律各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，实现了直接通过人声主旋律音高与歌词进行对齐，对齐效果更加准确。
106.在介绍了本技术的基本原理之后，下面具体介绍本技术的各种非限制性实施方式。
107.应用场景总览
108.参考图1，其为本技术实施例提供的旋律与歌词对齐方法的一个应用场景示意图。该应用场景可以包括服务器101和终端102，服务器101和终端102之间通过通信网络连接，服务器101可以为终端102发送的歌曲音频进行旋律与歌词对齐，并将对齐后的歌曲音频返回至终端102。服务器101将终端102发送的歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的，根据主旋律音高序列和主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列，根据人声主旋律音高序列中各音高的开始时间、歌词中每个字的开始时间与参考歌词文件，确定歌词中每个字的目标开始时间，根据人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。
109.其中，通信网络可为局域网、广域网、移动互联网等，服务器101可以包括独立的物理服务器，也可以包括提供云服务器、云数据库、云存储等基础云计算服务的云服务器，终端102可以但不限于为：智能手机、平板电脑、笔记本电脑、台式计算机等设备，本技术实施例对此不作限定。
110.本技术实施例提供的旋律与歌词对齐方法的应用场景也可以仅包括服务器101，服务器101针对获取的歌曲音频进行旋律与歌词对齐，本技术实施例对此不作限定。
111.示例性方法
112.下面结合上述应用场景，来描述根据本技术示例性实施方式的旋律与歌词对齐方法。需要注意的是，上述应用场景仅是为了便于理解本技术的精神和原理而示出，本技术的实施方式在此方面不受任何限制。相反，本技术的实施方式可以应用于适用的任何场景。
113.参考图2，本技术实施例提供了一种旋律与歌词对齐方法，可应用于图1所示的服务器101，具体可包括以下步骤：
114.s21、将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、主旋律音高序
列中各音高为人声的概率以及歌词中每个字的开始时间。
115.具体实施时，服务器将歌曲音频输入旋律提取多任务模型，获得在各设定时间点的各个音高概率、在各设定时间点的音高为人声的概率以及在各设定时间点为歌词中的字的开始时间的概率，进而，根据在各设定时间点的各个音高概率获得主旋律音高序列，根据各设定时间点为歌词中的字的开始时间的概率确定歌词中每个字的开始时间。其中，旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的。
116.作为一种可能的实施方式，本技术实施例中的旋律提取多任务模型的结构图如图3所示，旋律提取多任务模型可包括：输入层、共享网络层、第一任务网络层、第二任务网络层和第三任务网络层，共享网络层与第一任务网络层、第二任务网络层分别相连接。
117.作为一种可能的实施方式，第一任务网络层可包括第一全连接层和第一分类器，第二任务网络层可包括第二全连接层和第二分类器，第三任务网络层可包括第三全连接层和第三分类器，输入层后连接共享网络层，共享网络层后分别连接第一任务网络层的第一全连接层、第二任务网络层的第二全连接层和第三任务网络层的第三全连接层，第一全连接层后连接第一分类器，第一分类器后连接第一输出层，第二全连接层后连接第二分类器，第二分类器后连接第二输出层，第三全连接层后连接第三分类器，第三分类器后连接第三输出层。在这种实施方式中，共享网络层可以但不限于采用cnn(convolutional neural network，卷积神经网络)模型+lstm(long short term memory network，长短时记忆网络)模型，其中，输入层输入的是音频的cqt频谱，先通过cnn模型提取频谱特征，再通过lstm模型提取时序特征。第一全连接层、第二全连接层和第三全连接层均可为初始时参数相同的全连接层，第一分类器、第二分类器和第三分类器可以均采用softmax分类器。
118.作为一种可能的实施方式，第一任务、第二任务和第三任务的全连接层也可以共享，在这种实施方式中，共享网络层可但不限于包括以下结构：cnn模型+lstm模型+全连接层，第一任务网络层可包括第一分类器，第二任务网络层可包括第二分类器，第三任务网络层可包括第三分类器，输入层后连接共享网络层，共享网络层后分别连接第一任务网络层的第一分类器、第二任务网络层的第二分类器和第三任务网络层的第三分类器，第一分类器后连接第一输出层，第二分类器后连接第二输出层，第三分类器后连接第三输出层。第一分类器、第二分类器和第三分类器可以均采用softmax分类器。
119.上述旋律提取多任务模型是基于样本歌曲音频集合根据预设多任务神经网络模型训练获得的，也就是说：训练的多任务深度神经网络模型的结构与旋律提取多任务模型的结构相同。在训练过程中，可采用大量的歌曲音频组成样本歌曲音频集合，将样本对象文本集合中的每一样本歌曲音频作为多任务神经网络模型的输入，按照设定时间间隔分别通过第一任务网络、第二任务网络、第三任务网络预测在各设定时间点的各个音高概率、在各设定时间点的音高为人声的概率以及在各设定时间点为歌词中的字的开始时间的概率，其中，设定时间间隔可根据需要自行设定，本技术实施例对此不作限制，例如，设定时间间隔可设置为64ms，则每间隔64ms为一个设定时间点，对样本歌曲音频的主旋律音高及每一音高的开始时间进行标注、对人声主旋律音高进行标注，以及对样本歌词(即样本歌曲音频的歌词)中每个字的开始时间进行标注，根据各任务网络的预测值与标注值对多任务神经网络模型进行训练。在对多任务神经网络模型训练过程中，第一任务、第二任务和第三任务可
分别但不限于采用交叉熵作为损失函数，多任务神经网络模型的损失函数可以采用第一任务的损失函数、第二任务的损失函数和第三任务的损失函数的加权求和，在训练过程中不断调整多任务神经网络模型的各参数，直至模型收敛，获得旋律提取多任务模型。
120.多任务学习深度神经网络模型的损失函数具体公式表示如下：
121.loss＝w1*loss
task1
+w2*loss
task2
+w3*loss
task3
122.其中，loss表示多任务神经网络模型的损失函数；
123.loss
task1
表示第一任务的损失函数，w1表示loss
task1
的权重；
124.loss
task2
表示第二任务的损失函数，w2表示loss
task2
的权重；
125.loss
task3
表示第二任务的损失函数，w3表示loss
task3
的权重。
126.其中，w1、w2和w3的取值可根据第一任务、第二任务和第三任务的重要程度自行设置，w1+w2+w3＝1。
127.具体地，将歌曲音频输入旋律提取多任务模型的输入层，则第一输出层输出在各设定时间点的各个音高概率，第二输出层输出在各设定时间点的音高为人声的概率，第三输出层输出在各设定时间点为歌词中的字的开始时间的概率。
128.在实施过程中，按照如图4所示的流程根据在各设定时间点的各个音高概率获得主旋律音高序列，可以包括以下步骤：
129.s31、针对每一当前设定时间点，分别计算各个音高与上一设定时间点的目标音高之间的音程。
130.具体实施时，在每一设定时间点包含所有音高的概率，初始时，可以将音高概率最高的音高确定为第一个设定时间点的目标音高，从第二个设定时间点开始，分别根据当前设定时间点各个音高与上一设定时间点的目标音高确定当前设定时间点的目标音高。
131.具体地，针对每一当前设定时间点，分别计算当前设定时间点的各个音高与上一设定时间点的目标音高之间的音程，其中，两个音高之间的音程即为两个音高之间的距离，即两个音高之间的差值的绝对值。
132.s32、根据预设的音程与权重的对应关系，确定计算出的各音程对应的权重。
133.具体实施时，预先设置音程对应的权重，根据预设的音程与权重的对应关系，确定计算出的各音程对应的权重。
134.s33、将当前设定时间点的各个音高概率分别乘以相应的各音程对应的权重，得到当前设定时间点的各个候选音高概率。
135.具体实施时，分别将当前设定时间点的各个音高概率乘以相应的各音程对应的权重，得到当前设定时间点的各个候选音高概率。
136.s34、将最大候选音高概率对应的音高确定为当前设定时间点的目标音高。
137.例如，当前设定时间点的音高a概率乘以音高a与上一设定时间点的目标音高b的音程|a-b|对应的权重a得到的候选音高概率最大，则将音高a确定为当前设定时间点的目标音高。
138.s35、将各设定时间点的目标音高确定为相应的主旋律音高，获得主旋律音高序列。
139.具体实施时，将各设定时间点的目标音高确定为各个设定时间点对应的主旋律音高，获得主旋律音高序列。
140.作为一种可能的实施方式，在根据各设定时间点为歌词中的字的开始时间的概率确定歌词中每个字的开始时间时，可以按照如图5所示的流程确定歌词中每个字的开始时间，包括以下步骤：
141.s41、根据各设定时间点为歌词中的字的开始时间的概率获得对应的概率曲线。
142.s42、将概率曲线中的各个峰值对应的设定时间点确定为歌词中的字的开始时间。
143.这样，得到的峰值概率曲线对应的各个设定时间点即对应歌词中每个字的开始时间。
144.s22、根据主旋律音高序列和主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列。
145.具体实施时，根据主旋律音高序列和在各设定时间点的音高为人声的概率获得人声主旋律音高序列。
146.具体地，将音高为人声的概率大于第一预设阈值的设定时间点的主旋律音高确定为人声主旋律音高，根据人声主旋律音高获得人声旋律音高序列，即：将各人声主旋律音高按时间顺序组成人声主旋律音高序列。其中，第一预设阈值可根据需求自行进行设置，例如可以设置第一预设阈值为大于等于0.6小于等于1之间的任意值，本技术实施例对此不作限制。
147.s23、根据人声主旋律音高序列中各音高的开始时间、歌词中每个字的开始时间与参考歌词文件，确定歌词中每个字的目标开始时间。
148.考虑到根据旋律提取多任务模型预测得到的歌词中每个字的开始时间可以覆盖所有真正的歌词切换点，但也可能包含误判的情况，可以先建立一个歌词时间侯选池存储歌词中每个字的候选开始时间，再将歌词中每个字的候选开始时间与参考歌词文件进行精准匹配，确定歌词中每个字的目标开始时间，从而，提高歌词中每个字的开始时间的精准度。
149.作为一种可能的实施方式，可以按照如图6所示的流程确定歌词中每个字的目标开始时间，包括以下步骤：
150.s51、将人声主旋律音高序列中各音高的开始时间与歌词中每个字的开始时间进行匹配，确定歌词中每个字的候选开始时间。
151.具体实施时，在人声主旋律音高序列中，若一个设定时间点的音高与其上一个设定时间点的音高不同，则该设定时间点为该音高的开始时间，若相邻的至少两个设定时间点的音高相同，则将该音高对应的第一个设定时间点确定为该音高的开始时间。将人声主旋律音高序列中各音高的开始时间与歌词中每个字的开始时间，按照第一预设时间误差范围进行匹配，根据匹配结果确定歌词中每个字的候选开始时间。其中，第一预设时间误差范围可以自行进行设置，例如可以设置为100毫秒，本技术实施例对此不作限制。匹配结果至少可包含以下三种情况：
152.情况一、若在第一预设时间误差范围内，任一音高的开始时间匹配到歌词中的任一字的开始时间，则确定所述任一音高的开始时间为音高切换点与歌词切换点，将所述音高的开始时间确定为匹配到的所述任一字的候选开始时间。
153.具体实施时，若在第一预设时间误差范围内(如100毫秒内)，人声主旋律音高序列中当前的任一音高的开始时间匹配到了歌词中的任一字的开始时间，那么当前的该任一音
高的开始时间则是一个音高切换点，也是一个歌词切换点，将该任一音高的开始时间确定为匹配到的该任一字的候选开始时间，将其加入歌词时间候选池进行存储。
154.情况二、若在第一预设时间误差范围内，任一音高的开始时间未匹配到歌词中的任一字的开始时间，则确定所述任一音高的开始时间为一字多音下的音高切换点。
155.具体实施时，若在第一预设时间误差范围内，人声主旋律音高序列中当前的任一音高的开始时间未匹配到歌词中的任一字的开始时间，则当前的该任一音高的开始时间为一字多音情况下的音高切换点，但字没有切换，其也就不作为歌词中字的候选开始时间，则不将该任一音高的开始时间加入歌词时间侯选池。
156.情况三、若在第一预设时间误差范围内，歌词中的任一字的开始时间未匹配到任一音高的开始时间，则确定所述任一字的开始时间为一音多字下的歌词切换点，将所述任一字的开始时间确定为所述任一字的候选开始时间。
157.具体实施时，若在第一预设时间误差范围内，若歌词中的任一字的开始时间没有匹配到人声主旋律音高序列中的任一音高的开始时间，则确定该任一字的开始时间为一音多字下的歌词切换点，但是音高没有切换，则将该任一字的开始时间作为该任一字的候选开始时间，将其加入歌词时间候选池进行存储。
158.根据上述第二种情况和第三种情况，针对一音多字和一字多音情况下的候选开始时间进行的处理，使得歌词时间侯选池中存储的歌词中字的候选开始时间更加精确。通过上述三种情况处理后的歌词时间候选池中包含了所有可能为真正歌词切换点且可对应到人声主旋律音高序列中的音高开始时间的歌词中字的开始时间。
159.s52、将歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间。
160.具体实施时，在第二预设时间误差范围内，根据参考歌词文件中每一个字的开始时间匹配歌词中各个字的候选开始时间中的最接近的候选开始时间，将匹配到的各个最接近的候选开始时间分别确定为歌词中每个字的目标开始时间。
161.具体地，第二预设时间误差范围可根据需求自行设定，例如可以设置为1s内，本技术实施例对此不作限定。将在第二预设时间误差范围内，与参考歌词文件中各个字的开始时间能够匹配上的各个最接近的候选开始时间分别确定为歌词中每个字的目标开始时间。这是由于根据旋律提取多任务模型预测歌词中每个字的开始时间时，为保证真正的歌词中每个字的开始时间被包含在预测结果内，也会出现误判的时间点如误判到的乐器鼓点的开始时间等，歌词侯选池中存储的歌词中字的候选开始时间包含了这些由旋律提取多任务模型误判的多余的乐器鼓点的开始时间，通过与参考歌词文件中每个字的开始时间进行匹配，保留与参考歌词中每个字的开始时间最接近的字的候选开始时间，作为最终的歌词中每个字的开始时间，即：歌词中每个字的目标开始时间，进一步提高了预测的歌词中每个字的开始时间的准确性。
162.s24、根据人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。
163.具体实施时，以各个设定时间点为基准，可将人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行一一对应，这样，一音多字则对当前音符进行切割，一字多音则多个连续音符对应一个字。
164.作为一种可能的实施方式，在对歌曲音频完成旋律与歌词对齐之后，还可以对该对齐后的歌曲音频进行节拍量化。
165.具体实施时，可以按照如图7所示的流程对完成旋律与歌词对齐后的歌曲音频进行节拍量化，包括以下步骤：
166.s61、根据预设节拍检测算法识别歌曲音频中的每个节拍点对应的时间点。
167.具体实施时，可以但不限于采用开源madmom节拍检测算法识别歌曲音频中的每个节拍点对应的时间点。
168.s62、将人声主旋律音高序列中各音高的开始时间和歌词中每个字的目标开始时间匹配到每个节拍点对应的时间点上。
169.本技术实施例提供的旋律与歌词对齐方法，服务器将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的，根据主旋律音高序列和主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列，根据人声主旋律音高序列中各音高的开始时间、歌词中每个字的开始时间与参考歌词文件，确定歌词中每个字的目标开始时间，根据人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果，本技术实施例中，通过旋律提取多任务模型可以更准确地识别主旋律音高、主旋律音高中各音高为人声的概率以及歌词中每个字的开始时间，从而，根据主旋律音高、主旋律音高中各音高为人声的概率可以更准确地确定出人声主旋律音高，并根据识别出的人声主旋律各音高的开始时间、歌词中每个字的开始时间与参考歌词文件修正歌词中每个字的开始时间，得到更加精确的歌词中每个字的目标开始时间，再根据人声主旋律各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，实现了直接通过人声主旋律音高与歌词进行对齐，对齐效果更加准确。
170.示例性设备
171.在介绍了本技术示例性实施方式的旋律与歌词对齐方法之后，接下来，对本技术示例性实施方式的旋律与歌词对齐装置进行介绍。
172.如图8所示，为本技术实施例提供的旋律与歌词对齐装置70的结构示意图。在一个实施例中，旋律与歌词对齐装置70包括：
173.旋律提取单元701，用于将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、所述主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，所述旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的；
174.获得单元702，用于根据所述主旋律音高序列和所述主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列；
175.确定单元703，用于根据所述人声主旋律音高序列中各音高的开始时间、所述歌词中每个字的开始时间与参考歌词文件，确定所述歌词中每个字的目标开始时间；
176.处理单元704，用于根据所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。
177.在一种可能的实施方式中，所述旋律提取单元701，具体用于：
178.将歌曲音频输入旋律提取多任务模型，获得在各设定时间点的各个音高概率、在所述各设定时间点的音高为人声的概率以及在所述各设定时间点为歌词中的字的开始时间的概率；
179.根据所述在各设定时间点的各个音高概率获得主旋律音高序列；
180.根据所述各设定时间点为歌词中的字的开始时间的概率确定所述歌词中每个字的开始时间；以及
181.所述获得单元，具体用于根据所述主旋律音高序列和在所述各设定时间点的音高为人声的概率获得人声主旋律音高序列。
182.在一种可能的实施方式中，所述旋律提取单元701，具体用于：
183.针对每一当前设定时间点，分别计算各个音高与上一设定时间点的目标音高之间的音程；
184.根据预设的音程与权重的对应关系，确定计算出的各音程对应的权重；
185.将所述当前设定时间点的各个音高概率分别乘以相应的所述各音程对应的权重，得到所述当前设定时间点的各个候选音高概率；
186.将最大候选音高概率对应的音高确定为所述当前设定时间点的目标音高；
187.将所述各设定时间点的目标音高确定为相应的主旋律音高，获得所述主旋律音高序列。
188.在一种可能的实施方式中，所述获得单元702，具体用于：
189.将为人声的概率大于第一预设阈值的设定时间点的主旋律音高确定为人声主旋律音高；
190.根据所述人声主旋律音高获得所述人声旋律音高序列。
191.在一种可能的实施方式中，所述旋律提取单元701，具体用于：
192.根据所述各设定时间点为歌词中的字的开始时间的概率获得对应的概率曲线；
193.将所述概率曲线中的各个峰值对应的设定时间点确定为所述歌词中的字的开始时间。
194.在一种可能的实施方式中，所述确定单元703，具体用于：
195.将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间进行匹配，确定所述歌词中每个字的候选开始时间；
196.将所述歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间。
197.在一种可能的实施方式中，所述确定单元703，具体用于：
198.将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间，按照第一预设时间误差范围进行匹配；
199.若在所述第一预设时间误差范围内，任一音高的开始时间匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为音高切换点与歌词切换点，将所述音高的开始时间确定为匹配到的所述任一字的候选开始时间；
200.若在所述第一预设时间误差范围内，任一音高的开始时间未匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为一字多音下的音高切换点；
201.若在所述第一预设时间误差范围内，所述歌词中的任一字的开始时间未匹配到任一音高的开始时间，则确定所述任一字的开始时间为一音多字下的歌词切换点，将所述任一字的开始时间确定为所述任一字的候选开始时间。
202.在一种可能的实施方式中，所述确定单元703，具体用于：
203.在第二预设时间误差范围内，根据所述参考歌词文件中每一个字的开始时间匹配所述歌词中各个字的候选开始时间中的最接近的候选开始时间；
204.将匹配到的各个最接近的候选开始时间分别确定为所述歌词中每个字的目标开始时间。
205.在一种可能的实施方式中，所述装置，还包括：
206.识别单元，用于根据预设节拍检测算法识别所述歌曲音频中的每个节拍点对应的时间点；
207.节拍量化单元，用于将人声主旋律音高序列中各音高的开始时间和所述歌词中每个字的目标开始时间匹配到所述每个节拍点对应的时间点上。
208.基于与上述旋律与歌词对齐方法相同的发明构思，本技术实施例还提供了一种电子设备80。如图9所示，该电子设备80可以包括处理器801和存储器802。
209.处理器801可以是通用处理器，例如中央处理器(cpu)、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各旋律与歌词对齐方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的旋律与歌词对齐方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
210.存储器802作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
211.应当注意，尽管在上文详细描述中提及了旋律与歌词对齐装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
212.此外，尽管在附图中以特定顺序描述了本技术旋律与歌词对齐方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执
行，和/或将一个步骤分解为多个步骤执行。
213.虽然已经参考若干具体实施方式描述了本技术的精神和原理，但是应该理解，本技术并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本技术旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

技术特征：

1.一种旋律与歌词对齐方法，其特征在于，包括：将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、所述主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，所述旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频的主旋律音高、人声主旋律音高以及样本歌词中字的开始时间按照预设多任务神经网络模型进行训练获得的；根据所述主旋律音高序列和所述主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列；根据所述人声主旋律音高序列中各音高的开始时间、所述歌词中每个字的开始时间与参考歌词文件，确定所述歌词中每个字的目标开始时间；根据所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。2.如权利要求1所述的方法，其特征在于，将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、所述主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，具体包括：将歌曲音频输入旋律提取多任务模型，获得在各设定时间点的各个音高概率、在所述各设定时间点的音高为人声的概率以及在所述各设定时间点为歌词中的字的开始时间的概率；根据所述在各设定时间点的各个音高概率获得主旋律音高序列；根据所述各设定时间点为歌词中的字的开始时间的概率确定所述歌词中每个字的开始时间；以及根据所述主旋律音高序列和所述主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列，具体包括：根据所述主旋律音高序列和在所述各设定时间点的音高为人声的概率获得人声主旋律音高序列。3.如权利要求2所述的方法，其特征在于，根据所述在各设定时间点的各个音高概率获得主旋律音高序列，具体包括：针对每一当前设定时间点，分别计算各个音高与上一设定时间点的目标音高之间的音程；根据预设的音程与权重的对应关系，确定计算出的各音程对应的权重；将所述当前设定时间点的各个音高概率分别乘以相应的所述各音程对应的权重，得到所述当前设定时间点的各个候选音高概率；将最大候选音高概率对应的音高确定为所述当前设定时间点的目标音高；将所述各设定时间点的目标音高确定为相应的主旋律音高，获得所述主旋律音高序列。4.如权利要求2所述的方法，其特征在于，根据所述主旋律音高序列和在所述各设定时间点的音高为人声的概率获得人声主旋律音高序列，具体包括：将为人声的概率大于第一预设阈值的设定时间点的主旋律音高确定为人声主旋律音高；根据所述人声主旋律音高获得所述人声旋律音高序列。
5.如权利要求2所述的方法，其特征在于，根据所述各设定时间点为歌词中的字的开始时间的概率确定所述歌词中每个字的开始时间，具体包括：根据所述各设定时间点为歌词中的字的开始时间的概率获得对应的概率曲线；将所述概率曲线中的各个峰值对应的设定时间点确定为所述歌词中的字的开始时间。6.如权利要求1所述的方法，其特征在于，根据所述人声主旋律音高序列中各音高的开始时间、所述歌词中每个字的开始时间与参考歌词文件，确定所述歌词中每个字的目标开始时间，具体包括：将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间进行匹配，确定所述歌词中每个字的候选开始时间；将所述歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间。7.如权利要求6所述的方法，其特征在于，将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间进行匹配，确定所述歌词中每个字的候选开始时间，具体包括：将所述人声主旋律音高序列中各音高的开始时间与所述歌词中每个字的开始时间，按照第一预设时间误差范围进行匹配；若在所述第一预设时间误差范围内，任一音高的开始时间匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为音高切换点与歌词切换点，将所述音高的开始时间确定为匹配到的所述任一字的候选开始时间；若在所述第一预设时间误差范围内，任一音高的开始时间未匹配到所述歌词中的任一字的开始时间，则确定所述任一音高的开始时间为一字多音下的音高切换点；若在所述第一预设时间误差范围内，所述歌词中的任一字的开始时间未匹配到任一音高的开始时间，则确定所述任一字的开始时间为一音多字下的歌词切换点，将所述任一字的开始时间确定为所述任一字的候选开始时间。8.根据权利要求6或7所述的方法，其特征在于，将所述歌词中每个字的候选开始时间与参考歌词文件进行匹配，获得歌词中每个字的目标开始时间，具体包括：在第二预设时间误差范围内，根据所述参考歌词文件中每一个字的开始时间匹配所述歌词中各个字的候选开始时间中的最接近的候选开始时间；将匹配到的各个最接近的候选开始时间分别确定为所述歌词中每个字的目标开始时间。9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述旋律与歌词对齐方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至8任一项所述旋律与歌词对齐方法的步骤。

技术总结

本申请实施例提供了一种旋律与歌词对齐方法、装置、电子设备及存储介质，旋律与歌词对齐方法包括：将歌曲音频输入旋律提取多任务模型，获得主旋律音高序列、主旋律音高序列中各音高为人声的概率以及歌词中每个字的开始时间，旋律提取多任务模型是对样本歌曲音频集合中的每一样本歌曲音频按照预设多任务神经网络模型进行训练获得的；根据主旋律音高序列和主旋律音高序列中各音高为人声的概率获得人声主旋律音高序列；根据人声主旋律音高序列中各音高的开始时间、歌词中每个字的开始时间与参考歌词文件，确定歌词中每个字的目标开始时间；根据人声主旋律音高序列中各音高的开始时间与歌词中每个字的目标开始时间进行旋律与歌词对齐，获得对齐结果。获得对齐结果。获得对齐结果。