一种歌曲剪辑方法、装置及设备与流程

1.本技术涉及多媒体技术领域，尤其涉及一种歌曲剪辑方法、装置及设备。

背景技术：

2.随着多媒体产业的发展，特别是短视频的兴起，碎片化的消费时代致使广大用户对音乐内容需求也发生了变化。从而音乐铃声、歌曲试听、副歌片段(或者称为高潮片段)配乐等需求应用而生，促使了歌曲剪辑技术的发展。主副歌大段落是最重要最常用的音乐形式之一，每个主副歌大段落中又可以划分出具有语义相似结构重复的ab角小段落。目前通常采用人工剪辑或传统的自动剪辑的方法来生成歌曲的精彩集锦。然而，由于不同的人对歌曲结构的理解存在偏差，导致剪辑口径不统一，并且人工剪辑效率很低。传统的自动剪辑方法虽然能够提升效率，但是无法确保歌曲片段的语义结构完整。

技术实现要素：

3.针对上述技术问题，本技术提供一种歌曲剪辑方法、装置及设备，不仅能保留剪辑后的歌曲片段的语义结构完整和连贯性，还可以提升剪辑效率，降低开销。
4.第一方面，本技术实施例提供了一种歌曲剪辑方法。该方法可以由计算机设备(例如终端或服务器)所执行，具体方法包括：
5.对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息；
6.根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息；
7.根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体；
8.根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，该第二结构体包括预设待剪辑歌曲的部分或全部内容，该第三结构体包括时间节点修正后的预设待剪辑歌曲的部分或全部内容。
9.可见，通过该方法可以利用歌曲结构化分段的语义信息，自动将待剪辑的音乐片段进行对齐校准和时间修正。不仅能保留剪辑后的歌曲片段的语义结构完整和连贯性，还可以提升剪辑效率，降低开销。
10.其中，计算机设备获取待剪辑歌曲的第一音频信息(例如为待剪辑歌曲的副歌的音频特征信息)，可以基于副歌具有为歌曲曲调提供变化性，具有较强的记忆性的特点，更准确地对待剪辑歌曲片段进行剪辑。
11.在一种可能的实施方式中，计算机设备将待剪辑歌曲的音频特征信息输入到神经网络中，获得待剪辑歌曲的第一音频信息概率集合，该音频特征信息包括待剪辑歌曲的cqt局部特征和midi人声旋律特征；
12.根据第一音频信息概率集合，确定待剪辑歌曲的第一音频信息，第一音频信息包括待剪辑歌曲的副歌音频信息。
13.可见，由于cqt局部特征符合人耳的感知频率，midi人声旋律特征能够更精准的命
中第一音频信息边界的人声时间点，因此通过将待剪辑歌曲的cqt局部特征和人声旋律特征输入到神经网络中，从而确定第一音频信息，可以提高所获得的第一音频信息的准确率。
14.在一种可能的实施方式中，计算机设备基于待剪辑歌曲的指定歌词文件，计算待剪辑歌曲中任意两句歌词之间的编辑距离；
15.根据编辑距离，获得待剪辑歌曲的第一文本信息，第一文本信息包括待剪辑歌曲的文本相似性矩阵。
16.可见，该方法采用指定歌词文件(本技术提供的一种专用歌词文件，例如可以称为qrc歌词文件)来获取第一文本信息，从而可以基于qrc歌词文件的时间戳特性，更准确地得到各个时间节点分别对应的歌词文本，有利于提高剪辑的准确性。
17.在一种可能的实施方式中，计算机设备根据待剪辑歌曲的第一文本信息，对待剪辑歌曲进行段落划分，获得第一时间信息，该第一时间信息包括不同段落分别对应的时间节点；
18.对第一时间信息和待剪辑歌曲的第一音频信息对应的时间节点进行模糊匹配，确定第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息，第二音频信息包括待剪辑歌曲的主歌音频信息；
19.根据待剪辑歌曲中歌词文本单词重叠度和歌词组成结构相似度，对第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息进行结构化分段，确定第一结构体，该第一结构体为待剪辑歌曲的结构化分段结果。
20.可见，计算机设备通过对待剪辑歌曲的第一音频对应的时间节点和待剪辑歌曲中不同段落分别对应的时间节点进行模糊匹配，可对不同的段落结构赋予语义信息，从而划分出待剪辑歌曲的主歌信息和副歌信息。根据待剪辑歌曲中每句歌词文本单词重叠度和每句歌词组成结构相似度，可将主歌信息和副歌信息划分成结构对称的小段落，从而可以得到整首歌曲的语义结构信息。
21.在一种可能的实施方式中，计算机设备获取第二结构体的预设起始时间点和预设时长；
22.根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点；
23.根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体。
24.本技术实施例中，计算机设备根据第一结构体，对校准后的第二结构体的起始时间点和结束时间点进行时间点修正处理，可提高第二结构体的结构衔接度和听感的连贯性，从而提升用户的听歌体验。
25.在一种可能的实施方式中，计算机设备根据指定歌词文件，更新第一文本信息，更新后的第一文本信息包括第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息；
26.根据更新后的第一文本信息及更新后的第一文本信息对应的时间信息，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。
27.本技术实施例中，计算机设备通过qrc歌词文件对第二结构体的预设起始时间点
和结束时间点进行校准处理，可获得第二结构体起始时间点和结束时间点的精确时间，从而提高剪辑的准确性。
28.在一种可能的实施方式中，计算机设备从所述第一结构体中，获取与校准时间节点后的第二结构体的起始时间点对应的第一时间差值；
29.从所述第一结构体中，获取与校准时间节点后的第二结构体的结束时间点对应的第二时间差值；
30.根据所述校准时间节点后的第二结构体起始时间点和所述第一时间差值，对所述校准时间节点后的第二结构体的起始时间点进行时间节点修正处理；
31.根据所述校准时间节点后的第二结构体的结束时间点和所述第二时间差值，对所述校准时间节点后的第二结构体的结束时间点进行时间节点修正处理；
32.所述第三结构体包括时间节点修正处理后的第二结构体的起始时间点和结束时间点。
33.本技术实施例中，由于第一结构体包括整首歌曲的语义结构信息，因此计算机设备根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，可提升获得的第三结构体的语义结构完整性及听感的连贯性。
34.在一种可能的实施方式中，计算机设备根据校准时间节点后的第二结构体起始时间点和结束时间点，确定对应的时长；
35.根据时长，将第一结构体中不同的段落进行首尾相接，得到第三结构体。
36.本技术实施例中，计算机设备可根据剪辑时长，将第一结构体中的不同段落进行首尾相连，可在自由拼接段落的同时，提升歌曲的衔接度和连贯性。
37.第二方面，本技术实施例提供了一种歌曲剪辑装置，该装置包括：
38.预处理模块，用于对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息；
39.确定模块，用于根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息；
40.确定模块，还用于根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体；
41.处理模块，用于根据待剪辑歌曲的qrc歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，第二结构体包括预设待剪辑歌曲的部分或全部内容，第三结构体包括时间节点修正后的预设待剪辑歌曲的部分或全部内容。
42.第三方面，本技术实施例还提供了一种计算机设备，包括：存储器、处理器，其中，存储器上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法。
43.第四方面，本技术还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法。
44.第五方面，本技术实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令，处理器执行计算机指令，使得计算机设备执行本技术实施例提供的方法。
附图说明
45.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
46.图1是本技术实施例提供的一种歌曲剪辑方法的流程示意图；
47.图2是本技术实施例提供的一种cqt局部特征的示意图；
48.图3是本技术实施例提供的一种midi人声旋律特征的示意图；
49.图4为本技术实施例提供的一种短时高潮概率曲线图；
50.图5是本技术实施例提供的一种对短时高潮概率曲线进行滤波处理的示意图；
51.图6是本技术实施例提供的另一种歌曲剪辑方法的流程示意图；
52.图7是本技术实施例示出的一种歌词文本相似性矩阵的示意图；
53.图8是本技术实施例提供的一种第一结构体的示意图；
54.图9是本技术实施例提供的一种连续剪辑的示意图；
55.图10是本技术实施例提供的一种拼接剪辑的示意图；
56.图11是本技术实施例提供的一种歌曲剪辑方法的框架图；
57.图12是本技术实施例提供的一种歌曲剪辑装置的示意图；
58.图13是本技术实施例提供的一种计算机设备的示意图。
具体实施方式
59.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
60.为便于理解本技术公开的实施例，首先对本技术实施例涉及的一些概念进行阐述。这些概念的阐述包括但不限于以下内容。
61.1、qrc歌词文件
62.一种可扩展标记语言(extensible markup language，xml)格式的歌词文件，可以精确控制到歌词中每个字的时间点。
63.2、cqt局部特征
64.常量q变换(constant-q transform，cqt)局部特征是用一组恒q滤波器对时域音频信号进行滤波得到的非线性频域特征，该特征更加符合乐理。
65.3、midi人声旋律特征
66.数字化音乐格式(musical instrument digital interface，midi)人声旋律特征是一组描述人声音高、节奏、强弱的特征，代表了旋律的起伏高低。
67.4、主歌
68.主歌(verse)，是一首歌的主干，其作用是将旋律慢慢推上高潮的同时，将歌曲所表达的故事背景表述清楚，具有较强的叙述性。
69.5、副歌
70.副歌(refrain或chorus)也可称为高潮，是歌曲中多句或一段重复的歌词，通常出现在几段主歌之间。副歌在长度、旋律、节奏和情感上均与主歌形成反差，为歌曲曲调提供变化性，具有较强的记忆性。
71.6、编辑距离
72.编辑距离(edit distance)是针对二个字符串的差异程度的量化评估。其指的是两个字符串之间，由一个转成另一个所需的最少编辑操作次数。一般来说，编辑距离越小，两个字符串的相似度越大。
73.7、结构化分段
74.结构化分段包含了丰富的语义信息，是音乐的主要表现形式之一。从歌曲内容角度分析，通常将相似重复的歌词归为一组或一个段落，一般流行乐的结构可以划分成主副歌交替的段落形式。
75.目前，歌曲剪辑的方法主要是采用的是人工剪辑和自动剪辑。人工剪辑的方法中，由于不同的人对歌曲结构的理解存在偏差，导致剪辑口径不统一，并且人工剪辑效率很低。而现有的自动剪辑方法主要是根据时长或者简单的利用音频信号处理方法进行剪辑，该方法无法识别出歌曲的主副歌大段落，会导致剪辑出的歌曲片尾出现戛然而止的不完整感，不能确保剪辑后歌曲片段的语义结构完整性。
76.基于此，本技术实施例提供了一种歌曲剪辑方法、装置及设备。该方法利用歌曲结构化分段的语义信息，自动将待剪辑的音乐片段进行对齐校准和时间修正。不仅能保留剪辑后的歌曲片段的语义结构完整和连贯性，还可以提升剪辑效率，降低开销。
77.需要说明的是：在具体实现中，上述方案可由计算机设备执行，该计算机设备可以是终端或者服务器；其中，此处所提及的终端可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能电视、智能车载终端等；此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等，在此不做限定。
78.为了便于理解本技术实施例，下面均以计算机设备执行该歌曲剪辑方法为例，对该歌曲剪辑方法的具体实施方式进行详细阐述。
79.图1是本技术实施例提供的一种歌曲剪辑方法的流程示意图。如图1所示。该方法可以由计算机设备所执行，包括以下步骤s101-s102。
80.s101、对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息。
81.其中，待剪辑歌曲是指用户指定的一段歌曲(包括音频文件和歌词文件)。例如，待剪辑歌曲包括多个歌曲片段(例如主歌歌曲片段和副歌歌曲片段)，以及每个歌曲片段分别对应的歌词。可选的，歌词文件还包括非歌词信息(例如，歌词文本中的标题、歌手、制作、混音等信息)。
82.可选地，待剪辑歌曲的音频文件的文件格式包括但不限于mp3、mp4、波形音频文件格式(wave audio file format，wav)等。
83.在一种可选的实施方式中，计算机设备提取待剪辑歌曲的音频特征信息包括提取待剪辑歌曲的cqt局部特征和midi人声旋律特征。图2是本技术实施例提供的一种cqt局部
特征的示意图。如图2所示，cqt局部特征是一种非线性时频谱，是以log以2为底数(即log2)进行转换的。图2中，横坐标代表时间，纵坐标代表频率高低，当音高呈log2为底的对数跨度分布时，符合人耳的感知频率(频率越高敏感度越低)。图3是本技术实施例提供的一种midi人声旋律特征的示意图，图3中，横坐标代表时间，纵坐标代表人声的高低(或者称为音高)。该特征对人声有更强的表征能力，可以更精准的命中副歌片段边界的人声时间点。
84.s102、根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息。
85.其中，第一音频信息为待剪辑歌曲的副歌片段。例如，该待剪辑歌曲包括多个副歌片段，则第一音频信息可以包括多个副歌片段分别的音频信息。
86.在一种可选的实施方式中，计算机设备确定待剪辑歌曲的第一音频信息可以包括以下步骤：将待剪辑歌曲的音频特征信息输入到神经网络中，获得待剪辑歌曲的第一音频信息概率集合；根据第一音频信息概率集合，确定待剪辑歌曲的第一音频信息，该第一音频信息包括待剪辑歌曲的副歌音频信息。
87.具体来说，例如，概率集合包括{p1,p2,
…
,pn}，n表示第n个时间点，每一个概率表示该时间点为高潮部分的可能性。计算机设备可以根据第一音频信息概率集合，获得第一音频信息概率曲线。例如，图4为本技术实施例提供的一种高潮概率曲线图。该高潮概率曲线图即为上述第一音频信息概率曲线。其中，横坐标表示时间点的索引，纵坐标表示概率。
88.计算机设备可以根据第一音频信息概率曲线，确定待剪辑歌曲的第一音频信息。即计算机设备可以基于图4，确定待剪辑歌曲的高潮片段(即副歌片段)。如图4所示，图中的a点到b点之间概率最大，因此可初步认为a点到b点之间是待剪辑歌曲的高潮片段。同样的，基于概率值，也可认为c点到d点之间是待剪辑歌曲的高潮片段。
89.在确定待剪辑歌曲的第一音频信息的实施方式中，计算机设备还可以：将待剪辑歌曲的音频特征信息输入到神经网络中，获得待剪辑歌曲的第一音频信息概率曲线；根据第一音频信息概率曲线，确定待剪辑歌曲的第一音频信息，该第一音频信息包括待剪辑歌曲的副歌音频信息。例如，计算机设备可基于图4，确定待剪辑歌曲的确定待剪辑歌曲的高潮片段(即副歌片段)。
90.可以理解的是，该实施方式中无需基于概率集合，可以直接获得第一音频信息的概率曲线。
91.在根据第一音频信息概率曲线，确定待剪辑歌曲的第一音频信息的实施方式中，计算机设备可以通过对第一音频信息概率曲线进行滤波处理，获得第一音频滤波曲线；根据第一音频滤波曲线，确定待剪辑歌曲的第一音频信息。
92.在根据第一音频滤波曲线，确定待剪辑歌曲的第一音频信息的实施方式中，计算机设备可根据滤波曲线中的最大点以及最大点之后的极小点，确定待剪辑歌曲的第一音频信息的时间信息及置信度；该第一音频的时间信息包括起始时间点和结束时间点，第一音频信息的置信度包括起始置信度和结束置信度；根据第一音频信息的起始置信度和结束置信度，计算待剪辑歌曲中第一音频信息的平均置信度，并确定待剪辑歌曲的第一音频信息。其中，滤波曲线中最大点的横坐标和纵坐标分别为第一音频信息的起始时间点和起始置信度，最大点之后的极小点的横坐标和纵坐标分别为第一音频信息的结束时间点和结束置信度。
93.该实施方式中，计算机设备计算待剪辑歌曲中第一音频信息的平均置信度，并根
据平均置信度确定待剪辑歌曲的第一音频信息，可以确保第一音频信息的可靠性。
94.可选地，计算机设备可通过设置平均置信度的阈值[a,b]，来确定第一音频信息。例如，若第一音频信息的平均置信度为c，c∈[a,b]，则该平均置信度为c的第一音频信息可作为待剪辑歌曲的第一音频信息。又例如，若第一音频信息的平均置信度为d，则该平均置信度为d的第一音频信息不可作为待剪辑歌曲的第一音频信息。
[0095]
图5是本技术实施例提供的一种对短时高潮概率曲线进行滤波处理的示意图。如图5所示，计算机设备通过使用harr滤波器对短时高潮概率曲线v
p
进行滤波处理，可获得滤波曲线vf；根据滤波曲线vf可获得待剪辑歌曲的第一音频信息。首先，计算机设备可将待剪辑歌曲的cqt局部特征和midi人生旋律特征输入到神经网络中，每500ms作为一帧来预测一次短时高潮概率，得到待剪辑歌曲的短时高潮概率集合；根据短时高潮概率集合，获得高潮概率曲线v
p
。计算机设备利用使用宽度20s的haar滤波器，滑动遍历整个高潮概率曲线v
p
，得到滤波曲线vf。确定滤波曲线vf中最大点(即图5中的a点)的时间为高潮起始时间点t
c_start
，t
c_start
对应的值为起始置信度s
c_start
，并确定最大点之后的极小点(即图5中的b点)的时间为高潮结束时间点t
c_end
，t
c_end
对应的值为结束置信度s
c_end
。利用起始置信度s
c_start
和结束置信度s
c_end
，计算出高潮片段的平均置信度
[0096]
s103、根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体。
[0097]
第一文本信息为待剪辑歌曲对应的歌词文本。例如，该第一文本信息包括待剪辑歌曲中主歌片段的歌词文本和副歌片段的歌词文本。可选地，该第一文本信息还可以包括待剪辑歌曲的歌词文本相似性矩阵。
[0098]
第一结构体为待剪辑歌曲的结构化分段结果，包括待剪辑歌曲的语义结构信息。例如，第一结构体包括待剪辑歌曲的主歌片段、副歌片段、角ab小段。
[0099]
s104、根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体。
[0100]
其中，第二结构体包括预设待剪辑歌曲的部分或全部内容，第二结构体也可以称为待剪辑片段。例如，第二结构体可以是预设待剪辑歌曲中的一个或多个片段。第二结构体包括预设起始点和预设时长，根据预设起始时间点和预设时长，可以获得第二结构体的结束时间点。例如，预设起始时间点可以是待剪辑歌曲中的第00:30.21，预设时长可以是20s，则结束时间点为00:50.21。
[0101]
第三结构体包括时间节点修正后的述预设待剪辑歌曲的部分或全部内容，即时间节点修正后的第二结构体，也可以称为剪辑后的音频。第三结构体还可以包括时间节点修正处理后的第二结构体的起始时间点和结束时间点。
[0102]
在一种可选的实施方式中，计算机设备根据待剪辑歌曲的指定歌词文件(例如指定歌词文件为qrc歌词文件)和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，包括：获取第二结构体的预设起始时间点和预设时长；根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点；根据第一结构体，对校准时间节点后的第二结
构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体。
[0103]
采用本技术实施例，通过利用歌曲结构化分段的语义信息，自动将待剪辑的音乐片段进行对齐校准和时间修正。不仅能保留剪辑后的歌曲片段的语义结构完整和连贯性，还可以提升剪辑效率，降低开销。此外，由于qrc歌词文件中的歌词文本信息支持多种语言，因此，本技术实施例可支持多种语言及小语种的歌曲剪辑。
[0104]
图6是本技术实施例提供的另一种歌曲剪辑方法的流程示意图，如图6所示，本技术实施例中所描述的方法包括步骤s601a-s604。需要注意的是，本方法流程中的a步骤(例如s601a和s602a)表示对待剪辑歌曲的音频信息进行的操作，b步骤(例如s601b和s602b)表示对第二结构体进行的操作。
[0105]
s601a、对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息。
[0106]
s602a、根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息。
[0107]
其中，步骤s601a、s402a的具体过程可参见上文s101、s102中的描述，此处不再进行赘述。
[0108]
s603、根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体。
[0109]
在一种可选地实施方式中，计算机设备在根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体时，可包括预处理部分、多模态融合部分以及后处理部分。
[0110]
首先，预处理部分包括基于待剪辑歌曲的qrc歌词文件，获得待剪辑歌曲的第一文本信息。因此，计算机设备根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体之前，还包括：获取待剪辑歌曲的qrc歌词文件，基于待剪辑歌曲的qrc歌词文件，计算待剪辑歌曲中任意两句歌词之间的编辑距离；根据编辑距离，获得待剪辑歌曲的第一文本信息，该第一文本信息包括待剪辑歌曲的文本相似性矩阵。
[0111]
可选地，计算机设备可将qrc歌词文件的文件格式限定为qrc格式。
[0112]
图7是本技术实施例示出的一种歌词文本相似性矩阵的示意图，图7中，横坐标和纵坐标都代表的是歌词的索引，例如，(10,35)表示第10句歌词与第35句歌词之间的相似度。
[0113]
可选的，预处理部分还包括：根据待剪辑歌曲的第一文本信息，对待剪辑歌曲进行段落划分，获得第一时间信息，该第一时间信息包括不同段落分别对应的时间节点；
[0114]
其次，多模态融合部分包括：对第一时间信息和待剪辑歌曲的第一音频信息对应的时间节点进行模糊匹配，确定第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息，该第二音频信息包括所述待剪辑歌曲的主歌音频信息。其中，多模态指的是多种信息来源、媒介或形式，比如文本、音频、图像等。多模态融合指的就是将多种信息进行融合。
[0115]
其中，计算机设备对第一时间信息和待剪辑歌曲的第一音频信息对应的时间节点进行模糊匹配中，第一时间信息包括待剪辑歌曲中不同段落分别对应的时间节点，其中包括主歌片段对应的起始时间点和结束时间点、副歌片段对应的起始时间点和结束时间点等。第一音频信息对应的时间节点包括副歌片段对应的起始时间点和结束时间点。将待剪辑歌曲中的不同段落分别对应的时间节点与副歌片段对应的起始时间点和结束时间点进
行匹配称为模糊匹配。
[0116]
最后，后处理部分包括：根据待剪辑歌曲中每句歌词文本单词重叠度和每句歌词组成结构相似度，对第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息进行结构化分段，确定所述第一结构体，该第一结构体为所述待剪辑歌曲的结构化分段结果。
[0117]
下面对上述预处理部分、多模态融合部分以及后处理部分的具体实现流程进行举例说明。假设第一音频信息是待剪辑歌曲中的副歌片段，计算机设备在确定第一结构体时，可获取待剪辑歌曲的qrc歌词文件，基于该qrc歌词文件，计算待剪辑歌曲中任意两句歌词之间的编辑距离，得到待剪辑歌曲的文本相似性矩阵；基于文本相似性矩阵，利用最优路径搜索算法将相似度大于预设阈值的歌词片段组合在一起，得到划分段落后的待剪辑歌曲(即主歌片段和副歌片段)，以及不同段落分别对应的时间节点。对待剪辑歌曲中不同段落分别对应的时间节点和通过步骤s402a中确定的副歌片段的起始时间点和结束时间点进行模糊匹配，确定副歌片段对应的歌词文本信息和主歌片段对应的歌词文本信息。根据待剪辑歌曲中每句歌词文本单词重叠度和每句歌词组成结构相似度，将副歌片段对应的歌词文本信息和主歌片段对应的歌词文本信息划分成结构对称的角ab小段落，确定待剪辑歌曲的第一结构体。该第一结构体中包括待剪辑歌曲的语义结构信息，以及主歌段落、副歌段落、角ab小段。该第一结构体(或者称为待剪辑歌曲的语义结构)可记为
[0118]
sec＝[v1,a1,b1,c1,a2,b2,c2,
…
,vn,cn,an,bn]，n∈[1,n]，其中v表示主歌段落，c表示副歌段落，a表示角a小段落，b表示角小段落，n表示待剪辑歌曲歌词的总句数。图8是本技术实施例提供的一种第一结构体的示意图，如图8所示，待剪辑歌曲包括v1、v2两个主歌段落，c1、c2两个副歌段落，a1、a2、a3和a4四个角a小段落，以及b1、b2、b4三个角小段落。
[0119]
s601b、获取第二结构体的预设起始时间点和预设时长。
[0120]
例如，计算机设备可从用户侧获取第二结构体的预设起始时间点t
u_start
和预设时长l
dur
。
[0121]
s602b、根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。
[0122]
在一种可选的实施方式中，计算机设备根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点，包括：根据指定歌词文件，更新第一文本信息，更新后的第一文本信息包括第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息；根据更新后的第一文本信息及更新后的第一文本信息对应的时间信息，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。
[0123]
可选地，假设指定歌词文件是qrc歌词文件，在根据指定歌词文件，更新第一文本信息的实施方式中，计算机设备根据qrc歌词文件和过滤模块，剔除待剪辑歌曲的前奏部分以及歌词文本中的标题、歌手、制作、混音等非歌词内容的歌曲信息。
[0124]
在根据更新后的第一文本信息及更新后的第一文本信息对应的时间信息，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体
的起始时间点和结束时间点的实施方式中：利用更新后的第一文本信息，对第二结构体的预设起始时间点进行处理，获得第二结构体的第一起始时间点，以及基于第一起始时间点和预设时长，获得第二结构体的第一结束时间点；利用更新后的第一文本信息对应的时间信息，对第一起始时间点和第一结束时间点进行校准处理，获得第二起始时间点和第二结束时间点，该第二起始时间点和第二结束时间点为校准时间节点后的第二结构体的起始时间点和结束时间点。
[0125]
举例来说，假设计算机设备从用户侧获得的第二结构体的预设起始时间点为t
u_start
，预设时长为l
dur
。则计算机设备可利用qrc歌词文件的歌词文本内容和过滤模块剔除待剪辑歌曲的前奏部分以及歌词文本中的标题、歌手、制作、混音等非歌词内容的歌曲信息，得到更新后的歌词文本信息。根据更新后的歌词文本信息，对第二结构体的预设起始时间点t
u_start
进行处理，确定第二结构体的第一起始时间点t
′
u_start
；对预设时长l
dur
和t
′
u_start
进行加法运算，得到第二结构体的预估结束时间点t
′
u_end
。然后，利用qrc歌词文件的精确时间信息对齐第一起始时间点t
′
u_start
和结束时间点t
′
u_end
，得到t
″
u_start
和t
″
u_end
。t
″
u_start
和t
″
u_end
即为校准时间节点后的第二结构体的起始时间点和结束时间点。
[0126]
可选的，计算机设备还可根据更新后的第一文本信息及更新后的第一文本信息对应的时间信息，直接对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。
[0127]
举例来说，假设计算机设备从用户侧获得的第二结构体的预设起始时间点为t
u_start
，预设时长为l
dur
。计算机设备可先根据qrc歌词文件的歌词文本内容和过滤模块剔除待剪辑歌曲的前奏部分以及歌词文本中的标题、歌手、制作、混音等非歌词内容的歌曲信息，得到更新后的歌词文本信息；然后根据更新后的歌词文本信息及更新后的歌词文本信息对应的时间信息，对第二结构体的预设起始时间点t
u_start
进行处理，确定第二结构体的起始时间点t
′
u_start
；最后，对预设时长l
dur
和t
′
u_start
进行加法运算，确定第二结构体的预估结束时间点t
′
u_end
。其中，t
′
u_start
和t
′
u_end
即为校准时间节点后的第二结构体的起始时间点和结束时间点。
[0128]
s604、根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体。
[0129]
在一种可选的实施方式中，计算机设备根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体，包括：从第一结构体中，获取与校准时间节点后的第二结构体的起始时间点对应的第一时间差值；从第一结构体中，获取与校准时间节点后的第二结构体的结束时间点对应的第二时间差值。根据校准时间节点后的第二结构体起始时间点和第一时间差值，对校准时间节点后的第二结构体的起始时间点进行时间节点修正处理；根据校准时间节点后的第二结构体的结束时间点和第二时间差值，对校准时间节点后的第二结构体的结束时间点进行时间节点修正处理。该第三结构体包括时间节点修正处理后的第二结构体的起始时间点和结束时间点。可以理解的是，该实施方式中获取第三结构体的方式也可以称为连续剪辑方式，即保持片段起始到结束的连续性的一种剪辑方式。
[0130]
其中，第一时间差值包括与校准时间节点后的第二结构体的起始时间点所在段落相邻的两个段落的边界时间的差值；第二时间差值包括与校准时间节点后的第二结构体的
结束时间点所在段落相邻的两个段落的边界时间的差值。
[0131]
图9是本技术实施例提供的一种连续剪辑的示意图。如图9所示，假设第一结构体为步骤s403中所描述的sec，第二结构体的起始时间点和结束时间点分别为t
″
u_start
和t
″
u_end
。计算机设备根据第一结构体对t
″
u_start
和t
″
u_end
进行时间节点修正处理，得到第三结构体时，可从第一结构体sec中分别获取与t
″
u_start
和t
″
u_end
所在段落相邻的两个段落的边界时间的差值δup和δdown，取最小差值的段落边界点作为修正后的起始时间，计算公式如下公式(1)，式(1)中t
″′
u_star
表示的是修正时间节点后的第二结构体的起始时间点。例如，如图9所示，t
″
u_start
的值为00:51.68，与t
″
u_start
所在段落相邻的上段落的边界时间是00:42.30，与t
″
u_start
所在段落相邻的下段落的边界时间是01:02.59，则可计算出δup和δdown：δup＝00:51.68-00:42.30＝00:09.38，δdown＝01:02.59-00:51.68＝00:10.91。由于δup《δdown，所以，取δup所在段落边界时间点来对t
″
u_start
进行修正，则根据式(1)，t
″′
u_star
为00:51.68-00:09.38＝00:42.30。同理得到结束时间点t
″
u_end
对应的修正后的结束时间点t
″′
u_end
。最后根据第一结构体修正后的第二结构体的实际时长为如下公式(2)中的l
″′
dur
，其中，第二结构体的实际时长近似等于预设时长。
[0132]
t
″′
u_start
＝t
″
u_start
±
min(δup,δdown)
ꢀꢀ
(1)
[0133]
l
″′
dur
＝t
″′
u_end-t
″′
u_start
≈l
dur
ꢀꢀ
(2)
[0134]
在另一种可选的实施方式中，计算机设备根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体，包括：确定校准时间节点后的第二结构体起始时间点和结束时间点之间的目标时长；根据目标时长，将第一结构体中不同的段落进行首尾相接，得到第三结构体。可以理解的是，该实施方式中获取第三结构体的方式也可以称为拼接剪辑方式，即根据用户需要，在满足剪辑片段时长的条件下，将不同的主副歌段落或角ab小段落自由拼接在一起的一种剪辑方式。
[0135]
图10是本技术实施例提供的拼接剪辑的示意图。如图10所示，假设第一结构体为步骤s403中所描述的sec，则在满足剪辑片段时长的条件下，计算机设备可将第一结构体中不同的主副歌段落或角ab小段落自由拼接在一起，即将sec中的v1、c1、c2段落进行首尾拼接，得到第三结构体。此时，计算机设备可在拼接处做as的声音淡入淡出处理，进一步减少拼接的突兀感，其中，a可以是0.5s。该剪辑方式可以称为拼接剪辑。
[0136]
可选的，计算机设备在得到第三结构体之后，可根据第三结构体的起始时间点和结束时间点(即时间节点修正后的第二结构体的起始时间点个结束时间点)，采用音频裁剪工具从待剪辑歌曲的音频文件中剪切第三结构体，并输出第三结构体。所输出的第三结构体即为剪辑好的歌曲片段。
[0137]
采用本技术实施方式，通过利用歌曲结构化分段的语义信息，自动将待剪辑的音乐片段进行对齐校准和时间修正，不仅能保留剪辑后的歌曲片段的语义结构完整性和听感的连贯性，还可以提升剪辑效率，降低开销。
[0138]
此外，由于本技术实施例支持指定歌曲任意起始点和时长(任意连续时间区域)的剪辑，也支持根据时长自由拼接语义段落进行剪辑，因此，本技术可以根据不同的场景需求自动灵活的剪辑出结构完整听感连贯的音乐片段。例如，本技术可以应用于短视频配乐、音乐游戏、铃声、合唱等场景中，对此不做限定。
[0139]
图11是本技术实施例提供的一种歌曲剪辑方法的框架图，对应上述步骤s601a至
s604。其中，计算机设备首先通过提取待剪辑歌曲的cqt音频局部特征和midi人声旋律特征，再将cqt音频局部特征和midi人声旋律特征输入到神经网络中，以确定副歌片段。其次基于qrc歌词文件计算待剪辑歌曲的文本相似性矩阵，并根据歌词相似度对待剪辑歌曲进行段落划分；结合所确定的副歌片段，利用多模态融合技术获得待剪辑歌曲的结构化分段结果。然后根据预设待剪辑片段的起始时间和预设时长，基于qrc歌词文件对待剪辑片段的预设起始时间点与结束时间点进行对齐、校准处理，得到对齐校准后时间节点后的待剪辑片段的起始时间点和结束时间点。之后利用待剪辑歌曲的结构化分段结果对对齐校准时间点后的待剪辑片段的起始时间点和结束时间点进行修正处理，使其自适应修正到起始时间点和结束时间点中分别所在段落的最近邻段落的边界处。最后基于修正后的待剪辑片段的时间点，通过歌曲剪辑工具剪裁得到剪辑后的歌曲片段。可见，采用本技术实施例，利用歌曲结构化分段的语义信息以及qrc歌词文件，自动将待剪辑片段进行对齐校准和修正，不仅能够保留剪辑片段的语义结构完整和连贯性
[0140]
另外，该方法与人工剪辑方法相比，省时省力，可提升剪辑效率，从而降低剪辑开销；与现有的自动剪辑方法相比，可提升剪辑歌曲的成功率和覆盖率。
[0141]
图12是本技术实施例提供的一种歌曲剪辑装置的示意图。该实施例中所描述的歌曲剪辑装置可以包括以下部分：
[0142]
预处理模块1201，用于对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息；
[0143]
确定模块1202，用于根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息；
[0144]
确定模块1202，还用于根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体；
[0145]
处理模块1203，用于根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，该第二结构体包括预设待剪辑歌曲的部分或全部内容，该第三结构体包括时间节点修正后的预设待剪辑歌曲的部分或全部内容。
[0146]
在一种可选的实施方式中，确定模块1202在用于根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息时，具体用于：
[0147]
将待剪辑歌曲的音频特征信息输入到神经网络中，获得待剪辑歌曲的第一音频信息概率集合，音频特征信息包括待剪辑歌曲的cqt局部特征和midi人声旋律特征；
[0148]
根据第一音频信息概率集合，确定待剪辑歌曲的第一音频信息，第一音频信息包括待剪辑歌曲的副歌音频信息。
[0149]
在一种可选的实施方式中，处理模块1203还用于，基于待剪辑歌曲的指定歌词文件，计算待剪辑歌曲中任意两句歌词之间的编辑距离；
[0150]
根据编辑距离，获得待剪辑歌曲的第一文本信息，第一文本信息包括待剪辑歌曲的文本相似性矩阵。
[0151]
在一种可选的实施方式中，确定模块1202在用于根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体时，具体用于：
[0152]
根据待剪辑歌曲的第一文本信息，对待剪辑歌曲进行段落划分，获得第一时间信息，第一时间信息包括不同段落分别对应的时间节点；
[0153]
对第一时间信息和待剪辑歌曲的第一音频信息对应的时间节点进行模糊匹配，确定第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息，第二音频信息包括待剪辑歌曲的主歌音频信息；
[0154]
根据待剪辑歌曲中每句歌词文本单词重叠度和每句歌词组成结构相似度，对第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息进行结构化分段，确定第一结构体，第一结构体为待剪辑歌曲的结构化分段结果。
[0155]
在一种可选的实施方式中，处理模块1203在用于根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体时，具体用于：
[0156]
获取第二结构体的预设起始时间点和预设时长；根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点；
[0157]
根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体。
[0158]
在一种可选的实施方式中，处理模块1203在用于根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点时，具体用于：
[0159]
根据指定歌词文件，更新第一文本信息，更新后的第一文本信息包括第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息；
[0160]
根据更新后的第一文本信息及更新后的第一文本信息对应的时间信息，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。
[0161]
在一种可选的实施方式中，处理模块1203在用于根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体时，具体用于：
[0162]
从第一结构体中，获取与校准时间节点后的第二结构体的起始时间点对应的第一时间差值；
[0163]
从第一结构体中，获取与校准时间节点后的第二结构体的结束时间点对应的第二时间差值；
[0164]
根据校准时间节点后的第二结构体起始时间点和第一时间差值，对校准时间节点后的第二结构体的起始时间点进行时间节点修正处理；
[0165]
根据校准时间节点后的第二结构体的结束时间点和第二时间差值，对校准时间节点后的第二结构体的结束时间点进行时间节点修正处理；
[0166]
该第三结构体包括时间节点修正处理后的第二结构体的起始时间点和结束时间点。
[0167]
在一种可选的实施方式中，处理模块1203在用于根据第一结构体，对校准时间节点后的第二结构体起始时间点和结束时间点进行时间节点修正处理，得到第三结构体时，具体用于：
[0168]
确定校准时间节点后的第二结构体起始时间点和结束时间点之间的目标时长；
[0169]
根据目标时长，将第一结构体中不同的段落进行首尾相接，得到第三结构体。
[0170]
可以理解的是，本技术实施例所述歌曲剪辑装置中各个模块的具体实现以及可以达到的有益效果可参考前述相关实施例的描述，在此不再赘述。
[0171]
图13是本技术实施例示出的一种计算机设备的结构示意图。本技术实施例中所描述的计算机设备包括：处理器1301、用户接口1302、通信接口1303及存储器1304。其中，处理器1301、用户接口1302、通信接口1303及存储器1304可通过总线或其他方式连接，本技术实施例以通过总线连接为例。
[0172]
其中，处理器1301(或称中央处理器(central processing unit，cpu))是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：cpu可以用于解析用户向计算机设备所发送的开关机指令，并控制计算机设备进行开关机操作；再如：cpu可以在计算机设备内部结构之间传输各类交互数据，等等。用户接口1302是实现用户与计算机设备进行交互和信息交换的媒介，其具体体现可以包括用于输出的显示屏(display)以及用于输入的键盘(keyboard)等等，需要说明的是，此处的键盘既可以为实体键盘，也可以为触屏虚拟键盘，还可以为实体与触屏虚拟相结合的键盘。通信接口1303可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等)，受处理器1301的控制用于收发数据。存储器1304(memory)是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1304既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器1304提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：android系统、ios系统、windows phone系统等等，本技术对此并不作限定。
[0173]
在本技术实施例中，处理器1301通过运行存储器1304中的可执行程序代码，执行如下操作：
[0174]
对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息；
[0175]
根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息；
[0176]
根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体；
[0177]
根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，该第二结构体包括预设待剪辑歌曲的部分或全部内容，该第三结构体包括时间节点修正后的预设待剪辑歌曲的部分或全部内容。
[0178]
在一种可选的实施方式中，处理器1301在用于根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息时，具体用于：
[0179]
将待剪辑歌曲的音频特征信息输入到神经网络中，获得待剪辑歌曲的第一音频信息概率集合，音频特征信息包括待剪辑歌曲的cqt局部特征和midi人声旋律特征；
[0180]
根据第一音频信息概率集合，确定待剪辑歌曲的第一音频信息，第一音频信息包括待剪辑歌曲的副歌音频信息。
[0181]
在一种可选的实施方式中，处理器1301还用于，基于待剪辑歌曲的指定歌词文件，计算待剪辑歌曲中任意两句歌词之间的编辑距离；
[0182]
根据编辑距离，获得待剪辑歌曲的第一文本信息，第一文本信息包括待剪辑歌曲的文本相似性矩阵。
[0183]
在一种可选的实施方式中，处理器1301在用于根据待剪辑歌曲的第一音频信息和
待剪辑歌曲的第一文本信息，确定第一结构体时，具体用于：
[0184]
根据待剪辑歌曲的第一文本信息，对待剪辑歌曲进行段落划分，获得第一时间信息，第一时间信息包括不同段落分别对应的时间节点；
[0185]
对第一时间信息和待剪辑歌曲的第一音频信息对应的时间节点进行模糊匹配，确定第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息，第二音频信息包括待剪辑歌曲的主歌音频信息；
[0186]
根据待剪辑歌曲中每句歌词文本单词重叠度和每句歌词组成结构相似度，对第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息进行结构化分段，确定第一结构体，第一结构体为待剪辑歌曲的结构化分段结果。
[0187]
在一种可选的实施方式中，处理器1301在用于根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体时，具体用于：
[0188]
获取第二结构体的预设起始时间点和预设时长；根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点；
[0189]
根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体。
[0190]
在一种可选的实施方式中，处理器1301在用于根据待剪辑歌曲的指定歌词文件，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点时，具体用于：
[0191]
根据指定歌词文件，更新第一文本信息，更新后的第一文本信息包括第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息；
[0192]
根据更新后的第一文本信息及更新后的第一文本信息对应的时间信息，对第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。
[0193]
在一种可选的实施方式中，处理器1301在用于根据第一结构体，对校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体时，具体用于：
[0194]
从第一结构体中，获取与校准时间节点后的第二结构体的起始时间点对应的第一时间差值；
[0195]
从第一结构体中，获取与校准时间节点后的第二结构体的结束时间点对应的第二时间差值；
[0196]
根据校准时间节点后的第二结构体起始时间点和第一时间差值，对校准时间节点后的第二结构体的起始时间点进行时间节点修正处理；
[0197]
根据校准时间节点后的第二结构体的结束时间点和第二时间差值，对校准时间节点后的第二结构体的结束时间点进行时间节点修正处理；
[0198]
该第三结构体包括时间节点修正处理后的第二结构体的起始时间点和结束时间点。
[0199]
在一种可选的实施方式中，处理器1301在用于根据第一结构体，对校准时间节点后的第二结构体起始时间点和结束时间点进行时间节点修正处理，得到第三结构体时，具
体用于：
[0200]
确定校准时间节点后的第二结构体起始时间点和结束时间点之间的目标时长；
[0201]
根据目标时长，将第一结构体中不同的段落进行首尾相接，得到第三结构体。
[0202]
具体实现中，本技术实施例中所描述的处理器1301、用户接口1302、通信接口1303及存储器1304可执行本技术实施例提供的歌曲剪辑方法中所描述的计算机设备的实现方式，也可执行本技术实施例提供的歌曲剪辑装置中所描述的实现方式，在此不再赘述。
[0203]
本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现本技术实施例所提供的歌曲剪辑方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。
[0204]
本技术实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行如本技术实施例所述的方法。其具体实现方式可参考前文描述，此处不再赘述。
[0205]
需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0206]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0207]
以上所揭露的仅为本技术部分实施例而已，当然不能以此来限定本技术之权利范围，因此依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

技术特征：

1.一种歌曲剪辑方法，其特征在于，所述方法包括：对待剪辑歌曲的音频文件进行处理，提取所述待剪辑歌曲的音频特征信息；根据所述待剪辑歌曲的音频特征信息，确定所述待剪辑歌曲的第一音频信息；根据所述待剪辑歌曲的第一音频信息和所述待剪辑歌曲的第一文本信息，确定第一结构体；根据所述待剪辑歌曲的指定歌词文件和所述第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，所述第二结构体包括预设待剪辑歌曲的部分或全部内容，所述第三结构体包括时间节点修正后的所述预设待剪辑歌曲的部分或全部内容。2.根据权利要求1所述的方法，其特征在于，所述根据所述待剪辑歌曲的音频特征信息，确定所述待剪辑歌曲的第一音频信息，包括：将所述待剪辑歌曲的音频特征信息输入到神经网络中，获得所述待剪辑歌曲的第一音频信息概率集合，所述音频特征信息包括所述待剪辑歌曲的cqt局部特征和midi人声旋律特征；根据所述第一音频信息概率集合，确定所述待剪辑歌曲的第一音频信息，所述第一音频信息包括所述待剪辑歌曲的副歌音频信息。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于待剪辑歌曲的指定歌词文件，确定所述待剪辑歌曲中任意两句歌词之间的编辑距离；根据所述编辑距离，获得所述待剪辑歌曲的第一文本信息，所述第一文本信息包括所述待剪辑歌曲的文本相似性矩阵。4.根据权利要求1-3中任一所述的方法，其特征在于，所述根据待剪辑歌曲的第一音频信息和所述待剪辑歌曲的第一文本信息，确定第一结构体，包括：根据所述待剪辑歌曲的第一文本信息，对所述待剪辑歌曲进行段落划分，获得第一时间信息，所述第一时间信息包括不同段落分别对应的时间节点；对所述第一时间信息和所述待剪辑歌曲的第一音频信息对应的时间节点进行模糊匹配，确定所述第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息，所述第二音频信息包括所述待剪辑歌曲的主歌音频信息；根据所述待剪辑歌曲中歌词文本单词重叠度和歌词组成结构相似度，对第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息进行结构化分段，确定所述第一结构体，所述第一结构体为所述待剪辑歌曲的结构化分段结果。5.根据权利要求1所述的方法，其特征在于，所述根据所述待剪辑歌曲的指定歌词文件和所述第一结构体对第二结构体进行时间节点修正处理，得到第三结构体，包括：获取第二结构体的预设起始时间点和预设时长；根据所述待剪辑歌曲的指定歌词文件，对所述第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点；根据所述第一结构体，对所述校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体。6.根据权利要求5所述的方法，其特征在于，所述根据所述待剪辑歌曲的指定歌词文件，对所述第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点
后的第二结构体的起始时间点和结束时间点，包括：根据所述指定歌词文件，更新所述第一文本信息，更新后的第一文本信息包括第一音频信息对应的歌词文本信息和第二音频信息对应的歌词文本信息；根据所述更新后的第一文本信息及所述更新后的第一文本信息对应的时间信息，对所述第二结构体的预设起始时间点和结束时间点进行校准处理，得到校准时间节点后的第二结构体的起始时间点和结束时间点。7.根据权利要求5或6所述的方法，其特征在于，所述根据所述第一结构体，对所述校准时间节点后的第二结构体的起始时间点和结束时间点进行时间节点修正处理，得到第三结构体，包括：从所述第一结构体中，获取与校准时间节点后的第二结构体的起始时间点对应的第一时间差值；从所述第一结构体中，获取与校准时间节点后的第二结构体的结束时间点对应的第二时间差值；根据所述校准时间节点后的第二结构体起始时间点和所述第一时间差值，对所述校准时间节点后的第二结构体的起始时间点进行时间节点修正处理；根据所述校准时间节点后的第二结构体的结束时间点和所述第二时间差值，对所述校准时间节点后的第二结构体的结束时间点进行时间节点修正处理；所述第三结构体包括时间节点修正处理后的第二结构体的起始时间点和结束时间点。8.根据权利要求5或6所述的方法，其特征在于，所述根据所述第一结构体，对所述校准时间节点后的第二结构体起始时间点和结束时间点进行时间节点修正处理，得到第三结构体，包括：确定所述校准时间节点后的第二结构体起始时间点和结束时间点之间的目标时长；根据所述目标时长，将所述第一结构体中不同的段落进行首尾相接，得到第三结构体。9.一种计算机设备，其特征在于，包括存储器、处理器，其中，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的歌曲剪辑方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的歌曲剪辑方法的步骤。

技术总结

本申请实施例提供了一种歌曲剪辑方法、装置及设备，其中方法包括：对待剪辑歌曲的音频文件进行处理，提取待剪辑歌曲的音频特征信息；根据待剪辑歌曲的音频特征信息，确定待剪辑歌曲的第一音频信息；根据待剪辑歌曲的第一音频信息和待剪辑歌曲的第一文本信息，确定第一结构体；根据待剪辑歌曲的指定歌词文件和第一结构体对第二结构体进行时间节点修正处理，得到第三结构体。通过该方法，可以利用歌曲结构化分段的语义信息，自动将待剪辑的音乐片段进行对齐校准和时间修正。不仅能保留剪辑后的歌曲片段的语义结构完整和连贯性，还可以提升剪辑效率，降低开销。降低开销。降低开销。