一种音乐结构伸缩方法、装置、计算机设备及存储介质与流程

1.本发明涉及音频处理技术领域，尤其涉及一种音乐结构伸缩方法、装置、计算机设备及存储介质。

背景技术：

2.在剪辑视频中通常需要重新调整音乐的长度从而使音乐可以匹配目标视频的长度,一般常见的做法是编辑者根据音乐已有的结构去做片段的延伸又或者裁剪掉不重要的片段，让原本的音乐可以调整成需要的音乐长度，而其中伸缩音乐的结构对于一般的编辑者的专业门坎比较高，通常需要专业的背景知识，也需要耗费大量的时间来让结构伸缩后的音乐质量与原本的无差异，因此开发一个自动化的基于内容的音乐结构伸缩算法让音乐自动的去匹配编辑者想要的音乐长度，可以大量减少编辑者的时间且降低该功能的使用门坎。
3.目前市面上的自动化音乐结构伸缩算法可主要分为两种：基于模板算法和基于音乐内容算法两种路线，但这些算法经过伸缩后相邻的时间点会有明显的跳跃感，让整体音乐质量会有所下降，尤其当相邻的时间点中有歌声时跳跃感更明显，主要是因为这些算法中通常只考虑音乐的重拍/鼓点，而缺少考虑音乐内容中的音特性来减少音乐的跳跃感。

技术实现要素：

4.本发明的目的是提供一种音乐结构伸缩方法、装置、计算机设备及存储介质，旨在解决现有音乐结构伸缩算法对音乐进行伸缩处理后导致音乐质量下降的问题。
5.为解决上述技术问题，本发明的目的是通过以下技术方案实现的：提供一种音乐结构伸缩方法，包括：
6.获取原音乐中的频谱特征；
7.强化所述频谱特征中的每一时间帧的音特性；
8.计算所述频谱特征中各个时间帧之间的音相似度；
9.筛选出大于预设相似阀值的音相似度所对应的时间帧对，并将所述时间帧对之间的片段作为待伸缩片段；
10.对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。
11.另外，本发明要解决的技术问题是还在于提供一种音乐结构伸缩装置，其包括：
12.特征获取单元，用于获取原音乐中的频谱特征；
13.特征强化单元，用于强化所述频谱特征中的每一时间帧的音特性；
14.相似度计算单元，用于计算所述频谱特征中各个时间帧之间的音相似度；
15.片段筛选单元，用于筛选出大于预设相似阀值的音相似度所对应的时间帧对，并将所述时间帧对之间的片段作为待伸缩片段；
16.伸缩处理单元，用于对比所述原音乐的原音频时长和目标音频时长，对所述待伸
缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。
17.另外，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的音乐结构伸缩方法。
18.另外，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的音乐结构伸缩方法。
19.本发明实施例公开了一种音乐结构伸缩方法、装置、计算机设备及存储介质，该方法包括获取原音乐中的频谱特征；强化所述频谱特征中的每一时间帧的音特性；计算所述频谱特征中各个时间帧之间的音相似度；筛选出大于预设相似阀值的音相似度所对应的时间帧，并在筛选出的时间帧中选择相连的时间帧作为待伸缩片段；对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。本发明实施例能够有效侦测出音乐中最适合进行重组和的音乐片段，具有将音乐时长缩放到所设定的时长的优点。
附图说明
20.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的音乐结构伸缩方法的流程示意图；
22.图2为本发明实施例提供的音乐结构伸缩方法的子流程示意图；
23.图3为本发明实施例提供的音乐结构伸缩方法的子流程示意图；
24.图4为本发明实施例提供的音乐结构伸缩方法的子流程示意图；
25.图5为本发明实施例提供的音乐结构伸缩装置的示意性框图；
26.图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
27.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
30.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
31.请参阅图1，图1为本发明实施例提供的音乐结构伸缩方法的流程示意图；
32.如图1所示，该方法包括步骤s101～s105。
33.s101、获取原音乐中的频谱特征；
34.该步骤中，频谱特征用于代表原音乐中的音，并容易看出音特性。
35.s102、强化频谱特征中的每一时间帧的音特性；
36.该步骤中，通过强化音特性以便于区分，更容易进行识别。
37.s103、计算频谱特征中各个时间帧之间的音相似度；
38.s104、筛选出大于预设相似阀值的音相似度所对应的时间帧对，并将时间帧对之间的片段作为待伸缩片段；
39.步骤s103-s104中，每一时间帧对也就是具有非常高的音相似度的两个时间帧，这两个时间帧之间的片段更适合进行音乐结构伸缩，优选的，预设相似阀值可以为0.95。
40.s105、对比原音乐的原音频时长和目标音频时长，对待伸缩片段进行伸缩处理并使得原音频时长和目标音频时长一致；
41.该步骤中，根据目标音频时长，通过重复叠加或删减待伸缩片段的方式进行时长调整，以实现原音频时长和目标音频时长一致。
42.本实施例中，依据步骤s10-s105的流程，能够有效侦测出音乐中最适合进行重组和的音乐片段，具有将音乐时长缩放到所设定的时长的优点，并基于本发明提到的声音处理方法，藉此可以实现歌词转换侦测，可以有效提升音频/音视频剪辑软体里面音乐驱动卡点视频算法的转场和渲染时间点推荐的可用性。
43.在一实施例中，如图2所示，步骤s101包括：
44.s201、利用短时间傅立叶变换将原音乐的时域特征转成频域特征；
45.s202、利用分贝转换法将频域特征转换为频谱特征；
46.本实施例中，从原音乐的时域特征中很难看出音的特性，但是转成频谱特征后可以发现起始与结尾的片段中音的一些相似特性；
47.因此，可先按如下公式计算并得到频域特征s：
[0048][0049]
其中，k表示频域特征的频域位置，n0表示频域特征的长度位置，x[n]表示讯号在第n个长度的值，n
ft
表示设定的频率值，w[n]为0.54-0.46*cos(n/n)，表示离散傅里叶变换；
[0050]
然后再通过分贝转换公式db＝10
·
log
10
(s))进行特征转换，得到频谱特征。
[0051]
在一实施例中，步骤s102包括：
[0052]
在每一时间帧中串接其前面预设个数的其他时间帧。
[0053]
本实施例的目的是强化频谱特征中每一时间帧的音特性，由于频谱特征中的每一时间帧代表的时长通常只有数十毫秒，一般基于帧的频谱特征并不能很好的区别音乐中的音特性，主要原因是时长太短，因此本实施例在每一时间帧的频谱特征中串接了该时间帧的前n(即预设个数)个其他时间帧的频谱特征，从而可以让音特性可以更容易被识别出来，优选的，预设个数为11。
[0054]
需要说明的是，以预设个数为11为例，所有时间帧中的前11帧不能满足串接前11
个其他时间帧的条件，因此这里可以设置为前11帧中的每一帧只串接其自身前面所有其他时间帧的频谱特征，即第11帧串接前10帧的频谱特征，第10帧串接前9帧的频谱特征，以此类推，第1帧则无需串接。
[0055]
在一实施例中，步骤s103包括：
[0056]
采用余弦相似性计算频谱特征中各个时间帧之间的音相似度，并根据每一音相似度得到自相似度矩阵。
[0057]
本实施例以一具体场景进行说明，假设频谱特征的时间轴是t，通过计算各个时间帧之间的音相似度后可得到t
×
t的自相似度矩阵，自相似度矩阵中的每一个元素所代表的就是第j时间帧与第k时间帧的相似程度，其中j和k的范围即为【1，t】，即可以得到任意两个时间帧之间的音相似度，并筛选出音相似度大于预设相似阈值的两个时间帧，比如第j时间帧与第k时间帧的音相似度大于预设相似阈值，则可以在音乐上认为时间帧j与时间帧k有非常高的音相似度，代表音乐上时间帧j与时间帧k之间的这个片段是很适合进行音乐结构伸缩的，即时间帧j与时间帧k之间的这个片段可以作为待伸缩片段。
[0058]
在一实施例中，如图3所示，步骤s105包括：
[0059]
s301、若原音频时长大于目标音频时长，则将所有待伸缩片段按序进行移除，直至原音频时长最接近且不小于目标音频时长，并计算时长差；
[0060]
s302、根据时长差对原音频时长的结尾进行修剪，以使原音频时长与目标音频时长相等。
[0061]
本实施例中，原音频时长大于目标音频时长的情况下需对原音频时长中的待伸缩片段进行移除，以一具体场景举例，假设原音频时长包括7个片段，其中片段3-5为待伸缩片段，则按3-5的顺序依次进行移除，假设在移除片段4之后的原音频时长最接近且不小于目标音频时长，则移除操作完成且此时的音频时长为片段1.2.5.6.7的组合，并计算此时与目标音频时长的时长差，再根据时长差对片段7的结尾进行修剪，以使原音频时长与目标音频时长相等。
[0062]
在一实施例中，如图4所示，步骤s105还包括：
[0063]
s401、若原音频时长小于目标音频时长，则将待伸缩片段在其自身结尾重复插入，直至原音频时长最接近且大于目标音频时长，并计算时长差；
[0064]
s402、根据时长差对原音频时长的结尾进行修剪，以使原音频时长与目标音频时长相等。
[0065]
本实施例中，原音频时长小于目标音频时长的情况下需对原音频时长中的待伸缩片段进行重复插入，以一具体场景举例，假设原音频时长包括7个片段，其中片段3-5为待伸缩片段，重复插入的方式可以是按序在待伸缩片段的结尾重复插入自身片段，并在当前待伸缩片段插入预设次数后轮换至下一代伸缩片段，比如说从片段3开始可以重复插入2次，然后轮换至对片段4重复插入2次，以此类推进行重复插入，假设在对片段4重复插入1次的时候满足了原音频时长最接近且大于目标音频时长，则重复插入操作完成且此时的音频时长为片段1.2.3.3.3.4.4.5.6.7的组合，并计算此时与目标音频时长的时长差，再根据时长差对片段7的结尾进行修剪，以使原音频时长与目标音频时长相等。
[0066]
本发明实施例还提供一种音乐结构伸缩装置，该音乐结构伸缩装置用于执行前述音乐结构伸缩方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的音乐结构
伸缩装置的示意性框图。
[0067]
如图5所示，音乐结构伸缩装置500，包括：特征获取单元501、特征强化单元502、相似度计算单元503、片段筛选单元504以及伸缩处理单元505。
[0068]
特征获取单元501，用于获取原音乐中的频谱特征；
[0069]
特征强化单元502，用于强化所述频谱特征中的每一时间帧的音特性；
[0070]
相似度计算单元503，用于计算所述频谱特征中各个时间帧之间的音相似度；
[0071]
片段筛选单元504，用于筛选出大于预设相似阀值的音相似度所对应的时间帧对，并将时间帧对之间的片段作为待伸缩片段；
[0072]
伸缩处理单元505，用于对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。
[0073]
该装置能够有效侦测出音乐中最适合进行重组和的音乐片段，具有将音乐时长缩放到所设定的时长的优点，并基于本发明提到的声音处理方法，藉此可以实现歌词转换侦测，可以有效提升音频/音视频剪辑软体里面音乐驱动卡点视频算法的转场和渲染时间点推荐的可用性。
[0074]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0075]
上述音乐结构伸缩装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。
[0076]
请参阅图6，图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备600是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集。
[0077]
参阅图6，该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605，其中，存储器可以包括非易失性存储介质603和内存储器604。
[0078]
该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032被执行时，可使得处理器602执行音乐结构伸缩方法。
[0079]
该处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。
[0080]
该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行音乐结构伸缩方法。
[0081]
该网络接口605用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0082]
本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。
[0083]
应当理解，在本发明实施例中，处理器602可以是中央处理单元(central processing unit，cpu)，该处理器602还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，
asic)、现成可编程门阵列(field-programmable gatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0084]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的音乐结构伸缩方法。
[0085]
所述存储介质为实体的、非瞬时性的存储介质，例如可以是u盘、移动硬盘、只读存储器(read-onlymemory，rom)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
[0086]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0087]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

技术特征：

1.一种音乐结构伸缩方法，其特征在于，包括：获取原音乐中的频谱特征；强化所述频谱特征中的每一时间帧的音特性；计算所述频谱特征中各个时间帧之间的音相似度；筛选出大于预设相似阀值的音相似度所对应的时间帧对，并将所述时间帧对之间的片段作为待伸缩片段；对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。2.根据权利要求1所述的音乐结构伸缩方法，其特征在于，所述获取原音乐中的频谱特征，包括：利用短时间傅立叶变换将原音乐的时域特征转成频域特征；利用分贝转换法将所述频域特征转换为频谱特征。3.根据权利要求1所述的音乐结构伸缩方法，其特征在于，所述利用短时间傅立叶变换将原音乐的时域特征转成频域特征，包括：按如下公式计算并得到频域特征s：其中，k表示频域特征的频域位置，n0表示频域特征的长度位置，x[n]表示讯号在第n个长度的值，n
ft
表示设定的频率值，w[n]为0.54-0.46*cos(n/n)，表示离散傅里叶变换。4.根据权利要求1所述的音乐结构伸缩方法，其特征在于，所述强化所述频谱特征中的每一时间帧的音特性，包括：在每一所述时间帧中串接其前面预设个数的其他时间帧。5.根据权利要求1所述的音乐结构伸缩方法，其特征在于，所述计算所述频谱特征中各个时间帧之间的音相似度，包括：采用余弦相似性计算所述频谱特征中各个时间帧之间的音相似度，并根据每一音相似度得到自相似度矩阵。6.根据权利要求1所述的音乐结构伸缩方法，其特征在于，所述对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致，包括：若所述原音频时长大于所述目标音频时长，则将所有待伸缩片段按序进行移除，直至所述原音频时长最接近且不小于所述目标音频时长，并计算时长差；根据所述时长差对所述原音频时长的结尾进行修剪，以使所述原音频时长与目标音频时长相等。7.根据权利要求1所述的音乐结构伸缩方法，其特征在于，所述对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致，还包括：若所述原音频时长小于所述目标音频时长，则将所述待伸缩片段在其自身结尾重复插入，直至所述原音频时长最接近且大于所述目标音频时长，并计算时长差；根据所述时长差对所述原音频时长的结尾进行修剪，以使所述原音频时长与目标音频
时长相等。8.一种音乐结构伸缩装置，其特征在于，包括：特征获取单元，用于获取原音乐中的频谱特征；特征强化单元，用于强化所述频谱特征中的每一时间帧的音特性；相似度计算单元，用于计算所述频谱特征中各个时间帧之间的音相似度；片段筛选单元，用于筛选出大于预设相似阀值的音相似度所对应的时间帧对，并将所述时间帧对之间的片段作为待伸缩片段；伸缩处理单元，用于对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的音乐结构伸缩方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的音乐结构伸缩方法。

技术总结

本发明公开了一种音乐结构伸缩方法、装置、计算机设备及存储介质。该方法包括获取原音乐中的频谱特征；强化所述频谱特征中的每一时间帧的音特性；计算所述频谱特征中各个时间帧之间的音相似度；筛选出大于预设相似阀值的音相似度所对应的时间帧，并在筛选出的时间帧中选择相连的时间帧作为待伸缩片段；对比所述原音乐的原音频时长和目标音频时长，对所述待伸缩片段进行伸缩处理并使得所述原音频时长和目标音频时长一致。本发明能够有效侦测出音乐中最适合进行重组和的音乐片段，具有将音乐时长缩放到所设定的时长的优点。将音乐时长缩放到所设定的时长的优点。将音乐时长缩放到所设定的时长的优点。