卡点标签的标记方法、装置、设备及介质与流程



1.本技术涉及音频处理领域,特别涉及一种卡点标签的标记方法、装置、设备及介质。


背景技术:



2.视频拼接的基本原理为根据预选的音乐对多段视频进行拼接,即在音乐的特殊时间点位上完成多段视频的拼接。
3.相关技术中,基于音乐的节拍规律,提取得到所有节拍点位,并将所有节拍点位作为上述音乐的特殊时间点位。
4.由于相关技术并不对节拍点位进行筛选,所有的节拍点位均直接作为视频拼接的时间点位。但是节拍点位中往往存在无效点位,如节拍点位定位在音乐的静音点,此时的节拍点位不适合用于视频拼接。


技术实现要素:



5.本技术提供了一种卡点标签的标记方法、装置、设备及介质,能够筛选出重节奏的节拍点。所述技术方案如下:
6.根据本技术的一个方面,提供了一种卡点标签的标记方法,所述方法包括:
7.确定音乐中的节拍点和节奏点,节拍点是音乐基于节拍规律定位的音频信号点,节奏点是音乐基于音量峰值定位的音频信号点;
8.基于节拍点和节奏点,确定音乐的目标节拍点,目标节拍点是节拍点的子集;
9.在目标节拍点上标记音乐的卡点标签,卡点标签用于标识音乐中用于多媒体拼接的音频信号点。
10.根据本技术的一个方面,提供了卡点标签的标记装置,所述装置包括:
11.确定模块,用于确定音乐中的节拍点和节奏点,节拍点是音乐基于节拍规律定位的音频信号点,节奏点是音乐基于音量峰值定位的音频信号点;
12.筛选模块,用于基于节拍点和节奏点,确定音乐的目标节拍点,目标节拍点是节拍点的子集;
13.标记模块,用于在目标节拍点上标记音乐的卡点标签,卡点标签用于标识音乐中用于多媒体拼接的音频信号点。
14.根据本技术的一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的卡点标签的标记方法。
15.根据本技术的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的卡点标签的标记方法。
16.根据本技术的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机
程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述卡点标签的标记方法。
17.本技术实施例提供的技术方案带来的有益效果至少包括:
18.通过提取音乐的音量峰值所在的音频信号点,并在该音频信号点上设置筛选条件,实现对音乐中节拍点的筛选,使得筛选出的节拍点均能用于视频拼接。上述方法保证了筛选出的节拍点不仅符合人耳的听觉特性,还符合音乐的节奏特性,筛选出的节拍点均处于音乐的重节奏点位。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本技术一示例性实施例提供的音乐的目标节拍点生成系统的示意图;
21.图2是本技术一个示例性实施例提供的卡点标签的标记方法的流程图;
22.图3是本技术一个示例性实施例提供的音频信号的示意图;
23.图4是本技术另一个示例性实施例提供的音频信号的示意图;
24.图5是本技术一个示例性实施例提供的在节奏点上设置第一时间窗的示意图;
25.图6是本技术另一个示例性实施例提供的卡点标签的标记方法的流程图;
26.图7是本技术另一个示例性实施例提供的卡点标签的标记方法的流程图;
27.图8是本技术一个示例性实施例提供的卡点标签的标记装置的结构框图;
28.图9示出了本技术一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
29.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
30.首先,对本技术实施例中涉及的名词进行简单介绍:
31.节拍点:节拍是乐曲中表示固定单位时值和强弱规律的组织形式。又称拍子。节拍是用于衡量节奏的单位,在音乐中,有一定强弱分别的一系列拍子在每隔一定时间重复出现。如2/4、4/4、3/4拍等。2/4拍的音乐,表示当前小节有一个强拍和一个弱拍组成;4/4拍的音乐,表示当前小节由强拍、弱拍、次强拍和弱拍组成;3/4拍的音乐,表示当前小节由一个强拍和两个弱拍组成。可见各种节奏的音乐中每个小节都有一个明显的重拍,而且重拍都是该小节的第一拍。因此,只要检测出重拍音符对应的音频信号点,即可将该音频信号点作为节拍点。
32.即,节拍点是音乐基于节拍规律定位的音频信号点。
33.节奏点:指音频信号的波峰点位,即音频信号波形的一个波峰。即音频信号波形的一个周期内的音量峰值。
34.卡点标签:指用于标识音乐中用于多媒体拼接的音频信号点,在一个实施例中,多
媒体拼接的音频信号点由通过信号分析处理得到的音乐的节奏和节拍确定。在一个实施例中,多媒体拼接的音频信号点由人工分析音乐的节拍确定。
35.stft(short-time fourier transform,短时傅里叶变换):stft是信号处理常用的变换方式。具体变换过程为首先将信号分帧,然后在分帧加窗,再对每一帧做傅里叶变换,最后把每一帧的结果堆叠起来。在一个实施例中,通过stft可由声音信号得到声音信号的声谱图。
36.mel(mel bank features,梅尔频谱):通过stft得到的声谱图的频率区间往往过大,为了得到合适大小的频率区间,往往通过梅尔标度滤波器组将声谱图变换为梅尔频谱。
37.实际上,人耳能听到的频率范围是20-20000hz,但人耳对赫兹这种标度单位并不是线性感知关系。例如声音的频率为1000hz,如果把声音频率提高到2000hz,人耳朵察觉不到频率提高了一倍。因此,为实现人耳对频率为线性感知,将声音谱转换为梅尔频谱,此时梅尔频谱的标度与人耳的频率感知为线性关系。
38.时域特征过零率:指单位时间内一个信号的符号变化的次数,符号变化指信号从正数变成负数。
39.k-means(一种聚类算法):一种聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
40.示意性的,k-means算法过程如下:
41.(1)选择k个初始中心点,例如c[0]=data[0],

,c[k-1]=data[k-1];
[0042]
(2)对于data0.…
data[n],分别与c0.…
c[k-1]比较,假定当前数据与c[i]差值最少,就将当前数据标记为第i族;
[0043]
(3)对于所有标记为第i族的数据,重新计算c[i],c[i]=(所有标记为第i族的data[j]之和)/(标记为第i族的个数);
[0044]
(4)重复(2)(3),直到所有c[i]值的变化小于给定阈值。
[0045]
基于上述,已完成对本技术中涉及的名词的详细介绍,接下来介绍本技术实施例所处的实施环境。
[0046]
图1是本技术一个示例性实施例提供的音乐的目标节拍点生成系统的示意图,图1中示出了音乐的目标节拍点生成系统100,音乐的目标节拍点生成系统100包括一级节拍点生成系统101、音乐片段剪切系统102、二级节拍点生成系统103和三级节拍点生成系统104。
[0047]
一级节拍点生成系统101用于生成一级节拍点。在一个实施例中,终端确定音乐中的节拍点和节奏点,并将此时得到的节拍点输出为一级节拍点集合。
[0048]
音乐剪切系统102用于将输入的音乐剪切为第一音乐片段和第二音乐片段,可选的,第一音乐片段的频率均值大于第二音乐片段的频率均值。
[0049]
在一个实施例中,首先,音乐剪切系统102提取音乐基于短时傅里叶变换stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率;然后,音乐剪切系统102采用聚类算法对基于stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率进行二分类聚类,得到音乐的特征标签序列,特征标签序列包含音乐的频率信息;接着,音乐剪切系统102计算得到特征标签序列的分界线;最后,基于分界线,音乐剪切系统102将音乐剪切为第一音乐片段和第二音乐片段。
[0050]
二级节拍点生成系统103输出二级节拍点集合。
[0051]
在一个实施例中,首先,二级节拍点生成系统103在第一节奏点上设置第一时间窗,然后,在第一节奏点处于第一音乐片段,且节奏变化幅度不小于第二幅度阈值,且第一时间窗内存在第一节拍点的情况下,二级节拍点生成系统103输出第一节拍点;在第一节奏点处于第二音乐片段,且节奏变化幅度不小于第三幅度阈值,且第一时间窗内存在第一节拍点的情况下,二级节拍点生成系统103输出第一节拍点。其中,二级节拍点集合是一级节拍点集合内经二级节拍点生成系统103输出的节拍点的集合。
[0052]
上述第一节奏点是节奏点中的任意一个,第一时间窗是以第一节奏点为中心设置的时间窗。在一个实施例中,首先二级节拍点生成系统103计算第一节奏点所处的波形波峰与所处的波形上一个波谷之间的能量差值比例,然后二级节拍点生成系统103将能量差值比例作为节奏变化幅度。
[0053]
三级节拍点生成系统104输出三级节拍点集合。在一个实施例中,上述方法应用于n种视频拼接方式,n为正整数。
[0054]
在一个实施例中,当二级节拍点集合输入至三级节拍点生成系统104后,响应于第一音乐片段上的第一节拍点和第二节拍点之间的时间距离大于第一时长,三级节拍点生成系统104将第一节拍点确定为三级节拍点;或,响应于第二音乐片段上的第一节拍点和第三节拍点之间的时间距离大于第二时长,三级节拍点生成系统104将第一节拍点确定为三级节拍点。其中,三级节拍点集合是二级节拍点集合内经三级节拍点生成系统104输出的节拍点的集合。
[0055]
上述音乐的目标节拍点生成系统100可以应用于终端或服务器上,或同时应用于终端和服务器上。
[0056]
本领域技术人员可以知晓,上述终端和服务器的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。上述服务器可以仅为一个,或者上述服务器为几十个或几百个,或者更多数量。本技术实施例对终端的数量和设备类型、服务器的数量不加以限定。
[0057]
下述实施例以音乐的目标节拍点生成系统100应用于终端为例,进行解释说明。
[0058]
为筛选出重节奏的节拍点,图2是本技术一个示例性实施例提供的卡点标签的标记方法的流程图,以图2所示的方法应用于图1所示的卡点标签的标记系统,图2所示的方法包括:
[0059]
步骤220,确定音乐中的节拍点和节奏点;
[0060]
其中,节拍点是音乐基于节拍规律定位的音频信号点,节奏点是音乐基于音量峰值定位的音频信号点。
[0061]
在一个实施例中,各种节奏的音乐中每个小节都有一个明显的重拍,而且重拍都是该小节的第一拍。因此,只要检测出重拍音符对应的音频信号点,即可将该音频信号点作为节拍点。
[0062]
在一个实施例中,终端采用librosa(一种开源算法)提取音乐的节拍点。
[0063]
在一个实施例中,节奏点指音频信号的波峰点位,即音频信号波形的一个波峰。即音频信号波形的一个周期内的音量峰值。
[0064]
示意性的,图3示出了本技术一个示例性实施例提供的音频信号的示意图;其中,
节奏点301是音频信号的一个节奏点。其中,节奏点301位于音频信号的一个波峰处。
[0065]
在一个实施例中,终端首先在音乐的mel频谱上,设置能量窗;然后,终端将基于所述能量窗查询到的能量增长速度突变的音频信号点确定为所述节奏点;
[0066]
示意性的,图4示出了基于能量查询框定位节奏点的示意图,其中,图4中上半部分为音乐的声音谱,图4中下半部分为音乐的mel频谱,图4中下半部分邻接的两个矩形窗为能量窗,下半部分每两个邻接的矩形窗中的右窗表示一帧音频信号的节奏点处查询得到的能量,左窗表示一帧音频信号的节奏点的上一个波谷处查询得到的能量。通过能量窗查询到当前音频信号点的能量增长速度发生突变,终端将当前音频信号点作为节奏点。
[0067]
步骤240,基于节拍点和节奏点,确定音乐的目标节拍点;
[0068]
其中,目标节拍点是节拍点的子集。
[0069]
在一个实施例中,节拍点之间的时间间隔远大于节奏点之间的时间间隔,通过在节奏点上设置时间窗可确定得到目标节拍点。可选的,节拍点之间的时间间隔为0.5s,节奏点之间的时间间隔为120ms。
[0070]
在一个实施中,通过节奏点的节奏变化幅度对节奏点进行确定。
[0071]
在一个实施例中,通过节拍点之间的时间间隔确定得到目标节拍点。
[0072]
步骤260,在目标节拍点上标记音乐的卡点标签。
[0073]
其中,卡点标签用于标识音乐中用于多媒体拼接的音频信号点。在一个实施例中,基于卡点标签,终端可实现对至少一种形式的多媒体的拼接。可选的,基于卡点标签,终端可实现对至少两段视频的拼接;可选的,基于卡点标签,终端可实现对至少两段音频的拼接;在本技术中,以卡点标签应用于视频拼接举例说明。
[0074]
在一个实施例中,终端将在基于步骤240得到的目标节拍点上标记音乐的卡点标签。基于得到的卡点标签,用户可对视频进行拼接。
[0075]
综上所述,通过提取音乐的音量峰值所在的音频信号点,并在该音频信号点上设置筛选条件,实现对音乐中节拍点的筛选,使得筛选出的节拍点均能用于视频拼接。上述方法保证了筛选出的节拍点不仅符合人耳的听觉特性,还符合音乐的节奏特性,筛选出的节拍点均处于音乐的重节奏点位。
[0076]
为实现对上述筛选条件的设置,基于图2所示的可选实施例中,步骤240还包括以下步骤:
[0077]
步骤241,在第一节奏点上设置第一时间窗;
[0078]
其中,第一节奏点是节奏点中的任意一个,第一时间窗是以第一节奏点为中心设置的时间窗;
[0079]
示意性的,图5示出了第一节奏点与第一节拍点之间的位置关系的示意图,其中第一时间窗503为以第一节奏点501为中心设置的时间窗,可选的,时间窗的宽度可调节;可选的,根据输入的音乐对时间窗的宽度进行调节。
[0080]
可选的,第一时间窗的宽度为30ms;可选的,第一时间窗的宽度为50ms。
[0081]
步骤242,将第一节拍点确定为音乐的目标节拍点;
[0082]
其中,第一节拍点是存在于第一时间窗内的节拍点。
[0083]
结合参考图5,若第一时间窗503内存在第一节拍点502,将第一节拍点502确定为音乐的目标节拍点。
[0084]
在一个实施例中,在第一时间窗内存在第一节拍点的情况下,还包括以下步骤:
[0085]
s1:确定音乐在第一节奏点的节奏变化幅度。
[0086]
节奏变化幅度指音乐的能量变化幅度,第一节奏点的节奏变化幅度指音乐在第一节奏点上能量变化的幅度,能量变化幅度越大,即节奏变化幅度越大,则当前节奏点越适合视频拼接中的镜头转换。
[0087]
在一个实施例中,节奏变化幅度采用能量差值比例来表示。可选的,终端计算第一节奏点所处的波形波峰与所处的波形上一个波谷之间的能量差值比例;终端将能量差值比例作为节奏变化幅度。
[0088]
示意性的,结合参考图4,图4中下半部分邻接的两个矩形窗为能量窗,每两个邻接的矩形窗中的右窗表示一帧音频信号的节奏点处查询得到的能量e1,左窗表示一帧音频信号的节奏点的上一个波谷处查询得到的能量e2,计算(e1-e2)/e2,即为能量差值比例p。终端将能量差值比例p作为节奏变化幅度。
[0089]
s2:在节奏变化幅度不小于第一幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点。
[0090]
可选的,第一幅度阈值为工作人员预设的数值;可选的,根据输入的音乐对第一幅度阈值进行调节。
[0091]
示意性的,基于步骤s1得到的节奏变化幅度为0.3,第一幅度阈值为0.2,且第一时间窗内存在第一节拍点的情况下,终端将第一节拍点确定为音乐的目标节拍点;
[0092]
示意性的,基于步骤s1得到的节奏变化幅度为0.3,第一幅度阈值为0.35,且第一时间窗内存在第一节拍点的情况下,终端剔除第一节拍点。
[0093]
综上所述,通过提取、筛选音乐的音量峰值所在的音频信号点,并在该音频信号点上设置时间阈值框,实现对音乐中节拍点的筛选,使得筛选出的节拍点均能用于视频拼接。上述方法保证了筛选出的节拍点不仅符合人耳的听觉特性,还符合音乐的节奏特性,筛选出的节拍点均处于音乐的重节奏点位。
[0094]
为生成不同节奏片段的目标节拍点,图6示出了本技术一个示例性实施例的卡点标签的标记方法的流程图。
[0095]
步骤610,确定音乐中的节拍点和节奏点;
[0096]
其中,节拍点是音乐基于节拍规律定位的音频信号点,节奏点是音乐基于音量峰值定位的音频信号点。
[0097]
步骤620,将音乐剪切为第一音乐片段和第二音乐片段;
[0098]
其中,第一音乐片段的频率均值大于第二音乐片段的频率均值。
[0099]
在一个实施例中,第一音乐片段的频率均值大于第二音乐片段的频率均值即第一音乐片段的节奏比第二音乐片段的节奏快。
[0100]
在一个实施例中,基于音乐的音频基础特征,终端将音乐剪切为第一音乐片段和第二音乐片段。
[0101]
在一个实施例中,上述将音乐剪切为第一音乐片段和第二音乐片段的具体步骤包括以下步骤:
[0102]
步骤621,提取音乐基于短时傅里叶变换stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率;
[0103]
在一个实施例中,终端通过音乐的音频信号提取stft频谱图、mel频谱图以及时域特征过零率。
[0104]
步骤622,采用聚类算法对基于stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率进行二分类聚类,得到音乐的标签序列;
[0105]
其中,标签序列包含音乐的频率信息。
[0106]
在一个实施例中,聚类算法包括k-means、均值漂移聚类、基于密度的聚类算法、用高斯混合模型的最大期望聚类、凝聚层次聚类以及图团体检测聚类中的至少一种。本技术中以聚类算法为k-means举例说明。
[0107]
在一个实施例中,首先,终端通过音频信号的stft频谱图来提取音频信号的音谱、stft能量谱以及stft幅度谱;然后,终端将stft能量谱、stft幅度谱和mel频谱图进行高通滤波,并且将三个谱的低频带中无法表现出明显节奏变换的能量舍弃;接着,终端将滤波后的stft能量谱和时域特征过零率进行拼接,得到音频基础特征a,将滤波后的stft幅度谱和音谱进行拼接,得到音频基础特征b;再然后,终端采用k-means对音频基础特征a、音频基础特征b和音频基础特征c(由提取mel频谱得到)进行二分类聚类,得到两段特征标签序列(01序列)。
[0108]
步骤623,计算得到特征标签序列的分界线;
[0109]
在一个实施例中,终端首先设置滑动窗对特征标签序列中的异常值进行剔除,然后,终端根据特征标签序列计算出每段特征标签序列的长度、两段特征标签序列之间的距离以及距离之间的倍数;然后,终端根据距离和倍数设定距离阈值,在距离阈值上设置平滑窗,对标签进行平滑操作,其中,经过平滑的特征标签序列是一个完整的01序列,很少存在异常值;最后,终端确定01序列的分界线。
[0110]
步骤624,基于分界线,将音乐剪切为第一音乐片段和第二音乐片段。
[0111]
在一个实施例中,终端到01序列的分界线之后,对音频进行切片操作,然后根据音频位置来确定第一音乐片段和第二音乐片段。
[0112]
步骤630,在第一节奏点处于第一音乐片段,且节奏变化幅度不小于第二幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点;
[0113]
其中,第二幅度阈值、第三幅度阈值的设置与第一幅度阈值设置类似,上述已对第一幅度阈值展开说明,此处不再赘述。
[0114]
在一个实施例中,上述卡点标签的标记方法可应用于n种视频拼接方式,n为正整数,可选的,n种视频拼接方式包括基于视频文件的拼接、基于图片的拼接中的至少一种。
[0115]
在一个实施例中,当上述卡点标签的标记方法应用于第i种视频拼接方式时,响应于第一音乐片段上的第一节拍点和第二节拍点之间的时间距离大于第一时长,且第一节奏点处于第一音乐片段,且节奏变化幅度不小于第二幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点;
[0116]
其中,第一时长为第i种拼接方式中第一音乐片段上镜头转换的时长,i为不大于n的正整数。
[0117]
可选的,第i种视频拼接方式为基于视频文件的拼接,终端设置在第一音乐片段的区域内其镜头转换时间是第一时长,可选的,第一时长为2s。若第一音乐片段内的第一节拍点和第二节拍点之间的间隔大于第一时长,则将第一节拍点确定为音乐的目标节拍点;
[0118]
可选的,第i种视频拼接方式为基于图片的拼接,终端设置在第一音乐片段的区域内其镜头转换时间是第一时长,可选的,第一时长为1.5s。若第一音乐片段内的第一节拍点和第二节拍点之间的间隔大于第一时长,则将第一节拍点确定为音乐的目标节拍点。
[0119]
步骤640,在第一节奏点处于第二音乐片段,且节奏变化幅度不小于第三幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点;
[0120]
在一个实施例中,上述卡点标签的标记方法可应用于n种视频拼接方式,n为正整数。可选的,n种视频拼接方式包括基于视频文件的拼接、基于图片的拼接中的至少一种。
[0121]
在一个实施例中,当上述卡点标签的标记方法应用于第i种视频拼接方式时,响应于第二音乐片段上的第一节拍点和第三节拍点之间的时间距离大于第二时长,且第一节奏点处于第二音乐片段,且节奏变化幅度不小于第三幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点;
[0122]
其中,第二时长为第i种拼接方式中第二音乐片段上镜头转换的时长,i为不大于n的正整数。
[0123]
可选的,第i种拼接方式为基于视频文件的拼接,终端设置在第二音乐片段的区域内其镜头转换时间是第二时长,可选的,第二时长为1s。若第二音乐片段内的第一节拍点和第三节拍点之间的间隔大于第二时长,则将第一节拍点确定为音乐的目标节拍点;
[0124]
可选的,第i种拼接方式为基于图片的拼接,终端设置在第二音乐片段的区域内其镜头转换时间是第二时长,可选的,第二时长为0.4s。若第二音乐片段内的第一节拍点和第三节拍点之间的间隔大于第二时长,则将第一节拍点确定为音乐的目标节拍点。
[0125]
值得说明的一点是,上述步骤630和步骤640为当第一节奏点处于不同音乐片段时终端的执行步骤,当第一节奏点处于第一音乐片段时,终端执行步骤630,之后终端执行步骤650;当第一节奏点处于第二音乐片段时,终端执行步骤640,之后终端执行步骤650。
[0126]
步骤650,在目标节拍点上标记音乐的卡点标签。
[0127]
其中,卡点标签用于标识音乐中用于多媒体拼接的音频信号点。在一个实施例中,基于卡点标签,终端可实现对至少一种形式的文件的拼接。可选的,基于卡点标签,终端可实现对至少两段视频的拼接;可选的,基于卡点标签,终端可实现对至少两段音频的拼接;在本技术中,以卡点标签用于视频拼接举例说明。
[0128]
在一个实施例中,终端将基于步骤630或步骤640得到的目标节拍点输出为音乐的卡点。基于得到的卡点,用户可对视频进行拼接。
[0129]
综上所述,上述方法终端首先将音乐剪切为第一音乐片段和第二音乐片段,然后终端在第一音乐片段和第二音乐片段上设置节奏变化幅度的幅度阈值,接着终端筛选节奏变化幅度大于幅度阈值的节奏点,基于筛选得到的节奏点,终端进一步筛选得到节拍点。上述方法使得不同音乐片段设置有各自的筛选规则,方便了用户在进行视频拼接时选择点位,且,上述方法实现了音乐卡点的多元化生成,即,不同类型的音乐都能生成适用于视频拼接的点位。
[0130]
上述方法还在第一音乐片段和第二音乐片段上设置间隔阈值,当音乐片段上的节拍点之间的时间距离大于设置的间隔阈值,则终端将该节拍点筛选为目标节拍点。上述方法使得终端能够根据不同的视频拼接方式来设置定制化的音乐卡点标签的标记方法,确定得到的卡点标签适用于多种不同的视频拼接方式。
[0131]
在一个实施例中,图7示出了本技术一个示例性实施例的卡点标签的标记方法的流程图。
[0132]
示意性的,该卡点标签的标记方法的输出包括一级节拍点集合710,初始二级节拍点集合720,快、慢节奏片段二级节拍点的第一集合730,快、慢节奏片段二级节拍点的第二集合740以及快、慢节奏片段三级节拍点集合750。
[0133]
在一个实施例中,卡点标签的标记方法包括以下步骤:
[0134]
q1:一级节拍点集合710是由终端首先获取音频特征mel频谱,然后通过mel频谱计算得到的。其中节拍点是符合人耳听觉特性的节拍点位,其点位在时域上的间隔是有一定的规律性。一级节拍点集合是确定二级节拍点、三级节拍点的基础节拍点。
[0135]
终端通过mel频谱计算得到节奏点,其中,节奏点是可以定位音乐中节奏转换鼓点的位置。
[0136]
上述得到的节拍点和节奏点都是特别密集的点位,尤其是在节奏感特别强的音乐中,节奏点的间隔仅为一百多毫秒,因此,节奏点并不适用于视频拼接。
[0137]
q2:初始二级节拍点集合720是由终端在节奏点上设置时间阈值窗对一级节拍点集合710进行确定得到的。终端以每个节奏点为中心,以一定的时间阈值来设置时间窗,在窗内如果出现了节拍点,则该节拍点既符合一定的人耳听觉特性,又能够较为准确的定位到节奏点位置,最终,终端得到了较为稀疏并且综合两种点位优势的卡点点位。
[0138]
终端将节奏检测分段功能自动化。该方案计算多种音频基础特征(mel频谱,时域特征过零率,stft),使用k-means的方法对多种特征进行二分类聚类,然后对聚类结果进行合并,剔除异常值合并短时片段,得到快慢节奏的分界线,最后,终端依据这些分界线将整条音乐进行片段切割,得到快、慢节奏片段760。
[0139]
q3:快、慢节奏片段二级节拍点的第一集合730是由终端获取快、慢节奏片段730内的二级节拍点得到的。示意性的,快、慢节奏片段二级节拍点的第一集合730包括快节奏片段二级节拍点a1、慢节奏片段二级节拍点集合b1、快节奏片段二级节拍点a2、慢节奏片段二级节拍点集合b2、快节奏片段二级节拍点a3和慢节奏片段二级节拍点集合b3。
[0140]
为确定出快、慢节奏片段二级节拍点第二集合740,终端在每个快、慢节奏片段内通过特征能量来赋予节奏点的节奏变化幅度,然后在每一个快、慢节奏片段中使用幅度阈值来确定必打点。
[0141]
(1)节奏变化幅度计算:二级节拍点的节奏变化幅度是基于mel频谱的频带能量进行计算的。在一个实施例中,终端计算节奏点所处的波峰与其波形的前一个波谷的特征能量的差值比例,该差值比例即为节奏点的节奏变化幅度。节奏变化幅度越大代表着音乐在该点位上的节奏起伏幅度越大,越适合视频拼接中镜头转换。
[0142]
(2)幅度阈值设定:终端对快节奏片段和慢节奏片段分别设置不同的幅度阈值,基于此,快节奏片段采用第一幅度阈值对节奏点进行确定,慢节奏片段采用第二幅度阈值对节奏点进行确定,从而,确定出快、慢节奏片段二级节拍点第二集合740。
[0143]
q4:快、慢节奏片段二级节拍点的第二集合740是由终端获取符合节奏变化幅度的节奏点对应的二级节拍点得到的。示意性的,快、慢节奏片段二级节拍点的第二集合740包括快节奏片段二级节拍点a1、快节奏片段二级节拍点a2、慢节奏片段二级节拍点b2、慢节奏片段二级节拍点b3。
[0144]
为确定得到快、慢节奏片段三级节拍点集合750,针对不同的拼接方式对二级节拍点进行确定。
[0145]
在一个实施例中,终端针对基于视频文件的拼接方式和基于图片的拼接方式两种拼接方式设置了两种确定方式。针对基于视频文件的拼接方式,终端设置在慢节奏片段的区域内其镜头转换时间是第一时长,可选的,第一时长为2s,在快节奏片段的区域内其镜头转换时间是第二时长,可选的,第二时长为1s。若慢节奏片段内的二级节拍点之间的间隔大于第一时长,则将该二级节拍点确定为三级节拍点;若快节奏片段内的二级节拍点之间的间隔大于第二时长,则将该二级节拍点确定为三级节拍点。
[0146]
针对基于图片的拼接方式,终端设置在慢节奏片段的区域内其镜头转换时间是第一时长,可选的,第一时长为1.5s,在快节奏片段的区域内其镜头转换时间是第二时长,可选的,第二时长为0.4s。若慢节奏片段内的二级节拍点之间的间隔大于第一时长,则将该二级节拍点确定为三级节拍点;若快节奏片段内的二级节拍点之间的间隔大于第二时长,则将该二级节拍点确定为三级节拍点。
[0147]
q5:快、慢节奏片段三级节拍点集合750是由终端确定符合间隔阈值的节拍点得到的,具体过程参考上述q4,示意性的,快、慢节奏片段三级节拍点集合750包括快节奏片段三级节拍点a1和快节奏片段三级节拍点a2。
[0148]
综上所述,上述方法通过提取、筛选音乐的音量峰值所在的音频信号点,并在该音频信号点上设置时间阈值框,实现对音乐中节拍点的筛选,使得筛选出的节拍点均能用于视频拼接。上述方法保证了筛选出的节拍点不仅符合人耳的听觉特性,还符合音乐的节奏特性,筛选出的节拍点均处于音乐的重节奏点位。
[0149]
上述方法还使得不同音乐片段设置有各自的筛选规则,方便了用户在进行视频拼接时选择点位,且,上述方法实现了音乐卡点的多元化生成,即,不同类型的音乐都能生成适用于视频拼接的点位。
[0150]
上述方法还在第一音乐片段和第二音乐片段上设置间隔阈值,当音乐片段上的节拍点之间的时间距离大于设置的间隔阈值,则终端将该节拍点筛选为目标节拍点。上述方法使得终端能够根据不同的视频拼接方式来设置定制化的音乐卡点标签的标记方法,筛选得到的卡点标签适用于多种不同的视频拼接方式。
[0151]
在一个可选的实施例中,图8示出了本技术一个示例性实施例的卡点标签的标记装置的结构框图,由图8可得,该装置包括:
[0152]
确定模块801,用于确定音乐中的节拍点和节奏点,节拍点是音乐基于节拍规律定位的音频信号点,节奏点是音乐基于音量峰值定位的音频信号点;筛选模块802,用于基于节拍点和节奏点,确定音乐的目标节拍点,目标节拍点是节拍点的子集;
[0153]
标记模块803,用于在目标节拍点上标记音乐的卡点标签,卡点标签用于标识音乐中用于多媒体拼接的音频信号点。
[0154]
在一个可选的实施例中,筛选模块802还用于在第一节奏点上设置第一时间窗,第一节奏点是节奏点中的任意一个,第一时间窗是以第一节奏点为中心设置的时间窗。
[0155]
在一个可选的实施例中,筛选模块802还用于将第一节拍点确定为音乐的目标节拍点,第一节拍点是存在于第一时间窗内的节拍点。
[0156]
在一个可选的实施例中,筛选模块802还用于确定音乐在第一节奏点的节奏变化
幅度。
[0157]
在一个可选的实施例中,筛选模块802还用于在节奏变化幅度不小于第一幅度阈值,且第一时间窗内存在第一节拍点的情况下,将第一节拍点确定为音乐的目标节拍点。
[0158]
在一个可选的实施例中,节奏变化幅度采用能量差值比例来表示。
[0159]
在一个可选的实施例中,筛选模块802还用于计算第一节奏点所处的波形波峰与所处的波形上一个波谷之间的能量差值比例。
[0160]
在一个可选的实施例中,确定模块801还用于在音乐的梅尔频谱mel上,设置能量窗。
[0161]
在一个可选的实施例中,确定模块801还用于将基于能量窗查询到的能量增长速度突变的音频信号点确定为节奏点。
[0162]
在一个可选的实施例中,筛选模块802还用于将音乐剪切为第一音乐片段和第二音乐片段。
[0163]
其中,第一音乐片段的频率均值大于第二音乐片段的频率均值。
[0164]
在一个可选的实施例中,筛选模块802还用于提取音乐基于短时傅里叶变换stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率。
[0165]
在一个可选的实施例中,筛选模块802还用于采用聚类算法对基于stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率进行二分类聚类,得到音乐的标签序列,标签序列包含音乐的频率信息。
[0166]
在一个可选的实施例中,筛选模块802还用于计算得到标签序列的分界线。
[0167]
在一个可选的实施例中,筛选模块802还用于基于分界线,将音乐剪切为第一音乐片段和第二音乐片段。
[0168]
在一个可选的实施例中,筛选模块802还用于在第一节奏点处于第一音乐片段,且节奏变化幅度不小于第二幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点。
[0169]
在一个可选的实施例中,筛选模块802还用于在第一节奏点处于第二音乐片段,且节奏变化幅度不小于第三幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点。
[0170]
在一个可选的实施例中,上述卡点标签的标记装置应用于n种拼接方式,n为正整数,i为不大于n的正整数。
[0171]
在一个可选的实施例中,筛选模块802还用于当装置应用于第i种视频拼接方式时,响应于第一音乐片段上的第一节拍点和第二节拍点之间的时间距离大于第一时长,且第一节奏点处于第一音乐片段,且节奏变化幅度不小于第二幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点;
[0172]
其中,第一时长为第i种拼接方式中第一音乐片段上镜头转换的时长。
[0173]
在一个可选的实施例中,筛选模块802还用于当装置应用于第i种视频拼接方式时,响应于第二音乐片段上的第一节拍点和第三节拍点之间的时间距离大于第二时长,且第一节奏点处于第二音乐片段,且节奏变化幅度不小于第三幅度阈值的情况下,将第一节拍点确定为音乐的目标节拍点;
[0174]
其中,第二时长为第i种拼接方式中第二音乐片段上镜头转换的时长。
[0175]
综上所述,上述装置通过提取、确定音乐的音量峰值所在的音频信号点,并在该音频信号点上设置时间阈值框,实现对音乐中节拍点的确定,使得确定出的节拍点均能用于
视频拼接。上述装置保证了确定出的节拍点不仅符合人耳的听觉特性,还符合音乐的节奏特性,确定出的节拍点均处于音乐的重节奏点位。
[0176]
上述装置还使得不同音乐片段设置有各自的确定规则,方便了用户在进行视频拼接时选择点位,且,上述装置实现了音乐卡点的多元化生成,即,不同类型的音乐都能生成适用于视频拼接的点位。
[0177]
上述装置还在第一音乐片段和第二音乐片段上设置间隔阈值,当音乐片段上的节拍点之间的时间距离大于设置的间隔阈值,则终端将该节拍点确定为目标节拍点。上述装置使得终端能够根据不同的视频拼接方式来设置定制化的音乐卡点标签的标记规则,确定得到的卡点标签适用于多种不同的视频拼接方式。
[0178]
图9示出了本技术一个示例性实施例提供的计算机设备900的结构框图。该计算机设备900可以是终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、智能电视等。计算机设备900还可以是服务器。
[0179]
通常,计算机设备900包括有:处理器901和存储器902。
[0180]
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0181]
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本技术中方法实施例提供的卡点标签的标记方法。
[0182]
在一些实施例中,计算机设备900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。
[0183]
外围设备接口903可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不
加以限定。
[0184]
射频电路904用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0185]
显示屏905用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置在计算机设备900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在计算机设备900的不同表面或呈折叠设计;在另一些实施例中,显示屏905可以是柔性显示屏,设置在计算机设备900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0186]
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单温闪光灯,也可以是双温闪光灯。双温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同温下的光线补偿。
[0187]
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
[0188]
定位组件908用于定位计算机设备900的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件908可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组
件。
[0189]
电源909用于为计算机设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0190]
在一些实施例中,计算机设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
[0191]
加速度传感器911可以检测以计算机设备900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器99还可以用于游戏或者用户的运动数据的采集。
[0192]
陀螺仪传感器912可以检测计算机设备900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对计算机设备900的3d动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0193]
压力传感器913以设置在计算机设备900的侧边框和/或显示屏905的下层。当压力传感器913设置在计算机设备900的侧边框时,可以检测用户对计算机设备900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时,由处理器901根据用户对显示屏905的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0194]
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置在计算机设备900的正面、背面或侧面。当计算机设备900上设置有物理按键或厂商logo时,指纹传感器914可以与物理按键或厂商logo集成在一起。
[0195]
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制显示屏905的显示亮度。具体地,当环境光强度较高时,调高显示屏905的显示亮度;当环境光强度较低时,调低显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
[0196]
接近传感器916,也称距离传感器,通常设置在计算机设备900的前面板。接近传感器916用于采集用户与计算机设备900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与计算机设备900的正面之间的距离逐渐变小时,由处理器901控制显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与计算机设备900的正面之间的距离逐渐变大时,由处理器901控制显示屏905从息屏状态切换为亮屏状态。
[0197]
本领域技术人员可以理解,图9中示出的结构并不构成对计算机设备900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0198]
本技术还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的卡点标签的标记方法。
[0199]
本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的卡点标签的标记方法。
[0200]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0201]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0202]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种卡点标签的标记方法,其特征在于,所述方法包括:确定音乐中的节拍点和节奏点,所述节拍点是所述音乐基于节拍规律定位的音频信号点,所述节奏点是所述音乐基于音量峰值定位的音频信号点;基于所述节拍点和所述节奏点,确定所述音乐的目标节拍点,所述目标节拍点是所述节拍点的子集;在所述目标节拍点上标记所述音乐的卡点标签,所述卡点标签用于标识所述音乐中用于多媒体拼接的音频信号点。2.根据权利要求1所述的方法,其特征在于,所述基于所述节拍点和所述节奏点,确定所述音乐的目标节拍点,包括:在第一节奏点上设置第一时间窗,所述第一节奏点是所述节奏点中的任意一个,所述第一时间窗是以所述第一节奏点为中心设置的时间窗;将第一节拍点确定为所述音乐的目标节拍点,所述第一节拍点是存在于所述第一时间窗内的节拍点。3.根据权利要求2所述的方法,其特征在于,所述将第一节拍点确定为所述音乐的目标节拍点,包括:确定所述音乐在所述第一节奏点的节奏变化幅度;在所述节奏变化幅度不小于第一幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点。4.根据权利要求3所述的方法,其特征在于,所述节奏变化幅度采用能量差值比例来表示;所述确定所述音乐在所述第一节奏点上的节奏变化幅度,包括:计算所述第一节奏点所处的波形波峰与所处的波形上一个波谷之间的能量差值比例。5.根据权利要求1至4任一所述的方法,其特征在于,所述确定所述音乐中的节奏点,包括:在所述音乐的梅尔频谱mel上,设置能量窗;将基于所述能量窗查询到的能量增长速度突变的音频信号点确定为所述节奏点。6.根据权利要求3所述的方法,其特征在于,所述方法还包括:将所述音乐剪切为第一音乐片段和第二音乐片段,所述第一音乐片段的频率均值大于所述第二音乐片段的频率均值;所述在所述节奏变化幅度不小于第一幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点,包括:在所述第一节奏点处于所述第一音乐片段,且所述节奏变化幅度不小于第二幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点;在所述第一节奏点处于所述第二音乐片段,且所述节奏变化幅度不小于第三幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点。7.根据权利要求6所述的方法,其特征在于,所述将所述音乐剪切为第一音乐片段和第二音乐片段,包括:提取所述音乐基于短时傅里叶变换stft得到的音频基础特征、基于mel得到的音频基础特征以及时域特征过零率;
采用聚类算法对所述基于stft得到的音频基础特征、所述基于mel得到的音频基础特征以及所述时域特征过零率进行二分类聚类,得到所述音乐的标签序列,所述标签序列包含音乐的频率信息;计算得到所述标签序列的分界线;基于所述分界线,将所述音乐剪切为第一音乐片段和第二音乐片段。8.根据权利要求6所述的方法,其特征在于,所述方法应用于n种视频拼接方式,n为正整数;所述在所述第一节奏点处于所述第一音乐片段,且所述节奏变化幅度不小于第二幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点,包括:当所述方法应用于第i种视频拼接方式时,响应于所述第一音乐片段上的第一节拍点和第二节拍点之间的时间距离大于第一时长,且所述第一节奏点处于所述第一音乐片段,且所述节奏变化幅度不小于第二幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点;其中,所述第一时长为所述第i种拼接方式中第一音乐片段上镜头转换的时长,i为不大于n的正整数。9.根据权利要求6所述的方法,其特征在于,所述方法应用于n种视频拼接方式,n为正整数;所述在所述第一节奏点处于所述第二音乐片段,且所述节奏变化幅度不小于第三幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点,包括:当所述方法应用于所述第i种视频拼接方式时,响应于所述第二音乐片段上的第一节拍点和第三节拍点之间的时间距离大于第二时长,且所述第一节奏点处于所述第二音乐片段,且所述节奏变化幅度不小于第三幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点;其中,所述第二时长为所述第i种拼接方式中第二音乐片段上镜头转换的时长,i为不大于n的正整数。10.一种卡点标签的标记装置,其特征在于,所述装置包括:确定模块,用于确定所述音乐中的节拍点和节奏点,所述节拍点是所述音乐基于节拍规律定位的音频信号点,所述节奏点是所述音乐基于音量峰值定位的音频信号点;筛选模块,用于基于所述节拍点和所述节奏点,确定所述音乐的目标节拍点,所述目标节拍点是所述节拍点的子集;标记模块,用于在所述目标节拍点上标记所述音乐的卡点标签,所述卡点标签用于标识所述音乐中用于多媒体拼接的音频信号点。11.根据权利要求10所述的装置,其特征在于,所述筛选模块,还用于在第一节奏点上设置第一时间窗,所述第一节奏点是所述节奏点中的任意一个,所述第一时间窗是以所述第一节奏点为中心设置的时间窗;所述筛选模块,还用于将第一节拍点确定为所述音乐的目标节拍点,所述第一节拍点是存在于所述第一时间窗内的节拍点。12.根据权利要求11所述的装置,其特征在于,所述筛选模块,还用于确定所述音乐在所述第一节奏点的节奏变化幅度;
所述筛选模块,还用于在所述节奏变化幅度不小于第一幅度阈值的情况下,将所述第一节拍点确定为所述音乐的目标节拍点。13.根据权利要求12所述的装置,其特征在于,所述节奏变化幅度采用能量差值比例来表示;所述筛选模块,还用于计算所述第一节奏点所处的波形波峰与所处的波形上一个波谷之间的能量差值比例。14.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一所述的卡点标签的标记方法。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至9任一所述的卡点标签的标记方法。

技术总结


本申请公开了一种卡点标签的标记方法、装置、设备及介质,属于音频处理领域。所述方法包括:首先,确定音乐中的节拍点和节奏点,获取第一节拍点集合,然后,将音乐剪切为第一音乐片段和第二音乐片段,通过在节奏点上设置时间窗以及结合不同音乐片段在节奏点上的节奏变化幅度,确定出第二节拍点集合,最后,结合不同音乐片段上节拍点之间的时间间隔确定出第三节拍点集合,在第三节拍点集合上标记音乐的卡点标签。上述方法保证了确定出的卡点标签不仅符合人耳的听觉特性,还符合音乐的节奏特性,筛选出的卡点均处于音乐的重节奏点位。选出的卡点均处于音乐的重节奏点位。选出的卡点均处于音乐的重节奏点位。


技术研发人员:

冯鑫

受保护的技术使用者:

腾讯科技(深圳)有限公司

技术研发日:

2021.04.25

技术公布日:

2022/10/25

本文发布于:2024-09-23 03:29:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/21214.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:节拍   所述   节奏   音乐
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议