首页 > 专利信息

一种基于倒频谱分析的快速音频检索方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202011145738.9

(22)申请日 2020.10.23

(71)申请人昆明理工大学

地址 650500 云南省昆明市呈贡区吴家营

街道景明南路727号

(72)发明人邵玉斌　杨贵安　龙华　杜庆治　

刘晶　唐维康　陈亮　

(74)专利代理机构北京方圆嘉禾知识产权代理

有限公司 11385

代理人王月松

(51)Int.Cl.

G06F 16/61(2019.01)

G06F 16/683(2019.01)

G06K 9/62(2006.01)

(54)发明名称

一种基于倒频谱分析的快速音频检索方法

(57)摘要

本发明公开了一种基于倒频谱分析的快速

音频检索方法，属于音频检索技术领域。本发明

包括：第一步，构建检索音频特征库，根据信号能

量比值循环对检索音频库每一段音频提取频域

特征构建出检索音频特征库，以供检索使用；第

二步，提取样本音频指纹，根据信号能量比值对

用户输入的样本音频提取频域特征形成样本音

频特征；第三步，根据样本长度确定最佳混合点，

样本音频特征与检索音频特征在最佳混合点混

合使得对混合特征的倒频谱分析结果更为精确；

第四步，样本音频检索，用倒频谱分析的方法寻

检索音频特征库中与样本音频特征相似度最

高的检索音频特征，对应检索音频信息即为样本

音频检索结果。本方法提取的音频特征代表性强

且占用空间小；在检索时，倒频谱分析直接针对

两个音频特征的混合结果进行，且倒谱分析仅对

混合特征做傅里叶相关变换，计算量小且计算速

度快。因此，针对现有技术在音频检索应用中检索效率低的缺点，本发明在保证音频检索准确率

的前提下极大提高了检索效率。权利要求书1页说明书6页附图5页CN 112214635 A 2021.01.12

C N 112214635

1.一种基于倒频谱分析的快速音频检索方法，其特征在于：

S1、建检索音频特征库，根据信号能量比值循环对检索音频库每一段音频提取频域特征构建出检索音频特征库，以供检索使用；

S2、提取样本音频指纹，根据信号能量比值对用户输入的样本音频提取频域特征形成样本音频特征；

S3、根据样本长度确定最佳混合点，样本音频特征与检索音频特征在最佳混合点混合使得对混合特征的倒频谱分析结果更为精确；

S4、样本音频检索，用倒频谱分析的方法寻检索音频特征库中与样本音频特征相似度最高的检索音频特征，对应检索音频信息即为样本音频检索结果。

2.根据权利要求1所述的一种基于倒频谱分析的快速音频检索方法，其特征在于：步骤S1，构建音频特征库；遍历检索音频库中每一段音频，提取一段音频频域下每一帧信号能量比值最大点所对应的频率位置作为特征，提取结果以一组一维数组表示一段检索音频特征，每一段检索音频特征以各自检索音频信息命名，从而构建出检索音频特征库。

3.根据权利要求1所述的一种基于倒频谱分析的快速音频检索方法，其特征在于：步骤S2，提取样本音频指纹，样本音频特征用于与检索音频特征库特征进行匹配；提取样本音频频域下每一帧信号能量比值最大点所对应的频率位置作为特征，提取结果以一组一维数组表示一段样本音频特征。

4.根据权利要求2和3所述的一种基于倒频谱分析的快速音频检索方法，其特征在于：根据频域下信号能量比值提取音频特征，频域下每一帧信号从第一个数据点开始，依次向下，将当前数据点的能量值与整

帧数据点能量之和相除，所得结果即为一列能量比值，出此列能量比值中最大值所对应的频率位置，按照此方式对一段音频的所有帧进行计算，计算结果以一组一维数组(维数即音频帧数)表示一段音频特征。

5.根据权利要求1所述的一种基于倒频谱分析的快速音频检索方法，其特征在于：步骤S3，根据样本长度确定最佳混合点；将检索音频库中第一段检索音频作为原始音频，在原始音频中截取与样本音频时长一致的音频片段作为待检音频，待检音频特征与原始音频特征以窗口的方式滑动混合，对混合特征进行倒谱分析得出两特征之间最高相似度对应的混合点作为最佳混合点。

6.根据权利要求1所述的一种基于倒频谱分析的快速音频检索方法，其特征在于：步骤S4，样本音频检索；样本音频特征循环与音频特征库中的每一段检索音频特征以最佳混合点进行混合得到混合特征，对混合特征进行倒谱分析计算出两音频特征之间的相似度，记录相似度结果和对应检索音频信息，返回记录中最高相似度对应的检索音频信息即为音频检索结果。

权　利　要　求　书1/1页CN 112214635 A

一种基于倒频谱分析的快速音频检索方法

技术领域

[0001]本发明涉及一种基于倒频谱分析的快速音频检索方法，本发明属于音频检索技术领域。

背景技术

[0002]随着大数据时代的到来，互联网上的多媒体信息量呈爆炸式增长。传统的基于文本标注的音频检索，针对不同领域需要建立不同的标注库，此方法不具备普适性，不能满足人们对多媒体检索的需求。因此提出了构建音频指纹库，通过哈希索引方式进行音频检索的方法。后续大多音频检索算法均基于该思想进行改进，但均存在检索准确度和检索效率不能平衡兼顾的关键问题。

发明内容

[0003]本发明的目的在于提出一种基于倒频谱分析的快速音频检索方法，能够在保证检索准确度的前提下大大提升检索效率。

[0004]为达此目的，本发明采用以下技术方案：

[0005]S1、建检索音频特征库，根据信号能量比值循环对检索音频库每一段音频提取频域特征构建出检索音频特征库，以供检索使用；

[0006]S2、提取样本音频指纹，根据信号能量比值对用户输入的样本音频提取频域特征形成样本音频特征；

[0007]S3、根据样本长度确定最佳混合点，样本音频特征与检索音频特征在最佳混合点混合使得对混合特征的倒频谱分析结果更为精确；

[0008]S4、样本音频检索，用倒频谱分析的方法寻检索音频特征库中与样本音频特征相似度最高的检索音频特征，对应检索音频信息即为样本音频检索结果；

[0009]优先地，在进行步骤S1和S2之前，对所述根据频域下信号能量比值提取音频特征的方法进行说明，进一步包括：

[0010]频域下每一帧信号从第一个数据点开始，依次向下，将当前数据点的能量值与整帧数据点能量之和相除，所得结果即为一列能量比值，计算如式(1)所示：

式中，Er表示能量比值，E表示能量，k t表示对应时间点，k f表示对应频率点，Q表示频率上限；

[0011]出此列能量比值中最大值所对应的频率位置，按照此方式对一段音频的所有帧进行计算，计算结果以一组一维数组(维数即音频帧数)表示一段音频特征；

[0012]优先地，所述步骤S1包括：

[0013]S1.1、对检索音频信号分帧加窗后所得每一帧信号进行傅里叶变换；

[0014]S1.2、提取频域下每一帧信号能量比值最大点所对应的频率位置作为特征，提取结果以一组一维数组表示一段检索音频特征，长度为N的一维检索音频特征F T表示如下：

F T＝(f t1 f t2 f t3 … f tN) (2)

[0015]S1.3、以S1.1和S1.2的方式遍历检索音频库所有音频，每一段检索音频特征以各自检索音频信息命名，从而构建出检索音频特征库；

[0016]优先地，所述步骤S2包括：

[0017]S2.1、用户输入任一检索音频的音频片段作为样本音频信号，音频片段时长为R 秒，可带有一定信噪比的白噪声；

[0018]S2.2、对样本音频信号分帧加窗后所得每一帧信号进行傅里叶变换；

[0019]S2.3、提取频域下每一帧信号能量比值最大点所对应的频率位置作为特征，提取结果以一组一维数组表示一段样本音频特征，，长度为M的一维样本音频特征F S表示如下：

F S＝(f s1 f s2 f s3 … f sM) (3)

[0020]优先地，所述步骤S3包括：

[0021]S3.1、检索音频库中第一段检索音频作为原始音频，在原始音频中截取与R秒的音频片段作为待检音频；

[0022]S3.2、提取待检音频特征，长度为L1；

[0023]S3.3、待检音频特征与长度为L2的原始音频特征从第一个点处开始混合，直至L2减L1处结束；

[0024]S3.4、对S3.3每一次混合结果进行傅里叶变换、取模值、求对数、逆傅里叶变换后便得到倒谱域数据，消除倒谱域数据的自相关峰后出前一半数据中的峰值，根据峰值计算待检音频特征和原始音频特征之间的相似度，记录相似度结果和对应混合点信息，返回记录中最高相似度对应的混合点信息即为此长度样本音频特征的最佳混合点τ；[0025]优先地，所述步骤S4包括：

[0026]S4.1、样本音频特征以步骤S3计算出的最佳混点与检索音频特征进行混合得到混合特征；

[0027]S4.2、对S4.1所得混合特征进行傅里叶变换、取模值、求对数、逆傅里叶变换后便得到倒谱域数据，消除倒谱域数据的自相关峰后出前一半数据中的峰值，根据峰值计算样本音频特征和检索音频特征之间的相似度；

[0028]检索音频特征和样本音频特征均为一维数组，因此可以看作两个波形信号，通过对混合信号进行倒频谱分析计算两个波形信号之间相似度的原理如下：

[0029]假设检索音频特征信号为x1(t)，样本音频特征信号为x2(t)：

其中τ(τ＞0)为最佳混合点，即检索音频特征信号x1(t)和样本音频特征信号x2(t)之间的时间延迟，a1和a2为信号的衰减因子，且a1∈(0,1)，a2∈(0,1)；

[0030]混合信号构造为：

y(t)＝x(t)*(a1δ(t)+a2δ(t-τ)) (5)

[0031]依据功率倒频谱定义，对混合信号进行倒频谱分析结果如下：

由式(3)可以看出，混合信号的功率倒频谱中，在最佳混合点位置及其整数倍位置上有冲激峰量。消除倒频谱中的自相关峰干扰，从前一半功率倒频谱中出冲击峰，根据冲击峰计算得到相似度；

[0032]S4.3、样本特征循环与检索音频特征库中每一段检索音频特征进行S4.1和S4.2，记录相似度结果和对应检索音频信息，返回记录中最高相似度对应的检索音频信息即为样本音频检索结果；

[0033]与传统哈希检索需要对两个音频指纹中每一个数据点对的索引值进行匹配的方式相比较，本发明的检索方式直接对两个音频特征的混合结果进行倒频谱分析得出相似度，且倒谱分析仅对混合结果做傅里叶相关变换，计算量小、计算速度快。

附图说明

[0034]图1为本发明音频检索方法具体流程图

[0035]图2为本发明特征提取示意图

[0036]图3为本发明构建检索音频特征库流程图

[0037]图4为本发明提取样本音频特征流程图

[0038]图5为本发明音频特征波形图

[0039]图6为本发明根据样本长度确定最佳混合点流程图

[0040]图7为本发明混合特征倒频谱分析流程图

[0041]图8为本发明混合特征倒谱分析结果

具体实施方式

[0042]下面结合附图并通过具体实施方式来进一步说明本发明的方案。

[0043]为了克服现有技术不能平衡兼顾检索准确度和检索效率的问题，本发明实施例提供了一种基于倒频谱分析的快速音频检索方法，如图1所示，包括以下操作：

[0044]S1、建检索音频特征库，根据信号能量比值循环对检索音频库每一段音频提取频域特征构建出检索音频特征库，以供检索使用；

[0045]S2、提取样本音频指纹，根据信号能量比值对用户输入的样本音频提取频域特征形成样本音频特征；

[0046]S3、根据样本长度确定最佳混合点，样本音频特征与检索音频特征在最佳混合点混合使得对混合特征的倒频谱分析结果更为精确；

[0047]S4、样本音频检索，用倒频谱分析的方法寻检索音频特征库中与样本音频特征相似度最高的检索音频特征，对应检索音频信息即为样本音频检索结果；

[0048]在进行步骤S1和S2之前，需要对实施例中根据频域下信号能量比值提取音频特征的方法进行说明：

[0049]如图2所示，频域下每一帧信号从第一个数据点开始，依次向下，将当前数据点的

本文发布于:2024-09-21 12:29:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/440624.html

上一篇：数字码编码与零件代码检索数据技术[发明专利]

下一篇：一种基于语音分类识别的新闻视频检索方法[发明专利]

标签：音频检索特征样本混合

留言与评论（共有 0 条评论）