首页 > 专利查询

一种音频信号相似度检测方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201810302809.8

(22)申请日 2018.04.06

(71)申请人东莞市华睿电子科技有限公司

地址 523073 广东省东莞市南城区西平下

手新村三巷35号403室

(72)发明人向敏明　

(51)Int.Cl.

G10L 25/51(2013.01)

G10L 25/78(2013.01)

(54)发明名称

一种音频信号相似度检测方法

(57)摘要

本发明提供了一种音频信号相似度检测方

法，通过获取待检测相似度的第一音频信号和第

二音频信号；分别对所述第一音频信号和第二音

频信号依次进行快速傅里叶变换、谱幅度值和谱

熵计算，根据所述谱熵确定所述第一音频信号和

第二音频信号是否均为语音信号；若均为语音信

号则计算其相似度，本发明所提供的音频信号检

测方法，由于仅仅涉及到对音频信号本身属性的

计算，不涉及到人工智能的语义分析，

仅仅通过语音识别，得到音频信号的相似度，因次为音频

信号的检测提供了便利。权利要求书2页说明书5页附图1页CN 108597537 A 2018.09.28

C N 108597537

1.一种音频信号相似度检测方法，其特征在于，所述方法包括：

获取待检测相似度的第一音频信号和第二音频信号；

分别对所述第一音频信号和第二音频信号进行快速傅里叶变换得到对应的第一频域信号和第二频域信号；

根据所述第一频域信号计算第一谱幅度值和根据所述第二频域信号计算第二谱幅度值；

分别计算所述第一谱幅度值和所述第二谱幅度值的概率密度，根据所述概率密度计算所述音频信号的谱熵，以及根据所述谱熵确定所述第一音频信号和第二音频信号是否均为语音信号；

若均为语音信号则识别出第一音频信号中含有的第一语言信息和识别出第二音频信号中含有的第二语音信息；

计算出所述第一语音信息和第二语音信息的相似度，并将所述相似度认定为所述第一音频信号和第二音频信号的相似度。

2.根据权利要求1所述的音频信号相似度检测方法，其特征在于，所述根据所述第一频域信号计算第一谱幅度值和根据所述第二频域信号计算第二谱幅度值的步骤中，采用以下公式进行计算：

其中，X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值，z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度，N表示快速傅里叶变换的变化长度，k小于或等于N，exp(-j2πkn/N)表示幅角为2π的kn/N倍的复数。

3.根据权利要求1所述的音频信号相似度检测方法，其特征在于，所述计算所述第一谱幅度值和所述第二谱幅度值的概率密度的步骤包括：

根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量；

根据所述总能量以及所述谱幅度值计算概率密度。

4.根据权利要求3所述的音频信号相似度检测方法，其特征在于，所述带噪语音功率谱总能量的计算公式为：

其中，E sum(y)表示第y个音频信号所在帧的带噪语音功率谱总能量,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值，N表示快速傅里叶变换的变化长度。

5.根据权利要求4所述的音频信号相似度检测方法，其特征在于，所述根据所述总能量以及所述谱幅度值计算概率密度的步骤中，采用以下公式进行计算：

D(k,y)＝|X(k,y)|2/E sum(y)；

其中，D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度，X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值。

6.根据权利要求5所述的音频信号相似度检测方法，其特征在于，根据所述概率密度计算所述音频信号的谱熵的具体过程：

其中，H(y)表示第y个音频信号的谱熵，D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。

7.根据权利要求6所述的音频信号相似度检测方法，其特征在于，所述根据所述谱熵确定所述音频信号是否为语音信号的步骤包括：

计算所述音频信号的能量；

根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号；

所述计算所述音频信号的能量的公式为：

其中，E(y)表示第y个音频信号的能量，M表示音频信号所在帧的帧长，z(n,y)表示第y 个音频信号所在帧的音频中的第n个点的幅度；

根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号的步骤包括：

判断P(y)是否大于预置门限值，若是，则确定音频信号是语音信号，若否，则确定音频信号不是语音信号，其中，

8.根据权利要求7所述的音频信号相似度检测方法，其特征在于，所述若均为语音信号则识别出第一音频信号中含有的第一语言信息和识别出第二音频信号中含有的第二语音信息的步骤包括：

将音频信号与数据库中存储的数据进行比对，或者将所述音频信号发送至云端服务器，并获取云端服务器返回的与第一音频信号和第二音频信号相对应的第一语音信息和第二语音信息。

9.根据权利要求7所述的音频信号相似度检测方法，其特征在于，所述计算出所述第一语音信息和第二语

音信息的相似度的步骤包括：

对识别出的第一语音信息和第二语音信息中包含字符进行逐一比对；

计算相同字符所占全部字符的比例，将所述比例判定为相似度。

10.根据权利要求7所述的音频信号相似度检测方法，其特征在于，所述计算出所述第一语音信息和第二语音信息的相似度的步骤包括：

将第一语音信息和第二语音信平均分成不同的语音片段；

逐条相对应的语音片段进行其中含有字符的比对，计算每个相对应语音片段的相似度；

对得到的各个语音片段的相似度进行加权计算，得到平均相似度，将所述平均相似度判定为第一语音信息和第二语音信息的相似度。

一种音频信号相似度检测方法

技术领域

[0001]本发明数据处理领域，尤其涉及一种音频信号相似度检测方法。

背景技术

[0002]音频信号处理是一个复杂的交叉技术领域。近年来，音频处理技术得到了广泛的应用。

[0003]音频处理的基础是语音检测，音频检测的目的是检测语音信号是否存在。[0004]现有技术中，音频检测的过程通常是：获取各音频信号，从各音频信号中提取特征参数进行语义分析，再根据语义分析的结果获知该音频信号是否为语音。

[0005]但是，语义分析需要进行大量的计算和模板的匹配，影响了音频检测的效率。[0006]因此，现有技术有待于进一步的改进。

发明内容

[0007]鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种音频信号相似度检测方法，克服现有技术中音频检测效率低缺陷。

[0008]本发明提供的实施例为：一种音频信号相似度检测方法，其中，所述方法包括：[0009]获取待检测相似度的第一音频信号和第二音频信号；

[0010]分别对所述第一音频信号和第二音频信号进行快速傅里叶变换得到对应的第一频域信号和第二频域信号；

[0011]根据所述第一频域信号计算第一谱幅度值和根据所述第二频域信号计算第二谱幅度值；

[0012]分别计算所述第一谱幅度值和所述第二谱幅度值的概率密度，根据所述概率密度计算所述音频信号的谱熵，以及根据所述谱熵确定所述第一音频信号和第二音频信号是否均为语音信号；

[0013]若均为语音信号则识别出第一音频信号中含有的第一语言信息和识别出第二音频信号中含有的第二语音信息；

[0014]计算出所述第一语音信息和第二语音信息的相似度，并将所述相似度认定为所述第一音频信号和第二音频信号的相似度。

[0015]可选的，所述根据所述第一频域信号计算第一谱幅度值和根据所述第二频域信号计算第二谱幅度值的步骤中，采用以下公式进行计算：

[0016]

[0017]其中，X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值，z(n,y)表示第y 个音频信号所在

帧的音频中的第n个点的幅度，N表示快速傅里叶变换的变化长度，k小于或等于N，exp(-j2πkn/N)表示幅角为2π的kn/N倍的复数。

[0018]具有的，所述计算所述第一谱幅度值和所述第二谱幅度值的概率密度的步骤包

括：

[0019]根据所述谱幅度值计算第y个音频信号所在帧的带噪语音功率谱总能量；[0020]根据所述总能量以及所述谱幅度值计算概率密度。

[0021]可选的，所述带噪语音功率谱总能量的计算公式为：

[0022]

[0023]较佳的，E sum(y)表示第y个音频信号所在帧的带噪语音功率谱总能量,X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值，N表示快速傅里叶变换的变化长度。[0024]较佳的，所述根据所述总能量以及所述谱幅度值计算概率密度的步骤中，采用以下公式进行计算：

[0025]D(k,y)＝|X(k,y)|2/E sum(y)；

[0026]其中，D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度，X(k,y)表示第y个音频信号所在帧的第k个频段的谱幅度值。

[0027]具体的，根据所述概率密度计算所述音频信号的谱熵的具体过程：

[0028]

[0029]其中，H(y)表示第y个音频信号的谱熵，D(k,y)表示第y个音频信号所在帧的第k个频段所对应的概率密度。

[0030]具体的，所述根据所述谱熵确定所述音频信号是否为语音信号的步骤包括：[0031]计算所述音频信号的能量；

[0032]根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号；[0033]所述计算所述音频信号的能量的公式为：

[0034]

[0035]其中，E(y)表示第y个音频信号的能量，M表示音频信号所在帧的帧长，z(n,y)表示第y个音频信号所在帧的音频中的第n个点的幅度；

[0036]根据所述音频信号的能量以及所述谱熵确定所述音频信号是否为语音信号的步骤包括：

[0037]判断P(y)是否大于预置门限值，若是，则确定音频信号是语音信号，若否，则确定音频信号不是语音信号，其中，

[0038]具体的，所述若均为语音信号则识别出第一音频信号中含有的第一语言信息和识别出第二音频信号中含有的第二语音信息的步骤包括：

[0039]将音频信号与数据库中存储的数据进行比对，或者将所述音频信号发送至云端服务器，并获取云端服务器返回的与第一音频信号和第二音频信号相对应的第一语音信息和第二语音信息。

[0040]具体的，所述计算出所述第一语音信息和第二语音信息的相似度的步骤包括：[0041]对识别出的第一语音信息和第二语音信息中包含字符进行逐一比对；

[0042]计算相同字符所占全部字符的比例，将所述比例判定为相似度。

本文发布于:2024-09-23 00:41:18，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/462763.html

上一篇：一种飞机框类零件装配应力检测与控制方法[发明专利]

下一篇：一种钛酸锂合成物相纯度的检测方法[发明专利]

标签：信号音频语音检测相似

留言与评论（共有 0 条评论）