一种可学习参数的声谱图生成的方法及其系统与流程



1.本发明涉及音频前处理技术,具体涉及一种可学习参数的声谱图生成的方法及其系统。


背景技术:



2.音频滤波器组可以模拟人类对于声音的感知,通过音频滤波器组生成声谱图是后续声纹识别必要的处理环节。传统生成声谱图通常使用梅尔滤波器组(mel-filterbanks)和mfcc(mel频率倒谱系数)这两种方式。例如,使用梅尔滤波器组方法包括首先是通过加窗将噪声信号切割成固定持续时间的片段,将加窗之后的每一个片段通过固定频率滤波器组进行滤波处理,再将音频信号进行压缩,最后再进行傅里叶变换生成声谱图。但是传统的mel-filterbanks和mfcc等生成声谱图的方式对于声音的低频范围更加敏感,对于噪声信号作用有限,导致在进行噪声分类时产生较多误判。


技术实现要素:



3.本发明要解决的技术问题:针对现有技术的上述问题,提供一种可学习参数的声谱图生成的方法及其系统,本发明通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图,能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。
4.为了解决上述技术问题,本发明采用的技术方案为:
5.一种可学习参数的声谱图生成的方法,包括:
6.s1,将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;
7.s2,利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。
8.作为本发明的进一步改进:
9.所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块,所述滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行,所述池化层用于提取噪声信号来降低时间分辨率,所述压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。
10.所述滤波层包括依次相连的gabor一维卷积模块和激活模块。
11.所述池化层为高斯低通池化模块。
12.所述压缩/归一化模块的函数表达式为:
[0013][0014]
上式中,pcen(f(t,n))表示压缩/归一化模块当前时刻t的输出,f(t,n)为当前时刻t的池化层输出的时频表示的噪声信号的原始音频数据,ε为接近0的常数,αn、δn以及rn均
为可学习的参数,当前时刻t的中间变量m(t,n)的函数表达式为:
[0015]
m(t,n)=(1-a)m(t-1,n)+af(t,n),
[0016]
上式中,a为超参数,m(t-1,n)为上一时刻t-1的中间变量。
[0017]
步骤s1之前还包括将噪声音频数据进行预处理的步骤,所述预处理包括重置采样率为16k、将声道统一成单声道、固定音频时长中的至少一种。
[0018]
步骤s1之前还包括训练卷积神经网络以学习到最适合噪声的音阶:
[0019]
s101,采集噪声信号样本的音频数据;
[0020]
s102,将噪声信号样本的音频数据进行数据增强,再进行预处理;
[0021]
s103,基于预处理后得到的噪声信号样本的音频数据建立训练样本集;
[0022]
s104,根据训练样本集训练卷积神经网络,在完成指定数量次训练或者在卷积神经网络的测试精度满足要求后判定训练完成。
[0023]
步骤s102将噪声信号样本的音频数据进行数据增强包括对原始音频进行速度改变、添加噪声、混响、增加数据量中的部分或全部。
[0024]
此外,本发明还提供一种可学习参数的声谱图生成的系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述可学习参数的声谱图生成的方法的步骤。
[0025]
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述可学习参数的声谱图生成的方法的步骤。
[0026]
和现有技术相比,本发明主要具有下述优点:
[0027]
1、本发明可学习参数的声谱图生成的方法包括:将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图;本发明通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图,能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。
[0028]
2、本发明可学习参数的声谱图生成的方法可搭配任意一个小型分类器,只需要增加少量的参数即可实现噪声的分类,在实时性与准确率上有着很大的优势。
附图说明
[0029]
图1为本发明实施例方法的基本流程示意图。
[0030]
图2为本发明实施例中卷积神经网络的结构示意图。
[0031]
图3为本发明实施例中卷积神经网络的具体实现示意图。
[0032]
图4为作为对比的mel-filterbanks方法生成的声谱图。
[0033]
图5为本发明实施例方法生成的声谱图。
具体实施方式
[0034]
如图1所示,本实施例可学习参数的声谱图生成的方法包括:
[0035]
s1,将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;
[0036]
s2,利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。
[0037]
如图2所示,本实施例中卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块,滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行,池化层用于提取噪声信号来降低时间分辨率,压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。
[0038]
如图3所示,本实施例中滤波层包括依次相连的gabor一维卷积模块和激活模块。其中,gabor一维卷积模块(gabor 1d-convolution)为现有的卷积神经网络模块,其为对gabor滤波器的改良,通过使用对gabor滤波器改良后的gabor一维卷积模块,每一个gabor一维卷积模块中只有2个参数,而改良前的参数数量为改良后的200倍。激活模块为现有的卷积神经网络模块,本实施例中的激活模块具体采用relu激活函数(线性整流函数)。gabor滤波器是用正弦信号调制高斯核产生的,其是由其中心频率ηn和反向带宽σn决定,函数表达式如下:
[0039][0040]
上式中,为gabor滤波器的输出,n为频率中心的数量,w为窗口大小。gabor滤波器的输出的频率响应是以中心频率ηn的高斯响应,带宽为1/σn,两者均以归一化频率单位表示[-1/2,+1/2]。为了计算滤波分量的输出,我们得到gabor滤波器在t=-w/2

w/2范围内gabor滤波器的输出的脉冲响应,然后卷积与输入波形的脉冲响应。保持中心频率ηn在[0,1/2]之间以保证在训练之中的稳定性。
[0041]
如图3所示,本实施例中池化层为高斯低通池化模块(gaussian lowpass pooling)。与平均池化和最大池化相比,采用高斯低通池化模块进行低通滤波性能会更好。每个输入通道对应一个低通,假设有高斯冲击响应,可学习参数的gabor一维卷积模块采用均值为0带宽,只增加n个参数,效果优于mel-filterbanks中的hann窗。
[0042]
本实施例中压缩/归一化模块采用apcen(每通道能量归一化层),每通道能量归一化层为一种可学习的替代压缩和均值方差归一化方法,其函数表达式为:
[0043][0044]
上式中,pcen(f(t,n))表示压缩/归一化模块当前时刻t的输出,f(t,n)为当前时刻t的池化层输出的时频表示的噪声信号的原始音频数据,ε为接近0的常数(用来避免除以零),αn、δn以及rn均为可学习的参数,该方法包括将加上偏移δn再使用指数rn进行压缩;当前时刻t的中间变量m(t,n)的函数表达式为:
[0045]
m(t,n)=(1-a)m(t-1,n)+af(t,n),
[0046]
上式中,a为超参数,m(t-1,n)为上一时刻t-1的中间变量。由于该方法的可学习参数就是超参数a,因此也称之为apcen。令x∈r表示代表一维的含有t个噪声样本的波形,采样频率为f
ψ
,压缩/归一化模块可以表示为函数f
ψ
:r
t
→rm
×n,即将输入波形映射到二维特征空间,其中m表示时间帧的数量(通常m《t),n表示特征通道的数量。
[0047]
如图3所示,本实施例中将gabor一维卷积模块、高斯低通池化模块以及每通道能
量归一化层串联起来得到可学习参数的噪声滤波器组。gabor一维卷积模块的作用是滤波;高斯低通池化模块的作用是进行池化;压缩/归一化模块对每个通道进行压缩和均值方差归一化。
[0048]
本实施例中,步骤s1之前还包括将噪声音频数据进行预处理的步骤,所述预处理包括重置采样率为16k、将声道统一成单声道、固定音频时长中的至少一种。
[0049]
本实施例中,步骤s1之前还包括训练卷积神经网络以学习到最适合噪声的音阶:
[0050]
s101,采集噪声信号样本(如:广场舞噪声、摆摊喇叭声、汽车鸣笛声等)的音频数据;
[0051]
s102,将噪声信号样本的音频数据进行数据增强,再进行预处理;本实施例中,步骤s102将噪声信号样本的音频数据进行数据增强包括对原始音频进行速度改变、添加噪声、混响、增加数据量中的部分或全部;
[0052]
s103,基于预处理后得到的噪声信号样本的音频数据建立训练样本集;
[0053]
s104,根据训练样本集训练卷积神经网络,在完成指定数量次训练或者在卷积神经网络的测试精度满足要求后判定训练完成。将训练样本集中噪声数据分批读入构建好的卷积神经网络中进行训练。数据进入可学习参数的声谱图生成的方法中,会学习到最适合噪声的音阶,最后其输出的是一个类似于mel-filterbanks的声谱图。
[0054]
图4为作为对比的mel-filterbanks方法生成的打桩机噪声的输出特征图,图5为本实施例可学习参数的声谱图生成的方法生成的打桩机噪声的输出特征图,通过对比图4和图5可知,本实施例可学习参数的声谱图生成的方法得到的输出特征图去除了更多的杂质,更能突出打桩机噪声的特征。因此,本实施例可学习参数的声谱图生成的方法得到的输出特征图中噪声信号上明显优于mel-filterbanks,为噪声分类提供了一个良好的前处理模块,本实施例可学习参数的声谱图生成的方法完全可以代替传统mel-filterbanks已实现对噪声更优的前处理。
[0055]
综上所述,本实施例可学习参数的声谱图生成的方法区别于传统的mel-filterbanks生成方法,是用卷积神经网络学习的对应项代替mel-filterbanks滤波器组的所有固定运算(压缩函数、筛选层、加窗层),而可学习参数的声谱图生成的方法通过卷积神经网络进行学习,输出敏感特征组的声谱图,它能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。而mel-filterbanks则是对噪声使用固定的音阶,杂质会更多。
[0056]
此外,本实施例还提供一种可学习参数的声谱图生成的系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述可学习参数的声谱图生成的方法的步骤。
[0057]
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述可学习参数的声谱图生成的方法的步骤
[0058]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也
应视为本发明的保护范围。

技术特征:


1.一种可学习参数的声谱图生成的方法,其特征在于,包括:s1,将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;s2,利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图。2.根据权利要求1所述的可学习参数的声谱图生成的方法,其特征在于,所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块,所述滤波层为通过一组非线性的带通滤波器在原始的采样频率下进行,所述池化层用于提取噪声信号来降低时间分辨率,所述压缩/归一化模块用于通过信号压缩或归一化以降低噪声信号的动态范围。3.根据权利要求2所述的可学习参数的声谱图生成的方法,其特征在于,所述滤波层包括依次相连的gabor一维卷积模块和激活模块。4.根据权利要求2所述的可学习参数的声谱图生成的方法,其特征在于,所述池化层为高斯低通池化模块。5.根据权利要求2所述的可学习参数的声谱图生成的方法,其特征在于,所述压缩/归一化模块的函数表达式为:上式中,pcen(f(t,n))表示压缩/归一化模块当前时刻t的输出,f(t,n)为当前时刻t的池化层输出的时频表示的噪声信号的原始音频数据,ε为接近0的常数,α
n
、δ
n
以及r
n
均为可学习的参数,当前时刻t的中间变量m(t,n)的函数表达式为:m(t,n)=(1-a)m(t-1,n)+af(t,n),上式中,a为超参数,m(t-1,n)为上一时刻t-1的中间变量。6.根据权利要求1所述的可学习参数的声谱图生成的方法,其特征在于,步骤s1之前还包括将噪声音频数据进行预处理的步骤,所述预处理包括重置采样率为16k、将声道统一成单声道、固定音频时长中的至少一种。7.根据权利要求6所述的可学习参数的声谱图生成的方法,其特征在于,步骤s1之前还包括训练卷积神经网络以学习到最适合噪声的音阶:s101,采集噪声信号样本的音频数据;s102,将噪声信号样本的音频数据进行数据增强,再进行预处理;s103,基于预处理后得到的噪声信号样本的音频数据建立训练样本集;s104,根据训练样本集训练卷积神经网络,在完成指定数量次训练或者在卷积神经网络的测试精度满足要求后判定训练完成。8.根据权利要求7所述的可学习参数的声谱图生成的方法,其特征在于,步骤s102将噪声信号样本的音频数据进行数据增强包括对原始音频进行速度改变、添加噪声、混响、增加数据量中的部分或全部。9.一种可学习参数的声谱图生成的系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述可学习参数的声谱图生成的方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述可
学习参数的声谱图生成的方法的步骤。

技术总结


本发明公开了一种可学习参数的声谱图生成的方法及其系统,本发明可学习参数的声谱图生成的方法包括:将噪声信号的原始音频数据输入预先完成训练的卷积神经网络;利用该卷积神经网络代替滤波器组对噪声信号的原始音频数据前处理得到输出特征图;所述卷积神经网络包括依次相连的滤波层、池化层及压缩/归一化模块。本发明通过小型卷积神经网络训练的模型代替传统的滤波器组对噪声进行前处理并生成对应噪声信号的声谱图,能学习最适合噪声的音阶并进行处理,能够去除多余的杂质,得到更为突出噪声特征的声谱图,为后续的声纹识别或语音识别任务提供更丰富的特征,大大提高准确率。大大提高准确率。大大提高准确率。


技术研发人员:

袁文怡 陈炳辉 王弘越 严柏浩

受保护的技术使用者:

广州伏羲智能科技有限公司

技术研发日:

2022.07.13

技术公布日:

2022/11/1

本文发布于:2024-09-20 12:05:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/17547.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:声谱   噪声   卷积   神经网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议