(19)中华人民共和国国家知识产权局
| (12)发明专利说明书 | |
| (10)申请公布号 CN 102930870 A (43)申请公布日 2013.02.13 |
| | |
(21)申请号 CN201210368983.5
(22)申请日 2012.09.27
(71)申请人 福州大学
地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区
(72)发明人 颜鑫 李应
(74)专利代理机构 福州元创专利商标代理有限公司
代理人 蔡学俊
(51)Int.CI
G10L17/26
G10L17/08
G10L15/20
(54)发明名称
(57)摘要
本发明针对生态环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术。首先,根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次,使用多频带谱减法对声音功率谱进行降噪处理。接着,结合降噪的声音功率谱提取抗噪幂归一化倒谱系数(APNCC)。最后,采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别。 | |
| |
法律状态
权 利 要 求 说 明 书
1.一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于包括以下步骤:
步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;
步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;
步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。
2.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于,所述步骤S01采用以下步骤实现:
步骤S011:计算带噪声音信号的平滑功率谱:对带噪声音信号的数学模型 进行FFT变换后得到该噪声音信号的幅度谱,然后通过一阶递归式计算出该平滑功率谱,其中为带噪的声音信号,为纯净的声音信号,为附带的噪声信号,为带噪声音信号的平滑功率谱,为帧索引,为频率索引,为带噪声音信号的功率谱,为平滑常量; 步骤S012:进行带噪声音信号平滑功率谱最小值追踪计算:采用非线性通过下式追踪计算带噪声音信号功率谱的最小值,
其中,为带噪声音功率谱的局部最小值,和为常量;
步骤S013:计算声音平滑功率与其相应局部最小值的比值:;通过该比值与频率相关的阈值的比较,当该比值比相应阈值大时,就被当作前景声音存在的频率窗口,反之,则为噪声的频率窗口;
步骤S014:根据对前景声音是否存在进行判断,其中为频率相关常量,可表示为:,,,采样频率;
步骤S015:通过式的一阶递归式计算前景声音存在的概率,其中,为平滑常量,取;
步骤S016:计算时-频相关的平滑因子;其中,为常量,取,的取值范围为;
步骤S017:根据所述时-频相关的平滑因子更新估计的噪声功率谱,其中,为估计的噪声幅度谱。
3.根据权利要求2所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述的=0.7,=0.8,=0.998。
4.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述步骤S02采用以下步骤实现:
步骤S021:通过平滑带噪声音幅度谱,其中,为平滑的带噪声音幅度谱,为相邻帧总帧数,取;权重设置为;
步骤S022:真实环境下的背景噪声绝大多数为加性噪声,因此,带噪声音平滑功率谱表示为,其中,为前景声音信号功率谱,为估计的噪声功率谱;
步骤S023:根据所述步骤S022,针对多频带谱减问题,用表示估计的前景声音信号功率谱,
其中为第帧的过减因子,对于第帧的不同的频带都根据当前帧的总体信噪比取相同的值;声音信号的功率谱被划分为个互不重叠的均匀线性子频带,;第个子频带的估计前景声音信号功率谱表示为:其中,为平滑和平均后的再根据多频带划分后得出的个子频带的带噪声音功率谱,为第个子频带的估计噪声功率谱,和分别为第个子频带频率窗口的开始值和结束值;为第帧的第个子频带的过减因子,用于控制第帧的第个子频带的减噪程度,该能通过式计算第帧的第个子频带的功率谱信噪比后得出;其中,为非平滑的第个子频带的带噪声音功率谱;设定,;其中,为第帧的第个子频带的频率上限;
步骤S024:在所述步骤S023第个子频带的估计前景声音信号功率谱的式中,当当估计的前景声音信号功率谱出现负值时,采用进行更新计算,其中,功率谱下限参数取值为;
步骤S025:为了掩盖去噪后可能残留的音乐噪声并避免出现声音信号的过度失真,往估计的前景声音信号功率谱上添加5%的原始带噪声音信号功率谱,用式表示;则整个频带的估计的前景声音信号功率谱表示为式。
5.根据权利要求4所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述的N=6。
6.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述步骤S03采用以下步骤实现:
步骤S031:采用32阶的GT滤波器进行滤波,并且设定GT滤波器组的各个等价矩形带宽的中心频率在之间均匀分布;滤波后的声音信号能量简称GT信号能量,用式表示;其中,表示GT滤波后的等价矩形带宽的中心频率索引,该等价矩形带宽简称GT频带;
步骤S032:中间能量偏差移除:
通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量;
(21) 其中,取;
对于每个GT频带,通过计算其所有帧的算术平均值与几何平均值的比值AM/GM,估计出前景声音的明显程度,根据式(22)对AM/GM取对数计算,