基于EMD算法与神经网络的声纹检测识别系统

基于EMD算法与神经网络的声纹检测识别系统
陶瓷喷嘴
作者:张雅楠,刘震
来源:《科技创新与生产力》 2014年第5期
    张雅楠,刘 震
    (西南交通大学,四川 成都 611756)
    摘 要:随着科学技术的发展,声纹识别系统应用广泛。介绍了一种新颖的语音信号识别方法,即使用emd分解语音信号,提取语音信号的时域与频域特征,将获得的信号特征输入神经网络,通过神经网络进行语音信号的识别。
    关键词:EMD;神经网络;声纹识别
    中图分类号:TN912.34  文献标志码:A  DOI:10.3969/j.issn.1674-9146.2014.05.091
    现代社会声纹识别技术有着广泛的应用领域,因其不涉及隐私问题,且相关设备造价低廉,因此可应用于安全认证等方面。利用声纹进行身份识别不需要复杂的密码,也不需携带钥匙、电子卡等,是自然又经济的方法。此外声纹识别技术对保护个人人身财产安全有着重大的意义。
    语音信号是一种典型的非线性、非平稳性和无序性信号。与以往通过短时Fourier变换、小波分析等典型线性分析来获取声纹特征参数不同,使用EMD方法对语音信号进行分析,采用镜像延拓与延长采样时间对声音信号进行预处理,能够有效抑制端点效应,减少数据存储量、缩短信号处理时间,且结果更加准确[1]。将EMD与人工神经网络 优化相结合,为声纹识别提供新颖、有效的解决方案。
阀门试压设备
    1 EMD算法在检测中的应用
    目前的EMD算法对声纹信号的分析多为emd+suv,这是一类新的机器学习方法—支持向量机算法[2]。笔者利用经验模态分解方法(Empirical Mode Decomposition,简称EMD)与神经网络相结合,研究完善声纹信号处理领域的端点检测技术,从而寻所需声纹段的起止点,判断声纹段和非声纹段。利用EMD算法有效地将信号分解成一组含有不同尺寸的固有模态函数(IMF)[3]。分解后的每一级IMF代表一个频率成分,突出了信号的局部特征,通过提取的特征参数经过神经网络训练,最终实现声纹信号的识别。为低信噪比条件下的声纹检测与增强提供新颖、有效的解决方案。
    EMD分解过程中的求包络平均是通过对原数据中的上极值点和下极值点分别进行样条插值拟合然后再平均。在样条插值时,除非数据的2个端点处就是极值点, 否则就不能确定端点处的极值点,而会产生数据拟合误差。由于端点处极值的不确定性,每一次样条插值拟合都会产生误差, 误差不断积累,最终污染整个数据。
木板削削削
    针对上述问题,笔者拟采用延长数据采样时间与镜像延拓相结合的方法抑制端点效应。镜像延拓法即假设在数据两端各放一面镜子,镜子中原数据序列的像与原数据序列对称。两面镜子中原数据序列的像与原数据序列一起构成一条连续的曲线,形成一个封闭的环状,不存在端点,数据的上下包络线完全由内部数据确定,从而从根本上避免了端点效应。镜面以上为原始数据,镜面以下为延拓数据,操作结束后,只输出镜面以上的数据处理结果。在实际当中,延长信号的采样时间同样可以起到延长采样数据的作用,只需将延长时间的IMF分量去掉,从而实现抑制端点效应[4]。
    综上所述,将延长信号采样时间与镜像延拓相结合,先延长信号采样时间,再采用镜像延拓法抑制端点效应,使得分解征模函数的效果更理想。
    2 声音信号的采集与信号emd分解
    1)Nyquist采样定理指出,当采样频率fs.max大于信号中最高频率fmax的2倍时,采样后的数字信号能够完整地保留原始信号中的信息,因此在设定采样频率时,一定要满足Nyquist采样定理的要求。人说话的音频为20~20 000 Hz,采样频率一般为22.05 kHz,44.1 kHz,48 kHz三个等级。
偏心轮机构
    基于声卡进行语音信号的A/D转换以及采集,通过麦克风连接计算机的语音输入插口, 利用windows录音程序,根据声卡性能选取采样频率22 kHz对测试者进行录音,形成wav格式录音文件。在Matlab软件平台下利用函数wavread对语音信号进行读取,得到离散量化语音数字信号数据。
    2)通过matlab软件进行EMD算法编程,将含噪声音信号进行经验模态分解,滤除噪声干扰提取个人声纹信号的特征。
    EMD算法具体过程:出原数据序列X(t)所有的极大值点和极小值点,并用三次样条插值函数拟合形成原数据的上包络线和下包络线;上包络线和下包络线的均值记作m1,将原数据序列X(t)减去该平均包络m1,得到一个新的数据序列h1:X(t)-m1=h1。由原数据减去包络平均后的新数据,若还存在负的局部极大值和正的局部极小值,说明这还不是一个本征模函数,需要继续进行筛选,直到完全符合本征模函数的条件h1(k-1)-m1k=h1k;将它标记为:c1=h1k 。c1是第一个从数据出来的本征模函数,是包含信号中最佳的时间尺度或者是最短周期的分量。通过X(t)-c1=r1从信号中分离出余数,余数r1包含较长周期分量,把它当作新的数据在运用上述相同过程将之处理,其后的r1可表示成:r1-c2=r2…rn-1-rn,当余数rn变成常数或单调函数,而无法提取本征模函数即停止。可以看出,也就是一个数据分解成n个本征模函数和一个缓慢变化的趋势或一个恒量[5]。
    3 声纹特征的提取
    声音信号属于非平稳信号,因此可计算信号的熵并且提取信号emd分解后的imf分量的特征值作为声音信号的特征,同时,还可选取传统的平稳信号的时域与频域的特征进行辅助。
    通过对采集语音信息的熵、imf分量、时域和频域进行特征值的提取,并进行归一化处理。通过将提取到的特征值输入神经网络进行训练,以此利用神经网络对不同的人的语音信号进行识别。
    1)IMF分量的特征提取:matlab编程获得imf分量的幅频曲线,选取特征点,并将其汇总。
    2)熵的计算:信息熵是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量,因此可以作为非平稳信号的一个特征量。
    3)时域特征:信号的时域特征一般包括:均值、方差、均方根、峰值、峰值因子、峭度系数、波形因子、裕度因子、脉冲因子。之后将获得的数据进行归一化处理,使各项数据形成一个数据表格进行对比,选取特别明显、重复性好的特征,进行神经网络训练。
    4 神经网络的训练识别
折叠篮
    人工神经网络(NN,Neural network)是由一组功能简单的信息处理单元在一定连接方式下构成的动力学系统,它以并行机制处理数据信息,具有自适应性、自学习、自组织的能力。一个基本的神经网络包括:神经元、网络拓扑结构、学习规则(训练法)[6]。利用matlab建立神经网络,导入将能反映说话人个性特点的时域频域特征,通过模式识别方法,确定说话人的身份信息。其方法是将已提取出的不同人的语音信号特征归一化后的数据输入神经网络,通过建立一个3层BP神经网络,根据特征矩阵确定输入的项数,之后通过经验公式计算隐层的神经元数量,为不同的信号指定一个识别输出数字,根据识别人数设定输出神经元的个数。将特征参数输入神经元进行训练后,可以实现对不同人的声音的识别。
    5 结束语
    通过将emd方法与神经网络相结合,能够实现声音信号的识别与检测。此方法不局限于声音信号的检测,可用于其他很多非平稳信号的检测,包括机械的故障诊断等,具有很重要的意义和作用。
    参考文献:
    [1] 张德祥,吴小培,郭晓静.基于经验模态分解和Teager峭度的语音端点检测[J].仪器仪表学报,2010(3):31.
    [2]杨鸿武,刘亚丽,周慧,等.基于EMD的声纹特征参数提取[J].西北师范大学学报,2005(5):45.
    [3] 宁静,诸昌钤,高品贤.EMD分解中端点数据的延长方法问题研究[J].计算机工程与应用,2011(3):47.
    [4] 王传菲,安 钢,王 凯,等.基于镜像延拓和神经网络的EMD端点效应改进方法[J].装甲兵工程学院学报,2010(4):15.
打火机设备    [5] Huang N E, Shen Z, Long S R.The empirical modede-composition and the Hilbert spectrum for non-linear and
    non-stationary time series analysis[C]//Proc Conference on Mathematical, Physical and Engineering Sciences.London: The Royal Society, 1998: 903-995.
    [6] 李翔.从复杂到有序——神经网络智能控制理论新进展[M].上海:上海交通大学出版社,2006.
    (责任编辑 刘 婷)

本文发布于:2024-09-21 19:07:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/154613.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   数据   进行   神经网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议