基于DTW的孤立词语音识别系统设计

基于DTW的孤立词语音识别系统设计
叶硕;彭春堂;杜珍珍;贺娟轴承装配机
【摘 要】设计了一种基于小波变换的孤立词语音识别系统.该系统提取语音信号的特征矢量,使用DTW算法对待测语音进行匹配,通过对输入信号的降噪处理,提高孤立词在噪声环境下的识别精度.测试结果表明,在无强噪声干扰条件下,该系统能较好实现孤立词语音识别.
【期刊名称】《长江大学学报(自然版)理工卷》
【年(卷),期】2018(015)017
【总页数】5页(P33-37)
玻璃包装箱【关键词】语音识别;小波变换;孤立词;DTW
【作 者】叶硕;彭春堂;杜珍珍;贺娟
【作者单位】武汉邮电科学研究院,湖北武汉430000;武汉邮电科学研究院,湖北武汉430000;武汉邮电科学研究院,湖北武汉430000;武汉邮电科学研究院,湖北武汉430000
【正文语种】中 文
【中图分类】TP18;TP391.42
语音作为人类主要的通信手段,是信息获取的主要来源,无论是民用还是军事,一直以来都受到世界各国的高度重视[1]。随着互联网技术的发展,智能终端中以语音为主的交互越来越多,人们对移动设备的语音识别能力有了更高的要求。笔者设计了一种基于动态时间规整(Dynamic Time Warping, DTW)[2]的孤立词语音识别系统:以Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)为核心,使用DTW算法对孤立词语音进行识别,通过小波变换对原始信号进行处理,提高孤立词在一定噪声环境下的识别精度,并借助MATLAB完成仿真。
1 语音识别系统设计哺乳服装
语音信号作为一种非平稳信号,其形成和感知的过程是一个复杂信号的处理过程[3],本质上来说,就是模式匹配的过程。语音识别的性能主要受到2个方面的影响: 一个是由环境噪声在前端随语音信号输入而产生的影响;另一个是建立的模型与语音实际的特征统计特性有差异而产生的影响[4]。
该系统识别过程包括预处理、特征提取、语音训练和语音识别4个部分,框图如图1所示。在预处理阶段对输入的语音信号进行滤波降噪、预加重、端点检测、分帧处理;在特征提取阶段对信号进行频域分析,所得参数作为语音模板,存储记录以完成语音训练;在语音识别阶段,提取输入语音信号的特征,与存储的语音模板比较,通过DTW算法进行匹配,最后根据识别决策输出相应的识别结果。
图1 语音识别系统框图
铁水预处理1.1 预滤波降噪
人耳对不同频率的感受不同,人耳的听觉频率范围通常在20Hz~20kHz,但人类的语音频率通常在300Hz~3.4kHz,因此,对于混叠在语音信号中的噪声,可以设计带通滤波器,将低于300Hz高于4kHz的频率事先滤除。
1.2 预加重处理
在发声过程中,人类话音的高频部分往往被弱化,因此需要设计一个高通滤波器,来补偿语音信号受发声系统所压抑的高频部分,使信号的频谱变得平坦。通过传递函数为H(z)=1-
αz-1的滤波器对其滤波,其中α为预加重系数,α∈[0.9,1]。通过该系统完成对语音信号高频部分的加重,实现对高频分量的提升[2]。
1.3 分帧
对预加重完成的语音进行分帧操作, 提取短时特性。设定帧长为30ms, 为避免相邻帧的变化过大,在相邻2帧之间设计一段重叠区域。设定帧移为20ms,然后将每帧信号与窗函数相乘, 用于减少起始和结束处信号的不连续性。
1.4 端点检测
一段完整的语音信号,可以分为:静音、语音、词汇停顿、语音、静音几个阶段。
端点检测的作用是区分语音部分和非语音部分,将语音信号中存在语音的部分标记出,方便后续特征参数提取。端点检测一般计算每一帧语音信号的过零率和能量,只有当该帧信号的过零率和能量同时超过设定门限时,才认定该帧具有有效的语音输入。而一段语音信号通常还会掺杂环境噪声,其干扰将对特征参数的提取造成直接影响。
孤立词端点检测不准确,通常有内外2个原因。外部原因在于噪声干扰,内部原因在于发音特点。由于语音输入环境多变,噪声的干扰又分为突发噪声干扰与持续噪声干扰。
针对突发噪声,部分突发噪声也具有能量高,过零率高的特点,但通常其持续时间较短。当某一帧语音信号具有高能量、高过零率时,考察其持续时间,若持续时间低于人类单个语音表述的长度,则判定为环境突发噪声,继续对该帧信号以后的语音进行分析,否则判定为语音输入,标记端点。
图2 小波分解结构图
针对持续噪声干扰,在算法中加入小波变换进行降噪。语音信号是一种非平稳信号,而傅里叶变换只能得知一段信号总体上包含哪些频率分量,不能得知各个频率分量出现的时刻,其结果可能导致2个在时域相差较大的信号在频域可能一样,小波变换能有效解决这一问题。
正交变换具有去除信号相关性、集中信号能量的功能,而小波变换能将信号的频谱分解到不同的频率范围从而得到其子带信号,因此,可以使用正交小波变换把信号的能量集中到某些频带的少数系数上,将其他频带上的小波系数置零,即可达到有效抑制噪声的目的[5]。
薄膜电路
图2为小波变换的3层分解,cA1、cA2、cA3为分解各层的信号,cD1、cD2、cD3为分解各层的细节信号,噪声通常包含其中。若将cD1、cD2、cD3的分解系数置零或以门限阈值形式对该小波系数进行处理,然后重构小波,即得到降噪之后的信号。
图3为使用小波降噪前后的端点检测结果的时域对比图,其中横坐标为时间,纵坐标为归一化后的语音信号振幅。可以看出,语音信号的持续时间大约为0.4s,经小波去噪后,语音信号的纹波噪声已被较好地去除,端点检测更加准确。
图3 端点检测结果
图4 语音‘9’的时域展示图
对于内部原因,现行普通话发音具有平、扬、转、降4个声调,在这4个声调中,‘转’的声调与其他3个略有不同,持续时间相对较长,且话音存在振幅的低谷,极容易被判断成词汇间的停顿,造成一个音被分成两部分的情况,这对特征参数提取而言是致命的。图4为语音‘9’的时域展示,可看见明显的话语低谷与环境噪声。为克服这一问题,在算法中加入延时判决。
‘转’音的低谷存在于起始端点之后,当端点检测到低谷时,判断在此之前是否存在起始端点,若存在,进行延时,再检测能量与过零率,若高于门限,则认为此处低谷处于‘转’音内部,不进行端点标记,否则,认为语音结束,标记端点。
1.5 特征提取
特征提取是指从说话人的语音信号中获得一组能够描述语音信号特征参数的过程 [6]。所获得的特征参数需要满足如下要求:具有良好的独立性,能有效代表语音特征,计算简便能实现实时识别[2]。
目前,在语音识别中较为常用的特征参数有:线性预测倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)、Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)。其中,LPCC从人的发声模型角度出发,体现了每个人特定的声道特性[7],但其求得的倒谱系数中往往包含语音高频部分的大部分噪音,这会对语音信号的特征提取造成不利影响,极端情况下甚至可能导致特征提取失败。人耳听到的声音高低与声音频率成对数关系,满足公式:
式中,f为声音频率,Hz。MFCC将线性频标转化为Mel频标,屏蔽了大部分高频噪声的干扰,强调了语音的低频信息,而低频信息对语音的清晰度影响最大,因此该种方法有利于识别信息,所得参数在无任何前提假设情况下均可使用 [5]。
差分倒频谱参数反映了倒频谱参数在时间上的变化,在实际的语音识别中,使用MFCC的差分倒频谱参数能有效提高系统的识别性能。因此将MFCC与其一阶差分参数合并,共同构成输入语音的观察矢量,将语音的观察矢量作为参考模板存储下来,完成语音训练。
2 语音识别算法
目前的孤立词语音识别算法,除了动态时间规整算法,还有隐马尔可夫模型(Hidden Markov Model,HMM)。
HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型,一般分为连续HMM(CHMM)、半连续HMM(SCHMM)以及离散HMM(DHMM) [8]。尼龙螺杆
DTW算法基于动态规划(DP)思想,虽然一种语音的发音快慢可能变化,但其语音中逻辑的先后不可改变,DTW算法能克服这种因发音习惯的不同而导致的语音信号与模板不匹配问
题,在识别孤立词语音时具有较高的准确率。虽然2种算法在孤立词语音识别中准确率大致相当,但HMM算法需要在训练阶段提供大量的语音数据用以建立参数模型,而DTW算法在训练中几乎不需要额外的计算,因此采用DTW进行设计。

本文发布于:2024-09-25 08:21:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/153966.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   信号   识别
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议