一种基于MFCC谱变换的多对象语音识别方法


一种基于mfcc谱变换的多对象语音识别方法
技术领域
1.本发明属于语音识别技术领域,尤其涉及一种基于mfcc谱变换的多对象语音识别方法。


背景技术:



2.随机模型法目前应用较为成熟,该方法主要采用提取特征、训练模板、对模板进行分类及对模板进行判断的步骤来对语音进行识别。该方法涉及到的技术一般有3种:动态时间规整(dtw),隐马尔科夫模型(hmm)理论和矢量量化(vq)技术。其中,hmm算法相较于其他两者的优点是简便优质,在语音识别性能方面更为优异。因此,如今大部分语音识别系统都在使用隐马尔科夫模型算法。
3.在语音识别场景中,通常会涉及多个语音对象的对话环境,在多对象环境下需要对有效的及符合要求的语音信息进行过滤选取,同时大部分语音对象的发音与样本标准有一定偏差,这会严重影响语音识别系统在多对象环境下的识别精度和效率。因此,需要设计一种面对多个语音对象环境的、识别精度较高的语音识别方法。


技术实现要素:



4.鉴于此,本发明提供了一种基于mfcc谱变换的多对象语音识别方法,以消除或改善现有技术中的一个或多个缺陷,解决现有技术在多对象环境下语音识别精度不高的问题。
5.实现本发明目的的技术解决方案为:本发明提供了一种基于mfcc谱变换的多对象语音识别方法,其特征在于,所述方法包括:通过大量说话人的语音数据作为样本训练生成一个高斯混合模型,并从标准语音样本中提取标准梅尔倒谱系数;通过麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频,并对所述多个对象的声源进行声源区分定位,得到每个语音对象与其他对象的相对距离;通过得到的对象之间的相对距离确定每个对象的相对皮尔逊相关系数,根据每一对象的相对皮尔逊相关系数,以最小二乘法确定极点麦克风和极轴麦克风;结合待识别音频中每个对象的语音定位与相对极点麦克风的信号强度,对语音音频中的多个对象进行音频声源区分;对区分的声源信息的语音数据加入汉宁窗函数,并将数据的每帧进行区分,然后进行快速傅里叶变换,得到每帧语音信号的频率幅度谱;对变换后的幅度谱进行梅尔滤波,取对数,然后进行离散余弦变换,得到mfcc非线性谱变换后的梅尔倒谱系数作为目标语音的特征参数。
6.在一些实施例中,所述以最小二乘法确定极点麦克风和极轴麦克风的方法包括:取基于最小二乘法的多个麦克风的相对皮尔逊相关系数最小值所对应的声源对
象作为所述极点麦克风;取所述相对皮尔逊相关系数最小的极点麦克风所对应的其他对象作为极轴麦克风。
7.在一些实施例中,所述梅尔滤波的方法为:设置一组26个三角滤波器作为梅尔滤波器组,对所求得的功率谱进行滤波。
8.本发明提供的一种基于mfcc谱变换的多对象语音识别方法,与现有技术相比,具有以下优点:能够通过利用多组麦克风确定多对象语音环境的声源数据,并确定各对象的相对皮尔逊相关系数,根据皮尔逊相关系数从麦克风阵列中确定极点麦克风和极轴麦克风,能够有效地实现语音音频的对象区分;通过对训练样本进行谱变换和梅尔滤波能够更好地提高语音识别的识别精度。
9.本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
10.本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
11.为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:图1为本发明所述基于mfcc谱变换的多对象语音识别方法的流程示意图。
具体实施方式
12.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
13.在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
14.应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
15.本发明提供了一种基于mfcc谱变换的多对象语音识别方法,如图1所示,包括步骤s101-s106:步骤s101:通过大量说话人的语音数据作为样本训练生成一个高斯混合模型,并从标准语音样本中提取标准梅尔倒谱系数;步骤s102:通过麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频,并对所述多个对象的声源进行声源区分定位,得到每个语音对象与其他对象的相对距
离;步骤s103:通过得到的对象之间的相对距离确定每个对象的相对皮尔逊相关系数,根据每一对象的相对皮尔逊相关系数,以最小二乘法确定极点麦克风和极轴麦克风;步骤s104:结合待识别音频中每个对象的语音定位与相对极点麦克风的信号强度,对语音音频中的多个对象进行音频声源区分;步骤s105:对区分的声源信息的语音数据加入汉宁窗函数,并将数据的每帧进行区分,然后进行快速傅里叶变换,得到每帧语音信号的频率幅度谱;步骤s106:对变换后的幅度谱进行梅尔滤波,取对数,然后进行离散余弦变换,得到mfcc非线性谱变换后的梅尔倒谱系数作为目标语音的特征参数。
16.在一些实施例中,步骤s103中,所述以最小二乘法确定极点麦克风和极轴麦克风的方法包括:取基于最小二乘法的多个麦克风的相对皮尔逊相关系数最小值所对应的声源对象作为所述极点麦克风;取所述相对皮尔逊相关系数最小的极点麦克风所对应的其他对象作为极轴麦克风。
17.在一些实施例中,步骤s106中,所述梅尔滤波的方法为:设置一组26个三角滤波器作为梅尔滤波器组,梅尔滤波器组可以对频谱进行平滑化,并起到消除谐波的作用,突显原先语音的共峰值,同时降低运算量,实现对所求得的功率谱进行滤波。


技术特征:


1.一种基于mfcc谱变换的多对象语音识别方法,其特征在于,所述方法包括:通过大量说话人的语音数据作为样本训练生成一个高斯混合模型,并从标准语音样本中提取标准梅尔倒谱系数;通过麦克风阵列中的多个麦克风分别获取多个对象的待识别语音音频,并对所述多个对象的声源进行声源区分定位,得到每个语音对象与其他对象的相对距离;通过得到的对象之间的相对距离确定每个对象的相对皮尔逊相关系数,根据每一对象的相对皮尔逊相关系数,以最小二乘法确定极点麦克风和极轴麦克风;结合待识别音频中每个对象的语音定位与相对极点麦克风的信号强度,对语音音频中的多个对象进行音频声源区分;对区分的声源信息的语音数据加入汉宁窗函数,并将数据的每帧进行区分,然后进行快速傅里叶变换,得到每帧语音信号的频率幅度谱;对变换后的幅度谱进行梅尔滤波,取对数,然后进行离散余弦变换,得到mfcc非线性谱变换后的梅尔倒谱系数作为目标语音的特征参数。2.根据权利要求1所述的一种基于mfcc谱变换的多对象语音识别方法,其特征在于,所述以最小二乘法确定极点麦克风和极轴麦克风的方法包括:取基于最小二乘法的多个麦克风的相对皮尔逊相关系数最小值所对应的声源对象作为所述极点麦克风;取所述相对皮尔逊相关系数最小的极点麦克风所对应的其他对象作为极轴麦克风。3.根据权利要求1所述的一种基于mfcc谱变换的多对象语音识别方法,其特征在于,所述梅尔滤波的方法为:设置一组26个三角滤波器作为梅尔滤波器组,对所求得的功率谱进行滤波。

技术总结


本发明公开了一种基于MFCC谱变换的多对象语音识别方法,通过设置多个麦克风阵列和计算多个对象的相对皮尔逊相关系数实现在多对象环境下的语音识别与区分,并通过梅尔谱变换的方法提取目标语音的特征参数,能够提高语音识别系统在多语音对象场景下的语音识别精度和效率。和效率。和效率。


技术研发人员:

崔家正 董昊 姜晓宇

受保护的技术使用者:

辽宁石油化工大学

技术研发日:

2022.12.08

技术公布日:

2023/3/7

本文发布于:2024-09-23 00:30:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/70625.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:对象   麦克风   声源   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议