一种基于多麦克风的语音识别方法及装置与流程



1.本发明涉及语音识别技术领域,尤其涉及一种基于多麦克风的语音识别方法及装置。


背景技术:



2.现有的利用vad技术对语音进行识别时包括基于能量特征进行语音识别、基于长时特征进行语音识别和基于机器学习进行语音识别。其中,基于能量特征进行vad判断是通过检测信号的能量强度差,并且假设语音能量大于背景噪声能量,当能量大于某一门限时,可以认为语音存在。但是当信噪比低,能量差小时,基于能量特征的识别方法无法区分是目标语音还是纯噪声,并且该方法无法区分目标语音和四周干扰人声。由于语音是非稳态信号,普通语速通常每秒发出10-15个音素,音素的频谱分布是不一样的,这就导致了随着时间变化语音统计特征也是变化。同时,由于日常的绝大数噪声是稳态的(即变化比较慢的),如白噪声和机器噪声,因此可以利用长时特征进行vad判断。但是该方法仍然无法区分出四周干扰人声。而基于机器学习和模型统计的语音识别方法需要大量的训练,并且运算复杂。


技术实现要素:



3.本发明提供一种基于多麦克风的语音识别方法及装置,提高了低信噪比环境下针对目标语音和干扰噪声的识别精度。
4.本发明一实施例提供一种基于多麦克风的语音识别方法,通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括主麦的第一拾音信号、右前馈副麦克风的第二拾音信号和左前馈副麦克风的第三拾音信号;
5.将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值,所述第一功率比值为所述第一双麦波束形成的输出信号的功率和输入所述mvdr模型的第一平均功率之间的比值;
6.将所述第一拾音信号和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值,所述第二功率比值为所述第二双麦波束形成的输出信号的功率和输入所述mvdr模型的第二平均功率之间的比值;
7.根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。
8.进一步的,将所述mvdr模型增加增益后用于形成第一双麦波束和第二双麦波束。
9.进一步的,根据以下公式为所述mvdr模型增加增益:
[0010][0011]
式中,为所述mvdr模型输入信号的功率,i,j∈{1,2};φ
xx
(f,k)为所述mvdr模型输入信号的互功率谱矩阵,表示第k帧f频带的导向矢量的共轭,ds(f,
k)表示第k帧f频带的导向矢量。
[0012]
进一步的,将所述第一拾音信号、第二拾音信号和第三拾音信号输入所述mvdr模型之前,对所述第一拾音信号、第二拾音信号和第三拾音信号进行移位加窗和傅里叶变换处理。
[0013]
进一步的,根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,具体为:
[0014]
当所述第一功率比值小于第一预设阈值,或所述第二功率比值小于第二预设阈值时,判断当前帧的拾音信号为目标语音,否则判断当前帧的拾音信号为干扰噪声。
[0015]
进一步的,根据以下公式计算所述第一功率比值:
[0016][0017]
式中,y1(k,f)为所述第一双麦波束形成的输出信号的功率,x3(k,f)为所述第三拾音信号的功率,x2(k,f)为所述第二拾音信号的功率,m为频带总数。
[0018]
进一步的,根据以下公式计算所述第二功率比值:
[0019][0020]
式中,y2(k,f)为所述第二双麦波束形成的输出信号的功率,x1(k,f)为所述第一拾音信号的功率,x2(k,f)为所述第二拾音信号的功率,m为频带总数。
[0021]
本发明另一实施例提供一种应用于指针式压力表的仪表读数装置,包括拾音信号采集模块、双麦波束形成模块和语音识别模块;
[0022]
所述拾音信号采集模块用于通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括主麦的第一拾音信号、右前馈副麦克风的第二拾音信号和左前馈副麦克风的第三拾音信号;
[0023]
所述双麦波束形成模块用于将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值,所述第一功率比值为所述第一双麦波束形成的输出信号的功率和输入所述mvdr模型的第一平均功率之间的比值;将所述第一拾音信号和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值,所述第二功率比值为所述第二双麦波束形成的输出信号的功率和输入所述mvdr模型的第二平均功率之间的比值;
[0024]
所述语音识别模块用于根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。
[0025]
本发明的实施例,具有如下有益效果:
[0026]
本发明提供了一种基于多麦克风的语音识别方法及装置,本发明通过利用双麦波束形成前后的能量比的方式来进行目标人声和外界干扰噪声的判断,提高了低信噪比环境下针对目标语音和干扰噪声的识别精度,即提高了低信噪比环境下的目标语音和干扰噪声的检测准确率,且能够区分目标语音和其他干扰人声。同时通过利用主麦和右副麦的双麦
波束形成,来对双副麦克风的双麦波束形成进行特定角度缺陷的修正,进一步提高了低信噪比环境下的目标语音和干扰噪声的检测准确率。本发明相较于统计模型方法和机器学习方法,具有更小的运算量和内存占用量,更为简单且容易实现。
[0027]
进一步的,通过提高mvdr模型的增益值来加大双麦波束形成前后的能量差异,再次提高了低信噪比环境下的目标语音和干扰噪声的检测准确率。
附图说明
[0028]
图1是本发明一实施例提供的基于多麦克风的语音识别方法的流程示意图;
[0029]
图2是本发明一实施例提供的基于多麦克风的语音识别装置的结构示意图;
[0030]
图3是本发明一实施例提供的基于多麦克风的语音识别方法的麦克风和噪声之间的位置示意图;
[0031]
图4是本发明一实施例提供的基于多麦克风的语音识别方法的又一流程图。
具体实施方式
[0032]
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033]
如图1所示,本发明一实施例提供的一种基于多麦克风的语音识别方法,包括以下步骤:
[0034]
步骤s101:通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括主麦的第一拾音信号、右前馈副麦克风的第二拾音信号和左前馈副麦克风的第三拾音信号。如图3所示,main_mic为三麦耳机的主麦,ffr_mic和ffl_mic分别为三麦耳机的右前馈副麦克风和左前馈副麦克风,噪声源包含纯环境噪声和周围干扰人声。
[0035]
步骤s102:如图4所示,将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值,所述第一功率比值为所述第一双麦波束形成的输出信号的功率和输入所述mvdr模型的第一平均功率之间的比值;将所述第一拾音信号和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值,所述第二功率比值为所述第二双麦波束形成的输出信号的功率和输入所述mvdr模型的第二平均功率之间的比值。
[0036]
作为其中一种实施例,将所述第一拾音信号、第二拾音信号和第三拾音信号输入所述mvdr模型之前,对所述第一拾音信号、第二拾音信号和第三拾音信号进行移位加窗和傅里叶变换处理。
[0037]
具体的,将将所述第二拾音信号和第三拾音信号(第k帧f频带):
[0038]
x(f,k)=[x1(k,f)x2(k,f)]
t
[0039]
进行短时傅里叶变换处理后,得到x(f,k)=[x1(k,j)x2(k,k)]
t

[0040]
本发明实施例通过mvdr模型形成双麦波束后,能够利用两路信号(即第二拾音信号和第三拾音信号、第一拾音信号和第二拾音信号)的时间延迟信息,增强来自目标方向的语音,衰减来自非目标方向的干扰噪声(环境噪声和周围干扰人声)。通过mvdr模型形成双
麦波束后,干扰噪声相对原始信号中的干扰噪声能量大幅度衰减,同时目标语音能量波束形成前后基本保持不变,可以利用此差异来区分目标语音和干扰噪声,所述干扰噪声包括环境噪声和周围干扰人声。
[0041]
作为其中一种实施例,根据公式(1)为所述mvdr模型增加增益:
[0042][0043]
式中,为所述mvdr模型输入信号的功率,i,j∈{1,2};φ
xx
(f,k)为所述mvdr模型输入信号的互功率谱矩阵,表示第k帧f频带的导向矢量的共轭,ds(f,k)表示第k帧f频带的导向矢量。
[0044]
根据以下过程得到所述公式(1):由于mvdr模型需使噪声的总输出功率最小化,同时不产生语音失真,则需要在下列公式的基础上进行优化:
[0045][0046]
st wh(f,k)ds(f,θs)=1;
[0047]
式中,wh(f,k)φ
nn
(f,k)w(f,k)为所述mvdr模型输出信号的噪声总功率,表示所述mvdr模型输出信号的噪声总功率最小。本发明实施例需要在约束条件wh(f,k)ds(f,θs)=1下,到权重w(f,k)使得输出信号的噪声总输出功率最小。φ
nn
(f,k)为所述mvdr模型输入信号的噪声互功率谱矩阵,通常使用mvdr模型输入信号的信号互功率谱矩阵φ
xx
(f,k)代替。ds(f,θs)是根据双麦克风的相对几何信息,求得的导向矢量,所述导向矢量包含双麦克风的时间延迟信息,θs是指不同方向的声音到达两个麦克风的角度差。w(f,k)表示第k帧f频带在mvdr模型波束形成后所设定的权重y(f,k)=wh(f,k)x(f,k)x(f,k)是所述mvdr模型的双麦输入信号,wh(f,k)为w(f,k)的共轭,y(f,k)是mvdr模型的输出信号(即所述mvdr模型形成的双麦波束),为单通道输出信号。
[0048]
通过wh(f,k)ds(f,θs)=1约束条件定义无语音失真准则,即不产生语音失真额定约束条件,此处θs为目标语音方向。由于麦克风几何信息估计不准确(如耳机的不同佩戴方式都会导致双麦克风的几何位置的变化),导致wh(f,k)ds(f,θs)=g,g≥1,因此,需要额外乘上增益g。增益g跟目标语音信号的功率和双麦波束形成的输出信号的功率有关。在θs方向上的输出信号的功率为为ds(f,θs)的共轭,最大的目标语音信号功率为输入信号的功率i,j∈{1,2},因此,增益公式为:
[0049][0050]
本发明实施例通过为mvdr模型增加增益,增加了双麦波束形成前后噪声的能量差异。
[0051]
作为其中一种实施例,根据公式(2)计算所述第一功率比值:
[0052][0053]
式中,y1(k,f)为所述第一双麦波束形成的输出信号的功率,x3(k,f)为所述第三拾音信号的功率,x2(k,f)为所述第二拾音信号的功率,m为频带总数。
[0054]
根据公式(3)计算所述第二功率比值:
[0055][0056]
式中,y2(k,f)为所述第二双麦波束形成的输出信号的功率,x1(k,f)为所述第一拾音信号的功率,x2(k,f)为所述第二拾音信号的功率,m为频带总数。
[0057]
本发明实施例利用mvdr模型输出的双麦波束形成输出信号的功率和含噪声的原始双麦输入信号的平均功率求比值ζ1(k)和ζ2(k),可以很好地指示当前帧k中是否存在目标语音。由于双麦波束无法很好地衰减和目标语音同一方向的干扰噪声,因此右前馈副麦克风和左前馈副麦克风形成的第一双麦波束,无法很好的滤除来自0度的干扰噪声(如图3所示)。进而本发明实施例利用主麦和右前馈副麦克风形成的第二双麦波束,对这一特定角度的识别结果进行弥补和修正。
[0058]
步骤s103:根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。具体的,当所述第一功率比值小于第一预设阈值,或所述第二功率比值小于第二预设阈值时,判断当前帧的拾音信号为目标语音,否则判断当前帧的拾音信号为干扰噪声。
[0059]
判断当前帧为干扰噪声时,直接选择衰减程度大的滤波器,将噪声滤除干净;当判断当前帧含目标语音时,可以选用温和的滤波器,在衰减干扰噪声的同时保持好的人声质量。
[0060]
本发明通过利用双麦波束形成前后的能量比的方式来进行目标人声和外界干扰噪声的判断,并通过提高mvdr模型的增益值来加大双麦波束形成前后的能量差异,进而提高了低信噪比环境下的目标语音和干扰噪声的检测率,即提高了低信噪比环境下的目标语音和干扰噪声的检测准确率,且能够区分目标语音和其他干扰人声。同时通过利用主麦和右副麦的双麦波束形成,来对双副麦克风的双麦波束形成进行特定角度缺陷的修正,进一步提高了低信噪比环境下的目标语音和干扰噪声的检测准确率。本发明相较于统计模型方法和机器学习方法,具有更小的运算量和内存占用量,更为简单且容易实现。
[0061]
如图2所示,本发明另一实施例提供的一种基于多麦克风的语音识别装置,包括拾音信号采集模块、双麦波束形成模块和语音识别模块;
[0062]
所述拾音信号采集模块用于通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括主麦的第一拾音信号、右前馈副麦克风的第二拾音信号和左前馈副麦克风的第三拾音信号;
[0063]
所述双麦波束形成模块用于将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值,所述第一功率比值为所述第一双麦波束形成的输出信号的功率和输入所述mvdr模型的第一平均功率之间的比值;将所述第一拾音信号
和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值,所述第二功率比值为所述第二双麦波束形成的输出信号的功率和输入所述mvdr模型的第二平均功率之间的比值;
[0064]
所述语音识别模块用于根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。
[0065]
为描述的方便和简洁,本发明装置项实施例的基于多麦克风的语音识别装置包括上述基于多麦克风的语音识别方法实施例中的全部实施方式,此处不再赘述。
[0066]
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0067]
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。

技术特征:


1.一种基于多麦克风的语音识别方法,其特征在于,包括以下步骤:通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括主麦的第一拾音信号、右前馈副麦克风的第二拾音信号和左前馈副麦克风的第三拾音信号;将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值,所述第一功率比值为所述第一双麦波束形成的输出信号的功率和输入所述mvdr模型的第一平均功率之间的比值;将所述第一拾音信号和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值,所述第二功率比值为所述第二双麦波束形成的输出信号的功率和输入所述mvdr模型的第二平均功率之间的比值;根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。2.根据权利要求1所述的基于多麦克风的语音识别方法,其特征在于,将所述mvdr模型增加增益后用于形成第一双麦波束和第二双麦波束。3.根据权利要求2所述的基于多麦克风的语音识别方法,其特征在于,根据以下公式为所述mvdr模型增加增益:式中,为所述mvdr模型输入信号的功率,i,j∈{1,2};φ
xx
(f,k)为所述mvdr模型输入信号的互功率谱矩阵,表示第k帧f频带的导向矢量的共轭,d
s
(f,k)表示第k帧f频带的导向矢量。4.根据权利要求3所述的基于多麦克风的语音识别方法,其特征在于,将所述第一拾音信号、第二拾音信号和第三拾音信号输入所述mvdr模型之前,对所述第一拾音信号、第二拾音信号和第三拾音信号进行移位加窗和傅里叶变换处理。5.根据权利要求4所述的基于多麦克风的语音识别方法,其特征在于,根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,具体为:当所述第一功率比值小于第一预设阈值,或所述第二功率比值小于第二预设阈值时,判断当前帧的拾音信号为目标语音,否则判断当前帧的拾音信号为干扰噪声。6.根据权利要求5所述的基于多麦克风的语音识别方法,其特征在于,根据以下公式计算所述第一功率比值:式中,y1(k,f)为所述第一双麦波束形成的输出信号的功率,x3(k,f)为所述第三拾音信号的功率,x2(k,f)为所述第二拾音信号的功率,m为频带总数。7.根据权利要求1至6任一项所述的基于多麦克风的语音识别方法,其特征在于,根据以下公式计算所述第二功率比值:
式中,y2(k,f)为所述第二双麦波束形成的输出信号的功率,x1(k,f)为所述第一拾音信号的功率,x2(k,f)为所述第二拾音信号的功率,m为频带总数。8.一种基于多麦克风的语音识别装置,其特征在于,包括拾音信号采集模块、双麦波束形成模块和语音识别模块;所述拾音信号采集模块用于通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括主麦的第一拾音信号、右前馈副麦克风的第二拾音信号和左前馈副麦克风的第三拾音信号;所述双麦波束形成模块用于将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值,所述第一功率比值为所述第一双麦波束形成的输出信号的功率和输入所述mvdr模型的第一平均功率之间的比值;将所述第一拾音信号和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值,所述第二功率比值为所述第二双麦波束形成的输出信号的功率和输入所述mvdr模型的第二平均功率之间的比值;所述语音识别模块用于根据所述第一功率比值及其预设阈值和第二功率比值及其预设阈值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。

技术总结


本发明公开了一种基于多麦克风的语音识别方法及装置。该方法通过多麦克风采集当前帧的拾音信号,所述当前帧的拾音信号包括第一拾音信号、第二拾音信号和第三拾音信号;将所述第二拾音信号和第三拾音信号输入至mvdr模型,得到第一双麦波束,并计算第一功率比值;将所述第一拾音信号和第二拾音信号输入至所述mvdr模型,得到第二双麦波束,并计算第二功率比值;根据所述第一功率比值和第二功率比值判断当前帧的拾音信号为目标语音或干扰噪声,所述干扰噪声包括环境噪声和干扰人声。本发明技术方案提高了低信噪比环境下针对目标语音和干扰噪声的识别精度。干扰噪声的识别精度。干扰噪声的识别精度。


技术研发人员:

邱志豪

受保护的技术使用者:

厦门亿联网络技术股份有限公司

技术研发日:

2022.04.14

技术公布日:

2022/7/29

本文发布于:2024-09-21 01:21:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/19686.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   音信   波束   功率
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议