定向麦克风阵列语音失真检测、修复方法、装置及系统与流程



1.本技术涉及麦克风阵列拾音技术领域,更具体的说,是涉及一种定向麦克风阵列语音失真检测、修复方法、装置及系统。


背景技术:



2.随着社会科技的不断发展,基于语音交互的各种设备以及服务快速普及。以定向麦克风阵列为例,现有定向麦克风阵列拾音技术,一般先使用固定波束形成算法提取出几个方向的语音,然后使用自适应波束形成算法加强波束指向,最后使用后置滤波器,将目标方向语音中噪声和其他方向语音干扰进行进一步抑制,这样语音信噪比会明显提升。
3.现有方案在说话人位置固定,混响小等声学环境相对好的场景下能有比较好的效果,但是,实际场景下,说话人位置在并不是都在理论的目标位置上,而且环境也有很大不确定性,这样会导致其他波束方向上会有泄露的目标方向语音信号,这会造成目标语音经过后置滤波处理后失真变大。失真的语音信号会明显降低后端语音识别的正确率。
4.为此,有必要提供一种定向麦克风阵列语音信号的失真检测方案,以评价麦克风阵列中后置滤波器输出的后置滤波信号的失真情况。


技术实现要素:



5.鉴于上述问题,提出了本技术以便提供一种定向麦克风阵列语音失真检测、修复方法、装置及系统,以实现对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真检测。具体方案如下:
6.第一方面,提供了一种定向麦克风阵列语音失真检测方法,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真检测,方法包括:
7.基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量;
8.基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量;
9.基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率
10.将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,所述失真度用于衡量当前帧的后置滤波信号的失真大小。
11.第二方面,提供了一种定向麦克风阵列语音失真修复方法,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真修复,方法包括:
12.获取上述失真检测方法所得到的所述后置滤波器输出当前帧的后置滤波信号的失真度;
13.基于所述失真度,将输入至所述后置滤波器的当前帧频域信号与所述后置滤波信号进行混合,得到混合频域信号;
14.将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。
15.第三方面,提供了一种定向麦克风阵列语音失真检测装置,用于对定向麦克风阵
列中后置滤波器输出的后置滤波信号进行失真检测,装置包括:
16.第一能量计算单元,用于基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量;
17.第二能量计算单元,用于基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量;
18.语音质量比率计算单元,用于基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率;
19.失真度计算单元,用于将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,所述失真度用于衡量当前帧的后置滤波信号的失真大小。
20.第四方面,提供了一种定向麦克风阵列语音失真修复装置,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真修复,装置包括:
21.失真度获取单元,用于获取前述失真检测方法所得到的所述后置滤波器输出的当前帧的后置滤波信号的失真度;
22.信号混合单元,用于基于所述失真度,将输入至所述后置滤波器的当前帧频域信号与所述后置滤波信号进行混合,得到混合频域信号;
23.信号变换单元,用于将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。
24.第五方面,提供了一种定向麦克风阵列语音失真修复系统,包括:
25.固定波束形成单元,用于采用固定波束形成算法提取若干方向的语音;
26.自适应波束形成单元,用于采用自适应波束形成算法对固定波束形成单元提取的若干方向的语音进行加强波束指向,得到目标方向的频域信号及其他方向的频域信号;
27.后置滤波器,用于基于所述自适应波束形成单元输出的信号进行后置滤波处理,得到后置滤波信号;
28.失真检测单元,用于采用上述失真检测方法计算得到所述后置滤波器输出的当前帧的后置滤波信号的失真度;
29.失真修复单元,用于基于所述失真度,将所述目标方向的频域信号与所述后置滤波信号进行混合,得到混合频域信号;将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。
30.借由上述技术方案,本技术基于输入至后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量,该当前帧频域信号可以是经过自适应波束形成算法加强波束指向后的目标方向的频域信号,进一步,基于后置滤波器输出的后置滤波信号,可以计算后置滤波处理后信号能量,基于后置滤波处理后信号能量及后置滤波处理前信号能量,计算当前帧的语音质量比率,该语音质量比率按照设定方式压扩后即可得到当前帧的失真度,能够用于衡量当前帧的后置滤波信号的失真大小,也即,衡量当前帧频域信号经过后置滤波器处理后得到的后置滤波信号的失真情况。
附图说明
31.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术
的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
32.图1为本技术实施例提供的定向麦克风阵列语音失真检测方法的一流程示意图;
33.图2示例了一种现有的定向麦克风阵列拾音系统结构示意图;
34.图3示例了一种语音质量比率与失真度变化曲线示意图;
35.图4为本技术实施例提供的定向麦克风阵列语音失真修复方法的一流程示意图;
36.图5示例了一种定向麦克风阵列语音失真修复系统的结构示意图;
37.图6为本技术实施例提供的一种定向麦克风阵列语音失真检测装置结构示意图;
38.图7为本技术实施例提供的一种定向麦克风阵列语音失真修复装置结构示意图。
具体实施方式
39.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
40.本技术提供了一种定向麦克风阵列语音失真检测方案,可以适用于对各类型定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真检测。在此基础上,基于得到的后置滤波信号的失真度,可以执行后续任务,如对后置滤波信号进行失真修复等处理。
41.本技术方案可以基于具备数据处理能力的终端实现,该终端可以是定向麦克风阵列设备、与定向麦克风阵列相连的后端处理设备等。
42.接下来,结合图1所述,本技术的定向麦克风阵列语音失真检测方法可以包括如下步骤:
43.步骤s100、基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量。
44.参照图2,图2示例了一种现有的定向麦克风阵列拾音系统结构示意图。
45.首先通过固定波束形成单元,采用fixedbeamforming固定波束形成算法,基于定向麦克风阵列中各定向麦克风采集的语音信号(图2中示例了包括四个麦克风的情况,分别为mic1-mic4)提取出若干方向的语音(图2中示例的b0~bn),并送入gsc单元,gsc单元采用广义旁瓣相消gsc算法加强波束指向,得到目标方向语音信号target_b0和其他方向语音信号ref_b1~bn,送入后置滤波器postfilter进行后置滤波处理,输出后置滤波信号pf_output。
46.其中,gsc单元可以替换为其他自适应波束形成算法单元,用于采用其他自适应波束形成算法加强波束指向。
47.以图2示例的拾音系统为例,本步骤中可以将gsc单元得到的目标方向语音信号target_b0作为当前帧频域信号,计算其后置滤波处理前信号能量。
48.步骤s110、基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量。
49.步骤s120、基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率。
50.具体地,可以计算后置滤波处理后信号能量与后置滤波处理前信号能量的比值,
结果作为当前帧的语音质量比率。本步骤中,通过计算语音信号能量作为语音信号质量,进而得到后置滤波处理后与处理前的语音信号的质量比率。
51.步骤s130、将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,所述失真度用于衡量当前帧的后置滤波信号的失真大小。
52.具体地,本技术可以按照设定的失真度取值区间,将当前帧的语音质量比率按照设定方式进行压扩,以压扩到失真度取值区间内,得到当前帧的失真度。整体上来看的话,语音质量比率与失真度是呈正相关关系。
53.本技术实施例提供的定向麦克风阵列语音失真检测方法,基于输入至后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量,该当前帧频域信号可以是经过自适应波束形成算法加强波束指向后的目标方向的频域信号,进一步,基于后置滤波器输出的后置滤波信号,可以计算后置滤波处理后信号能量,基于后置滤波处理后信号能量及后置滤波处理前信号能量,计算当前帧的语音质量比率,该语音质量比率按照设定方式压扩后即可得到当前帧的失真度,能够用于衡量当前帧的后置滤波信号的失真大小,也即,衡量当前帧频域信号经过后置滤波器处理后得到的后置滤波信号的失真情况。
54.在本技术的一些实施例中,对上述步骤s100,计算后置滤波处理前信号能量的过程,以及步骤s110计算后置滤波处理后信号能量的过程进行介绍。
55.具体地,根据波束形成原理可知,低频的指向性比较差,且中频以及部分高频中包含了更丰富的信息,因此上述步骤s100具体可以包括:计算当前帧频域信号中,设定中频带内各频点的能量总和,作为后置滤波处理前信号能量。
56.上述步骤s110具体可以包括:计算后置滤波器输出的后置滤波信号中,设定中频带内各频点的能量总和,作为后置滤波处理后信号能量。
57.其中,设定中频带可以是中频频带或者是中频频带加部分高频频带,示例如设定中频带可以为1500hz~5000hz。
58.以上述图2示例的拾音系统为例:
59.当前帧频域信号可以表示为:gsc_b0,后置滤波信号可以表示为:pf_output,则:
60.后置滤波处理前信号能量gscp和后置滤波处理后信号能量pfp分别表示为:
[0061][0062][0063]
其中,abs()表示计算信号能量,k表示频点索引。
[0064]
上述输入至后置滤波器的当前帧的频域信号和后置滤波信号可以是在采样率为16000hz,512点fft情况下得到的信号。考虑到语音短时平稳的特点,在采样率为16000hz,512点fft时,采样的数据为(512/16000=32毫秒)的数据,符合语音短时平稳特点。当然,采样率还可以选取为8000hz或其它数值,fft频点也可以选取128或256等其它数值。
[0065]
在上述采样率为16000hz,512点fft的情况下,当设定中频带为1500hz~5000hz时,则1500hz对应的频点为:1500/(16000/512)=48,5000hz对应的频点为:5000/(16000/512)=160。
[0066]
在本技术的一些实施例中,考虑到语音信号虽然是短时平稳,但是长时是不平稳
的,本技术处理的每一帧信号的时间比较短,就会出现一句连续的话中间好多帧的能量比较小,可能会被误认为非语音信号。为此,本实施例中在上述步骤s120,基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率之前,还可以增加对计算得到的所述后置滤波处理前信号能量、所述后置滤波处理后信号能量进行回归平滑处理的过程,具体地:
[0067]
可以将当前帧的后置滤波处理前信号能量gscp与历史值进行回归平滑处理,得到平滑处理后的后置滤波处理前信号能量。
[0068]
公式表示如下:
[0069]
gscsmpi=gscsmp
i-1
*0.9+gscp*0.1
[0070]
其中,gscsmpi表示当前帧平滑处理后的后置滤波处理前信号能量,gscsmp
i-1
表示上一帧平滑处理后的后置滤波处理前信号能量,平滑因子可以取值为0.1或其它数值。
[0071]
同理,可以将当前帧的后置滤波处理后信号能量pfp与历史值进行回归平滑处理,平滑因子可以取值为0.1或其它数值,得到平滑处理后的后置滤波处理后信号能量。
[0072]
公式表示如下:
[0073]
pfsmpi=pfsmp
i-1
*0.9+pfp*0.1
[0074]
其中,pfsmpi表示当前帧平滑处理后的后置滤波处理后信号能量,pfsmp
i-1
表示上一帧平滑处理后的后置滤波处理后信号能量,平滑因子可以取值为0.1或其它数值。
[0075]
在上述对后置滤波处理前信号能量、后置滤波处理后信号能量进行回归平滑处理的基础上,上述步骤s120计算当前帧的语音质量比率的过程,具体可以包括:
[0076]
基于平滑处理后的后置滤波处理后信号能量,及平滑处理后的后置滤波处理前信号能量,计算当前帧的语音质量比率,公式表示如下:
[0077]
ratiopi=pfsmpi/gscsmpi[0078]
其中,ratiopi表示当前帧的语音质量比率。
[0079]
本实施例提供的方案中,增加了对计算得到的后置滤波处理前信号能量和后置滤波处理后信号能量进行回归平滑处理的过程,通过回归平滑处理,能够保证一句连续的话中间能量较小的信号帧不会被误认为非语音信号,也即消除语音段小间隙产生的非语音毛刺的现象。
[0080]
进一步地,本技术实施例还可以在上述步骤s130,将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度之前,增加对当前帧的语音质量比率进行回归平滑处理的过程,得到当前帧平滑处理后的语音质量比率。
[0081]
需要说明的是,本步骤中所要进行回归平滑处理的当前帧的语音质量比率,可以是上述采用平滑处理后的后置滤波处理后信号能量,及平滑处理后的后置滤波处理前信号能量,计算的当前帧的语音质量比率ratiopi,除此之外,还可以是采用未经过平滑处理的后置滤波处理后信号能量,及未经过平滑处理的后置滤波处理前信号能量,计算的当前帧的语音质量比率。
[0082]
为了便于表述,下文中以采用平滑处理后的后置滤波处理后信号能量,及平滑处理后的后置滤波处理前信号能量,计算的当前帧的语音质量比率ratiopi为例进行说明。
[0083]
在对当前帧的语音质量比率进行回归平滑处理时,本实施例中提供了一种快升慢降的平滑策略,也即若当前帧的语音质量比上一帧好时,语音质量比率快速更新;若当前帧
的语音质量比上一帧差时,语音质量比率慢速更新,具体实施方式可以包括:
[0084]
s1、计算当前帧的语音质量比率与上一帧的平滑处理后语音质量比率的差值dif。
[0085]
dif=ratiop
i-ratiopsgsc
i-1
[0086]
ratiopsgsc
i-1
表示上一帧平滑处理后的语音质量比率。
[0087]
s2、若所述差值dif大于0,则将所述当前帧的语音质量比率作为当前帧平滑处理后的语音质量比率。
[0088]
s3、若所述差值dif不大于0,则将所述差值乘以第一设定权值,再与所述上一帧的平滑处理后语音质量比率相加,结果作为当前帧平滑处理后的语音质量比率。
[0089]
其中,上述第一设定权值小于1,示例如可以取值为0.08。
[0090][0091]
其中,ratiopsgsci表示当前帧平滑处理后的语音质量比率。
[0092]
由上可知,若当前帧的语音质量比率与上一帧的平滑处理后语音质量比率的差值dif大于0,则当前帧的平滑处理后语音质量比率快速更新为当前帧的语音质量比率ratiopi,若当前帧的语音质量比率与上一帧的平滑处理后语音质量比率的差值dif不大于0,则通过将该差值乘以一个小于1的权值后再与上一帧的平滑处理后语音质量比率相加,结果作为当前帧平滑处理后的语音质量比率,实现语音质量比率慢速更新。
[0093]
通过对当前帧的语音质量比率进行回归平滑处理,能够保证一句连续的话中间能量较小的信号帧不会被误认为非语音信号,也即消除语音段小间隙产生的非语音毛刺的现象。
[0094]
在此基础上,步骤s130具体可以包括:
[0095]
将当前帧平滑处理后的语音质量比率按照设定方式压扩,得到当前帧的失真度。
[0096]
在本技术的一些实施例中,对前述步骤s130,将当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度的过程进行介绍。
[0097]
需要说明的是,本实施例中可以是对未经平滑处理的当前帧的语音质量比率进行压扩,也可以是对上述经过平滑处理的语音质量比率进行压扩。本实施例中以对经过平滑处理的语音质量比率进行压扩为例介绍,为了便于表述,本实施例下文提及的“语音质量比率”可以理解为“平滑处理后的语音质量比率”。
[0098]
本实施例中可以预先设定语音质量比率与失真度间的函数关系,在此基础上,可以基于该函数关系,计算与当前帧的语音质量比率对应的当前帧的失真度。
[0099]
其中,函数关系至少可以包括:当语音质量比率小于第一数值时,对应的失真度取值为0,当语音质量比率大于第一数值时,失真度与语音质量比率呈正相关关系,其中,第一数值为大于0且小于0.5的数。
[0100]
本实施例中认为,若语音质量比率小于第一数值,表示语音质量比率在可接受范围内,其不会影响后续数据处理,如不会影响后续语音识别等任务,为此,可以将失真度取值为0,或一个极小数值。
[0101]
其中,失真度越大表示信号失真越严重。
[0102]
在此基础上,当语音质量比率大于第一数值时,整体上失真度与语音质量比率呈正相关关系。当然,还可以根据用户的实际需要,在语音质量比率大于第一数值小于1的区
间中进一步划分为多个区间,并通过在不同区间设置函数关系,控制失真度随语音质量比率的变化率。
[0103]
参照下述公式,本实施例提供了一种可选的失真度a与语音质量比率ratiopfgsc间的函数关系:
[0104][0105]
其中,将语音质量比率从0至1划分为3个区间,分别为0-0.3、0.3-0.5、0.5-1。
[0106]
进一步地,可以将失真度a限定到0-1范围内,得到如图3所示的曲线图。
[0107]
图3中横坐标代表语音质量比率,纵坐标代表失真度。由图3可知,当语音质量比率小于等于0.3时,失真度取值为0。
[0108]
在0.3-0.5区间,失真度与语音质量比率间呈第一斜率;
[0109]
在0.5-1区间,失真度与语音质量比率间呈第二斜率,第二斜率大于第一斜率,表示,随着语音质量比率越来越大,失真度的变化率也在增加。
[0110]
当然,上述图3仅仅示例了一种可选的语音质量比率与失真度间的函数关系,除此之外,用户还可以根据实际需要而选定二者间的其它函数关系。
[0111]
本技术上述实施例提供的定向麦克风阵列语音失真检测方案,能够对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真检测,得到输出的每帧后置滤波信号的失真度。
[0112]
在此基础上,本技术实施例进一步提供了一种定向麦克风阵列语音失真修复方法,能够对上述后置滤波器输出的后置滤波信号进行失真修复,失真修复过程可以参照图4所示流程,包括如下步骤:
[0113]
步骤s200、获取计算得到的后置滤波器输出当前帧的后置滤波信号的失真度。
[0114]
具体地,可以基于前述实施例介绍的各个方案,计算得到定向麦克风阵列中后置滤波器输出的当前帧的后置滤波信号的失真度a。
[0115]
步骤s210、基于所述失真度,将输入至所述后置滤波器的当前帧频域信号与后置滤波信号进行混合,得到混合频域信号。
[0116]
具体地,可以将失真度作为输入至后置滤波器的当前帧频域信号的混合权值,进而将当前帧频域信号与后置滤波信号进行混合,得到混合频域信号。
[0117]
具体地,混合频域信号可以表示为:
[0118]
y[k]=pf_output(k)*(1.0-a)+gsc_b0(k)*a
[0119]
其中,y[k]表示混合频域信号,pf_output(k)表示后置滤波信号,gsc_b0(k)表示输入至后置滤波器的当前帧频域信号,k表示频点索引,对于一帧信号中每个频点其失真度大小相同。
[0120]
由上述公式可知,若当前帧的后置滤波信号完全没有失真,也即失真度a取值为0,则此时混合频域信号即为当前帧的后置滤波信号;反之,若当前帧的后置滤波信号完全失真,也即失真度a取值为1,则此时混合频域信号即为后置滤波器处理之前的当前帧频域信号,表明此时的后置滤波信号完全不可用。
[0121]
步骤s220、将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。
[0122]
具体地,上述混合频域信号经过逆傅里叶变换ifft之后,得到时域语音信号作为输出output:
[0123]
output=ifft(y)
[0124]
本技术的一些实施例中,进一步提供了一种定向麦克风阵列语音失真修复系统,参照图5所示,该系统可以包括:
[0125]
固定波束形成单元,用于采用固定波束形成算法提取若干方向的语音。
[0126]
具体地,固定波束形成单元可以采用fixedbeamforming等固定波束形成算法,基于定向麦克风阵列采集的语音信号,提取若干方向的语音:b0~bn。
[0127]
自适应波束形成单元,用于采用自适应波束形成算法对固定波束形成单元提取的若干方向的语音进行加强波束指向,得到目标方向的频域信号及其他方向的频域信号。
[0128]
具体地,自适应波束形成单元可以采用广义旁瓣相消gsc算法或其它自适应波束形成算法,对固定波束形成单元提取的若干方向的语音进行加强波束指向,得到目标方向的频域信号target_b0,和其他方向的频域信号ref_b1~bn。
[0129]
后置滤波器,用于基于自适应波束形成单元输出的信号进行后置滤波处理,得到后置滤波信号pf_output。
[0130]
失真检测单元,用于采用前述实施例介绍的失真检测方法计算得到后置滤波器输出的当前帧的后置滤波信号pf_output的失真度a。
[0131]
具体地,基于目标方向的频域信号target_b0和后置滤波信号pf_output,计算得到失真度a。
[0132]
失真修复单元,用于基于所述失真度a,将所述目标方向的频域信号target_b0与所述后置滤波信号pf_output进行混合,得到混合频域信号y,将所述混合频域信号y进行逆傅里叶变换,得到时域语音信号输出output。
[0133]
下面对本技术实施例提供的定向麦克风阵列语音失真检测装置进行描述,下文描述的定向麦克风阵列语音失真检测装置与上文描述的定向麦克风阵列语音失真检测方法可相互对应参照。
[0134]
参见图6,图6为本技术实施例公开的一种定向麦克风阵列语音失真检测装置结构示意图。
[0135]
如图6所示,该装置可以包括:
[0136]
第一能量计算单元11,用于基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量;
[0137]
第二能量计算单元12,用于基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量;
[0138]
语音质量比率计算单元13,用于基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率;
[0139]
失真度计算单元14,用于将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,所述失真度用于衡量当前帧的后置滤波信号的失真大小。
[0140]
可选的,上述第一能量计算单元基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量的过程,可以包括:
[0141]
计算输入至所述后置滤波器的当前帧频域信号中,设定中频带内各频点的能量总
和,作为后置滤波处理前信号能量。
[0142]
可选的,上述第二能量计算单元基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量的过程,可以包括:
[0143]
计算所述后置滤波器输出的后置滤波信号中,设定中频带内各频点的能量总和,作为后置滤波处理后信号能量。
[0144]
可选的,本技术的装置还可以包括:
[0145]
能量平滑处理单元,用于在计算当前帧的语音质量比率之前,分别对所述后置滤波处理前信号能量、所述后置滤波处理后信号能量进行回归平滑处理;在此基础上,上述语音质量比率计算单元基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率的过程,可以包括:
[0146]
基于平滑处理后的后置滤波处理后信号能量,及平滑处理后的后置滤波处理前信号能量,计算当前帧的语音质量比率。
[0147]
可选的,本技术的装置还可以包括:
[0148]
语音质量比率平滑处理单元,用于在将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度之前,对所述当前帧的语音质量比率进行回归平滑处理,得到当前帧平滑处理后的语音质量比率;在此基础上,上述失真度计算单元将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度的过程,可以包括:
[0149]
将所述当前帧平滑处理后的语音质量比率按照设定方式压扩,得到当前帧的失真度。
[0150]
可选的,上述语音质量比率平滑处理单元对所述当前帧的语音质量比率进行回归平滑处理的过程,可以包括:
[0151]
计算当前帧的语音质量比率与上一帧的平滑处理后语音质量比率的差值;
[0152]
若所述差值大于0,则将所述当前帧的语音质量比率作为当前帧平滑处理后的语音质量比率;
[0153]
若所述差值不大于0,则将所述差值乘以第一设定权值,再与所述上一帧的平滑处理后语音质量比率相加,结果作为当前帧平滑处理后的语音质量比率,所述第一设定权值小于1。
[0154]
可选的,上述失真度计算单元将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度的过程,可以包括:
[0155]
按照设定的语音质量比率与失真度间的函数关系,计算与所述当前帧的语音质量比率对应的当前帧的失真度;
[0156]
其中,所述函数关系至少包括:当所述语音质量比率小于第一数值时,对应的失真度取值为0,当所述语音质量比率大于所述第一数值时,所述失真度与所述语音质量比率呈正相关关系,所述第一数值为大于0且小于0.5的数。
[0157]
下面对本技术实施例提供的定向麦克风阵列语音失真修复装置进行描述,下文描述的定向麦克风阵列语音失真修复装置与上文描述的定向麦克风阵列语音失真修复方法可相互对应参照。
[0158]
参见图7,图7为本技术实施例公开的一种定向麦克风阵列语音失真修复装置结构示意图。
[0159]
如图7所示,该装置可以包括:
[0160]
失真度获取单元21,用于获取前述实施例介绍的失真检测方法所得到的后置滤波器输出的当前帧的后置滤波信号的失真度;
[0161]
信号混合单元22,用于基于所述失真度,将输入至所述后置滤波器的当前帧频域信号与所述后置滤波信号进行混合,得到混合频域信号;
[0162]
信号变换单元23,用于将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。
[0163]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0164]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
[0165]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种定向麦克风阵列语音失真检测方法,其特征在于,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真检测,方法包括:基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量;基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量;基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率;将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,所述失真度用于衡量当前帧的后置滤波信号的失真大小。2.根据权利要求1所述的方法,其特征在于,所述基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量,包括:计算输入至所述后置滤波器的当前帧频域信号中,设定中频带内各频点的能量总和,作为后置滤波处理前信号能量。3.根据权利要求1所述的方法,其特征在于,所述基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量,包括:计算所述后置滤波器输出的后置滤波信号中,设定中频带内各频点的能量总和,作为后置滤波处理后信号能量。4.根据权利要求1所述的方法,其特征在于,在计算当前帧的语音质量比率之前,还包括:分别对所述后置滤波处理前信号能量、所述后置滤波处理后信号能量进行回归平滑处理;所述基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率,包括:基于平滑处理后的后置滤波处理后信号能量,及平滑处理后的后置滤波处理前信号能量,计算当前帧的语音质量比率。5.根据权利要求1所述的方法,其特征在于,在将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度之前,还包括:对所述当前帧的语音质量比率进行回归平滑处理,得到当前帧平滑处理后的语音质量比率;则将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度的过程,包括:将所述当前帧平滑处理后的语音质量比率按照设定方式压扩,得到当前帧的失真度。6.根据权利要求5所述的方法,其特征在于,对所述当前帧的语音质量比率进行回归平滑处理的过程,包括:计算当前帧的语音质量比率与上一帧的平滑处理后语音质量比率的差值;若所述差值大于0,则将所述当前帧的语音质量比率作为当前帧平滑处理后的语音质量比率;若所述差值不大于0,则将所述差值乘以第一设定权值,再与所述上一帧的平滑处理后语音质量比率相加,结果作为当前帧平滑处理后的语音质量比率,所述第一设定权值小于1。
7.根据权利要求1-6任一项所述的方法,其特征在于,将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,包括:按照设定的语音质量比率与失真度间的函数关系,计算与所述当前帧的语音质量比率对应的当前帧的失真度;其中,所述函数关系至少包括:当所述语音质量比率小于第一数值时,对应的失真度取值为0,当所述语音质量比率大于所述第一数值时,所述失真度与所述语音质量比率呈正相关关系,所述第一数值为大于0且小于0.5的数。8.一种定向麦克风阵列语音失真修复方法,其特征在于,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真修复,方法包括:获取权利要求1-7任一项的方法所得到的所述后置滤波器输出当前帧的后置滤波信号的失真度;基于所述失真度,将输入至所述后置滤波器的当前帧频域信号与所述后置滤波信号进行混合,得到混合频域信号;将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。9.一种定向麦克风阵列语音失真检测装置,其特征在于,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真检测,装置包括:第一能量计算单元,用于基于输入至所述后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量;第二能量计算单元,用于基于所述后置滤波器输出的后置滤波信号,计算后置滤波处理后信号能量;语音质量比率计算单元,用于基于所述后置滤波处理后信号能量及所述后置滤波处理前信号能量,计算当前帧的语音质量比率;失真度计算单元,用于将所述当前帧的语音质量比率按照设定方式压扩,得到当前帧的失真度,所述失真度用于衡量当前帧的后置滤波信号的失真大小。10.一种定向麦克风阵列语音失真修复装置,其特征在于,用于对定向麦克风阵列中后置滤波器输出的后置滤波信号进行失真修复,装置包括:失真度获取单元,用于获取权利要求1-7任一项的方法所得到的所述后置滤波器输出的当前帧的后置滤波信号的失真度;信号混合单元,用于基于所述失真度,将输入至所述后置滤波器的当前帧频域信号与所述后置滤波信号进行混合,得到混合频域信号;信号变换单元,用于将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。11.一种定向麦克风阵列语音失真修复系统,其特征在于,包括:固定波束形成单元,用于采用固定波束形成算法提取若干方向的语音;自适应波束形成单元,用于采用自适应波束形成算法对固定波束形成单元提取的若干方向的语音进行加强波束指向,得到目标方向的频域信号及其他方向的频域信号;后置滤波器,用于基于所述自适应波束形成单元输出的信号进行后置滤波处理,得到后置滤波信号;失真检测单元,用于采用权利要求1-7任一项的方法计算得到所述后置滤波器输出的当前帧的后置滤波信号的失真度;
失真修复单元,用于基于所述失真度,将所述目标方向的频域信号与所述后置滤波信号进行混合,得到混合频域信号;将所述混合频域信号进行逆傅里叶变换,得到时域语音信号输出。12.根据权利要求11所述的系统,其特征在于,所述自适应波束形成算法为广义旁瓣相消gsc算法。

技术总结


本申请公开了一种定向麦克风阵列语音失真检测、修复方法、装置及系统,本申请基于输入至定向麦克风阵列的后置滤波器的当前帧频域信号,计算后置滤波处理前信号能量,该当前帧频域信号可以是经过自适应波束形成算法加强波束指向后的目标方向的频域信号,进一步,基于后置滤波器输出的后置滤波信号,可以计算后置滤波处理后信号能量,基于后置滤波处理后信号能量及后置滤波处理前信号能量,计算当前帧的语音质量比率,该语音质量比率按照设定方式压扩后即可得到当前帧的失真度,能够用于衡量当前帧的后置滤波信号的失真大小,也即,衡量当前帧频域信号经过后置滤波器处理后得到的后置滤波信号的失真情况。后置滤波信号的失真情况。后置滤波信号的失真情况。


技术研发人员:

来意哲

受保护的技术使用者:

西安讯飞超脑信息科技有限公司

技术研发日:

2022.11.09

技术公布日:

2023/3/7

本文发布于:2024-09-22 22:31:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/70634.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   语音   所述   比率
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议