一种麦克风阵列音频的处理方法及拾音胸牌



1.本发明涉及电子产品技术领域,特别是涉及一种麦克风阵列音频的处理方法及拾音胸牌。


背景技术:



2.在实际麦克风录音过程中,会出现一些静音片段,例如教师上课前几分钟、中间休息,会议室录音开始、结束、中场休息等,这些情况的发生都会导致麦克风录取的音频存在一定的静音部分,这些静音音频中只含有背景噪声,并没有任何实际有用的信息。
3.基于此,在麦克风音频信号处理过程中,通常利用语音活动检测算法(voice activity detection,vad)录音音频中的非人声片段(静音部分)和人声片段,目的就是从声音信号中识别和消除长时间的静音期。
4.对于音频中是否存在人声的判决准则可以分为3类:一是基于门限;二是基于统计模型;三是基于深度学习。
5.在基于门限的判别准则中,通过设定门限值,将大于门限值的语音认为存在人声,即在满足语音能量大于背景噪声能量的假设下,当音频能量大于某一门限时,则认为可能存在人声。门限值的确定与实际录音的场景相关,当场景中的噪声(即环境中的背景噪声)在不断更换时,门限值也要随之变换,以保证检测的准确性,因此需要根据实际获取音频情况来更改语音检测的门限值。
6.基于此,在对麦克风阵列音频进行vad处理时需要确定合适的门限值,只有vad切割音频准确,才能保证后续音频处理的准确性。


技术实现要素:



7.本发明的目的是提供一种麦克风阵列音频的处理方法及拾音胸牌,以确保在对麦克风音频进行vad处理时音频检测的准确率。
8.为解决上述技术问题,本发明提供一种麦克风阵列音频的处理方法,包括:
9.s1:获取麦克风阵列采集到的混合语音信号;
10.s2:根据所述混合语音信号当前帧的前e帧中每帧的门限值加权确定当前帧的门限值;
11.s3:根据所述当前帧的门限值对当前帧的语音信号进行语音检测,当检测到当前帧的语音信号大于所述当前帧的门限值时,则判定当前帧为非静音帧,暂存当前帧的门限值;
12.s4:向后移动语言帧,采用s2至s3所述方法预测各帧门限值并对各帧语音信号进行语音检测,将大于每帧门限值的所有帧的语音信号作为非静音语音信号;
13.s5:对所述非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量;
14.s6:根据所述不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强;
15.s7:对增强后的说话人语音信号进行降噪处理,输出每路波束上降噪处理后的语音信号。
16.优选地,所述根据所述混合语音信号当前帧的前e帧每帧的门限值加权确定当前帧的门限值为:
17.ηi=w
i-1
η
i-1
+w
i-2
η
i-2
+

+w
i-e
η
i-e
18.式中,ηi是当前帧的门限值,即所述混合语音信号中第i帧音频信号的门限值,(η
i-1
,η
i-2


,η
i-e
)为当前帧的前1帧至前e帧每帧音频信号的门限值,即所述混合语音信号中第(i-1,i-2,

,i-e)帧音频信号的门限值,(w
i-1
,w
i-2


,w
i-e
)分别为当前帧的前1帧至前e帧每帧音频信号门限值的权重值,即所述混合语音信号中第(i-1,i-2,

,i-e)帧音频信号门限值的权重值,其中,i≥e+1,e代表语音检测时滑动窗的大小。
19.优选地,所述语音检测时滑动窗的大小确定步骤包括:
20.利用不同大小的滑动窗基于h∞准则最大化优化语音检测的准确率:
[0021][0022]
式中,a
target
为基础测试集中的标准音频,a
correct
为语音检测后的音频,代表语音检测的准确率;
[0023]
得到语音检测准确率与不同大小的滑动窗的对应关系,选择语音检测准确率满足设定准确率阈值时对应的滑动窗中的最小值作为语音检测时滑动窗的大小。
[0024]
优选地,所述混合语音信号的第1帧至第n帧的门限值分别为每帧音频信号的能量均值。
[0025]
优选地,所述根据所述当前帧的门限值对当前帧的语音信号进行语音检测包括:
[0026]
所述麦克风阵列采集到的混合语音信号为:
[0027][0028]
式中,xm(t)为麦克风阵列采集到的音频信号,为麦克风m和声源c的响应函数,d表示声源个数,sc(t)是声源c对第m个麦克风的输出信号,nm(t)是第m个麦克风的噪声信号,麦克风总数记为m;
[0029]
利用门限值进行语音检测:
[0030][0031]
式中,nn、ns分别代表噪声向量矩阵和语音向量矩阵,x
k,i
表示所述混合语音信号中第k帧音频谱第i个频点索引的语音信号,l代表第k帧音频谱中的频点个数,η是第k帧的门限值。
[0032]
优选地,所述对所述非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量为:
[0033][0034]
式中,是确定的说话人的导向矢量,n
m-d
是噪声特征向量组成的残差矩阵,角标sr代表峰值搜索数目即所选取的说话人人数,θ是球坐标系方位角,是球坐标系仰角,为在处的说话人的概率。
[0035]
优选地,根据所述不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强包括:
[0036][0037]
式中,x
sr
(t,f)为输入的说话人语音信号的傅里叶变换后信号,y
sr
(t,f)为通过方位增强后的说话人的傅里叶变换输出信号,即增强后的说话人的语音信号,为在处的噪声方差矩阵,θ
sr
是说话人在球坐标系的方位角,为说话人在球坐标系的仰角。
[0038]
优选地,所述对增强后的说话人语音信号进行降噪处理包括:采用卷积非负矩阵对所述增强后的语音音频进行降噪:
[0039][0040]
式中,d
psa
为构建的损失函数,h
sr
(t,f)是说话人系数矩阵,y
sr
(t,f)为增强后的语音音频,为说话人降噪后的语音信号,f表示范数;
[0041]
通过梯度搜索算法使得相邻两次损失函数d
psa
相差小于设定差值,得到最佳说话人系数矩阵h
sr_opt
(t,f);
[0042]
根据所述最佳说话人系数矩阵h
sr_opt
(t,f)生成最终降噪后的语音信号:
[0043][0044]
优选地,所述输出每路波束上降噪处理后的语音信号前还包括:
[0045]
将降噪后的说话人语音信号从频域信号转换时域信号:
[0046][0047]
式中,rstft表示为逆短时傅里叶变换,为降噪后的说话人语音信号的频域信号,为降噪后的说话人语音信号的时域信号;
[0048]
采用agc方法对所述时域信号进行信号增强:
[0049][0050]
式中,g(n)为agc增强后的说话人语音信号,a(n)为动态增益系数,为增益输入,即降噪后的说话人语音信号的时域信号;
[0051]
其中,根据目标增益幅值确定所述动态增益系数:
[0052][0053]
式中,a为增益调节因子,r为目标增益幅值,所述目标增益幅值不大于为-3db。
[0054]
本发明还提供一种麦克风阵列拾音胸牌,包括:
[0055]
信号接收模块:用于利用胸牌中的麦克风阵列拾取音频;
[0056]
音频处理模块:采用如上所述的麦克风阵列音频的处理方法的步骤,实现麦克风阵列拾取音频的处理;
[0057]
信号传输模块:用于对所述音频处理模块处理后的音频进行上传;
[0058]
数据存储模块,用于存储所述音频处理模块处理后的音频。
[0059]
优选地,还包括唤醒模块,用于实现麦克风阵列拾音胸牌的拾音控制,当采集到的语音中包含预先设置的唤醒词时,控制麦克风阵列拾音胸牌开始拾音或结束拾音。
[0060]
本发明所提供的麦克风阵列音频的处理方法及拾音胸牌,在对麦克风获取的混合语音信号进行语音检测时,根据采集的混合语音信号确定每帧的门限值,利用当前帧的前1帧至前e帧的每帧门限值确定当前帧的门限值,通过这种滑动窗移动设定门限值的方式,以适应实际麦克风采集音频的场景,并且确保门限值的合理性,以免统一门限值带来的语音检测不准确,且门限值的计算也简单,根据确定的门限值进行语音检测,当检测出当前帧为非静音帧时,暂存当前帧门限值,后续每帧的信号均采用前e帧的加权门限值进行语音检测,得到所有非静音语音信号;之后对检测出的非静音语音信号进行说话人空间定向,多波束降噪及增强处理,以得到更好的不同说话人的音频。
附图说明
[0061]
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0062]
图1为本发明所提供的麦克风阵列音频的处理方法的流程图;
[0063]
图2为本发明所提供的麦克风阵列音频的处理方法的第一种具体实施例的流程图;
[0064]
图3为本发明实施例中vad切割准确率和滑动窗之间的关系图;
[0065]
图4为本发明实施例中麦克风阵列采集到的多路音频的示例图;
[0066]
图5为本发明实施例中经过vad检测后保留含有人声音频的示例图;
[0067]
图6为本发明实施例中以接收音频的装置为中心的空间谱估计的建模图;
[0068]
图7为本发明实施例中波束形成的示意图;
[0069]
图8为本发明实施例中经过mvdr生成的两路音频示例图;
[0070]
图9为本发明实施例中经过神经网络降噪后的两路音频示例图;
[0071]
图10为本发明实施例中经过逆傅里叶变换处理输出的清晰人声示例图;
[0072]
图11为本发明提出的智能拾音胸牌的一种具体实施例的结构图;
[0073]
图12为本发明实施例中智能拾音胸牌的软硬件结构图;
[0074]
图13为本发明实施例中智能拾音胸牌对采集信号的处理流程图。
具体实施方式
[0075]
本发明的核心是提供一种麦克风阵列音频的处理方法及拾音胸牌。主要针对于校园教堂授课时,用于拾取教师和学生的语音音频,以实现教师和学生的音频扩音,满足实际教学中教师和学生的互动,方便教师确定学生对教学内容的掌握情况,以更好地实现教学效果。
[0076]
本发明提供的一种麦克风阵列音频的处理方法,请参考图1,图1为本发明提供的麦克风阵列音频的处理方法的具体流程图;
[0077]
首先是对获取的混合语音信号进行vad(voice activity detection)语音检测,vad检测的目的是为了分离纯噪声,本发明基于门限值来进行vad检测,混合语音信号的第1帧至第e帧的门限值分别为每帧信号的能量均值,之后每帧信号的门限值根据当前帧信号的前1帧至前e帧的门限值确定,基于此检测出非静音语音信号;
[0078]
然后对非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量;
[0079]
根据不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强;
[0080]
对增强后的说话人语音信号进行降噪处理,输出每路波束上降噪处理后的语音信号。
[0081]
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0082]
请参考图2,图2为本发明所提供的一种麦克风阵列音频的处理方法的第一种具体实施例的流程图;以在大型教室中教师授课为例,利用老师佩戴的麦克风阵列设备进行语音拾取,受外界环境影响,采集到的混合语音信号包括有不同人声和外界环境杂音(噪声);其中麦克风阵列的布设可以是一维阵列、二维阵列、三维阵列,麦克风的排列可以是均匀阵列或螺旋阵列,麦克风的个数和分布规则可以根据实际拾音设备大小进行确定。以在教室拾取教师和学生两路音频为例进行具体阐述。
[0083]
本实施例首先利用麦克风阵列拾取音频;并对拾取到的音频进行vad预处理;对预处理后的音频进行说话人定位确定说话人的角度;在根据说话人矢量生成波束,拾取波束上的说话人音频,实现定向拾音;对拾取的音频进行降噪,得到纯语音估计;将得到的纯语音转换成时域信号;最后对时域信号再进一步增强,输出最终不同说话人的清晰人声,具体过程如下:
[0084]
s1:麦克风采集原始音频,得到每个麦克风拾取到的音频数据;
[0085]
此时,麦克风阵列采集到的混合语音信号可以表示为:
[0086][0087]
式中,xm(t)为麦克风阵列采集到的音频信号,为麦克风m和声源c的响应函数,d表示声源个数,sc(t)是声源c对第m个麦克风的输出信号,nm(t)是第m个麦克风的噪声信号。
[0088]
s2:对混合语音信号进行vad语音检测,去除噪声和静音;
[0089]
由于原始采集到的音频中受外界环境的影响,夹杂外界噪声,本实施例采用vad音频检测方法,vad音频检测的目的主要是为了从拾取的语音信号中识别和消除长时间的静音期,也可理解为该方法为判断是否存在语音(人声),即分离出含噪声的语音和仅含噪声的音频,vad也称作语音活动检测,采用vad检测出有效的语音,可以降低数据处理量,同时降低存储或传输的数据量,本实施例中采用设置的自适应门限进行判断,具体如下:
[0090][0091][0092]
式中,nn、ns分别代表噪声向量和语音向量矩阵,ws、wn分别为语音基矩阵和噪声基矩阵集,t为基矩阵集包含的矩阵数目;x
k,i
表示第k帧音频谱第i个频点索引的信号,l代表第k个音频谱中的频点个数,η是基于采样音频定义的自适应门限;
[0093]
其中,门限值的确定获取音频的场景有关,当实际录音环境的噪声在不断更换时,门限值也需要随之变换,以保证检测的准确性,因此要根据实际获取的录音音频确定门限值。
[0094]
门限值的确定过程为:
[0095]
η=f(e
num
,f
ps
)
[0096]
式中,η为门限值,e
num
,f
ps
对应目标场景获取音频能量均值,初始帧后采用滑动窗进行门限值迭代,滑动窗宽度为e帧,η对应非静音帧前移e帧的自适应阈值,只有在检测出为静音音频时才可以继续更新门限值,对应的η值分别取{ηe,η
e-1


,η1},向量{ηe,η
e-1


,η1}记为∏,初始π0取前e帧能量均值。
[0097]
也就是说,混合语音信号的第1帧至第e帧的门限值为混合语音信号前e帧中每帧信号的能量均值;一般默认前几帧语音信号均是静音;
[0098]
采用滑动窗(滑动窗的宽度为e)进行混合语音信号第e帧之后的每帧信号的门限值ηi确定,通过当前帧的前1帧至前e帧的每帧的门限值计算当前帧的门限值:
[0099]
ηi=w
i-1
η
i-1
+w
i-2
η
i-2
+

+w
i-e
η
i-e
[0100]
式中,ηi是当前帧的门限值,即混合语音信号中第i帧音频信号的门限值,(η
i-1
,η
i-2


,η
i-e
)为当前帧的前1帧至前e帧每帧音频信号的门限值,即混合语音信号中第(i-1,i-2,

,i-e)帧音频信号的门限值,(w
i-1
,w
i-2


,w
i-e
)分别为当前帧的前1帧至前e帧每帧音频信号门限值的权重值,即所述混合语音信号中第(i-1,i-2,

,i-e)帧音频信号门限值的权重值,其中,i≥e+1,e代表滑动窗的大小。
[0101]
其中,对应的权值矩阵w=(w
i-1
,w
i-2


,w
i-e
)在每个场景应用前预先经过训练集设定。
[0102]
滑动窗的宽度基于h

准则和基础测试集确定,h

准则优化目标函数是说话切割准确率,通过梯度搜索在实数域确定∏和e值,最大化目标函数使得说话人切割准确率最高。
[0103][0104]
式中,a
target
为基础测试集标准音频,a
correct
为vad切割音频。h

涉及矩阵预算,e越大,音频插入错误越低,同时意味着算力的上升,在切割准确率可接受范围内应取小值。以∏和e作为自变量,说话切割准确率(语音检测准确率)为目标变量,本实施例中切割准确率和参数e之间的关系如图3所示,因此本发明实施例中e取5,由于录音场景的不同,e值的确定可以依据实际麦克风设备的录音情况进行确定。本实施例中,对应的权值矩阵w为:
[0105]
w=[0.414,0.350,0.122,0.059,0.055]
[0106]
相应的η取值为:
[0107]
ηi=0.414η
i-1
+0.350η
i-2
+0.122η
i-3
+0.059η
i-4
+0.055η
i-5
[0108]
然后,依据计算出的信噪比和变化的门限值保留人声得到存在语音的音频信号,即非静音语音信号;作为其他实施方式,在进行vad检测时,可以仅选择其中一路音频进行检测,这样可以节省计算时间和内存,有几个麦克风就有几路音频。可以仅根据一路音频进行vad检测,这样提取出非静音片段,根据一路音频确定的非静音片段确定每一路的非静音片段;可以参考图4和图5所示,图4为麦克风阵列采集到的多路音频,图中一共采集到6音频,对应麦克风共有6个;图5为经过vad切割后保留的含有人声的音频,经过vad处理后去除长时间的静音和纯噪声,以6路中任一路音频为预处理对象进行vad检测,根据检测结果确定非静音音频的时间段,根据确定的时间段提取每一路混合语音音频中的非静音音频。
[0109]
s3:选取说话人角度;
[0110]
因为后续需要基于说话人角度进行降噪,即仅拾取指定方向的音频,忽略非指定方向音频;
[0111]
则本实施例将上述步骤s2中大于η的认为是存在语音的音频输出,由于在实际应用场景中说话人不止一个(例如在教室、大型会议室),因此需要判断说话人的位置,本实施例中利用改进的二维空间谱估计,对空间信号波达方向进行估计,实现说话人的空间定向,具体如下:
[0112][0113]
式中,是确定的说话人的导向矢量,是噪声特征向量组成的残差矩阵,角标sr代表峰值搜索数目,本实施例中sr指所期选取的人数(也就是说话人的数目),θ是球坐标系方位角,是球坐标系仰角,为在处说话人的概率。根据说话人个数,在教室场景中设置说话人个数为2,将计算出的中前两个最大的确定为说话人导向矢量。其中,说话人的个数根据不同的场景可以任意设定。
[0114]
其中,每一帧(fps)数据都有对应的频繁的更新fps会导致声音抖动,听感失真,因此对对每一帧按照如下规则进行平滑:
[0115][0116]
其中,β为平滑参数,取0.6~0.8。
[0117]
请参考图6,图6中展示了以接收音频的装置为中心的空间谱估计的建模图,θ是球坐标系方位角,是球坐标系仰角,根据预设说话人数目确定说话人导向;通过说话人定向,判断此时说话人为佩戴者还是非佩戴者,本实施例中的判断准则为:
[0118]
(1)佩戴者:为佩戴者,如存在多说话人,指定能量最大的为佩戴者,其余区分为非佩戴者;麦克风在拾取佩戴者音频时,拾取的是麦克风的上方音频;
[0119]
(2)非佩戴者:全部搜索结果按能量排序,除佩戴者指向矢量外,其余所有均为非佩戴者。根据计算出的将除佩戴者以外的音频都看做非佩戴者。通过区分佩戴者与非佩戴者可以对音频进行说话人区分。
[0120]
例如当预设说话人数目为2时,通过说话人定向,判断此时说话人为佩戴者还是非佩戴者,由于佩戴者距离很近,非佩戴者相对佩戴者而言距离较远,佩戴位置一般是位于佩戴者的头部下方,佩戴者说话时麦克风接收到的是上方位语音,当非佩戴者说话时麦克风接收到的是前方位语音;
[0121]
s4:基于角度进行定性增强,即仅拾取指定方向的音频,忽略非指定方向音频;
[0122]
请参考图7,图7为本实施例中以老师佩戴的麦克风胸牌为录音设备的波束形成示意图,根据步骤s3确定的说话人导向矢量,采用mvdr波束形成方法,确定说话人位置处于佩戴者前方时(非佩戴者),则形成前方位波束进行前方位的定向拾音,确定说话人位置为佩戴者时,形成向上方位波束进行佩戴者的定向拾音,以得到增强后的说话者音频:
[0123][0124]
式中,x
sr
(t,f)为输入语音信号的sft变换,y
sr
(t,f)通过波束方位增强后的sft输出信号,在处的噪声方差矩阵。
[0125]
s5:对增强后的音频进行降噪;
[0126]
上述步骤只是拾取指定方向的音频,噪声通常都是扩散声场,指定方向拾取的音频是噪声和人声的混合音频,因此需要进行二次降噪,剔除噪声。本实施例中分成两路波束进行音频采集(老师和学生),对采集的两路音频分别进行降噪,本实施例采用稀疏卷积非负矩阵分解(scnmf)算法以实现去除背景噪声和去除突变噪声,在波束拾音时,当说话人空间定向为佩戴者(即老师)时,形成向上的波束,拾取向上波束中的老师的音频,当说话人空间定向为非佩戴者(即学生)时,形成向前的波束,拾取向前波束中的学生的音频。
[0127]
进一步,通过基于scnmf算法构建kullback-leibler(kl)损失函数,进行说话人区分;
[0128]
采用卷积非负矩阵对所述增强后的语音音频进行降噪:本实施例中语音提取kl函数为:
[0129][0130]
式中,d
psa
为构建的损失函数,h
sr
(t,f)是说话人系数矩阵,y
sr
(t,f)为增强后的语音音频,为说话人降噪后的语音信号,f表示范数;
[0131]
通过梯度搜索算法使得相邻两次损失函数d
psa
相差小于设定差值,得到最佳说话人系数矩阵h
sr_opt
(t,f);
[0132]
例如图8所示,图8展示了佩戴者和会话人共计两路音频,其中ch1位教师音频,ch2位学生音频,可以看到ch1音频的峰值是远大于ch2音频峰值的,这是因为相比于学生,教师距离麦克风的更近一些。
[0133]
根据所述最佳说话人系数矩阵h
sr_opt
(t,f)生成最终降噪后的纯语音信号
[0134][0135]
例如图9所示,图9展示了去除噪声信号得到的教师和学生的语音信号,对比图8,可看出图9中两路音频的噪声明显减少,同时可以看到学生的音频(ch2)和教师的音频(ch1)的峰值相近。
[0136]
s6:将频谱转变为时域信号;
[0137]
对步骤s5得到的纯语音音频进行逆短时傅里叶变换,将纯语音的频域信号转换为时域信号输出,得到:
[0138][0139]
式中,rstft表示为逆短时傅里叶变换,为每个波束下语音信号的频域信号,为最终提取的人声语音信号的时域信号。
[0140]
s7:对时域信号进行增益调整,保证远场和近场语音幅值的一致性;
[0141]
声波在传递途中会发生衰减,远场语音幅值小于近场语音幅值。
[0142][0143]
式中,g(n)为增益调整后的音频序列,a(n)为动态增益系数,为增益输入,即降噪后的音频序列。增益迭代如下:
[0144][0145]
式中,a为增益调节影子,a越大,收敛速度越快,但是音频随均值r的抖动度会上升。r为目标增益幅值,通常最大增益取-3db。
[0146]
通过上述步骤生成两路音频的最终人声输出,如图10所示,图10展示了最终输出的两组的清晰人声。
[0147]
通过下述实验对本发明的处理效果进行进一步说明;
[0148]
随机选取timit数据集200段人声,混合noisex-92噪声测试集白噪声,引入信号失真比(sdr),信号干扰比(sir),系统误差比(sar)感知语音质量(pesq)对比不同信噪比下vad对分离准确率、主观评价和功耗的影响,在随机测试集上,评估结果如表1所示,vad的引入,降低了噪声对分离算法的扰动,降低了音频插入错误,分离准确率相关指标有10%以上的提升,pesq主观评价值提升达到50%以上,同时,整体功耗有27%的下降。
[0149]
表1:
[0150][0151]
同时在低信噪比下,通过不同方法对音频信号进行处理,得到了如下表2所示的降噪和信号分离效果,其中music+cnfm+agc为本发明采用的方法,从表2中可以看到music+cnfm算法在低功耗平台能够提供较为理想的降噪和信号分离效果,而agc算法可以较大幅度提升主观pesq值。
[0152]
表2:
[0153][0154]
本发明还提出一种智能拾音胸牌,是一种基于麦克风阵列的拾音胸牌,利用上述麦克风阵列音频的处理方法的步骤对该拾音胸牌拾取的音频进行处理,将处理后的音频输出,满足教师在教学中的使用。
[0155]
主要包括:
[0156]
信号接收模块,用于利用胸牌中的麦克风阵列拾取音频;
[0157]
音频处理模块,采用麦克风阵列音频的处理方法的步骤,实现麦克风阵列拾取音频的处理;
[0158]
信号传输模块,用于对音频处理模块处理后的音频进行传输;
[0159]
数据存储模块,用于存储音频处理模块处理好的音频。
[0160]
在本实施例中采用两路波束分别拾取对应方向的音频,以实现教师和学生的语音收集,并分别对教师和学生的音频进行降噪、说话人区分处理,以达到教学良好互动的目的。
[0161]
请参考图11,图11为本发明智能拾音胸牌一种具体实施例的结构图,该胸牌包括开关、指示灯、前面板、后壳体以及置于壳体内的麦克风阵列。
[0162]
在本实施例中,该拾音胸牌包括硬件和软件两部分,参考图12,图12展示了该拾音胸牌的软硬件结构图,其中硬件部分包含mcu、dsp、蓝牙+wifi双模传输单元,数据存储单元、胸牌供能单元、led单元、麦克风阵列。软件部分包括vad模块、唤醒模块、aoa蓝牙模块、信号处理模块、说话人区分模块、流媒体模块。
[0163]
主控芯片mcu实现整体业务流程处理;协处理器dsp实现信号处理;存储单元实现信号的存储;胸牌供能单元为卡牌提供8h以上的续航;led单元用于异常提示,充电提示,工作提示;蓝牙和wifi用于数字信号传输;麦克风阵列区分为线两麦,线四麦和矩形六麦,适用于小中大应用环境。
[0164]
其中vad模块用于语音检测,卡牌开机后vad模块启动,用于识别人声,去除空白音频和噪声,vad模块用于提升续航和降低内存(ram)使用率;唤醒模块,vad得到的音频提取特征音频,将特征音频和预先存储在内存单元的唤醒词进行比对,比对成功后将对有效语音进行存储,唤醒模块使得卡牌可以实现语音控制;蓝牙模块基于aoa技术实现佩戴人实时定位,无感打卡,蓝牙和wifi均能实现数据传输,可通过固件配置选择数据传输方式;信号处理模块,通过aec,doa,bf,dec技术对vad切割之后的音频存储的进行降噪,去除环境噪声;说话人分离,通过agc技术增大佩戴者或非佩戴者,选择性置零不需要的音频,将增强的音频存储近卡牌rom,音频分离技术在课堂场景可以选择性放大老师音频,学生音频,在服务场景,可以用于舍弃顾客声音,防止顾客隐私泄露。流媒体模块用于控制音频传输,卡牌采用蓝牙和wif双模芯片,流媒体服务可以选择采用蓝牙模式传输音频或wifi模式传输音频,默认采用蓝牙模块,以节约电量。
[0165]
下面以实际校园教学课堂为例,对拾音胸牌和麦克风阵列音频处理进行具体阐述。
[0166]
该智能拾音胸牌可以通过别针、纽扣、金属夹等方式固定于胸前;老师进入课堂,将胸牌硬件开关开启、卡片进入待机状态,蓝牙模块开启,蓝牙模块广播蓝牙信号,固定于教室的蓝牙接收装置接收蓝牙信号,可以用于教师课堂打卡,此时的胸牌处于待机状态,为节约能耗,仅vad模块处于低功耗运行模式。
[0167]
教师可以通过语音控制胸牌录音,语音控制基于唤醒技术,需要事先录入唤醒词,例如“开始上课、开始录音”;vad模块检测人声,当识别到的人声包含唤醒词时,胸牌mcu开始工作,胸牌进入正常工作状态,麦克风阵列开始拾取音频。胸牌麦克风阵列选取任一路的音频发送给vad进行检测,vad输出音频开始和结束的状态位,选取一路音频可以节约内存,降低算法延时。mcu通过状态位截取多路音频的发送给dsp进行信号处理。其中多路音频是指麦克风输出的原始音频,音频通道数和麦克风数目一致。
[0168]
请参考图13,图13展示了对采集的信号(音频)的处理流程图,信号处理算法首先对多路音频进行回声消除,回声消除后进行空间声场检测,确定说话人位置,即声源定位doa。doa完成后,说话人位置确定,波束形成算法基于doa提供的位置信息选择波束,进行定向拾音,doa主要用于学生方向的定向增强和降噪,教师方向doa为可选算法,如果教师方向选择doa算法,则需要小约束角度强降噪,doa可以跟踪老师头部位置,避免教师的音频丢失。其中doa算法每100ms更新一次,频繁更新doa算法可以提高胸牌的能耗。
[0169]
在波束形成后,会输出多路音频,音频的通道数与波束的个数一致,此时为两路音频(包括学生方向和教师方向),包含向前波束和向上波束,向前的波束拾取学生的音频、向
上的波束拾取教师的音频,对两路音频分别降噪,所述降噪通常基于scnmf算法,进一步去除背景噪声和突变噪声。scnmf降噪之后的算法经过话者分离模块。话者分离模块基于固件配置项,确定音频进行agc或者置零(或忽略)。如果仅想保存老师音频,老师scnmf降噪之后的音频进行agc放大,增加老师音频幅值,写入ram。同样,如果仅想放大学生音频,老师声道音频置零(或忽略),学生scnmf之后的音频送入agc模块,放大远场学生说话声。agc之后的音频写入ram。流媒体模块基于固件配置项,读取存储于ram中的音频,并选择wifi或蓝牙进行传输,通常采用蓝牙传输方式以节约能耗。
[0170]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0171]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0172]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0173]
以上对本发明所提供的麦克风阵列音频的处理方法及拾音胸牌进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

技术特征:


1.一种麦克风阵列音频的处理方法,其特征在于,包括:s1:获取麦克风阵列采集到的混合语音信号;s2:根据所述混合语音信号当前帧的前e帧中每帧的门限值加权确定当前帧的门限值;s3:根据所述当前帧的门限值对当前帧的语音信号进行语音检测,当检测到当前帧的语音信号大于所述当前帧的门限值时,则判定当前帧为非静音帧,暂存当前帧的门限值;s4:向后移动语言帧,采用s2至s3所述方法预测各帧门限值并对各帧语音信号进行语音检测,将大于每帧门限值的所有帧的语音信号作为非静音语音信号;s5:对所述非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量;s6:根据所述不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强;s7:对增强后的说话人语音信号进行降噪处理,输出每路波束上降噪处理后的语音信号。2.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述根据所述混合语音信号当前帧的前e帧中每帧的门限值加权确定当前帧的门限值为:η
i
=w
i-1
η
i-1
+w
i-2
η
i-2
+

+w
i-e
η
i-e
式中,η
i
是当前帧的门限值,即所述混合语音信号中第i帧音频信号的门限值,(η
i-1
,η
i-2
,...,η
i-e
)为当前帧的前1帧至前e帧每帧音频信号的门限值,即所述混合语音信号中第(i-1,i-2,

,i-e)帧音频信号的门限值,(w
i-1
,w
i-2


,w
i-e
)分别为当前帧的前1帧至前e帧每帧音频信号门限值的权重值,即所述混合语音信号中第(i-1,i-2,

,i-e)帧音频信号门限值的权重值,其中,i≥e+1,e代表语音检测时滑动窗的大小。3.根据权利要求2所述的麦克风阵列音频的处理方法,其特征在于,所述语音检测时滑动窗的大小确定步骤包括:利用不同大小的滑动窗基于h

准则最大化优化语音检测的准确率:式中,a
target
为基础测试集中的标准音频,a
correct
为语音检测后的音频,代表语音检测的准确率;得到语音检测准确率与不同大小的滑动窗的对应关系,选择语音检测准确率满足设定准确率阈值时对应的滑动窗的最小值作为语音检测时滑动窗的大小。4.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述混合语音信号的第1帧至第e帧的门限值分别为每帧音频信号的能量均值。5.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述根据所述当前帧的门限值对当前帧的语音信号进行语音检测包括:所述麦克风阵列采集到的混合语音信号为:
式中,x
m
(t)为麦克风阵列采集到的音频信号,为麦克风m和声源c的响应函数,d表示声源个数,s
c
(t)是声源c对第m个麦克风的输出信号,n
m
(t)是第m个麦克风的噪声信号,麦克风总数记为m;利用门限值进行语音检测:式中,n
n
、n
s
分别代表噪声向量矩阵和语音向量矩阵,x
k,i
表示所述混合语音信号中第k帧音频谱第i个频点索引的语音信号,l代表第k帧音频谱中的频点个数,η是第k帧的门限值。6.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述对所述非静音语音信号进行说话人空间定位,得到不同说话人的导向矢量为:式中,是确定的说话人的导向矢量,n
m-d
是噪声特征向量组成的残差矩阵,角标sr代表峰值搜索数目即所选取的说话人人数,θ是球坐标系方位角,是球坐标系仰角,为在处的说话人的概率。7.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,根据所述不同说话人的导向矢量生成多路波束,拾取每路波束上的语音信号,实现说话人的语音信号增强包括:式中,x
sr
(t,f)为输入的说话人语音信号的傅里叶变换后信号,y
sr
(t,f)为通过方位增强后的说话人的傅里叶变换输出信号,即增强后的说话人的语音信号,为在处的噪声方差矩阵,θ
sr
是说话人在球坐标系的方位角,为说话人在球坐标系的仰角。8.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述对增强后的说话人语音信号进行降噪处理包括:采用卷积非负矩阵对所述增强后的说话人语音信号进行降噪:式中,d
psa
为构建的损失函数,h
sr
(t,f)是说话人系数矩阵,y
sr
(t,f)为增强后的说话人语音信号,为说话人降噪后的语音信号,f表示范数;通过梯度搜索算法使得相邻两次损失函数d
psa
相差小于设定差值,得到最佳说话人系数矩阵h
sr_opt
(t,f);根据所述最佳说话人系数矩阵h
sr_opt
(t,f)生成最终降噪后的语音信号
9.根据权利要求1所述的麦克风阵列音频的处理方法,其特征在于,所述输出每路波束上降噪处理后的语音信号前还包括:将降噪后的说话人语音信号从频域信号转换时域信号:式中,rstft表示为逆短时傅里叶变换,为降噪后的说话人语音信号的频域信号,为降噪后的说话人语音信号的时域信号;采用agc方法对所述时域信号进行信号增强:式中,g(n)为增强后的说话人语音信号,a(n)为动态增益系数,为增益输入,即降噪后的说话人语音信号的时域信号;其中,根据目标增益幅值确定所述动态增益系数:式中,a为增益调节因子,r为目标增益幅值,所述目标增益幅值不大于为-3db。10.一种麦克风阵列拾音胸牌,其特征在于,包括:信号接收模块:用于利用胸牌中的麦克风阵列拾取音频;音频处理模块:采用如上述权利要求1-9任一项所述的麦克风阵列音频的处理方法的步骤,实现麦克风阵列拾取音频的处理;信号传输模块:用于对所述音频处理模块处理后的音频进行上传;数据存储模块,用于存储所述音频处理模块处理后的音频。

技术总结


本发明公开了一种麦克风阵列音频处理方法和拾音胸牌。根据混合语音信号当前帧的前1帧至前e帧的每帧门限值确定当前帧的门限值,基于确定的门限值进行比较,当大于门限值时则为非静音帧。音频除初始e帧,所有帧按前述步骤动态计算每帧门限值,并将每帧音频信号与门限值进行比较,得到所有非静音语音信号,通过这种滑动窗移动设定门限值的方式,以适应实际麦克风采集音频的场景,并且确保门限值的合理性,以免统一门限值带来的检测不准确;之后对检测出的非静音语音信号进行说话人空间定向,多波束降噪及增强处理,以得到更好的不同说话人的音频。人的音频。人的音频。


技术研发人员:

余栋

受保护的技术使用者:

苏州科技大学

技术研发日:

2022.07.25

技术公布日:

2022/11/22

本文发布于:2024-09-20 10:59:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/779.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音频   门限   信号   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议