语音专题第一讲,麦克风阵列的语音信号处理技术

语音专题第一讲，麦克风阵列的语音信号处

理技术真空挤砖机

转载自地平线机器人大讲堂主讲人徐荣强。

2020年度11月毕业于英国爱丁堡大学通信与信号处理专业曾任诺基亚联想微软高级音频工程师。如今Horizon-Robotics 负责语音相关硬件系统设计涉及远场高灵敏度麦克风阵列设计高精度音频硬件编解码器评估验证远场语音前处理算法的评估验证涉及声源定位波束形成盲信号别离回声抑制及平稳降噪等相关技术算法。

教学磁板

前言

随着人工智能与人们的生活越来越近语音技术的开展也备受关注。传统的近场语音已经无法知足人们的需求人们祈望可以在更远的间隔更复杂的环境中语音控制智能设备。因此阵列技术成为远场语音技术的核心。

阵列麦克风对人工智能的意义空间选择性通过电扫阵列等空间定位技术可以获取声源的有效位置智能设备在获取精准的声源位置信息让我们的语音更加智能通过算法获取高品质的语音信号质量。麦克风阵列可以自动检测声源位置跟踪讲话人同时可以获取多声源以及跟踪挪动声源的优势无

论你走到任何位置智能设备都会对你的位置方向进展语音增强。阵列麦克风增加了空域处理对多信号空时频三维的处理弥补单信号在噪声抑制回声抑制混响抑制声源定位语音别离方面的缺乏让我们的智能设备在复杂的环境中都可以获取高质量的语音信号提供更好的智能语音体验。麦克风阵列技术的技术难点

传统的阵列信号处理技术直接应用到麦克风阵列处理系统中往往效果不理想其原因在于麦克风阵列处理有不同的处理特点

阵列模型的建立麦克风主要应用途理语音信号拾音范围有限且多用于近场模型使得常规的阵列处理方法如雷达声呐等平面波远场模型不再适用在近场模型中需要更加精准的球面波需要考虑传播途径不同引起的幅度衰减不同。

宽带信号处理通常的阵列信号处理多为窄带即不同阵元在承受时延与相位差主要表达在载波频率而语音信号未经过调制也没有载波且上下频之比拟大不同阵元的相位延时与声源本身的特性关系很大—频率亲密相关使得传统的阵列信号处理方法不再完全适用。

非平稳信号处理传统阵列处理中多为平稳信号而麦克风阵列的处理信号多是非平稳信号或短时平稳信号因此麦克风

阵列一般对信号做短时频域处理每个频域均对应一个相位差将宽带信号在频域上分成多个子带每个子带做窄带处理再合并成宽带谱。

混响声音传播受空间影响较大由于空间反射衍射麦克风收到的信号除了直达信号以外还有多径信号叠加使得信号被干扰即为混响。在室内环境中受房间边界或障碍物衍射反射导致声音延续极大程度的影响语音的可懂度。

教学磁板声源定位

实时调试声源定位技术在人工智能领域应用广泛利用麦克风阵列来形成空间笛卡尔坐标系根据不同的线性阵列平面阵列以及空间阵列来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强当智能设备获取你的位置信息可以结合其他的传感器进展进一步的智能体验比方机器人会听到你的呼唤走到你的身边视频设备会聚焦锁定讲话人等等。解析声源定位技术之前我们需要解析近场模型以及远场模型。

近场模型以及远场模型

通常麦克风阵列的间隔为1~3m阵列处于近场模型麦克风阵列承受的是球面波而不是平面波声波在传播的经过中会发生衰减而衰减因子与传播的间隔成正比因此声波从声源到

达阵元时候的幅度也各不一样。而远场模型中声源到阵元的间隔差相对较小可以忽略。通常我们定义2L²/λ为远近场临界值L为阵列孔径λ为声波波长因此阵元承受信号不仅有相位延时还有幅度衰减。

声源定位技术

声源定位的方法包括波束形成超分辨谱估计以及TDOA分别将声源以及阵列之间的关系转变为空间波束空间谱以及到

防盗机箱达时间差并通过相应的信息进展定位。

电扫阵列

通过阵列形成的波束在空间扫描根据不同角度的抑制不同

来判断方向。通过控制各个阵元的加权系数来控制阵列的输出指向进展扫描。当系统扫描到输出信号功率最大时所对应的波束方向就是认为是声源的DOA方向进而可以声源定位。电扫阵列的方式存在一定的局限仅仅适用于单一声源。假设多声源在阵列方向图的同一主波束内那么无法区分。而这种定位精度以及阵列宽度有关—在指定频率下波束宽度以及阵列孔径成反比所以大孔径的麦克风阵列在很多场合的硬件

上很难实现。

超分辨谱估计

如MUSICESPRIT等对其协方差矩阵相关矩阵进展特征分解构造空间谱关于方向的频谱谱峰对应的方向即为声源方向。合适多个声源的情况且声源的分辨率与阵列尺寸无关打破了

物理限制因此成为超分辨谱方案。这类方法可以拓展到宽带处理但是对误差特别敏感如麦克风单体误差通道误差合适

远场模型矩阵运算量宏大。

TDOA

TDOA是先后估计声源到达不同麦克风的时延差通过时延来计算间隔差再利用间隔差以及麦克风阵列的空间几何位置

来确定声源的位置。分为TDOA估计以及TDOA定位两步1.TDOA估计常用的有广义相互关GCCGeneralizedCrossCorrelation以及LMS自适应滤波

广义相互关

基于TDOA的声源定位方法中主要用GCC来进展延时估计。GCC计算方法简单延时小跟踪才能好适用于实时的应用中在中等嘈杂强度以及低混响噪声情况下性能较好在嘈杂非稳

态噪声环境下定位精度会下降。

LMS自适应滤波

在收敛的状态下给出TDOA的估值不需要噪声以及信号的先头笼

本文发布于:2024-09-22 22:33:14，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/158594.html

上一篇：第一章语音试题及答案

下一篇：五年级下册英语第一单元语音

标签：声源信号语音处理空间定位技术智能

留言与评论（共有 0 条评论）