一种提高AI音响及蓝牙音响语音识别率系统技术研究

发布时间：2023-02-16T05:18:35.054Z 来源：《中国科技信息》第2022年第9月第17期作者：高喻平章长荪

[导读] 通过采集音源数据和音源数据对应的设备位置信息，其中，音源数据包括目标音源的语音信号和/或噪音信号，

高喻平章长荪

深圳市三诺数字科技有限公司，广东深圳 518105

摘要：通过采集音源数据和音源数据对应的设备位置信息，其中，音源数据包括目标音源的语音信号和/或噪音信号，若检测到语音信号，则根据设备位置信息确定回声消除参数，根据回声消除参数消除噪音信号，以输出语音信号中的语音信息，即通过音源数据确定设备位置信息，进而通过设备位置信息来动态调整回声消除参数，实现对噪音信号的过滤，使得输出的语音信息质量更高，从而有利于提高语音信息的识别准确率，进而提高了语音唤醒准确率。

关键词：AI智能语音音箱、语音识别设备

Study?on a system technology to improve the speech recognition rate of AI audio and Bluetooth audio

引言

在过去的几年中，全球语音识别市场经历了快速增长。大数据和深度学习算法的进步，加上计算能力的提高，显著增强了语音分析能力。这就产生了新的应用领域，对语音识别技术提出了更高的要求。销售、市场营销和服务部门的技术需求成为市场的关键驱动因素之一。毕竟，语音识别技术的好处在于它可以推动收入增长和效率，同时降低各种业务流程的成本。

语音识别和分析软件具有巨大的潜力。它可以促进业务发展，优化员工与潜在客户、客户、供应商和合作伙伴电话互动的操作效率。基于我们在开发领先的数字解决方案方面的丰富经验，我们确定了提高语音识别率系统可以带来的5个主要好处:

1.非凡的客户体验。语音识别软件可以直接将单词输入文本，而无需等待。许多人使用它是因为语音输入速度快。另一方面，打字可能会让交流花费更长的时间。

2.办公，生活等方面的效率提高。语音识别软件使记笔记、利用其他资源以及在与客户打交道或完成任务时保持专业的眼神交流变得更加容易。

3.控制其他智能数字设备。市场上主流的很多云隐助手都需要人和电脑进行口头交流。这也很好地说明了机器学习，随着时间的推移，计算机可以提高对用户声音的理解能力。

4.为盲人和聋哑人提供人性化帮助。屏幕阅读器和文本转语音听写设备被许多有视觉障碍的人使用。对于耳聋和听力困难的人来说，将音频翻译成文本以及语音识别将会对他们的生活带来质的飞跃。

5.产生新的交叉销售和追加销售机会。通过语音识别赋能新型数字音频产品，提高产品附加值和丰富应用场景。无论是终端用户还是商业型客户，都可以从中收获附加价值。产品销量提高的同时，进阶功能更能提高促进市场收益。

综上所述，智能音响及蓝牙音响语音识别率系统是一个很好的工具，可以帮助个人，企业提高他们的业务绩效，增强他们的客户体验。其产品形态，性能表现，市场反响，最大的改善方向就是优化算法，硬件的设计，提高语音的识别率。我司希望通过产品研发，技术革新来完成一套可以提高智能音响及蓝牙音响语音识别率的系统。

1 软件研发的核心技术及创新点：

本研发的核心及创新点如下：

采集音源数据和所述音源数据对应的设备位置信息，其中，所述音源数据包括目标音源的语音信号和/或噪音信号；

若检测到语音信号，则根据设备位置信息确定回声消除参数；

根据回声消除参数消除噪音信号，以输出语音信号中的语音信息。

可选地，采集音源数据和音源数据对应的设备位置信息包括：

通过至少两个麦克风接收音源数据；

根据预设的音源定位算法，确定目标音源的角度信息；

根据麦克风的设备型号和角度信息确定麦克风的设备位置信息。

可选地，回声消除参数包括第一回声消除参数和第二回声消除参数，若检测到语音信号，则根据设备位置信息确定回声消除参数包括：

根据设备位置信息和语音信号，检测每个麦克风的语音信号强度；

将语音信号强度最大的麦克风作为主麦克风，其余麦克风为副麦克风；

根据主麦克风的设备位置信息，调整预设的回声消除算法中的第一回声消除参数；

根据预设的回声消除默认参数，确定述副麦克风的第二回声消除参数。

可选地，采集音源数据和音源数据对应的设备位置信息之后，所述方法还包括：

若没有检测到语音信号，则不输出音源数据。

可选地，根据回声消除参数消除噪音信号，以输出语音信号中的语音信息之后，所述方法还包括：

对语音信息进行语音识别，以得到语音文本；

若语音文本为唤醒关键词，则唤醒目标设备。

为了解决上述技术问题，本申请实施例还提供一种语音输出装置，包括:

采集模块，用于采集音源数据和音源数据对应的设备位置信息，其中，音源数据包括目标音源的语音信号和/或噪音信号；参数确定模块，用于若检测到语音信号，则根据设备位置信息确定回声消除参数；

消除模块，用于根据回声消除参数消除噪音信号，以输出语音信号中的语音信息。

可选地，采集模块包括：

接收单元，用于通过至少两个麦克风接收音源数据；

角度确定单元，用于根据预设的音源定位算法，确定目标音源的角度信息；

位置确定单元，用于根据麦克风的设备型号和角度信息确定麦克风的设备位置信息。

可选地，回声消除参数包括第一回声消除参数和第二回声消除参数，参数确定模块包括：检测单元，用于根据设备位置信息和语音信号，检测每个麦克风的语音信号强度；

麦克风确定单元，用于将语音信号强度最大的麦克风作为主麦克风，其余麦克风为副麦克风；

第一参数单元，用于根据主麦克风的设备位置信息，调整预设的回声消除算法中的第一回声消除参数；

第二参数单元，用于根据预设的回声消除默认参数，确定述副麦克风的第二回声消除参数。

可选地，语音输出装置还用于：若没有检测到语音信号，则不输出音源数据。

可选地，语音输出装置还包括：语音识别模块，用于对语音信息进行语音识别，以得到语音文本；

唤醒模块，用于若语音文本为唤醒关键词，则唤醒目标设备。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述语音输出方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音输出方法的步骤。

2 硬件研发的核心技术及创新点： AEC音频回采技术；

提高语音识别AEC回声采集技术一：语音识别技术AEC消噪从两方面来提升：（一）、结构方面，采用了TPU减震胶套，使得在播放音乐时的震动能够有效的滤除，同时采用定制VHB密封泡棉来提升麦克风的密封性能，良好的密封能有效提升整机的麦克拾音质量；

（二）、在硬件电路设计上采用了喇叭端信号回采技术，通过ADC芯片回采进行数模转换之后再将数字信号传回主控芯片，与麦克风接收到的语音信号进行比对再消除回音，从而提升整体的拾音效果。

提高语音识别ACE回声采集技术二：语音识别技术AEC消噪从两方面来提升：（三）、语音识别和唤醒，包含两个过程。

过程一：唤醒之前的打断是利用AEC回声消除的技术提升识别率。

过程二：唤醒之后对语音的识别涉及到MIC的密封性能，通过以上两方面的改进能够实现如图所示的性能提升。AEC开启和关闭效果对比：

1.AEC关闭时，麦克拾音信号混入喇叭端的回音信号，严重影响识别效果，AEC开启后整体的性能提升可以达50到70dB。

按照以往传统的EV A或其他密封方式，密封性能只能做到18dB。而我们采用VHB泡棉定制密封硅胶套之后的密封性能可以提升到25dB 左右。

3 系统工作原理

该项目是一款AI智能音箱，采用Amlogic平台A113X型号MCU作为主控单元，供电单元由PD快充适配器通过主控与快充协议IC之间的私有协议通信固定电压和电流输出：15V/2.33A。电流最大可达2.7A，适配器额定输出功率35W，最大功率40.5W。峰值功率可达52.5W（持续时间3ms），主控平台A113X通过一路I2S、I2C接口与音频功放相连接，通过I2S接口进行数字音频信号传输给数字音频功放进行声音信号的混音(MIXER)、采用频率转换(SRC)、数字音频处理器(DAP)、其中DAP内部包含：DC CUT 1, VOL, PEQ, SPEQ, DRC, DC CUT 2, POWER METER等处理环节，最后输出音频模拟信号到喇叭。另一路I2S和I2C与ADC连接，ADC通过采集喇叭输出端的模拟音频信号进行数字转换之后再通过I2S传回主控与MIC采集到的输入信号进行比较后滤除回音信号，经由主控内部音频codec编码模块进行信号数字转换后通过WiFi 无线通信模块将数字信号打包混频到射频2.4G/5.8G的高频信号放大后再由射频天线发出无线电波信号传送到WiFi路由器。同理，如果是通过网络接收对方设备发出的语音信号的原理与此流程相反。MIC矩阵电路通过MIC对环境噪音和人声进行分析，通过主副MIC对人声和环境噪音的位置和强度比对，接收人声的设为主MIC，接收环境噪音的设为副MIC，对环境噪音进行消除，对人声信号进行加强，保留人声信号并进行数字转换和放大输出。灯效显示单元是经主控单元通过串口通信控制FPGA进行初始化和灯效显示，FPGA通过定制化灯效固件控制21颗LED驱动IC对84颗RGBW四灯进行灯效的显示、84颗LED灯随着声音频率的变化而做出各种彩的变化，灯效会随着音乐歌曲的变化而随机变化。MUTE按键电路是通过逻辑门电路采集按键信号的高低变化作为逻辑门CLK的输入，MUTE按键按下之后会有一个2V左右的尖峰脉冲信号输入给到逻辑门的CLK端，同步逻辑门的Q端输出信号会

产生一个高低变化，再经由MOS管输出给到主控，主控会随时监测该GPIO使能信号的变化，如果为低则关闭MIC，如果为高则开启MIC。

4 预期研究成果

本项目可以解决：

1、行业首创蓝牙随音乐律动动态电压调整功能；

2、防水等级IP-67；

3、业界首创钢化玻璃外壳，光影与音乐律动有机结合，提升音质清晰度；

4、实现实用新型或发明专利1项以上

参考文献：相关发明专利

[1]语音输出方法、装置、计算机设备及存储介质[发明】公开号：CN114694667A [P].冉刚伟

[2]一种智能设备测试方法、装置、计算机设备及存储介质[P].申漫漫，章长荪，徐祖界中国发明专利申请号:CN202210798800.7,?2022-07-06

作者简介：

高喻平，1978年05月17日，男，汉族，湖北应城，大学本科，项目高级工程师。

章长荪，1964年11月30日，男，汉族，江西抚州，大学本科，高级工程师。30多年扎实的工程设计背景，对音频算法、耳机ANC降噪

设计、音视频、ICT测试软件开发、无线通信产品的研发有着深入研究，积累了丰富的经验，一直是企业的技术发展的主要驱动力之一。

本文发布于:2024-09-21 00:30:52，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/428646.html

上一篇：一种便捷式英语学习方法[发明专利]

下一篇：一种调查问卷装置[实用新型专利]

标签：语音信号消除识别音源信息设备

留言与评论（共有 0 条评论）