基于卷积神经网络的语音识别报警系统

0 引言

随着中国人口老龄化现象的加重以及二胎政策的开放，老人与儿童体的看护问题已经逐渐成为影响社会的重要因素之一。与此同时，老人、儿童独自在家发生意外的事件仍然一再发生，这当中因无法及时求救而造成无法挽回的后果的事件不在少数。空巢老人与留守儿童的安全一直以来都是社会重点关注的问题，传统的报警方式如电话、手机、智能手表等，能满足一般的报警需求，但当老人、儿童独自在家发生意外时，例如重摔无法起身、身体不适行动不便而无法到达报警设备旁时，传统的通信设备报警方式作用有限。

基于此，本项目设计了一种基于卷积神经网络的声音识别报警系统，该系统基于卷积神经网络算法，在一定程度上提高了语音识别的正确率。老人或儿童独自在家发生意外时，在身边无通信设备的情况下，只需通过呼叫即可向特定联系人求救，无需移动即可紧急通知联系人。例如，重摔无法起身或身体不适，行动不便无法到达电话旁时，只需在原地呼救，待系统识别后可即时通过GSM模块以短信方式通知

设定的联系人。

1 系统设计原理

系统主要由Raspberry Pi 3 Model B、GSM模块、麦克风阵列、语音识别模块等组成。由于卷积神经网络在时间与空间上具有平移不变的卷积特点，所以可以对外界环境以及说话者的多样性进行克服性处理，提高语音识别率。图1所示为声音识别报警系统的整体框架。在特殊情况发生时，当事人可以通过发出特定语音信号向现场指定联系人。该系统以Raspberry Pi 3 Model B作为主控制器，通过串口向GSM模块发送A T

指令，即可实现向住户的功能。

图1 系统整体框架

csilv

2 主要功能模块介绍

2.1 Raspberry Pi 3 Model B

该项目中使用的Raspberry Pi 3 Model B配备了64位ARM Cortex-A53 1.2 GHz四核处理器、蓝牙和WiFi[1]。同时，还具有1 GB的RAM内存，以及以太网端口和40个GPIO 引脚，并搭载有DSI显示连接器、微型USB电源接口、摄像头接口、HDMI接口、RCA影音端口[2]。Raspberry Pi 3 Model B具有较小的体积、强大的系统功能、较强的兼容性且支持多种计算机语言，适合作为本系统的开发平台[3]。树莓派GPIO引脚定义如图2所示。

2.2 GSM模块

本设计采用的A6 Mini GSM模块体积小，尺寸为22.8 mm×16.8 mm×2.2 mm，工作电压为3.5～5 V，睡

屈晓静，林佳聪，彭东城，钟其麟

咖啡加工（广东工业大学华立学院，广东广州 511325）

摘要：针对目前生活中普遍存在的老人和儿童独自在家发生意外时无法报警或报警不及时等问题，文

中提出了一种基于卷积神经网络的语音识别报警系统。系统主要由GSM模块、麦克风阵列、树莓派和语音识别模块等组成。卷积神经网络能够在时间与空间上具有平移不变的卷积特点，因此可以对外界环境以及说话者的多样性进行克服性处理，提高语音识别率。实验证明，该报警系统方便快捷可靠，在室内环境中能对求救者的语音信号进行准确识别，并快速通知指定联系人，减少了紧急情况下无法及时报警带来的损失，对保护家庭成员的安全具有重要意义，可在家庭中推广使用。

关键词：卷积神经网络；声音识别；GSM模块；报警系统；树莓派；滤波器

中图分类号：TP391 文献标识码：A 文章编号：2095-1302（2022）04-0032-04

收稿日期：2021-05-21 修回日期：2021-06-29

基金项目：大学生创新创业训练计划项目：基于卷积神经网络的声

音识别紧急报警系统（201913656020）

需重新分配串口。GSM 和树莓派之间的连接如图3所示。

图2 树莓派GPIO

引脚定义

图3 GSM 模块与树莓派连接图

系统使用AT 命令完成发送短消息的操作。操作开始时，需要初始化串行端口以获得GSM 模块的波特率。其次，短信模式设置为文本模式，首先发送“AT+CMGF=1”，然后发送“AT+CSMP ”设置文本模式的参数，通过发送“AT+CSCS=UCS2”设置UCS2编码字符集，然后设置紧急联系人的手机号码，编辑短信内容后发送“0x1A ”，GSM 模块即可实现短信通知紧急联系人的功能[5]。GSM 模块流程如图4所示。2.3 麦克风阵列

麦克风阵列依据一定的几何结构，将一组麦克风进行排列放置，每个麦克风同时采集和处理声音信号。获得信号的时域和频域信息后，可以获得声音的位置信息。麦克风收集的声音信号质量与环境有

关。当声源远离麦克风且周围环境有噪音时，麦克风采集的声音信号质量受到很大影响，语音识别的效果会严重降低。为实现声音的降噪与抑制功能，以便达到对语音信息的优化处理和提高对环境中语音的识别率，本系统需要对已采集的声音进行麦克风阵列优化。簧网

ReSpeaker 6-Mic 圆形麦克风阵列具有2个ADC （X-Power AC108 ADC ）芯片和1个DAC （X-Power AC101 DAC ）

芯片，

图4 GSM 模块流程

3 基于卷积神经网络的语音识别

语音识别即经过时频分析后的语音频谱。与此同时，还需要考虑语音输入的干扰因素，如扬声器和环境的多样性。为此，解决语音信号的多样性问题是提高语音识别率的关键。在空间和时间上，进行语音识别的声学建模时可以通过卷积

神经网络具备的卷积平移不变特性，完成对语音信号多样性的处理[6]。

该系统基于卷积神经网络处理用户的语音信号，其核心实现步骤包括卷积神经网络的

Mel 频率倒谱系数特征提取、数据归一化、数据分类等[7]。3.1 梅尔频率倒谱系数特征提取

梅尔频率倒谱系数特征提取流程如图5所示。

图5 梅尔频率倒谱系数特征提取流程

结合语音信号的静态和动态特征，可以提高系统的语音识别能力。因此，系统采用由静态梅尔频率倒谱系数、动态

预加重操作，从而提高语音的高频分辨率，以便后续的优化操作[9]。依据相同的信噪比从而对查频谱进行精准定位。预加重一般通过高通滤波器实现。框架划分完成后，每个框

对频谱的平滑处理操作可以减少特征数据量和计算机量，从而消除谐波带来的影响。三角滤波器的频率响应如下：

H k k f m k f m f m f m f m f m f m m ()<−()

−−()()

+()−

−()()()−−()()=0121111,,−()≤≤()

+()−()

)−

−()()()−−()()

()≤121111k f m f m k f m f m f m f m f m k ,≤+()≥+()

f m k f m 101, （1）

式中，f (m )为中心频率，m =1, 2, ..., n 。

计算每个滤波器组输出的对数能量：

s m X k H k m M a m K N ()=()()

≤≤=−∑ln ,2010 （2）

通过DTC 变换对Mel 频谱进行倒谱分析即可得到相应的

MFCC 系数：

C n s m n m M n L m N ()=()−()

=⋅⋅⋅=−∑cos .,,,,π051201

（3）式中：L 表示Mel 倒谱系数的阶数；M 表示滤波器的总数。3.1.2 动态差分参数的提取

获得的Mel 频率倒谱系数参数仅反映了语音的静态特性，为了更好地反映语音信号的时域连续性，采用一阶差分参数和二阶差分参数来描述语音的动态特性[10]。差分参数的计算公式如下：

d C C t K

k C C t t t t K t K K t t =−<−()−≥− ++−−∑11,else

（4）式中：d t 表示第t 个一阶差分；C t 表示倒谱系数；Q 表示倒谱系数的阶数；K 表示一阶导数的时间差，系统值K 为1。

为提高精度，必须在梯度下降的条件下寻最优速度。3.2 基于卷积神经网络数据分类

Mel 频率倒谱系数特征提取完成后，利用语音信号特征的标准差归一化，达到加速梯度下降寻最优解速度的目的，转换公式如下：

x x *=

−µ

（5）式中：σ表示原始数据标准差；μ表示原始数据的均值。

典型的卷积神经网络主要由卷积层、最大池化层和全连接层组成[11]。在通过标准差归一化处理后，所得数据需要做进一步的分类处理[12]。

卷积层由若干卷积核组成，具有信号特征提取功能。卷积内核在输出层计算能力的实现方式是对在该层获得的滑动卷积数据的结果求和，然后将各层的偏差数据进行累加求和。

池化层极大地简化了卷积层输出的复杂性，减少了网络层的参数，该系统通过使用最大池化方法极大地优化了流程[13]。池化层所在区域后的值由图像区域的最大值定义。池化层后的数据通过结合非线性操作线性整流函数（remu ）提高模型的识别性能。

全连接层将使用非线性运算获得的数据与向量和权重矩阵的乘积及偏差相结合。3.3 卷积神经网络结构模型

该系统的卷积神经网络模型主要由输入层、卷积层和池化层等组成[14]，如图6所示。输入层、池化层和输出均为一层，卷积层为两层。本系统中，卷积神经网络输入层的初始设计尺寸为11×39×3，激活函数使用remu 函数[15]。卷积层的输入是前一个池化层的输出，并且与系统每个完全连接的层紧密相关，每个层的输入是前一个层的输出。

4 语音识别系统测试

语音识别效果与系统所处环境有关。在该实验中，选择3个人分别在安静的环境和少量噪声的环境中进行测试。在每个环境中测试200次，测试数据由系统输出识别结果得到，测试结果见表1所列。

从表中可以看出，语音识别的准确率平均为95.5%，准确率较高，能够满足预期的语音识别效果，证明了语音识别报警系统的可行性。

表1 语音识别测试结果

测试对象测试次数/次安静环境少量噪声识别正确率/%特定人a200192/200188/20095.0

特定人b200198/200192/20097.5

特定人c200190/200186/20094.0

5 结语

在声音识别原理和GSM技术的基础上，设计并实现了基于卷积神经网络的声音识别报警系统。系统实时监控家庭环境中的语音报警信号。实验测试表明，该系统工作稳定，具有良好的语音识别效果，有效保障了人们独自在家的安全，具有广阔的市场前景和应用价值。

参考文献

[1]夏雨.基于双摄像头和环境传感器的室外空气质量评估系统[D].

南京：南京邮电大学，2017.

[2]李姝越.基于GPRS的无线传感器网络节点的设计与实现[D].南

京：南京邮电大学，2013.

[3]熊波.基于树莓派的智能家居系统的设计与实现[D].成都：西南

石油大学，2018.[4]潘朝，罗小巧，黄佳，等.基于GSM短信的智能家居控制系统

的设计[J].电子测量技术，2013，36（6）：121-124.

[5]唐明董，张俊波，刘建勋.基于GSM模块的短信平台服务器设

计与实现[J].微计算机应用，2007，28（2）：174-177.

[6]郭万鹏. 基于深度学习的说话人识别技术研究[D].兰州：兰州理

工大学，2019.液压式浮球阀

[7]环天琪.基于移动终端的局域网多点实时语音传输方法研究[D].

南京：东南大学，2019.

[8]李承程.基于深度学习的文本语音耦合情感识别方法研究[D].合

肥：合肥工业大学，2015.

[9]陈枢茜.基于语音分析的疲劳度检测研究[D].苏州：苏州大学，

2017.

[10]张非凡.基于深度学习的语音识别方法研究[D].大连：大连理

语音降噪芯片

工大学，2018.

[11]翟社平，邱程，杨媛媛，等.基于FPGA的卷积神经网络加速权重计算方法

器设计与实现[J].微电子学与计算机，2019，36（8）：83-86. [12]周钧锴，毕君郁.基于卷积神经网络的语音识别系统在养老软

件中的实现[J].电脑知识与技术，2019，15（28）：229-230.

[13]李楠. 一种基于卷积神经网络的轻量级木材图像识别模型研究

[D].杭州：浙江农林大学，2018.

[14]姚繄蕾.云层背景图像机器学习分类方法研究[D].哈尔滨：哈

尔滨工业大学，2018.

[15]张啸，周连喆，张琳琳.基于改进LeNet-5的面部表情识别方法

[J].计算机与现代化，2019，35（10）：83-87.

图6 卷积神经网络模型

作者简介：屈晓静（2000—），女，广东汕尾人，本科在读，主要研究方向为语音识别、计算机应用。

林佳聪（1996—），男，广东梅州人，工学学士，主要研究方向为计算机应用、图像处理。

彭东城（1999—），男，广东揭阳人，本科在读，主要研究方向为数据分析。

钟其麟（2000—），男，广东湛江人，本科在读，主要研究方向为计算机应用。

欢迎订阅2022年度《物联网技术》（月刊）

邮发代号：52-253 定价：20元/册全年定价：240元电话：************-8625传真：************-8618

本文发布于:2024-09-22 13:28:46，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/344310.html

上一篇：北京31235模块原理

下一篇：飞歌es1使用说明书

标签：语音系统识别卷积

留言与评论（共有 0 条评论）