基于深度学习神经网络的声纹识别方法

信I■与电IB
China Computer&Communication
2021年第4期标志验证网
基于深度学习神经阿络的声纹识别方法
白曦龙
(绥化学院,黑龙江绥化152061)
摘要:笔者以声纹识别的概念及应用为切入点,通过了解深度学习的基本概念以及声纹识别的预处理过程,深入探索声纹识别的各类算法以及如何构建声纹识别模型,最后分析了3种声纹识别模型,希望能够为声纹识别技术的推广和普及提供借鉴.
关键词:深度学习;神经网络;声纹识别
中图分类号:TP183文献标识码:A文章编号:1003-9767(2021)04-153-03
Voiceprint Recognition Method Based on ArtiHcial Intelligence Deep Learning
BAI Xilong
(Suihua University,Suihua Heilongjiang152061,China)
Abstract:The author takes the concept and application of voiceprint recogn让ion as an entry point.Through understanding the basic concepts of deep learning and the preprocessing process of voiceprint recognition,the author deeply explores various algorithms of voiceprint recognition and how to build a voiceprint recognition model.Finally,I analyze3This voiceprint recognition model hopes to provide a reference for the promotion and popularization of voiceprint recognition technology.
Keywords:deep learning;neural network;voiceprint recognition
1声纹识别技术
声纹识别指的是对个人声音的特征进行测定,是一种生物识别技术。一般来说,每个发言人的声纹特征都是独一无二的,为了将一个人的身份和声音相匹配,需要事先录下发言人的声音与身份信息,然后就可以根据预录制的声纹特点做身份验证。与传统的密码和密钥相比,声纹因为其独一无二的特点,识别时可以实现1:1匹配,具有极高的安全特性,因此现代往往将这项技术应用在数据安全和财产安全保护中。
2深度学习与神经网络
深度学习是人工智能的基础之一,其往往利用复杂的结构来实现大量数据的集中训练与测试,复杂的结构指的是多层神经网络,因此可以说深度学习在一定程度上就是多层神经网络W简单的神经网络组成一般分为输入层、隐藏层和输出层,每层含有多个神经元,这些神经单元是根据模拟大脑神经元而设计的。一个简单的神经网络很难处理复杂的运算和决策,从而便出现了多层神经网络。多层神经网络与简单神经网络的不同点在于其隐藏层的层数不止1层,随着隐藏层数的增多,多层神经网络可以无限逼近任意一个复杂函数,使得训练出的模型的准确率接近100%。数据经过一层层的正向传递,再通过反向传播改变神经网络各层之间的参数,经过多次的迭代训练后,训练好的模型可以更加准确地描述声纹特征。
本文主要使用了两个神经网络。第一个是长短期记忆网络(Long Short-Term Memory,LSTM)。LSTM—般用于考虑到时间特征的神经网络训练,而声纹因为说话人的语言表达具有时序特征,因此比较适合使用LSTM做模型训练阴也LSTM总共有3个门,即输入门、遗忘门以及输出门,可以对输入的信息进行处理。遗忘门用来控制上一时刻的输入状态,是否需要记住由遗忘门输出的值决定。输出值接近于0则选择舍弃,接近于1则选择保留。第二个是卷积神经网络(Convolutional Neural Networks,CNN)。由于声纹既具有时序特征,又具有空间特征,因此CNN也可以应用于声纹识别[11-15]o CNN将多层神经网络的隐藏层改变为卷积层和池化层。卷积层是CNN的核心,由一组固定的滤波矩阵组成,
基金项目:黑龙江省基本科研业务费(项目编号:KYYWF10236190110)o
作者简介:白曦龙(1988-),男,黑龙江绥化人,硕士研究生,讲师。研究方向:功能材料与器件、人工智能。
信思与电18
China Computer&Communication
人工智饨与积别皱术2021年第4期
通过计算滤波矩阵与输入数据的点积,产生二维激活图,使CNN具有较强的特征学习能力。池化层的目的是给CNN降维,同时又能保留重要的信息。由于卷积层提取的特征在一定范围内是相似的,因此利用池化层就可以选出一个最具有代表意义的像素,在减少维度的同时也保留了声纹特征。
3声纹识别预处理
由于现实生活中采集声音时会不可避免地收集到很多噪音,如空调产生的周期噪声、物品撞击发出的冲击噪声、呼吸引起的宽带噪声以及信号传播时的传输噪声,因此要先对收集的语音进行降噪处理,从而训练出高准确率的声纹识别模型。目前有几种简单的降噪算法:LMS自适应滤波器、谱减法、维
纳滤波法以及RNNoise语音降噪。其中,谱减法通过收集平稳的噪声信号,将没有语音只有环境噪音的前几帧作为输入,取均值得到噪声频谱,然后用原频谱减去噪声频
RNNoise由3个GRU层搭建,数据输入神经网络后经过训练可达到减弱噪音的目的。GRU是RNN的一种类型,输入和输出与RNN相同,只是在内部添加了重置门控和更新门控,如图1所示。匂为更新门控,用于控制上一时刻的状态,值越大说明影响这一时刻的状态就越多;卩为重置门控,用于控制上一时刻有多少信息被写入候选集人中。目前,该神经网络仍在不断更新中,可以消除人噪声、汽车噪声和街道噪声。
4声纹识别算法的实现
4.1声纹特征提取压力检测装置
由于发声器官的相互作用,每个人在说话时都会受到语速、音量、口音等因素的影响,导致同一个人的不同语音间有着相同的特征关联,从而就可以总结这些特征并提取出来,经过降噪处理后形成输入神经网络的数据。常用的声纹特征有线性预测系数、梅尔倒谱系数以及语谱图特征[16'17]o在生物学中,由于每个人的发声习惯不同,可以认为语音信号在短时间内是平稳的。一段几秒的语音可以截取出很多段,一段即为一帧,为了使输入神经网络中的数据是一串连续的帧,需要在这段语音中设置重叠的部分,具体的方法是利用一个滑动窗口不断向后移动,大概在帧长为1/2处截取1次。尤其要注意
人类在说话的过程中总会有停顿,这段被称为静音段,降噪后几乎没有声音了,输入这段声音会影响模型的学习效率,去掉这段可以减少不必要的计算时间。
4.2降维处理
本文利用语谱图特征法提取到声纹特征之后,得到25 440维特征向量,考虑到实验硬件的限制,将这么大的维度数据输入神经网络中会导致训练速度、收敛速度变慢,因而需要利用词嵌入算法进行降维分析。词嵌入算法利用一个随机生成的固定矩阵,将高维空间映射到低维空间,能够在不改变原维度的情况下将25440维度的稀疏矩阵降维到128维。
4.3神经网络训练
声纹经过特征提取和降维处理之后,生成的数据可以作为神经网络的输入层数据,然后经过神经网络的迭代训练,最终得到需要的模型。本文使用了两种神经网络LSTM和CNN,并通过混搭的方式得到了3种声纹识别模型。
53种声纹识别模型
5.1基于词嵌入的LSTM模型
单独利用LSTM是可以做声纹识别的,唯一需要改变的就是对输入数据进行降维。具体步骤为:第一,将采集的语音信号分割成几秒的片段,生成语谱图;第二,选出80%做训练集,20%做测试集,并将训练集输入LSTM中做迭代训练第三,用测试集进行测试。实验数据的准确率为94.17%。5.2 3D-CNN模型
3D-CNN模型是CNN网络的变形,可以对多帧时间序列的语音进行识别。具体步骤为:第一,采集语音信号,分出训练集和测试集;第二,在模型中输入几个大小相同的连续帧,进行初卷积、池化和下采样,提取不同维度的特征;第三,再用另一个滤波矩阵进行卷积,并池化和下采样;第四,重复3次,输出训练结果,然后再输入下一段连续帧,不断进行迭代训练。实验数据的准确率为87.3%。
5.3CNN-LSTM模型
由于CNN和LSTM两种模型拥有不同的优势,所以将二者结合在一起能够更好地提高准确率。CNN-LSTM模型由卷积层、池化层、LSTM层和softmax分类层构成,卷积核数为20,大小为3x3,激活函数为ReLU,池化层大小为4x4,神经元连接的断开比例为0.2。为了避免过拟合,在LSTM中加入Dropout,数据经过一系列卷积、池化以及采样的迭代训练后,最终准确率为97.42%。
6结语
近年来,经过研究人员的不断努力,声纹识别技术的识别准确率也在逐年升高,但是实验数据毕竟与真实数据还存在差别,如何消除真实数据的各种噪声是当前研究的重点。随着技术的不断革新,相信会有越来越多的产品被开发出来。
値■与电厢
China Computer&Communication人乂臂饨与识拥較术2021年第4期
参考文献
[1]张非凡.基于深度学习的语音识别方法研究[D].大连:大
连理工大学,201&
[2]董莺艳.基于深度学习的声纹识别方法研究[D],重庆:重
庆理工大学,2019.
[3]李晓坤,郑永亮,袁煩,等.基于深度学习的声纹识别方法
quartz插件
研究[J].黑龙江大学工程学报:2018,9(1):65-70.
[4]胡青.卷积神经网络在声纹识别中的应用研究[D].贵阳:
贵州大学,2016
[5]刘惠敏,王龙.语音信号处理系统设计[J].中山大学研究
生学刊,2016(2):68-82.
[6]卜禹,陆璐璐.基于深度学习及核典型相关分析的多特征
融合说话人识别[J].计算机与数字工程,2019,47(9):74. [7]刘镇,吕超,范远超.基于深度学习的多声源并行
化声纹辨别方法[J].江苏科技大学学报(自然科学版),2018,32(1):106-111.
[8]韩侣,周林华,马文联,等.基于深度学习的小样本声纹识
别研究[J].应用数学进展,2020(1):30-37.[9]薛亚东,李宜城.基于深度学习的盾构隧道衬砌病害识别
方法[J].湖南大学学报(自然科学版),2018,453:100-109.
[10]王文超,黎塔.基于多时间尺度的深层说话人特征提取研
究[J].网络新媒体技术,2019(5):73.
[11]潘树诚,章坚武.基于深网图像识别模型的语音认证模
abs141.avi
式[J].软件导刊,201&17(10):22-26.
[12]王丰华,王邵菁,陈颂,等.基于改进MFCC和VQ的变
压器声纹识别模型[J].中国电机工程学报,2017(5):1535-1542.
[13]王宏安,陈国明.基于深度学习的漏磁检测缺陷识别方
法[J].石油机械,2020,495(5):131-136.
热再生[14]胥玉龙,张永梅,滑瑞敏.基于深度学习的离线手写签名
真伪识别方法[J].电脑知识与技术,2019(9):92.
[15]孙次锁,刘军,秦勇,等.基于深度学习的钢轨伤损智能
识别方法[J],中国铁道科学,2018,39(5):51-57.
本地摄像头[16]马瑞琳,刘翔,张瑜,等.基于深度学习的心电信号异常
识别方法[J].传感器与微系统,2020,335⑴:35-3& [17]计雪伟,霍兴赢,薛端,等.基于深度学习的农作物病虫
害识别方法[J],南方农机,2020,363(23):188-189.

本文发布于:2024-09-22 03:33:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/240652.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议