首页 > 专利技术

基于生成对抗单分类网络的异常声音检测

第59卷第6期吉林大学学报(理学版)V o l.59 N o.6 2021年11月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)N o v2021

d o i:10.13413/j.c n k i.j d x b l x b.2021067

基于生成对抗单分类网络的异常声音检测

薛英杰1，韩威2，周松斌2，刘忆森2

(1.昆明理工大学信息工程与自动化学院，昆明650504;

2.广东省科学院智能制造研究所广东省现代控制技术重点实验室，广州510070)

摘要：针对正常和异常声音可能具有较大的相似性，有时无法利用自编码器重构误差大小

区分的问题，提出一种生成对抗单分类网络方法进行异常声音检测，通过多次训练，该方法

学习正常样本的分布特征.在测试过程中，测试正常样本能以极小的误差进行重构，而异常

样本重构效果较差，在某些频率段会发生畸变，从而给出判别分类结果.实验采用

U r b a n S o u n d8K公开数据集和实测电机声音数据集进行了测试，获得该方法的准确率分别为86.3%和98.1%，比卷积自动编码器等主要深度学习方法分别提高了5.0%和3.0%.

关键词：自编码器；生成对抗网络；声音异常检测

中图分类号:T P391文献标志码:A 文章编号:1671-5489(2021)06-1517-08

A b n o r m a l S o u n dD e t e c t i o n

B a s e d o nG e n e r a t i v e

A d v e r s a r i a l S i n g l eC l a s s i f i c a t i o nN e t w o r k

X U EY i n g j i e1,H A N W e i2,Z HO US o n g b i n2,L I U Y i s e n2

(1.F a c u l t y o f I n f o r m a t i o nE n g i n e e r i n g a n dA u t o m a t i o n,K u n m i n g U n i v e r s i t y o f S c i e n c e a n dT e c h n o l o g y,

K u n m i n g650504,C h i n a;2.I n s t i t u t e o f I n t e l l i g e n tM a n u f a c t u r i n g,G u a n g d o n g A c a d e m y o f S c i e n c e s,

G u a n g d o n g K e y L a b o r a t o r y o f M o d e r nC o n t r o lT e c h n o l o g y,G u a n g z h o u510070,C h i n a)

A b s t r a c t:A i m i n g a t t h e p r o b l e mt h a tn o r m a l a n da b n o r m a l s o u n d s m i g h th a v e g r e a t s i m i l a r i t y a n d s o m e t i m e s c o u l dn o td i s t i n g u i s hn o r m a l a n da b n o r m a l s o u n d sb y t h es i z eo f r e c o n s t r u c t i o ne r r o ro f a u t o e n c o d e r,w e p r o p o s e da g e n e r a t i v e a d v e r s a r i a l s i n g l e c l a s s i f i c a t i o nn e t w o r k m e t h o d f o r a b n o r m a l s o u n dd e t e c t i o n.T h r o u g h m u l t i p l et r a i n i n g,t h e m e t h o dl e a r n e dt h ed i s t r i b u t i o nc h a r a c t e r i s t i c so f n o r m a l s a m p l e s.I n t h e t e s t p r o c e s s,t h en o r m a l s a m p l e c o u l db e r e c o n s t r u c t e dw i t h m i n i m a l e r r o r, w h i l e t h e a b n o r m a l s a m p l eh a d p o o r r e c o n s t r u c t i o ne f f e c t,a n dd i s t o r t i o no c c u r r e d i ns o m e f r e q u e n c y b a n d s,s o a s t o g i v e t h e d i s c r i m i n a n t c l a s s i f i c a t i o n r e s u l t s.I n t h e e x p e r i m e n t,U r b a n S o u n d8K p u b l i c

d a t a s

e t a n dm e a s u r e dm o t o r s o u n dd a t a s e tw e r e u s e d

f o r t e s t i n g,a n d t h e a c c u r a c y o f t h i sm e t h o d i s

86.3%a n d98.1%,r e s p e c t i v e l y,w h i c h i s5.0%a n d3.0%h i g h e r t h a n m a i nd e e p l e a r n i n g m e t h o d s s u c ha s c o n v o l u t i o n a l a u t o e n c o d e r.

K e y w o r d s:a u t o e n c o d e r;g e n e r a t i v e a d v e r s a r i a l n e t w o r k;s o u n d a n o m a l y d e t e c t i o n

声音中所包含的信息与视频㊁图像㊁文字等媒介有强烈的互补性.通过声音，可以获得不可见㊁收稿日期:2021-02-13.

第一作者简介：薛英杰(1997 )，男，汉族，硕士研究生，从事声学信号处理的研究,E-m a i l:739554534@q q.c o m.通信作者简介：周松斌(1978 )，男，汉族，博士，研究员，从事声学信号处理的研究,E-m a i l:S b.z h o u@g i i m.a c.c n.

基金项目：国家重点研发计划项目(批准号:2019Y F B1804204)㊁广东省重点领域研发计划项目(批准号:2019B010154002)和广东省自然科学基金(批准号:2020A1515010768).

8151吉林大学学报(理学版)第59卷

无法接触的诸多信息，在材料内部结构探测㊁无损检测㊁日常生活等领域应用广泛，如家禽的鸣叫声㊁工厂中的管路探伤㊁车辆行驶中的异响等.电机㊁家畜等可通过主动发声判断其所处的状态，而对于

不能主动发声的物体可通过气锤敲击㊁电磁脉冲击打等方式使物体被动发声，判断其是否损坏.这种检测方法尽管具有简单有效的优点，但也存在着方法单一㊁没有统一标准㊁过于依赖经验㊁不能实时监控等缺点.

异常声音检测[1]是指对与目标类声音不一致的声音识别，近年在军事㊁畜牧业㊁工业㊁医学等领域已有少量相关报道.目前，异常声音检测的方法主要有直接观察声音时域㊁频域波形和通过有监督地训练神经网络模型，利用网络模型进行异常声音检测两类方法.J e o n等[2]利用声音探测了恐怖主义等恶意目的的无人机;D u等[3]通过检测家禽夜间鸣叫声判断家禽是否处于异常状态；李江丽等[4]为了预防生猪呼吸道传染病的传播，通过生猪咳嗽声监测生猪的健康状态；祁骁杰等[5]通过直接对比分析杨树木段中害虫幼虫的声音时域和频域波形检测害虫幼虫数量，达到保护树木的目的；王中旂等[6]通过直接观察气锤敲击石墨电极声音频谱图检测石墨电极内部是否缺损，因为电极的缺陷处对信号具有滤波的作用，缺损电极的频率成分比无损电极频率成分更简单；李春雷等[7]采集了发电机正常状态声音和其他3种异常声音，通过有监督学习的方式训练B P神经网络达到检测发电机状态的目的；李朋湃[8]通过检测人类的心音诊断心血管疾病；李春阳等[9]因洗衣机异常声音数据稀疏，首先通过生成对抗网络生成大量的洗衣机异常声音，然后使用有监督的方式训练卷积神经网络达到洗衣机异常声音检测的目的；杨毫鸽[10]通过提取航空发动机声音的M e l频率倒谱系数(M F C C)和G a mm a t o n e频率倒谱系数(G F C C)特征作为神经网络的输入，使用训练好的模型进行航空发动机异常声音检测.

深度学习神经网络因其强大的学习能力，在异常声音检测中具有准确率高㊁误判率低㊁抗干扰性强的特点，节约了人工成本，提高了检测效率.在已有的神经网络模型中，自编码器是一种成熟的深度学习单分类网络方法，其以无监督的方式学习目标数据特征，只学习正常样本特征即可获得检测模型，适合用于异常情况具有复杂多样性的异常检测.相比于有监督学习训练神经网络，自编码器网络只需正常样本数据即可完成训练，克服了异常样本数据定义不明确㊁采集难等问题.本文在自编码器神经网络方法的基础上，并受生成对抗网络(G A N)的启发，针对声音数据提出一种生成对抗单分类网络方法(简称网络)进行异常声音检测.实验结果表明，该方法在异常声音检测中准确率更高.

1基于生成对抗单分类网络的异常声音检测方法设计

异常声音检测流程如图1所示.其中，生成对抗单分类网络模型是异常声音检测方法的核心.首先利用麦克风传感器采集待测声源的正常声音数据，对声音数据进行降噪㊁滤波等预处理并输入计算机，然后由计算机中已设计好的生成对抗单分类网络进行学习和训练，建立对正常声音特征的普遍认知.训练完成后，对于输入的正常声音，网络模型以极小的误差重构正常声音；而对于输入的异常声音，网络模型重构效果较差，从而可进行正常或异常的声音判断，所给出的判断结果可用于提醒警示㊁实时监控㊁应急反馈处理等目的.

图1异常声音检测流程

F i g.1F l o wc h a r t o f a b n o r m a l s o u n dd e t e c t i o n

1.1自编码器

在深度学习方法中，自编码器是无监督学习方法之一.传统自编码器网络是一对相互连接的子网络[11]，包括编码器和解码器.编码器和解码器分别由一个全连接层组成.编码器中的全连接层将输入

数据进行压缩，提取出输入数据中最具有代表性的特征；解码器中的全连接层将提取的特征解压,

尽可

图2 自编码器结构

F i g .2 S t r u c t u r e o f a u t o e n c o d e r 能地再现生成原始输入.自编码器结构如图2所示.传统自编码器编码和解码的过程可描述为

编码过程:h 1=σe (W 1x +b 1),(1)解码过程:y =σd (W 2h 1+b 2),(2)其中x 表示自编码器的输入,h 1表示编码器提取出

的特征,y 表示解码器重构数据，即自编码器的输

出,σe ,σd 表示非线性变换,W 1,W 2,b 1,b 2表示神

经网络的参数，通过优化器最小化x 和y 之间的重

构误差获得.重构误差ε可表示为ε=ðn

i =0(x i -y i )2/n ,(3

)其中x i 表示原始输入数据的第i 维,y i 表示生成器生成数据的第i 维,n 表示数据长度.由于传统自编码

器网络结构简单，有时无法从数据中提取具有代表性的特征，因此产生了深度自编码器和卷积自编码器.深度自编码器类似于传统自编码器，包含一个编码器和一个解码器，编码器和解码器分别由多个全连接层组成：编码器中多个全连接层共同将输入数据进行压缩，提取数据特

征；解码器中多个全连接层根据特征再现生成原始输入.卷积自编码器[12]也包含一个编码器和一个解

码器：编码器包括若干卷积层，卷积层将输入的数据进行压缩，提取输入数据特征；解码器也包括若干卷积层，解码器中卷积层将提取的特征进行解压，再现生成原始输入.此外，为增加网络结构的稳

定性，本文在每个卷积层都进行批量归一化[13]操作.

深度自编码器和卷积自编码器常被用于异常检测领域，目前已有许多研究结果，如：梁凤勤等[

14]使用深度自编码器检测了油气管道是否存在异常；蒋爱国等[15]使用深度自编码器检测了感应电机故

障；佘博等[16]使用卷积自编码器检测了机械传动部件故障;W u 等[17]使用卷积自编码进行了图像异常

检测;K h a l i l i a n 等[18]使用卷积自编码检测了电路板缺陷;C h e n 等[1

9]使用深度自编码器检测了网络是否异常;U l u t a s 等[2

0]使用深度自编码器检测了表面缺陷等.利用各种自编码器进行异常检测时，一般包含训练和检测两个过程.首先使用正常数据训练一个自编码器，自编码器只学习正常数据特征，故能以较小的误差重构再现正常数据，而检测过程中的异常数据重构误差较高.因此可将重构误差大小

作为异常检测的判断标准，最后设置一个阈值α，重构误差大于该阈值则为异常，否则为正常.

1.2 生成对抗单分类网络

目前，自编码器已成为异常检测的主要方法.但在一些声学场景中，由于正常和异常样本具有较大的相似性，从而导致异常样本重构误差也较小，因此有时无法直接利用重构误差大小区分正常和异

常样本.受生成对抗网络G A N [21]启发，针对声音数据，本文提出一种生成对抗单分类网络方法，利用联合对抗方式训练卷积自编码器和卷积判别器，用卷积判别器代替重构误差进行分类.在联合对抗训练过程中，卷积自编码器和卷积判别器相互博弈，卷积判别器的判别结果反馈到卷积自编码器，促进卷积自编码器更好地学习正常数据特征，从而能更好地重构目标类数据.同时，卷积自编码器的重构数据输入卷积判别器，促进卷积判别器更好地学习正常数据特征，提高卷积判别器的判别能力.网络整体框架如图3所示，其中：卷积自编码器相当于生成对抗网络中生成器G ；卷积判别器的结构是一系列

卷积层，其被训练以最终区分异常声音样本，相当于生成对抗网络中的判别器D ，使用正常样本训练生成器G 和判别器D ，同时使用生成器G 重构的数据训练判别器D .将判别器D 来自真实正常样本的输入标注为1，并将来自生成器G 重构数据的输入标注为0，则判别器D 的输出结果为0~1之间的数值，表示其输入所遵循目标类数据特征分布的可能性.判别器D 的目标是实现对数据来源的二分

类判别：真(来源于真实正常样本)或假(来源于生成器G 重构数据)

；生成器G 的目标是自己重构的数据能成功欺骗判别器D ，即判别器D 将生成器G 重构数据判别为真.

神经网络的训练过程是优化器优化训练损失值的过程，根据训练数据进入网络输出的结果和定义

9151 第6期薛英杰，等：基于生成对抗单分类网络的异常声音检测

0251吉林大学学报(理学版)第59卷

好的损失函数求出训练损失值，优化器会根据训练损失值更新网络参数，经过多次迭代训练后，网络便可输出预期的结果.生成对抗单分类网络目标函数[21]为

m i n G m a x D V(D,G)=E x~p d a t a(x)[l g(D(x))]+E x~p d a t a(x)[l g(1-D(G(x)))],(4)其中G为生成器,D为判别器,x为训练声音样本,G(x)为生成器生成的样本,D(x)表示判别器判断x为真的概率,D(G(x)))

表示判别器判断生成器G生成的样本为真的概率,E x~p d a t a(x)表示按p d a t a(x)的分布对x求期望.判别器D的目的是使式(4)最大，即第一项和第二项都要最大.第一项最大是D(x)接近于1，即真实数据进入判别器输出接近于1.而第二项最大，需要D(G(x))接近于0，即生成器G重构的样本进入判别器输出接近于0.而生成器G的目的是使式(4)最小，即第一项和第二项都最小.

图3网络整体框架

F i g.3O v e r a l l f r a m e w o r ko f n e t w o r k

当生成器G能重构正常训练样本时，停止训练.此时生成器G以较小的误差重构其输入(即(X-Xᶄ)2<ρ,ρ为一个很小的正数,Xᶄ为生成器G输出数据).网络训练完成后，生成器G能重构正常样本，正常样本X输入生成器G输出Xᶄ,Xᶄ服从正常样本的特征分布.由于生成器G未学习异常样本特征分布，因此异常样本X*输入生成器G输出一个具有未知分布的(X*)ᶄ，重构效果较差，在某些频率波段，重构的样本会发生畸变.判别器D也学习了正常样本的特征，故重构的正常样本输入判别器D输出的结果比阈值大，而重构的异常样本输入判别器D输出的结果比阈值小.与原始样本相比，判别器D可以更好地区分经过生成器G输出的数据.

2实验

为验证生成对抗单分类网络的有效性，本文使用U r b a n S o u n d8K公开数据集作为标准数据输入网络进行正确性检验.在此基础上，对实验室采集的吹风机电机数据集进行实际测试.所有P y t h o n程序都使用Q u a r d r oR T X5000显卡运行.

按图3所示的程序框架结构，对所有输入程序的声音数据首先进行F o u r i e r变换，得到其频谱数据.为提高模型收敛速度㊁模型精度并防止模型梯度爆炸，对频谱数据进行如下必要的归一化处理:

Yᶄ=Y-Y m i n

Y m a x-Y m i n,(5)其中Y表示原始数据,Yᶄ表示归一化后的数据,Y m a x表示Y中的最大值,Y m i n表示Y中的最小值.以归一化后的声音频谱数据对卷积自编码器和卷积判别器组成的生成对抗单分类网络进行训练，直至重构误差趋于稳定结束训练.待测试的声音数据同样经过归一化F o u r i e r变换后，输入卷积自编码器，对输

出的重构数据由卷积判别器进行阈值判别，即可得到正常或异常的声音分类.本文对网络判别结果与真实值进行比较并统计，得到4种分类结果：正常类被正确判别(T P )，正常类被错误判别(F N )，异常类被错误判别(F P )，异常类被正确判别(T N ).由此可定义精准率㊁召回率㊁准确率和误警率等指标参数：精准率(P r e c i s i o n )是指测试结果为正常的数据中识别正确的比例,P r e c i s i o n =T P /(T P +F P )；召回率(R e c a l l )是指真实为正常的数据中识别正确的比例,R e c a l l =T P /(T P +F N )；误

警率(f a l s e a l a r mr a t e ,F A R )是指正常类被判别为异常类的样本个数占真实类别为正常样本总数的比例,

F A R =F N /(T P +F N )；准确率(A c c u r a c y )是指所有测试样本被正确识别的比例,A c c u r a c y=(T P +T N )/(T P +T N +F P +F N ).2.1 U r b a n S o u n d 8K 数据集

U r b a n S o u n d 8K 数据集是由美国纽约大学音乐与音频实验室收集的声音数据，共包括10类声音.本文选择空调正常运行声音和机器空转声音两种最相似的声音进行检验测试.空调正常运行声音作为

正常样本，机器空转声音作为异常样本.空调声音和机器声音时长均为3s ，将其切割成1s 的片段.其中3200个空调声音样本作为训练数据,388个空调声音样本和400个机器声音样本作为测试数据.测试数据频谱和生成器输出频谱如图4所示.其中空调正常运行声音(图4(A )

)作为正常声音样本，生成器能以很小的误差重构出测试空调声音的频谱(图4(B )

)，重构谱图与原始谱图有非常高的相似度.而机器空转声音(图4(C ))作为异常声音，生成器重构出的频谱(图4(D ))约在500H z 和1000H z 出

现畸变，重构效果较差，重构谱图与原始谱图有明显区别.生成器生成的样本继续输入判别器进行最终判别.图4 U r b a n S o u n d 8K 数据集的测试样本频谱和生成器输出频谱

F i g .4 T e s t s a m p l e s p e c t r a o fU r b a n S o u n d 8Kd a t a s e t a n do u t p u t s p e c t r a o f g

e n e r a t o r 使用主流的深度自编码㊁卷积自编码方法及生成对抗单分类网络，对完全相同的原始声音数据进行学习和测试，统计结果列于表1.由表1可见：本文生成对抗单分类方法优于其他两种方法，在精确1251 第6期薛英杰，等：基于生成对抗单分类网络的异常声音检测

本文发布于:2024-09-20 12:11:54，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/88646.html

上一篇：OCL功放电路详解与维修

下一篇：噪声检测仪

标签：声音数据检测编码器网络样本判别卷积

留言与评论（共有 0 条评论）