基于卷积神经网络的时频双域音频分类方法与系统



1.本发明属于音频识别分类领域,涉及一种基于卷积神经网络的时频双域音频分类方法与系统。


背景技术:



2.在音频模式识别领域中,波形图是音频数据的初级特征,拥有音频最原始的特征,包含了时间轴和振幅值;梅尔频谱图是音频数据的中级特征,是波形图在通过加权、分帧、加窗、快速傅里叶变换和对数梅尔滤波器后得到的,是音频特征的二维表示,拥有时间轴、频率轴。与波形图相比较,梅尔频谱图维度适中,更易于处理。除此之外,梅尔频谱图更贴近人耳的感知范围,更关注特定的频率分量。
3.近年来,人们开始使用深度学习模型来从波形图或梅尔频谱图中自动提取音频特征。深度学习中的卷积神经网络架构被作为重要的特征提取器。使用卷积神经网络作为音频特征提取器的好处是:1)梅尔频谱图特征与图像特征很相似,可以将图像领域先进的技术引进音频分类领域;2)卷积神经网络关注局部特征,而音频一般是分段的节奏,符合卷积神经网络的关注特点;3)卷积神经网络作为深度学习模型,可以自动地从原始特征进行提取。但是,音频数据与图像数据的不同之处在于,音频数据的频谱图拥有时间域和频率域,而不仅仅是简单的网格状邻域结构。如何针对这两个域进行提取特征是建立模型的关键。此外,今年来有些研究者[pons,j.and serra,x.randomly weighted cnns for(music)audio classification.ieee international conference on acoustics,speech and signal processing,brighton,12-17may 2019,336-340]使用随机化权重的卷积网络进行特征提取,但是随机化网络由于缺少监督机制,存在过度依赖初始化权重方法和模型结构本身的缺陷。


技术实现要素:



[0004]
发明目的:本发明的目的在于提供一种基于卷积神经网络的时频双域音频分类方法与系统,充分利用梅尔频谱图时频双域的特点并且克服随机化网络由于缺少监督机制而导致初始化权重方法并不可靠且过分依赖模型结构本身这一缺陷,并通过划分信道权重,减少平均池化造成的部分信道信息损失,以提高分类的准确性。
[0005]
技术方案:为实现上述发明目的,本发明采用如下技术方案:
[0006]
一种基于卷积神经网络的时频双域音频分类方法,包括如下步骤:
[0007]
(1)将音频数据转化为梅尔频谱图;
[0008]
(2)基于音频的梅尔频谱图来分别计算监督音特征矩阵和监督时间特征矩阵,构造最终的时频双域特征矩阵;包括:
[0009]
基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音特征矩阵;
[0010]
基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷
积核的输出进行堆叠,组成监督时间特征矩阵;
[0011]
连接监督音特征和监督时间特征,得到时频双域特征矩阵;
[0012]
(3)将基于梅尔频谱图的时频双域特征矩阵,进行平均池化后得到特征向量,对特征向量通过全连接层进行激励操作,关注信道信息得到不同的信道权重向量,将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量;
[0013]
(4)最后将时频双域特征向量输入softmax分类器,输出音频数据的分类结果;以交叉熵作为损失函数,通过反向传播最小化损失更新步骤(2)中的卷积核参数和步骤(3)中全连接层网络参数得到训练好的音频分类模型。
[0014]
作为优选,步骤(2)中,监督音特征提取的方法是:分别通过不同卷积层提取梅尔频谱图的特征,不同卷积层的卷积核大小不同,每个卷积层后连接一个最大池化层;各卷积层提取特征再经过最大池化层进行压缩后,纵向堆叠组成监督音特征矩阵;监督时间特征提取的方法是:先通过最大池化层将梅尔频谱图压缩成一维时间向量,再分别通过不同卷积层提取特征后,纵向堆叠组成监督时间特征矩阵。
[0015]
作为优选,设表示第i个音频数据的梅尔频谱图,其中f为音频数据梅尔频谱图的帧数,m是梅尔滤波器的个数;提取监督音特征中,单个卷积核的操作表示为:
[0016]yi,a
=conv(xi,wa)
[0017][0018][0019][0020]
其中wa表示第a个音卷积核,a表示用于提取监督音特征的卷积核总个数,都是随机初始化并在训练过程中根据损失函数的反向传播不断自动优化,conv(xi,wa)表示对xi使用卷积核wa进行卷积操作,relu为激活函数,表示对卷积层的输出y
i,a
进行一次非线性映射,maxpooling表示最大池化操作,是监督音特征矩阵;
[0021]
提取监督时间特征中,单个卷积核的操作表示为:
[0022][0023][0024][0025][0026]
maxpooling(xi)表示xi的每帧进行最大池化操作;表示对使用一维时间卷积核进行卷积操作;其中表示第e个时间卷积核,e表示提取监督时间特征的
卷积核总个数,都是随机初始化并在训练过程中根据损失函数的反向传播不断自动优化,是监督时间特征矩阵。
[0027]
作为优选,所述时频双域特征矩阵其中s=a+e。
[0028]
作为优选,所述步骤(3)具体包括:
[0029]
首先,将时频双域特征矩阵ffi输入平均池化层,对行向量进行平均池化,得到压缩向量将s视为信道数;
[0030]
ffi=avepooling(ffi)
[0031]
然后,将ffi作为两个连续的全连接层的输入,计算出每个信道的权重:
[0032]
qi=w1ffi+b1[0033]
ffi′
=w2qi+b2[0034]
qi,ffi′
分别表示第一、二个全连接层的输出;w1,w2分别表示第一、二个全连接层的权重矩阵;b1,b2分别表示第一、二个全连接层的偏置,它们均使用随机初始化,在训练过程中会根据损失函数反向传播不断自动优化;
[0035]
最后,权重向量ffi′
与输入作乘法,得到输出特征向量
[0036]
ui=diag(ffi′
)
×
ffi[0037]
ui=maxpooling(ui)
[0038]
diag(ffii′
)表示将向量ffii′
变成对角阵;maxpooling(ui)表示对ui进行最大池化操作。
[0039]
一种基于卷积神经网络的时频双域音频分类系统,包括:
[0040]
预处理模块,用于将音频数据转化为梅尔频谱图;
[0041]
监督音模块,用于基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音特征矩阵;
[0042]
监督时间模块,用于基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督时间特征矩阵;
[0043]
时频双域注意力模块,用于将连接监督音特征和监督时间特征得到的时频双域特征矩阵,进行平均池化后得到特征向量,对特征向量通过全连接层进行激励操作,关注信道信息得到不同的信道权重向量,将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量;
[0044]
分类模块,用于将时频双域特征向量输入softmax分类器,输出音频数据的分类结果;
[0045]
以及训练模块,用于以交叉熵作为损失函数,通过反向传播最小化损失更新监督时间模块和监督时间模块中的卷积核参数以及时频双域注意力模块中全连接层网络参数得到训练好的音频分类模型。
[0046]
一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于卷积神经网络的时频双域音频分类方法的步骤。
[0047]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于卷积神经网络的时频双域音频分类方法的步骤。
[0048]
有益效果:本发明提出了一种用于音频识别分类领域的基于卷积神经网络的时频双域音频分类方法。该方法克服了以往音频分类方法的两大缺点:一是近年来基于随机权重网络的音频分类方法在提取音频特征时,网络的权重是随机的,完全依赖于网络结构,并不十分可靠,而且没有充分利用音频数据的标签信息。我们的方法在网络输出端增加了监督信息的反馈,增加了神经网络通过计算交叉熵损失并反向传播进而不断优化模型权重的步骤,因此更为可靠;二是时频双域注意力模块的引入,能更好地区分各信道的重要程度,从而更有效地提取出有利于分类的音频特征。
[0049]
本发明的优点在于它利用了音频的梅尔频谱图具有时间轴和频率轴的特点,将频率特征和时间特征分成两个模块进行提取,然后将两个特征进行纵向连接组成时频双域特征矩阵输入到时频双域注意力模块进行信道加权得到用于输入神经网络的,再通过反向传播和交叉熵损失函数对神经网络模型进行训练。与传统的音频识别分类方法相比,我们的方法在将波形图处理为梅尔频谱图的过程中用到了与人耳原理类似的梅尔滤波器组,这个滤波器组过滤了人耳所不能感知的声音,关注特定的频率分量,更贴近人耳的感知范围。此外,监督信息的加入也很好的解决了传统的随机化网络因缺少监督机制导致初始化权重方法并不可靠且过分依赖模型结构本身的缺陷。之后,考虑到信道信息对分类结果的影响又引入了时频双域注意力模块进一步提升了该模型进行音频分类的准确性。根据实验数据表明,我们的方法在分类精准度上具有比较好的效果,同时消融实验也验证了信道信息对于特征矩阵的重要性。
附图说明
[0050]
图1为本发明实施例的方法结构示意图。图中详细介绍本发明实施例的执行流程,由监督音模块、监督时间模块、监督音特征矩阵、监督时间特征矩阵、时频双域特征矩阵、时频双域注意力模块、时频双域特征向量、反向传播等部分组成。
具体实施方式
[0051]
下面结合附图和具体实施例对本发明的技术方案进行详细说明。
[0052]
如图1所示,本发明利用音频的梅尔频谱图具有频率轴和时间轴的特点,通过构造监督音模块和监督时间模块分别输出音频文件的监督音特征矩阵和监督时间特征矩阵,改进了传统的随机化网络因缺少监督机制,导致初始化权重方法并不可靠且过分依赖模型结构本身的缺陷。然后将其纵向连接形成的时频双域特征矩阵输入到时频双域注意力模块进行信道加权,最后将信道加权划分后的时频双域特征矩阵通过最大池化输出时频双域特征向量再输入神经网络模型,就可以得到最终的分类结果。
[0053]
具体地,本发明实施例公开的一种基于卷积神经网络的时频双域音频分类方法,主要包括如下步骤:
[0054]
一、对音频数据通过预处理构造梅尔频谱图。
[0055]
将每个音频的波形文件通过加权、分帧、加窗、快速傅里叶变换和对数梅尔滤波器,得到固定帧数的梅尔频谱图。例如对每个长度为30s的音频,以20-40ms划分一帧,构造时间维度为1404帧的梅尔频谱图。
[0056]
二、基于梅尔频谱图来分别计算监督音特征矩阵和监督时间特征矩阵,构造最
终的时频双域特征矩阵。包括:
[0057]
(1)基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音特征矩阵。
[0058]
(2)基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督时间特征矩阵。
[0059]
(3)连接监督音特征和监督时间特征,得到梅尔频谱图的时频双域特征矩阵。
[0060]
具体为:将音频的梅尔频谱图分别输入到监督音模块和监督时间模块中,并分别得到监督音特征矩阵和监督时间特征矩阵,以构造最终的时频双域特征矩阵ffi。在监督音模块中,利用6类共448个卷积核进行特征提取,每个卷积层后都接一个最大池化层,然后将每个卷积核输出的特征向量纵向堆叠组成监督音特征矩阵。类似的,监督时间模块利用4类共448个卷积核进行特征提取,不同的是监督时间模块中,音频的梅尔频谱图会先经过最大池化层,再经过卷积操作,最后将每个卷积核的输出纵向堆叠组成监督时间特征矩阵,最终纵向连接监督时间特征矩阵和监督音特征矩阵获得时频双域特征矩阵。在本实施例的模型中,我们将监督音模块中6类卷积核大小分别设置为:7*86、1*86、3*86、7*38、1*38、3*38,对应每类卷积核的数目分别设置为32、64、128、32、64、128,卷积核在梅尔谱图上移动的步长为1;将监督时间模块中的4类卷积核大小分别设置为:165*1、128*1、64*1、32*1,对应每类卷积核的数目分别设置为24、56、120、248。
[0061]
设表示用于训练的梅尔频谱图,其中表示第i个训练样本即第i个音频数据的梅尔频谱图,i=1,2,

,n,f为音频数据梅尔频谱图的帧数,m是梅尔滤波器的个数,n为训练样本个数;提取监督音模块中,单个卷积核的操作如下:
[0062]yi,a
=conv(xi,wa)#(1)
[0063][0064][0065][0066]
式(1)表示对xi使用卷积核wa进行卷积操作,得到y
i,a
,其中wa表示监督音模块中第a个卷积核,a表示用于提取监督音特征的卷积核总个数,都是随机初始化并在训练过程中根据损失函数的反向传播不断自动优化;式(2)为激活函数,表示对卷积层的输出y
i,a
进行一次非线性映射;式(3)表示对的每帧进行最大池化操作,得到式(4)表示将a个音卷积核和最大池化操作的输出按纵向堆叠获得的监督音特征矩阵
[0067]
提取监督时间模块中,单个卷积核的操作如下具体为:
[0068][0069]
[0070][0071][0072]
式(5)表示对xi的每帧进行最大池化操作,得到式(6)表示对使用一维时间卷积核进行卷积操作得到其中表示第e个时间卷积核,e表示提取监督时间特征的卷积核总个数,都是随机初始化并在训练过程中根据损失函数的反向传播不断自动优化;式(7)为激活函数,表示对卷积层的输出y
i,a
进行一次非线性映射;式(8)表示将e个时间卷积核的输出按纵向堆叠获得监督时间特征矩阵
[0073]
将监督音特征和监督时间特征纵向连接起来,即得到了音频的时频双向特征矩阵s=a+e。
[0074][0075]
三、考虑到信道信息对分类结果的影响,将时频双域特征矩阵输入到时频双域注意力模块中进行信道加权操作。时频双域注意力模块将梅尔频谱图的时频双域特征矩阵ffi进行平均池化后得到特征向量ffi,对特征向量进行激励操作,关注信道信息得到不同的信道权重ffi′
,将向量ffi′
与特征矩阵ffi作信道乘法后再进行最大池化操作后就得到了时频双域特征向量ui。具体表示为:
[0076]
首先,将时频双域特征ffi输入平均池化层,对行向量进行平均池化,得到压缩向量我们称s为信道数。
[0077]
ffi=avepooling(ffi)#(10)
[0078]
式(10)表示挤压操作,即使用平均池化压缩特征矩阵;
[0079]
在得到挤压操作的输出ffi后,将ffi作为两个连续的全连接层的输入,旨在计算出每个信道的权重:
[0080]
qi=w1ffi+b1#(11)
[0081]
ffii′
=w2qi+b2#(12)
[0082]
式(11-12)表示激励操作,即采用两个连续的全连接层计算出每个信道的权重qi,ffii′
分别表示第i个样本的第一、二个全连接层的输出;w1,w2分别表示第t个样本的第一、二个全连接层的权重矩阵;b1,b2分别表示第i个样本的第一、二个全连接层的偏置。
[0083]
最后,信道权重向量ffi′
与时频双域注意力模块的输入作信道乘法,得到注意力模块的输出:
[0084]
ui=diag(ffii′
)
×
ffi#(13)
[0085]
ui=maxpooling(ui)#(14)
[0086]
(13)式表示信道加权操作,即根据ffii′
的权重对ffi的每一行进行加权,diag(ffii′
)表示将向量ffii′
变成对角阵;等式(14)表示对ui进行最大池化操作,最终得到特征
向量
[0087]
四、将时频双域特征向量输入softmax分类器,输出分类结果。
[0088]
将softmax函数作为分类器,以二值交叉熵作为损失函数训练,得到预测分类结果与真实标签yi进行损失计算,通过反向传播来最小化损失进而训练模型。定义模型的优化目标损失函数为:
[0089][0090]
其中n表示样本数,表示第i个样本输入神经网络后的输出,yi表示第i个样本的真实标签,θ表示神经网络中的参数集合,包括w1,w2,b1,b2,它利用梯度下降法以η为学习率进行反向传播更新的公式为:
[0091][0092]
为了保证每个输入数据维度的一致性,对于长度不够的梅尔频谱图,我们在尾部进行填白操作。
[0093]
表1和表2中展示了本发明(基于卷积神经网络的时频双域音频分类方法,英文缩写为ffann)在三个音频数据集下的分类表现情况。gtzan是音乐数据集,该数据集的音乐样本包含以下流派:古典、乡村、迪斯科、嘻哈、爵士、蓝调、雷鬼、流行、金属等。其中“古典”类别中包含:合唱团、钢琴、弦乐四重奏等类别;“爵士”类别中包含:bigband、cool、fusion、piano、quaret、swing等类别。它拥有10个类别,每个类别拥有不同的100个样本,划分数据集为600/200/200比例的训练集/验证集/测试集。数据集extendedballroom是交际舞风格的音频数据,extendballroom数据集包含13个类别共4180个样本。数据集划分为2508/836/836比例的训练集/验证集/测试集。urbansound8k是城市声音数据集,包含10个来自不同类别的城市声音,其中包含:冷气机,汽车喇叭,儿童玩耍,狗吠声,钻孔,发动机空转,射击,手持式凿岩机,警笛,街头音乐,总共包含8732个样本。
[0094]
表1是在3个训练的数据集下,比较四种不同方法性能的对比试验的结果。表2是在3个数据集下对比不同学习率参数ffann性能的。从表1中可以看出我们的方法在3个数据集上的准确率最佳。从表2中可以看到在gtzan和extendballroom两个数据集下,学习率为0.01时性能最佳,在urban sound8k数据集下学习率为0.001时性能最佳。
[0095]
表1:ffann与其他方法在3个数据集上的性能(accuracy)
[0096][0097]
表2:ffann在三个数据集下不同学习率上的性能
[0098][0099]
基于相同的发明构思,本发明实施例公开的一种基于卷积神经网络的时频双域音频分类系统,包括:预处理模块,用于将音频数据转化为梅尔频谱图;监督音模块,用于基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音特征矩阵;监督时间模块,用于基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督时间特征矩阵;时频双域注意力模块,用于将连接监督音特征和监督时间特征得到的时频双域特征矩阵,进行平均池化后得到特征向量,对特征向量通过全连接层进行激励操作,关注信道信息得到不同的信道权重向量,将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量;分类模块,用于将时频双域特征向量输入softmax分类器,输出音频数据的分类结果;以及训练模块,用于以交叉熵作为损失函数,通过反向传播最小化损失更新监督时间模块和监督时间模块中的卷积核参数以及时频双域注意力模块中全连接层网络参数得到训练好的音频分类模型。
[0100]
本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所述模块的划分仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统。
[0101]
基于相同的发明构思,本发明实施例公开的一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于卷积神经网络的时频双域音频分类方法的步骤。
[0102]
基于相同的发明构思,本发明实施例公开的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于卷积神经网络的时频双域音频分类方法的步骤。
[0103]
本领域技术人员可以理解的是,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例所述方法的全部或部分步骤。存储介质包括:u盘、移动硬盘、只读存储器rom、随机存取存储器ram、磁碟或者光盘等各种可以存储计算机程序的介质。

技术特征:


1.基于卷积神经网络的时频双域音频分类方法,其特征在于,包括如下步骤:(1)将音频数据转化为梅尔频谱图;(2)基于音频的梅尔频谱图来分别计算监督音特征矩阵和监督时间特征矩阵,构造最终的时频双域特征矩阵;包括:基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音特征矩阵;基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督时间特征矩阵;连接监督音特征和监督时间特征,得到时频双域特征矩阵;(3)将基于梅尔频谱图的时频双域特征矩阵,进行平均池化后得到特征向量,对特征向量通过全连接层进行激励操作,关注信道信息得到不同的信道权重向量,将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量;(4)最后将时频双域特征向量输入softmax分类器,输出音频数据的分类结果;以交叉熵作为损失函数,通过反向传播最小化损失更新步骤(2)中的卷积核参数和步骤(3)中全连接层网络参数得到训练好的音频分类模型。2.根据权利要求1所述的基于卷积神经网络的时频双域音频分类方法,其特征在于,步骤(2)中,监督音特征提取的方法是:分别通过不同卷积层提取梅尔频谱图的特征,不同卷积层的卷积核大小不同,每个卷积层后连接一个最大池化层;各卷积层提取特征再经过最大池化层进行压缩后,纵向堆叠组成监督音特征矩阵;监督时间特征提取的方法是:先通过最大池化层将梅尔频谱图压缩成一维时间向量,再分别通过不同卷积层提取特征后,纵向堆叠组成监督时间特征矩阵。3.根据权利要求2所述的基于卷积神经网络的时频双域音频分类方法,其特征在于,设表示第i个音频数据的梅尔频谱图,其中f为音频数据梅尔频谱图的帧数,m是梅尔滤波器的个数;提取监督音特征中,单个卷积核的操作表示为:y
i,a
=conv(x
i
,w
a
)))其中w
a
表示第a个音卷积核,a表示用于提取监督音特征的卷积核总个数,都是随机初始化并在训练过程中根据损失函数的反向传播不断自动优化,conv(x
i
,w
a
)表示对x
i
使用卷积核w
a
进行卷积操作,relu为激活函数,表示对卷积层的输出y
i,a
进行一次非线性映射,maxpooling表示最大池化操作,是监督音特征矩阵;提取监督时间特征中,单个卷积核的操作表示为:
maxpooling(x
i
)表示x
i
的每帧进行最大池化操作;表示对使用一维时间卷积核进行卷积操作;其中表示第e个时间卷积核,e表示提取监督时间特征的卷积核总个数,都是随机初始化并在训练过程中根据损失函数的反向传播不断自动优化,是监督时间特征矩阵。4.根据权利要求1所述的基于卷积神经网络的时频双域音频分类方法,其特征在于,所述时频双域特征矩阵其中是监督音特征矩阵,是监督时间特征矩阵,f为音频数据预处理后梅尔频谱图的帧数,a和e分别为用于提取监督音特征和监督时间特征的卷积核个数。5.根据权利要求4所述的基于卷积神经网络的时频双域音频分类方法,其特征在于,所述步骤(3)具体包括:首先,将时频双域特征矩阵ff
i
输入平均池化层,对行向量进行平均池化,得到压缩向量将s视为信道数;ff
i
=avepooling(ff
i
)然后,将ff
i
作为两个连续的全连接层的输入,计算出每个信道的权重:q
i
=w1ff
i
+b1ff
i

=w2q
i
+b2q
i
,ff
i

分别表示第一、二个全连接层的输出;w1,w2分别表示第一、二个全连接层的权重矩阵;b1,b2分别表示第一、二个全连接层的偏置,它们均使用随机初始化,在训练过程中会根据损失函数反向传播不断自动优化;最后,权重向量ff
i

与输入作乘法,得到输出特征向量u
i
=diag(ff
i

)
×
ff
i
u
i
=maxpooling(u
i
)diag(ff
i

)表示将向量ff
i

变成对角阵;maxpooling(u
i
)表示对u
i
进行最大池化操作。6.基于卷积神经网络的时频双域音频分类系统,其特征在于,包括:预处理模块,用于将音频数据转化为梅尔频谱图;监督音模块,用于基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音特征矩阵;监督时间模块,用于基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督时间特征矩阵;时频双域注意力模块,用于将连接监督音特征和监督时间特征得到的时频双域特征
矩阵,进行平均池化后得到特征向量,对特征向量通过全连接层进行激励操作,关注信道信息得到不同的信道权重向量,将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量;分类模块,用于将时频双域特征向量输入softmax分类器,输出音频数据的分类结果;以及训练模块,用于以交叉熵作为损失函数,通过反向传播最小化损失更新监督时间模块和监督时间模块中的卷积核参数以及时频双域注意力模块中全连接层网络参数得到训练好的音频分类模型。7.根据权利要求6所述的基于卷积神经网络的时频双域音频分类系统,其特征在于,所述监督音模块中,分别通过不同卷积层提取梅尔频谱图的特征,不同卷积层的卷积核大小不同,每个卷积层后连接一个最大池化层;各卷积层提取特征再经过最大池化层进行压缩后,纵向堆叠组成监督音特征矩阵;所述监督时间模块中,先通过最大池化层将梅尔频谱图压缩成一维时间向量,再分别通过不同卷积层提取特征后,纵向堆叠组成监督时间特征矩阵。8.根据权利要求6所述的基于卷积神经网络的时频双域音频分类系统,其特征在于,所述时频双域特征矩阵其中s=a+e,是监督音特征矩阵,是监督时间特征矩阵,f为音频数据预处理后梅尔频谱图的帧数,a和e分别为用于提取监督音特征和监督时间特征的卷积核总个数;所述时频双域注意力模块中:首先,将时频双域特征矩阵ff
i
输入平均池化层,对行向量进行平均池化,得到压缩向量记s为信道数;ff
i
=avepooling(ff
i
)然后,将ff
i
作为两个连续的全连接层的输入,计算出每个信道的权重:q
i
=w1ff
i
+b1ff
i

=w2q
i
+b2q
i
,ff
i

分别表示第一、二个全连接层的输出;w1,w2分别表示第一、二个全连接层的权重矩阵;b1,b2分别表示第一、二个全连接层的偏置,它们均使用随机初始化,在训练过程中会根据损失函数反向传播不断自动优化;最后,权重向量ff
i

与输入作乘法,得到输出特征向量u
i
=diag(ff
i

)
×
ff
i
u
i
=maxpooling(u
i
)diag(ff
i

)表示将向量ff
i

变成对角阵;maxpooling(u
i
)表示对u
i
进行最大池化操作。9.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于卷积神经网络的时频双域音频分类方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1-5任一项所述的基于卷积神经网络的时频双域音频分类方法的步骤。

技术总结


本发明公开了一种基于卷积神经网络的时频双域音频分类的方法与系统,首先对音频进行处理,得到音频的梅尔频谱图;然后基于梅尔频谱图的时间轴和频率轴计算,分别构造音特征矩阵和时间特征矩阵,连接组成时频双域特征矩阵;再将其输入时频双域注意力模块进行信道加权和最大池化,最终得到音频的时频双域特征向量并将其输入分类器,得到音频的预测标签,之后计算预测标签和真实标签之间的损失,进行反向传播最小化损失。本发明通过加入监督性息,解决了原有随机化网络因缺少监督机制导致初始化权重方法不可靠且过分依赖模型结构本身的缺陷;时频双域注意力模块也很好的解决了平均池化会导致部分信道信息丢失的问题,进一步提高了音频分类的准确性。提高了音频分类的准确性。提高了音频分类的准确性。


技术研发人员:

何萍 李泽正 徐晓华 朱磊

受保护的技术使用者:

扬州大学

技术研发日:

2022.05.23

技术公布日:

2022/8/16

本文发布于:2024-09-24 09:21:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/25557.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   特征   矩阵   向量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议