一种基于DR-Res2net模块的声纹识别方法


一种基于dr-res2net模块的声纹识别方法
技术领域
1.本发明涉及声纹识别技术领域,具体为一种基于dr-res2net模块的声纹识别方法。


背景技术:



2.随着科技信息化的快速发展,互联网给人类的生活带来了方便的同时,经常出现账号密码被盗取的现象,因此人们对身份识别的需求越来越大,身份认证逐渐成为人们共同关注的热点之一。传统的识别方法已经不能满足人们对个人信息安全的需求,生物识别逐渐成为身份认证技术的焦点,它是利用人的个性信息实现身份验证的技术,常用的生物识别方式包括:面部识别、声纹识别以及指纹识别等,相比传统的识别方法,这些生物识别技术具有防伪性能强和不易遗忘丢失等优势。其中声纹识别是属于语音识别领域的一个重要分支。
3.现有的声纹识别技术领域中,通常基于卷积神经网络来构建声纹识别模型,比如lenet、vgg、tdnn或res2net,都是常用的声纹识别模型。如图1所示,为res2net模型中res2block模块的各特征图层连接关系实施例的示意图。res2net是一种具有残差连接的卷积神经网络。在图1所示的res2block中,首先将特征在维度上进行分割,得到特征图层x1~x4,然后将特征图层x1~x4分别送入conv、bn、relu层,中间层特征需与前层处理过的特征进行add后再进行conv、bn、relu,最后一个特征图层x4不需要进行任何操作,直接作为z4与x1~x3全部处理后的特征z1~z3合成为总的特征。
4.在res2net网络中,在粒度级别表示多尺度特征,并增加了每个网络层的感受野。res2block中每层所学习的特征图也会被直接传给其后面所有层作为输入。然而由于res2net模型的泛化能力不够强,导致识别过程中丢失部分特征,引起模型识别结果中分类的等错误率较高,进而导致对其对声纹数据的识别效果不是很理想。


技术实现要素:



5.为了解决现有的基于res2net模型进行声纹识别时,等错误率较高,识别效果不理想的问题,本发明提供一种基于dr-res2net模块的声纹识别方法,其在处理声纹数据时能提供丰富、有效的特征信息,模型有较强的泛化能力,分类具有更低的等错误率,进而能够得到更理想的识别效果。
6.本发明的技术方案是这样的:一种基于dr-res2net模块的声纹识别方法,其包括以下步骤:
7.s1:构建声学模型,并对所述声学模型进行训练,得到训练好的所述声学模型;
8.s2:采集待处理声纹数据,对原始声纹信号进行预处理,输出声纹帧序列;
9.s3:对所述声纹帧序列进行时域和频域分析,提取梅尔频率倒谱系数,输出待识别特征向量序列;
10.s4:将所述待识别特征向量序列经过处理后,输入到所述训练好的声学模型中进
行分类识别,得到的识别结果即为声纹识别的分类结果;
11.其特征在于:
12.所述声学模型包括:dr-res2net模块,所述dr-res2net模块基于res2net模型构建,将res2net模型的层与层的连接基于稠密连接和残差连接的相关性连接,当前特征图层输出与前个特征图层输入以及卷积后的特征图层相关;
13.假设:在所述dr-res2net模块中将输入到模块中的特征图层分割成s份,
14.分割后得到的从第1个所述特征图层到第i个所述特征图层的输入记作[x1,x2,...,xi];
[0015]
从第1个所述特征图层到第i个所述特征图层的中间变量记作[y1,y2,...,yi];
[0016]
从第1个所述特征图层到第i个所述特征图层的输出特征记作[z1,z2,...,zi];
[0017]
其中,i≤s;
[0018]
则,中间变量yi的表达公式为:
[0019][0020]
其中:
[0021]
s和i为正整数,c为卷积;

为特征相加(addition);
[0022]
输出zi的表达公式为:
[0023][0024]
其中:
[0025]
s和i为正整数,c为卷积,为叠加(concatenation);
[0026]
输出特征[z1,z2,...,zi]合并后作为结果输出。
[0027]
其进一步特征在于:
[0028]
步骤s2中的所述预处理的操作包括:采样与量化、预加重处理、加窗;
[0029]
所述待识别特征向量序列是2维向量,第一维向量是对于对所述声纹数据的采样后的帧数,第二维向量是所述梅尔频率倒谱系数的维数;
[0030]
所述声学模型基于ecapa-tdnn为主体进行构建,包括:依次连接的输入层、se-dr-res2block、卷积层、池化层、全连接层和aam-softmax函数;
[0031]
所述待识别特征向量序列输入所述声学模型后,在所述输入层进行一层卷积操作,然后输入连续的m个se-dr-res2block中,经过连续的m个n阶的se-dr-res2block结构处理后,将处理后的结果再进行一层卷积操作,之后再经过池化层进行处理,所述待识别特征向量序列被输入全连接层进行分类处理,最后分类结果经过aam-softmax函数向量归一化处理后输出;其中m为正整数;
[0032]
所述se-dr-res2block中包括:dr-res2net模块和se-block;所述dr-res2net模块前后分别设置一个卷积层;输入se-dr-res2block的所述待识别特征向量序列经过卷积层和dr-res2net模块处理后,送入se-block进行特征处理,再对input和处理后的特征进行add操作后,进行输出。
[0033]
本发明提供的一种基于dr-res2net模块的声纹识别方法,将稠密densenet模型的
特点融入到res2net模型中,构建dr-res2net模型,在声音识别模型中,以dr-res2block为核心模块进行声纹数据的识别;识别过程中,每个dr-res2net模块中对每一个输出的特征同时进行残差和稠密连接,获取更加丰富的特征,模块中的addition处理使得每一个特征的所包含的信息量增加,同时concatennaiton处理使得特征包含高语义低分辨率和低语义高分辨率的特征,最大程度上保留了不同感受野下的特征,能够降低过拟合,进而提高识别结果的分类准确率。
附图说明
[0034]
图1为现有技术中res2net模型中res2block模块的各特征图层连接关系实施例的示意图;
[0035]
图2为本发明中为dr-res2net中各特征图层连接关系结构实施例的示意图;
[0036]
图3为se-dr-res2block的结构示意图;
[0037]
图4为本发明中声学模型的网络结构实施例的示意图。
具体实施方式
[0038]
本发明提供一种一种基于dr-res2net模块的声纹识别方法,其包括以下步骤:
[0039]
s1:构建声学模型,并对声学模型进行训练,得到训练好的声学模型。
[0040]
s2:采集待处理声纹数据,对原始声纹信号进行预处理,输出声纹帧序列;
[0041]
预处理的操作包括:采样与量化、预加重处理、加窗。
[0042]
s3:对声纹帧序列进行时域和频域分析,提取梅尔频率倒谱系数,输出待识别特征向量序列;
[0043]
本实施例中,梅尔频率倒谱系数的提取方案:80mfccs
[0044]
待识别特征向量序列是2维向量,第一维向量是对于对声纹数据的采样后的帧数,第二维向量是梅尔频率倒谱系数的维数。
[0045]
s4:将待识别特征向量序列经过处理后,输入到训练好的声学模型中进行分类识别,得到的识别结果即为声纹识别的分类结果。
[0046]
本发明技术方案中的声学模型包括:依次连接的输入层、se-dr-res2block、卷积层、池化层、全连接层和aam-softmax函数。
[0047]
本发明技术方案中,在将稠密densenet模型的特点融入到res2net模型中,构建dr-res2net模型。
[0048]
dr-res2net模块中,层与层的连接基于稠密连接和残差连接的相关性连接,当前特征图层输出与前个特征图层输入以及卷积后的特征图层相关;因此,若想建立dr-res2netblock,需将输入的特征图层进行分割,假设:在dr-res2net模块中将输入到模块中的特征图层分割成s份,
[0049]
分割后得到的从第1个特征图层到第i个特征图层的输入记作[x1,x2,...,xi];
[0050]
从第1个特征图层到第i个特征图层的中间变量记作[y1,y2,...,yi];
[0051]
从第1个特征图层到第i个特征图层的输出特征记作[z1,z2,...,zi];
[0052]
其中,i≤s;
[0053]
则,中间变量yi的表达公式为:
[0054][0055]
其中:
[0056]
s和i为正整数,c为卷积;

为特征相加(addition,以下缩写为:add);
[0057]
表示第i层的中间输出yi是上一层的中间输出y
i-1
经过卷积(convolution,以下缩写为conv)处理,再加批量标准化(batchnormalization,以下缩写为bn)处理、激活函数rectified linear unit(以下缩写relu)处理再与第i层的输入xi进行特征图相加(addition,以下缩写为add)后的结果。
[0058]
输出zi的表达公式为:
[0059][0060]
其中:
[0061]
s和i为正整数,c为卷积,为叠加表示第i层的输出zi是第i层的中间输出变量yi经过conv、bn、relu后,与中间变量yi进行add后,再与中间变量yi进行维数通道叠加(concatenation,以下缩写concat)处理,最后再进行conv、bn、relu处理后的结果;
[0062]
输出特征[z1,z2,...,zi]合并后作为结果输出。
[0063]
本发明技术方案中,将densenet的密集连接结构融入res2net中,作为核心模块,应用于声学模型中,进行声纹识别,实现模型的局部深化和扩展,不是单一的对特征进行堆叠和拼接,将通道维度上的每一层的特征映射进行连接作为下一层的输入,更加充分的利用多分辨率层的信息。
[0064]
如图2所示,每个所述dr-res2net中输入特征序列按维度进行分割成s份[x1,x2,

,xi],经过处理后的得到输出特征[z1,z2,z3,

,zi]按维度进行合并后作为结果输出。每个特征图层在其中在公式1和公式2中的卷积层处理之前,都先进行批量标准化处理和激活函数处理。
[0065]
待识别特征向量序列输入声学模型后,在输入层进行一层卷积操作,然后输入连续的m个se-dr-res2block中,经过连续的m个n阶的se-dr-res2block结构处理后,将处理后的结果再进行一层卷积操作,之后再经过池化层进行处理,待识别特征向量序列被输入全连接层进行分类处理,最后分类结果经过aam-softmax函数向量归一化处理后输出;其中m为正整数。
[0066]
音频文件特征图层识别过程中,原始res2net模型采用的是残差连接,本发明技术方案中在残差单元中插入更多带层级的残差连接结构,同时结合densenet中稠密连接的特点,根据yi、zi的表达式;如图2所示的实施例中,当s=4,即i最大取4时:
[0067]
第1层的中间输出变量为yi=xi,最终输出
[0068]
第2层的中间输出变量最终输出
[0069]
第3层的中间输出变量为最终输出
[0070]
第4层无中间变量,最终输出只与输入的特征图有关,最终输出z4=x4。
[0071]
本发明技术方案中提出的dr-res2net模型结构在训练过程中,每组特征先是通过残差连接对特征进行叠加,浅层特征可以直接传播到深层特征中,其中的恒等映射,在一定程度上解决了网络退化问题,使得信息前后传播更加顺畅。而后进行密集连接,使得后面的每一层都可以直接得到前面所有层的信息,每一层都可以直接利用梯度信息,加强了特征的传递,更有效的利用特征。每组之间特征也是相互传递,避免一些特征的丢失。
[0072]
每个se-dr-res2block中包括:dr-res2net模块和se-block;dr-res2net模块前后分别设置一个卷积层;输入se-dr-res2block的待识别特征向量序列经过卷积层和dr-res2net模块处理后,送入se-block进行特征处理,再对input和处理后的特征进行add操作后,进行输出。
[0073]
在dr-res2net后使用se-block(squeeze and excitation block),以此来降低参数总量。将所有的模块输出特征进行映射,将所有特征聚合,有效的将浅层特征保留,获取更多说话人信息。这种结构通过将更多的卷积层进行堆叠来加深网络,有效的提升性能,但这使得模型的大小和计算的复杂程度大大增加,同时卷积前的特征信息未能完全利用,只能获得有限的性能提升。
[0074]
如图3所示为se-dr-res2block各特征图层连接示意图,对输入的特征采用1x1的conv、bn、relu处理后,再通过图2的block,再进行1x1的conv、bn、relu处理,对处理后的特征进行se-block进行特征处理,再对input和处理后的特征进行add获得最终输出。
[0075]
在本发明的声学模型中,输入声学模型的特征向量序列先依次进行一层conv、bn、relu处理,然后依次输入连续的3个se-dr-res2block中,每个se-dr-res2block中卷积核的大小都是3x3,扩张率分别为2、3、4;对三个se-dr-res2block处理后的结果进行add处理,最后再通过一层conv、bn、relu处理,将最后的特征通过attentive stat pooling进行扁平化处理,处理后的特征通过一层全连接层,最后使用aam-softmax进行分类处理,分类大小根据实际需求进行取值。
[0076]
其中,激活函数为rectified linear unit(relu)函数,其计算公式为:
[0077][0078]
音频数据被输入到全连接层之前,需要进行扁平化降维处理,扁平化降维处理是在attentive stat pooling层将多维数据扁平化为一维数据;
[0079]
向量归一化处理为通过aam-softmax函数进行处理,aam-softmax函数公式为:
[0080][0081]
其中,n为训练样本的数量,实验中取值为64,θ
k,i
最后一层全连接层的权重与最后一层全连接层的输出(即学习到的说话人特征向量)之间的角度。k,i表示训练样本中第i个样本属于第k类,k的取值为1到分类数,实验中最大取值为1211(即k=1,
……
,1211),m、s为超参数,通常取值m=0.2,s=30。
[0082]
如图4所示,以ecapa-tdnn为主体结合本发明的dr-res2net模块构建的声学模型
的实施例。首先将特征通过一层卷积层,在将结果输入到连续的三个se-dr-res2block结构,最后分别将三个se-dr-res2block处理后的特征进行add后输入到一层卷积层,再经过attentive stat pooling池化层、fc全连接层,最后经过aam-softmax函数,其中全连接层的输出作为说话人向量。
[0083]
基于如图4所示的实施例,使用voxceleb1数据集进行实验,数据集为40分类,对样本标签使用pytorch的scatter_函数进行one-hot编码。根据实际的实验设备的情况,s设置为8,即输入声学模型的特征向量序列先依次进行一层卷积处理,然后将特征向量序列等分为8个,之后通过几个se-dr-res2block处理,再进行卷积、扁平化、分类。
[0084]
对音频帧序列进行时域和频域分析,提取梅尔频率倒谱系数,输出特征向量序列;对输入的音频数据的采样帧为帧长512ms、帧移为160ms,采样帧数为200,选择的梅尔频率倒谱系数的方案为:即在80个mel滤波组下,提取80维的mfcc特征;则实施步骤s2后输出特征向量序列为(200,80)。
[0085]
把特征向量(200,80)输入到到一层1x1的卷积中,之后将特征向量等分成8份(25,80),输入到连续三个se-dr-res2block模块,经过三次同样处理后,再次输入到1x1的卷积中,最后进行卷积、扁平化、分类。
[0086]
三次se-dr-res2block的特征进行add处理,处理后的特征向量序列为(1024x3,80),每次卷积后都需要进行relu函数进行激活,再使用批量标准化(batchnormalization)处理。后接统计池化层进行扁平化处理成一维数据,在经过一层全连接层,减少最后全连接层的参数,同时将这层全连接的输出作为说话人的特征向量。
[0087]
经过三个连续的se-dr-res2block层处理之后的二维数据,首先采用统计池化层将二维数据扁平化转化层一维数据,再进入第一个全连接层,全连接层的神经元的数目为192;最后进入第二个全连接层,神经元个数为40,即本次分类为40分类,最后通过归一化指数函数aam-softmax处理后,输出最终分类结果。
[0088]
在window10系统、显卡gtx2060、cpu为i7-9700、内存16g的实验环境下进行实验。以pytorch作为深度学习框架,采用声纹识别标准数据集voxceleb1,进行性能实验。实验采用等错误率(eer)和最小检测代价函数(dcf0.1、dcf0.01、dcf0.001)作为性能指标来评价性能。使用x-vector作为基线系统。
[0089]
标准数据集voxceleb1中train中有1211个项目,每个项目按照7:3的比例划分为训练集和测试集;测试集为test中wav音频文件,项目个数为40,按照voxceleb1所给文件划分注册集和验证集。
[0090]
首先基于不同的res2netblock模块在res2net-50网络上进行声纹识别的实验,以下实验用的检测系统分别为:原始res2net-50系统,将陈志高等人提出full-res2net的结构应用在res2net-50上的系统,简记为full-res2net-50,本发明技术方案的dr-res2net-50系统,以及在full-res2net上的变体full-dr-res2net-50系统。数据集选取voxceleb1,具体结果如下面表1所示:
[0091]
表1 voxceleb1测试集在不同res2net-50系统下的性能比较
[0092][0093]
如表1所示,dr-res2net-50系统相较于res2net-50系统,eer有相对5.9%的下降,full-dr-res2net-50系统相较于full-res2net-50系统,eer有相对5.4%的下降,最小检测代价函数也分别有所降低,有效证明了稠密连接和残差连接结合的有效性,其中包含本文提出的模块的系统性能最好。
[0094]
通过对ecapa-tdnn主体网络中使用不同的res2netblock,以下实验用的检测系统分别为:采用原始res2net结构应用在ecapa-tdnn系统中,表中简记为res2net,陈志高等人提出full-res2net的结构应用在ecapa-tdnn上的系统,简记为full-res2net,本发明技术方案的dr-res2net系统,以及在full-res2net上的变体full-dr-res2net系统,进行声纹识别的分类实验,具体结果如下面表2所示。
[0095]
表2 voxceleb1测试集在不同ecapa-tdnn系统下的性能比较
[0096][0097]
如表2所示,其中基于dr-res2net模块的结构,相对于原始的ecapa-tdnn系统,在参数量仅增加13%的情况下,eer有相对10%的下降。mindcf(0.1和0.01)有相对9%的下降。full-res2net以及full-dr-res2net系统的性能,加入本文所提结构,eer有相对5.5%的下降。mindcf也都有所下降。实验结果都表明了密集连接和残差连接结合的有效性,本文所提出的dr-res2net模块的结构取得最好的结果。
[0098]
表3 sitw测试集在不同ecapa-tdnn系统下的性能比较
[0099][0100]
为了验证结构的有效性,本实验在数据集sitw中的core-core测试场景中进行测试,其中采用voxceleb1的训练集进行训练,sitw的测试集进行测试,实验结果如表3所示。dr-res2net相对于原始的结构,eer有相对6.6%的下降。full-dr-res2net相对于full-res2net结构,eer有相对4.3%的下降。
[0101]
为了评估系统对不同时长声纹数据的效果,本实验采用core-core测试集下的三个子测试集,分别是小于15s的语音,大于15s小于25s的语音,以及大于25s小于40s的语音。
[0102]
表4 sitw不同时长下的eer(%)
[0103]
系统《15s15-25s25-40sx-vector7.527.216.65res2net4.564.213.43full-res2net4.754.303.52dr-res2net4.063.823.30full-dr-res2net4.124.073.42
[0104]
实验结果如表4所示,在不同的时长下,dr-res2net的性能都是最好的,同时随着时长的增长,所有系统下的eer性能都会提高,语音时长越长,包含的声纹信息也越多。在系统中采用dr-res2net的系统都相较于原始的系统性能有所提高,其中时长越短,性能提升的越明显,在所有时长中dr-res2net的性能都是最佳的。这一结果表明,本发明技术方案对不同时长也是有效的,且其对短时语音更加有效。
[0105]
综上所述,本发明提供的技术方案在处理声纹数据时能提供更丰富、更有效的特征信息,确保模型有更强的泛化能力,具有良好的等错误率和最小检测代价函数。
[0106]
本发明提供的一种基于dr-res2net模块的声纹识别方法,基于res2net结构的变体dr-res2net结构到声纹识别领域。相对于传统的res2net结构,它通过融合densenet的优势,不是单一的对特征进行堆叠和拼接,对每一层的特征进行聚合,同时保留浅层特征信息,使得不同尺度特征和不同感受野信息进行互补,对不同层的特征进行最大化利用。

技术特征:


1.一种基于dr-res2net模块的声纹识别方法,其包括以下步骤:s1:构建声学模型,并对所述声学模型进行训练,得到训练好的所述声学模型;s2:采集待处理声纹数据,对原始声纹信号进行预处理,输出声纹帧序列;s3:对所述声纹帧序列进行时域和频域分析,提取梅尔频率倒谱系数,输出待识别特征向量序列;s4:将所述待识别特征向量序列经过处理后,输入到所述训练好的声学模型中进行分类识别,得到的识别结果即为声纹识别的分类结果;其特征在于:所述声学模型包括:dr-res2net模块,所述dr-res2net模块基于res2net模型构建,将res2net模型的层与层的连接基于稠密连接和残差连接的相关性连接,当前特征图层输出与前个特征图层输入以及卷积后的特征图层相关;假设:在所述dr-res2net模块中将输入到模块中的特征图层分割成s份,分割后得到的从第1个所述特征图层到第i个所述特征图层的输入记作[x1,x2,...,x
i
];从第1个所述特征图层到第i个所述特征图层的中间变量记作[y1,y2,...,y
i
];从第1个所述特征图层到第i个所述特征图层的输出特征记作[z1,z2,...,z
i
];其中,i≤s;则,中间变量y
i
的表达公式为:其中:s和i为正整数,c为卷积;

为特征相加(addition);输出z
i
的表达公式为:其中:s和i为正整数,c为卷积,为叠加(concatenation);输出特征[z1,z2,...,z
i
]合并后作为结果输出。2.根据权利要求1所述一种基于dr-res2net模块的声纹识别方法,其特征在于:步骤s2中的所述预处理的操作包括:采样与量化、预加重处理、加窗。3.根据权利要求1所述一种基于dr-res2net模块的声纹识别方法,其特征在于:所述待识别特征向量序列是2维向量,第一维向量是对于对所述声纹数据的采样后的帧数,第二维向量是所述梅尔频率倒谱系数的维数。4.根据权利要求1所述一种基于dr-res2net模块的声纹识别方法,其特征在于:在所述声学模型中,所述dr-res2net模块前后分别设置一个卷积层后,再在尾部设置一个se-block构成se-dr-res2block;输入所述se-dr-res2block的所述待识别特征向量序列经过卷积层和dr-res2net模块处理后,送入se-block进行特征处理,再对input和处理后的特征进行add操作后,进行输
出。5.根据权利要求4所述一种基于dr-res2net模块的声纹识别方法,其特征在于:所述声学模型基于ecapa-tdnn为主体进行构建,包括:依次连接的输入层、se-dr-res2block、卷积层、池化层、全连接层和aam-softmax函数;所述待识别特征向量序列输入所述声学模型后,在所述输入层进行一层卷积操作,然后输入连续的m个se-dr-res2block中,经过连续的m个n阶的se-dr-res2block结构处理后,将处理后的结果再进行一层卷积操作,之后再经过池化层进行处理,所述待识别特征向量序列被输入全连接层进行分类处理,最后分类结果经过aam-softmax函数向量归一化处理后输出;其中m为正整数。

技术总结


本发明提供一种基于DR-Res2net模块的声纹识别方法,其在处理声纹数据时能提供丰富、有效的特征信息,模型有较强的泛化能力,分类具有更低的等错误率,进而能够得到更理想的识别效果。本发明的技术方案中,将稠密DenseNet模型的特点融入到Res2Net模型中,构建DR-Res2net模型,在声音识别模型中,以DR-Res2Block为核心模块进行声纹数据的识别;识别过程中,每个DR-Res2net模块中对每一个输出的特征同时进行残差和稠密连接,获取更加丰富的特征,模块中的addition处理使得每一个特征的所包含的信息量增加,同时concatennaiton处理使得特征包含高语义低分辨率和低语义高分辨率的特征,最大程度上保留了不同感受野下的特征。特征。特征。


技术研发人员:

曹毅 李平 马慧欣 夏宇 高清源

受保护的技术使用者:

江南大学

技术研发日:

2022.07.04

技术公布日:

2022/10/18

本文发布于:2024-09-21 12:39:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/25102.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   卷积   所述   向量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议