一种利用SE-Res2Net的合成语音检测系统

doi:10.3969/j.issn.1003-3106.2022.09.008
引用格式:梁超,高勇.一种利用SE-Res2Net 的合成语音检测系统[J].无线电工程,2022,52(9):1560-1565.[LIANG Chao,
GAO Yong.A Synthetic Speech Detection System Using SE-Res2Net[J].Radio Engineering,2022,52(9):1560-1565.]
一种利用SE-Res2Net 的合成语音检测系统
梁㊀超,高㊀勇
(四川大学电子信息学院,四川成都610065)
摘㊀要:传统的说话人识别(Automatic Speaker Verfication,ASV)系统难以分辨合成语音,构建一个说话人保护系统
刻不容缓㊂针对合成语音侵扰说话人识别系统问题,从特征层面提出了一种基于经验模式分解(Empirical Mode Decomposition,EMD)的梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC )+逆梅尔倒谱系数(Inverse Mel Frequency Cepstral Coefficients,IMFCC)的双通道语音特征作为合成语音检测的前端特征,在后端分类器上串联Res2Net 网
络和SENet 网络组合成SE-Res2Net 网络来提升模型的泛化能力㊂将不同特征与模型的打分结果融合,进一步提高实验性能㊂在ASVspoof2019数据集上的实验结果表明,该设计的合成语音检测系统能有效检测合成语音,与ASVspoof2019比赛的
基线系统相比,融合模型的等错误概率(Equal Error Rate,EER)与串联成本检测函数(tandem Detection Cost Function,t-DCF)分别降低了49%和64%㊂
关键词:合成语音检测;Res2Net;经验模式分解;SENet;等错误概率;
串联成本检测函数
中图分类号:TN912.3
文献标志码:A
开放科学(资源服务)标识码(OSID ):
文章编号:1003-3106(2022)09-1560-06
A Synthetic Speech Detection System Using SE-Res2Net
LIANG Chao,GAO Yong
(School of Electronics and Information Engineering ,Sichuan University ,Chengdu 610065,China )
Abstract :It is difficult for traditional Automatic Speaker Verfication (ASV )systems to distinguish synthetic speech,so it is
urgent to build a speaker protection system.A two-channel speech feature based on Empirical Mode Decomposition (EMD )of Mel
Frequency Cepstral Coefficients and Inverse Mel Frequency Cepstral Coefficients (MFCC +IMFCC)is proposed as the front-end feature for synthetic speech detection at the feature level,and then the Res2Net network and the Squeeze-and-Excitation Network (SENet)are
cascaded on the back-end classifier to form an SE-Res2Net network to enhance the generalization ability of the model.The scoring
results of different features and models are fused to further improve the experimental performance.The experimental results on the
ASVspoof2019dataset show that the synthetic speech detection system designed can effectively detect synthetic speech.Compared with
the baseline system of the ASVspoof2019competition,the Equal Error Rate (EER)and tandem Detection Cost Function (t-DCF)of the fused model are reduced by 49%and 64%,respectively.
Keywords :synthetic speech detection;Res2Net;EMD decomposition;SENet;EER;t-DCF
收稿日期:2022-03-10
0㊀引言
说话人识别(Automatic Speaker Verfication,
ASV)技术目前在公共服务㊁司法鉴定和货币交易等领域的应用十分广泛,但与此同时也受到合成语音的频繁攻击,特别是面对诸如重放攻击[1]㊁语音转换[2]和语音合成[3]等攻击语音时,传统的ASV 系统难以招架㊂目前常用的方法是在ASV 系统前串联一个独立的㊁互不干扰的合成语音检测系统,首先将待检测语音输入到合成语音检测系统进行安全性验证,若该语音通过合成语音检测系统,则被判为真实语音,然后再输入到ASV 系统中进行说话人匹配㊂
为了促进抗欺骗检测的研究,国际上每两年就会举办欺骗语音检测的ASVspoof 挑战赛㊂ASVspoof2015[4]重点研究了语音合成和语音转换攻击的对策㊂ASVspoof2017主要研究了重放语音攻击的对策㊂ASVspoof2019[5]是第一个同时考虑研究
3种欺骗攻击的挑战赛,评价指标除之前的等错误概率(Equal Error Rate,EER)外,还引入了最小串联
成本检测函数(tandem Detection Cost Function,t-DCF)来表征整个系统的性能㊂本文使用的数据
库是ASVspoof2019的逻辑访问数据库(Logical Access,LA)㊂
常见的合成语音检测系统可分为前端特征提取和后端分类器㊂文献[6]提出了一种新的信号分析方法  经验模式分解(Empirical Mode Decomposi-tion,EMD)法,该方法依据信号的时间尺度特征进行信号分
解,无需预先设置基函数,与传统的分析工具有着本质的区别㊂本文所用的语音特征先对信号进行EMD,然后分别计算基函数与信号的皮尔逊相关系数(Pearson Correlation Coefficient),再将皮尔逊相关系数处理后作为权值与基函数相乘叠加成新信号,达到优化的目的,接着对优化后的语音信号提取梅尔倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)以及逆梅尔倒谱系数(Inverse Mel Frequency Cepstral Coefficients,IMFCC),并拼接为双通道特征以此增加特征多样性,便于神经网络提取到更加高级的特征和进行泛化学习㊂
后端分类器主要使用了SE-Res2Net[7]网络㊂卷积神经网络(Convolution Neural Network,CNN)通过堆叠卷积块的分层方式获取多尺度特征,具有着巨大优势㊂与CNN不同,Res2Net通过将残差网络[8]中的主卷积替换成多层的残差结构连接的卷积核组以此来提取多尺度特征,具有更少的参数量, Squeeze-and-Excitation Networks(SENet)[9]注意力机制通过给每个特征通道分配权值建立起通道之间的相关性,使得模型更加关注权值较大的特征通道,同时抑制权值较小的特征通道㊂将Res2Net与SENet组合成SE-Res2Net模块,该模块可以任意地添加到现有模型之中㊂实验表明,SE-Res2Net网络适合作为合成语音检测后端分类器㊂
1㊀相关工作
文献[10]提出了常数Q倒谱系数(Constant Q Cepstral Coefficient,CQCC),CQCC是基于常数Q变换(Con
stannt Q Transform,CQT)得到的倒谱系数㊂与传统的MFCC相比,CQCC是一种时频分析方法,可以提供时间分辨率和频率分辨率,其在低频段的频率分辨率高,在高频段的时间分辨高,可以有效检测合成语言㊂线性频率倒谱系数(Linear Frequency Cepstral Coefficient,LFCC)[11]首先通过计算信号短
时傅里叶变换(Short Time Fourier Transform,STFT)的幅度谱,然后取对数并使用线性间隔的三角滤波器,最后进行倒谱变换得到,该系数由于出的性能,常作为合成语音检测的前端特征㊂
高斯混合模型(Gaussian Mixture Models, GMM)[12]由于训练速度快㊁使用广泛,被用作AS-Vspoof2019的基线系统,在合成语音检测任务中,利用GMM分别拟合真实语音和合成语音2个模型㊂ConvLSTM[13]提出的目的是为了解决降水临近预报问题,将长短期记忆(Long Short-Term Memory, LSTM)公式中的Hadamard乘法改为卷积,不仅可以像LSTM一样建立时序关系,而且也可以像卷积网络一样刻画局部特征,其在获取时空关系上比LSTM有更好的效果㊂LSTM[14]网络通过在记忆单元中引入细胞状态保存长期的记忆信息,并利用门结构自适应地保留与遗忘细胞中有用和无用的状态信息,解决了循环神经网络长期依赖的问题㊂CNN[15]作为目前主流的神经网络,在图像识别和语音识别领域有着广泛应用㊂一般,随着网络层级的加深,模型的精度会不断提升,但与此同时梯度消失或梯度爆炸的问题愈加明显,网络甚至出现了退化㊂残差网络[8]的出现使得这种问题得到了有效解决,在训练较深的网络同时,可以保持良好的性能㊂注意力机制[9]参考了人脑的信号处理机制,可以快速从全局信息中筛选出当前任务中重要的㊁关键的局部信息,深度学习中的注意力机制是通过分配权值
来实现放大关键信息和抑制低价值信息,可以任意地插入到模型中以提升实验表现㊂
ntvdm cpu遇到无效指令
2㊀实验原理
2.1㊀特征设计
特征提取流程如图1所示
㊂图1㊀基于EMD分解的MFCC+IMFCC流程
Fig.1㊀Flowchart of MFCC+IMFCC based on EMD decomposition
㊀㊀首先,对语音信号S 进行EMD 分解,得到若干个基本模式分量:
s 0,s 1, ,s n []=EMD (S )㊂
(1)
然后,计算每个基本模式分量与原语音信号的皮尔逊相关系数:
r 0,r 1, ,r n []=corrcoef [(s 0,S ),(s 1,S ), ,(s n ,S )],
(2)
式中,r 0,r 1, ,r n 分别是各模式分量与原信号的相关系数㊂计算加权系数:㊀㊀㊀R =|r 0|+|r 1|+ +|r n |,
(3)
α0,α1, ,αn []=r 0
R
,
r 1
R
, ,
r n R éëêê
ù
û
úú,(4)
式中,α0,α1, ,αn 分别是各模式分量的权值,基本模式分量加权组合成新信号Xᶄ:
Xᶄ=α0ˑs 0+α1ˑs 1+ +αn ˑs n ㊂
(5)
预处理包括预加重㊁分帧和加窗㊂预加重的目的是补偿高频分量的损失,提高高频分量㊂新信号Xᶄ经预处理后为x i (m ),下标i 表示分帧后的第i 帧,通过快速傅里叶变换将时域数据转变为频域数据:
X (i ,k )=FFT [x i (m )],(6)
式中,k 为频域中第k 条谱线㊂对每一帧FFT 后的数据计算谱线能量:
E (i ,k )=
脱毒舒
X (i ,k )
2
㊂(7)
把每帧谱线能量谱通过梅尔滤波器,并计算在Mel 滤波器中的能量:
S (i ,m )=
ðN -1
k =0
E
(i ,k )
H m (k ),0ɤm <M ,(8)
式中,H m (k )表示梅尔滤波器的频率响应㊂最后把Mel 滤波器的能量取对数后计算倒谱系数:
MFCC (i ,n )=
2M
ðM -1
m =0
先锋霉素
ln [S (i ,m )]cos πn (2m -1)2M éëêù
ûú,(9)
式中,m 为第m 个梅尔滤波器(共M 个);i 为第i 帧;n 为DCT 后的谱线㊂其中,傅里叶变换的点数为2048,梅尔滤波器与逆梅尔滤波器的滤波器个数
都为100,提取倒谱系数一阶㊁二阶差分系数共60维;最后将2种特征拼接起来构成三维特征,该特征为双通道特征作为后端分类器的输入,这样的特征相比于单个MFCC 或IMFCC 特征具有多样性,有利于神经网络提取到更高级的特征㊂2.2㊀SE-Res2Net
残差块与Res2Net 块的对比如图2所示
㊂(a )残差块
科学发现:80%的糖尿病跟“懒”有关㊀㊀
(b )Res2Net 块
图2㊀残差块与Res2Net 块的对比Fig.2㊀Residual blocks versus Res2Net blocks
图2(b)中,Res2Net 网络通过增加多个感受野的方式来提取多尺度特征㊂具体来说,通过使用更
小的滤波器组来代替图2(a)中的3ˑ3滤波器,并且这些滤波器以残差分层的结构连接,以捕获全局以及局部特征㊂主卷积块部分在通过1ˑ1卷积后,将特征沿通道方向均匀的分割成特征子集x i (i =1,
2, ,m ),其中m 是总的分割子集数,特征子集和原特征具有相同的空间大小,除了特征子集x 1,其余子集都会经过一个3ˑ3卷积;除了特征子集x 1和x 2,其余特征子集x i 都会先加上上一个经过3ˑ3卷积后的y i -1后再进行3ˑ3卷积,K i 表示第i 个卷积核,上述过程可以表述为:
y i =x i ,i =1K i (x i ),i =2
K i (x i +y i -1),2<i ɤs
ìîíïï
ï
㊂(10)将y i 拼接后通过1ˑ1卷积来融合不同尺度的
特征信息,最终得到具有不同感受野组合的特征信息㊂
在网络的参数量方面,假设输入输出特征的通道数分别是I _C 和O _C ,对于图2(a),其参数量为
3ˑ3ˑI _C ˑO _C ,即9ˑI _C ˑO _C ;对于图2(b),其参
数量为(I _C /s )ˑ(O _C /s )ˑ9ˑ(s -1),显然Res2Net 具有更少的参数量㊂2.3㊀后端分类器
将Res2Net 和SENet 组合后如图3所示,本文将该SE-Res2Net 模块堆叠组成后端分类器,后端分类器网络图如图4所示㊂
SENet 采用了特征重标定的策略,通过学习的方式自动获取每个特征通道的重要程度㊂相比于单独使用Res2Net,嵌入SENet 使网络具有更多的非线
性,可以更好地拟合特征通道间的相关性㊂目前主流的网络结构都是基于图3的方式叠加构造产生的,例如SE-BN-Inception,SE-ResNet以及本文中的
SE-Res2Net等㊂
文献[16]证实了SENet模块的确可以给网络带来性能上的增益
图3㊀SE-Res2Net模块
Fig.3㊀SE-Res2Net
Module
图4㊀后端分类器
Fig.4㊀Back-end classifier
3㊀实验与结果分析
3.1㊀模型评价指标
在合成语音检测系统中,错误接受率(False Ac-ceptance Rate,FAR)和错误拒绝率(False Rejection Rate,FRR)是2个重要的指标,其中FAR表示模型错误接受合成语音的概率,FRR表示模型错误拒绝真实语音的概率㊂EER是FAR与FRR相等时对应的错误概率,即:
EER=FAR(θ)=FRR(θ),(11)式中,θ为FAR与FRR相等时模型的阈值㊂ASVspoof2019大赛还使用了最小t-DCF衡量整个模型的性能,t-DCF的计算如下:
t-DCF(θ)=C1P cm
miss(θ)+C2P cm fa(θ),(12)式中,P cm miss(θ),P cm fa(θ)分别表示合成语音检测系统的错误拒绝率和错误接受率;θ为模型的阈值㊂ASVspoof2019使用t-DCF作为主要指标,EER为次要指标㊂除此之外,ASVspoof2019大赛还设置了参数固定的ASV系统,便于研究者专注于合成语音检测模型的设计㊂
3.2㊀基于EMD分解的双通道特征验证
实验采用的数据集是ASVspoof2019大赛的逻辑访问数据集,具体如表1所示㊂
表1㊀ASVspoof2019LA数据集
Tab.1㊀ASVspoof2019logical access dataset
数据集欺骗算法
语音数量
真实欺骗
Train A01~A06258022800
Dev.A01~A06254822296
Eval.A07~A19735563882 Train,Dev.,Eval.分别表示训练集㊁开发集和评估集㊂
前期搭建了Conv+ConvLSTM+FC(CCLSTM)和Conv+LSTM+FC(CRNN)两个小型网络结构来验证基于EMD分解的MFCC+IMFCC双通道特征的有效性,具体网络结构如图5所示
(a)CCLSTM㊀㊀
㊀(b)CRNN
图5㊀CCLSTM和CRNN两个模型
Fig.5㊀Two models:CCLSTM and CRNN 学习率为0.001,批次为32,共训练100个周期,训练完毕后分别在开发集和测试集上获得2项指标㊂实验结果如表2和表3所示㊂
表2㊀不同特征在CCLSTM模型上开发集与评估集的EER与t-DCF
Tab.2㊀EER and t-DCF for different features on the development set and evaluation set on the
CCLSTM model
CCLSTM Dev.Eval.
EER/%t-DCF EER/%t-DCF MFCC  1.210.03809.670.2029
IMFCC0.620.017011.290.3029
(EMD)MFCC  1.880.058010.400.2081
(EMD)IMFCC0.660.02178.530.2106
MFCC+IMFCC0.190.00537.130.1824 (EMD)MFCC+IMFCC0.270.00789.110.1744 (EMD)MFCC+IMFCC(P)0.070.00227.080.1533表3㊀不同特征在CRNN模型上开发集与评估集的EER与t-DCF
Tab.3㊀EER and t-DCF for different features on the development set and evaluation set on the
CRNN model
CRNN Dev.Eval.公安机关中级执法资格考试
EER/%t-DCF EER/%t-DCF MFCC  1.020.02859.720.1973
IMFCC  1.060.029710.410.2407
(EMD)MFCC  1.730.05819.360.2192
(EMD)IMFCC  1.090.03388.920.2085
MFCC+IMFCC0.150.00528.520.2191 (EMD)MFCC+IMFCC0.150.00387.320.1818 (EMD)MFCC+IMFCC(P)0.110.0029  6.590.1851使用相同的网络模型,基于EMD分解的MF-CC+IMFCC双通道特征效果相比于其他6种有一定的提升㊂与MFCC特征的结果相比,CCLSTM模型和CRNN模型在评估集上的EER指标分别降低了27%和32%,t-DCF指标分别降低了24%和6%㊂与IMFCC特征的结果相比,CCLSTM模型和CRNN模型在评估集上的EER指标分别降低了37%和37%, t-DCF指标分别降低了49%和23%㊂(EMD)MF-CC+IMFCC特征是将信号进行EMD分解后将模态分量直接叠加后产生的特征,(EMD)MFCC+IMFCC (P)和(EMD)MFCC+IMFCC相比,在2个模型的评估集上的2个指标都有一定的提升,证明了对模态分量计算皮尔逊相关系数再进行权值相加产生的特征更适合合成语音检测任务㊂可见该双通道特征是具有实用价值的㊂
3.3㊀融合实验与结果分析
倒谱处理在压缩数据量的同时,也造成了数据丢失,导致双通道特征难以继续提升㊂从实验结果来看,基于EMD的双通道特征对实验的2个指标的提升趋近于极限,要想进一步提升实验效果,进行多特征融合[17]是一个方向㊂
19世纪除了双通道特征外,本文还引入了LFCC,CQCC 和梅尔频谱(Mel Frequency Analysis,FBank)进行融合,4种特征的维度如表4所示㊂
表4㊀不同特征与维度
Tab.4㊀Different features and dimensions
特征维度
(EMD)MFCC+IMFCC2ˑ60ˑ122
LFCC60ˑ399
CQCC90ˑ469
FBank100ˑ122
使用如图4所示的后端分类器,单个模型结果如表5所示㊂可以看出,LFCC提升最大,直接验证了LFCC适合合成语音检测任务㊂与基线系统相比,LF-CC在评估集上的EER和t-DCF分别降低了41%和59%㊂基于EMD分解的双通道特征与基线系统相比,在评估集上的EER和t-DCF分别降低了29%和41%㊂接下来选择表5中的结果融合,首先归一化各个模型的打分结果再进行等均值融合,最终的融合结果与其他文献提出的Model1[8],Model2[18],Mod-el3[19]以及ASVspoof2019基线系统的CQCC++GMM 和LFCC+6MM进行对比,结果如表6所示㊂
表5㊀不同特征在SE-Res2Net上的EER与t-DCF Tab.5㊀EER and t-DCF of different features on SE-Res2Net
特征
Dev.Eval.
EER/%t-DCF EER/%t-DCF
LFCC0.710.0195  5.630.0968
CQCC0.040.00048.580.2154
FBank  1.370.03608.950.2069 (EMD)MF+IMFCC0.270.0083  6.790.1392
表6㊀融合模型的EER与t-DCF
Tab.6㊀EER and t-DCF of fused model
模型
Dev.Eval.
EER/%t-DCF EER/%t-DCF Fusion-4models0.000.0000  4.920.0855
Model10.000.0000  6.020.1569
Model20.000.0000  6.700.1550
Model30.040.0004  5.270.1120
CQCC+GMM0.430.01239.570.2366
LFCC+GMM  2.710.06338.090.2166 Model1使用MFCC,CQCC和对数短时频谱特征,后端分类器使
用了残差网络;Model2使用了CQCC,MFCC和短时傅里叶变换对数谱特征,后端分类器使用了SENet和扩张残差网络;Model3则使用了MFCC,IMFCC和LFCC特征,后端分类器使用了残差网络和GMM模型㊂相比于这3种模型,本文使用的模型效果更好㊂由表6可以看出,与表5

本文发布于:2024-09-23 02:22:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/394429.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   语音   合成   检测   模型   系统   网络   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议