基于余弦相似性和语音去噪的声纹识别对抗样本的防御方法



1.本发明涉及一种声纹识别对抗样本防御方法,本发明属于深度学习安全领域。


背景技术:



2.随着深度学习的迅速发展,深度学习已经是人工智能最常见的技术之一,在方方面面影响和改变着人们的生活,比较典型的应用包括智能家居、智能驾驶、语音识别、声纹识别等领域。但是深度学习作为一个非常复杂的软件系统,同样会面对各种黑客攻击。黑客通过深度学习系统,也可以威胁到财产安全、个人隐私、交通安全和公告安全。针对深度学习系统的攻击,通常包括以下几种。1.偷取模型,黑客通过各种先进手段,将部署在服务器中的模型文件窃取。2.数据投毒,针对深度学习的数据投毒主要是指向深度学习的训练样本中加入异常数据,导致模型在遇到某些条件时候会产生分类错误,比如后门攻击算法就是在中毒数据中添加一个后门标记,使得模型中毒。3.对抗样本,对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本,这种样本导致模型以高置信度给出一个错误的输出。简单的讲,对抗样本通过在元素数据上叠加精心构造的人类难以察觉的扰动,使深度学习模型产生分类错误。深度学习的安全,成为当今我们需要去迫切解决的问题。
3.抵御方法主要分为两大类:对抗样本防御和对抗样本检测。对抗样本防御主要目的就是使得对抗样本的分类标签恢复成正常样本的标签;对抗样本检测的主要目的是在样本集中出对抗样本,将其剔除。


技术实现要素:



4.本发明要克服现有技术的上述缺点,提供一种基于余弦相似性和语音去噪的声纹识别对抗样本防御方法。
5.本发明解决的技术问题所采用的技术方法是:数据预处理,对于我们使用的说话人语音数据进行预处理;搭建声纹识别模型;利用几种不同的对抗攻击方法结合声纹识别模型设计带有恶意信息样本的对抗样本生成器;对干净数据数据进行小波变换重构,将干净数据小波变换前后的样本在分类模型中得到的输出概率向量进行余弦相似性计算,设定一个余弦相似性阈值;将对抗样本同样进行小波变换重构,也同样计算重构前后的输出向量的余弦相似性值,将该值于余弦相似性阈值进行比较,小于阈值的为对抗样本,大于阈值的则对抗样本未检测出;训练一个语音去噪神经网络,将未检测出的对抗样本输入去噪网络进行去噪,去除对抗性扰动。
6.一种基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,含有以下步骤:
7.步骤1:对说话人语音信号进行数据预处理;
8.步骤2:搭建声纹识别模型;
9.步骤3:根据声纹模型设计对抗样本;
10.步骤4:根据干净数据和小波变换重构方法得到检测阈值;
11.步骤5:根据决策阈值来检测对抗样本;将对抗样本进行小波变换,然后得到余
弦相似性值c
′i,将对抗样本的余弦相似性值与决策阈值t进行比较,若满足c
′i<t则判定为对抗样本;
12.步骤6:去噪神经网络防御对抗样本;
13.进一步,步骤1具体包括:
14.首先对现有的语音文件(.wav格式)进行数据提取,利用librosa 音频处理python工具包对说话人语音进行语音数据提取,如下:
15.xi,sr=librosa(ti,sr=none),i=1,2,...n+m
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
16.其中xi是提取的第i个说话人语音文件的语音数据,sr是语音数据的采样率,ti是第i个说话人语音文件;
17.对语音信号数据集进行归一化处理,并将数据集d划分为训练集 d
train
与测试集d
test
,其中数据集
18.d
train
={(x1,y1),(x2,y2),...,(xn,yn)}
19.d
test
={(x
n+1
,y
n+1
),(x
n+2
,y
n+2
),...,(x
n+m
,y
n+m
)}
20.xi=(x
i1
,x
i2
,...,x
id
),d表示xi的数据长度,代表c类标签;归一化公式为:
[0021][0022]
其中表示归一化后的样本,max(xi)表示样本中d个采样点中最大值,归一化后
[0023]
进一步,步骤2具体包括:
[0024]
预先指定分类模型的结构和参数,且不发生变化;本发明采用的分类模型结构主要包含1d卷积层,最大池化层,批归一化层,全连接层。具体结构见表1利用训练数据集进行训练,声纹识别分类模型如下:
[0025]
目标模型:
[0026][0027]ftarget
(
·
)代表模型输出的概率向量;
[0028]
进一步,步骤3具体包括:
[0029]
对抗样本定义为:
[0030][0031]
其中,δi为添加到原样本上的扰动;
[0032]
这里以基于优化的对抗攻击方法为例说明对抗样本生成;基于优化的攻击方法本质是一种基于梯度的对抗样本生成方法;
[0033]
优化函数定义为:
[0034][0035][0036]
进一步,步骤4具体包括:
[0037]
根据干净数据和小波变换重构方法得到检测阈值;
[0038]
抑制扰动ei(t),得到真实信号fi(t),信号经过小波变换后,能够最大程度的去除信号fi(t)的相关性,将大部分能量集中在少数的、幅度较大的小波系数上;而扰动ei(t)经过小波变换后将分布在各个尺度下的所有时间轴上,且幅度不是很大;,可以通过阈值过滤的方法达到对语音信号降噪的目的;
[0039]
小波阈值降噪的步骤如下:
[0040]
i.对语音信号fi(t)进行小波变换;选定一个正交小波和分解层数 n,对信号fi(t)进行n层的小波分解;
[0041]
ii.对样本信号fi(t)的小波变换系数进行线性阈值处理;对第一层到n层的每一层高频系数通过阈值函数处理,每层的低频系数不做处理;阈值公式如下:
[0042][0043]
其中w为小波系数,λ为选定的阈值;
[0044]
iii.对处理后的小波系数进行重构;根据小波分解的第n层的低频系数和经过处理后的第一层到n层的高频系数进行语音信号重构,从而得到降噪后的语音信号f
ide
(t);则有:
[0045][0046]
将原始干净样本和经过小波变换后的干净样本输入声纹识别模型中得到对应的输出概率向量和然后计算两个向量间的余弦相似性值为
[0047][0048]
然后在干净样本的余弦相似性值集合c中选定一个决策阈值,如设定误检测率为b%,则决策阈值t为sort(c)中第b%的那个值 (sort(c)表示对c进行从小到大进行排序);
[0049]
进一步,步骤6具体包括:
[0050]
首先训练一个去噪神经网络,采用的去噪神经网络是dccrn, dccrn网络首先通过短时傅里叶变换,对带噪语音进行变换,得到具有实部和虚部的语音复数频谱然后定义输入复数矩阵i=ir+jii,复数卷积滤波器w=wr+jwi,其中矩阵wr和wi表示复数卷积核的实部和虚部,复数层的输出特征f
out
为:
[0051]fout
=(ir*w
r-ii*wi)+j(ir*wi+ii*wr)
ꢀꢀꢀꢀꢀꢀꢀ
(10)
[0052]
类似于复数卷积,给定复数输入xr和xi的实部和虚部,复数 lstm的输出l
out
可以被定义为:
[0053]
l
rr
=lstmr(xr);l
ii
=lstmi(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0054]
l
ri
=lstmi(xr);l
ir
=lstmr(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0055]
l
out
=(l
rr-l
ii
)+(l
ri
+l
ir
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0056]
其中lstmr和lstmi是两个常规lstm模块的实部和虚部;
[0057]
在训练网络过程中,dccrn的目的是优化一个复数掩码矩阵 m=mr+jmi,带噪的语音经过掩码矩阵后可以得到去噪后的语音
[0058]
s=m*y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0059]
其中s=sr+jsi,这是干净语音的复数频谱,y=yr+jyi是带噪语音的复数频谱;
[0060]
给定s和y,m可以被如下公式计算:
[0061][0062]
m在极坐标中表示为:
[0063][0064][0065]mphase
=arctan2(mi,mr)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0066]
以此带噪语音可以被估计为:
[0067][0068]
dccrn的损失函数为si-snr,计算公式如下:
[0069][0070][0071][0072]
其中<
·
,
·
>代表两向量间的点积,当估计语音非常接近干净语音 s时,en≈0;
[0073]
当dccrn去噪网络训练好后,将未检测出的对抗样本输入去噪网络中,得到去噪后的语音,去噪后的语音将恢复为原始正确标签。
[0074]
本发明的工作原理是:
[0075]
对所使用的语音数据集进行数据预处理:获取每一段语音的原始波形时域数据,将数据划分为训练集和测试集并进行归一化处理。
[0076]
搭建声纹识别模型步骤:预先指定声纹识别模型的结构和参数,且不再变化。适用于该识别模型的数据集也预先给定,即说话人语音样本,包含用来说话人识别的输入时域波形数据和相应的分类标签,数据集中的样本集应能被该模型以高精度预测输出。
[0077]
根据声纹识别模型设计对抗样本:选定几种常用的白盒对抗样本攻击方法。根据声纹识别模型参数对输入数据进行梯度方向的调整,使得输入样本在变化细微的情况下,使得声纹识别模型生成错误的标签。
[0078]
根据干净数据和小波变换重构方法得到检测阈值:对干净样本进行小波分解,之后进行小波重构,以实现小波变换对样本去噪的目的,将小波变换前后的干净样本输入声纹识别网络得到两个模型输出概率向量,然后计算对应向量间的余弦相似性值,在余弦相似性值中设定一个阈值,该阈值以误检测率为标准进行选取。
[0079]
根据决策阈值来检测对抗样本:将对抗样本同样进行小波变换,然后将小波变前后的样本输入声纹识别模型得到输出概率向量,得到余弦相似性值,将该值与决策阈值进行比较,小于的判定为对抗样本。
[0080]
去噪神经网络防御对抗样本:我们首先训练好一个去噪神经网络,然后将上一个
步骤中未检测出的对抗样本输入去噪网络,我们最终得到一个去噪后的样本,那么大量对抗样本将失去对抗性。以实现进一步的防御。
[0081]
本发明的对抗样本与正常样本是有区别的,对抗样本自身带有更多的噪声,在经过去噪之后,对比干净样本将变化更大,反映到模型中就是对抗样本去噪前后的模型输出概率变化较大,该变化可以用向量之间的余弦相似性值来衡量,输出向量变化小,则余弦相似性值大,反之小。利用该特点可以检测输出对抗样本。为了实现进一步防御,对检测步骤之后未检测出的对抗样本进一步去噪,将提升防御效果。本发明在加强了声纹识别模型的安全性。
[0082]
本发明的优点是:能够准确的检测出数据中的对抗样本,并可对未检测出的对抗样本做进一步的标签净化防御,有效的降低对抗样本带来的风险,加强声纹识别模型的安全性。
附图说明
[0083]
图1是本发明方法的基本流程图。
[0084]
图2是本发明的小波变换去噪流程图。
[0085]
图3是本发明的dccrn网络结构图。
具体实施方式:
[0086]
下面结合附图进一步说明本发明的技术方案。
[0087]
实施例1
[0088]
一种基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,含有以下步骤:
[0089]
(1)对说话人语音信号进行数据预处理步骤:
[0090]
首先对现有的语音文件(.wav格式)进行数据提取,我们利用 librosa音频处理python工具包对说话人语音进行语音数据提取,如下:
[0091]
xi,sr=librosa(ti,sr=none),i=1,2,...n+m
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0092]
其中xi是提取的第i个说话人语音文件的语音数据,sr是语音数据的采样率,ti是第i个说话人语音文件。
[0093]
对语音信号数据集进行归一化处理,并将数据集d划分为训练集 d
train
与测试集d
test
,其中数据集
[0094]dtrain
={(x1,y1),(x2,y2),...,(xn,yn)}
[0095]dtest
={(x
n+1
,y
n+1
),(x
n+2
,y
n+2
),...,(x
n+m
,y
n+m
)}
[0096]
xi=(x
i1
,x
i2
,...,x
id
),d表示xi的数据长度,代表c类标签。归一化公式为:
[0097][0098]
其中表示归一化后的样本,max(xi)表示样本中d个采样点中最大值,归一化后
[0099]
(2)搭建声纹识别模型的步骤:预先指定分类模型的结构和参数,且不发生变化。本发明采用的分类模型结构主要包含1d卷积层,最大池化层,批归一化层,全连接层,具体
结构见表1利用训练数据集进行训练,声纹识别分类模型如下:
[0100]
目标模型:
[0101][0102]ftarget
(
·
)代表模型输出的概率向量。
[0103]
(3)根据声纹识别分类器设计对抗样本步骤:
[0104]
对抗样本定义为:
[0105][0106]
其中,δi为添加到原样本上的扰动。
[0107]
这里以基于优化的对抗攻击方法为例说明对抗样本生成。基于优化的攻击方法本质是一种基于梯度的对抗样本生成方法。
[0108]
优化函数定义为:
[0109][0110][0111]
(4)根据小波变换在干净样本中计算余弦相似性选择决策阈值步骤:
[0112]
抑制扰动ei(t),得到真实信号fi(t),信号经过小波变换后,能够最大程度的去除信号fi(t)的相关性,将大部分能量集中在少数的、幅度较大的小波系数上。而扰动ei(t)经过小波变换后将分布在各个尺度下的所有时间轴上,且幅度不是很大。,可以通过阈值过滤的方法达到对语音信号降噪的目的。
[0113]
小波阈值降噪的步骤如下:
[0114]
i.对语音信号fi(t)进行小波变换。选定一个正交小波和分解层数 n,对信号fi(t)进行n层的小波分解。
[0115]
ii.对样本信号fi(t)的小波变换系数进行线性阈值处理。对第一层到n层的每一层高频系数通过阈值函数处理,每层的低频系数不做处理。阈值公式如下:
[0116][0117]
其中w为小波系数,λ为选定的阈值。
[0118]
iii.对处理后的小波系数进行重构。根据小波分解的第n层的低频系数和经过处理后的第一层到n层的高频系数进行语音信号重构,从而得到降噪后的语音信号f
ide
(t)。则有:
[0119][0120]
将原始干净样本和经过小波变换后的干净样本输入声纹识别模型中得到对应的输出概率向量和然后计算两个向量间的余弦相似性值为
[0121][0122]
然后在干净样本的余弦相似性值集合c中选定一个决策阈值,如设定误检测率为b%,则决策阈值t为sort(c)中第b%的那个值 (sort(c)表示对c进行从小到大进行排序)。
[0123]
(5)根据决策阈值对对抗样本进行检测步骤:将对抗样本进行小波变换,然后得到余弦相似性值c
′i,将对抗样本的余弦相似性值与决策阈值t进行比较,若满足c
′i<t则判定为对抗样本。
[0124]
(6)对未检测出的对抗样本利用去噪神经网络去噪步骤:
[0125]
首先我们要训练一个去噪神经网络,本发明采用的去噪神经网络是dccrn,dccrn网络首先通过短时傅里叶变换,对带噪语音进行变换,得到具有实部和虚部的语音复数频谱然后定义输入复数矩阵 i=ir+jii,复数卷积滤波器w=wr+jwi,其中矩阵wr和wi表示复数卷积核的实部和虚部,复数层的输出特征f
out
为:
[0126]fout
=(ir*w
r-ii*wi)+j(ir*wi+ii*wr)
ꢀꢀꢀꢀꢀꢀ
(10)
[0127]
类似于复数卷积,给定复数输入xr和xi的实部和虚部,复数 lstm的输出l
out
可以被定义为:
[0128]
l
rr
=lstmr(xr);l
ii
=lstmi(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0129]
l
ri
=lstmi(xr);l
ir
=lstmr(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0130]
l
out
=(l
rr-l
ii
)+(l
ri
+l
ir
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0131]
其中lstmr和lstmi是两个常规lstm模块的实部和虚部。
[0132]
在训练网络过程中,dccrn的目的是优化一个复数掩码矩阵 m=mr+jmi,带噪的语音经过掩码矩阵后可以得到去噪后的语音
[0133]
s=m*y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0134]
其中s=sr+jsi,这是干净语音的复数频谱,y=yr+jyi是带噪语音的复数频谱。
[0135]
给定s和y,m可以被如下公式计算:
[0136][0137]
m在极坐标中表示为:
[0138][0139][0140]mphase
=arctan2(mi,mr)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0141]
以此带噪语音可以被估计为:
[0142][0143]
dccrn的损失函数为si-snr,计算公式如下:
[0144][0145][0146][0147]
其中<
·
,
·
>代表两向量间的点积,当估计语音非常接近干净语音 s时,en≈0。
[0148]
当dccrn去噪网络训练好后,我们将未检测出的对抗样本输入去噪网络中,得到去噪后的语音,去噪后的语音将恢复为原始正确标签。
[0149]
实施案例2:实际试验中的数据
[0150]
(1)选取实验数据。
[0151]
实验所用数据集为aishell-1语音数据集,此数据集收集了不同年龄段,不同性别,不同地区说话者在安静环境下录制的语音,采样率为16000。我们选择20人的语音作为声纹识别模型的数据集,对于每一句语音我们提取的原始波形时域数据长度为60000。数据预处理保存为(bathsize,60000,1)的数组的数据集并生成对应的标签数据,处理后的数据集均保存为.npy文件。去噪网络dccrn的输入数据为生成的fgsm,bim,pgd,deepfool,cw这几类的对抗样本,输出为对应的干净样本。
[0152]
(2)参数确定。
[0153]
小波变换中阈值处理的阈值λ=0.02,用来检测对抗样本的决策阈值t=0.91955。
[0154]
(3)实验结果。
[0155]
本发明利用了5种攻击算法(fgsm,bim,pgd,deepfool,cw)生成了5种对抗样本,利用本发明提出的防御方法对5种对抗样本进行防御,利用防御成功率acc和误检测率fpr作为防御方法的防御效果,并且与其他防御(检测)方法进行了对比,实验结果如表1。
[0156]
表1防御效果
[0157][0158]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

技术特征:


1.一种基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,其特征在于,包括以下步骤:步骤1:对说话人语音信号进行数据预处理;步骤2:搭建声纹识别模型;步骤3:根据声纹模型设计对抗样本;步骤4:根据干净数据和小波变换重构方法得到检测阈值;步骤5:根据决策阈值来检测对抗样本;将对抗样本进行小波变换,然后得到余弦相似性值c

i
,将对抗样本的余弦相似性值与决策阈值t进行比较,若满足c

i
<t则判定为对抗样本;步骤6:去噪神经网络防御对抗样本。2.如权利要求1所述的基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,其特征在于,步骤1具体包括:首先对现有的语音文件(.wav格式)进行数据提取,利用librosa音频处理python工具包对说话人语音进行语音数据提取,如下:x
i
,sr=librosa(t
i
,sr=none),i=1,2,...n+m
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中x
i
是提取的第i个说话人语音文件的语音数据,sr是语音数据的采样率,t
i
是第i个说话人语音文件;对语音信号数据集进行归一化处理,并将数据集d划分为训练集d
train
与测试集d
test
,其中数据集d
train
={(x1,y1),(x2,y2),...,(x
n
,y
n
)}d
test
={(x
n+1
,y
n+1
),(x
n+2
,y
n+2
),...,(x
n+m
,y
n+m
)}x
i
=(x
i1
,x
i2
,...,x
id
),d表示x
i
的数据长度,代表c类标签;归一化公式为:其中表示归一化后的样本,max(x
i
)表示样本中d个采样点中最大值,归一化后3.如权利要求1所述的基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,其特征在于,步骤2具体包括:预先指定分类模型的结构和参数,且不发生变化;本发明采用的分类模型结构主要包含1d卷积层,最大池化层,批归一化层,全连接层。具体结构见表1利用训练数据集进行训练,声纹识别分类模型如下:目标模型:f
target
(
·
)代表模型输出的概率向量;4.如权利要求1所述的基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,其特征在于,步骤3具体包括:
对抗样本定义为:其中,δ
i
为添加到原样本上的扰动;这里以基于优化的对抗攻击方法为例说明对抗样本生成;基于优化的攻击方法本质是一种基于梯度的对抗样本生成方法;优化函数定义为:优化函数定义为:5.如权利要求1所述的基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,其特征在于,步骤4具体包括:根据干净数据和小波变换重构方法得到检测阈值;抑制扰动e
i
(t),得到真实信号f
i
(t),信号经过小波变换后,能够最大程度的去除信号f
i
(t)的相关性,将大部分能量集中在少数的、幅度较大的小波系数上;而扰动e
i
(t)经过小波变换后将分布在各个尺度下的所有时间轴上,且幅度不是很大;,可以通过阈值过滤的方法达到对语音信号降噪的目的;小波阈值降噪的步骤如下:i.对语音信号f
i
(t)进行小波变换;选定一个正交小波和分解层数n,对信号f
i
(t)进行n层的小波分解;ii.对样本信号f
i
(t)的小波变换系数进行线性阈值处理;对第一层到n层的每一层高频系数通过阈值函数处理,每层的低频系数不做处理;阈值公式如下:其中w为小波系数,λ为选定的阈值;iii.对处理后的小波系数进行重构;根据小波分解的第n层的低频系数和经过处理后的第一层到n层的高频系数进行语音信号重构,从而得到降噪后的语音信号f
ide
(t);则有:将原始干净样本和经过小波变换后的干净样本输入声纹识别模型中得到对应的输出概率向量和然后计算两个向量间的余弦相似性值为然后在干净样本的余弦相似性值集合c中选定一个决策阈值,如设定误检测率为b%,则决策阈值t为sort(c)中第b%的那个值(sort(c)表示对c进行从小到大进行排序)。6.如权利要求1所述的基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,其特征在于,步骤6具体包括:首先训练一个去噪神经网络,采用的去噪神经网络是dccrn,dccrn网络首先通过短时傅里叶变换,对带噪语音进行变换,得到具有实部和虚部的语音复数频谱然后定义输入复数矩阵i=i
r
+ji
i
,复数卷积滤波器w=w
r
+jw
i
,其中矩阵w
r
和w
i
表示复数卷积核的实部和虚
部,复数层的输出特征f
out
为:f
out
=(i
r
*w
r-i
i
*w
i
)+j(i
r
*w
i
+i
i
*w
r
)
ꢀꢀꢀꢀꢀꢀꢀ
(10)类似于复数卷积,给定复数输入x
r
和x
i
的实部和虚部,复数lstm的输出l
out
可以被定义为:l
rr
=lstm
r
(x
r
);l
ii
=lstm
i
(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)l
ri
=lstm
i
(x
r
);l
ir
=lstm
r
(x
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)l
out
=(l
rr-l
ii
)+(l
ri
+l
ir
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)其中lstm
r
和lstm
i
是两个常规lstm模块的实部和虚部;在训练网络过程中,dccrn的目的是优化一个复数掩码矩阵m=m
r
+jm
i
,带噪的语音经过掩码矩阵后可以得到去噪后的语音s=m*y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)其中s=s
r
+js
i
,这是干净语音的复数频谱,y=y
r
+jy
i
是带噪语音的复数频谱;给定s和y,m可以被如下公式计算:m在极坐标中表示为:m在极坐标中表示为:m
phase
=arctan2(m
i
,m
r
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)以此带噪语音可以被估计为:dccrn的损失函数为si-snr,计算公式如下:snr,计算公式如下:snr,计算公式如下:其中<
·
,
·
>代表两向量间的点积,当估计语音非常接近干净语音s时,e
n
≈0;当dccrn去噪网络训练好后,将未检测出的对抗样本输入去噪网络中,得到去噪后的语音,去噪后的语音将恢复为原始正确标签。

技术总结


基于余弦相似性和语音去噪的声纹识别对抗样本防御方法,首先进行数据预处理,对于说话人语音数据进行预处理;搭建声纹识别模型;利用几种不同的对抗攻击方法结合声纹识别模型设计带有恶意信息样本的对抗样本生成器;对干净数据数据进行小波变换重构,将干净数据小波变换前后的样本在分类模型中得到的输出概率向量进行余弦相似性计算,设定一个余弦相似性阈值;将对抗样本同样进行小波变换重构,也同样计算重构前后的输出向量的余弦相似性值,将该值于余弦相似性阈值进行比较,小于阈值的为对抗样本,大于阈值的则对抗样本未检测出;训练一个语音去噪神经网络,将未检测出的对抗样本输入去噪网络进行去噪,去除对抗性扰动。去除对抗性扰动。去除对抗性扰动。


技术研发人员:

徐东伟 蒋斌 房若尘 宣琦

受保护的技术使用者:

浙江工业大学

技术研发日:

2022.06.09

技术公布日:

2022/10/13

本文发布于:2024-09-25 16:38:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/26238.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   阈值   语音   余弦
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议