一种基于残差网络的合成语音检测方法

1.本发明涉及网络信息安全领域，具体是涉及一种基于残差网络的合成语音检测方法。

背景技术：

2.近年来随着深度学习技术和开源软件的发展，几乎任何一个人可以使用技术手段轻易的生成一段不是自己的声音，在为大众娱乐做出贡献的同时也为社会安全埋下隐患。
3.语音资源获取的便捷性与音频处理工具的滥用导致了语音邻域的安全问题，其中最常见的就是语音问题。无论欺骗语音有无目标说话人，我们将他们统称为合成语音(synthetic speech，ss)。我们将合成语音定义为：由计算机合成的语音片段，其所代表语音身份无法与现实中具体的人类身份保持一致或者不到相应的人类身份。合成语音因为其身份无法明确，为社会带来严重且深远的安全问题。因此，合成语音检测(syntheticspeech detection，ssd)变得至关重要。
4.合成语音可分为两类：voice conversion，vc和text-to-speech。前者为将一段语音转换为目标说话人语音，后者为将一段文字转化为语音。两种语音合成方法都造成了语音身份的欺骗，vc篡改了原始语音身份而tts则产生原本不存在的语音身份。
5.当前语音合成技术不断发展，已有开源技术可以实现根据5s的语音片段就合成任意内容的欺骗语音片段，并且使人不能轻易分辨其真假，与此同时，合成语音的检测算法也层出不穷。研究人员一方面试图到更好更通用的语音前端特征，另一方面也尽可能的提高后端检测准确度。并且现实情况往往又不知道合成语音的具体技术方法，因此检测算法的泛化性能也是一个关键的衡量指标。总而言之，合成语音检测还存在诸多问题，检测算法的效果也还有待进一步提高。

技术实现要素：

6.本发明针对现有技术的不足，提供一种基于残差网络的合成语音检测方法。该方法不但模型简单且易于与现有的技术集成，而且提高了算法对未知合成语音算法的泛化性能和训练的稳定性。
7.为了达到上述目的，本发明一种基于残差网络的合成语音检测方法，主要包括以下步骤：
8.第一步，对语音片段提取dct特征，dct变换公式为：
[0009][0010]
其中x(i)为裁剪为6s的一维时间序列，y(u)为计算所得dct特征，长度为1
×
96k，采样率为16k；
[0011]
第二步，将提取出来的dct特征以一维张量的形式输入到残差网络中；
[0012]
第三步，dct特征首先通过16个“1
×
7”的一维卷积，然后通过四个残差单元进一步
提取深层特征；
[0013]
第四步，将提取到的深层特征，通过两个全连接层和softmax层输出分类结果。
[0014]
作为上述方案的进一步改进，所述残差网络的网络结构一共43层。
[0015]
作为上述方案的进一步改进，所述残差网络的每个残差单元由三个“1x3”的卷积层和一个“1x1”的卷积层组成。
[0016]
根据正负样本不平衡的特点，本发明提出加权交叉熵(weightcross-entropyloss，wce)作为损失函数。公式如下：
[0017][0018]
(xi，yi)为的训练集，其中标签yi∈{0,1}，其中，z＝[z0，z1]包含正负样本输入网络计算所得的softmax概率，是训练集中标签为yi在总数中的占比。
[0019]
使用adam优化器，采用指数学习率衰减，乘法系数为0.95。选择在100个时期内的开发集上产生最低等错误率(eer)的模型进行评估。
[0020]
本方法首先对语音片段提取dct特征，dct变换经常被信号处理和图像处理使用，用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。这是由于离散余弦变换具有很强的能量集中特性，使用dct变换可进一步提取利于分辨的合成语音特征。本发明通过在原始语音波形基础上提取dct特征和堆叠残差模块，提高了合成语音检测的准确性。
[0021]
与现有技术相比，本发明的主要有一下优点：
[0022]
(1)使用单一网络和dct变换特征，模型简单且易于与现有的技术集成。
[0023]
(2)利用深度学习技术提取深层特征，提高了算法对未知合成语音算法的泛化性能。
[0024]
(3)根据检测任务中正负样本不平衡的特点，对传统的交叉熵提出改进，使用加权交叉熵作为损失函数，提高了训练的稳定性。
附图说明
[0025]
图1为残差网络的结构示意图；
[0026]
图2为残差单元的结构示意图。
具体实施方式
[0027]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0028]
本发明一种基于残差网络的合成语音检测方法，主要包括以下步骤：
[0029]
第一步，对语音片段提取dct特征，dct变换公式为：
[0030][0031]
其中x(i)为裁剪为6s的一维时间序列，y(u)为计算所得dct特征，长度为1
×
96k；
[0032]
第二步，将提取出来的dct特征以一维张量的形式输入到残差网络中；
[0033]
第三步，dct特征首先通过16个“1
×
7”的一维卷积，然后通过四个残差单元进一步提取深层特征；
[0034]
第四步，将提取到的深层特征，通过两个全连接层和softmax层输出分类结果。
[0035]
所述残差网络的网络结构一共43层。残差网络的每个残差单元由三个“1x3”的卷积层和一个“1x1”的卷积层组成。
[0036]
根据正负样本不平衡的特点，本发明提出加权交叉熵(weightcross-entropyloss，wce)作为损失函数。公式如下：
[0037][0038]
(xi，yi)为的训练集，其中标签yi∈{0,1}，其中，z＝[z0，z1]包含正负样本输入网络计算所得的softmax概率，是训练集中标签为yi在总数中的占比。
[0039]
使用adam优化器，采用指数学习率衰减，乘法系数为0.95。选择在100个时期内的开发集上产生最低等错误率(eer)的模型进行评估。
[0040]
数据预处理
[0041]
我们将合成语音定义为假语音，将原始语音定义为真语音，合成语音检测任务则等同于一个真假二值分类问题。对于训练数据而言，无论真假语音最终都表征为具有一定长度的一维时间序列x(k)。采样率为16khz。由于不同的语音数据持续时间不同，为了对齐训练数据，我们将数据统一截断或者重复到6s。
[0042]
合成语音会改变原始语音的频率，此种变化是区分合成语音及原始语音的重要依据。尽管二者在听觉上非常相似，但是合成语音的声谱分布连续性较差，且在高频区域反复出现波峰，此种变化是区分合成语音及原始语音的重要依据。造成这个现象的原因可能是合成过程中为了提高与原声的相似度，将多个声道的语音叠加所致。随后，在对语音信号进行增幅后，可以检测到原声存在微弱的背景噪音，而合成的语音未发现任何噪音痕迹。由此可见，真假语音在频域分布、背景噪音等方面存在一定差异。
[0043]
dct变换经常被信号处理和图像处理使用，用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。这是由于离散余弦变换具有很强的能量集中特性，使用dct变换可进一步提取利于分辨的合成语音特征。
[0044]
原始语音信号为x(k)，使用dct变换进一步。
[0045][0046]
另外，还要对数据进行标准化处理。标准化公式如下所示：
[0047][0048]
其中e[x]是特征均值，var[x]是特征方差。首先是均值化处理，即对于给定数据的每个特征减去该特征的均值，将数据集的数据中心化到0，这么做的目的是减小整个算法的计算量，把数据从原先的坐标系下的向量组成的矩阵，变成以0为原点建立的坐标系，其主要原理是默认时频图是一类平稳的数据分布，此时，在每个样本上减去数据的统计平均值
可以移除共同的部分，凸显个体差异。然后在0均值化的基础上再除以该数据特征的方差，即归一化处理，将数据集各个维度的幅度归一化到同样的范围内。如此一来，在网络训练过程中，就可以加快训练速度，加速权重收敛，稳定损失函数，防止网络训练过程中出现梯度消失或梯度爆炸问题，提高算法性能。
[0049]
网络结构
[0050]
为了更好的提取可分辨的合成语音的特征信息，并进行有效的分类，我们构建了一个基于深度学习的深度残差学习网络，网络结构如图1所示。
[0051]
残差网络已被广泛应用于计算机视觉识别、图像生成和语音识别等领域。深度残差学习网络即在传统的卷积神经网络中加入短链接，如图1中的曲线连接箭头，即在下一层的输入，额外加入上一层的特征映射，短链接的特征映射既不增加额外的参数，也不增加计算的复杂度。这里不增加额外的参数可以使网络更有效地训练。这样我们将每一层重新表示为学习上一层的残差函数，而不用重复学习未被训练的特征。以此形成的残差网络更易被训练和优化，从而在更深的网络中获得更好地收敛效果。
[0052]
假设原始神经网络的一个残差单元要学习的目标映射为h(x),这个目标映可能很难学习.残差神经网络让残差单元不直接学习目标映射,而是学习一个残差f(x)＝h(x)-x.这样原始的映射变成了f(x)+x.原始残差单元可以看做是由两部分构成, 一个线性的直接映射x
→
x和一个非线性映射f(x).特别地,如果x
→
x是最优的学习策略,那么相当于把非线性映射f(x)的权重参数设置为0.恒等映射使得非线性映射f(x)学习线性的 x
→
x映射变得容易很多.
[0053]
本网络结构共43层，其中，网络的时频图输入尺寸为(1*96000)，首先使用一维卷积进行降采样，然后通过残差单元，即堆叠残差 baseblock(如图2)，最后再通过全连接层进行二分类，网络结构如图1所示。
[0054]
每个残差结构块由三个1x3卷积层和一个1x1卷积层组成。网络的最后加一个全局均值池化层和两层全连接层，再经过softmax函数进行结果评价。具体的网络参数如表1所示。
[0055]
表1参数表
[0056][0057][0058]
已有相关研究表明：合成语音与真实语音相比存在着微妙的差别，这种在语音合成过程中引入差别称为“伪影”，检测合成语音可以理解为捕捉这些伪影。通常伪影存在于特定的频段中，通过设置一维卷积在dct变换后的特征中进一步提取特征。传统的神经网络的卷积核一般都是类似于3
×
3这种行列同维度的矩阵，原因是在图像识别中，一个局部组的值之间通常是高度相关的，形成了易于检测的独特的局部特征，因此图像处理中通常采用行列同维度的卷积核。而语音是一维信号，不同于二维图像的卷积操作，可以利用一维卷积具有较少的参数的优点，有利于训练而且减轻了过拟合。不同的语音合成方式会造成不同的伪影，尽可能的保留原始语音信息再借助深度学习的手段更有利于增强检测算法的泛化性能。本文的降采样只在时间维度上进行，整个过程频率维度都不进行降采样，只在最后进行均值池化。这样既减少了特征维度，同时又不会导致频率维度特征的丢失，有利于网络
得到较好的分类结果。
[0059]
训练网络
[0060]
本文的网络使用小批迭代随机梯度下降对交叉熵误差进行训练。采用监督学习方法对验证集上的超参数进行优化。表一列出了用于训练网络的一些重要的超参数。在这种结构下，提出的深度残差学习网络模型提供了相当好的识别精度。
[0061]
表2训练超参数
[0062]
学习率10-4
最小批次大小32β10.9训练次数100β20.999正则化系数10-4
[0063]
其中，β1、β2分别为adam优化器参数。
[0064]
实验设置
[0065]
本网络结构运用的实验数据来源于asvspoof。该系统记录了106位人类(45位男性和61位女性)的真实语音，没有任何修改，也没有显著的信道或背景噪音影响。利用多种语音合成 (ss)和语音转换(vc)算法对原始的真实语音数据进行修改，得到合成语音。整个数据集被划分为三个子集，第一个用于培训，第二个用于开发，第三个用于评价。每个子集中的发言者和试验的数量如表3所示。在这三个子集中没有说话人重叠。
[0066][0067]
表3训练、开发和评估集中不重叠目标说话者和话语的数量，每句话的持续时间都在一到两秒之间
[0068]
在实验中，运用了十种语音的合成方法s1-s10，训练数据和开发数据使用s1-s5，也被称为已知攻击。评估数据中的合成语音除包括s1-s5的已知攻击外还包括s6-s10的未知攻击，用于检测算法对未知攻击的泛化性能。
[0069]
在实验过程中，所有的语音段都被切成持续时间为6s的语音段，进而再选取适量的训练数据和测试数据。为了对所提出的语音识别网络进行评价，我们使用asvspoof训练集训练所提出的网络，在评估集上最终实现了eer＝3.22％的不错效果。值得肯定的是：我们所提出的网络结构简单并且具有很强的泛化能力。
[0070]
在本实验中，我们的方法相对之前的工作有一定的优势：
[0071]
(1)通过堆叠设置好的残差块，提出了结构简单的深度残差网络分类模型，该网络更易于优化，可以避免因网络层数增加而带来的精确度下降问题；
[0072]
(2)本算法具有通用性，对不同的语音合成方法都有较好的检测结果；
[0073]
(3)使用dct变换在语音原始波形上进一步提取可分辨特征，提高了分类效率；
[0074]
(4)使用一维卷积挖掘更多潜在可分辨信息。
[0075]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

技术特征：

1.一种基于残差网络的合成语音检测方法，其特征在于，主要包括以下步骤：第一步，对语音片段提取dct特征，dct变换公式为：其中x(i)为裁剪为6s的一维时间序列，y(u)为计算所得dct特征，长度为1
×
96k；第二步，将提取出来的dct特征以一维张量的形式输入到残差网络中；第三步，dct特征首先通过16个“1
×
7”的一维卷积，然后通过四个残差单元进一步提取深层特征；第四步，将提取到的深层特征，通过两个全连接层和softmax层输出分类结果一种表面镀薄膜电阻的pdms球冠吸波器的结构，包括底层导电铜板(4)和中间pet介质层(3)，其特征在于：所述底层导电铜板(4)上方设置有所述中间pet介质层(3)，所述中间pet介质层(3)上方设置有pdms球冠结构(2)，所述pdms球冠结构(2)上方镀覆有表面薄膜电阻(1)。2.根据权利要求1所述的一种基于残差网络的合成语音检测方法，其特征在于，所述残差网络的网络结构一共43层。3.根据权利要求1所述的一种基于残差网络的合成语音检测方法，其特征在于，所述残差网络的每个残差单元由三个“1x3”的卷积层和一个“1x1”的卷积层组成。

技术总结

本发明涉及一种基于残差网络的合成语音检测方法，其特征在于，包括以下步骤：一，对语音片段提取DCT特征；二，将提取出来的DCT特征以一维张量的形式输入到残差网络中；三，DCT特征首先通过16个“1

技术研发人员：

王泳陈柯张绍博冯择楷黄聪现陈浩林钟良胡丽仙杨扬陈华星蔡泽炜

受保护的技术使用者：

广东技术师范大学

技术研发日：

2022.03.23

技术公布日：

2022/9/30

本文发布于:2024-09-24 16:34:29，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/81638.html

上一篇：一种基于自适应控制策略的长连接通信连接池管理方法与流程

下一篇：一种带光学透镜的CSP灯珠结构的制作方法

标签：语音特征网络卷积

留言与评论（共有 0 条评论）