基于空洞卷积和注意力机制的深度伪造检测

现代电子技术
Modern Electronics Technique
2022年3月1日第45卷第5期
Mar.2022Vol.45No.5
0引言
伴随着深度学习的快速发展,大量开源数据集的出现,深度伪造技术的门槛越来越低,该技术也愈加成熟,
使得越来越多的“假脸”图片通过网络传播,给网络空间信息安全带来了隐患。深度伪造技术的英文是Deepfake ,是一种基于深度学习的人脸伪造技术,源于Deep Learning 和Fake 的组合[1]。早在2017年,名为
基于空洞卷积和注意力机制的深度伪造检测
张时润1,2
勃2,王伟2,董晶2
(1.湖南工业大学计算机学院,湖南株洲412007;
2.中国科学院自动化研究所智能感知与计算研究中心,北京
100190)
要:人脸深度伪造图像的生成过程是对目标人脸进行替换,由于不同图片的肤和光照等差异,在人脸周围会产
生比较分散的伪影边界,且对人脸进行裁剪之后会包含部分背景信息的干扰。针对深度伪造图像的生成特点,区别于常规的CNN 分类识别网络,设计了一种符合伪造痕迹特点的检测网络。首先,利用Resnet34卷积神经网络对待检测的图像提取初步的伪造特征;其次,经过空洞卷积提高网络模型的感受野来更好地捕获比较分散的伪造痕迹;再由空间注意力模块进行权重的重加权,减少其他背景信息的干扰;最后使用多层全连接神经网络对特征进行分类,达到对深度伪造图片进行准确分类的目的。
在Faceforensics++、Celeb⁃DF 、DFDC 三个主流数据集上进行实验,并取得比当前其他方法更好的效果。实验结果表明,所提方法结合了空洞卷积和注意力机制,应对不同人脸截取比例的伪造图像拥有更好的适应性。磁悬浮床
关键词:图像深度伪造;空洞卷积;注意力机制;深度学习;图像分类;伪造特征提取;感受野中图分类号:TN911.73⁃34;TP391.4
文献标识码:A
文章编号:1004⁃373X (2022)05⁃0042⁃07
Deepfake detection based on dilated convolution and attention mechanism
ZHANG Shirun 1,2,PENG Bo 2,WANG Wei 2,DONG Jing 2
(1.School of Computer Science ,Hunan University of Technology ,Zhuzhou 412007,China ;
2.Center for Research on Intelligent Perception and Computing ,Institute of Automation ,Chinese Academy of Sciences ,Beijing 100190,China )
Abstract :The generation process of the face deepfake image is to replace the objective face.Due to the differences in skin color and illumination in different pictures ,relatively scattered artifact boundaries will be generated around the face ,and part of the background information will be left after the face is cropped.According to the generation characteristics of deepfake images ,
a detection network that meets the characteristics of forged traces is designed ,which is different from the conventional convolutional neural network (CNN )classification and recognition network.The Resnet34CNN is used to extract the preliminary fake features of the image under detection.The dilated convolution is used to improve the receptive field of the network model to better capture the scattered fake traces.The spatial attention module is used to reweight the weight to reduce the interference of other background information.Finally ,a multi⁃layer fully⁃connected neural network is used to classify the features to achieve the purpose of accurately classifying the deepfake images.Experiments were conducted on the three mainstream data sets of Faceforensics++,Celeb⁃DF and DFDC ,and the effect was better than that of the other current methods.The experiment results show that the method combines the dilated convolution and attention mechanism ,and has better adaptability for deepfake images
with different face interception proportions.Keywords :image deepfake ;dilated convolution ;atte
ntion mechanism ;deep learning ;image classification ;fake feature
蓝牙天线extraction ;receptive field
DOI :10.16652/j.issn.1004⁃373x.2022.05.008
引用格式:张时润,彭勃,王伟,等.基于空洞卷积和注意力机制的深度伪造检测[J].现代电子技术,2022,45(5):42⁃48.
收稿日期:2021⁃07⁃29
修回日期:2021⁃08⁃16
基金项目:国家自然科学基金项目(61772529);国家自然科学基金项目(61972395);国家自然科学基金项目(61902400);北京市自然科学基金
项目(4192058)
42
l349
第5期
“deepfakes”的Reddit用户将名人的面孔用在情视频人脸,迅速传遍媒体和网络,从此大量的深度伪造视频开始涌出,之后这一技术的算法也日趋成熟,生成的伪造人脸图像也达到了难以辨别真伪的程度。如果某些不法分子通过这种技术恶意篡改国家领导人讲话,从而误导舆论来制造政治矛盾,就会对国家的稳定性造成影响。对社会而言,人脸深度伪造技术通过制造虚假新闻引起社会治安的混乱。对于个人而言,这种恶意篡改的图片和视频在互联网上进行传播,对名誉和隐私有较大的危害。深度伪造技术能轻松生成逼真的虚假图片和虚假视频,当其被恶意利用时会威胁到国家社会安全和个人隐私。所以在享受科技进步带来便利的同时,也要警惕技术的滥用带来的危害,并且加强对更可靠、更鲁棒的深度伪造检测技术的探索。
人脸深度篡改技术主要是基于生成对抗网络,生成对抗网络算法包含两部分神经网络:生成器和判别器。生成器基于一个数据库自动生成模拟该数据库中数据的样本;判别器则用来评估生成器生成数据的真伪。两者在互相博弈学习中产生大规模且高精度的输出。伪造图片产生的流程一般分为三步:先提取数据对人脸进行定位;然后通过训练数据对人脸进行转换;最后结合图片融合技术进行数据转换,实现人脸图像拼接并合成视频。
1相关工作
文献[2]提出了一种双流网络结构,用来捕获人脸伪造特征和局部噪声残差线索,其中一个流是基于Go
ogleNet[3]用作人脸分类网络结构,通过训练真假图片数据得到一个二分类器,另一个基于补丁层次捕获CFA 模式和局部残差的低层次相机特征,使得模型既能发现高层次的篡改伪造特征,又能捕获到低层次的噪声残差特征。通过融合两个流网络的检测分数,获得一个比单流更好的效果。文献[4]提出用MesoNet检测深度伪造图像。由于在被压缩的视频内容中低层图像噪声会被压缩,而人眼很难分辨出高层语义水平的伪造图像。MesoNet主要基于中层语义进行检测,使用具有少量层的深层神经网络。文献[5]通过对比人脸视频和原始视频的差异,提出利用光流场差异作为识别虚假视频和原始视频的线索。文献[6]认为一个人说话时,面部表情和头部运动会展示独特的软生物特征模式,因为深度伪造图像生成假脸的表情被控制,因此不会有这种特殊的模式,所以他们针对名人设计了专属深度伪造检测方法。文献[7]提出了一种新颖的深度伪造视频检测模型,先通过一个多任务级联模型对帧图片进行人脸检测,然后由EfficientNet[8]对所有人脸区域提取特征。最后通过人脸自动加权层(AFW)和门控循环单元(GRU)预测视频是否为深度伪造视频。文献[9]认为人脸图像被伪造都会存在一个换脸的边界,所以提出Face X⁃Ray用来确定图像是否由两个来源不同的图像拼接而成,通过一种全新的方式检测这个边界,从而可以区别人脸是否被篡改。
针对目前主流开源方法均通过CNN模型自动学习伪造特征,很少考虑到伪造特征的分布特点,故本文设计了一种更适合深度伪造检查的网络。
本文主要有三个贡献:针对人脸深度伪造图片的生成特点,提出使用空洞卷积结合注意力机制更好地
捕获伪造特征;所提出的方法在应对不同人脸裁剪比例拥有较好的适应性;通过在三个主流人脸伪造数据集上对比主流方法,证明提出方法的有效性。
2方法设计
2.1空洞卷积
卷积神经网络[10](Convolutional Neural Network,CNN)是一种包含卷积计算的深度结构前馈型神经网络,CNN的优势在于它的多层结构能自动学习特征,而且可以学到多个层次的特征。其中一维信号卷积公式如下:
y[]i=∑m=1M()
x[]
i+r*m*f[]
m(1)式中:x[i]代表第i个输入信号;y[]i代表经过i次滤波后的输出信息;f[]
m为滤波器,m代表滤波器的通道宽度;M是最大通道宽度;r为采样率,当二维信号进行卷积时,在标准的二维特征图上会产生固定间隔的空洞,从而产生增大感受野的作用。
空洞卷积[11]最早是在语义分割任务上提出的,目的是解决图像分割算法使用池化层和卷积层增加感受野,同时也缩小特征图尺寸,然后再利用上采样还原图像尺寸,但是特征图缩小再放大的过程中会造成精度上的损失,后来大量应用在目标检测。空洞卷积与普通卷积相比,除了具有相同大小的卷积核,空洞卷积会有一个扩张率的超参数,用来定义卷积核处理数据时各值之间的间距。如图1所示,图1a)对应3×3的扩张系数r=1,即标准卷积,卷积后的感受野为3×3;图1b)是扩张系数r=2的空洞卷积,空洞卷积核中的距离由1增加到2,即中间“空洞”进行补零处理,卷积之后的感受野为5×5;同理,图1c)是扩张系数为3的空洞卷积,卷积后的感受野为9×9。
增大卷积核、池化、步长都能提高感受野,但是增大
张时润,等:基于空洞卷积和注意力机制的深度伪造检测43
现代电子技术
2022年第45卷
卷积核会大大增加模型计算量,增大池化会带来信息的损失,而步长过大,虽然计算量下降,但是会丢失有用的特征。通过改变扩张率可获得更大的感受野,同时可以保证输出的特征映射(Feature Ma
p )的大小不变,以达到在不做池化操作、不损失信息的情况下扩大感受野的目的。这种方法的优势在于:一方面可以保持空间分辨率,不会产生额外的计算量,减少模型过拟合的发生;另一方面由于它可以扩大感受野,神经元的感受野越大,其能接触的原始图像范围就越大,能捕捉到更全局、语义层次更高的特征。对于图片深度伪造检测任务来说,更大的感受野意味着能更好地捕捉到比较分散的伪造
换脸痕迹。
图1标准卷积和空洞卷积的对比
2.2
注意力机制
注意力(Attention )机制最早应用在图像领域。
2014年文献[12]提出在机器翻译任务上使用Attention 机制,随后在近几年广泛应用在深度学习的各个领域。Attention 机制受到人类的视觉注意力的启发,通常人在
观察一张图片时会首先快速扫描全局图像,以获得重点关注的目标区域,然后对目标区域投入更多的注意力资源来获得更多的细节信息,从而减少干扰信息的影响。本质上就是根据事物之间的关系进行线性加权从而得到新的表示。本方法引入空间注意力机制,通过训练方式定位出图像中凸显伪造痕迹的区域,对其赋予更高的权重,从而达到加强图像空间域上的特征表示。空间注意力模块结构如图2所示。
将上一层空洞卷积之后得到的特征映射f 经过卷积层和Sigmoid 激活函数生成空间注意力权重sa ,计算公
式如下:
sa =Sigmoid ()
conv f (2)式中conv 表示卷积操作。最后加权后的特征输出为:
f l =sa ⊗f
(3)
式中“⊗”
表示元素相乘。
图2空间注意力机制
纱窗角码2.3
方法结构
人脸深度伪造图像的产生过程是对目标人脸进行
替换,由于不同图片的肤和光照等差异,在伪造图片
生成过程中会产生换脸的伪影边界,伪影边界分布在脸部的周围。其中在进行检查过程中的关键步骤
是对人脸进行截取,因此截取之后的伪造痕迹主要分布在图片的边缘,而且特征比较分散并且含有一些背景信息的干扰。
进行深度伪造检测的关键步骤是对伪造图像进行人脸定位裁剪,然后利用深度学习分类模型学到分类特征对裁剪后的图片进行分类。本文针对伪造痕迹的分布规律,提出基于空洞卷积和注意力机制的人脸深度伪造检测。首先将预处理好的数据送到经过修改后的Resnet34中,提取一个初步的伪造特征;其次利用空洞卷积增大感受野的特点捕获到比较分散的伪造痕迹;再结合注意力机制进行权重的重加权减少一些背景信息的干扰;最后使用三层全连接层进行分类,以达到对深度伪造图片进行准确分类的目的。本文提出的深度伪造图像检测模型主要包括三个部分。模型框架如图3
所示。
图3基于空洞卷积和注意力机制的深度伪造检测模型
44
第5期
1)特征提取模块。Resnet[13]网络最早是在2015年ImageNet比赛中提出的,主要思想是在网络中加入跳连接,通过跳连接将残差块的输入输出进行一个简单的叠加,使得Resnet网络有恒等映射的能力,可以使网络变得更深、更容易训练。采用Resnet34作为前端提取初步的伪造特征,在ImageNet数据集上进行图像分类预训练,同时对网络输出结构进行修改,将最后一层输出全连接层用一个5×5的二维标准卷积进行替代以便接入后续的模块。
2)特征捕捉权重再分配模块。主要由空洞卷积和注意力机制组成。从Resnet网络中提取到一个初步的伪造特征,经过一个膨胀率为5的空洞卷积,利用空洞卷积扩大卷积模型感受野,让原来3×3的卷积核在相同数量和计算量的情况下拥有更大的感受野,更好地捕获到人脸换脸边界伪影特征。结合注意力机制,将权重进行重新加权,让重要的信息更突出,减弱其他信息的干扰。
3)特征分类模块。使用三层的全卷积网络将卷积层产生的特征图(Feature Map)映射成一个固定长度的特征向量,用于对前面提取的特征做加权。最后三层全连接层的维度分别是2048,1024,512,
最后输出2维。使用三层的全连接层是为了提高网络的非线性能力,在每个全连接层之间都加入了归一化和比率为0.5的dropout,来减少网络的过拟合和参数的计算量。最后使用Sigmoid层输出模型判别分数,从而进行真假图片二分类。
3实验结果分析
3.1实验设置
实验采用的硬件设备是NVIDIA TITAN X显卡,显存为12GB,深度学习框架是PyTorch1.0.0版本,开发语言版本是Python3.7。模型在训练和测试阶段都设置了随机种子,以保证结果的稳定性。所有的模型一共训练12个epoch,使用SGD随机梯度下降作为模型优化器,模型学习率为0.01,动量设置为0.9,还引入学习率自适应调整模块,训练的最后4个epoch学习率会缩小10倍。在模型训练之前统一将图片进行预处理,将输入图片归一化到224×224大小,并且加入了图像水平翻转的数据增广方式。
3.2数据集和预处理
本文实验数据集主要针对目前三个主流的人脸深度伪造数据集Faceforensice++[14]、Celeb⁃DF[15]、DFDC[16]。Faceforensice++数据集简称为FF++,是2018年发布的一个系统性的人脸深度篡改数据集,数据集包含4种常用方法:FaceSwap[17]、Deepfake、Face2Face[18]、NeuralTextures[19]。
其中,FaceSwap和Face2Face都是通过面部重建3D模型,并对重建的3D模型进行相应的编辑,从而完成人脸。深度伪造主要是基于自动编码器模型,用原始视频的面部替换目标视频的面部操作。NeuralTextures方法主要利用人脸模型追踪和渲染对应带驱动人脸身份信息和原始表情信息的UV掩码,通过编码器解码器网络生成最终的人脸。数据集有三种不同压缩质量的视频,每种都有1000个原始视频。本文实验采用压缩率为C40的Deepfake操作视频,视频等间隔抽帧并预处理人脸图片14000张作为训练集,6000张图片作为测试集,其中训练集、测试集图像来自不同视频。
Celeb⁃DF数据集是在2019年发布的一个深度伪造数据集,数据来源是通过收集YouTube上约5639段包含不同种族和性别的DeepFake视频。本文实验随机选取13236张图片作为训练集,4400张图片作为测试集,其中训练集、测试集图像来自不同视频。
DFDC数据集是由2019年Facebook公司主办的深度伪造检测挑战赛(DFDC)构建的大规模深度伪造数据集,总共包含3426名付费演员的10万多个视频片段,通过Deepfake方法生成。本文实验随机选取了13000张图片作为训练集,3000张图片作为测试集,其中图片互不重叠。
本文实验数据预处理均采用OpenCV将视频抽帧保存为图片,之后使用dlib工具包将人脸定位进行了1.0和1.3两种比例的裁剪处理。在模型训练之前统一将图片进行预处理,将输入图片归一化到224×224大小,对数据做了水平翻转处理来扩充数据集,其中,Faceforensice++数据集处理后的图片如图4所示。3.3评判标准及模型优化
为了评价本文基于空洞卷积和注意力机制的深度伪造检测模型的性能,用准确率评估模型性能,准确率Accuracy的计算公式如下:
Accuracy=T TP+T TN
T TP+F FP+T TN+F FN(4)式中:T TP为真正例(True Positive,TP),即被正确分类成深度伪造图片的个数;T TN为真反例(True Negative,TN),即被正确分类成真实图片的个数;F FP为假正例(False Positive,FP),即被错误分类成深度伪造图片的个数;F FN为真反例(False Negative,FN),即被错误分类成真实图片的个数。
人脸深度伪造检测的本质是二分类任务,采用交叉熵损失函数对模型进行约束和优化。损失函数表达式
张时润,等:基于空洞卷积和注意力机制的深度伪造检测45
现代电子技术
2022年第45卷
如下:
L =-[]
y *log p +()1-y *log ()
1-p (5)
式中:y 代表样本的标签,真实人脸类别设置为1,伪造人脸设置为0;
p 代表真实样本预测概率;1-p 为伪造样
本预测概率。
图4人脸预处理结果图例
3.4
实验结果对比分析
检测人脸深度伪造图片的主流算法都基于卷积神
经网络,本文实验方法对比了三个在Deepfake 检测方面的主流网络,分别是Mesonet 、Inception_v3[20]、XceptionNet [21]。所有模型均在ImageNet 上先进行预训练,然后在三个数据集进行训练和测试。其中,Mesonet 网络是Afcha 等人于2018年提出的用于深度篡改检测的网络,由于基于图像主要是基于中层的语义进行检测。Inception_v3模型是由Szegedy 等人提出,用于实现ImageNet 大规模视觉识别任务的一种神经网络,主要是为了解决在处理网络更深层数和更窄神经元个数带来的过拟合、梯度消失、梯度爆炸等问题。模型通过使用分解卷积减少参数,使用BN 层避免梯度消失。在Inception_v3之后,Google 提出XceptionNet ,主要用深度可分离卷积替换Inception_v3中的卷积操作,在不增加网络复杂度的前提下提高模型的效果。
同时对比了本模型的前端网络Resnet34在三个数据集上的实验结果如表1所示。
本文实验通过在主流的三个伪造数据集上对比在
图片分类中比较热门的几个网络,其中表1使用的是截
取人脸比例为1.0的图片,图片几乎没有背景信息。
表1实验结果
%
方法Mesonet
Inception_v3XceptionNet Resnet34
本文方法
Faceforensic++
78.3492.3995.6691.1799.08
恒温扩增仪DFDC 79.3894.8797.1594.3797.24
Celeb⁃DF 90.3295.6795.3890.8997.89
通过表1中的实验结果对比发现,融合空洞卷积和注意力机制在深度伪造检测方面要比主流分类模型更有优势。因为引入空洞卷积能扩大卷积核感受野,网络更容易学习到脸部比较分散的伪造痕迹特征,再融合注意力机制网络,提取关键信息的能力更强,避免了其他信息的干扰。
本文针对空洞卷积扩大感受野和注意力机制提取关键信息的特点,在Faceforensic++数据集中使用人脸裁剪比例为1.0和1.3的图片数据进行消融实验,来验证这两部分功能。其中:裁剪比例为1.0的数据只包含人脸区域,图片中包含的背景信息干扰更少,伪造痕迹相对更分散;而裁剪比例为1.3的数据会包含更多的背景信息的干扰,伪造痕迹相对集中。
数据集效果如图4所示。图4a )为裁剪比例1.0的虚假人脸,图4b )为裁剪比例1.0的真实人脸,图4c )为裁剪比例1.3的虚假人脸,图4d )为裁剪比例1.3的真实人脸。
人脸裁剪比例为1.0的实验结果如表2所示。在用普通的卷积替代空洞卷积时,实验的分类效果为93.3%,因为人脸裁剪比例为1.0的图片仅包含人脸信息,伪造图像的篡改痕迹比较分散,更大的感受野更容易捕获到伪造的图像换脸边界。当消融注意力机制时模型的分类效果为97.2%,因为图片中包含很少的背景信息,图片受背景信息的干扰较少,所以此时空洞卷积对模型的影响会更大。
表2Faceforensic++裁剪系数为1.0消融实验结果
%
All
99.08
Non⁃Dilated 93.30
Non⁃Attention
97.20
人脸裁剪比例为1.3的实验结果如表3所示。在消融掉空洞卷积时,模型的分类效果为97.69%,因为人脸裁剪比例为1.3的图片中包含了很多背景信息的干扰,伪造图像的篡改痕迹分布相对更集中。注意力机制提取关键信息的特点能减少其他干扰信息的影响,更能帮
46切筋

本文发布于:2024-09-24 03:19:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/144577.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:伪造   深度   卷积   人脸   进行   图片
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议