生成对抗网络及其图像处理应用研究进展

深度学习于2012—2013年在计算机视觉领域成为新的最优算法[1]。其最具有代表性的技术为卷积神经网络和反向传播算法,以此为基础在计算机视觉领域产生了重大的突破。图像生成算法是计算机视觉重要的研究方向之一,传统的生成算法主要有特征变换法[2]、玻尔兹曼机[3]、变分自编码器法[4-5]、近似推理马尔可夫链法[6-8]等,但是这类算法存在模型拟合简单、算法原理复杂的缺点。GAN作为在深度学习大发展背景下产生的数据
生成算法,以其独特的双网络对抗思想在众多生成算法中脱颖而出,在2016年Goodfellow等提出GAN[9]以来,相关领域的论文发表数量呈指数级增长。图1列出了在论坛统计的GAN每年的发文数量,可以看出对GAN 的研究已经成为当前热门方向之一。
GAN是一个应用性较强的算法体系,其衍生变体都围绕着高质量、多样性进行。发展历程目前经历了三
(1)探索阶段(2014—2016年)
这个阶段GAN的算法刚开始被人们所接受,借助其思想衍生出不同的GAN算法,如深度卷积式、条件式、金字塔生成式。但是生成效果普遍一般,不能部署于实际应用中,主要贡献在于为之后GAN的发展奠定了基调。
(2)发展阶段(2016—2018年)
生成对抗网络及其图像处理应用研究进展
王晋宇1,杨海涛2,李高源1,张长弓1,冯博迪1
1.航天工程大学研究生院,北京101416
2.航天工程大学航天信息学院,北京101416
摘要:生成对抗网络(GAN)是一种基于对抗思想的架构体系。作为人工智能大发展背景下诞生的前沿算法,GAN已经在图像处理的多个领域取得了显著的成果。从传统GAN的算法入手,对其模型架构、数学机理、优缺点进行剖析。总结了具有代表性的GAN变体,并对GAN在图像处理方面的前沿应用进行介绍。结合现有GAN发展依然存在的问题,对GAN的发展趋势进行了展望。
关键词:生成对抗网络;纳什均衡;结构变体;损失变体
文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2011-0322
Research Progress of Generative Adversarial Network and Its Application in Image Processing WANG Jinyu1,YANG Haitao2,LI Gaoyuan1,ZHANG Changgong1,FENG Bodi1
1.Graduate School,Space Engineering University,Beijing101416,China
2.School of Space Information,Space Engineering University,Beijing101416,China
Abstract:Generative Adversarial Network(GAN)is an architecture based on the idea of confrontation.As a cutting-
edge algorithm born under the background of the great development of artificial intelligence,GAN has made remarkable achievements in many fields of image processing.Starting with the traditional GAN algorithm,the model structure,math-ematical mechanism,advantages and disadvantages of GAN are analyzed.The representative GAN variants are summa-rized,and the frontier applications of GAN in image processing are introduced.Combined with the existing problems in the development of GAN,the development trend of GAN is prospected.
Key words:Generative Adversarial Network(GAN);Nash equilibrium;structure variant;loss variant
2014201620182020
图1GAN发文统计
为算法原理风格迥异,模型结构各不相同,但大都取得了较好的效果。针对GAN模型坍塌、梯度消失等问题进行了系统的探讨和研究。
(3)应用阶段(2018年至今)
这个阶段的GAN算法主要聚焦于图像处理、NLP、视频处理等领域,应用性较强。在总结前人所研究算法的基础上,针对不同的专题背景设计不同的GAN模型。高复杂度、大计算量是这个时期GAN算法的突出特征,样本生成的质量及多样性有了显著的提高。
1生成对抗网络GAN
1.1GAN数学原理
KL散度也称为相对熵,是信息论中重要的内容,是衡量两个分布之间差距的公式。设两个分布P、Q,则二者的相对熵为:
KL(P||Q)=∑
x∈X P()x lb P
()x
Q()x(1)
KL散度的不对称性表达为:
KL(P||Q)≠KL(Q||P)(2)一般的,对于两个完全相同的函数,KL=0。KL 越大,函数之间的差异越大。但由于KL散度具有不对称性,实现起来较为困难,因此在此基础上对式(3)取平均,可以得到JS散度公式如下:
JS(P||Q)=12[KL(P||Q)+KL(Q||P)](3)
以JS散度为例,G的目标在于最小化JS散度,D的目标在于最大化JS散度。
1.2模型架构及训练思路
最原始的GAN由Good Fellow提出,并在MNIST[10]、TFD[11]、CIFIR-10[12]等简单数据集上产生了不错的效果,作为基于对抗思想的一种生成算法,主要由生成器G和鉴别器D组成,模型架构如图2所示。
GAN的训练思路灵感来源于博弈论中的纳什均衡[13],,即对抗的双方在非合作的博弈中都希望达到自己所期望利益的最大值。如图所示,生成器可接收由隐空间Z采样而来的随机噪声z,同时输出生成图像G(z)。鉴别器可接收图像数据,同时输出图像的真假标签。GAN架构的对抗部分体现在生成器G和鉴别器D 上,G希望生成图像G(z)在D中可判定为真,而D希望将真实图像x判定为真,生成图像G(z)判定为假。GAN的目标函数如下:
min
G
max
D
V()
D,G=E x~P
data
()x
[]
lb D()x+
E z~P
Z
()z[
]
lb()
1-D()
G()z(4)
从目标函数的角度来看,式(4)中E x~P
data
()x
[]
lb D()x 表示真实数据在D中的期望,需要最大化此项。
E z~P
Z
()z[
]
lb()
1-D()
G()z表示生成数据在D中的期望,D 希望最大化此项,G希望最小化此项,这也是GAN对抗过程的体现。在实际的训练过程中通常采用先固定G 训练D,后固定D训练G的思路。
GAN的突出特征在于双网络设计,明确地提出了利用对抗训练方式可以很好地拟合真实数据分布,从而达到样本生成的目的。同时GAN也存在一些弊端,使得其训练过程产生不稳定的现象。主要体现在以下几点:(1)无法处理离散数据
GAN的优化核心在于梯度更新,而这个过程建立在函数可微的基础上,因此GAN不能很好地处理离散数据,这也使得其在NLP等领域发展缓慢。
(2)模式坍塌
模式坍塌[14]是GAN最常见的失败方式,指生成的数据只朝一个或有限个方向发展。造成的结果是输入的数据往往含有多个种类的图像,而实际的生成图像却只有一种或几种。
(3)梯度消失
在训练GAN网络的过程中,如果真实数据和生成数据分布之间的距离过近,重叠程度过多的情况下,便会造成梯度消失的问题。
1.3评价方法
对于GAN算法的评价方法主要有主观评价和客观评价两种,主观评价方法主要是基于人眼视觉而定,
若生成器可以生成人眼难以区分的样本数据,则可认为该算法具有良好的生成能力。GAN主要利用各种评分算法来进行模型生成效果的评估。最常用的客观评价方法主要有IS[15-16]、FID[17]两种,二者可以同时对图像生成质量和多样性进行评价。此外Neuroscore[18]、SWD[19]、MMD[20]等方法也可用于客观评价中。
(1)Inception Score (IS )
IS 最初应用于Imagenet [21]上。利用Imagenet 训练一个GAN 网络,将其生成的样本输入已经经过预训练的InceptionV3网络中,会返回一个判别概率值。对于同一类别样本数据来说,其输出的概率应当
趋向于集中分布,而对于不同类别来说,其输出的概率应当趋向于均匀分布。IS 分数的公式如下:
IS (G )=exp(E χ~P g D KL (P (y |χ)||P (y )))
(5)
式中,χ~P g 表示从样本空间P g 中生成图片χ,P (y |χ)表示生成图片属于某一类别的概率,P (y )表示所有类别的边缘概率分布。IS 分数实际上是在判断条件类分布与类分布之间的KL 距离,IS 越大则模型的质量越好。但IS 在判断模型是否有过拟合缺陷方面并不敏感,尤其是在大规模数据集上。同时由于IS 只在生成模型上进行预测,因此无法判断真实数据和样本间的距离。
(2)Fréchet Inception Distance (FID )
为了弥补上述IS 分数的缺陷,FID 可以反映生成样本与真实数据之间的距离,其公式如下:
FID =  μr -μg 2
+T r (Σr +Σg (Σr Σg )1
2
)
(6)
FID 分数相较于IS 具有较强的鲁棒性,其通过Incep-tionV3网络来进行特征的提取,构成了真实样本和生成样本两个概率分布。通过评价这两个分布之间的距离来达到模型评价的目的,FID 由于其优良的噪声抵抗能力,在模型多样性评价方面具有更好的效果。但是FID 的缺点在于依然没有解决大规模数据集上无法进行模型过拟合评价的问题。
IS 和FID 由于都经过了基于Imagenet 的预训练网络,因此实际上对于评价与Imagenet 相差较远的图像来说达不到预期效果。
2GAN 模型的发展变体
GAN 诞生后,针对不同的计算性能及应用需求,衍
生出多种变体模型。GAN 的发展变体大致分为基于结构和基于损失函数两类[22]。
2.1基于结构变体的GAN
基于结构变体的GAN 是生成对抗网络重要的创新
方向之一,本节分别从五个角度对其进行介绍,并重点分析了其代表算法。总结如表1所示。
2.1.1深度学习生成GAN
DCGAN [23]作为第一个将卷积神经网络思想引入GAN 中的算法,已经成为了GAN 模型的基准[24]。深度学习的任务是发现丰富的、有层次的模型[25]。而卷积神经网络(CNN )由于其良好的平移不变性,成为了深度学习代表性方法。真正意义上的CNN 由文献[26]提出,LeCun 等人[27]利用LeNet-5提出了一种基于反向梯度传播的算法。此后CNN 快速发展,并广泛应用于图像处理、自然语言处理等领域。
深度卷积生成对抗网络DCGAN 是一种将CNN 与GAN 有机结合的一种生成算法[28]。作为最大似然方法的替代方案,其特点在于生成器和鉴别器的网络结构都采用了卷积神经网络,且均没有使用池化层。
DCGAN 采用“卷积+上采样”的设计方式,G 可以进行矢量加减,其使用的BN 技巧极大地减小了初始化训练时造成的不稳定学习问题。生成器的卷积层采用ReLU [29]作为激活函数,输出层采用Tanh 作
为激活函数,鉴别器激活函数全部采用LeakyReLU 。在训练过程中对D 和G 采用了批量归一化[30]的技巧。这样便不用考虑在训练的过程中DropOut [31]、L2正则项等方法带来的参数选择问题。作为一种典型的无监督学习算法,其反向卷积神经网络(也称为转置CNN )用来生成样本,同时也可以实现CNN 特征的可视化,并表现出了良好的效果[32],DCGAN 生成器结构如图3所示[23]。2.1.2半监督生成GAN
GAN 最初应用于无监督学习领域,而Odena 提出的SGAN [33]介绍了一种基于半监督学习的模型训练方法,其结构如图4所示。半监督学习介于监督学习与无监督学习之间,只需要提供在一定范围内的小样本集标签。在此之前,Kingma 等人[34]已经对半监督生成模型进行了初步尝试,同时Springenberg [35]设计了一种基于半监督学习的GAN ,SGAN 的结构图如图4所示,在原始GAN 架构的上加入了分类器C ,在判别器中分别使用Softmax [36]和Sigmoid [37]函数,这样可以在对样本真假进行区分的同时,也能够对大量未标签的真实数据进行分类。
2.1.3条件式生成GAN
传统的GAN 中由随机噪声产生样本数据,因此存在信息生成不可控的缺陷,训练过程自由度过高。van den Oord 等人[38]指出利用类条件合成的方法可以显著
核心思想代表算法特点
缺陷
表1
结构变体GAN
提高生成样本的质量。如图5所示,CGAN [39]在传统的GAN 网络中加入了附加条件信息y ,用于控制G 和D 的训练进程。其中y 可以是类别标签,也可以是修复数据的某一部分,或来自于不同的模态数据[40]。CGAN 显著提高了模型训练的稳定性,也为后续的条件式生成对抗网络提供了参考,其目标函数及架构如下所示,其中Y 作为D 和G 的附加输入层:
min G
max D
V ()D,G =E x~P data ()x []lb D ()x |y +
E z~P Z
()z
éëùû
lb ()1-D ()G ()z |y (7)
如图5所示,此外,在条件式生成思想下,Chen 等借鉴了信息论的思想,提出了一种基于信息量最大化的生成对抗网络InfoGAN [41],试图利用信息论的知识来解释无监督学习方式中的信息表征问题。Odena 等人提出
了AC-GAN [42],并成功运用于大范围类别标签数据中。多媒体教室中控系统
2.1.4渐进式生成GAN
渐进式生成算法的核心思想在于层层递进的生成方式,不同的生成节点完成各自的生成任务。最具代表性的为Denton 等人提出的LAPGAN [43],该结构的生成器部分由一个串联的网络构成,可以将低分辨率的输入图像转换为高分辨率的生成图像。拉普拉斯金字塔[44]是一种图像编码方式,LAPGAN 的特点在于在金字塔的每一层训练一个单独的生成对抗网络模型,是一种由粗到细的图像生成框架。通过输入低分辨率的低维图像,再将图像进行层层上采样操作,最终产生高维图像。这样做的目的在于降低输入数据的复杂程度,同时又可以提高图像生成的多样性。但是由于其在生成的节点中容易引入噪声,因此会造成训练不稳定的问题。LAPGAN 有利于高分辨率的图像建模,但是对于指定任务的图像生成较为困难。其结构如图6所示。2.1.5编解码生成GAN
编解码是信息论重要的研究内容之一,即对信源符号进行信息正向压缩,对信宿内容进行反解变换的过程。在通信系统信息传输过程中,信源需要经过编码才可传入信道,同样只有经过解码,信宿才可接收到信息。由于信息在经过通信系统后会产生损耗,而编解码方法可以提高数据压缩的效率和数据传输的准确度。如李江等人利用编解码技术中的降噪自编码器原理,成功实现了人脸表情识别[45]。
Stride 2
Stride 2
Stride 2
Stride 2
100z
1024
512
4
4Project and reshape
CONV 1
CONV 2
CONV 3
CONV 4
G (z )
8
8
55
16
16
256
5532
3264
5
高保真拾音器55
5128
3
64图3
DCGAN
图5CGAN
+
++
I 0
l 0I 1
l 1
I 2
l 2
I 3
BEGAN[46]作者借鉴了EBGAN[47]中编解码的思想,在鉴别器中加入了一个自编码器。如图7所示,数据在经过编解码后,与原输入信息相比会产生大小不同的损失,称为重建损失。传统的GAN采用直接拟合真实分布的策略,及通过计算真实分布与生成分布之间的距离,来达到生成样本的目的。而BEGAN与之不同,它重点计算数据重建之后分布误差之间的距离。若二者接近的话,也可以完成训练任务。值得注意的是,BEGAN第一次将GAN的均衡点进行了证明,同时提供了一种可以平衡生成质量和多样性的超参数。
酚醛纸板
2.2基于损失变体的GAN
损失函数是GAN对抗过程的重要体现之一,决定着D和G的参数更新方向。在基于损失变体的GAN 中,分别从Wasserstein损失、统一框架f散度、最小二乘损失角度进行总结,如表2所示。
2.2.1Wasserstein距离WGAN/WGAN-GP
传统的GAN在训练过程中,如果训练样本与生成样本之间如果距离过近时,JS散度为一个常数,这时候就会产生梯度消失问题。Arjovsky等人提出了一种基于EM距离(也称推土机距离)的算法WGAN[48],彻底解决了GAN的梯度消失问题,同时也增加了训练的稳定性。与KL、JS散度相比较,EM距离由于是连续的,即使分布之间没有重叠也可以很好地计算距离。EM距离的公式如下:
W()
P,Q=inf
γ∈Π()
P,Q E()
x,y~γ[
]
x-y(8)
根据EM距离,WGAN的目标函数为:
V()
G,D=max
D∈1-Lipschitz {}
E x~P充电保暖鞋
data
[]
D()x-E x-P
G
[]
D()x(9)
WGAN存在无法直接实现1-Lipschitz约束条件的缺点,在实际应用中使用权重剪枝的方法,使得判别器更新后的值限制在(-c,c)范围内。这样可以强行使判别器的目标函数变得平滑,但是这种方法容易造成训练困难、收敛缓慢的问题。因此,文献[49]提出了WGAN-GP 算法,通过在原WGAN基础上加入惩罚项的方法,使得判别器对x的输出梯度限制在了1以内,实现了与1-Lipschitz约束条件等价的效果。
2.2.2统一框架f-GAN
f-GAN[50]提出了一种利用f散度进行GAN训练的系列方法。该文指出在衡量两个分布P、Q之间的距离时,不仅JS散度适用,任何满足条件的散度集合都可以指导模型的训练。这个散度集合统称为f散度,其公式如下:
D f(P||Q)=∫x q()x fæ
è
ç
ö
ø
÷
p()x
q()x d x(10)其中,f满足两个条件,凸函数及f(1)=0。
因此,在f散度框架下,只要能出符合散度要求的函数,便能够据此定义不同的目标函数,设计不同的GAN。f函数如表3所示。
2.2.3最小二乘LSGAN
LSGAN[51]是一种具有高质量图像生成和高稳定性训练特征的GAN算法,其突出特征在于采用了最小二乘原理。传统的GAN大多使用交叉熵、KL散度等作为损失函数,在判别器判定某种分布为1的情况下,这些样本便不会继续得到优化。这会使判定为真且远离决策边界的假样本停止更新。而在最小二乘损失下,这些样本会继续得到优化,从而有利于对假样本的排除,这是使得生成图像质量更高的原因。LSGAN的目标函数为:min
D
V LSGAN()D=12E x~p
data
()x
é
ë
ù
û
()
D()x-b2+
1
2E z~p z()z
é
ë
ù
û
()
D()
G()z-a
2
min
G
V LSGAN()G=12E z~p
z
()z
é
ë
ù
û
()
D()
G()z-C
2
(11)
散度塑料角码
Pearsonχ2
Neymanχ2
KL散度
逆KL散度
JS散度
α散度
f(u)
u-12
u-12
u
u lb u
-u lb u
-()
u+1lb1+u2u lb u
1
α()
α-1
()
μα-1-α()
μ-1
表3f散度框架函数
生成方式
WGAN
WGAN-GP
f-GAN
LSGAN
特点
解决了梯度消失问题
WGAN升级版,解决了权
重剪枝的不足,保持了训
练的稳定性
统一框架,增加了损失函
数设计能力
强的松龙注射液
增加了决策边界分类能
力,提高了图像生成质量
缺陷
权重剪枝导致训练困
难、收敛缓慢
样本生成多样性不足
对f函数适用场景未
进行定义
当D足够强大时,G依
然存在梯度弥散问题
表2损失函数变体GAN

本文发布于:2024-09-23 14:27:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/295156.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:生成   算法   进行   模型   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议