CVAE-GAN论文学习-1

CVAE-GAN论⽂学习-1
CVAE-GAN: Fine-Grained Image Generation through Asymmetric Training
摘要
我们提出了⼀个变分⽣成对抗⽹络,⼀个包含了与⽣成对抗⽹络结合的变分⼦编码器,⽤于合成细粒度类别的图像,⽐如具体某个⼈的脸或者某个类别的⽬标。我们的⽅法构建⼀张图⽚作为概率模型中的⼀个标签成分和潜在属性。通过调整输⼊结果⽣成模型的细粒度类别标签,我们能够通过随机绘制潜在属性向量中的值来⽣成指定类别的图像。我们⽅法的创新点在于两个⽅⾯:
抗石击涂料⾸先是我们提出了在判别器和分类器⽹络中使⽤交叉熵损失,对于⽣成器⽹络则使⽤平均差异⽬标函数。这种不对称损失函数能够使得训练出来的GAN⽹络更稳定。
其次是我们使⽤了encoder⽹络去学习潜在空间和真实图⽚空间中的关系,并使⽤成对的特性去保持⽣成图像的结构。
我们使⽤⼈脸、花和鸟的⾃然图⽚来训练,并说明了提出的模型有能⼒去⽣成有着细粒度类别标签的真实且不同的样本。我们进⼀步将展⽰我们的模型应⽤于其他任务的效果,如图像修复、⾼分辨率以及⽤于训练更好的⼈脸识别模型的数据增强。
1. Introduction
构建⾃然图像的有效的⽣成模型是计算机视觉中的主要问题。它⽬标是根据潜在的⾃然图像分布来调整⼀些潜在向量来⽣成不同的真实图⽚。因此,期望的⽣成模型是能够捕获钱在的数据分布。这可以说是⼀个很难的任务,因为图像样本的收集可能会依赖于⼗分复杂的manifold。然⽽⽬前深度卷积⽹路的进步丰富了深度⽣成模型系列[14, 12, 8, 31, 29, 34, 15, 4, 33, 6] ,造成了很⼤的进步,主要是因为深度⽹络在学习表征上的能⼒的进步。
通过享⽤⽬前研究的成功果实,我们对⽣成细粒度⽬标类别的图像有了更进⼀步的兴趣。⽐如,我们想要为某个⼈合成图像,或者为花或鸟的某具体物种⽣成⼀张新的图⽚等,如图1所⽰:
受CVAE和VAE/GAN的启发,我们提出了⼀种⽣成学习框架,⼀个包含了与⽣成对抗⽹络结合的变分⼦编码器,在条件⽣成过程中来处理这个问题
但是我们发现这种简单的连接并不⾜以在实际中使⽤,VAE的结果通常过于模糊。判别器能简单地将它们分类为“fake”。即使对于⼀张⼈脸图像来说它们有时看起来还不错
梯度消失问题仍然存在,所以⽣成的图像与仅使⽤VAE的结果是很相似的。在该论⽂中,我们为⽣成器提出了⼀个新的⽬标函数。替代在判别器⽹络中使⽤相同的交叉熵损失,新的⽬标函数需要⽣成器能够缩⼩⽣成图像和真实图像之间的L2距离。对于多类图像的⽣成,⼀种类别的⽣成样本也需要匹配该类别的真实图像的平均特性。由于特征距离与可分性呈正相关。它解决了在某个范围中梯度消失的问题。除此之外,这种类别的不对称损失函数能部分帮助阻⽌出现⼀些崩溃问题,如所有的输出都移到某⼀个点,其让GAN⽹络更加稳定。
异形耐火砖
虽然使⽤平均特性匹配将减少模型崩溃的机会,但它没有完全解决这个问题。⼀旦模型崩溃发⽣了,梯度下降将不能分离相同的输出。为了保证⽣成样例的多样性,我们利⽤了VAE和GAN的结合。我们使⽤encoder⽹络去映射真实图像到⼀个潜在向量,然后⽣成器被⽤于重构原始像素,将原始图像的特性与给定的潜在向量相匹配。在这种⽅法中,我们明显地建⽴了潜在空间和真实图像空间之间的关系。因为这些anchor点的存在,⽣成器被强迫呈现出不同的样本。⽽且,像素重构损失函数也能帮助保持结构,如图⽚中的直线和⼈脸结构。
如图2(g)所⽰,我们的框架包含了4部分:
encoder⽹络E,⽤来映射数据样本x到潜在表征z
⽣成器⽹络G,根据潜在向量⽣成图像x'
判别器⽹络D,区分真/假图像
分类器⽹络,测量数据的类别概率
将我们的⽹络命名为CVAE-GAN。这4个部分⽆缝地级联在⼀起,整个⽹络进⾏端到端地训练
⼀旦我们的CVAE-GAN被训练,其就能够被使⽤在不同的应⽤中,如图像⽣成、图像修复和属性变形(morphing)。我们的⽅法建⽴了⼀个输⼊图像的好的表征,因此⽣成的图像变得更真实。我们展⽰了其是优于CVAE和CGAN以及其他最好的⽅法。与GAN相对⽐,提出的框架训练更容易,收敛更快⼀个在训练阶段中更稳定。在该实验中,我们进⼀步展⽰了我们模型的图像合成能够应⽤在其他任务中,如⽤于训练更好的⼈脸识别模型的数据增强。
2. Related work
水管堵头
传统智慧和⽣成模型的早期研究,包括Principle Component Analysis (PCA) [40], Independent Component Analysis (ICA) [10], Gaussian Mixture Model (GMM) [46, 27, 37],都假设数据的简单构造。他们很难对不规则分布的复杂模式进⾏建模。之后的⼯作有Hidden Markov Model (HMM) [35], Markov Ran- dom Field (MRF) [19], restricted Boltzmann machines (RBMs) [9, 32], discriminatively trained generative mod- els [39],在纹理patches、数字和更好地对齐⼈脸上对其结果也有所限制,因为其缺少有效的特征表⽰
最近深度⽣成模型的发展,[14, 12, 8, 31, 29, 15, 4, 33, 6]引起了很多研究者的注意。当深度层次结构允许它们捕获数据复杂的结构时,所有的这些⽅法都展⽰了在⽣成⾃然图像上的优秀成果,其⽐传统
桥梁钢模⽣成模型更加地真实。这些模型主要有三⼤主题:
变分⼦编码器(VAE)[12,31]
⽣成对抗⽹络(GAN)[8,29,33]
⼦回归器[14]
VAE[12,31]将decoder/⽣成器⽹络和encoder配对。VAE的⼀个缺点是,由于注⼊噪声和不完善的元素度量,如平⽅误差,⽣成的样本往往是模糊的。
⽣成对抗⽹络(GAN)[8,29,33]是另⼀个流⾏的⽣成模型。其同时训练两个模型,⼀个⽣成模型去合成样本,⼀个判别模型去区分⾃然和⽣成样本。但是GAN模型在训练过程中很难收敛,从GAN中⽣成的样本往往和真实图相差很⼤。最近,很多⼯作尝试去改进⽣成样本的质量。⽐如Wasserstein GAN (WGAN) [2] 使⽤Earth Mover距离作为训练GANs的⽬标函数,以及McGAN[20]使⽤平均和协⽅差特征匹配。但是它们需要限制判别器参数的范围,这将降低判别器的能⼒。Loss-Sensitive GAN [28] 学习能够提⾼⽣成样本质量的损失函数,然后使⽤该损失函数来⽣成⾼质量的图像。也有⽅法尝试结合VAE和GAN,如VAE/GAN[15]和对抗⾃编码器[17]。它们与我们的⼯作密切相关,并在⼀定程度上启发了我们的⼯作。
VAEs和GANs能被训练来构造条件⽣成器,如CVAE[34]和CGAN[18]。通过介绍额外的条件,他能够解决概率⼀对多的映射问题。最近有很多有趣的基于CVAE和CGAN的研究,包括条件⼈脸⽣成[7]、属性-图像[47]和⽂字-图像⽣成[30]、静态图像预测[42]和条件图像⽣成[25]。都得到了很好的结果
⽣成ConvNet[44]证明了由常⽤的判别ConvNet可导出⼀个⽣成模型。Dosovitskiy et al. [5] 和Nguyen et al. [22] 介绍了从训练的分类模型中抽取的特征⽣成⾼质量图像的⽅法。PPGN[23]通过使⽤梯度上升法和超前于⽣成器的潜在空间能⽣成优质的样本。
⾃回归[14]⽅法则提出了不⼀样的想法。它使⽤⾃回归连接对图像逐像素建模。它的两个变体PixelRNN[41]和PixelCNN[26]也产⽣了很好的样本。
我们的模型与这些模型都不同。如上⾯图2所⽰,我们将所提出的CVAE-GAN结构与所有这些模型进⾏了⽐较。除了结构上的差异,更重要的是,我们利⽤了统计和两两匹配的优点,使训练过程收敛得更快、更稳定。
3. Our formulation: the CVAE-GAN
在该部分,我们将介绍CVAE-GAN⽹络。如图3所⽰,我们提出的⽅法包含四部分:
encoder⽹络E
枸杞果糕
⽣成⽹络G
判别⽹络D
分类⽹络C
⽹络E和G的函数与条件变分⾃编码器(CVAE[34])相同。encoder⽹络E通过⼀个可学习分布P(z|x, c)映射数据样本x为⼀个潜在表征x,c表⽰数据的类别。⽣成⽹络G通过从可学习分布P(x|z, c)中采样⽣成图像x'。G和D的函数则和⽣成对抗⽹络(GAN[8])相同。⽹络G尝试通过来⾃能够区分真/假图的判别器⽹络D的梯度来学习真实数据的分布。C⽹络的函数则是去测量P(c|x)的后验
可是简单的VAE和GAN的结合是不够的。最近的研究[1]表明了如果采⽤了原始的KL散度损失,训练GAN时将会出现⽹络G的梯度消失问题。因为,我们今保持⽹络E、D和C的训练过程与原始的VAE和GAN相同,然后提出⼀个新的平均特征匹配⽬标函数给⽣成⽹络G,⽤来改善原始GAN⽹络的稳定性
即使使⽤了平均特征匹配⽬标函数,这⾥仍然存在可能导致模型崩溃的发⽣。所以我们使⽤encoder⽹络E和⽣成⽹络G去获得⼀个从真实样本x到合成样本x'的映射,通过使⽤基于像素的L2损失和基于对的特征匹配,⽣成器模型将会强迫呈现出不同的样本并⽣成结构保留的样本
在下⾯的部分中,我们⾸先描述基于GAN的平均特征匹配⽅法(3.1部分)。然后展⽰平均特征匹配能够被使⽤在条件图像⽣成任务中(3.2部分)。接着是介绍通过⼀个添加的encoder⽹络实现的基于对的特征匹配(3.3部分)。最后分析提出⽅法的⽬标函数,并提供训练管道的实现细节(3.4部分)
3.1. Mean feature matching based GAN
在传统GANs中,⽣成器G和⼀个判别器D⼀个最⼩最⼤游戏中竞争。判别器尝试去从合成图像中区分真的训练数据,⽣成器则尝试去骗过判别器。具体来说就是⽹络D尝试去最⼩化下⾯的损失函数:
⽽⽹络G则尝试去最⼩化:
可是在实际中,真实数据的分布和虚假数据可能互不相关,尤其是在早期的训练过程中。判别器⽹络D能够很完美地区别它们。我们总能得到D(x) -> 1和D(x') -> 0,x'=G(z)即⽣成的图像。因此,我们将更新⽹络G,使梯度 ∂L'GD/∂x' -> 0。⽹络G会可容易陷在局部的最⼩解中,因为G不是⼀个凸函数。最近的研究[1,2]也理论上战术了GAN的训练经常遇见⽹络G的梯度消失问题。
为了解决这个问题,我们建议为⽣成器使⽤平均特征匹配⽬标函数。该⽬标函数需要合成样本的特征中⼼去匹配真实样本的特征中⼼。让
f D(x)表⽰判别器中间层的特征,然后G尝试去最⼩化损失函数为:
在我们的实验中,为了简化,选择了⽹络D的最后⼀个全连接层的输⼊作为特征f D。结合多层的特征能够稍微改善收敛速度。在训练过程中,我们使⽤mini-batch的数据估计平均特征。然后我们还使⽤历史的移动平均来使它更稳定。
因此,在训练阶段,我们使⽤公式1)更新⽹络D,使⽤公式2)去更新⽹络G。使⽤这个⽤于训练GAN的⾮对称损失有三个优势:当公式2)随着可分性的增加,在特征中⼼的L2损失就能够解决梯度
消失问题。
当⽣成的图像⾜够好,平均特征匹配损失将为0,这使得训练更稳固
与WGAN[2]相⽐较,我们不需要剪切参数。⽹络D的判别能⼒也能够保持
3.2. Mean feature matching for conditional image generation
在这部分,我们将介绍⽤于条件图像⽣成的平均特征匹配⽅法。假设我们有⼀个属于K类别的数据集,我们使⽤⽹络C去测量是否⼀个图像属于这个特殊的细粒度类别。这⾥我们使⽤了分类的标准⽅法。⽹络C将x作为输⼊,然后输出⼀个K维的向量,然后使⽤softmax函数将其转为类概率值。输出的每个⼝都表⽰了后验概率P(c|x)。在训练阶段,⽹络C尝试最⼩化softmax损失:
同时对于⽹络G,如果我们仍然使⽤相同的softmax损失函数的话,它将会同样导致3.1部分所说的梯度消失问题。
因此我们为⽣成⽹络G提出了使⽤平均特征匹配⽬标函数。让f C(x)表⽰分类器的中间层,然后让⽹络G尝试去最⼩化:
在这⾥,为了简化,我们选择⽹络C的最后⼀个全连接层的的输⼊作为特征。我们也尝试去合并多层的特征,这仅仅是稍微提⾼了⽹络G的⾝份保持能⼒。因此在mini-batch中紧紧只有⼀些样本属于同⼀类别,有必要对真实样本和⽣成的样本使⽤特征的移动平均。
3.3. Pairwise feature matching
虽然使⽤平均移动匹配⽅法能够阻⽌所有输出移动到某个点,但它不能完全解决这个问题。尽管⽣成样本和真实图像有着相同的特征中⼼,但是它们可能有着不同的分布。⼀旦模型奔溃发⽣,⽣成⽹络将会为不同的潜在向量⽣成相同的图像,因此梯度下降将不能分离出相同的输出
为了⽣成不同的样本,DCGAN[29]使⽤Batch Normalization,McGAN[20]同时使⽤均值和协⽅差特征统计,Salimans et al.[33]使⽤mini-batch判别。他们都是基于使⽤多⽣成样例。与这些⽅法的不同在于我们添加了encoder⽹络E去获得真实图像x到潜在样本空间z的映射。因此,我们直接设置了真实图像和潜在空间的关系
与VAE相同,对于每个样本,encoder⽹络输出潜在向量的均值和协⽅差,即μ和ε。使⽤KL损失减⼩先验P(z)和推荐分布的边界:
然后我们能够从潜在向量:
这样获得从 x到z的映射后,我们能够使⽤⽹络G去获得⽣成的图像x'。然后,我们能够在x和x'中添加⼀个L2重构损失和基于对特征匹配损失:
铭牌生产
f D和f C分别是判别⽹络D和分类器C中间层的特征。
3.4. Objective of CVAE-GAN
因此总结⼀下,我们⽅法的⽬标就是去最⼩化下⾯的损失函数:

本文发布于:2024-09-22 08:26:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/239009.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   模型   特征   训练   函数   能够
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议