图像到图像翻译的无监督双重学习DualGAN

DualGAN:图像到图像翻译的无监督双重学习
摘要:
近年来,用于跨域图像翻译的条件生成对抗网络(GANs)取得了很大的进展。根据任务复杂度,需要数千到数百万个标记的图像来训练条件GAN。然而,人类的标签是昂贵的,甚至不切实际的,大量的数据可能并不总是可用的。受自然语言翻译的双重学习的启发,我们提出了一种新的双重GAN机制,使图像翻译人员能够从两个领域的两组未标记图像中进行训练。在我们的架构中,原始GAN学习将图像从域U转换到域V,而双GAN学习反转任务由原始任务和双重任务构成的闭环允许对来自任一域的图像进行翻译和重建。因此,可以使用一个能解释图像重建误差的损失函数来训练翻译人员。在无标记数据的多个图像翻译任务上的实验表明,与单个GAN相比,DualGAN具有相当大的性能增益。在某些任务中,DualGAN甚至可以获得与基于全标记数据训练的条件GAN相当或稍好的结果。
一、介绍
许多图像处理和计算机视觉任务,例如,图像分割、样式化和抽象,可以构成图像到图像的
转换问题[4],汽车座椅面料它将对象或场景的一种视觉表示转换为另一种视觉表示。pc104总线传统上,这些任务由于其内在差异而被单独处理[7、8、21、12、4、18]。直到过去两年,通用和端到端的深度学习框架,特别是那些利用完全卷积网络(FCNs)[11]和条件生成对抗网络(cGANs)[4]的框架才得以开发,以便能够统一处理这些任务。
到目前为止,这些通用的方法都是通过大量的标记和匹配图像对玻璃杯机械设备来监督和训练的。然而,在实践中,获取这样的训练数据可能很耗时(例如,使用像素化或拼凑标记),甚至是不现实的。例如,虽然有大量的照片或草图可供使用,但描绘同一姿势下同一个人的照片-草图图像对却很少。在其他图像转换设置中,例如,将日光场景转换为夜间场景,即使可以使用固定相机获得标记和匹配的图像对,场景中的移动对象通常会导致不同程度的内容差异。
本文旨在开发一个通用的图像到图像转换的无监督学习框架,该框架仅依赖于未标记的图像数据,如两组照片和草图,来完成图像到草图的转换任务。显而易见的技术挑战是如何在没有任何数据来描述正确翻译的情况下对译者进行培训。微电解填料我们的方法受到自然语言处理的双重学习的启发[23]。双重学习通过最小化由于两个翻译人员的嵌套应用而导致的重建
损失,同时训练两个“相反”的语言翻译人员(例如,英语到法语和法语到英语)。这两个翻译器代表一个原始-对偶对,嵌套的应用程序形成一个闭环,允许应用强化学习。具体来说,在单语数据(英语或法语)上测量的重建损失将产生信息反馈,以训练双语翻译模型。
    本文首次提出了一种图像到图像翻译的双重学习框架,它不同于夏等人的NLP双重学习方法。[23]主要有两个方面。首先,NLP方法依赖于预先训练的(英语和法语)语言模型,以表明译者输出的是各自目标语言中的自然句子的自信程度。考虑到通用处理,并且意识到这种预先训练的模型对于许多图像翻译任务是很难获得的,我们的工作开发了经过训练的GAN鉴别器[3]那是与翻译人员进行反向培训以获取域分配规划设计。因此,我们称我们的学习架构为DualGAN。此外,我们使用FCNs作为译者,它自然地适应了图像的二维结构,而不是LSTM或门循环单元(GUT)等顺序到顺序的翻译模型。
DualGAN以两组未标记的图像作为输入,每一组图像具有一个图像域的特征,同时从一个域学习到另一个域的两个可靠的图像翻译器,因此可以执行各种各样的图像到图像的翻译任务。通过与GAN(带有图像条件发生器和原始鉴别器)和条件GAN的比较,验证了端G
AN的有效性。比较结果表明,在某些应用中,DualGAN的性能优于基于标记数据训练的有监督方法
2。相关工作
    从古德费罗等人的开创性工作开始。[3] 2014年,针对各种各样的问题提出了一系列的GAN族方法。原始GAN可以通过引入一个对抗性的鉴别器来学习生成器来捕获真实数据的分布,该鉴别器进化为区分真实数据和伪造数据[3]。不久之后,各种条件GANs(cGAN)被提出用于对类标签[13]、属性[14,24]、文本[15]和图像[7、8、21、12、4、18]上的图像生成进行条件化。
        大多数图像条件模型都是为特定应用开发的,例如超分辨率[7]、纹理合成[8]、从普通地图到图像的样式转换[21]和视频预测[12],而很少有其他模型是针对通用处理[4,18]。Isola等人提出的图像到图像转换的通用解。[4] 需要大量标记的图像对。Taigman等人提出的跨域图像转换的无监督机制。[18] 可以在没有成对图像的情况下训练图像条件生成器,但依赖于一个复杂的预训练函数,该函数将图像从任一域映射到中间表示,这需要其他格式的标记数据。
    双重学习最早是由夏等人提出的。[23]减少英法、法英翻译培训中对标注数据的要求。法语-英语翻译是英语-法语翻译的双重任务,他们可以并肩受训。双重学习核心思想是建立一个包含两个主体的双重学习游戏,每个主体只能理解一种语言,并且能够评估译文是目标语言中的自然句子的可能性,以及重建的句子与原文的一致程度。这种机制在双方交替使用,只允许从单语数据中训练翻译人员。
尽管缺乏平行的双语数据,两种类型反馈信号可以产生:评价译文属于目标语言的可能性的隶属度得分,以及衡量重建句子与原文之间差异的重建误差。这两种信号都是在特定应用领域知识的帮助下进行评估的,即经过预先培训的英语和法语语言模型。
在我们的工作中,我们的目标是一个通用的解决方案,图像到图像的转换,因此不利用任何领域特定的知识或预先训练的领域表示。相反,我们使用区域自适应GAN鉴别器来评估翻译样本的隶属度得分,而重建误差则被测量为每个图像区域内重建图像与原始图像之间绝对差的平均值
微电脑时间控制器在CycleGAN中,由Zhu等人同时完成的一项工作。[26]对于未配对的图像到图像的转换提出了同样的想法,其中DualGAN中的原始-对偶关系被称为循环映射,它们的循环一致性损
失与我们的重建损失基本相同。赛马的优势已经被证明在一些配对训练数据几乎不存在的任务中,例如在物体变形和绘画风格和季节转换中。
我们称之为耦合GAN或CoGAN的Liu和Tuzel[10]最近的工作也在没有成对训练数据的情况下一起训练两个GAN来解决图像翻译问题。与DualGAN或CycleGAN不同,CoGAN中的两个Gan没有链接以强制循环一致性。相反,CoGAN从两个域学习图像的联合分布。CoGAN通过在生成网络和判别网络中共享对应于高级语义的权重参数,可以强制两个gan以相同的方式解释这些图像语义。然而,如CycleGAN的比较研究[26]所示,CoGAN和类似方法(如[2,9])中的权重分担假设不会导致有效的通用解决方案,因为其适用性取决于任务,导致非自然的图像翻译结果。
DualGAN和CycleGAN都致力于通用的图像到图像转换,而不需要联合表示来连接这两个图像域。此外,DualGAN同时训练原始GANs和对偶GANs,允许使用重建误差项来生成信息反馈信号。
三。方法
给定分别从域U和域V采样的两组无标记和无配对图像,dual GAN的首要任务是学习将图像UU映射到图像VV的生成器GA:U→V,而对偶任务是训练一个逆生成器GB:V→U。为此,我们使用了两个GAN,原始GAN和对偶GAN。原始GAN学习发生器gaa和鉴别器DA区分遗传算法假输出和域V的实成员的数据。类似地,双GAN学习生成器gba和鉴别器DB。总体架构和数据流如图1所示。
图1:DualGAN用于图像到图像转换的网络结构和数据流程图。
如图1所示,使用遗传算法将图像uu转换为域V。平移GA(u,z)在V中的适配程度由DA评估,其中z是随机噪声,下面显示的z0也是。然后,使用GB将GA(u,z)转换回域u,该域输出GB(GA(u,z),z0)作为u的重构版本。同样,vv转换为u作为GB(v,z0)
,然后重构为GA(GB(v,z0),z)。判别器DAis以v为正样本,GA(u,z)为负样本训练,dbu为正样本,GB(v,z0)为负样本训练。生成器gaa和GB被优化以模拟“假”输出,从而使相应的鉴别器dad和DB盲,并将两个重建损失kGA(GB(v,z0),z)-vk和kGB(GA(u,z),z0)-uk最小化。
3.1条。目标
    与传统的GAN一样,鉴别器的目标是将生成的假样本与真实样本区分开来。然而,这里我们使用Wasserstein-GAN(WGAN)[1]倡导的损耗格式,而不是原始GAN[3]中使用的sigmoid交叉熵损耗。结果表明,前者在发电机收敛性和样本质量方面,以及在提高优化稳定性方面都有较好的表现[1]。数据和数据库中使用的相应损耗函数定义为:
其中uu和vv。
对于目标相同的发电机GA和GBas,采用相同的损失函数。以前的作品条件图像合成发现用L1代替l2距离是有益的,因为前者常常导致模糊[6,23]。因此,我们采用l1距离来测量恢复误差,并将其添加到GAN目标中,以强制转换的样本服从域分布:
其中uu,vv,和λu,λ变为两个常数参数。根据应用,λUandλVare通常设置为[100.0,1000.0]范围内的值。如果U包含自然图像而V不包含(例如航空照片地图),我们发现使用较小的λUthanλV更有效。
3.2条。网络配置
癸氧喹酯DualGAN采用相同的Ga和GB网络结构。生成器配置有相同数量的下采样(池)和上采样层。此外,我们在镜像的下采样层和上采样层之间配置了跳过连接的生成器,如[16,4]所示,使其成为一个U形网络。这样的设计使得在输入和输出之间共享低级信息,这是有益
的,因为许多图像转换问题隐式地假定输入和输出中的图像结构(例如,对象形状、纹理、杂波等)之间的对齐。如果没有跳过层,所有级别的信息都必须通过瓶颈,这通常会导致高频信息的大量丢失。此外,类似于[4],我们没有显式地提供噪声向量z,z0。相反,它们只以退出的形式提供,并在培训和测试阶段应用于我们的发电机的几层。
对于鉴别器,我们采用了文[8]中所述的马尔可夫-帕奇根结构,该结构假定距离特定区域以外的像素之间的独立性仅在修补程序级别而不是在完整图像上调整图像大小并对其建模。这样的配置在捕获局部高频特征(如纹理和样式)方面是有效的,但在建模全局分布时效果较差。它很好地满足了我们的需求,因为恢复损失鼓励保存全局和低频信息,并且鉴别器被指定来捕获本地高频信息。这种结构的有效性已经在各种翻译任务中得到了验证[23]。与[23]类似,我们在图像上卷积运行这个鉴别器,平均所有响应以提供最终输出。这种方案的另一个优点是它需要更少的参数,运行速度更快,并且对输入图像的大小没有限制。鉴别器工作时的块大小固定在70×70,图像分辨率大多为256×256,与pix2pix[4]相同。

本文发布于:2024-09-23 12:19:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/295151.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   数据   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议