ModularGAN:实现多域图像生成和转换的模块化生成对抗网络

91 浏览量更新于2023-10-13 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

模块生成对抗网络赵波 *常波*杰泽群* 西加尔*加拿大不列颠哥伦比亚大学†腾讯人工智能实验室{bzhao03，lsigal}@ cs.ubc.cabchang@stat.ubc.cazequn. gmail.com发色表达性别棕色头发不笑棕色头发输入黑色的金发布朗没有微笑男性+ 不笑+男+男+ 没有微笑+男性微笑女性+微笑+女性微笑+女棕色头发+微笑+女性ModularGAN架构图1.一、ModularGAN：在CelebA [19]数据集上的多域图像到图像翻译任务上说明了所提出的模块化生成对抗网络的结果抽象。用于多域图像到图像转换（或生成）的现有方法试图将输入图像（或随机向量）直接映射到输出域之一中的图像然而，大多数现有的方法具有有限的可扩展性和鲁棒性，因为它们需要为所讨论的每对域构建独立的模型这导致了两个显著的缺点：（1）需要训练指数数量的成对模型，以及（2）在训练特定的成对映射时无法利用来自其他领域的数据受模块网络最近工作的启发，本文提出了用于多域图像生成和图像到图像翻译的ModularGAN。 ModularGAN由几个可重复使用和可组合的模块组成，这些模块执行不同的功能（例如，编码、解码、变换）。这些模块可以同时训练，利用来自所有领域的数据，然后根据特定的图像翻译任务，在测试时组合起来构建特定的GAN网络。这导致ModularGAN实验结果表明，我们的模型不仅提出了令人信服的感知结果，但也优于国家的最先进的方法上的多域面部属性转移。关键词：神经模块网络，生成对抗网络，图像生成，图像翻译2B. Zhao，B.昌，智-地Jie和L.SigalD →DD −→D−→D1介绍近年来，随着变分自动编码器（VAE）[15]和生成对抗网络（GAN）[6]的引入，图像生成变得越来越流行已经研究了基于图像生成的大量任务，包括属性到图像生成[20，21，31]，文本到图像生成[24，25]，23，30，32，33]或图像到图像平移[11，14，25，34，5，18]。这些任务可以广义地称为条件图像生成，其分别将属性向量、文本描述或图像作为条件输入，并且输出图像。大多数现有的条件图像生成模型从输入（其可以包括图像或随机噪声向量）和目标条件学习直接映射以输出包含目标属性的图像每个条件或条件类型有效地定义了一代或图像-到图像输出域（例如，、表情域（微笑）或性别（男性/女性）用于面部图像）。对于实际任务，期望能够控制大量且可变数量的条件（例如，环境）。以生成微笑的人或棕色头发的微笑男子的图像）。建立一个函数，可以处理指数，在一些条件下，域是困难的。大多数前图像翻译方法[11，14，25，34]只能将图像从一个域翻译到另一个域。对于多域设置，这导致许多缺点：（i）需要学习指数数量的成对转换函数，这在计算上是昂贵的并且对于多于少数的条件实际上是不可行的;（ii）当学习特定的成对映射时，不可能利用来自其他域的数据;以及（iii）成对转换函数在顺序上可能是任意复杂的。对非常不同的域之间的转换进行建模。为了解决（i）和（ii），最近引入了多域图像（和语言[13]）翻译[5]模型表示源/目标域信息的固定向量可以用作单个模型的条件以指导翻译过程。然而，域之间的信息共享在很大程度上是隐含的，并且功能映射变得更加过于复杂。我们假设将图像生成过程划分为多个更简单的生成步骤可以使模型更容易并且更鲁棒地学习。特别是，我们既没有训练成对映射[11，34]，也没有训练一个复杂的模型[22，5];相反，我们训练了少量简单的生成模块，这些模块可以组成复杂的生成过程。特别地，考虑将图像从域A（男人皱眉）变换到域C（女人微笑）：AC。可以想象，甚至可能，首先变换原始图像以描绘一个女性微笑女性和随后微笑（A B C）将更多比直接从域A到域C更健壮。原因有两个：（i）个体变换更简单，空间上更局部，（ii）根据定义，中间女性和微笑域中的数据量大于女性微笑的最终域。换句话说，在这种情况下，我们正在利用更多的数据来学习更简单的翻译/转换函数。这种直觉也与最近引入的模块化网络[2，1]一致，我们在这里概念上采用并扩展用于生成图像任务。模块生成对抗网络3为了实现和形式化这种增量图像生成过程，我们提出了模块化生成对抗网络（ModularGAN）。ModularGAN由几个不同的模块组成，包括生成器，编码器，重建器，Transformer和鉴别器，共同训练。每个模块执行特定功能。在图像生成任务中使用的生成器模块从随机噪声和（可选的）条件向量生成图像的潜在表示。用于图像到图像转换的编码器模块将输入图像编码成潜在表示。由生成器或编码器产生的潜在表示由Transformer模块根据所提供的条件来操纵然后，重建器模块将经变换的潜在表示重建为图像。识别模块用于区分生成或变换后的图像看起来是真还是假，并对图像的属性进行重要的是，不同的Transformer模块可以在测试时以任何顺序动态组成，以形成生成网络，该生成网络应用一系列特征变换，以获得更复杂的映射和生成过程。贡献：我们的贡献是多方面的，- 我们提出了ModularGAN-一种ModularGAN由几个可重用和可组合的模块组成不同的模块可以在测试时轻松组合，以便有效地生成/转换不同域中的图像。据我们所知，这是第一个模块化GAN架构。- 我们提供了一种高效的方式来端到端联合训练所有模块新模块可以很容易地添加到我们提出的ModularGAN中，并且现有模块的子集也可以在不影响其他模块的情况下进行升级- 我们演示了如何成功地组合不同的（Transformer）模块，以便将图像转换到不同的域。我们在Transformer模块中利用掩模预测，以确保仅变换特征图的局部区域;使其他区域保持不变。- 我们以经验证明了我们的方法在图像生成（ColorMNIST数据集）和图像到图像转换（面部特征转移）任务上的有效性与最先进的GAN模型的定性和定量比较说明了通过ModularGAN获得的改进2相关工作2.1模块化网络视觉问答（VQA）是一项基本的合成任务。通过显式建模其底层推理过程，神经模块网络[2]被构造成执行各种操作，包括注意、重新注意、组合、分类和测量。这些模块被组装成不同问题任务所需的所有配置自然语言解析器将问题分解为逻辑表达式，并动态地布局由可重用模块组成的深度网络动态神经模块网络[1]通过强化学习学习网络结构来扩展神经模块网络，而不是直接解析问题。两个工作使用4B. Zhao，B.昌，智-地Jie和L.Sigal预定义的模块操作与手工制作的模块架构。最近，[12]提出了一个可视化推理模型，由程序生成器和执行引擎组成程序生成器构造要执行的推理过程的显式表示它是一个序列到序列模型，它将问题作为一个单词序列输入，并将程序作为一个函数序列输出执行引擎执行结果程序以产生答案。它使用神经模块网络来实现与[2，1]相反，模块使用通用架构。与VQA相似，多域图像生成也可以看作是多个两域图像转换的组合，这构成了本文的基础2.2图像平移生成对抗网络（GAN）[6]是强大的生成模型，在许多计算机视觉任务中取得了令人印象深刻的结果，例如图像生成[21，9]，图像修复[10]，超分辨率[16]和图像到图像的转换[11，17，22，27，34，4，29，28]。GANs将生成建模公式化为两个竞争网络之间的游戏：生成器网络在给定一些输入噪声的情况下产生合成数据，而鉴别器网络在生成器的输出和真实数据之间进行区分生成器G和鉴别器D之间的博弈具有最小最大目标。与学习从随机噪声向量到输出图像的映射的GAN不同，条件GAN（cGAN）[20]学习从随机噪声向量到输出图像的映射，条件是附加信息。Pix2pix[11]是使用cGAN [20]的通用图像到图像转换算法它可以对各种各样的问题产生合理的结果给定一个包含相关图像对的训练集，pix2pix学习如何将一种类型的图像转换为另一种类型的图像，反之亦然。循环一致性GAN（CycleGANs）[34]在没有配对示例的情况下学习图像翻译相反，它在输入和输出图像之间循环训练两个生成模型除了对抗性损失之外，循环一致性损失用于防止两个生成模型彼此矛盾Pix2Pix和CycleGAN都是为两域图像翻译而设计的通过反转cGAN [20]的映射，即将真实图像映射到潜在空间和条件表示中，Ic-GAN [22]可以重建和修改以任意属性为条件的人脸输入图像最近，StarGAN [5]被提出使用以目标域标签为条件的单个网络来执行多域图像翻译它只使用一个生成器和一个鉴别器来学习多个域之间的映射与在单个模型中学习所有域转换的StarGAN不同，我们为不同的属性训练不同的简单可组合翻译网络3模块生成对抗网络3.1问题公式化我们考虑两种类型的多域任务：（i）图像生成-模块生成对抗网络5→→（例如：，以某种字体或样式书写的数字的图像）;以及（ii）图像翻译-其采用现有图像并且通过改变某些属性特性（例如，图像的颜色、字体改变肖像图像中的头发颜色或面部表情我们预先定义一个属性集A={A1，A2，· · ·，An}，其中n是不同属性的数量，每个属性Ai是图像中固有的有意义的语义属性例如，面部图像的属性可以包括头发颜色、性别或面部表情。每个A i具有不同的属性值，例如黑色/金色/棕色的头发颜色或男性/女性的性别。对于图像生成任务，目标是学习映射（z，a）y。输入是一对（z，a），其中z是随机采样向量，a是属性A的子集。请注意，a中的元素数量不是固定的;更多的元素将提供对生成的图像的更精细的控制输出y是目标图像。对于图像翻译任务，目标是学习映射（x，a）y。输入是一对（x，a），其中x是一个图像，a是目标属性以出现在输出图像Y中。a中的元素的数量指示需要改变的输入图像的属性的数量在本节的其余部分，我们将制定用于这两个任务的模块集，并描述将它们组成网络的过程3.2网络建设图像翻译。我们首先介绍执行多域图像翻译的ModularGAN在该任务中使用四种类型的模块：编码器模块（E），其将输入图像编码为中间特征图; Transformer模块（T），其修改特征图的特定属性;重建器模块（R），其从中间特征图重建图像;以及鉴别器模块（D），其确定图像是真实的还是假的，并且预测图像的真实性。输入图像的属性。关于模块的更多细节将在以下部分中给出图2演示了图像翻译模型在训练和测试阶段的整体架构在训练阶段（图2，左），编码器模块E连接到多个Transformer模块Ti，每个变换器模块Ti进一步连接到重建器模块R以生成经转换的图像。存在连接到重建器的多个鉴别器模块Di，以将所生成的图像与真实图像区分开，并且进行对应属性的预测所有模块具有相同的接口，即E的输出、R的输入以及Ti的输入和输出具有相同的形状和维度。这使得模块能够被组装，以便在测试时构建更复杂的体系结构，如图所示2，对。在训练阶段，输入图像x首先由E编码，这给出了中间表示E（x）。然后，不同的Transformer模块Ti被应用于不同的E（x）AC或D，以在Ti（E（x），ai）中实现预定义。该值被设计为针对特定的对象Ain进行转换，以改变属性值1，例如：，将头发颜色从金色改为棕色，或者改变1这也意味着，一般来说，Transformer模块的数量等于属性的数量6B. Zhao，B.昌，智-地Jie和L.Sigal××××培训阶段测试阶段图二、ModularGAN架构：训练（左）和测试（右）阶段的多域图像翻译架构ModularGAN由四种不同类型的模块组成：编码器模块E，Transformer模块T，重建器模块R和鉴别器D。这些模块可以同时训练，并用于根据测试阶段的生成任务构建不同的生成网络从女性到男性的性别重建器模块R以输出映射y=R（Ti（E（x），ai））重建用于m_d_f e的变换。鉴别器模块D被设计为区分所生成的图像y和真实图像X。它还预测图像x或y的属性。在测试阶段（图）2，右），不同的Transformer模块可以动态组合以形成一个网络，该网络可以以任意顺序顺序操纵任何数量的属性图像生成。图像生成任务的模型架构与图像翻译任务基本相同唯一的区别是编码器模块E被生成器模块G代替，生成器模块G从随机噪声z和表示辅助信息的条件向量a0生成中间特征图G（z，a 0）。条件向量a0可以确定图像的整体内容。例如，如果目标是生成数字的图像，则可以使用0来控制要生成哪个数字，例如数字7。模块R可以类似地重建初始图像x= R（G（z，a0）），其是具有任何属性的数字7的图像该架构的其余部分与图像转换任务相同，其使用Transformer模块T1的序列来变换初始图像X以改变某些属性（例如，数字的颜色、笔画类型或背景）。3.3模块生成器模块（G）使用若干转置卷积层生成大小为CHW的特征图它的输入是随机变量z和条件向量a0的串联。有关网络体系结构，请参见补充资料编码器模块（E）使用若干卷积层将输入图像X编码成大小为CHW的中间特征表示有关网络体系结构，请参见补充资料T1D1ET2RD2T3D3ET1RET2T3RET1T2T3R模块生成对抗网络7×××××Transformer模块（T）是我们模型中的核心模块。它将备份转换为一个新的访问控制器，以实现备份控制。 Transformer模块接收大小为C×H×W的特征图f和l e n gt h c i的条件vect或ai。输出是一个大小为C×H×W的映射。 Fig. 3将使用模型T的结构。一个或多个长度的连续向量将重新应用于大小的对象HW，其中该特征是与输入特征图f的一致性。卷积层首先用于减少来自C+citoC的chan n el的数量。在波形之后，平均地应用各个独立的时钟，其输出由f’表示。使用变换后的特征图f’，使用具有Tanh激活函数的附加卷积层来生成大小为HW的单通道特征图g。该特征图g通过g′=（1+g）/2被扩展到范围（0，1）。预处理的g’ac类似于alpha掩码或注意层：它鼓励模块T仅变换特征图中与特定属性变换相关的区域。最后，变换后的特征图f’和输入特征图f’被进一步合并为kg’，以得到输出putft=g’×f’+（1-g’）×f。条件复制模块TConvTanh掩模Concat孔夫斯残余块残余块特征图图3.第三章。Transformer模块重建器模块（R）使用若干转置的卷积层从CHW特征图重建图像。有关网络体系结构，请参见补充资料。鉴别器模块（D）将图像分类为真实或虚假，并预测图像的一个属性（例如，图像的颜色）。头发颜色、性别或面部图像）。有关网络体系结构，请参见补充资料3.4损失函数我们采用几个损失函数的组合来训练我们的模型。对抗性损失。我们应用对抗损失[6]来使生成的图像看起来逼真。对于第i个Transformer模块Ti及其对应的鉴别器模块Di，对抗损失可以写为：Ladvi（E，Ti，R，Di）=Eypdata（y）[logDi（y）]+（1）Ex pdata（x）[log（1− Di（R（Ti（E（x）））））]，其中E、Ti、R、Di分别是编码器模块、第i个Transformer模块、重建器模块和第i个鉴别器模块。我的目标是特征图…8B. Zhao，B.昌，智-地Jie和L.SigalclsiclsiclsiRclsiclsiFclsiCYC儿·区分变换样本R（Ti（E（x）和真实样本y。所有模块E、Ti和R尝试针对对手Dities最小化该目标，以最大化该目标，即。e. minE，Ti，RmaxDiLadvi（E，Ti，R，Di）.辅助分类损失。类似于[21]和[5]，对于每个鉴别器模块Di，除了用于区分真实和虚假图像的分类器之外，我们定义了一个辅助分类器来预测图像的第i个属性，例如。、头发颜色或面部图像的性别分类亏损有两个组成部分F真实图像损失Lr和伪图像损失L。对于真实图像x，定义真实图像辅助分类损失Lr如下所示LCLSI =Ex，ci[−logDclsi（ci|x）]、⑵当Dclsi（c|x）是在由Di预测的预测值上的概率分布，例如黑色、金色或棕色的头发颜色。鉴别器模D i试图最小化L r。伪图像辅助分类损失Lf的定义类似，使用生成的图像R（E（Ti（x）：LCLSI =Ex，ci[−logDclsi（ci|R（E（Ti（x））））]。（三）模R、E和Ti试图最小化Lf可根据数据库中的相关数据进行定义。来生成假图像循环损耗在概念上，编码器模块E和重构器模块R是一对逆操作。因此，对于真实图像x，R（E（x））应该类似于x。基于该观察，编码器-重构器循环损耗L_ER定义如下：Lcyc=Ex[R（E（x））−x1]。（四）循环损失不仅可以在图像上定义，还可以在中间特征图上定义。在训练时，不同的Transformer模块Ti以并行方式连接到编码器模块E然而，在测试时间T，i将根据测试任务的特定模块组成顺序地彼此连接因此，重要的是要有特征图的循环一致性，以便Ti的序列一致地修改特征图为了强制执行这一点，我们在经变换的特征图和经编码的重构输出图像的特征图上定义循环损失这种循环损耗被定义为我不是CYC=Ex[Ti（E（x））-E（R（Ti（E（x）1]，（5）其中E（x）是输入图像x的原始特征图，并且Ti（E（x））是变换后的特征图。模块R（）将变换后的特征图重构为具有目标属性的新图像然后，模块E将生成的图像编码回中间特征图。该循环损失促使Transformer模块输出与编码器模块产生的特征图类似的这允许不同的模块T i在测试时级联，而不会损失性能。L模块生成对抗网络9+λLclsnnnclsiCYCCYC全赔。最后，D的全损失函数为nLD（D）=− Ladvii=1E、T、R的全损失函数为nRclsii=1、（6）LG（E， T， R）=Ladvi=1+λclsLfi=1+λcyc（LER+LTi），（7）i=1其中n是可控属性的总数，λcls和λcyc是超参数，分别控制辅助分类和循环损失相对于对抗性损失的重要性4执行网络架构。在我们的ModularGAN中，E有两个卷积层，步长为2，用于下采样。G有四个转置卷积层，步长为2，用于上采样。T具有步长为1的两个卷积层和用于变换输入特征图的6个残差块在最后一个残差块的顶部添加步长为1的另一个卷积层以预测掩码。R具有两个转置卷积层，步长为2，用于上采样。在D中使用步长为2的五个卷积层，以及两个额外的卷积层来将图像分类为真实或虚假，以及其属性。培训详情。为了稳定训练过程并生成高质量的图像，我们将等式中的对抗性损失（1）Wasserstein GAN [3]目标函数使用梯度惩罚[7]，定义为Ladvi（E，Ti，R，Di）=Ex[Di（x）]−Ex[Di（R（Ti（E（x）]（8）-λgpEx[（▽xDi（x）2−1）2]，其中，x是由一对真实和生成的图像组成的一个随机序列。对于所有实验，我们在等式8中设置λgp= 10，在等式6和等式7中设置λcls = 1和λcyc= 10我们使用Adam优化器[15]，批量大小为16。所有网络都是从头开始训练的，初始学习率为0.0001。我们在前10个epoch中保持相同的学习率，并在接下来的10个epoch中将学习率线性衰减到05实验我们首先在合成的多属性MNIST数据集上进行图像生成实验接下来，我们比较我们的方法与最近的工作图像到图像的面部属性转移。我们的方法通过用户研究和属性分类显示了定性和定量的改进最后，我们进行了一项消融研究，以检查模块T中的掩模预测、循环损失以及多个模块T的顺序对多域图像传输的影响。我10B. Zhao，B.昌，智-地Jie和L.Sigal≈≈→→→××5.1基线IcGAN首先学习从潜在向量z到真实图像y的映射，G：（z，c）→y，然后学习从真实图像x到潜在向量z和条件表示c的逆映射，E：x→（z，c）。最后，它重建了一个新的在z上进行了修改和修改的 c′，即。e. G：（z，c′）→y.CycleGAN同时学习两个映射G：xy和F：yx，并使用循环一致性损失来强制F（G（x））x和G（F（y））y。我们在实验中为每对域训练了不同的CycleGAN模型StarGAN训练单个G以将输入图像x直接转换为以目标域标签c为条件的输出图像y，即，G：（x，c）y.在c中设置多个条目允许StarGAN执行多属性传输。5.2数据集ColorMNIST 。我们基于 MNIST 对话数据集 [26] 构建了一个名为ColorMNIST的合成数据集ColorMNIST中的每个图像包含具有四个随机采样属性的数字，即，number ={x∈Z| 0X9}，color ={red，blue，green，purple，brown}，style ={flat，stroke}，and bgcolor ={青色、黄色、白色、银色、橙红色}。我们生成50K大小为64× 64的图像CelebA CelebA数据集[19]包含202，599张名人的面部图像，具有40个二进制属性，如年轻，微笑，苍白皮肤和男性。我们随机采样了2,000张图像作为测试集，并使用所有剩余的图像作为训练数据。所有图像都以大小178 178居中裁剪，并调整大小为128 128。我们为所有实验选择三个具有七个不同属性值的属性：haircolor={black，blond，brown}，gender={ma le，fema le}，和dsmilee={smile，nosmile}.5.3评价分类错误。作为定量评估，我们使用ResNet-18网络[8]计算合成图像上每个属性的分类误差，该网络经过训练以分类图像的属性所有方法都使用相同的分类网络进行性能评估。较低的分类误差意味着生成的图像具有更准确的目标属性。用户研究。我们还使用Amazon Mechanical Turk（AMT）进行了一项用户研究，以评估图像翻译任务的图像质量给定一个输入图像，Turkers被指示根据感知现实主义，属性转移的质量以及保留第五个原始身份来选择最佳生成图像5.4ColorMNIST的实验结果定性评价。图4显示了ColorMNIST数据集上的数字图像生成结果生成器模块G和重构器模块R首先根据第一列中所示的数字属性生成正确的数字生成的数字具有随机的颜色、笔画样式和背景模块生成对抗网络11nNCNS NB ncsncbnsbncsbc sbnNCNS NB ncsncbnsbncsbc s b图4.第一章图像生成：ColorMNIST数据集上的数字合成结果注意，（n）意味着对数字编号、（c）颜色、（s）笔划类型和（d）笔划类型的调节(b)背景由多于一个字母表示的列示出了以多个属性为条件的生成结果，例如：、（ncs）灰度图像表示由Ti个模块内部产生的掩模，i∈{c，s，b}。颜色. 通过将G产生的特征表示传递给不同的Ti，最初生成的图像的数字颜色、笔画样式和背景将发生变化，如第二列到第四列所示最后四列通过组合不同的T i来说明多属性变换。每个模块T i只改变一个特定的属性，并保持其他属性不变（在前一个属性值）。请注意，存在初始图像已经具有目标属性值的情况;在这种情况下，变换后的图像与前一个图像相同面罩的可视化图4，我们还可视化每个Transformer模块Ti中的预测掩码。它提供了一种可解释的方式来理解模块在哪里应用转换。蒙版中的白色像素对应于特征图中由当前模块修改的区域;黑色像素对应于在整个模块中保持不变的区域可以观察到，颜色Transformer模块T。主要改变数字的内部，因此仅突出显示数字笔划样式Transformer模块Ts正确地聚焦在数字的边界最后，对应于背景颜色Transformer模块Tb的掩模在背景区域中具有较大的值。5.5CelebA的实验结果定性评价。图1和图图5示出了分别使用所提出的方法和基线方法在CelebA上的面部属性转移结果图5、转移是在具有中性表情的女性面部形象和黑色头发之间进行多种属性的组合结果表明，IcGAN算法性能最差虽然生成的图像具有期望的属性，但面部身份没有得到很好的保留。所生成的图像也不具有清晰的细节，这是由于在将输入图像编码成低维潜在向量并将其解码回来的过程期间丢失了信息CycleGAN生成的图像比IcGAN更好，但有一些可见的伪影。通过使用循环一致性损失，CycleGAN保留了输入图像的面部身份，并且仅改变面部的特定区域StarGAN比CycleGAN生成更好的结果，因为12B. Zhao，B.昌，智-地Jie和L.Sigal输入头发颜色性别表达头发颜色性别头发颜色表达表达性别头发颜色表达性别图五、CelebA上的面部属性转移结果：描述见文本输入图像发色表达性别头发颜色表达头发颜色性别表达性别头发颜色表达性别图六、蒙版可视化：执行属性转换时蒙版的可视化。当使用多个模块T时，我们对不同的掩码它是在整个数据集上训练的，并且隐含地利用来自所有属性域的图像我们的方法产生比基线方法更好的结果（例如，请参阅最后一列中的微笑或多属性转移它使用多个Transformer模块来改变不同的属性，每个转换器模块学习从一个域到另一个域的特定映射这与StarGAN不同，StarGAN在一个模型中学习所有转换面罩的可视化为了更好地理解当Modu-larGAN转换图像时会发生什么，我们在图中可视化每个Transformer模块的掩码。六、当使用多个Ti时，我们添加不同的预测掩码。从可视化中可以看出，当改变头发颜色时，Transformer模块仅聚焦于图像的头发区域通过修改特征图的嘴部区域，可以将面部表情从中性改变为微笑。为了改变性别，使用脸颊、下巴和鼻子周围的区域模块生成对抗网络13表1.AMT用户研究：数值越高越好，表明偏好。方法HSGHSHgSGHSGIcGAN3.482.638.704.358.7013.91 15.65CycleGAN 17.39 16.67 29.57 18.26 20.00 17.399.57StarGAN 30.43 36.84 32.17 31.30 27.83 27.83 27.83我们48.70 43.86 29.57 46.09 43.48 40.87 46.96表2.分类错误：越低越好，表示属性错误越少方法HSGHSHgSGHSGIcGAN7.82 10.43 20.86 22.17 20.00 23.91 23.18CycleGAN 4.34 10.43 13.26 13.67 10.43 17.82 21.01StarGAN 3.47 4.56 4.21 4.65 6.95 5.52 7.63我们3.86 4.21 2.61 4.03 6.51 4.04 6.09定量评价。我们使用ResNet-18架构在CelebA数据集上训练了一个对头发颜色，面部表情和性别进行分类的模型[8]。训练/测试集与其他实验中的相同训练后的模型对头发颜色、性别和微笑进行分类，准确率分别为96.5%、97.9%和98.3%然后，我们将此训练模型应用于测试集上通过不同方法生成的变换图像如表2所示，我们的模型在头发颜色任务上实现了与StarGAN相当的分类错误，并且在所有其他任务上实现了最低的分类错误这表明我们的模型产生具有所需属性的逼真面部图像表1显示了AMT实验的结果我们的模型在除性别外的所有情况下都获得了大多数最佳转移属性的投票我们观察到，我们的性别转移模型更好地保留了原来的头发，这是可取的模型5.6消融研究为了分析掩模预测、循环损失和在转移多个属性时的模Ti的顺序的影响，我们通过移除掩模预测、移除循环损失和随机化Ti的顺序来进行消融实验。面具的效果图7表明，在没有掩模预测的情况下，该模型仍然可以操纵图像，但在性别、微笑和多属性转移方面往往表现较差在没有掩码的情况下，T模块不仅需要学习如何翻译特征图，还需要学习如何保持原始特征图的部分完整性。因此，没有掩码，组成模块变得困难，如表3中较高的分类错误所示循环损失的影响去除循环损失不会影响单属性操作的结果，如图所示7.第一次会议。然而，当组合多个Transformer模块时，模型不能单独生成具有14B. Zhao，B.昌，智-地Jie和L.Sigal输入头发颜色图像发色性别表达头发颜色性别头发颜色表达表达性别头发颜色表达性别图7.第一次会议。消融：使用我们方法的不同变体生成的图像从上到下：在T中无掩码预测的ModularGAN、无循环损失的ModularGAN、在执行多属性传输时具有随机顺序的ModularGAN。表3.消融结果：ModularGAN变体的分类错误（见正文）。方法HSGHSHgSGHSG我们的无面罩4.01 4.65 3.58 30.85 34.67 36.61 56.08我们的无循环损耗 3.93 4.48 2.87 25.34 28.82 30.96 52.87我们的随机顺序3.86 4.21 2.61 4.37 5.98 4.13 6.23我们3.86 4.21 2.61 4.03 6.51 4.04 6.09所需属性。这也在表3中得到了定量验证：多属性传输的性能在没有循环损耗的情况下急剧下降模块顺序的影响我们通过在执行多属性转换时以随机顺序应用Ti模块来测试我们的模型（与固定排序相比-我们的）。表3中报告的结果表明，我们的模型不受Transformer模块顺序的影响，这是一个理想的特性。6结论在本文中，我们提出了一种新的模块化多域生成对抗网络架构，它由几个可重用和可组合的模块。不同的模块可以有效地进行端到端的联合训练。通过利用模块T内的掩模预测和循环损失，可以组合不同的（Transformer）模块，以便成功地将图像转换到不同的域。目前，不同的模块在测试阶段按顺序连接为更复杂的任务探索不同的模块结构将是我们未来的工作方向之一确认这项研究得到了加拿大国家科学与工程委员会（NSERC）的部分支持我们衷心感谢NVIDIA公司的支持，捐赠了用于本研究的Titan Xp GPU模块生成对抗网络15引用1. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：学习构建神经网络进行问答。In：HLT-NAACL（2016）2. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：神经模块网络。CVPR pp.393. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein GAN在：ICML（2017）4. Chang，B.，张，Q，潘，S.，Meng，L.：用cyclegan生成手写汉字在：WACV（2018）5. 崔，Y.，Choi，M.，Kim，M.，J.W. Kim，S.，Choo，J.：Stargan：用于多域图像到图像翻译的统一生成对抗网络来源：CVPR（2018）6. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。在：NIPS（2014）7. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.：改进Wasserstein GANs的训练In：NIPS（2017）8. 他，K.，张，X.，Ren，S.，孙杰：深度残差学习用于图像复原。见：CVPR（2016）9. 黄，X.，李，Y.，Poursaeed，O.，Hopcroft，J.，Belongie，S.：堆叠生成对抗网络。在：CVPR（2017）10. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACM Transactions on Graphics（TOG）（2017）11. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译CVPR（2016）12. Johnson，J.，Hariharan，B.，范德马滕湖，霍夫曼，J.，fei Li，F.，齐特尼克C.L. Girshick，R.B.：推理和执行程序的视觉推理。In：ICCV.pp. 300813. Johnson，M.，Schuster，M.，Le，Q.V.，Krikun，M.，吴，Y.，陈志，Thorat，N.Vi 气体，F.，Wattenberg，M.，科拉多湾Hughes，M.Dean，J.：谷歌在：TACL（2017）14. 卡拉坎湖Akata，Z.，Erdem，A.，Erdem，E.：学习从属性和语义布局生成户外场景的图像1612.00215（2016）15. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。载于：ICLR（2014）16. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A.Acosta，A.Aitken，A.，Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片真实感单幅图像超分辨率在：CVPR（2017）17. Li，M.，左，W.，张德：面部属性的深度身份感知传输1610.05586（2016）18. Li，M.，黄，H.，马，L.，刘伟，张，T.，蒋永刚：无监督图像到图像的翻译与堆叠的周期一致的对抗网络（2018）19. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性In：ICCV（2015）20. Mirza，M.，Osindero，S.：条件生成对抗网。ArXiv：1411.1784（2014）21. Odena，A.，Olah，C.，Shlens，J.：使用辅助分类器GANs的条件图像合成在：NIPS（2016）22. Pernau，G.， VandeWeijer，J.， Raducanu，B. A'lvarez，J. M：InvertibleCon-用于图像编辑的传统GAN在：NIPS对抗训练研讨会（2016）16B. Zhao，B.昌，智-地Jie和L.Sigal23. Reed，S.，Akata，Z.，Mohan，S.，Tenka，S.，Schiele，B.，Lee，H.：学习什么和在哪里画。在：NIPS（2016）24. Reed，S.，Akata，Z.，Yan，X.，洛格斯瓦兰湖Schiele，B.，Lee，H.：生成对抗性文本到图像合成。In：ICML（2016）25. Sangkloy，P.，卢，J，方角余，F.，Hays，J.：Scribbler：ControllingDeep Image Synthesis with Sketch and Color.见：CVPR（2016）26. Seo，P. H.，Lehrmann，A.，Han，B.，Sigal，L.：使用视觉对话的注意记忆的视觉参考解析In：NIPS（2017）27. Shen，W.，Liu，R.：学习人脸属性操作的残差图像在：CVPR（2017）28. 太阳，Q.，Tewari，A.，徐伟，Fritz，M.，Theobalt，C.Schiele，B.：一种基于人脸替换的身份混淆混合模型1804.04779（2018）29. Xiao，T.，Hong，J.，Ma，J.：Elegant：与gan交换潜在编码以传输多个面部属性。1803.10562（2018）30. 徐，T.，张，P.，黄，Q，张洪，甘Z黄，X.，He，X.：Attngan：使用注意力生成对抗网络的细粒度文本到图像生成。来源：CVPR（2018）31. Yan，X.，杨杰，Sohn，K.，Lee，H.：Attribute2image：从视觉属性生成有条件的图像In：ECCV（2016）32. 张洪，徐，T.，Li，H.，Zhang，S.，（1991），中国农业科学院，王，X.，黄，X.，Metaxas，D.：Stack-gan：使用堆叠生成对抗网络进行文本到照片级逼真图像合成In：ICCV（2017）33. Zhao，B.，Wu，X.，中国农业科学院，Cheng，Z.Q.，刘洪，杰，Z.Feng，J.：从单视图生成多视图图像于：MM（2018）34. Zhu，J.Y.，Par

下载后可阅读完整内容，剩余1页未读，立即下载