可控非成对领域翻译的学习风格子空间

137 浏览量更新于2023-10-16 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4220可控非成对领域翻译的学习风格子空间不列颠哥伦比亚加拿大温哥华gauravbhatt.cs. gmail.com海得拉巴印度理工学院印度海得拉巴vineethnb@cse.iith.ac.in摘要非配对域到域转换旨在学习不同模态之间的域间关系，而不依赖于配对数据，这可以帮助复杂的结构预测任务，例如年龄转换，其中获得配对样本是具有挑战性的。当前大多数方法使用的一种常见方法是将数据分解为域不变的内容空间和域特定的样式空间。在这项工作中，我们认为，风格空间可以进一步分解成更小的子空间。学习这些样式子空间有两个好处：（i）它允许更稳健和可靠性-不成对域翻译中图像生成的效率;以及（ii）它允许更好的控制，从而允许潜在空间的内插，这在涉及多个域的复杂翻译任务中是有帮助的。为了实现这种分解，我们提出了一种新的可扩展的方法来划分潜在空间到风格子空间。我们还提出了一个新的评价指标，量化的可控生成能力的域transla-灰方法。我们将我们提出的方法与celebA-HQ和AFHQ数据集上的标准域翻译任务（如性别翻译（男性到女性和女性到男性），年龄转换，参考引导图像合成，多域图像翻译和多属性域翻译）进行了比较。所提出的技术实现了国家的最先进的perfor-曼斯在各种领域的翻译任务，而outperform-形成可控生成任务的所有基线。代码-https://github.com/GauravBh1010tt/ 可控域-翻译1. 介绍将数据从一个域转换到另一个域需要对复杂的域间关系进行建模。最近的研究表明，深层生成模式的有效性，例如生成对抗网络（GAN）和其他用于域翻译任务的潜在变量模型[26、18、1、16、25、20、8、6、14、5、23]。近年来受到关注的领域翻译的一个特定设置是使用未配对数据。在许多应用程序中，访问配对数据可能是一个瓶颈，因为它需要大量的人力来捕获数据。不成对域到域翻译（UDT）利用来自两个不同域的不匹配对来学习域UDT的目标是在成对样本不可用的约束下将数据从源域转换到目标域，即，对于源域中的任何样本，我们都不能访问目标域中的最新UDT方法采用的一种常见方法是将图像分布分解为有助于跨域捕获信息的域不变内容空间和用于捕获样式变化的域特定样式空间[12，25，20，16，9]。然而，使用单个风格空间来捕获图像中的不同风格变化可能限制域的可靠翻译，因为不同风格变化可能在各个级别上混合。例如，考虑性别翻译中的两个常用案例：（i）生成与秃头男性图像对应的女性图像;以及（ii）生成具有与女性图像对应的胡须的男性图像。在这种情况下，基于特定风格特征可靠地翻译图像可以实现忠实的翻译。一种可能的补救方法是将样式空间分解为更小的样式子空间，其中每个子空间控制数据中这反过来又允许对整个样式空间进行受控的插值在这项工作中，我们专注于学习分割的风格空间，以实现可靠的UDT，这有助于我们减轻现有UDT方法（如[12，25，20，16，9，8]）对不可靠翻译的限制实现这种风格分解的思想可能需要现有方法中的几个子空间编码器，这些子空间编码器在实践中可能是不可扩展的。这里要考虑的另一个重要方面是，尽管样式子空间彼此不依赖，但它们在生成期间可能不相互排斥。也就是说，可以生成4221×图1.可控制的男性对女性的翻译。顶部块捕获了我们的方法底部方框显示了使用StarGAN v2 [8]获得的结果，以进行比较。提出的方法从不同的子空间，如老人/年轻人，微笑/非微笑产生样本;而StarGAN v2在其翻译中缺乏对这种多样性的控制。通过组合来自多个子空间的输入因此，使用单独的编码器网络可能不是并入此类样式子空间的可行解决方案在这项工作中，我们提出了一种新的方法来学习一个单一的潜在空间来表示域的风格元素，但在学习过程中，通过将其划分为更小的子空间来分解该风格空间。这是通过使用可学习的划分网络将一组潜在维度与特定子空间相关联来实现的。在特定的潜在组中进行插值，使我们能够可靠地翻译专注于由风格子空间表示的特定属性的样本，正如我们在结果中所显示的那样学习分区的样式空间给我们带来了在翻译过程中组合多个子空间例如，使用所提出的方法，我们可以将给定的男性图像转换为女性图像，该女性图像是旧的，具有特定的头发颜色并且是微笑/非微笑的。大多数现有的UDT方法（例如（[17，4，12，25，20，16，9，8]））不能在翻译中实现由所提出的方法实现的这样的粒度。此外，我们设计了我们的架构和训练过程，以整合有效域转换的所有基本属性-高质量图像合成，处理多个域，参考引导图像合成，可控生成和可扩展训练。图1显示了示例结果，显示了我们方法的能力，并将其与广泛使用的UDT方法StarGANv2 [8]进行了比较。我们在这项工作中的主要贡献概述如下：• 我们假设并证明，分解特定领域的风格空间在不成对域到域（UDT）的翻译任务到更小的风格子空间允许可靠的可控翻译。• 我们提出了一种新的方法来学习的风格空间，通过划分成子空间，捕捉所需的，可控制的UDT翻译的部分。我们的训练过程在实践中是可扩展的，可以用来合成高质量的图像（256 - 256）时，在一个单一的特斯拉P100 GPU上训练。• 为了评价领域转换方法在可控生成任务上的性能，我们引入了一个新的评价指标，该指标量化了任何领域转换方法的可靠生成程度。• 我们提出了全面的结果，包括高分辨率生成，显示了我们的方法在基准数据集CelebA-HQ和AFHQ上的最先进基线上的有用性和控制。2. 相关工作大多数未配对域翻译的工作可以大致分为五类：高质量图像合成、处理多个域、参考引导图像合成、可控生成和可缩放训练。我们在下面描述了从每个角度进行的相关工作高质量图像合成-域到域转换中的现有工作主要是使用具有循环一致性的通用对抗网络（GAN）[26，27，18，1，12，7，15，22，2，3，16]。[26]第二十六话是第一个引入循环一致性思想的工作，当域之间的配对信息不可用时，该思想是有效的。Cycle-GAN固有地对图像到图像映射进行建模，这也导致模式崩溃并限制高质量图像的生成。后来的工作表明，这种模式崩溃可以解决嵌入的潜在空间[1，12，16，25，20]。用GAN嵌入潜在空间会导致不同的图像合成，因为模型学习多模态映射。处理多个域- 大多数现有的UDT方法仅限于两个域[26，12，16，25，20]。StarGAN[6]是第一个有效地同时处理多个域的方法然而，StarGAN不使用潜在空间的嵌入，因此学习确定性映射。最近，StarGAN v2 [8]提出处理多个域，其中映射是多模态的。参考引导的图像合成-将数据划分为内容和样式空间的想法提供了对参考引导的图像合成的访问，其中可以使用给定参考图像的样式信息来转换图像。MUNIT-GAN [12]是最早引入这一思想的方法之一最近，其他一些作品也纷纷效仿，并允许通过使用内容和样式空间进行参考引导合成可控生成- 虽然UDT翻译的大部分焦点都集中在高质量的图像合成或汉化上，4222··P∈联系我们--2222N联系我们∈{D D}∈∈{D D}DDXsrc和Xtrg）。我们的主要目标是学习g（）从Xsrc到Xtrg的翻译。我们在具有挑战性的环境中运作，在此环境中，训练是不成对的，即，<$xs∈Xsrc，g（xs）∈/Xtrg.表 1. 分类的 UDT 翻译方法。在这里，✓表示是否满足特定属性。在多个领域中，可控生成的想法（其中生成的图像可以由可以指定的因素控制DosGAN [17]在域转换期间使用属性预训练分类器，这有助于学习域之间的解纠缠。在另一项工作中，[4]引入了隐空间的同调插值，以实现UDT翻译的可控生成。可扩展的训练-大多数领域翻译方法都基于生成模型，这些模型在训练时需要大量计算。因此，可扩展性是提出任何新架构时需要考虑大多数UDT翻译方法由一对生成器和鉴别器组成（从源到目标，反之亦然）[12，16，20，25]，这使得它们无法同时处理多个域。一些新的方法采用了不同的训练范式，例如学习生成器网络的理事会[20]，或利用对抗一致性[25];尽管如此，它们的训练过程不能扩展到合并多个域。可扩展性问题由StarGAN [6]及其后续StarGAN v2 [8]更好地处理。Start-GAN v2引入了使用单个生成器框架的想法，可以减少计算负担并允许可扩展的训练。在这项工作中，我们通过引入分区网络将样式空间划分为更小的子空间。学习风格子空间特定潜伏期的想法为我们提供了高质量可靠的UD2D翻译，优于现有的非可控方法，如[12，25，20，16，9，8]。当与可控生成方法（如[17，4]）相比时，所提出的方法实现了粒度转换，如组合多个样式子空间（将在第4.2节中讨论），这是现有的可控生成方法无法实现的。我们在3.6节中进一步讨论了所提出的方法与现有方法3. 该方法3.1. 问题公式化我们首先引入来自源域X src的数据src和目标域Xtrgtrg（P src和P trg表示域上的概率分布我们的具体目标是通过一个潜在空间来学习g（），该潜在空间可以分解为子空间，使我们能够在给定xsXsrc的情况下控制trg中样本的生成。例如，在人类面部图像中，子空间可以对应于诸如头发颜色、年龄或微笑的属性。因此我们将其称为样式子空间不可识别性问题。由于未配对的设置，可能无法识别与训练期间给定的数据对xs，xt例如，在男性到女性的翻译的情况下，样本xs可以是具有黑色头发和胡须的男性，而样本xt可以属于具有金色头发并且没有面部毛发的女性考虑到有一个以上的属性变化，关联，INGxs和xt到一个共同的子空间（说，头发颜色）是不可能的。我们把这个问题称为不可识别性。为了解决这个问题，我们假设一个联合分布的两个域的条件下，潜在的分布，可以因式分解的基础上的风格子空间。我们在下面描述了实现这一目标的框架。3.2. 拟议框架如图1所示，我们提出的架构有四个基本模块：风格编码器、映射网络、划分网络和生成器（具有风格混合网络）。由于在未配对的域翻译任务中可以在两个方向上进行训练，因此为了方便和清晰起见，我们将两个域称为1和2我们假设潜在空间被划分为K风格编码器。我们的样式编码器E接收图像xi，i1， 2，并提取样式向量f x=Ei（ E1（xi）），i1，2，其中f xR1是1维向量，E1对应于编码器的共享层，Ei对应于域特定层。的样式编码器被设计成使得仅神经网络层的最后块特定于域i（其余层跨域共享）。这种架构设计使我们的培训更加高效。地图网络。为了在翻译后的图像中引入多样性，我们引入了一个映射网络M，该网络从标准正态高斯z（0，1），并生成随机样式向量f z=M i（M1（z）），is，t，其中f，zR1，M1对应于共享层，Mi对应于域特定层（类似于编码器）。映射网络分区网络。我们架构的这个组成部分是方法高质量多域参考引导可控可扩展UNIT-GAN [18]-----CycleGAN [26]-----[12]第十二话✓-✓--DRIT++[16]✓✓✓--[20]第二十话✓-✓--[25]第二十五话✓-✓--StarGAN v2 [8]✓✓✓-✓DosGAN [17]-✓---单应性[4]-✓-✓-提出✓✓✓✓✓4223{D D}zp∈{D D}DDX1212Elog（1−D（G（xi，fp）pp联系我们∈{D D}jvec图2.我们提出的可控不成对域翻译模型的架构重要的是解决不可识别性问题。为此，我们引入一个划分向量p vec0，1K（其中K是子空间的数量），存储样式子空间计算对应于给定源-目标对的分区向量，即，我们有：[x<$x，p<$x]=G（xi，fx）jvec p每个训练样本的信息。特别地，pvec是[x<$z，p<$z]=G（x，f z）（2）被设计为独热向量，其中第k个位置指的是第k个子空间，并且当该样式存在于给定图像中时被设置为1。(For例如，在一个实施例中，具有黑色头发和微笑女性的面部图像将与两个相关联jvecip其中i，j，使得ij（即输入和输出来自两个不同的给定域）。因此，生成器输出[x<$x，p<$x]对应于实数im。pvec向量-一个用于头发颜色，另一个用于微笑）。给定来自D和D的具有共同特征的J年龄输入，以及[x<$z，p<$zvec]对应于噪声输入。(say，黑发），我们通过相应的一个热的para-hot-将分割向量pvec转换为分割网络PN，该分割网络PN将分割向量变换为L维类型向量fp=PN（pvec）。这个网络的行为就像一个额外的输入，以指导翻译图像的风格化生成总体框架。3.3. 培养目标我们现在描述用于训练我们的框架的目标.对抗训练。给定源图像样本x，i∈为了实现这一点，我们将fp与fx和fz（定义为zi以上）以获得两个向量：fx=[fp;fx]和fz=[fp;fz]（1）1，2及其从映射网络M采样的分块样式向量fp，生成器合成一个反式-在ta r get域中的lated图像，我们用一个-p pj每个域的criminatorDi（架构类似学习fp，fx和fz有利于风格的识别p p到样式编码器）来计算对抗性损失：这些维度负责生成对应于特定子空间的样本生成器（带风格混合网络）。我们的生成器模块G，如图1所示，首先提取内容-L高级=Exi，i∈{D1，D2}ElogDi（xi）log（1−Di（G（xi，fz）<$（3）从给定图像x i，i1、二、这个骗局-tent块由卷积层、批归一化层和下采样层组成。内容块的输出被馈送到风格混合网络，该风格混合网络还将分区网络的输出fx和fz作为输入。风格xi，i∈{D1，D2}n（0，1）我们计算上述损失给定输入样本从两个1和2.对于通过发电机获得的其他输出，也计算了类似的损失，如下所示：p p混合网络由卷积块和自适应实例规范化（AdaIN）层[11]来促进这一点L高级=Ex，i∈{D，D}logDi（xi）混合。AdaIN的参数是通过传递fx和fz（分别）通过几个神经网络层。I12xi，i∈{D1，D2}ix生成器的最后一部分由图像生成器组成分割块和分割向量生成模块。这两个块都将风格混合网络的输出作为输入。图像生成块在目标域中合成经平移的图像，而分区向量生成器生成经平移的图像。我们将在下一节中展示如何使用这些来训练（四）Σ4224Eqn 3促进从目标分布生成不同的样本，而Eqn 4促进从目标分布生成与给定输入xi4225{→}{→}联系我们2z2LMDDMMnpar2vecvec2vecvec21分割向量。给定由生成器生成的分区向量p_nvec（如上所述），我们通过最小化生成的分区向量与原始输入分区向量pvec：L=.||+的||p −p||第 2章（5） ||2Σ(5)翻译：男性女性和女性男性;以及自我模态翻译：男性男性和女性女性在我们的实现中，我们做了一个抛硬币来选择每个批次的源和目标域。这个简单的策略是可扩展的，在我们所有的实验中都很有效。推理。在推理过程中，我们的模型有两种选择分区丢失鼓励生成器不仅从目标域生成相关图像，而且还意识到正在考虑的样式（这使我们能够翻译一张图片：我们可以提取风格信息使用风格编码器E从参考图像，然后使用适当的域信息，生成焦油。改变输入pvec 从推理到控制使用生成器G得到域图像。或者，我们可以从映射网络中随机抽取一个样式向量标签生成具有不同样式的相同内容）。分区一致性丢失。为了确保翻译后的图像保持源域的属性，我们引入了一个变种的循环一致性损失。我们计算原始样本xi和生成样本xi对应的划分样式向量，并计算L2损失在这两个向量之间：Lpc=||[fp;E（xi）]−[fp;E（x<$i）]||第二章（六）其中x∈i是使用生成器G（xi，fx）生成的（参见工作M并使用生成器G合成图像。有趣的是，我们证明了我们可以通过简单地改变parti- tion向量值pvec来实现推理时的控制标记生成。由于每个维的pvec现在是与一个特定的风格子空间，我们可以插在这个第k次子空间通过改变第k维的pvec。我们的模型还允许组合多个子空间（其中pvec作为二进制向量而不是独热向量传递），这为图像生成提供了多个等式2），pE（xi）表示样式编码器对于所需属性。xi，E（xi）表示x i的样式编码器的输出，并且每个[f p;E（x）]项如等式1中所定义。注意，虽然图像空间上的L2范数可能不反映人类视觉感知，但潜空间中的L2范数通常更有意义。使用分区的潜在空间允许我们使用简单的L2或L1范数有效地进行比较。其他损失。除了上述损失项之外，我们还使用了[8][12]中的风格重建损失，以及[19]中的R1-正则化子损失，考虑到它们对域转换的有效性。这些损失项有助于实现高质量的翻译和更好的训练收敛。我们把它们一起记为o。最终训练目标。我们的最终培训目标是：3.5.可控发电显示可控UD 2D平移的现有方法[17][4]广泛使用定性结果来证明控制。为了改善这一点，我们引入了一个新的定量度量，研究平均可控发电（ACG）的域平移方法。ACG被定义为通过针对每个属性的存在和不存在在生成的图像上训练分类器而获得的数据集中的属性的平均分类准确度例如，我们考虑在广泛使用的CelebA数据集中提供的我们还使用了微笑+年龄、微笑+黑发等属性的组合，总共为我们提供了16种风格属性X最小最大L+Lz+λparLpar+λpcLpc+λoLo（定义我们的样式子空间）。接下来，我们训练一个多-英、男、女、男、女AdvAdv（七）标签分类器（CACG），输出层神经元为16。对于一个给定的域平移模型，我们生成图像的条件上的上述16个子空间。让源头其中，λpar、λpc和λo控制赋予分区损失、一致性损失和其它损失。3.4.训练和推理训练在训练过程中，我们在提供1和2的图像作为输入之间切换，以便模型学习双向映射。在每种情况下，对应的特定于域的层都被激活，而传递的图像为xs，子空间k的平移图像为xk=（xs，k）。我们计算在上述数据上训练的分类器的分类精度我们期望，对于一个给定的子空间，如果翻译的质量，都很好因此，ACG计算为：15N网络的其余部分是共享的（参见图1）。我们的框架-ACG=1 1μmAcc（C（x）（k）;（c）（k）（8）work还允许从域到自身的转换，其中生成器从源域生成图像，N15k=1n=1ACGn n自我（我们称之为自我模态翻译）。换句话说，其中N是针对每个子帧生成的样本的数量。给定域男性和女性，我们学习跨模态空间，ck是给定的4226Msample. (We在我们的实验中使用N=500）。较高的ACG值对应于较好的受控发电。我们还计算ACG@r，其中模型有r次机会来预测子空间标签。对于所有可控的生成方法-3.6.与现有UD2D方法的我们引入映射网络的想法也在一些基于styleGAN的作品中进行了探索[21，8]。映射- ping网络具有优于基于VAE的方法的优势，基于VAE的方法试图在生成中实现控制，如这些努力中所示。所提出的方法与StarGAN-v2 [8]有一些相似之处，例如使用特定于域的层来处理多个域和映射网络。然而，StarGAN-v2有一个不同的目标，增加分区网络和分区损失允许我们解决不可识别性问题，并为我们提供在StarGAN-v2上实现可控生成的能力。我们还将图像分解为内容空间和风格空间，类似于MUNIT-GAN[12] 及其最新的变体 ACL-GAN [25] 。尽管如此，MUNIT-GAN 变体（ Council-GAN[20] ， ACL-GAN[25]）都没有实现可控发电。此外，这些方法使用多个生成器-鉴别器进行双向翻译。我们使用更简单的架构来实现我们的目标。DosGAN [17]在可控生成方面使用预先训练的分类器引入了分类损失。它们的架构不是端到端训练的，因此在平滑插值潜在空间方面存在不足。一种更新的方法[4]使用插值网络来学习用于UD2D翻译的各种路径。他们的方法每次仅限于一条路径，因此无法学习通过组合多个子空间实现的复杂粒度翻译（参见我们的研究第4例如，当以多个属性为条件时，他们的方法不支持男性到女性的翻译。我们的思想和方法来划分属性空间给我们更多的灵活性和鲁棒性来控制风格空间，同时保持质量和多样性。4. 实验和结果我们在celebA-HQ [13]（具有属性的名人）和AFHQ[8]（动物面孔HQ）数据集上评估了我们模型在各种UDT任务上的性能：性别转换（男性到女性和女性到男性）、年龄转换（老人到老人、老人到年轻人）、参考引导的图像合成、多属性域转换和多域图像转换。我们将我们的工作与UDT的几个强基线进行比较，例如 CycleGAN [26] ， MUNIT-GAN [12] ，DRIT++[16]，Council-GAN [20]，[25]，[26]，[27]，[28]，[29]。mographic interpolation [4]. 在我们所有的实验中，λpar和λpc为1。为了评估翻译图像的多样性和质量，我们使用LPIPS评分（学习感知图像块相似性）[24]和FID度量（Frechet Inception Distance）[10]。对于LPIPS评分，我们为每个测试数据生成10个样本，而对于FID，我们生成5000个假样本，用于计算生成的分布统计量。(Due（由于空间限制，请参阅我们的补充资料一节以了解实施细节）。4.1. 数据集准备我们使用CelebA-HQ数据集中提供的10个属性作为样式子空间：“眼袋”、“大嘴唇”、“金发”、“大鼻子”、“黑发”、“双下巴”、“椭圆脸”、“微笑”、“棕色头发”、“年轻”。在训练之前，我们将数据划分为各自的子空间，每个子空间有5000对（男性和女性），总计50000对的训练集。对于celebA-HQ的测试，我们使用[8]提供的相同分割进行公平比较;这包括测试组中的1000对男女。为了评估所提出的方法在参考引导图像翻译上的性能，我们使用AFHQ数据集[8]进行动物翻译任务。具体来说，我们执行猫到狗和狗到猫的翻译。AFHQ数据集由5000个狗和猫的训练样本组成，而每个领域的1000个样本用于测试。4.2. 结果和讨论性别翻译。性别转换任务的结果在这里，我们评估男性对女性和女性对男性翻译任务的建议模型我们使用映射网络M来使用高斯噪声z=N（0，1）平移给定的源样本。该方法实现了最高的LPIPS值和最低的FID分数，这表明我们可以保持生成的图像之间的多样性和其他尝试可控生成的方法- DosGAN [17]和同态插值[4]-不能产生高质量的样本，这反映在它们较高的FID分数中。可控的一代。我们使用所提出的ACG metric来评估所提出的方法在可控发电上的性能（表3）。我们将ACG@1用于所有可控UDT方法，如DosGAN [17]和同态插值 [4] 。对于其他方法，如 Star-GAN v2 [8] ，MUNIT-GAN [12]，ACL-GAN [25]，它们不尝试可控发电，我们评估ACG@1和ACG@5的性能，以给它们最好的机会（更多实验请参考补充部分）。所提出的方法优于所有基线4227∈方法雄对雌LPIPS ↑FID↓母对公LPIPSFID[12]第十二话0.3619.020.3523.42DRIT++ [16]0.3724.610.3525.12[20]第二十话0.4218.100.4121.16同形[4]0.4021.420.3923.12[25]第二十五话0.4316.630.4318.31DosGAN [17]0.3822.150.3724.23StarGAN v2 [8]0.4513.920.4416.78提出0.4611.790.4516.42表2. celebA-HQ上性别翻译任务的结果（男性对女性和女性对男性）。我们根据生成样本的质量和多样性来评估性能。↑表示越高越好，而↓表示需要较低的值。方法男性对女性ACG@1ACG@5女性对男性ACG@1ACG@5[12]第十二话0.400.410.370.39[25]第二十五话0.410.420.380.40StarGAN v2 [8]0.430.450.400.42DosGAN [17]0.45-0.45-同形[4]0.47-0.47-提出0.57-0.59-表3. CelebA上的平均可控生成结果HQ数据集可控发电任务。ACG度量在可控和不可控方法之间变化很大，这证明了它们（不可控方法）无法学习可靠的域转换。在许多情况下，不可控的方法总是失败，如图1所示，对于给定的男性图像，StarGAN v2无法生成旧的女性图像或没有微笑的女性图像。相比之下，所提出的方法可以可靠地翻译图像使用不同的风格子空间，实现更好的控制代。前后向插值。在训练期间，分区向量（pvec）通过将pvec的第k维度与控制特定子空间k的一组潜在项相关联来学习潜在项到子空间分区。在推断期间，p vec允许我们通过改变p vec的第k个维度并且然后生成ta rgetsamplext来在特定样式子空间上线性插值。pvec[k]=δ;δ∈ {−∞，+∞}（9）fp，fz=PN（pvec），M（z）;z∈ N（0，1）（10）f z=[fp;fj];xt=G（xs，f z）（11）图3.用于性别翻译的前后向插值。上面的块表示在“年龄”子空间上的插值在每个块中，顶行示出男性到女性的平移，并且底行示出女性到男性的平移。图4.年龄转换的结果在这里，前向翻译对应于年长者到年轻者，而后向翻译指的是年长者到年长者的翻译。p p而负值意味着较少或没有微笑。的其中δR是赋予第k个子空间的权重。有趣的是，我们发现可以通过使用δ的负值在向后方向上插值子空间。后向插值在诸如“年龄”子空间的情况下具有重要意义，其中前向插值指的是使经平移的图像更年轻，而后向插值指的是使其更老。同样，对于前向-后向内插的结果如图3所示，其中我们通过跨风格子空间内插来实现可控的性别转换。年龄变化。我们的架构和训练过程的设计允许我们执行特定于领域的转换（自模态翻译，如第3.4节所述）。在推理时，使用特定领域的层，我们实现了年龄转换（年龄到老年和老年），4228XX方法猫对狗LPIPS↑ FID↓狗对猫LPIPS FID[12]第十二话0.2921.320.3045.23DRIT++[16]0.3020.150.3344.87[20]第二十话0.3216.230.3940.98同形[4]0.3019.250.3543.68[25]第二十五话0.3315.050.4041.07DosGAN [17]0.3019.640.3447.34StarGAN v2 [8]0.3510.060.4139.05提出0.377.500.4239.31图5.结合'年龄'和'金发颜色'风格子空间，同时执行男性到女性的翻译。这里，横轴是在同一个领域。使用等式9 - 11合成图像，其中对应于年龄子空间的δ老到年轻的翻译是通过向前插值实现的，而老到老的翻译是通过向后插值实现的。年龄转换的结果如图4所示。我们的方法提供了平滑插值的风格空间。当δ为负值时，生成的图像较旧，而当δ为正值时，生成的图像较新。组合多个样式子空间。本文提出的学习风格子空间的思想，使我们能够将多个子空间结合起来，从而实现多属性领域翻译。如图5所示，我们通过同时在“年龄”（k 1）和“金发颜色”（k 2）子空间内插来实现这是通过将δ1与在这种情况下，划分向量是具有权重δ1和δ2的向量。图5示出了所提出的方法如何通过在样式子空间上平滑地插值来允许跨多个子空间的可控生成。这些结果证明了我们的有效性可控的方法，如[4]和[17]。参考引导的图像合成。在参考引导的图像合成中，在推理时，我们从给定的源图像中提取内容信息，而从另一个参考图像中提取风格给定两个源图像（xc和xs），我们使用样式编码器E来计算图像xs的特征向量fs。生成器G将xc作为输入，而样式信息以fs的形式提供。狗对猫和猫对狗表4.AFHQ数据集上动物翻译任务的结果（猫对狗和狗对猫）。图6. AFHQ数据集上的参考引导图像翻译。这里，内容信息（x c）从顶行提取，而第一列用于获取引用样式（xs）。表4中报告了翻译任务我们使用FID和LPIPS评分来验证翻译的质量和多样性。与其他基线相比，所提出的方法获得最高的LPIPS我们还使用AFHQ数据集来评估参考引导的图像翻译任务。这些结果示于图6中。5. 结论在这项工作中，我们提出了一种新的架构，以实现可控生成不成对的领域翻译，基于学习风格子空间。评价为了提高模型分区网络和分区丢失的引入在不同数据集上的可控域转换任务上优于各种UDT方法[8，25，17，4]，表明所提出的方法的有用性。4229引用[1] Amjad Almahairi、Sai Rajeshwar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的Cy-cleGAN：从非配对数据学习多对多映射。在Jennifer Dy和AndreasKrause，编辑，第35届机器学习国际会议的首席执行官，机器学习研究论文集第80卷，第195PMLR。[2] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根：从非配对数据学习多对多映射。 arXiv 预印本 arXiv ：1802.10151，2018。[3] Asha Anoosheh、Eirikur Agustsson、Radu Timofte和LucVan Gool。Combogan：图像域转换的无限制可扩展性。在IEEE计算机视觉和模式识别研讨会会议论文集，第783-790页[4] Ying-Cong Chen ， Xiaogang Xu ， Zhuotao Tian ， andJiaya Jia.用于不成对图像到图像平移的同态潜空间插值在IEEE计算机视觉和模式识别会议论文集，第2408-2416页[5] Eleni Chiou，Eleftheria Panagiotaki和Iasonas Kokkinos。超越确定性翻译的无监督域适应。arXiv预印本arXiv：2202.07778，2022。[6] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页，2018年。[7] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页，2018年。[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页[9] Abel Gonzalez-Garcia ， Joost Van De Weijer ， andYoonne Bengio.跨域解纠缠的图像到图像转换。神经信息处理系统的进展，第1287-1298页，2018年[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年[11] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年[12] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议论文集（ECCV），第172-189页，2018年。[13] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[14] Kunhee Kim，Sanghun Park，Eunyeong Jeon，TaehunKim，and Daijin Kim.一种用于可控图像翻译的风格感知的翻译器在IEEE/CVF计算机视觉和模式识别会议论文集，第18239-18248页[15] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。arXiv预印本arXiv：1703.05192，2017。[16] Hsin-Ying Lee ， Hong-Yu Tseng ， Qi Mao ， Jia-BinHuang，Yu-Ding Lu，Maneesh Singh，and Ming-HsuanYang. Drit++：通过解纠缠表示实现多样化的图像到图像翻译国际计算机视觉杂志，第1-16页[17] Jianxin Lin，Zhibo Chen，Yingce Xia，Sen Liu，TaoQin，and Jiebo Luo.探索显式域监督在非成对图像到图像翻译中的潜在空间解纠缠。IEEE Transactions onPattern Analysis and Machine Intelligence，2019。[18] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统的进展，第700-708页，2017年[19] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？机器学习国际会议，第3481- 3490页。PMLR，2018。[20] Ori Nizan和Ayellet Tal。打破循环--你只需要同事。在IEEE/CVF计算机视觉和模式识别会议论文集，第7860-7869页[21] Stanislav Pidhorskyi，Donald A Adjeroh，and GianfrancoDoretto.对抗性潜在自动编码器。在IEEE/CVF计算机视觉和模式识别会议论文集，第14104-14113页[22] Yaniv Taigman Adam Polyak和Lior Wolf非监督跨域图像生成。arXiv预印本arXiv：1611.02200，2016。[23] Dvir Yerushalmi，Dov Danon和Amit H Bermano。通过多流生成器对无监督的图像到图像翻译任务进行杠杆式域内监督。arXiv预印本arXiv：2112.15091，2021。[24] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShecht-man和Oliver Wang。深度特征作为感知度量的不合理有效性。在IEEE计算机视觉和模式识别会议论文集，第586-595页[25] Yihao Zhao，Ruihai Wu，Hao Dong.使用对抗一致性损失的不成对arXiv预印本arXiv：2003.04858，2020。[26] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在Proceedings of the IEEE4230国际计算机视觉会议，第2223- 2232页[27] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei

下载后可阅读完整内容，剩余1页未读，立即下载