无配对图像到图像翻译的同态潜空间插值

82 浏览量更新于2023-10-19 收藏 12.9MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

24080无配对图像到图像翻译的同态潜空间插值0陈应聪1 徐晓刚1 田卓涛1 贾宏图1,201 香港中文大学 2 腾讯优图实验室0{ ycchen,xgxu,zttian,leojia } @cse.cuhk.edu.hk0摘要0生成对抗网络在无配对图像到图像翻译中取得了巨大成功。循环一致性允许建模两个不同领域之间的关系，而无需配对数据。在本文中，我们提出了一种替代框架，作为潜空间插值的扩展，考虑了翻译过程中两个领域之间的中间区域。这是基于一个事实，即在一个平坦且平滑的潜空间中，存在许多连接两个样本点的路径。适当选择路径可以仅改变某些图像属性，这对于生成两个领域之间的中间图像是有用的。我们还展示了这个框架可以应用于多领域和多模态翻译。广泛的实验证明了它的普适性和适用性于各种任务。01. 引言0无配对图像到图像翻译和潜空间插值分别独立发展并服务于不同的应用。无配对图像到图像翻译[28, 9, 14,4]旨在将图像从一个领域映射到另一个领域，例如将一组中性面孔翻译为微笑面孔。由于没有配对信息可用，不同领域之间的连接通常建立在循环一致性约束[28]上，这在很大程度上提升了生成模型的能力，并产生了许多令人印象深刻的结果。当目的是生成输入两个领域之间的一系列图像时，应考虑中间状态，然而这超出了循环一致性约束的能力。我们在图1中展示了一个例子 - 直接使用StarGAN[4]不能生成一个自然的序列（或表情流）以逐渐闭嘴。在（c）和（d）之间存在快速变化。另一方面，潜空间插值[11, 21,22]专注于基于深度神经网络将中间状态。具体来说，如果x和y分别从两个不同的领域X和Y中采样，从x连续地向y在潜空间中移动会产生从领域X到Y的逼真图像。尽管这个方法具有良好的性质，但它不能直接用于图像到图像的翻译，因为它不能区分不同的属性因子，因此使得复杂的表情转换与身份或背景的变化纠缠在一起。此外，插值路径以y结束，而不是x的翻译版本。在本文中，我们解决了无配对图像到图像翻译中的潜空间插值。这种解决方案固有地允许建模不同领域之间的中间区域，并具有多领域和多模态翻译的重要和吸引人的能力。由于在一个平坦且平滑的潜空间中，存在许多路径来连接两个样本，沿着不同路径插值会产生多样的中间结果[24]。我们的想法是选择仅对应于某个属性分量的路径，以使过渡对人类感知自然。这里的术语属性定义了图像领域。例如，笑容属性将面部图像分为笑容和非笑容领域。图2提供了一个例子，展示了翻译过程中的中间结果。0StarGAN0(a) (b) (c) (d) (e) 图1.在“张嘴”领域（a）和“闭嘴”领域（e）之间渲染中间状态。第一行的结果是由StarGAN[4]生成的。通过连续改变输入的领域标签来实现渲染中间状态。(c)和(d)显示了表情的突然变化。我们在第二行的结果中建模了中间区域，并展示了平滑的翻译效果。0可以将自然图像建模为平坦且平滑的分布。具体而言，如果x和y分别从两个不同的领域X和Y中采样，在潜空间中从x向y连续移动会产生从领域X到Y的逼真图像。尽管这个方法具有良好的性质，但它不能直接用于图像到图像的翻译，因为它不能区分不同的属性因子，因此使得复杂的表情转换与身份或背景的变化纠缠在一起。此外，插值路径以y结束，而不是x的翻译版本。在本文中，我们解决了无配对图像到图像翻译中的潜空间插值。这种解决方案固有地允许建模不同领域之间的中间区域，并具有多领域和多模态翻译的重要和吸引人的能力。由于在一个平坦且平滑的潜空间中，存在许多路径来连接两个样本，沿着不同路径插值会产生多样的中间结果[24]。我们的想法是选择仅对应于某个属性分量的路径，以使过渡对人类感知自然。这里的术语属性定义了图像领域。例如，笑容属性将面部图像分为笑容和非笑容领域。图2提供了一个例子，展示了翻译过程中的中间结果。24090路径10路径20路径30(a)0(b)0(c)0(i) 不微笑 → 微笑 (ii) 男性 → 女性0(i) 男性 → 女性 (ii) 不微笑 → 微笑0(iii) 改变其他因素0(iii) 改变其他因素0(iii) 改变其他因素 (i) 不微笑 → 微笑 (ii) 男性 → 女性0图2.沿不同路径的潜在空间插值示意图。路径1和路径2分别连接(a)“不微笑男性”和(b)“微笑女性”。它们以不同的顺序改变面部属性，即路径1先改变微笑表情，而路径2插值性别。它们自然地用于多领域图像到图像的翻译任务，其中路径1(i)和路径2(i)形成了微笑和不微笑领域以及男性和女性领域之间的翻译。路径3(i)合成了与路径1(i)不同的微笑。因此，使用不同的目标领域样本，我们的方法可以产生每个领域所需的输出，称为多模态图像到图像的翻译。最后一行的图像序列说明了路径3(i)的连续变化。0通过沿路径1(i)（或路径2(i)）插值，可以实现男性和女性（或微笑和不微笑）之间的过渡。除了多领域和连续翻译能力，如路径1(i)和路径3(i)所示，该模型还可以处理多模态翻译。根据这个原则，我们方法的关键是一个可控的插值器，其输出由向量v控制。v的每个元素对应于每个属性的混合指示器。以图2的路径3(i)为例。一个合适的v只处理(a)和(c)之间的微笑属性，同时保持其他属性不变。尽管有希望，但这个策略需要克服一些困难。首先，插值只允许在平滑和平坦的空间中进行。VAE[13]对潜在特征空间施加了高斯先验，以允许插值。然而，它可能会生成模糊的结果，因为高斯先验可能不足以模拟复杂的自然图像。我们的解决方案是直接最小化插值样本和真实样本之间的Wasserstein距离。这使得插值样本分布尽可能接近真实样本。我们还引入了一个知识引导损失，利用训练良好的网络来规范化潜在空间，进一步提高插值质量。最后，引入同态损失来训练可控的插值器。我们的总贡献是多方面的。0•我们提出了一种基于插值的无配对图像到图像翻译框架，适用于多领域、多模态和连续翻译任务。0•我们提出了一些重要的策略来训练我们的模型，实现可插值的潜在空间和可控的插值器。0•大量实验证明我们的模型能够生成高质量的结果，并且灵活适用于各种应用。02. 相关工作0潜在空间插值潜在空间插值广泛用于可视化平面特征空间中的流形结构[10, 1, 21, 22,2]。直观地说，潜在空间中的语义插值表示该空间捕捉到某种高级信息，这对于识别[1]和生成任务[10]都是有益的。然而，两个图像之间的普通插值可能对于创作并不那么有用，因为所有属性都会沿着插值路径一起改变，用户失去了对个别属性的控制。一种补救方法是沿着属性向量而不是样本进行插值[23, 13, 10,3]。对于某些目标属性，计算正负样本的平均值，并将属性向量定义为(1)24100它们之间的差异。这消除了非目标属性的影响，使用户只能编辑目标属性。然而，它忽略了许多属性在本质上是多模态的事实。如图2(b)和(c)所示，微笑可能会有很大的不同。使用一个通用的微笑属性向量进行插值只能生成平均微笑。相比之下，我们的模型可以产生具有不同示例的多模态结果。0非配对图像到图像的转换非配对图像到图像的转换[28, 4, 9,15]旨在将一个域的图像映射到另一个域。CycleGAN[28]，DiscoGAN [9]和DualGAN[26]是三种开创性的方法，它们引入了循环一致性约束来建立连接。然而，还存在一些问题。域可扩展性问题指的是处理两个以上域的能力不足，这由StarGAN[4]和ModularGAN[27]解决。多模态问题指的是无法产生多个结果，这由MUNIT [7]和DRIT[14]解决。离散性问题指的是无法连续控制两个域之间的转换强度，这由GANimation[17]解决。我们注意到GANimation[17]需要连续的标签注释，这在面部表情领域成本高昂且有限。我们的模型不依赖于循环一致性约束，而是寻求另一种解决非配对图像到图像转换问题的方法。我们的模型可以被视为同时解决域可扩展性、多模态和离散性问题的一种通用替代方法。03. 提出的方法0为了不失一般性，我们以面部属性转换任务为例介绍我们的方法。其他任务也得到支持，并在补充材料中提供。我们将数据集定义为D = {(I1, y1), (I2, y2) ∙ ∙ ∙ (IN, yN)}，其中Ii ∈RH × W × 3，yi = [y1i, y2i, ∙ ∙ ∙ ,ydi]是第i个面部图像及其对应的属性。下标和上标分别表示样本和属性。我们进一步引入了分组属性的概念。例如，我们可以将愤怒、快乐、悲伤、轻蔑、伪装、恐惧和惊讶这些属性（在RaFD[12]数据集中作为二进制属性标签提供）分组成表情属性组。因此，普通属性yi可以重新排列为zi = {z1i, z2i, ∙ ∙ ∙ ,zci}，其中zk i ∈ Rci ×1表示第i个样本的第k个分组属性。这使得使用我们的模型更加直观。图2的路径1(i)、2(ii)和3(i)是带有表情属性的示例，考虑了8种表情而不仅仅是微笑。在模型层面上，我们有一个编码器E，一个插值器I和一个解码器D。编码器E将图像Ii和0对于特征Fi = E(Ii)和Fj = E(Ij)，插值特征I(Fi,Fj)与真实样本不可区分。插值器I生成两个样本的插值结果。解码器D将潜在特征映射回图像空间。接下来，我们详细介绍每个部分的设计。03.1. 学习编码器和解码器0众所周知，自然图像通常位于非凸流形上，使得插值通常很困难。我们训练一个编码器将图像流形展开到一个扁平的潜在空间中，使得插值样本在真实图像空间中。这是通过应用GAN使插值特征与真实样本的特征相似来实现的。具体而言，我们利用WGAN-GP[5]来训练我们的模型。一个评论家D被训练成最大化真实样本和插值样本之间的Wasserstein距离，编码器E和插值器I被训练成最小化它们之间的距离。它的公式为0min D L GAN D = E PI [ D ( ˆ F )] − E Pr [ D ( F )] + λ gp Lgp，0min E, I L GAN E, I = E Pr [ D ( F )] − E PI [ D ( ˆ F )]，(2)0其中 F = E ( I ) 是编码器提取的特征，ˆ F 是由 ˆ F = I ( F i ,F j ) 生成的插值特征，Pr 和 PI分别是真实和插值样本的分布，L gp是梯度惩罚项，定义在[5]中。这里插值器 I 与编码器 E协同工作，生成合理的图像。关于 I的更多细节将在后面的章节中提供。需要注意的是，仅仅使用方程 (1) 和 (2)可能会导致编码器将所有图像映射到一个小的特征空间，使得插值变得容易。极端情况下，如果编码器将所有图像映射到一个点，插值和真实样本的Wasserstein距离为0。但是这种平凡的解决方案不包含任何关于图像的信息。为了避免这种情况，我们另外引入了一个解码器D，将特征反转回图像。解码器使用感知损失[8]进行训练，如方程 (3) 所示。编码器的重构项定义如方程 (4) 所示。0min D L D = E ( || Φ 3 ( D ( F )) − Φ 3 ( I ) || 2 )，(3)0min E L recon = E ( || Φ 3 ( D ( E ( I ))) − Φ 3 ( I ) || 2)，(4)0其中 Φ 3 ( I ) 是 VGG 网络的 RELU3 1 特征。0语义知识引导之前的工作观察到，预训练的 VGG网络[20]可以用于潜空间插值[3, 23,1]。我们利用这个特性来指导我们编码器的训练。受到[18,6]的启发，我们将预训练的 VGG 网络视为一个“教师”，cA(Iv(Fi, Fj)) = I′v(A(Fi), A(Fj)), ∀v ∈ [0, 1]c×1 (9)minIv LIhom = E[−I′v(zi, zj) log(A′(Iv(Fi, Fj)))].minA′ LA′ = E[−zi log(A′(Iv(Fi, Fj)))].(11)24110并使用其中间层来指导我们编码器的训练，形式化为：0min E, P L KG = E Pr || P [ E ( I )] − Φ 5 ( I ) || 2，(5)0其中 P 是一个 1 × 1 卷积层，它将由 E ( I )定义的特征空间调整为 Φ 5 ( I ) 的空间。Φ 5 表示 VGG网络[20]的 ReLU5 1 层。由于 VGG网络是通过数百万张图像进行训练的，Φ 5 ( I )包含丰富的语义信息，并为编码器提供额外的指导。一般来说，这个项起到正则化的作用，有助于编码器收敛到一个好的结果。通过结合方程 (2)、(4) 和 (5)，编码器 E的最终目标函数为：0L E = λ GAN E L GAN E, I + λ recon L recon + λ KG L KG，(6)0其中 λ GAN E ，λ recon 和 λ KG是用于平衡项的标量。在我们的实验中，我们将它们设置为 1。03.2. 学习插值器0通过学习得到的将图像映射到平面空间的编码器，可以进行线性插值，如下所示：0I ( F i , F j ) = F i + α ( F j − F i )，(7)0where F i 和 F j 是两个实际样本，α ∈ [0, 1]是一个控制两个样本混合程度的参数。第二项 α ( F j − F i )也可以看作是一个从 F i 指向 F j的偏移向量。需要注意的是，方程 (7) 只定义了连接样本 i和 j 的一条可能路径。其他插值方法如 Slerp [19]也可以连接它们并产生不同的中间结果。然而，所有这些手工制作的方法都不允许调整属性的混合方式。因此，它们对于我们的任务来说是不可用的。为了适应图像到图像的转换，我们将 I ( F i , F j ) 扩展为更灵活的 I v ( F i , F j )，其中 v∈ [0, 1] c × 1 是一个控制向量。v的每个维度设置了两个样本之间每个分组属性的插值强度。更具体地说，方程 (7)中定义的线性插值被扩展为分段插值的一种方式。0I v ( F i , F j ) = F i +0k =1 v k T k ( F j − F i )，(8)0其中 v k 是 v 的第 k 维，T k ( ∙ ) 是由 CNN表示的可学习映射函数。0最小化同态差距期望 T k ( F j − F i ) 和 v k 分别对应于第k 个分组属性 z k 的插值方向和强度。当 v k 从 0 变化到 1时，第 k 个分组属性从样本 i 变化到样本 j 。如果 z的所有可能值形成一个属性空间，那么潜在特征空间中的插值应该对应于属性空间中的插值。0特征空间应对应于属性空间中的插值。设 A ( ∙ )是一个将潜在特征映射到属性向量的函数，即 A ( F i ) = z i，我们定义潜在空间和属性空间之间的关系为0其中 I ′ v ( z i , z j )可以被视为属性空间中的插值函数。此外，I ′ v ( z i , z j )定义为 I ′ v ( z i , z j ) = [ I ′ v ( z i , z j ) 1 ∙ ∙ ∙ , I ′ v ( z i, z j ) c ]，其中 I ′ v ( z i , z j ) k = z k i + v k ( z k j − zk i ) 。因此，方程 (9) 的左侧表示插值样本 I v ( F i , F j )的属性值，右侧包含两个样本的相应属性值。由于两侧都以相同的控制向量 v为条件，它们应该是相等的。在这方面，方程 (9)描述了一个理想情况，即插值操作 I v 和 I ′ v在潜在特征空间和属性空间中具有相同的结构。这个性质类似于代数中的同态。实际上，方程 (9)中的两侧之间不可避免地存在差距，我们称之为同态差距。引入方程 (9)后，我们的目标是最小化同态差距。回想一下，A ( ∙ )将潜在特征映射到属性值，对于插值特征，它没有定义。我们选择训练一个网络 A ′ ( ∙ ) 来近似 A ( ∙ )，并将方程 (9)中的 A ( I v ( F i , F j )) 替换为 A ′ ( I v ( F i , F j))。然后，我们通过最小化 I ′ v ( z i , z j ) 和 A ′ ( I v ( F i ,F j )) 的交叉熵来减小同态差距，如方程 (10)所示。我们称之为同态损失：0(10) 另外，v 在 c维单位超立方体中的任何位置都有定义。在训练过程中，我们为 v 分配均匀随机值，以覆盖整个可行集。0严格训练根据方程 (8) ，优化方程 (10) 需要优化 T k ( ∙)，其中 k = 1 , ∙ ∙ ∙ , c。在实验中，当存在复杂的属性时，相应的 T k ( ∙ )倾向于懒惰 - 也就是说，它可能会微调 F i以欺骗属性分类网络 A ′ ( ∙ )。为了缓解这个问题，我们将 A′ ( ∙ ) 转换为严格的分类器：不再将 F i 映射到 zi，而是训练 A ′ ( ∙ ) 将插值特征 F i + � c k =1 v k T k ( F j− F i ) 映射到属性 z i，表示为0根据方程 (10) 和 (11) ，我们注意到 I v ( ∙ ) 和 A ′ ( ∙ )是相互依赖的。因此，在训练过程中它们是迭代更新的。通过这种方式，A ′ ( ∙ ) 保持检查不变的部分，使得 T k ( ∙ )更难以欺骗。0当 v = 1 时，处理残差分量，其中 1 = [1, 1, ∙ ∙ ∙ , 1] ∈ R c× 1，期望 I v ( F i , F j ) 达到Iv(Fi, Fj) = Fi +24120然而，仅仅使用同态损失并不能保证插值样本 j的属性与提供的属性完全一致，因为提供的属性可能无法解释一切。因此，我们将方程 (8) 扩展为0k = 1 vkTk(Fj - Fi), (12)0其中附加的映射函数Tc+1(Fj -Fi)建模了未被给定属性解释的剩余分量。因此，我们将c维控制向量v扩展到c+1维，其中最后一个维度是剩余映射函数的编辑强度。现在我们可以安全地将插值曲线的终点设为Fj，其公式为0LIt = ||Iv(Fi, Fj) - Fj||2, where v = 1. (13)0总结这一部分，Iv的整体损失函数为0LI = λGANILGANE, I + λIhomLIhom + λItLIt, (14)0其中，LGANE,I，LIhom和LIt的定义分别在公式（2），（10）和（13）中。在我们的实验中，λGANI，λIhom和λIhom被设置为1。训练过程的概述在算法1中。更多的训练细节请参阅补充材料。0算法1 训练我们的模型输入：Ii和zi，其中i = 1, 2, ..., N输出：编码器E，插值器Iv和解码器D while notconverged do sample v from c-dimensional uniformdistribution; t ← 0; while t < 5 do update the critic Dbased on Eq. (1); update the decoder D based on Eq.(3); update the P in Eq. (5); update the attributeclassifier A' based on Eq. (11); end while update theencoder E based on Eq. (6); update the interpolator Ibased on Eq. (14). end while03.3. 应用0我们描述了我们的模型如何应用于多领域、多模态和连续翻译。0多领域翻译对于每个目标领域t，我们预先选择一个样本It。给定一个查询样本Iq，进行领域翻译的过程如下0I out = D(Ivt(E(Iq), E(It))), (15)0其中vt是与目标领域相对应的向量。0维度属性标签01 年龄年轻02 表情嘴巴微微张开，微笑03 发色黑发，金发，棕发，灰发04 发型发际线后退，刘海05 性别特征男性，无胡子，胡子，山羊胡，连鬓胡子0表1. CelebA[16]的分组属性。第1-3列：控制向量v中的维度索引，分组属性的名称，相应的属性标签。0维度属性标签01 表情开心，愤怒，轻蔑，悲伤，厌恶，中性，恐惧，惊讶02 注视看左边，看前方，看右边03 其他种族是高加索人，性别是男性，年龄是儿童0表2. RaFD [12]的分组属性。0多模态翻译通过在等式（15）中使用不同的示例，我们可以生成类似于MUNIT[7]的结果。0连续翻译通过在等式（15）中平滑地改变vt，我们的模型允许连续改变属性。这控制了编辑强度或在翻译过程中生成动画。04. 实验0数据集我们的实验是在CelebA [16]和RaFD[12]上进行的。CelebA包含20万张名人图像，每张图像有40个属性标签。我们根据这些标签定义了分组属性，如表1所示。训练集和测试集的分离遵循[16]的方法。RaFD[12]是一个较小的数据集，包含67个身份，每个身份显示8种情绪表情、3个眼睛位置和3个其他关于身份的属性。同样，我们将这些标签分组为3个更高级的属性，如表2所示。在我们的实验中，我们使用65个身份进行训练，另外两个身份用于测试。所有图像都经过中心裁剪，调整大小为128×128。04.1. 分析0训练中的关键部分值得注意的是，知识引导损失LKG和严格训练中的同态损失LIhom在我们的模型中起着关键作用。如果没有其中之一，训练可能会收敛不良，导致不令人满意的结果。为了说明这一点，我们禁用每个部分，并将结果与图3中的最终结果进行比较。同态损失Eq.（10）允许使用控制向量v控制插值属性。如图3（f）所示，如果没有这个项，生成的图像无法从参考图像中转移目标属性。当我们禁用严格训练时，插值器可能只产生微小的变化来欺骗鉴别器，导致结果的更新非常轻微。这在图3（d）中显示。与图3（c）中的我们的最终模型相比，效果是不理想的。知识引导损失利用训练良好的网络作为教师来指导编码器的训练。由于教师网络在许多图像上进行了训练，它有效地提取语义特征，并且很少遭受过拟合。如图3（e）所示，如果没有这个项，编码器无法学习到平滑且平坦的潜在空间。这使得生成的图像看起来不真实。Multi-Domain TranslationOur model deals with multi-domain image-to-image translation with Eq. (15). Figs. 6and 7 compare our results with two related methods, i.e.,StarGAN [4] and ELEGANT [25]. StarGAN [4] takes do-main labels as input to generator, and produces target do-main results. ELEGANT [25] divides the latent code intodifferent parts. Each part encodes information of one at-tribute.Visually, our model accomplishes more natural24130女性0胡子0嘴巴0（a）参考（b）原始（c）最终（d）无RT（e）无KG（f）无Hom图3.严格训练（RT），知识引导（KG）和同态损失（Hom）的有效性。每一行编辑一个属性。（a）和（b）分别是输入参考和原始图像。（c）是我们的最终结果。（d-f）是分别不使用一个组件的结果。0（a）参考（b）原始（c）性别（d）微笑（e）发色图4.控制向量和示例的作用示例。（a）和（b）分别是参考和原始图像。（c）-（e）是由不同v条件下的结果。第1行和第2行是不同参考图像的结果，因此结果相应地变化。0是不可取的。知识引导损失利用训练良好的网络作为教师来指导编码器的训练。由于教师网络在许多图像上进行了训练，它有效地提取语义特征，并且很少遭受过拟合。如图3（e）所示，如果没有这个项，编码器无法学习到平滑且平坦的潜在空间。这使得生成的图像看起来不真实。0测试中的关键部分控制向量v和参考示例对于应用我们的模型到图像到图像的翻译任务也很重要。控制向量确定要改变的属性，而示例确定如何实现属性翻译。通过联合使用它们，我们可以灵活地控制插值结果。如图4所示。每一行显示了结果如何随着相同的示例而不同的控制向量而变化。每一列显示了结果如何随着相同的控制向量而不同的示例而变化。如图4（c）-（e）所示，通过将v设置为分别表示性别、表情和发色的one-hot向量，我们成功有效地改变了相应的属性。0ELEGANT0MUNIT0参考文献0（a）（b）（c）（d）（e）图5.带有bang属性的多模态图像到图像翻译。（a）是输入图像。（b-d）呈现了四个不同的输出（第1-3行）和相应的示例（第4行）。0示例也会影响最终结果。例如，图4的第一行和第二行的结果在性别、表情和发色变化上有很大的不同。04.2. 与其他方法的比较0我们模型的最大优势之一是能够处理多模态、多领域和连续的图像到图像的翻译。在本节中，我们与其他方法进行了定性和定量比较。04.2.1 定性评估0使用不同的示例，我们的模型可以为图像到图像的翻译生成多个输出。图5将我们的方法与两种多模态翻译方法MUNIT[7]和ELEGANT [25]进行了比较。对于ELEGANT[25]，将属性解耦为不同的潜在代码的假设可能很难实现。如图5（d）所示，图像变化不大。与我们的方法相比，MUNIT[7]不利用多个领域的信息。当皮肤、发色和背景更新错误时，如图5所示，结果质量下降。ELEGANTStarGANOurs(a) Original(b) Angry(c) Sad(d) Happy(e) Contemptuous(f) Disgusted(g) Fear(h) Surprise(i) Look Left(j) Look RightFigure 6. Multi-domain image-to-image translation on RaFD [12].ELEGANTStarGANOursOriginalYoungMustacheNot SmileClose MouthBlack HairBangsHairlineFemaleFigure 7. Multi-domain image-to-image translation on CelebA [16].FaceletOurs(a) Interpolation(b) ExtrapolationFigure 8. Illustration of attribute interpolation and extrapolation. (a) is the result of interpolation. (b) further increases the edit strength toperform exaggeration.– and with signiﬁcant changes – results than ELEGANT[25] and StarGAN [4]. ELEGANT [25] assumes each at-tribute can be well disentangled into different parts of thelatent code. This is not easily achieved because several at-tributes are intrinsically correlated. As a result, the trainingis not stable, causing sometimes noisy results. StarGAN [4]works well, and yet still occasionally produces strong edit,leading to visual artifacts.Continuous TranslationWith the well learned latentspace, our model allows synthesizing images across differ-ent domains. This has already been shown in Figs. 1 and2. We also note that a good latent space should uncover thestructure of natural image manifold [2]. To an extreme, itshould even gain the capacity of extrapolation. This allows2414YoungMaleSmilingBlack HairBangsMustacheHairlineMouth OpenTotalELEGANT [25]20%27%22%36%48%41%23%35%31%StarGAN [4]28%24%23%47%42%47%21%34%33%Facelet [3]25%30%35%24%25%49%10%16%27%Ours41%18%43%49%43%48%33%45%40%Table 3. Turing Test on CelebA dataset. Each entry reports the percentage of taking the edited image as real. Higher is better.YoungMaleSmilingBangsBlack HairMustacheHairlineMouth OpenTotalOurs > StarGAN64%51%83%50%72%49%46%74%61%Ours > Facelet76%72%67%57%83%49%90%80%72%Ours > ELEGANT89%88%50%59%65%51%76%71%69%Table 4. A/B Test on CelebA dataset. Each entry reports the percentage that our results are preferred. Larger than 50% indicates that ourmethod is statically more preferred by the subjects.exaggerating the difference between two domains. Fig. 8compares the interpolation/extrapolation capacity betweenour model and Facelet [3].Facelet [3] is a feature interpolation approach whoselatent feature is deﬁned by a pretrained VGG network.Similar to ours, it requires only discrete attribute labelsand has the capability to translate between different do-mains smoothly. However, when applying very strong editstrength, the result quality could drop.In contrast, ourmodel works consistently well in both situations of inter-polation and extrapolation. This indicates that the encodertrained by Eq. (6) actually unfolds the natural image man-ifold, leading to a ﬂat and smooth latent space that allowsinterpolation and even extrapolation.4.2.2User StudyWe also conduct user study on the Amazon MechanicalTurk platform to compare our performance with others.Turing Test and A/B Test are conducted.24150图灵测试每次被试者都会被呈现一张任意的真实图像和另一张由一种方法编辑的图像。两张图像都被归一化为128×128。被试者被要求选择真实的图像。表3显示了被编辑图像被认为是真实的百分比。注意，不同的属性分别计数，每个属性包括2500次比较。较高的值意味着人类更难区分真实图像和编辑图像。最终的统计数据显示，我们的模型有40％的机会欺骗人眼，这超过了StarGAN [4]（33％），ELEGANT[25]（31％）和Facelet[3]（27％）。我们还注意到，在“男性”属性中，人们更容易识别编辑图像。原因可能是我们的模型只改变了脸部的性别特征，而发型或服装也与性别高度相关。因此，被试者可以根据脸部和其他线索的不兼容性来识别编辑图像。0A/B测试 A/B测试是指两两比较0标签 � 立面立面 � 标签图9.一个失败的案例。我们的方法在两个本质上不同的领域之间无法完美处理。0我们的模型和另一个基准模型之间进行了比较。每次被试者都会被给予一张原始图像和两张编辑后的图像（我们的方法与另一种方法），并被要求选择一个编辑质量更高的图像。所有三张图像都被缩放为128×128并放置在一行中。类似于图灵测试，不同的属性分别计数，每个属性包括2500次比较。表4显示了我们的方法生成的图像被选择的百分比。总体而言，我们的方法相对于StarGAN [4]，ELEGANT[25]和Facelet [3]分别提高了61％，72％和69％。04.3. 限制0我们的模型基于一个假设，即不同领域的图像可以嵌入到一个平滑且平坦的空间中。当这些领域非常不同的时候，这个假设很难实现。图9展示了一个在立面图像和语义标签之间进行转换的情况。由于很难找到中间区域，我们的模型在这种情况下表现不佳。5. 结论性的评论0我们提出了一个针对无配对图像转换的框架，重点是生成自然且渐变的中间结果。我们的方法基于潜空间插值，这本质上允许连续的转换。此外，通过学习可控的插值器，我们可以灵活地选择插值路径，从而改变目标属性，同时保持其他属性几乎不变。我们还展示了我们的方法可以进行多领域和多模态的图像转换。24160参考文献0[1] Y. Bengio, G. Mesnil, Y. Dauphin, and S. Rifai.通过深度表示改善混合. 在ICML，2013年. 2, 30[2] D. Berthelot, C. Raffel, A. Roy, and I. Goodfellow.通过对抗正则化器理解和改进自动编码器中的插值.arXiv，2018年. 2, 70[3] Y.-C. Chen, H. Lin, M. Shu, R. Li, X. Tao, Y. Ye, X. Shen, andJ. Jia. 用于快速肖像操作的Facelet-bank. 在CVPR，2018年. 2, 3,80[4] Y. Choi, M. Choi, and M. Kim. Stargan:统一的生成对抗网络用于多域图像转换. 在CVPR，2018年. 1, 3,6, 7, 80[5] I. Gulrajani, F. Ahmed, M. Arjo

下载后可阅读完整内容，剩余1页未读，立即下载