基于隐式对的增强图像到图像翻译技术

137 浏览量更新于2024-01-24 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学4（2020）50用于增强未配对图像到图像翻译的隐式对Yiftach GingerZhao，Dov Danon，Hadar Averbuch-Elor，Daniel Cohen-Or以色列特拉维夫大学ar t i cl e i nf o文章历史记录：接收10可以2020收到修订版2020年9月26日接受2020年2020年11月4日网上发售保留字：生成式对抗网络图像到图像翻译数据增强合成样品a b st ra ct在图像到图像转换中，目标是学习从一个图像域到另一个图像域的映射。在监督方法的情况下，映射是从配对样本中学习的。然而，收集大量的图像对通常要么过于昂贵，要么不可能。因此，近年来更多的注意力已经被给予的技术，学习的映射从不成对的集合。在我们的工作中，我们表明，将隐式对注入到未配对的集合中，加强了两个域之间的映射，提高了它们的分布的兼容性，并导致无监督技术的性能提高了12%。隐对的能力进一步显示与伪对的使用，即，配对样本，仅近似真实配对。我们展示了近似隐式样本对图像到图像的翻译问题的影响，其中这样的伪对可以在一个方向上合成，但不在其他方向上。我们进一步表明，伪对显着更有效的隐式对在未配对的设置，比直接使用它们明确在配对设置。©2020作者（S）。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍图像到图像转换的目标是学习从一个图像域到另一个图像域的映射。近年来，出现了大量使用深度神经网络解决问题的方法。一种直接的监督方法是从配对样本中学习映射（Isola et al. ，2016年）。然而，收集大量的图像对通常是昂贵的或不可行的。因此，从不成对的数据中学习映射更有吸引力，但在技术上更具挑战性，因为问题变得高度欠约束。提出了许多解决方案，这些解决方案找到了配对样本信号的替代物（Zhu et al. ，2017; Yi etal. ，2017; Kim等人，2017年），但最终它们仍然比等效的监督版本达到更差的性能。我们的目标是通过改进和增强模型学习的数据来改善这些结果，而不需要昂贵的监督数据收集。数据增强是通过用新样本增强训练数据的分布来改进学习过程的公知且广泛使用的方法，并且至少从lenet-5（Lecun et al. ，1998年）。常见和广泛使用的增强技术是几何变换，如翻转，旋转，裁剪和平移图像（Shorten和Khoshgoftaar，2019）。使用数据增强方法也是训练GAN时的常见做法。最常见的是随机翻转，*通讯作者。电子邮件地址：iftachg@mail.tau.ac.il（Y. Ginger）。https://doi.org/10.1016/j.visinf.2020.10.001数据的裁剪（Zhu et al. ，2017; Isola et al. ，2016;Kim等人，2019; Amodio and Krishnaswamy ， 2019; Liu et al. ， 2017年），但使用其他不太流行的做法，如随机抖动（Isola et al. ，2016）、颜色空间转换和灰度反转（Liu et al. ，2017年）。一些特定病例的增强是精心制作的（Ronneberger et al. ，2015; shuFang et al. ，2019; Milletari et al. ，2016; Roth et al. ，2015）或学习（Hauberg et al. ，2015; Cubuk等人，2018; Ratner et al. ，2017年），以补充特定的任务，而其他人的目的是利用已知的理论和经验质量的算法，他们用来改善（Devries和泰勒，2017年;Touvron等人。，2019; Wanget al. ，2015; Xie et al. ，2019）。然而，尽管增强方法在训练模型时已经被证明是非常有益的，但据我们所知，还没有研究利用GAN框架的特性和我们对它的理解的数据增强方法在本文中，我们提出了一种增强方法具体用于无监督的图像到图像转换框架，其中合成样本被注入到数据集以形成配对。我们首先建立我们的主要主张，图像到图像的翻译模型能够利用配对信息，即使在无监督的训练制度，并证明其与广泛的实验结果的活力。然后，我们表明，学习的映射的质量取决于数据集中的隐式对的部分。在此之后，我们分析了这些结果，并解释了无监督模型如何可靠地从隐式对中受益。2468- 502 X/©2020作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfY. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）5051∈：→∀ ∈= ∈∈∈ ∈=：→| | ||这种非直观的发现鼓励在无监督设置中使用我们提出这是一种数据扩充方法，其中生成合成样本以构建伪对并丰富数据集。我们进一步详细介绍了我们的方法，样品合成方法和我们的评估指标。最后，我们证明了伪对解决无监督图像到图像翻译问题的有效性。我们进一步认为，伪对在非配对环境中作为隐对使用时，明确地用于配对设置。明确地说，我们的贡献是：我们证明了无监督的图像到图像转换网络受益于对添加到数据集的潜在信号。我们分析了数据集中对的百分比的影响，并证明即使是很小的对的百分比年龄也会增强数据集，并允许模型达到峰值性能。我们介绍了一种独特的数据增强方法的图像到图像的翻译框架，并证明了它是更有效的，在一个不成对的设置比明确的对在成对的设置。2. 相关作品Pix2Pix（Isola et al. ，2016年）是第一次成功尝试使用条件GAN来学习两个图像分布之间的映射。作为一种监督方法，它需要成对的样本，每个分布一个，在训练阶段显式链接。由于收集大型配对数据集可能是困难和昂贵的，因此提出了各种不需要这种显式配对的无监督架构（Zhu et al. ，2017年;Liu等人， 2017; Yi et al. ， 2017; Kim 等人， 2017 年 ;Benaim 和Wolf ， 2017; Kim 等人， 2019;Amodio and Krishnaswamy ，2019）.有几种方法通过允许使用一个小集合来弥合监督和无监督架构之间的差异配对的图像，连同一个大的未配对的，半监督的方式。他们通过在训练过程中在监督和无监督阶段之间交替来实现这一点（Jinet al. ，2018; Tripathy et al. ，2018年）。其他半监督解决方案通过独立地学习来自监督集和非监督集的翻译来分离域的联合分布和边缘分布的学习（Gan et al. ，2017; Li et al. ，2017年）。深度神经网络需要大量的数据来正确训练，在某些情况下，这可能会被证明是非常昂贵的为了解决这个问题，已经设计了各种方法来通过将现有数据扩充到新样本中来创建更多样本，以便创建底层分布的有意义的表达式。简单的图像增强方法包括旋转，倾斜，裁剪和其他仿射变换。这些简单的方法是相当普遍的，并且从深度神经网络的早期就开始使用（Lecun et al. ，1998年），但在它们可以生成的数据量以及它们添加到数据集的有效信息量方面受到限制。其他更复杂的增强方法可以是基于模型的，使用学习的生成模型，甚至 GAN （ Uzunovaetal. ， 2017; Bellon et al. ， 2016;Tustison et al. ，2018; Antoniouetal. ，2017; Wang et al. ，2018; Frid-Adar et al. ， 2018; Marianiet al. ， 2018; Sixt etal. ，2016年）。最后，虽然有针对特定算法或任务的增强方法的工作（Xieet al. ， 2019; Wanget al. ， 2015; Touvron et al. ， 2019;Devries and Taylor ， 2017; shu Fang et al. ， 2019; Roth etal. ，2015; Milletari et al. ，2016年;Ronneberger等人，2015年），我们不知道任何这样的先前的工作，专注于增强用于训练GAN的数据集。这使得该领域受到限制，ML域不是。3. 隐对表示T A作为一种翻译，我们希望学习。一对是两个样本aA，b Bs. t。T（a）b，配对数据集是数据集D（A D，B D），其中A D，T（a）B D在图像到图像翻译文献中，当以监督方式使用时，主要考虑对，而非监督方法根本不考虑数据集中是否存在任何对（Zhu etal. ，2017; Liu et al. ，2017; Yi et al. ，2017; Kim等人，2017年），除非它们用于增强半监督模型中的学习过程（Jin et al. ，2018;Tripathy等人，2018年）。即使许多无监督的图像到图像翻译论文显示了配对数据集的结果，并且没有考虑数据集中配对样本对学习过程的影响，也会这样做不考虑配对样本对无监督学习的影响似乎是合理的，因为在算法中没有明确使用这些信息。考虑例如监督Pix2Pix算法（Isola etal. ，2016），其中成对地绘制样本（ai，T（ai）和经平移的图像G（ai）），在目标函数中将其与目标成对样本T（ai）显式地进行比较。它的无监督变体，CycleGAN算法（Zhuet al. ，2017），不考虑它们的配对（a i，T（a j））而采样，并且在训练生成器G AA B时甚至不使用来自域B的样本。相反，域信息仅通过暴露于T（a，j）的矩阵来赋予，但不明确预期使用关于配对样本的任何信息考虑两种情况-在第一种情况下，我们使用配对数据集训练未监督的图像到图像翻译模型，而在第二种情况下，我们只有未配对的数据集，即 A D，T（a）/B D。为了简单起见，假设AD在场景之间共享。如果无监督翻译算法确实不使用配对中固有的信息，那么在使用配对或未配对数据集进行训练时，我们将为了评估这一假设，我们进行了实验，使用完全相同的架构、参数和数据集大小训练模型，同时改变数据集中配对样本的比例（表示为α）。具体地说，我们在以下数据集上训练了一个双生成器架构（ CycleGAN ）： Cityscapes （ Cordts et al. ， 2016 ）， Facades（Tyleček and Šára，2013）and CVC-14（González et al. ，2016年）。我们将数据集分为训练集和测试集，并对训练集进行采样以生成各种α配对数据集配置。在我们所有的实验中，我们选择A B样本生成平衡的数据集。为了评估测试集上的性能，我们测量了生成的图像与其真实对照之间的MSE。此外，我们使用在Isola et al. （2016）评估城市景观的学习翻译（Cordts et al. ，2016）数据集。有关评估指标及其使用的更多信息，以及有关CycleGAN架构和所用参数的其他信息，请参阅我们在表1、2、3中报告了我们的评估。在结果中首先要注意的是，1对数据集通常比0对数据集产生更好的性能，提高高达12%。这表明，无监督的图像到图像转换算法（如CycleGAN）确实使用了隐式配对信息。更有趣的是，即使只有25%的样本配对，结果也会显著改善···Y. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）5052→→（）数据≈|−|∈∈P数据+P假P数据+P假表1不同隐式配对比的重建损失，α。越低越好。A2b是照片→标签，B2A是标签→照片Cityscapes CVC−14正面αA2bB2aA2B B2AA2bB2a0（未配对）0.260.220.23 0.240.360.840.250.240.210.28 0.290.330.840.50.240.220.220.230.370.800.750.270.220.240.220.370.841（成对）0.250.220.23 0.250.330.87表2在Cityscapes标签照片上，不同内隐配对比率α的FCN得分越高越好。值得注意的是，使用配对和未配对样本的混合总是更好。α每像素加速每类acc.IOU类00.5070.1600.1100.250.5660.1620.1110.50.5350.1670.1140.750.5420.1670.11810.5220.1620.111表3在Cityscapes照片标签上，不同内隐配对比率α的FCN分数越高越好。值得注意的是，使用配对和未配对样本的混合总是更好。α每像素加速每类acc.IOU类00.5820.2120.1580.250.5830.2120.1590.50.5980.2210.1660.750.5870.2140.16110.5820.2080.156相比之下，没有一对。值得注意和出乎意料的是，在大多数情况下，使用完全配对的数据集似乎不是最佳选择。相反，使用配对和未配对样本的混合通常是更好的策略，平均超过完全配对的数据集3.4%。图1中，我们说明了来自Cityscapes数据集的随机样本及其在不同训练数据集配置下的结果。更多结果请参考补充材料。3.1. 无监督图像到图像翻译算法如何使用隐式对信息已经表明，当各种GAN模型优化其目标函数时，它们基本上学会最小化生成的样本的分布与真实数据的分布之间的一些f -发散（Nowozin等人，2009）。，2016年;Jolicoeur-Martineau，2019年）：Fig. 1.内隐配对比率实验的图解。使用不同配对比率训练的模型的随机测试样本的像素精度。从上到下：源图像，α = 0，α = 0。5，α=1。P数据（T（ai））。假设一个可传递的生成器将通过生成GA（ai）T（ai）将ai转换为T（ai我们的转变Df（P数据P假）=P（x）fPfake（x）简体中文（CN）P数据（x）想学习。我们的实验结果表明，虽然T（ai）注入到数据集并不约束算法，其中，P_data、P_fake分别是相对于真实样本和生成样本的平均值的分布，f是a用它来改进模型，但它确实做到了。隐式对传达了精确的信息，f（1）=0且Df为凸函数当P *x Pdata（x）=Pfake（x）时。≥0，即Df在平移图像GA（ai）的区域中的平移，其用于指导学习过程。与此同时，仅使用配对样本限制了模型探索的空间，例如，原始GAN模型（Goodfellow et al. ，2014）可以被描述为最小化：与微调信息相结合导致过拟合。我们要指出这种方法的两个局限性。第一、埃洛格2 P数据P2 P假+log P（二）当使用表现出病态行为的发生器其中可以看出，如果对于给定的x，P fake（x）P data（x）我们得到了更好的目标最小化。现在考虑样本a是如何A，T（a i）B影响这个最小化过程。通过使用T（ai）丰富数据，可使ESTA在估计时更具辨别力病理学，不用于发生器，或它在病理学的范围内，只能加强病理学。类似地，如果生成器非常差，并且将ai转换到距离T（ai）非常远的某个点，则我们可以期望配对样本将被减少以有利于更接近的样本。χ数据例如模式崩溃，添加这样的数据点将不会改善结果，因为添加的数据点或者在假χY. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）5053≈→：：→：→≈=·4. 使用隐式伪对的4.1. 隐伪偶在第3节中，我们已经证明了无监督的图像到图像翻译模型可以使用在训练期间通过数据集中出现对而直接呈现的信息。不幸的是，在许多情况下，即使是隐式地获得配对也是困难或不可能的，为了在不首先获得配对的情况下使用配对信息，我们将需要创建它们。考虑到这一目标，我们扩展了对隐式对在训练无监督图像到图像翻译模型时如何有益的解释。从等式（1）我们推测学习过程将利用T（ai）的存在来增强ai到G（ai）T（ai）的翻译。但大多数翻译任务对完全不同领域之间的翻译不感兴趣，而是专注于有限维度（头发颜色，颜色空间，图像模态等）的翻译。在这种情况下，我们可以用两部分来描述一个i：受平移影响的维度和不受平移影响的维度假设我们给出一个变换T′， S.T. T′ 只影响受T影响的维度，我们使用T′创建合成图像样本（ai，T′（ai）），以创建隐式伪对，并在其上训练无监督的图像到图像转换模型。考虑伪对如何影响训练过程：未受影响的维度（即图像中仍然是“真实配对”的部分）将得到改善，就像在真实隐式对的情况下一样受影响的尺寸将取决于T′与T有多接近，但正如我们将在下面的部分中显示的那样，即使对T的差估计也可以改进对于改变的维度的平移因此，我们提出了一种数据增强方法，其中伪对合成如图。2并用于隐式地丰富现有数据集。实际上，我们不能容易地获得近似变换T′的情况更有趣，因此我们将关注我们可以获得近似的情况的的逆转变， MT −1BA。换句换句话说，我们要改进学习变换GAA B通过将合成样品M（b）引入结构域A。给定这样的生成模型M，我们通过将我们的实验扩展到伪配对数据集来评估这些不完美伪对的有效性，其中在域A中的生成伪样本和域B中的真实样本之间进行配对。见图图2显示了不同数据集中的伪对。图3提供了我们在这种情况下的方法的概述。给定一个未配对的数据集，我们使用生成模型M构造一个α-伪配对数据集，将伪样本注入未配对的集合。在下面的部分中，我们报告了一些实验，这些实验表明，隐式伪对在非配对设置中提高了性能，而在配对设置中将它们用作显式对则明显不那么有效。5. 实验和结果在下面的部分中，我们通过实验证明了隐式伪对在训练无监督图像到图像翻译算法时的有效性5.1. 样品合成我们使用基于模型的生成技术来估计我们试图学习的逆变换MT-1BA.对于域B中的每个样本，我们生成一个配对伪样本以增强域A中的样本。这将创建具有50%配对比率的伪配对数据集。该方法的概述如图所示。3.第三章。图二.伪对的图示。（a）假微笑和中性面孔（b）假眼镜和不戴眼镜的面孔。图三. 使用α 0的隐式伪对进行学习。5. 给定一个模型M，我们通过使用来自域B的样本生成近似来增强域A。数据集。对于伪对的实验，我们使用CelebA数据集（Liu et al. ，2015）。我们生成了两种不同类型的伪α配对数据集，我们在其上评估我们的方法：（i）戴眼镜和不戴眼镜的脸，以及（ii）微笑和中性的脸。可以使用CelebA数据集中每个图像可用的标记信息来获得数据集在（i）中，我们使用简单的几何学生成具有眼镜的伪样本。使用可用的面部标志，我们通过在[10，25]像素范围内采样随机高度h、在[h/2，2h]范围内采样随机宽度以及在[0.1，1.0]范围内采样透明系数来生成眼睛周围的椭圆。两个椭圆由具有相同透明度且宽度在[h/5，h/2]范围内的线在（ii）中，我们使用的技术Averbuch-Elor等人。（2017）以生成微笑伪样本。重要的是要注意，在这两种情况下，在反方向上生成干净的样本更具挑战性。参见图2，这两种类型的数据集中的伪对的图示。评价指标。如前所述，图像到图像的翻译通常是在一些图像维度上的翻译，而不是在所有的维度上。这一点在与以下方面有关的任务中得到了明确的观察：CelebA数据集，其中图像的一个或多个属性Y. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）50表5454第5.1节中描述的基线增强方法之间的InfoSIM比较。越低越好。任务我们（一）（二）（三）微笑0.001600.003650.002820.00372眼镜0.001810.004820.003130.00418翻译（头发颜色，眼镜的存在，性别等）而该人的身份预期在翻译之后保持不变。这导致我们从任务完成（有问题的属性的翻译完成得如何）和身份保存（其他属性保存得如何）的角度来评估我们的结果。根据我们对隐式对的描述，我们将期望使用伪对将改进变换之后的身份的守恒，因为它是图像维度的一部分，其不应受到上面概述的基于模型的技术的影响。在先前的作品中，使用表示空间中的MSE作为感知或身份损失项（Yang et al. ，2017; Antipov et al. ，2017; Ledig et al. ，2016;Johnson et al. ，2016; Wang等人，2017），我们将使用表示为InfoSIM的表示空间相似性度量来测量输入样本及其生成的对应物之间与任务无关的信息的相似性。在测量面部身份在翻译后的保存情况时，我们使用OpenFace网络学习的表示（Amoset al. ，2016年）。这个网络经过面部识别训练，对瞬时特征不变，例如微笑或戴眼镜。为了测量相似性，我们使用输入和输出图像的表示为了评估任务完成情况，我们进行了一项用户研究，其中人类参与者评估了我们方法的几个变体的任务完成情况实验装置。在我们的实验中，我们从CelebA（Liu et al. ，2015年），我们根据特定实验中使用的增强方法用另外1000个样本进行增强。图像分辨率为128 × 128。除非另有说明，否则所有实验均使用上述CycleGAN模型进行将隐式伪对与基线方法进行比较。我们评估我们的伪对增强技术对三个增强基线：（i）无增强，（ii）伪不成对的增强和（iii）属于相应域的真实图像的自然增强在（i）中，我们没有用任何样本来增加基本的在（ii）中，我们使用伪样本来增强基本数据集配置，这些伪样本的配对真实样本不在数据集中。在（iii）中，我们简单地用从完整数据集中采样的更真实的图像来增强基本数据集。基线方法的同一性保留结果报告见表4。图图4、5展示了这些实验的定性结果。如结果所示，使用隐式伪对提高了翻译的质量，同时更好地保留了面部身份。例如，特别值得注意的是，与其他方法相比，使用隐式伪对引入更少的伪像伪配对比分析。在第3节中，我们证明了在数据集中具有不同的配对比例会对结果产生显著影响在这里，我们通过评估不同比例的伪对的影响来继续这一调查。我们测试了以下α-配对配置：α=0。25，0。五，零。75，1。0.见图4。使用不同数据集配置的眼镜移除结果。上面我们展示了我们的结果（在右边）与第5节中描述的三个增强基线进行了比较。图五. 使用不同数据集配置的微笑消除任务的结果上面我们展示了我们的结果（在右边）与第5节中描述的三个增强基线进行了比较。Y. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）5055=表5配对比率实验的InfoSIM值。越低越好。任务0.25-Paired0.5-Paired0.75-Paired1-成对微笑0.002930.001600.000930.00025眼镜0.001530.001810.001100.00025表6根据用户研究得出的任务完成偏好率优选拒绝0%的百分比百分之五十百分百0%（微笑）–0.2570.48650%（微笑）0.742–0.663100%（微笑）0.5130.336–0%（眼镜）–0.2640.91550%（眼镜）0.735–1.0100%（眼镜）0.0840.0–创造一个α 0。25个伪配对数据集，一半的扩增样本是配对的，另一半是未配对的。为了创建配对率高于50%的数据集，我们从初始数据集中移除了主A样本，并增加了更多的伪对。例如，0.75-伪配对数据集有500个未配对的真实样本，增加了1500个伪配对。这些实验的同一性保留结果报告于表5中。结果清楚地表明，我们在数据集中拥有的对越这些实验的定性结果显示在图1A和1B中。六七如图所示，拥有更多的对允许我们更好地保留面部身份，这支持我们的假设，即隐式对增强了与所使用的变换不直接相关的维度的保留。与此同时，同样明显的是，较高的配对比率导致较差的任务完成，因为模型暴露于更多的伪对和更少的真实域的示例，并且因此不太能够推广到真实任务。这在微笑去除任务中尤其明显，因为生成模型M基于微笑模板的封闭集合，并且从这样的有限集合进行概括是困难的。任务完成用户研究。为了进一步量化不同比率的成功率，我们进行了一项用户研究，向参与者展示了使用0%， 50%和100%伪配对数据集训练的模型生成的翻译结果，并询问哪种模型更好地完成任务。为了允许细粒度的比较，参与者一次只显示两个模型的结果（或一个模型和源图像），选择一个，两个或没有，如果两者都是一样好或坏。我们共有43名参与者，他们分别完成了对50个微笑和41个微笑样本的研究。在表6中，我们报告了参与者对一种模型的偏好率。很明显，使用50%的伪配对在任务完成方面产生最佳结果不同图像到图像转换设置中的伪对。在之前的实验中，我们以隐式方式使用生成的伪对。为了更全面地理解这些对在模型训练中的作用，我们进一步在明确的设置中使用它们进行实验。对于显式训练，我们使用前面提到的Pix2Pix模型（Isola et al. ，2016）与完全伪配对数据集进行比较，并将其与我们的0.5-伪配对隐式训练结果进行比较。从表7中的InfoSIM值和图8中的定性结果可以清楚地看出，显式算法几乎没有改变输入，因此在实际完成任务的同时实现了非常好的身份保留图 9见图6。消除微笑任务的伪配对比率分析。上面我们举例说明使用不同配对比率的一些结果。如图所示，使用50%配对配置产生的身份保留结果仍然比更高的配对比率更好地执行任务（在这种情况下是微笑去除见图7。伪配对比分析用于去核任务。上面我们展示了一些随机选择的结果，使用不同的配对比率。如该图所示，使用50%配对配置产生合理的身份保留结果，同时比更高的配对比率更好地执行任务（在这种情况下是去除冗余）。Y. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）5056见图8。在不同的环境下使用假对眼镜摘除。上面我们展示了一些随机选择的结果，这些结果是通过使用显式（Isola et al. ，2016）和隐式（Zhu et al. ，2017）设置。如图所示，隐式设置可获得最佳和最一致的结果。我们认为这是因为显式实验是完全伪配对的，即没有真实的图像样本，这导致模型过拟合数据集，特别是与真实眼镜不同的伪眼镜的特征。这防止了它推广到测试集中的真实眼镜这一结果表明，只要生成模型M不是完美的，它会引入显式方法将过拟合的特征，并且使用伪样本的唯一有效方式可能是隐式方式。分布分析。在第4节中，我们讨论了我们的假设，即通过将伪对注入到数据集中，我们将两个信号添加到学习的变换中-第一个信号包括所有表7InfoSIM的显式和隐式实验值摘眼镜的任务。越低越好。隐式显式0.001810.000342见图9。在学习的表情相关特征上可视化的伪对，用于微笑消除任务。我们使用PCA来可视化训练数据（左侧）和测试数据（右侧）。PCA模型在整个CelebA数据集上拟合（以灰色显示）。真实的微笑和中性样本分别用橙色和黑色表示。生成的增强样本为紫红色，使用Pix2Pix和CycleGAN算法的翻译结果样本分别为红色和青色，并具有相应的拟合椭圆。这两个模型都是在100%伪配对数据集上训练的。(For对本图图例中所指颜色的解释，读者可参考本文的网络版第一个是图像中不受我们的合成模型M影响的信息，第二个是受所有信息影响的信息。通过从图像特征的角度查看丰富的数据集，我们可能能够可视化这种效果。为此，我们查看celebA中表达式的特征空间。我们训练了一个简单的CNN来区分来自数据集的保持集上的我们在100%伪配对数据集上训练了Pix2Pix和CycleGAN模型，并提取了测试集结果的表示正如我们在图中看到的。在图9中，在真实数据的表达表示（灰色、黑色和橙色）和生成的样本的表示（紫红色）之间存在显著的差异。当在仅由生成的伪对组成的数据集上进行训练时，我们可以看到，在Pix2Pix模型的结果中（红色）重复发散，但在无监督CycleGAN模型的相同样本的结果中（青色）没有重复发散。为了强调，我们对结果拟合了椭圆与CycleGAN模型相比，Pix2Pix模型的生成数据和结果的行为相似性表明，更强大和更有监督的算法能够挑选无监督模型没有的信号这表明伪样本引入的信息可以被认为是两个独立的信号，以及为什么与使用隐式信号相比，使用显式对可以如此彻底地过拟合数据结论. 众所周知，人类许多最基本的能力都是通过内隐学习获得的。在这项工作中，我们分析了在图像到图像翻译问题中使用隐式配对样本进行学习的积极影响。我们已经通过大量的实验和例子证明，从隐式对中学习可以有效地引导网络学习更好的映射，而不是额外的未配对或随机样本。我们进一步分析了使用伪对的内隐学习的力量。这些伪对可以使用简单的几何模型自动获得，如我们在用眼镜增强的面部的情况下所示，或者通过更复杂的方法自动Y. Ginger、D. Danon，H. Averbuch-Elor等人视觉信息学4（2020）5057模型，例如带有微笑的中性面孔。在这两种情况下，隐式地为网络提供这些对会产生更好地保留非任务相关信息的合理映射。此外，我们已经表明，用伪对增强的数据集在隐式设置中比在显式设置中更有效。尽管隐式对的信号在数据集中被隐藏，但它们的贡献是有效的，这一事实提出了一个问题，即深度神经网络可以有效地利用哪些其他类型的隐式信号。在未来，我们相信，探索神经网络从隐式信号中学习的机制可能有助于理解神经网络一般如何学习，并允许更好地控制数据集的配置。CRediT作者贡献声明Yiftach姜：概念化，方法，软件，验证，调查，数据策展，写作-原始草案，可视化。达农：概念化，方法论，写作评论编辑，调查. Hadar Averbuch-Elor：概念化，方法论，可视化，调查，数据策展，写作-评论编辑，可视化。丹尼尔科恩-或：概念化，监督，写作-审查编辑，资源，项目管理，资金获取.竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.visinf.2020.10.001上找到。引用Amodio，M.，Krishnaswamy，S.，2019. Travelgan：通过变换向量学习实现图像到图像的翻译。 CoRR abs/1902.09631 ， http://arxiv.org/abs/1902.09631 ，arXiv：1902.09631。Amos，B.，Ludwiczuk，B.，Satyanarayanan，M.，2016. OpenFace：一个带有移动应用程序的通用人脸识别库.技术报告，CMU-CS-16-118，CMU计算机科学学院。Antipov，G.，Baccouche，M.，Dugelay，J.，2017.用条件生成对抗网络面对衰老。 CoRRabs/1702.01983 ， http://arxiv.org/abs/1702.01983 ， arXiv ：1702.01983。Antoniou，A.，Storkey，A.，爱德华兹，H.，2017.数据增强生成对抗网络。arXiv电子打印，arXiv：1711.04340，arXiv：1711.04340。Averbuch-Elor，H.，Cohen-Or，D.，Kopf，J.，科恩，M.F.，2017.让肖像栩栩如生ACM Trans.Graph. 36（6），196.贝隆河崔，Y.，Ekker，N.，Lepetit，V.，Olasz，L.M.，Sonntag，D.，Tüssér，Z.，Yoo，K.，Lingrincz，A.，2016.基于模型的注释手部姿势数据集的增强和测试。In：Friedrich，G.，Helmert，M.，Woomba，F.（编），KI 2016：人工智能的进展。Springer International Publishing，Cham，pp. 十七比二十九Benaim ， S. ，沃尔夫湖 2017. 单侧无监督域映射。 CoRR abs/1706.00826 ，http://arxiv.org/abs/1706.00826，arXiv：1706.00826。Cordts，M.，Omran，M.，Ramos，S.，T.B.菲尔德，Enzweiler，M.，贝嫩森河弗兰克，美国，罗斯，S.，Schiele，B.，2016. Cityscapes数据集用于语义城市场景理解。IEEE计算机视觉和模式识别会议（CVPR）。Cubuk，E. D.，Zoph，B.，Mané，D.，瓦苏代万，V.，Le，Q.V.，（英国）2018.Autoaugment：从数据中学习增强策略。CoRR abs/1805.09501，http：//arxiv.org/abs/1805.09501，arXiv：1805.09501.Devries，T.，泰勒，G.W.，2017.改进的带截断的卷积神经网络的正则化。CoRRabs/1708.04552 ， http://arxiv.org/abs/1708 。 04552 ， arXiv ：1708.04552。舒芳，H.，孙，J.，王，R.，Gou，M.，李，Y. L.，吕，C.，2019. InstaBoost：通过概率图引导的复制粘贴来增强实例分割，在：2019 IEEE/CVF计算机视觉国际会议（ICCV），pp. 682-691. Frid-Adar，M.，迪亚曼特岛，Klang，E.，Amitai，M.，Goldberger，J.，格林斯潘，H.，2018.基于GAN的合成医学图像增强，用于提高CNN在肝脏病变分类中的性能。 CoRR abs/1803.01229，http：//arxiv.org/abs/1803.01229，arXiv：1803.01229。甘，Z.Chen，L.，中国地质大学，王伟，Pu，Y.，张玉，刘洪，Li，C.，卡林湖，2017年。三角生成对抗网络。CoRRabs/1709.06548，http://arxiv.org/abs/1709.06548，arXiv：1709.06548。González，A.，方，Z.，Socarras，Y.，Serrat，J.，Vázquez，D.，徐，J，洛佩斯，上午，2016.使用可见光和FIR摄像机在白天/夜间进行行人检测：做个比较。传感器16（6），http://dx.doi.org/10.3390/s16060820，http：//www.mdpi.com/1424-8220/16/6/820网站。古德费洛岛，澳-地J.普盖特-阿巴迪米尔扎，M.，徐，B.，沃德-法利，D.，奥扎尔，S.，库维尔，A.，本焦，Y.，2014.生成性对抗网。在：Ghahra-mani，Z.，威林，M.，科尔特斯角，澳-地北达科他州劳伦斯市Weinberger，K.Q.（编），神经信息处理系统的进展 27.柯伦联合公司， pp.2672-http://papers.nips.cc/paper/5423-generative-Hauberg，S.，Freifeld，O.，拉森，A.B.L.，三、J.W.F.，Hansen，L.K.，2015.梦想更多的数据：学习数据增强的类依赖分布。 CoRR abs/1510.02795 ，http://arxiv.org/abs/1510.02795，arXiv：1510.02795。伊索拉山口，朱，J. -是的，周，T.，埃夫罗斯，匿名律师，2016.使用条件对抗网络进行图像到图像的翻译。CoRRabs/1611.

下载后可阅读完整内容，剩余1页未读，立即下载