小域迁移学习改进的图像到图像翻译方法

25 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14010传输I2I：小数据集图像到图像翻译的迁移学习YaxingWang1，2，He´ ctorLaria2JoostvandeWeijer2，LauraLopez-Fuentes3，BogdanRaducanu21PCALab，南京理工大学，中国2ComputerV ision Center，Uni versitat Auto` noma de Barcelona，Spain3Universitat de les Illes Balears，西班牙{yaxing，hlaria，joost，bogdan} @ cvc.uab.es，l. uib.es摘要图像到图像（I2I）翻译近年来已经成熟，并且能够生成高质量的真实感图像。然而，尽管目前的成功，它仍然面临着重要的挑战时，应用到小域名。现有方法使用迁移学习进行I2I翻译，但它们仍然需要从头开始学习数百万个参数。这个缺点严重限制了它在小域上的应用。在本文中，我们提出了一种新的迁移学习I2I翻译（TransferI2I）。我们将我们的学习过程解耦为图像生成步骤和I2I翻译步骤。在第一步中，我们提出两种新颖的技术：源-目标初始化和适配器层的自初始化。前者微调预训练的生成模型（例如，StyleGAN）。后者允许在不需要任何数据的情况下初始化所有未经预训练的网络参数这些技术为I2I转换步骤提供了更好的初始化。此外，我们还引入了一个辅助GAN，该GAN进一步促进了深度I2I系统的训练，在对三个数据集（动物面孔，鸟类和食物）的广泛实验中，我们表明我们优于现有的方法，并且mFID在超过25个点的几个数据集上得到了改进。我们的代码可从以下网址获得：https://github.com/yaxingwang/1. 介绍图像到图像（I2I）翻译的目的是将图像从源域映射到目标域。几种方法在配对数据[21，61]，未配对数据[30，56，60]，可扩展I2I转换[11，36，45]和可扩展I2I转换[11，36，45]上获得了出色的结果。不同的I2I翻译[11，20，32]。可扩展的I2I翻译旨在在多个域之间翻译图像例如，将猫面部映射到其他动物面部上（即，狗、老虎、熊等）。多样化I2I翻译的目标是从单个输入图像（即，将狗的脸翻译成各种可能的猫的脸）。尽管在配对、非配对、可扩展和多样化的I2I翻译方面取得了令人印象深刻的飞跃，但仍然存在重要的挑战。具体地，为了获得良好的结果，现有的工作依赖于大的标记数据。当给定小数据集（例如，每个域10个图像）当前算法遭受较差的性能。此外，标记大规模数据集是昂贵和耗时的，使得这些方法在实践中不太适用。一些工作[5，6，12，35，38]已经研究了一次和几次I2I翻译。单次I2I转换[5，6，12，35]是指仅一个源图像和一个或几个目标图像可用的情况。这些作品无法执行多类I2I翻译。FUNIT [38]进行少量I2I翻译，但在训练阶段仍然需要大数据集。在本文中，我们专注于有限数据的I2I翻译的迁移学习。最近的工作[48，54]利用迁移学习进行I2I翻译。SGP [48]利用预先训练的分类器（例如，VGG [50]）来初始化I2I模型的编码器。然而，剩余的网络（即，解码器、鉴别器和适配器层1）需要从头开始训练，这仍然需要大的数据集来训练I2I翻译模型。DeepI2I [54]使用预训练的GAN（例如，StyleGAN [26]和BigGAN[8]）来初始化I2I模型。然而，它仍然需要从头开始训练适配器层。适配器层包含超过8500万个参数（使用预训练的BigGAN），这使得它们在小域之间的翻译训练容易过度拟合。由于SGP和DeepI2I都利用了编码器和生成器之间的适配器，因此一个潜在的问题是生成器容易使用来自高分辨率跳过连接（连接到上层）的信息1我们遵循[54]并将连接编码器和解码器的层称为适配器层。14011的生成器），并且忽略生成器的深层，其需要对数据的更多语义理解，因此更难以训练。受DeepI2I的启发，我们使用预训练的GAN来初始化I2I翻译模型。不同的是，我们提出了一种新的方法来训练I2I翻译，克服过拟合和改善I2I模型的训练。在本文中，我们将学习过程分解为两个步骤：图像生成和I2I翻译。第一步旨在训练更好的生成模型，该生成模型用于初始化I2I翻译系统，并有助于提高I2I翻译性能。我们引入了两个conti- butions，以提高效率的转移，特别是重要的小域。(1)我们通过微调预训练的生成模型（例如，StyleGAN）。这确保了网络已经为I2I系统中的预期任务做好了更好的准备。(2)我们提出了一种自初始化，以在不需要任何数据的情况下预训练适配器网络（图1（b）中的模块A）的权重。在这里，我们利用这些参数可以学习的事实通过从生成器和鉴别器两者生成层激活（通过从潜在变量z采样）。从这些激活中，可以学习适配器网络权重。对于第二步，我们使用第一步中学习的权重进行实际的I2I转换。此外，我们提出了一个辅助发电机，以鼓励使用的深层的I2I网络。在大量数据集上的广泛实验证实了所提出的I2I迁移学习技术的优越性。这也表明我们现在可以在相对小的域上获得高质量的图像。本文表明迁移学习可以大大减少对数据的需求;因此，本文将I2 I应用于遭受数据稀缺的领域。我们的主要贡献是：• 我们用有限的数据探索I2I翻译，减少了所需的标记数据量。• 我们提出了几种新颖的技术（即，源-目标初始化、自初始化和辅助发生器），以促进这种具有挑战性的设置。• 我们广泛研究了所提出的方法在两类和多类I2I翻译任务上的性能，即使对于高质量的图像，也能实现显着的性能改进。2. 相关工作生成对抗网络。GAN [17]是生成器G和鉴别器D的组合。生成器的目标是学习从潜在代码（即噪声源）到训练数据分布的映射相反，批评者网络，或批评者，学会区分在真实数据和从G生成的实例之间，以自适应损失的方式。在这个对立的游戏中，两个网络相互改进，以产生最先进的图像生成。最近的工作[3，18，39]旨在克服模式崩溃和训练不稳定性问题，这些问题在优化GAN时经常发生。此外，一些作品[8，13，26]探索构建有效的架构来合成高质量的图像。I2I转换。图像到图像的转换在计算机视觉中得到了广泛的研究。它在配对[16，22，61]和非配对图像翻译[30，37，40，43，56，60]上都取得了出色的性能。然而，这些方法面临两个主要挑战：多样性和可扩展性。前者旨在从单个输入图像生成目标域的多个合理输出[2，20，32，57]。可扩展I2I转换的目标是使用单个模型在多个域中映射图像[11，33，57几个作品[27，46，48，55]探索困难的任务：形状转换以及风格。Trans- GaGa [55]将源图像分解为两个空间：几何形状和风格。然后对每个潜在空间分别进行翻译。然而，这些方法都没有解决I2I的迁移学习问题。最近的一些作品使用GAN进行I2I翻译，测试样本很少。Lin等提出了一种零拍I2I翻译方法，该方法利用图像和字幕对来研究特定领域和不变性特征。最近的工作[5，6，12，35]探索了一次性I2I翻译，并提出了一次性特定I2I模型。然而，这些方法不能用于多类I2I转换，因为这些模型是为两类情况设计的，其中可以访问两个域的一些图像。FUNIT [38]是第一个研究少量I2I翻译的人，但仍然依赖于大量的用于训练的标记的源域图像的数量。迁移学习。迁移学习旨在通过重用来自另一个模型的知识来减少训练时间，提高性能并减少模型所需的训练数据量，这些知识已经在另一个但相关的任务或域上训练过。最近的一系列工作研究了生成模型[42，53]以及判别模型[14]上的知识转移。最近的工作[48，54]探索了I2I翻译的知识转移。然而，这两种方法都引入了一个新的网络模块，该模块是从头开始训练的，并且容易遭受过拟合。其他几种方法[15，23]基于预训练的GAN执行图像操作特别地，给定预先训练的生成器（例如，StyleGAN），它们期望操纵输出图像属性（例如，年龄、发型、面部姿势等）。然而，这些方法并不关注迁移学习。此外，一些方法[1，4，59]将给定的示例图像嵌入到预训练的GAN的输入潜在空间中（例如，StyleGAN）。这些方法在文学上14012XX˜˜XX∈ X∈X{}（（固定共享域1域2使用Xavier初始化从初始化初始化图1.模型架构和培训阶段。除非另有说明，否则模块来自紧接的前一阶段。预先训练的GAN（例如， StyleGAN [26]）用作G0和D0来初始化两个GAN。（a）源-目标初始化在两个域（即，1和2）以形成两个独立的GAN（即，生成器G1和鉴别器D1，生成器G2和鉴别器D2）。(b)适配器层的自初始化以预训练适配器A并对准生成器G2和鉴别器D1。我们只更新适配器层A。(c)I2I翻译模型由五个主要部分组成：编码器E、适配器层A、生成器G2、辅助生成器G’2和鉴别器D2。请注意，编码器E是由EPD1初始化的。来自G~′2的权重的未被共享的部分（在yell中）用G ~2权重初始化。优化所述潜在空间以重构所提供的图像。事实上，它们不执行I2I转换。3. 方法问题设置。我们的目标是提出一个不成对的I2I翻译系统的情况下，训练数据是有限的。因此，我们应用迁移学习来提高I2I翻译的效率。我们将学习分解为图像生成步骤和I2I翻译步骤。图像生成步骤包含两个贡献：（a）源-目标初始化，以及（b）适配器层自初始化。此外，对于I2I步骤，我们引入了一个辅助生成器，以解决在I2I模型中使用跳过连接时生成器图1提供了我们的方法的概述。图-图1（a）示出了源-目标初始化，其中我们学习更好的生成模型，从而有助于I2 I转换模型的更好初始化。接下来，在图1（b）中，我们引入自初始化以克服适配器层的过拟合。在图1（c）中，我们训练I2I网络，并引入辅助发生器。该附加发生器与主发生器共享多个层。和多类I2I翻译。首先，我们介绍了我们的方法为单类I2I（第3.1节），并在下一节中，我们将我们的方法扩展到多类I2I（第3.2节）。3.1. 方法概述我们考虑两个域：源域1RH×W×3和目标域2RH×W×3。在这项工作中，给定来自源域和目标域的有限训练样本，我们的目标是将源图像x1∈X1映射到一个目标样品x1→2二、设向量z，R，Z是随机的噪声源-目标初始化。给定预先训练的GAN（例如，StyleGAN）和有限的训练数据，我们建议分别在源域和目标域的有限可用数据上训练两个生成模型（图1（a））。特别地，我们训练了一个生成模型，它由生成器G i和每个域i的CMDi组成，i=1，2。在这里，我们应用微调来适应源和目标域，如[53]。可以通过使用最近的方法来进一步改进该步骤，以改善小域上的转移[42，41，58，34]。培训目标变为：X1这就鼓励使用表现不佳的深层。我们的方法是一般的两类I2 I transla-LGAN=Ex1X1[logD1（x1）]+Ezp（z）[log（1−D1（G1（z）））]（一）（14013X2˜˜˜--˜--∈XΣ˜Σ。.~′Σ+λElog1−DG（z），aux2zp（z）2X2它被迫使用它的深层，因为我们共享这些，LGAN= Ex2X2[logD2（x2）]（二）到x1→2∈X2。我们的架构由5个模块组成：编码器E、适配器A、发生器G~2、辅助+Ezp（z）[log（1 − D2（G2（z）].这里，源域和目标域的生成模型用于为I2I转换提供更好的初始化。适配器层的自初始化。受DeepI2I [54]的启发，我们使用预训练的递归（图1（a））来初始化I2I模型的编码器和判别器（图1（c）），并相应地将预训练的生成器初始化为I2I生成器。由于在GAN配置中，在发生器和MEMS的中间层之间没有连接，因此这些层不对齐。出于这个原因，[54]引入了适配器网络（由图1（b，c）中的A指示）以在编码器和解码器的各个层之间进行在DeepI2I中，他们发现引入四个适配器网络是最佳的。这些层包含系统中参数总数的显著量（约25%）。然后，他们继续在源-目标数据上简单地优化从头开始训练适配器网络会导致对有限数据的过拟合。为了克服这些缺点，我们提出了一种称为自初始化的过程，该过程利用先前的预训练模型（图1（a））来对齐适配器网络，而不需要任何数据。如图1（b）所示，噪声z被作为生成器G2的输入，从中我们提取分层表示Fg（z）={G2（z）1}以及合成图像G2（z）。这里辅助发电机 G′2 和辅助发电机 D2 。设 E1 是第 l 个（l=m，. . .，n，（n > m））ResBlock输出，其进一步被用作对应适配器网络Al的输入。我们的目标是用有限的标记数据将图像从源映射到目标域。首先，编码器E，初始化的预训练的WID1采取的图像x1作为输入，提取分层表示Eg（x1）=E（x1）1从不同的层，其中包含的结构和语义信息的输入图像。然后将eg（x1）馈送到适配器网络A（xl）={A（xl）l}，其进而被取作用于计算的输入生成器G2与噪声z一起合成输出图像x1- 2=G2（z，A（E（x1）。注意，我们将适配器的输出与生成器的相应输出我们采用鉴别器D2来区分真实图像与生成的图像，并在输入源图像x1和输出G2（z，A（E（x1）中保持相似的姿态[38，54]。训练I2I转换模型可能导致生成器深层的未使用容量，这主要是由于跳过连接。发电机相对容易使用来自高分辨率跳过连接（连接到生成器的上层）的信息，而忽略生成器的深层，深层需要对数据的更多语义理解，因此更难以训练。为了解决这个问题，我们提出了一个辅助发生器，它具有相同的网络设计，但只使用噪声作为输入。从源代码中提取翻译-G2（z）l是第l个（l = m，. . . .，n，（n> m））ResBlock 2生成器G的输出。然后我们将生成的图像年龄x1∈X′1 到x 1→2 ∈X2作为例子。辅助2G2（z）作为鉴别器D1的输入，并且类似地收集分层特征Fd（z）=D1（G2（z））1。适配器网络A最终采用输出表示{D（G（z））}作为输入，即A（F（z））={A}。在这步骤，我们的损失是：生成器G2将噪声z作为输入，并且将输出图像x′2二、我们提出将该辅助生成器的深层与跟随主生成器G~2中的跳过连接的深层（图1中的虚线层1l d图1（c））。由于G~′2不能访问跳过连接，X2阿里=F g（z）− A（D1（G2（z）））1。L（三）主I2I发生器也被驱动以使用它们。我们的I2I转换损失函数是一个多任务。（一）损失的性质;在该步骤中，生成器和鉴别器都是冻结并且仅学习适配器层。注意，适配器层被训练为将鉴别器作为输入，并输出与生成器对齐的表示（与它们在GAN中应用的顺序相反）;这样做是因为当我们使用预训练的SNR来初始化编码器时，在I2 I网络中切换发生器和鉴别器（参见图1（c））。I2I翻译的迁移学习。图1（c）显示了如何将图像从源域映射到目标域。例如，要平移源图像x1∈X12在每个ResBlock之后，特征分辨率在编码器和鉴别器中都是前一个的一半，并且在生成器真实图像和生成图像。(b)重构损失保证了输入图像x1和合成图像x1→2= G2（z，A（E（x1）保持相似的结构信息。对抗性损失。我们使用GAN [17]来优化这个问题，如下所示：LGAN=Ex2X2[logD2（x2）]+Ex1X1，zp（z）Σlo g（1−D2.G~2（A（E（x1）），z）ΣΣ（四）其中p（z）服从正态分布。超-L14014GANLΣ×××′′每一个名词。我们设定λ=1。注G和G是×E，E，A，AD，DGANGANrecrecrec1×固定共享初始化自使用Xavier初始化进行初始化表1. 源-目标初始化和适配器的自初始化对动物面孔的影响。两个案子：多类I2I转换（第4.2节）和图2.条件模型架构和训练阶段。c是条件嵌入。(a)源-目标初始化和（b）自初始化。参数λaux是为了平衡每个项的重要性我们设置λaux=0。01.鉴别器D1和损失x1是相似的。重建损失。我们使用重建来保留输入图像x1和输出图像x1→2的结构。以与照片级真实感图像生成结果相同的方式[24，25，49]，我们使用鉴别器输出通过以下损失实现此目标：两类I2I转换（第4.3节）。4.1.实验设置培训详情。我们调整预训练的GAN的结构（即，用于两类I2 I转换的StyleGAN和用于多类I2 I转换的Big-GAN）。特别地，生成器G和鉴别器D都直接复制GAN中的那些（即，StyleGAN或BigGAN）。辅助生成器G′与生成器相同，编码器E复制了判别器的结构。适配器网络A包含四个子适配器网络。在多级I2I系统中，每个子适配器x1接收 =αlD2L（x1）−D2（x1→2）1、（五）由一个Relu，两个卷积层（Conv）组成3 3过滤器大小和步长为1，以及一个Conv为1 1第一个，第二个，第三个，第四其中参数αl是平衡项的标量注意，我们设置αl=1。全面目标。我们模型的完整目标函数是：x1x2x1x2最小值最大值L+L +λ（L +L ）121122响应于编码器的最深层），其仅包含具有3 × 3滤波器和步长1的两个Conv。在两级I2I系统中，每个子适配器网络由具有3 3滤波器大小和步长为1的Conv组成。所提出的方法在Pytorch中实现[44]。的配置该实验在Suppl. Mat. A部分（表G~1、G~2、G~3①的人。我们使用1×Quadro RTX 6000 GPU（24 GBVRAM至其中λrec是平衡重要性′记录11从域X2到域X1对应的生成元和辅助生成元。3.2.多类I2I转换我们的方法也可以应用于多类I2I翻译。如图2所示，我们通过使用像BigGAN [8]这样的类嵌入，拥有一个条件特别地，我们从预训练的条件GAN（例如，BigGAN），并获得所有数据的单个生成器和鉴别器以下步骤，适配器的自初始化（图2（b））和与辅助发生器的I2I转换（图1（c）），除了发生器和鉴别器的条件外，与两类I2I系统的步骤用于多类I2I转换的框架在Supp. Mat. A.4. 实验在本节中，我们首先介绍实验设置（第4.1节）：训练细节、评估措施、数据集和基线。然后我们评估我们的方法评估指标。我们使用几个 GAN 指标。第一个是Fre'chetInceptionDistance（FID）[19]，它使用Fre' chet距离比较真实和虚假图像的分布。第二个是KernelInceptionDistance（KID）[7]，它计算相同嵌入特征的最大平均差异（MMD），并被证明是一个收敛估计量，与FID相反为了计算所有类别，我们将平均FID和KID计算为mFID和mKID。最后，我们训练了一个真实分类器（RC）和一个假分类器（FC）[47]来评估生成特定类别图像的能力RC在真实数据上进行训练，并在生成的数据上进行评估，反之亦然。数据集。我们在五个数据集上评估了我们的方法。对于多类I2I转换，我们使用三个数据集：[38 ]动物的面孔[39]，鸟类[51]和食物[28]。为了评估两类I2 I模型，我们使用两个数据集：cat 2dog-200和cat 2dog-2035。Animal faces数据集包含1，490张图像和149个类，Birds数据集包含48，527张图像和555个类，Foods数据集包含31，395张图像和256个类。我们将动物面部、鸟类和食物中的所有图像的大小调整为128 128，并将每个数据分成训练集（90%）和测试集（10%），除了动物面部，其中测试图像的数量为（适配器层的自初始化（源-目标初始化L2进行我们所有的实验（六）源-目标初始化自初始化mKID× 100↓mFID↓√××11.48137.11√×9.63114.23√×√10.03122.129.40109.714015×˜˜1- -4.03.53.02.52.01.51.00.50.02004006008001000120014001600迭代4.2. 多类I2I转换消融研究。我们现在评估每个独立贡献对TransferI2I性能的影响。首先，我们在没有辅助发生器的情况下消融源-目标初始化和自初始化。接下来，我们评估添加辅助发电机时的性能增益。源-目标初始化和自初始化。表1报告了两种技术在动物面部的mFID和mKID方面的性能。注意表的1等于DeepI2I。添加一项技术（源-目标初始化和图3.权重w（w/o）的变化是辅助生成器的变化。（AG）。RB i（i= 0，1，2）是从输入到输出的生成器的ResBlock层的索引WF是体重波动。#ResBlockmKID×100↓mFID↓19.48115.4729.39110.3139.34105.9849.25103.55表2.发生器G和辅助发生器G’之间的共享层的数量上的烧蚀。注意，我们考虑来自生成器的底层的共享ResBlock层1，490人（每班10人）。cat 2dog-200由200个图像组成（每个类100个图像）。cat 2dog-2035包含771张猫类图像和1264张狗类图像。cat 2dog-200和cat 2dog-2035的测试数据集是相同的，并且具有200个图像（100个图像/类），图像大小为256 256。请注意，对于任何使用的数据集，训练和测试分割都不重叠。两类I2I的基线。我们将此设置与几个基线进行比较。CycleGAN [60]首先通过利用循环一致性损失来重建输入图像来执行未配对的I2I转换。 UNIT [37]提出了一种在共享潜在空间假设下的无监督I2I翻译方法。相关的方法，包括 MUNIT [20] ， DRIT++[33] 和StarGANv2[11]，提出了分离来控制姿势和风格信息。UGATIT [29]旨在处理几何变化，并引入了两种技术：注意力模块和新的归一化。CUT [43]引入了I2I翻译的对比学习。DeepI2I [54]使用预训练的GAN来初始化I2I模型。多类I2I的基线。我们比较了Star-GAN [10]，StarGANv2 [11]，SDIT [52]，DRIT++[33]，DMIT [57]和DeepI2I [54]，所有这些都在多类域之间执行图像到图像的转换。Star-GANv 2 [11]通过引入特定于类的网络来获得稳定性。SDIT [52]利用类标签和随机噪声在单个模型中实现可扩展性和多样性在DMIT中也探索了类似的想法[57]。适配器层）与DeepI2I相比此外，执行源-目标初始化实现了比自初始化更大的优点，例如：对于mFID：114.23 vs. 122.12 这似乎表明前者更为重要。最后，使用这两种技术获得最佳的mFID分数，表明我们的方法成功地执行I2I翻译与几个图像。辅助发电机。在本文中，我们建议利用辅助发电机，以鼓励使用深层的发电机。我们进行了一个实验来评估生成元G和辅助生成元G′之间共享层数的影响。如表所示。2，我们发现更多的共享层导致更好的性能（例如，mFID值随着共享层数量的增加而减小为了测量两个模型之间的距离，我们使用权重波动（WF），对于具有参数θ1和θ2 的两个模型，定义为WF=（θ1θ2）T FMθ（θ1θ2），其中FMθ1是Fisher矩阵[31]。该距离考虑了权重对损失补偿的重要性。截肢如图3所示，使用辅助发生器比不使用辅助发生器在深层中导致更大的重量变化，清楚地证明了提高的利用率和对整个系统性能的有益影响。剧烈的变化（即，RB 0（8月）与RB 0（不含8月））出现在生成器的第一个ResBlock中，这意味着我们能够学习语义信息。向上层移动，两个发生器（w和w/o辅助发生器）的对应层的间隙变得更小。最可能的原因是上层（影响结构信息）使用更多来自跳过连接的信息。定量结果。如表3所示，我们将所提出的方法与动物面孔[38]、鸟类[51]和食物[28]数据集的基线进行了比较。我们的方法在mFID/mKID（联合质量和多样性）和RC/FC（生成特定类别图像的能力）方面优于所有基线。我们获得的mFID下降了约30点的动物脸和鸟类，和23RB_0（含AG）RB_1（含AG）RB_2（含AG）RB_0（不含AG）RB_1（不含AG）RB_2（不含AG）WF（*10³）14016布伦海姆马耳他奥达猎犬波士顿英语爱尔兰水科蒙多尔设得兰猎犬狗公牛setter猎犬牧羊犬输入鳗鱼饭咖喱牛肉薄片烤荞麦嫩煎Yakitori虾生马肉鸡面条菠菜激冷源输入图4.动物面部和食物的定性比较。输入图像在第一列中，其余列显示特定于类的翻译图像。数据集方法动物脸（10张/班）鸟类（78只/每班）食品（110/每班）mKID×100↓mFID↓RC↑FC↑mKID×100↓mFID↓RC↑FC↑mKID× 100↓mFID↓RC↑FC↑StarGAN [10]28.4276.54.895.1221.4214.69.6110.220.9210.710.712.1SDIT [52]31.4283.65.514.6422.7223.58.908.7123.7236.211.911.8DMIT [57]29.6280.15.985.1123.5230.412.911.419.5201.48.3010.4DRIT++ [33]26.6270.14.816.1524.1246.211.813.219.1198.510.712.7StarGANv2 [11]11.38131.212.414.810.7152.925.721.46.72142.634.722.8TransferI2I（划痕）41.37356.13.471.5430.5301.73.245.8426.5278.25.834.67DeepI2I [54]11.48137.110.39.278.92146.320.822.56.38130.830.219.3TransferI2I9.25103.522.325.46.23118.327.128.43.62107.843.224.8表3.与基线比较。TransferI2I在三个数据集上获得了优异的结果。在鸟类和食物数据集上，即使它们有更多的样本，我们仍然获得了令人满意的优势。点上食物。这表明所提出的方法在小数据集上的优点（例如，每类图像的数量是10个动物面孔）。在较大的数据集（例如在食物数据集上，每类110个图像）。从头开始训练相同的架构（Transfer（scratch））会获得较差的结果。StarGANv2和DeepI2I都表现出类似的性能，但在所有指标上都不如TransferI2I。除了对mFID的改进之外，TransferI 2 I的分类分数RC和FC也显示质量（RC/FC）和多样性（FC）都得到改进。我们还评估的方法时，使用100幅图像动物面部数据集上的每个类。我们得到了149.4，153.3 和127.6 mFID的StarGANv2，DeepI2I和我们的模型分别。我们的方法仍然获得了很大的优势相比，它的竞争对手，即使是一个更大的测试集。定性结果。图4显示了与Animal faces和Foods数据集上的尽管StarGANv2和DeepI2I都能够对每个类执行多类以动物脸为例，给定目标类标签，我们的方法能够提供高视觉质量的图像。Foods数据集的定性结果也证实了我们的结论：TransferI2I的图像为DeepI2IStarGANv2DeepI2IStarGANv2TransferI2ITransferI2I14017输入科蒙多猎豹Meerkat输入朱红黄头靛蓝输入嫩煎天妇Pho鹟黑鹂鹀菠菜碗图5. TransferI2I的定性结果。输入图像在第一列中，特定于类的输出在其余列中。对于每个特定的目标类，我们显示两个图像。数据集方法(cat，狗）：（100，100）(cat，狗）：（771，1264）狗→猫猫→狗狗→猫猫→狗FID↓ KID↓ FID↓ KID↓ FID↓ KID↓ FID↓KID↓CycleGAN [60]210.7 14.33 284.6 28.14 119.32 4.93125.30 6.93单位[37]189.4 12.29 266.3 25.51 59.561.9463.781.94MUNIT [20]203.4 13.63 270.6 26.17 53.251.2660.847.25尼赛根[9]104.4 6.04 156.2 10.56 48.791.5844.671.20UGATIT-光[29] 133.3 6.51 206.6 15.04 80.703.2264.362.49[43]第四十三话197.1 12.01 265.1 25.83 45.411.1948.376.37StarGANV2 [11] 336.4 40.21 339.8 41.32 25.410.9130.11.03DeepI2I [54]83.71 4.26 112.4 5.6743.231.3739.541.04TransferI2I（我们的）55.23.9783.64.5927.00.8437.131.12表4.cat 2dog-200和cat 2dog-2035上的度量结果数据集。注意，我们将KID乘以100。(a) 输入（b）UGATITA（c）CUT（d）MUNIT（e）TransferI2I图6. cat 2dog-200数据集上生成的输出示例。一般来说质量高于基线。我们进一步验证了我们的方法是否具有可扩展性和多样性在一个单一的模型。如图5所示，给定目标类别标签（例如，Komondor）我们的方法通过改变噪声z（即，图的第二列）。结果表明，通过改变目标类标签（即，可缩放性）发生器产生相应的目标特定输出。4.3. 两级I2I转换为了评估我们的方法的通用性，在这里，我们验证了所提出的用于两类数据集上的两类I2I转换的算法：猫和狗我们使用预先训练好的StyleGAN来初始化我们的模型（见图1（a））。图6显示了在cat 2dog-200数据集上生成的基线图像和所提出的方法。我们可以很容易地观察到，基线无法合成真实感的图像，虽然他们学习的风格信息的目标域。我们可以看到TransferI2I生成了更真实的目标图像。对于定量评价，我们报告的FID和KID方面的结果。如表4所示，TransferI 2 I在小型cat 2dog-200数据集上获得了最佳分数，相对于DeepI 2 I，FID提高了约30个这清楚地表明，我们的方法成功地进行I2I翻译时，有限的数据。在更大的cat 2dog-2035数据集上，迁移学习不太重要，我们获得了与StarGANv 2相当的性能，但明显优于DeepI 2 I（使用类似的架构）。5. 结论我们已经提出了一种方法来受益于图像到图像方法的迁移学习。我们将我们的学习过程解耦为图像生成和I2I转换步骤。第一步，包括适配器的源-目标初始化和自初始化，旨在学习用于I2 I转换的更好的初始化（第二步）。此外，我们引入了一个辅助生成器，以克服低效率的使用深层的gener- ator。在本文中，我们仍然遭受挑战，即目标域和源域之间的域间隙主要影响传输效率：畴隙越小，I2I转换性能越好。我们将在今后的工作中重点关注这一限制。感谢华为麒麟解决方案、PID 2019 - 104174 GB-I 00项目（西班牙MINECO）、加泰罗尼亚自治区CERCA项目和欧盟CybSpeed MSCA-RISE-2017-777720项目的支持。14018引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在ICCV，第4432-4441页，2019年。2[2] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根：从非配对数据学习多对多映射。在ICML，2018。2[3] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。Wasserstein gan在ICLR，2017。2[4] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou，Joshua B Tenenbaum，William T Freeman，andAntonio Torralba.肝解剖：可视化和理解生成对抗网络。ICLR，2018年。2[5] Sagie Benaim，Ron Mokady，Amit Bermano和L Wolf。从单个图像对的结构类比。在计算机图形学论坛。威利在线图书馆。一、二[6] Sagie Benaim和Lior Wolf。单侧无监督的域映射。在NeurIPS，第752-762页，2019年。一、二[7] MBin'kowski，DJSutherland，MArbel和AGretton。去神秘化mmd甘斯。在ICLR，2018年。5[8] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练2019年，在ICLR。一、二、五[9] Runfa Chen，Wenbing Huang，Binghui Huang，FuchunSun，and Bin Fang.重复使用鉴别器进行无监督图像到图像转换的编码。在CVPR，2020年。8[10] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年6月。六、七[11] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。一二六七八[12] Tomer Cohen和Lior Wolf双向单次非监督域映射。在ICCV，第1784一、二[13] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在NeurIPS，第1486-1494页，2015中。2[14] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能。在ICML，第647-655页，2014中。2[15] Lore Goetschalckx，Alex Andonian，Aude Oliva，andPhillip Isola.Ganalyze ： Toward visual definitions ofcognitive image properties. 在 ICCV ，第 5744-5753 页，2019年。2[16] Abel Gonzalez-Garcia 、 Joost van de Weijer 和 YoshuaBen- gio 。用于跨域分离的图像到图像转换。在NeurIPS，第1294-1305页，2018年。2[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页，2014中。二、四[18] Ishaan Gulrajani、Faruk Ahmed、Martin Arjovsky、VincentDumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS，第5767-5777页，2017年。214019[19] MartinHeusel 、 HubertRamsauer 、 ThomasUnterthiner、Bernhard

下载后可阅读完整内容，剩余1页未读，立即下载