没有合适的资源?快使用搜索试试~ 我知道了~
1105510少样本无监督图像到图像翻译0刘明宇1,黄勋1,2,阿伦马利亚1,特罗卡拉斯1,蒂莫艾拉1,雅科莱蒂宁1,3,扬考茨101 NVIDIA,2 康奈尔大学,3 阿尔托大学0{mingyul,xunh,amallya,tkarras,taila,jlehtinen,jkautz}@nvidia.com0摘要0无监督图像到图像翻译方法通过利用非结构化(非注册)图像数据集,将给定类别的图像映射到不同类别的类似图像。尽管非常成功,但当前的方法在训练时需要访问源类别和目标类别的许多图像,这极大地限制了它们的使用。受到人类从少量示例中捕捉新物体本质并从中推广的能力的启发,我们寻求一种少样本的无监督图像到图像翻译算法,该算法仅在测试时由少量示例图像指定之前未见的目标类别。我们的模型通过将对抗训练方案与新颖的网络设计相结合,实现了这种少样本生成能力。通过在基准数据集上进行广泛的实验验证和与几种基准方法的比较,我们验证了所提出框架的有效性。我们的实现和数据集可在https://github.com/NVlabs/FUNIT 上获取。01. 引言0人类在泛化方面表现出色。当给出一张以前未见过的奇特动物的图片时,我们可以根据以前在相同姿势下遇到的类似但不同的动物(图像)形成一个生动的心理图像。例如,一个人第一次看到站立的老虎时,如果他在过去的生活中见过其他动物,他就不会有困难地想象它躺下的样子。尽管最近的无监督图像到图像翻译算法在跨图像类别之间转移复杂的外观变化方面非常成功[28, 43, 26, 23, 51,48],但基于先前知识从少量新类别的样本中推广的能力完全超出了它们的能力范围。具体而言,它们需要在所有它们要进行翻译的图像类别上进行大规模的训练集,即它们不支持少样本推广。为了弥合人类和机器想象能力之间的差距,我们提出了少样本UN-0有监督的图像到图像翻译(FUNIT)框架,旨在通过利用测试时给定的目标类别的少量图像,学习一个将源类别图像映射到目标类别类似图像的图像到图像翻译模型。在训练过程中,模型从未展示过目标类别的图像,但在测试时被要求生成其中的一些图像。为了进行下一步,我们首先假设人类的少样本生成能力是从他们过去的视觉经验中发展出来的-如果一个人在过去看到了更多不同的物体类别,那么他可以更好地想象一个新物体的视图。基于这个假设,我们使用包含许多不同物体类别图像的数据集来训练我们的FUNIT模型,以模拟过去的视觉经验。具体而言,我们通过利用另一个类别的少量示例图像,训练模型将一个类别的图像翻译为另一个类别的图像。我们假设通过学习从少量示例图像中提取外观模式来进行翻译任务,模型学习到了一个可以应用于测试时未见类别图像的可推广外观模式提取器,用于少样本图像到图像翻译任务。在实验部分,我们提供了经验证据,表明少样本翻译性能随着训练集中类别数量的增加而提高。我们的框架基于生成对抗网络(GAN)[13]。我们展示了通过将对抗训练方案与新颖的网络设计相结合,我们实现了所需的少样本无监督图像到图像翻译能力。通过在三个数据集上进行广泛的实验验证,包括使用各种性能指标与几种基准方法进行比较,我们验证了我们提出的框架的有效性。此外,我们展示了所提出的框架可以应用于少样本图像分类任务。通过对我们模型生成的少样本类别图像进行分类器训练,我们能够胜过一种基于特征幻觉的最先进少样本分类方法。03. Few-shot Unsupervised Image Translation105520翻译训练0少样本无监督图像到图像的转换0源类别 #10源类别 #20源类别 #| ! |0内容图像0类别图像0转换0部署0少样本无监督图像到图像的转换0源类别 #10源类别 #20源类别 #| ! |0内容图像0类别图像0目标类别0图1.训练。训练集包含各种对象类别(源类别)的图像。我们训练一个模型来在这些源对象类别之间进行图像转换。部署。我们向训练好的模型展示非常少量的目标类别图像,即使模型在训练过程中从未见过目标类别的任何一张图像,也足以将源类别的图像转换为类似目标类别的图像。注意,FUNIT生成器需要两个输入:1)内容图像和2)一组目标类别图像。它的目标是生成与目标类别图像相似的输入图像的转换。0[26,28]尝试使用来自边缘分布的样本来恢复联合分布,这个问题本质上是不适定的。为了解决这个问题,现有的方法使用额外的约束条件。例如,一些方法强制转换保持源数据的某些属性,如像素值[38]、像素梯度[5]、语义特征[43]、类别标签[5]或成对样本距离[3]。还有一些方法强制循环一致性约束[48, 51, 23, 1,52]。几个方法使用共享/部分共享的潜在空间假设[26,28]/[18,24]。我们的工作基于部分共享的潜在空间假设,但是设计用于少样本无监督图像到图像的转换任务。尽管能够生成逼真的转换输出,但现有的无监督图像到图像转换模型在两个方面存在限制。首先,它们在样本效率上效果不佳,如果在训练时只给出少量图像,生成的转换输出会很差。其次,学习得到的模型在两个类别之间进行图像转换时有限制。一个用于某个转换任务的训练模型不能直接用于新任务,尽管新任务与原始任务之间存在相似性。例如,一个哈士奇到猫的转换模型不能用于哈士奇到老虎的转换,尽管猫和老虎之间有很大的相似性。最近,Benaim和Wolf[4]提出了一个无监督图像到图像的转换框架,部分解决了第一个方面的问题。具体来说,他们使用一个训练数据集,其中包含一个源类别图像和许多目标类别图像,以训练一个模型,将单个源类别图像转换为目标类别的类似图像。我们的工作与他们的工作在几个重要方面有所不同。首先,我们假设有许多源类别图像,但只有少量目标类别图像。此外,我们假设少量目标类别图像仅在测试时可用,并且可以来自许多不同的对象类别。0多类别无监督图像到图像的转换 [7,0[2,19]将无监督图像到图像的转换方法扩展到多个类别。我们的工作与这些方法类似,因为我们的训练数据集包含多个类别的图像。但是,我们的重点不是在已见类别之间进行图像转换,而是将已见类别的图像转换为以前未见类别的类似图像。0Few-shot分类。与少样本图像到图像转换不同,使用少量示例学习新颖类别的分类器的任务是一个长期研究的问题。早期的工作使用外观的生成模型以分层方式在类别之间共享先验知识[10,36]。最近的工作更加关注使用元学习快速适应模型到新任务[11, 32, 35,31]。这些方法学习更好的训练优化策略,以便在只看到少量示例时提高性能。另一组工作关注学习更适合少样本学习的图像嵌入[45, 40,41]。最近的几项工作提出通过生成对应于新颖类别的新特征向量来增强少样本分类任务的训练集[9, 14,47]。我们的工作旨在进行少样本无监督图像到图像转换。然而,它也可以应用于少样本分类,如实验部分所示。0提出的 FUNIT框架旨在通过利用在测试时提供的少量目标类别图像,将源类别图像映射到未见过的目标类别的类似图像。为了训练FUNIT,我们使用来自一组对象类别(例如各种动物物种的图像)的图像,称为源类别。我们不假设任何两个类别之间存在成对的图像(即不同物种的两个动物处于完全相同的姿势)。我们使用源类别图像来训练一个多类别无监督图像到图像的转换模型。在测试时,我们向模型提供来自新颖对象类别的少量图像。¯x = G(x, {y1, ..., yK}).(1)̸3.1. Few-shot Image Translator¯x = Fx�zx, zy�= Fx�Ex(x), Ey({y1, ..., yK})�.(2)minD maxG LGAN(D, G) + λRLR(G) + λFLFM(G)(3)LGAN(G, D) =Ex [− log Dcx(x)] +Ex,{y1,...,yK}[log�1 − Dcy�¯x�](4)105530称为目标类别。模型必须利用少量目标图像将任何源类别图像转换为目标类别的类似图像。当我们向同一模型提供来自不同新颖对象类别的少量图像时,它必须将任何源类别图像转换为不同新颖对象类别的类似图像。我们的框架由一个条件图像生成器 G 和一个多任务对抗鉴别器 D组成。与现有无监督图像到图像转换框架中的条件图像生成器[51, 26]不同,它以一张图像作为输入,我们的生成器 G同时以内容图像 x 和一组 K 类图像 { y 1 , ..., y K }作为输入,并通过生成输出图像 ¯ x 来完成转换。0我们假设内容图像属于对象类别 c x ,而每个 K类图像属于对象类别 c y 。一般来说,K 是一个小的数字,cx 与 c y 不同。我们将 G称为少样本图像翻译器。如图1所示,G 将输入内容图像 x映射到输出图像 ¯ x ,使得 ¯ x 看起来像属于对象类别 c y的图像,并且 ¯ x 与 x 具有结构上的相似性。让 S 和 T分别表示源类别集合和目标类别集合。在训练过程中,G学习在两个随机抽样的源类别 c x ,c y ∈ S之间进行图像转换,其中 c x � = c y 。在测试时,G从未见过的目标类别 c ∈ T中获取少量图像作为类别图像,并将从任何源类别中抽样的图像映射到目标类别 c的类似图像。接下来,我们讨论网络设计和学习。更多细节请参阅我们的完整技术论文[27]。0少样本图像翻译器 G 由内容编码器 E x 、类别编码器 E y和解码器 F x组成。内容编码器由几个2D卷积层和几个残差块[15,20]组成。它将输入内容图像 x 映射到内容潜在编码 z x,它是一个空间特征图。类别编码器由几个2D卷积层和沿样本轴的均值操作组成。具体来说,它首先将每个 K个单独的类别图像 { y 1 , ..., y K }映射到一个中间潜在向量,然后计算中间潜在向量的均值以获得最终的类别潜在编码 z y。解码器由几个自适应实例归一化(AdaIN)残差块[18]和几个上采样卷积层组成。AdaIN残差块是一个使用AdaIN[17]作为归一化层的残差块。对于每个样本,AdaIN首先将每个通道中的激活归一化为零均值和单位方差。然后,它使用一组标量和偏置的学习仿射变换来缩放激活。注意,仿射变换在空间上是相同的。0不变性,因此只能用于获取全局外观信息。仿射变换参数通过一个两层全连接网络使用 z y 自适应计算得到。使用 E x,E y 和 F x ,(1)变为0通过使用这种翻译器设计,我们的目标是使用内容编码器提取类不变的潜在表示(例如物体姿态),并使用类编码器提取类特定的潜在表示(例如物体外观)。通过将类潜在代码通过AdaIN层传递给解码器,我们让类图像控制全局外观(例如物体外观),而内容图像确定局部结构(例如眼睛的位置)。在训练时,类编码器学习从源类的图像中提取类特定的潜在表示。在测试时,这个能够推广到以前未见过的类别的图像。在实验部分,我们展示了这种泛化能力取决于训练过程中源物体类别的数量。当 G使用更多的源类进行训练时(例如更多种类的动物),它具有更好的少样本图像翻译性能(例如更好地将哈士奇翻译为美洲狮)。03.2. 多任务对抗判别器0我们的判别器 D是通过同时解决多个对抗分类任务进行训练的。每个任务都是一个二元分类任务,确定输入图像是源类的真实图像还是来自 G 的翻译输出。由于有 | S | 个源类,D 会产生 | S |个输出。当更新 D 以用于源类 c x 的真实图像时,如果其 cx 输出为假,我们会对 D 进行惩罚。对于生成的源类 c x的伪图像的翻译输出,如果其 c x 输出为正,我们会对 D进行惩罚。对于其他类别(S \{ c x })的图像,我们不会对D 进行惩罚。当更新 G 时,只有当 D 的 c x输出为假时,我们才会对 G进行惩罚。我们经验性地发现,这种判别器比通过解决一个更难的 | S | 类分类问题进行训练的判别器效果更好。03.3. 学习0我们通过解决一个最小最大优化问题来训练提出的 FUNIT框架,给定为0其中 L GAN , L R 和 L F是GAN损失,内容图像重建损失和特征匹配损失。GAN损失是有条件的,给定为CycleGAN-Unfair-2028.9747.8838.3271.821.61510.487.43197.13UNIT-Unfair-2022.7843.5535.7370.891.50412.146.86197.13MUNIT-Unfair-2038.6162.9453.9084.001.70010.207.59158.93StarGAN-Unfair-12.5610.509.0732.551.31110.495.17201.58StarGAN-Unfair-512.9935.5625.4060.641.5147.466.10204.05StarGAN-Unfair-1020.2645.5130.2668.781.5597.395.83208.60StarGAN-Unfair-1520.4746.4634.9071.111.5587.205.58204.13StarGAN-Unfair-2024.7148.9235.2373.751.5498.576.21198.07StarGAN-Fair-10.563.464.4120.031.3687.833.71228.74StarGAN-Fair-50.603.564.3820.121.3687.803.72235.66StarGAN-Fair-100.603.404.3020.001.3687.843.71241.77StarGAN-Fair-150.623.494.2820.241.3687.823.72228.42(6)105540设置 Top1-all ↑ Top5-all ↑ Top1-test ↑ Top5-test ↑ DIPD ↓ IS-all ↑ IS-test ↑ mFID ↓0动物面孔0StarGAN-Fair-20 0.62 3.45 4.41 20.00 1.368 7.83 3.72 228.570FUNIT-1 17.07 54.11 46.72 82.36 1.364 22.18 10.04 93.030FUNIT-5 33.29 78.19 68.68 96.05 1.320 22.56 13.33 70.240FUNIT-10 37.00 82.20 72.18 97.37 1.311 22.49 14.12 67.350FUNIT-15 38.83 83.57 73.45 97.77 1.308 22.41 14.55 66.580FUNIT-20 39.10 84.39 73.69 97.96 1.307 22.54 14.82 66.140北美鸟类0CycleGAN-Unfair-20 9.24 22.37 19.46 42.56 1.488 25.28 7.11 215.300UNIT-Unfair-20 7.01 18.31 16.66 37.14 1.417 28.28 7.57 203.830MUNIT-Unfair-20 23.12 41.41 38.76 62.71 1.656 24.76 9.66 198.550StarGAN-Unfair-1 0.92 3.83 3.98 13.73 1.491 14.80 4.10 266.260StarGAN-Unfair-5 2.54 8.94 8.82 23.98 1.574 13.84 4.21 270.120StarGAN-Unfair-10 4.26 13.28 12.03 32.02 1.571 15.03 4.09 278.940StarGAN-Unfair-15 3.70 11.74 12.90 31.62 1.509 18.61 5.25 252.800StarGAN-Unfair-20 5.38 16.02 13.95 33.96 1.544 18.94 5.24 260.040StarGAN-Fair-1 0.24 1.17 0.97 4.84 1.423 13.73 4.83 244.650StarGAN-Fair-5 0.22 1.07 1.00 4.86 1.423 13.72 4.82 244.400StarGAN-Fair-10 0.24 1.13 1.03 4.90 1.423 13.72 4.83 244.550StarGAN-Fair-15 0.23 1.05 1.04 4.90 1.423 13.72 4.81 244.800StarGAN-Fair-20 0.23 1.08 1.00 4.86 1.423 13.75 4.82 244.710FUNIT-1 11.17 34.38 30.86 60.19 1.342 67.17 17.16 113.530FUNIT-5 20.24 51.61 45.40 75.75 1.296 74.81 22.37 99.720FUNIT-10 22.45 54.89 48.24 77.66 1.289 75.40 23.60 98.750FUNIT-15 23.18 55.63 49.01 78.70 1.287 76.44 23.86 98.160FUNIT-20 23.50 56.37 49.81 78.89 1.286 76.42 24.00 97.940表1. 与公平和不公平基线的性能比较。↑表示较大的数值更好,↓表示较小的数值更好。0上标附加到 D表示对象类别;损失仅使用类别的二进制预测分数计算。内容重建损失有助于 G学习一个翻译模型。具体来说,当使用相同的图像作为输入内容图像和输入类别图像(在这种情况下 K =1)时,该损失鼓励 G 生成与输入图像相同的输出图像0L R ( G ) = E x � || x − G ( x , { x } ) || 1 1 � . (5)0特征匹配损失对训练进行正则化。我们首先构建一个特征提取器,称为 D f ,通过从 D中删除最后一层(预测层)来实现。然后我们使用 D f从翻译输出 ¯ x 和类别图像 { y 1 , ..., y K }中提取特征并最小化0L F ( G ) = E x , { y 1 ,..., y K } � || D f (¯ x )) − �0k0D f0K || 1 1 � .0内容重建损失和特征匹配损失对于图像到图像翻译来说都不是新话题0[26, 18, 46,34]。我们的贡献在于将它们扩展到更具挑战性和新颖的少样本无监督图像到图像翻译设置中。04. 实验0实现。我们设置 λ R = 0.1 和 λ F =1。我们使用RMSProp优化(3),学习率为0.0001。我们使用GAN损失的hinge版本[25, 30, 49,6]和Mescheder等人提出的真实梯度惩罚正则化[29]。最终的生成器是中间生成器的历史平均版本[21],更新权重为0.001。我们使用 K = 1 训练 FUNIT模型,因为我们希望它在测试时即使只有一个目标类别图像也能表现良好。在实验中,我们在 K = 1, 5, 10, 15, 20下评估其性能。每个训练批次包含64个内容图像,均匀分布在一台NVIDIA DGX1机器的8个V100GPU上。数据集。我们在实验中使用以下数据集。0• 动物脸部。我们使用ImageNet[8]中的149个食肉动物类的图像构建了这个数据集。我们105550y 10y 20x0¯ x0y 10y 20x0¯ x0y 10y 20x0¯ x0y 10y 20x0¯ x0图2.少样本无监督图像到图像翻译结果的可视化。结果使用FUNIT-5模型计算得出。从上到下,我们有动物脸部、鸟类、花卉和食物数据集的结果。我们为每个数据集训练了一个模型。对于每个示例,我们可视化了随机抽样的5个类图像y1和y2,输入内容图像x以及翻译输出¯x中的2个。结果显示,在没有在训练过程中看到任何目标类的图像的困难少样本设置下,FUNIT生成了合理的翻译输出。我们注意到输出图像中的对象与输入具有相似的姿势。105560首先,我们手动标记了图像中10000个食肉动物脸部的边界框。然后,我们训练了一个Faster RCNN[12]来检测图像中的动物脸部。我们只使用具有高检测分数的边界框。这产生了117574个动物脸部。我们将这些类分为源类集和目标类集,分别包含119个和30个动物类。•鸟类[44]。555种北美鸟类的48527张图像。其中444种用于源类集,111种用于目标类集。•花朵[33]。102种花卉的8189张图像。源类集和目标类集分别有85种和17种。•食物[22]。256种食物的31395张图像。源类集和目标类集分别有224种和32种。0基准。根据目标类的图像是否在训练中可用,我们定义了两组基准:公平(不可用)和不公平(可用)。0•公平。这是提出的FUNIT框架的设置。由于之前的无监督图像到图像翻译方法都不适用于这种设置,我们通过扩展StarGAN方法[7]来构建一个基准,该方法是多类无监督图像到图像翻译的最新技术。我们纯粹使用源类图像训练了一个StarGAN模型。在测试过程中,给定目标类的K个图像,我们计算K个图像的平均VGG [39]Conv5特征,并计算其与每个源类图像的平均VGGConv5特征的余弦距离。然后,我们通过对余弦距离应用softmax来计算类关联向量。我们将类关联向量用作StarGAN模型的输入(替代one-hot类关联向量输入),以生成未见过的目标类的图像。基准方法的设计基于这样的假设,即类关联分数可以编码未见目标对象类与每个源类的关系,可用于少样本生成。我们将这个基准方法称为StarGAN-Fair-K。0•不公平。这些基准在训练中包括目标类的图像。我们将每个目标类可用的图像数量(K)从1变化到20,并训练各种无监督图像到图像翻译模型。我们将每个目标类使用K个图像训练的StarGAN模型称为StarGAN-Unfair-K。我们还训练了几个最先进的两域翻译模型,包括CycleGAN [51]、UNIT[26]和MUNIT[18]。对于它们,我们将源类的图像视为第一个域,将一个目标类的图像视为第二个域。这样,每个数据集每个两类基准会产生|T|个无监督图像到图像翻译模型。我们将这些基准标记为CycleGAN-Unfair-K、UNIT-Unfair-K和MUNIT-Unfair-K。0对于基线方法,我们使用作者提供的源代码和默认参数设置。0输入!类别图像"1类别图像"2 StarGAN-Unfair-5StarGAN-Fair-5 FUNIT-5%!0图3.少样本图像到图像翻译性能的视觉比较。从左到右,列分别是输入内容图像x,两个输入目标类别图像y1和y2,不公平的StarGAN基线的翻译结果,公平的StarGAN基线的翻译结果以及我们框架的结果。0作者提供的默认参数设置。0评估协议。我们从源类别中随机抽取25000个图像作为内容图像。然后,通过随机抽取K个目标类别的图像将它们翻译为每个目标类别。这样就为每个竞争方法产生了|T|组图像,并用于评估。对于所有竞争方法的每个内容图像,我们使用相同的K个图像。我们测试了一系列的K值,包括1、5、10、15和20。0性能指标。我们使用几个标准进行评估。首先,我们衡量翻译是否类似于目标类别的图像。其次,我们检查翻译过程中是否保留了类别无关的内容。第三,我们量化输出图像的逼真度。最后,我们衡量模型是否能够生成目标类别的图像分布。我们简要描述了这些标准的性能指标,详细内容请参阅我们的完整技术论文[27]。0•翻译准确性。这是衡量翻译输出是否属于目标类别的指标。我们使用两个Inception-V3[42]分类器。一个分类器使用源类别和目标类别的图像进行训练(表示为all),而另一个分类器仅使用目标类别的图像进行训练(表示为test)。我们报告Top1和Top5的准确率。FUNIT-5 vs. StarGAN-Fair-586.0882.56FUNIT-5 vs. StarGAN-Unfair-2086.0084.48FUNIT-5 vs. CycleGAN-Unfair-2071.6877.76FUNIT-5 vs. UNIT-Unfair-2077.8477.96FUNIT-5 vs. MUNIT-Unfair-2083.5679.64038.7630.381040.5142.0531.7733.415040.2442.2231.6633.6410040.7642.1432.1234.39105570• 内容保留基于变体的感知距离[20,50],称为域不变的感知距离(DIPD)[18]。该距离由两个归一化的VGG [39]Conv5特征之间的L2距离给出,对于领域变化更具不变性[18]。0•逼真度。这是通过Inception分数(IS)[37]来衡量的。我们使用两个Inception分类器进行Inception分数的计算,分别用于测量翻译准确性,分别表示为all和test。0• 分布匹配基于FréchetInception距离(FID)[16]。我们计算每个|T|目标对象类别的FID,并报告它们的平均FID(mFID)。0主要结果。如表1所示,提出的FUNIT框架在少样本无监督图像到图像翻译任务中,对于动物面孔和北美鸟类数据集的所有性能指标都优于基线。FUNIT在动物面孔数据集上的1-shot和5-shot设置下分别达到82.36和96.05的Top-5(测试)准确率,并在北美鸟类数据集上分别达到60.19和75.75。它们都显著优于相应的公平基线。类似的趋势也可以在领域不变的感知距离、Inception分数和FréchetInception距离上找到。此外,仅使用5个样本,FUNIT在20-shot设置下优于所有不公平的基线。请注意,CycleGAN-Unfair-20、UNIT-Unfair-20和MUNIT-Unfair-20的结果来自于T个图像到图像翻译网络,而我们的方法来自于一个单一的翻译网络。表格还显示,提出的FUNIT模型的性能与测试时可用目标图像的数量K呈正相关。较大的K会在所有指标上带来改进,而最大的性能提升来自于K=1到K=5。StarGAN-Fair基线没有展现类似的趋势。在图2中,我们展示了FUNIT-5计算的少样本翻译结果。结果显示,FUNIT模型能够成功地将源类别的图像翻译为新类别的类似图像。输入内容图像x和相应的输出图像¯x的姿势基本保持不变。输出图像逼真,并且类似于目标类别的图像。在图3中,我们提供了一个视觉比较。由于基线方法并不适用于少样本图像翻译设置,它们在具有挑战性的翻译任务中失败。它们要么生成带有大量伪影的图像,要么只输出输入内容图像。另一方面,FUNIT生成高质量的图像翻译输出。用户研究。为了比较翻译输出的逼真度和忠实度,我们使用亚马逊机械土耳其(AMT)平台进行人工评估。具体而言,我们向工作者提供一个目标类别图像和两个0设置动物鸟类0表2.用户偏好得分。数字表示用户更喜欢由提出的方法生成的结果,而不是由竞争方法生成的结果的百分比。0样本 N S&H [14] FUNIT S&H [14] FUNIT0表3. 5个分割上的少样本分类准确率的平均值。0使用不同方法[46,18]生成的翻译结果,并要求他们选择与目标类别图像更相似的输出图像。工作者有无限的时间来进行选择。我们使用动物脸和北美鸟类数据集。对于每个比较,我们随机生成500个问题,每个问题由5个不同的工作者回答。为了质量控制,工作者的终身任务批准率必须大于98%才能参与评估。根据表2,人类主体认为在5-shot设置(FUNIT-5)下,由提出的方法生成的翻译结果与目标类别图像更相似,而在相同设置下,公平基线(StarGAN-Fair-5)生成的结果则不太相似。即使与在训练时每个目标类别有20张图像的不公平基线的结果相比较,我们的翻译结果仍然被认为更加忠实。训练集中源类别的数量。在图4中,我们使用动物数据集在one-shot设置(FUNIT-1)下分析了性能与训练集中源类别数量的关系。我们将数量从69到119个类别进行变化,间隔为10。如图所示,性能与物体类别数量在翻译准确性、图像质量和分布匹配方面呈正相关。域不变的感知距离保持不变。这表明,在训练期间看到更多物体类别(更大的多样性)的FUNIT模型在测试期间表现更好。我们的完整技术论文[27]中给出了鸟类数据集的类似趋势。与AdaIN的比较。我们训练了一个AdaIN风格转换网络[17]用于少样本动物脸翻译任务,并将结果与我们的结果进行比较。视觉比较结果在完整的技术报告[27]中给出。虽然风格转换网络可以改变输入动物的纹理,但它不会改变它们的形状。因此,翻译结果仍然类似于输入。参数分析和消融研究。我们分析了目标函数中各个项的影响,并发现它们都是必不可少的。特别是,内容重建损失以翻译准确性为代价换取内容保留得分。我们的完整技术论文[27]中给出了支持性的实验结果。潜在插值。在我们的完整技术论文[27]中,我们通过保持内容编码不变,插值两个源类别图像的类别编码来展示插值结果。有趣的是,我们发现通过在两个源类别(暹罗猫和老虎)之间插值,有时可以生成一个模型从未观察过的目标类别(虎斑猫)。失败案例。我们的完整技术论文[27]中展示了提出算法的几个失败案例。它们包括生成混合对象、忽略输入内容图像和忽略输入类别图像。少样本翻译用于少样本分类。我们使用动物和020406080100Top1-allTop5-allTop1-testTop5-test0.500.751.001.251.501.752.002.252.50DIPD7.510.012.515.017.520.022.525.0IS-allIS-test8090100110120130140mFIDy1y2x¯x10558070 80 90 100 110 120 训练类别数量070 80 90 100 110 120 训练类别数量070 80 90 100 110 120 训练类别数量070 80 90 100 110 120 训练类别数量0图4. 在动物脸数据集上,少样本图像翻译性能与训练期间观察到的物体类别数量的关系。性能与训练期间观察到的源物体类别数量呈正相关。0图5.提出的框架的局限性。当一个未见过的物体类别的外观与源类别的外观截然不同时(例如花朵和动物脸),提出的FUNIT框架无法生成有意义的翻译结果。0不会改变它们的形状。因此,翻译结果仍然类似于输入。参数分析和消融研究。我们分析了目标函数中各个项的影响,并发现它们都是必不可少的。特别是,内容重建损失以翻译准确性为代价换取内容保留得分。我们的完整技术论文[27]中给出了支持性的实验结果。潜在插值。在我们的完整技术论文[27]中,我们通过保持内容编码不变,插值两个源类别图像的类别编码来展示插值结果。有趣的是,我们发现通过在两个源类别(暹罗猫和老虎)之间插值,有时可以生成一个模型从未观察过的目标类别(虎斑猫)。失败案例。我们的完整技术论文[27]中展示了提出算法的几个失败案例。它们包括生成混合对象、忽略输入内容图像和忽略输入类别图像。少样本翻译用于少样本分类。我们使用动物和0鸟类数据集。具体来说,我们使用训练好的FUNIT模型为每个少样本类别生成N(从1、50到100)个图像,并使用生成的图像来训练分类器。我们发现,使用FUNIT生成的图像训练的分类器始终比基于特征虚构的少样本分类方法(S&H)提出的方法在性能上更好,后者还具有可控的变量样本数量N。结果如表3所示,实验细节在我们的完整技术论文[27]中。05. 讨论与未来工作0我们介绍了第一个少样本无监督图像到图像转换框架。我们表明,少样本生成性能与训练期间看到的对象类别数量呈正相关,同时与测试时提供的目标类别样本数量也呈正相关。0我们提供了实证证据表明,FUNIT可以通过利用在测试时提供的少量示例图像,将源类别的图像转换为相应的未见对象类别的图像。尽管实现了这种新的功能,FUNIT取决于几个条件的工作:1)内容编码器Ex是否能够学习类别不变的潜在代码zx,2)类别编码器Ey是否能够学习类别特定的潜在代码zy,最重要的是,3)类别编码器Ey是否能够推广到未见对象类别的图像。0我们观察到,当新的类别在视觉上与源类别相关时,这些条件很容易满足。然而,当新对象类别的外观与源类别明显不同时,FUNIT无法实现转换,如图5所示。在这种情况下,FUNIT倾向于生成颜色改变的输入内容图像的版本。这是不可取的,但可以理解,因为外观分布发生了巨大变化。解决这个限制是我们的未来工作。105590参考文献0[1] Amjad Almahairi, Sai Rajeswar, Alessandro Sordoni, PhilipBachman, and Aaron Courville. Augmented cyclegan:从不成对数据中学习多对多映射。arXiv预印本arXiv:1802.10151,2018年。[2] Asha Anoosheh, Eirikur Agustsson, RaduTimofte和Luc Van Gool。 Combogan:无限制的图像域转换可扩展性。arXiv预印本arXiv:1712.06909,2017年。[3] Sagie Benaim和Lior Wolf。单侧无监督域映射。在神经信息处理系统(NIPS)中的进展,2017年。[4] Sagie Benaim和Lior Wolf。单次无监督跨域转换。在神经信息处理系统(NIPS)中的进展,2018年。[5] Konstantinos Bousmalis,Nathan Silberman,DavidDohan,Dumitru Erhan和Dilip Krishnan。使用生成对抗网络进行无监督的像素级域自适应。在计算机视觉和模式识别(CVPR)的IEEE会议中,2017年。[6] AndrewBrock,Jeff Donahue和Karen Simonyan。用于高保真度自然图像合成的大规模GAN训练。在学习表示(ICLR)的国际会议上,2019年。[7] Yunjey Choi,MinjeChoi,Munyoung Kim,Jung-Woo Ha,Sunghun Kim和JaegulChoo。 Stargan:用于多域图像到图像转换的统一生成对抗网络。在计算机视觉和模式识别(CVPR)的IEEE会议中,2018年。[8] J. Deng,W.Dong,R. Socher,L.-J. Li,K. Li和L. Fei-Fei。 ImageNet:一个大规模的分层图像数据库。在计算机视觉和模式识别(CVPR)的IEEE会议中,2009年。[9] Mandar Dixit,Roland Kwitt,MarcNiethammer和Nuno Vasconcelos。 Aga:属性引导的增强。在计算机视觉和模式识别(CVPR)的IEEE会议中,2017年。[10] Li Fei-Fei,Rob Fergus和Pietro Perona。对象类别的单次学习。IEEE模式分析和机器智能(TPAMI),2006年。[11] Chelsea Finn,Pieter Abbeel和Sergey Levine。用于快速调整深度网络的模型不可知元学习。在机器学习(ICML)的国际会议上,2017年。[12] Ross Girshick。快速R-CNN。在神经信息处理系统(NIPS)中的进展,2015年。[13] Ian Goodfellow,Jean Pouget-Abadie,MehdiMirza,Bing Xu,David Warde-Farley,Sherjil Ozair,AaronCourville和Yoshua Bengio。生成对抗网络。在神经信息处理系统(NIPS)中的进展,2014年。[14] Bharath Hariharan和Ross B Girshick。通过收缩和虚构特征进行低样本视觉识别。在计算机视觉的IEEE国际会议(ICCV)中,2017年。[15] Kaiming
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功