半监督学习在少镜头图像到图像翻译中的应用

167 浏览量更新于2023-10-20 收藏 1.79MB PDF 举报

半监督学习

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4453基于半监督学习的少镜头图像到图像翻译Yaxing Wang1，Salman Khan2，Abel Gonzalez-Garcia1，Joost van de Weijer1，Fahad ShahbazKhan2，31ComputerVisionCenter，Univ ersitatAutoo` nomadeBarcelona，Spain2InceptionInstituteofArtificialIntelligence，UAE3CVL，Linko？ pingUni versity，Sweden{yaxing，agonzalez，joost}@ cvc.uab.es，salman. inceptioniai.org，fahad. liu.se摘要近年来，非成对图像翻译取得了显著的进展。虽然最新的方法能够生成逼真的图像，但它们严重依赖于大量的标记图像。最近，一些方法已经解决了具有挑战性的设置的少数拍摄图像到图像的转换，减少了标记的数据要求的目标域在推理。在这项工作中，我们更进一步，减少了在训练过程中从源域中所需的标记数据量。为此，我们建议应用半监督学习通过一个噪声容忍伪标记过程。我们还应用了一个循环一致性约束，以进一步开发来自未标记图像的信息，无论是来自同一数据集或外部。此外，我们提出了几个结构上的修改，以方便在这些情况下的图像我们的用于少量图像翻译的半监督方法，称为SEMIT，在四个不同的数据集上使用仅10%的源标签实现了出色的结果，并且仅使用20%的标记数据就与主要的全监督竞争对手的性能相匹配。我们的代码和模型在https://github.com/yaxingwang/SEMIT 上公开。1. 介绍图像到图像（I2I）转换是许多计算机视觉任务的组成部分。它们包括不同模态之间的转换（例如，从RGB到深度[27]），域之间（例如，马到斑马[46]）或编辑操作（例如，艺术风格转移[13]）。受益于大量的标记图像，I2I翻译在两个配对上都获得了很大的改进[8，15，19，40，47]和不成对的图像平移[2，7，22，42，44，46]。最近的研究趋势解决了早期方法的相关局限性，即多样性和可扩展性。目前的方法[1，18，25]改进了单样本限制在Inception Institute of Artificial Intelligence实习火车测（c）第（1）款图1.未配对I2I转换场景之间的比较。每个彩色符号表示不同的图像标签，虚线符号表示未标记的数据。(a)标准[9，18，46]：目标类与源类相同，并且在训练期间都可以看到。（b）少射击[28]：实际目标类别不同于源类别，并且在训练期间不可见。在考试时，只有一些看不见的目标类的例子可用对于训练，源类暂时充当目标类。(c)少镜头半监督（我们的）：与少镜头相同，但源域在训练时只有有限数量的标记数据。通过在给定输入图像的情况下生成不同的翻译来实现确定性模型。可扩展性问题也已成功缓解[9，33，34，39]，使用单个模型实现跨多个域的翻译。尽管如此，这些方法仍然存在两个问题。首先，在测试时，目标域需要包含与源域相同的类别或属性，因此无法扩展到看不见的类别（见图2）。1（a））。第二，它们高度依赖于能够访问大量的标记数据（图1）。1（a，b））在列车时间。这样的标签在训练过程中提供了有用的信息，并在某些环境中发挥了关键作用（例如，可扩展I2I转换）。最近，一些作品研究了I2I翻译给定的目标类的一些图像（如图1（b））。Benaim和Wolf [3]通过首先训练可见域的变分自动编码器，然后调整与不可见域相关的那些层来ZstGAN [26]引入了zero-shot I2 I翻译，采用了未见过类别的注释属性火车测试（火车测试（目标源目标源4454i=1的标记图像。FUNIT [28]提出了多类设置中的少量I2I翻译。然而，这些模型（b）款。标记大规模数据集是昂贵的和耗时的，使得这些方法在实践中不太适用。在本文中，我们克服了这一限制，并探讨了一种新的设置，在图中介绍第1段（c）分段。我们的重点是少量的I2I翻译，其中在训练过程中只有有限的标记数据可从源类中获得。我们建议使用半监督学习来减少对标记源图像的要求，并有效地使用未标记的数据。更具体地说，我们分配伪标签的未标记的图像的基础上，一个初始的小集合的标记的图像。这些伪标签提供软监督以训练从源图像到看不见的目标域的图像转换模型。由于这种机制可能会引入噪声标签，我们采用了伪标签技术，是非常强大的噪声标签。为了为了进一步利用来自数据集的未标记图像（或甚至外部图像），我们使用循环一致性约束[46]。这种循环约束通常用于保证未配对I2I翻译中的内容保留[22，44，46，28]，但我们在这里也建议使用它来利用未标记图像中包含的信息。此外，我们引入了进一步的结构限制，以促进I2I翻译任务在这个具有挑战性的设置。首先，我们考虑最近的Octave卷积（OctConv）操作[6]，它将潜在的表示分解为高频和低频分量，并在一些区分任务中取得了出色的结果[6]。由于I2I翻译主要集中在改变高频信息，这样的解开可以帮助集中学习过程。出于这个原因，我们提出了一个新颖的应用OctConv的I2I翻译，使我们第一次使用它的生成任务。其次，我们应用了一个有效的熵调节过程，使潜在表示比以前的方法更具域不变性[18，25，28]。这导致对目标数据的更好的泛化。值得注意的是，这些技术是相当通用的，可以很容易地结合在许多当前的I2I翻译方法，使任务更容易时，只有有限的数据可用。在四个数据集上的实验表明，所提出的方法，命名为SEMIT，一致地提高了I2I翻译的性能，仅使用数据中10%到20%的标签。我们的主要贡献是：• 我们是第一个在半监督设置中接近少量I2I翻译的人，减少了源和目标域所需的标记数据• 我们提出了几个关键的修改，以促进这一具有挑战性的设置。我们的修改可以很容易地适应其他图像生成架构。• 我们广泛研究了所提出的方法在各种I2I翻译任务的属性，并取得了显着的性能改善。2. 相关工作半监督学习该类别中的方法采用小的标记图像集和大的未标记数据集来学习一般的数据表示。一些工作已经探索了将半监督学习应用于生成对抗网络（GAN）。例如，[31，36]将神经网络和分类器合并到一个网络中。生成的样本被用作未标记的样本来训练梯形网络[31]。Springen-berg [37]探索了以半监督，对抗的方式训练分类器类似地，Liet al. [10]提出了Triple-GAN，它使用生成器，搜索器和分类器进行极大极小游戏。其他作品[11，12]要么学习标签和图像的双向条件分布，要么添加一个新的网络来预测丢失的标签。最近，Lucicet al. [29]提出了自下而上和自上而下的方法来生成具有较少标签的高分辨率图像。据我们所知，以前没有工作解决I2I翻译以半监督方式生成高度逼真的图像。零/少量I2 I转换。最近的一些作品使用GAN进行I2I翻译，测试样本很少。Lin etal.提出的零发射I2I转换，ZstGAN [26]。他们训练了一个模型，该模型使用成对的图像和帽子分别学习特定领域和领域不变的特征。Benaim和Wolf [3]则将目标域的一个图像视为指导图像翻译的范例最近，FUNIT [28]学习了一个模型，该模型在训练期间在可见的类之间执行I2I转换，并在推理期间扩展到不可见的类。然而，这些方法依赖于大量的标记源域图像进行训练.在这项工作中，我们匹配他们的性能只使用一小部分的源域标签。3. 建议方法：SEMIT问题设置。我们的目标是设计一个不成对的I2I翻译模型，它可以用最少的监督来训练（图1）。（c）第1段。重要的是，在少数镜头设置中，目标类在训练期间是不可见的，并且它们的少数示例仅在推理阶段可用。与先前的最新技术[28]相比，其在源类别的大量标记样本上进行训练（其中一些在训练期间充当源类的其余图像可作为未标记的示例获得。假设我们有一个包含N个样本的训练集D数据集的一部分被标记为D1={（xi，yi）}N1，其中4455我我我i=1ψi=1ψIJ我ψ我图2.用于培训的模型架构。(a)所提出的方法由两个主要部分组成：鉴别器Dξ和姿态编码器PΦ、外观编码器Aη、生成器GΦ、多层感知器Mω和特征调节器F的集合。(b)OctConv操作包含高频块（Hτ′）和低频块（Lτ）。（c）噪声容忍伪标记架构。x∈RD表示图像，y∈ {0，1}C：1<$y=1表示独热编码标签，C是类的总数。我们考虑一个相对较大的未标记集，Du={xi}Nu，可用于半监督学习。ing. 总的来说，图像的总数是N=Nu+Nl。我们最初进行半监督学习，在那里我们学习一个分类器来为未标记的如果两个分类器输出彼此一致。其次，只有当两个分类器的置信度都高于设定的阈值时，我们才将伪标签添加到训练集。每个分类头使用基于概率性端到端噪声校正框架的损失Lc来（23）。总分类器损失函数是分类头M“和M”的损失之和，数据，生成集合D={（xi，yi）}N，其中yi=yiLc=Lm+ Lm′。（一）对于xi∈Dl，即，对于一个样本，其地面实况标签是available.该模型预测的伪标签形成一个软标签空间，即， y∈[0，1]C：1y∈=1. 然后，我们的方法执行无监督的多域I2I翻译上的集合D与五个标记的图像和一个大的未标记的集合。下面解释双模式训练过程3.1. 抗噪伪标记所分配的伪标签用于在下一阶段中训练I2I转换器网络。因此，标记方法必须避免生成错误的预测，同时能够容忍标签空间中的噪声为了实现这些目标，我们开发了一种抗噪伪标记算法，对于两个分类头M和M′′，损失函数由三个分量组成：（i）兼容性损失，其试图将标签分布与伪标签匹配(ii)分类损失，纠正标签中的噪声;以及（iii）熵调节损失，其迫使网络在一个类别处达到峰值而不是平坦（即，混淆了许多类）。下面，我们解释损失的组成部分，Lm和损失Lm′的公式是类似的。兼容性丧失。兼容性损失鼓励该模型做出与地面实况或伪标签一致的预测。由于在许多情况下，标签的当前估计是正确的，因此该损失函数避免了估计的标签远离分配的标签，（NTPL）方法，其用软标记方案逐步训练以避免噪声累积问题。如示于图2（c），我们的伪标记方案由一个特征提取器F θ和一对分类器组成。Lcmp= − 1ΣN ΣCNi=1j=1yijlog（yh），（2）阳离子头M ′ ′和M ′′。半监督标记其中yh=softmax（y′）是底层标签分布。′模型被设计为满足以下原则：（a）决策合并和（b）用于噪声容忍伪标记的高置信度采样首先，两个分类头用于评估给定未标记样本的不确定性，即，伪标签仅被视为有效噪声标签和y的bition可以通过返回来更新在训练中传播可调变量y′初始化为y′=Ky′，其中K是一个大标量（1000）。分类损失。我们遵循[23]中的操作数翻转KL发散公式，该公式被证明是不正确的。火车构成外观（MLPMLP4456我TGSCSCTGSCTGξξ′′TGξ′′′X证明对噪声标签的鲁棒性这种损失是由，1ΣN这有助于外观，与相应的标签sc∈ {1，. - 是的- 是的，C}，且tg∈ {1，. - 是的- 是的，C}，目标. 我们使用姿势提取器和外观显示器-Lcls= ni=1KL（M <$（F θ（xi）<$yh）.（三）拖拉机对源图像和目标图像进行编码，生成Pφ（xsc）和Aη（xtg）。外观信息-熵调节损失。混乱的模型往往会输出不太可信的预测，这些预测平均分布在几个对象类别上。熵调节损失迫使估计的输出分布集中在一个类别上，信息Aη（xtg）被映射到自适应实例归一化（AdaIN）图层[18]（比例和移位）的多层感知器Mω。生成器GΦ采用姿态提取器PΦ（xsc）的输出，1公斤.对多层感知器输出的AdaIN参数进行优化Lent= −Ni=1j=1M（Fθ（xi））jlogM ∈（F θ（xi））j.（四）Mω（Aη（xtg））作为其输入，并生成一个翻译输出。M的全部损失由下式给出：Lm=τclsLcls+τcmpLcmp+τentLent，（5）把x′ =GΦ（P φ（xsc），M ω（A η（xtg）））。我们期望GΦ在外观方面输出类似目标的图像，该图像应被分类为对应的标签cartg。其中τ，τ和τ是超参数此外，我们生成另外两个图像，x′′′和CLSCMPentxsc，其将用于重建损失（等式1）。（七））。培训程序。我们的半监督训练过程包括标记和伪标记示例。因此，我们必须选择可靠的伪标签。似-前者用于强制内容保存[28]，并且我们通过使用源图像xsc作为姿态提取器Pφ和外观提取器在现有的工作中[35]，我们执行以下操作：A η，即x′=GΦ（P φ（xsc），M ω（A η（xsc）1。另′′为实现这一目标而努力。首先，我们训练模型（图1）。2（c）），仅具有干净标记的图像，即，没有任何伪标记的图像。子网连接后边缘，我们估计每个未标记的IM的伪标签。′年龄x∈ D。我们定义ym和ym 因为预测一方面，我们通过变换生成的目标来生成xsc，图像x回到xsc的源域。我们实现这通过将xsc视为目标外观图像，x ′是，x′′= GΦ（P φ（）， M ω（A η（xsc）。这是启发由CycleGAN [46]并使用它进行少量I2I翻译，i ui i′′分别为M′和M′分支然后，一种新颖的应用。前后转换阿吉岛是具有最大估计概率的类，′在ym和ym中的能力。我们设定了两个要求，允许我们利用未标记的数据，因为循环一致性约束不需要标签监督。我我伪标签。首先，我们要确保同意，即，m=与此同时，标签网络为了使姿势特征更有档次-不变的，我们包括熵调节损失类似于我我必须对预测高度自信，即，最大概率超过阈值（0.95）。当这两个要求都满足时，我们分配伪标签对于未标记的图像xi，我们将干净标记的图像集和伪标记的图像集结合起来，形成新的训练集，用于训练标记网络。工作（图2（c））。该过程逐渐在训练集中添加可靠的伪标签。另外，这个自行车毕业生-当量（四）、更具体地说，我们处理输入姿态特征通过特征调节器F，其包含平均池化层的堆栈（因此，其不添加任何参数）。然后，输出F（Pφ（xsc））通过Lent进行熵调节，迫使姿态特征稀疏并集中在整体空间布局上，而不是特定于域的模式。我们的生成方法的一个关键组成部分是discriminator子网。Wed，designthemixturet，ooutput逐步减少未标记的伪标签中的错误三项：D（x）→Dc′（x），Da（x），F（x）. 两ξξξ′′Ξ样品我们重复这个过程100次（秒。5.1）。Dc′（x）和Da（x）是概率分布。目标ξξ′′3.2. 非配对图像到图像翻译在这项工作中，我们执行不配对的I2I翻译，只有几个标记的例子在训练。使用NTPL提供的伪标签，我们现在描述I2I翻译模型的实际训练。方法概述。如示于图2（a），我们的模型架构由六个子网络组成：姿态编码器P φ、外观编码器A η、生成器GΦ、多层感知器M ω、特征调节器F和判别器Dc′（x）的作用是将生成的图像分类到它们正确的目标类中，从而指导生成器合成目标特定的图像。我们使用 Da（x）来区分目标类的真实图像和合成（假）另一方面，FS（x）是特征图。类似于经典的工作[4，18，28]，F（x）旨在将翻译图像x′的外观与输入xtg相匹配。总损失是一个多任务目标，包括（a）优化发电商之间博弈的对抗性损失和的你4457好，即{Pφ，Aη，Mω，GΦ}其中，指数表示每个子系统的参数寻求最小化，同时寻求最大-net. 设xsc∈ X为输入源图像，vides姿态信息，xtg ∈ X目标图像1图中未显示。2、为了清晰。4458ξ′′ξ′′SCSCXXΣ+ X′′′′、TG数据集动物[28]鸟类[38]鲜花[30]食品[20]#类训练#classes测试11930444111851722432图片数量117,57448,5278.18931,395表1.实验中使用的数据集使其最小化;（b）分类损失，确保子网{P φ，A η，M ω，GΦ}将源图像xsc映射到类目标图像;（c）熵正则化损失，其强制姿态特征为类不变的;以及损失，其加强了平移图像和目标图像之间的联系，并保证平移图像保留输入源图像xsc的姿态。以前没有研究过生成任务。具体来说，OctConv旨在分离低频和高频特征图。由于图像翻译主要集中在改变高频信息，这种解纠缠可以帮助学习。此外，OctConv层中的低频处理分支具有更宽的感受野那岛学习是有用的。用于编码器的TTER CONT EXT。让u=uh，ul 且v=vh，vl 是输入和输出OctConv层。如示于图2（b）、前向传递被定义为，vl=Lτ（uh，ul），vh=Hτ′（uh，ul），（9）对抗性损失。我们需要D a 处理多种式中，Lτ和Hτ′分别为高频和低频过程。同时进行对抗性分类任务，如[28]。分别用参数τ和τ′对块进行com-具体地，给定输出Da∈RC，我们找到了我们工作中使用的OctConv层的完整架构是类响应，其中n∈ {1，. - 是的- 是的C}是在-把图像放到屏幕上。使用第六类的响应，我们计算对抗损失和反向传播梯度。例如，当更新D时，th=sc;当更新{Pφ，Aη，Mω，GΦ}时，th∈ {sc，tg}。我们采用以下对抗性目标[16]，示于图第2段（b）分段。我们探索适当比例的低-网络Pφ、Aη和GΦ的频率和高频信道。第5.1条对于OXD，我们实证地发现OctConv并没有提高性能。4. 实验装置L=ElogDa（x）Σ（六）数据集。我们考虑四个数据集进行评估，即一个“SCscΣΣ动物[28]，鸟类[38]，花卉[30]和食物[20]（见+Elog1−D a（x′）.xsc，tgξ′′tgℓtg详情见表1）。我们遵循FUNIT在[28]期间，随机抽取25，000张源图像，分类损失。受[32]的启发，我们在GAN模型中使用辅助分类器来生成目标特定的图像。然而，在我们的情况下，对于伪标记的图像，标签可能是有噪声的。出于这个原因，我们在这里采用的噪声容忍的方法介绍了第二节。3.1并使用单水头损失（方程式（5））作为损失函数Lc。重建损失。为了成功的I2I转换，我们希望转换后的图像保持源图像的姿态xsc，同时应用目标图像的外观xtg。我们使用生成的图像xsc和xsc以及由图像处理器输出的特征F（x）通过以下重建损失来实现这些目标′训练集，并将它们转换到每个目标域（在训练过程中看不到）。我们考虑目标集的1、5和20发出于效率原因，在消融研究中，我们使用[28]中使用的69种动物类别的相同较小子集，我们将其称为动物-69。评估指标。我们考虑以下三种方法。其中，两个是常用的初始得分（IS）[3 6]和Fr e'chet初始距离（FID）[17]。更多-此外，我们使用翻译精度[28]来评估模型是否能够生成目标类的图像。因此，我们通过两个分类器的Top1和Top5准确度来衡量翻译准确度：所有和测试。前者在源类和目标类上训练，而后者在Lr=Ex<$X，x′<$X ′[<$xsc−xsc<$1]′′只使用目标类进行训练。ESC+ExX，x′′<$X，x′<$X′[<$F<$（xsc）−F<$（xsc）<$1]（七）基线。我们与以下基线进行比较（见附录Mat.（第二节）3)培训详情）。循环-SCSC+ExXx′XTGTGΣ¨FTG）−F<$（x′¨Σ）1.GAN[46]使用两对特定于域的编码器和解码器，经过训练以优化对抗性损失和周期一致性。StarGAN[9]执行可扩展的IM，全面目标。我们模型的最终损失函数是：通过将标签输入到minPφ，Aη，Mω，GΦmaxλaLa+λcLc+λrLr+λeLent，（8）D生成器. MUNIT[18]将潜在表示分解为两个类之间共享的内容空间，其中λa、λc、λr和λe是重新加权超参数。3.3. 倍频程网络我们的生成器模型的一个重要方面是Oc- tave卷积（OctConv）算子[6]。此操作员具有.SC4459类特定的样式空间。FUNIT[28]是第一个少拍I2I转换方法。变体。我们为我们的方法探索了各种各样的配置，包括：半监督学习（S），Oct- Conv（O），熵调节（E）和循环一致性（C）。4460NTSNTPL（1）NTPL（10）NTPL（100）ER（%）ER（%）姿势外观FUNITSEMIT（w-E，w/o-（S，C，O））SEMIT（w-O，w/o-（S，E，C））SEMIT（w-C，w/o-（S，E，O））SEMIT（w-S，w/o-（E，C，O））SEMIT图3. FUNIT [28]和我们提出的方法的变体之间的比较。例如，SEMIT（w-E，w/o-（S，C，O））表示仅使用熵调节训练的模型。更多的例子在补充。Mat.（第二节）1）。201618141612（a） 1410128106PoseApp. 0.1 0.2 0.3 0.40.50.60.7 0.8 0.9102030405060708090102030405060708090160（b）第（1）款14012010010 30 50 70 90数据集0.10.20.30.40.50.60.70.80.9动物鸟类130.3118.9129.8116.4128.4113.4128.6113.6127.1112.7128.5114.6128.6115.2129.4119.7130.9135.4图5. OctConv中高/低频通道的几个比率结果对应于具有90%标记数据的动物-69和鸟的一次性I2 I翻译。更多的例子在补充。Mat.（第二节）2）。图4.（a）通过错误率（ER）测量的（左）动物-69和（右）鸟类分类的消融研究（b）我们的方法的变体的消融x轴显示用于训练的标记数据的百分比。我们用SEMIT表示它们，然后是存在（w）和不存在（w/o）组分，例如，SEMIT（w-O，w/o-（S，E，C））是指具有OctConv且不具有半监督学习、熵调节或循环一致性的模型。5. 实验5.1. 消融研究在这里，我们评估每个独立控制的效果-SEMIT及其组合。完整的实验配置在Suppl. Mat.（第二节）4）.噪声容忍伪标记。作为我们的NTPL的替代方案，我们考虑了最先进的细粒度识别NTS方法[43]，因为它在我们的数据集上优于其他细粒度方法[24，5，14]。我们采用NTS在或-为了研究NTPL对有限标记数据的影响，我们将训练集随机分为标记数据和未标记数据，其中我们忽略了可用的标记。所有模型均在测试集上进行评估。为了确认第二节中3.1导致更好的性能，我们考虑三个NTPL变体，这取决于我们重复这个过程的次数 NTPL（100）使用标准的100次迭代来逐步将未标记的数据添加到训练集中，而NTPL（10）使用10次，NTPL（ 1 ）使用单次迭代。我们在图中报告了错误率（ER）的结果。第4（a）段。我们可以看到，对于NTPL和NTS，对于标记数据较少的制度，性能明显较低。在10%标记数据的情况下，NTS获得比NTPL（100）更高的误差，例如。第69章：一个女人18.3%对15.2%。每个变体的训练时间如下NTS：28.2min，NTPL（1）：36.7分钟，NTPL（10）：91.2分钟，NTPL（100）：436 min。注意，每个模型NTPL（k）都用前一个模型NTPL（k-1）初始化。对于任何给定百分比的标记数据，我们基于NTPL的训练显然获得了优异的性能，证实了NTPL有助于为未标记数据预测更好的标签。NTSNTPL（1）NTPL（10）NTPL（100）FUNITSEMIT（w-E，w/o-（S，C，O））SEMIT（w-O，w/o-（S，E，C））SEMIT（w-C，w/o-（S，E，O））SEMIT（w-S，w/o-（E，C，O））SEMITmFID鸟类动物-694461设置Top1-所有Top5-所有Top1-测试Top5-测试IS-all IS检验mFID百分百CycleGAN-209.2422.3719.4642.5625.28 7.11215.30MUNIT-2023.1241.4138.7662.7124.76 9.66198.55StarGAN-205.3816.0213.9533.9618.94 5.24260.04FUNIT-111.1734.3830.8660.1967.17 17.16 113.53FUNIT-520.2451.6145.4075.7574.81 22.3799.72FUNIT-2023.5056.3749.811.28676.42 24.00 97.94SEMIT-115.6442.8543.7.6272.4169.63 20.12 105.82SEMIT-523.5755.9649.4280.4178.42 24.9890.48SEMIT-2028.1562.4154.6283.3282.64 27.5183.56百分之二十FUNIT-16.2120.3115.3428.4529.23 8.23184.4FUNIT-510.2522.3422.7543.2443.62 12.53168.6FUNIT-2011.7628.5126.4746.3858.40 15.75145.1SEMIT-113.5848.1643.9764.2759.29 16.48 109.84SEMIT-519.2353.2550.3473.1667.84 22.2798.38SEMIT-2021.4957.5552.3476.4172.31 23.4495.41百分之十FUNIT-16.0419.3412.5138.8432.62 7.47203.3FUNIT-58.8222.5219.8542.5338.59 9.53175.7FUNIT-2010.9826.4122.4848.3641.37 13.85154.9SEMIT-111.2137.1435.1459.4148.48 12.57 128.4SEMIT-513.5443.6340.2468.7559.84 17.58 119.4SEMIT-2015.4148.3642.5171.4965.42 19.87109.8表2.与动物基线的性能比较[28]。数据，并提高了对噪声标签的鲁棒性。OctConv层。图5（顶部）显示了Animals-69和Birds数据集（一次性，90%标记数据）的定性结果，用于不同比例的通道专用于高频或低频（第二节）。3.3）。更改此值对我们的方法如何生成图像有明显的影响。如图所示。5（底部），我们发现使用OctConv与每个频率的一半通道（0.5）获得最佳性能。对于本文的其余部分，我们将此值设置为0.5。我们得出结论，OctConv通过将特征空间分解为频率来促进I2I翻译其他SEMIT变体。图4（b）显示了SEMIT和FUNIT [28]的几种变体在不同百分比的标记训练数据的平均FID（mFID）方面的比较。与FUNIT [28]相比，添加熵调节（SEMIT（w-E，w/o-（S，C，O））或OctConv层（SEMIT（w-O，w/o-（S，E，C））可在所有级别的标记数据下提高I2 I转换的性能我们将其归因于架构优势和增强的优化，这是我们对I2I翻译任务的贡献所赋予的。接下来，添加循环一致性或半监督学习可以进一步提高性能。这种改进对于低百分比的标记数据（10%-30%）是非常重要的，这是我们的主要关注点。这表明了这些技术，特别是半监督学习，可以真正利用未标记数据中的信息，从而放松对标记数据的要求。最后，完整的SEMIT获得了最好的mFID分数，这表明我们的方法即使在标记图像少得多的情况下也能成功地执行I2I翻译类似的结论也可以从图2中的定性例子中得出。3，其中SEMIT成功地将给定目标的外观转移到输入姿态图像。表3.与鸟类基线的性能比较[38]。5.2. 在单个数据集上训练的模型的结果表2和表3报告了所有基线的结果以及我们对动物[28]和鸟类[38]的方法，低于标记源图像的3%：10%，20%，100%。我们使用20次拍摄设置作为所有基线的默认设置，但也探索了FUNIT [28]和我们的方法的1次拍摄和5次拍摄设置。所有未专门用于少数镜头平移的基线（即 CycleGAN [46] 、 MUNIT [47] 和 StarGAN[9]）在少数拍摄场景中具有显著的缺点，即使使用100%的标记图像也会获得较差的结果。然而，FUNIT和SEMIT的表现都要好得多，SEMIT在所有设置下的所有指标都达到了最佳结果。重要的是，SEMIT只使用了20%的地面真实标签（例如，动物的mFID为65.21）与FUNIT相当，100%标记数据（mFID 66.14），清楚地表明所提出的方法有效地执行了I2I转换，标记数据减少了5倍。最后，即使只有10%的可用标记数据，我们的方法也达到了有竞争力的性能我们还提供多镜头的情况下，补充。Mat.（第二节）第五章）图6示出了由FUNIT和SEMIT使用10%标记数据生成的示例图像。在动物、鸟类和食物上，FUNIT设法生成了足够的特定目标图像。尽管如此，在更仔细的观察下，图像看起来模糊和不切实际，因为FUNIT未能获得足够的指导，以生成而不利用未标记数据中存在的信息。此外，它完全无法合成Flowers的目标特定图像，可能是由于该数据集中每个类的图像数量较少。然而，SEMIT成功地为所有数据集（包括具有挑战性的Flowers数据集）合成了令人信服的目标特定图像。这些结果再次支持了我们的结论：SEMIT有效地将目标外观应用到给定的姿态图像上，尽管使用的标记数据少得多。设置Top1-所有Top5-所有Top1-测试Top5-测试IS-all IS检验mFID百分百CycleGAN-2028.9747.8838.3271.8210.48 7.43 197.13MUNIT-2038.6162.9453.9084.0010.20 7.59 158.93StarGAN-2024.7148.9235.2373.758.576.21 198.07FUNIT-117.0754.1146.7282.3622.18 10.04 93.03FUNIT-533.2978.1968.6896.0522.56 13.33 70.24FUNIT-2039.1084.3973.6997.9622.54 14.8266.14SEMIT-129.4265.5162.4790.2924.48 13.87 75.87SEMIT-535.4878.9671.2394.8625.63 15.68 68.32SEMIT-2045.7088.574.8699.5126.23 16.31 49.84百分之二十FUNIT-112.0130.5929.8655.4419.23 4.59139.7FUNIT-515.2536.4836.4766.5821.12 6.16128.3FUNIT-2016.9541.4342.6168.9221.48 6.78117.4SEMIT-126.7169.4865.4885.4923.52 12.63 92.21SEMIT-539.5678.3471.8196.2524.01 14.17 69.28SEMIT-2044.2585.6073.8098.6224.67 15.04 65.21百分之十FUNIT-110.2128.4127.4249.5417.24 4.05156.8FUNIT-513.0435.6231.2161.7019.12 4.87138.8FUNIT-2014.8439.6437.5265.8419.64 5.53127.8SEMIT-116.2551.5539.7181.4722.588.6199.42SEMIT-529.4076.1462.7292.1322.98 13.24 78.46SEMIT-2039.0282.9069.7095.4023.43 14.07 69.404462动物鸟类鲜花食品图6.我们的方法和FUNIT [28]在四个数据集上的定性比较。更多的例子在补充。Mat.（第二节）（六）。5.3. 在多个数据集上训练的模型的结果我们研究SEMIT是否可以同时从多个数据集学习。为此，我们将另外20，000个未标记的动物面孔（来自[25，45，21]或通过搜索引擎重新检索）合并到Animals数据集中，我们称之为Animals++。我们还将CUB-200-2011中的6，033张未标记的鸟类图像合并到Birds中，并将其命名为Birds++。我们将在原始数据集上训练的模型我们使用原始数据集中10%的标记数据进行实验。注意，我们不应用分类损失（等式2）。1）对于新添加的图像，因为外部数据可能包括源集中没有的类。图7显示了说明Ours（SNG）如何实现成功的靶特异性I2I翻译的结果，但Ours（JNT）表现出更高的视觉质量。这是因为我们的（JNT）可以利用额外的低级信息（颜色，纹理等）。由附加数据提供。我们在Suppl. Mat.（第二节）（八）。6. 结论我们提出了半监督学习来执行少拍不成对的I2I翻译，PoseApp.Ours（SNG） Ours（JNT）图 7. 我们的方法在单个数据集（ SNG ）和联合数据集（JNT）上的结果。更多的例子在补充。Mat.（第二节）（七）.源域。此外，我们采用了一个周期的一致性约束，以利用未标记的数据中的信息，以及几个通用的修改，使I2I翻译任务更容易。我们的方法在几个数据集上取得了优异的结果，同时只需要一小部分标签。鸣谢。我们感谢西班牙项目TIN 2016 -79717-R及其加泰罗尼亚自治区的CERCA计划。附录附录构成构成SEMITSEMITFUNITFUNIT鸟类++动物++4463引用[1] 亚泽德·阿尔哈比，尼尔·史密斯，彼得·旺卡.多模态无监督图像到图像翻译的潜在滤波器缩放。在CVPR，2019年。[2] Matthew Amodio和Smita Krishnaswamy Travelgan：通过变换向量学习实现图像到图像的翻译。在CVPR，2019年6月。[3] Sagie Benaim和Lior Wolf。一次性无监督跨域翻译。在NIPS，2018年。[4] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，第2172-2180页[5] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏与构造学习在CVPR，2019年。[6] Yunpeng Chen，Haoqi Fang，Bing Xu，Zhicheng Yan，Yan- nis Kalantidis，Marcus Rohrbach，Shuicheng Yan，and Jiashi Feng.降低八度音：用倍频程卷积减少卷积神经网络中的空间冗余。 arXiv 预印本 arXiv ：1904.05049，2019。[7] Ying-Cong Chen ， Xiaogang Xu ， Zhuotao Tian ， andJiaya Jia.用于不成对图像到图像平移的同态潜空间插值在CVPR中，第2408-2416页[8] Wonwoong Cho 、 Sungha Choi 、 David Keetae Park 、Inkyu Shin和Jaegul Choo。通过分组深度白化和着色变换实现图像到图像的转换。在CVPR，2019年6月。[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim

下载后可阅读完整内容，剩余1页未读，立即下载