自监督稠密一致性正则化：改进GAN图像转换

95 浏览量更新于2023-10-25 收藏 15.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

183010自监督稠密一致性正则化用于图像到图像的转换0Minsu Ko 1* Eunju Cha 1* Sungjoo Suh 1 Huijin Lee 1 Jae-Joon Han 10Jinwoo Shin 2 Bohyung Han 301 三星高级技术研究院（SAIT），韩国 2 韩国科学技术院（KAIST），韩国3 首尔国立大学（SNU），韩国0摘要0由于生成对抗网络（GAN）在无监督图像到图像转换方面取得了令人瞩目的进展，因此无监督图像到图像转换引起了相当大的关注。本文提出了一种简单但有效的正则化技术，用于改进基于GAN的图像到图像转换。为了生成具有逼真的局部语义和结构的图像，我们提出了一种辅助的自监督损失，该损失在训练GAN的鉴别器期间强制执行从单个真实图像中裁剪的一对补丁之间的点对点一致性。我们的实验证明，所提出的稠密一致性正则化在各种图像到图像转换场景中显著提高了性能。它还通过与实例级正则化方法的组合获得额外的性能增益。此外，我们验证了所提出的模型仅使用少量训练数据更有效地捕捉特定于领域的特征。01. 引言0生成对抗网络（GAN）[8]是一种创新的生成建模框架，即生成与训练数据遵循相同分布的图像。最先进的GAN模型的性能高度依赖于鉴别器的质量，鉴别器在区分真实图像和伪造图像的同时与匹配的生成器保持平衡，进行联合优化。由于鉴别器容易过度拟合训练数据集并且经常导致生成输出的模式崩溃，因此学习鲁棒的鉴别器对于实现高性能的生成器至关重要。为此，自监督学习方法已经被广泛用于GAN中的鉴别器正则化。0* 这些作者贡献相同。0输入CUT CUT+CR-GAN CUT+DCR0图1. 在Horse → Zebra数据集中，基线模型CUT[26]的三种不同变体的输出特征图的定性比较。DCR的激活准确地突出了前景并有效地抑制了背景，这有助于将图像到图像的转换任务更加专注于目标对象。0框架[15, 16, 32,34]。正则化的目标是获得图像的鲁棒表示，以更好地区分真实图像和伪造图像[17]。现有的方法通常依赖于实例级的对比学习[3, 15, 16,32]，其中鼓励从图像中裁剪的一对增强实例具有与预定义全局变换一致的特征，同时可以选择性地考虑负图像以实现更好的表示学习。然而，仅基于这种全局表示的正则化可能仅对鉴别器施加松散的约束，并且可能允许生成器欺骗鉴别器，尽管输出图像中存在局部结构或语义不一致。为了减轻这个缺点，我们提出了一种适用于GAN的稠密一致性正则化（DCR）方法。DCR通过同一图像中裁剪的一对补丁之间的点对点一致性为鉴别器提供更强的约束。我们的工作受到这样的假设的启发，即图像生成需要像素级预测[14]，而稠密正则化表示是提高鉴别器监督质量的有效方法。所提出的稠密一致性正则化的目标是生成具有语义一致性的图像。183020视图10视图20�0� �0X 停止梯度0� ��0� �0DCC模块0共享0� � � �0鉴别器0图2.所提出的DCR方法的示意图。在更新鉴别器时，从单个真实图像中随机裁剪出两个增强视图。然后，这两个视图经过中间特征提取网络D0处理，其中D0是鉴别器的第一部分，剩余部分用D1表示。请注意，我们的工作中不使用D1。DCR模块应用于其中一个分支，另一个分支中使用停止梯度操作。损失函数LDCR是两个分支在重叠区域Ω上表示的相似性，而˜Ω表示指示匹配像素对的二进制映射。0在空间邻域中保持一致性和视觉和谐性。如果鉴别器专注于图像到图像转换的重要特征或区域而不是背景，则可以实现这一目标，如图1所示。我们的主要思想如图2所示，其中密集对应关系正则化被施加在鉴别器的中间层上。我们在各种图像到图像转换场景上评估了所提出的方法，例如CycleGAN [ 37 ]，MUNIT [ 13 ]，StarGANv2 [ 5 ]，CUT [ 26]和FSeSim [ 36 ]。根据我们在Horse → Zebra，Winter →Summer，Cat →Dog和AFHQ数据集上的实验，具有DCR的模型相对于没有DCR的模型始终改善了FID分数，这证实了DCR确实有效地捕捉到了特定领域的特征。例如，我们成功将CycleGAN [37 ]的FID分数从78.2提高到54.4，将MUNIT [ 13]的FID分数从102.3提高到59.9，用于Horse →Zebra数据集。此外，我们还发现DCR在训练数据较少的情况下特别有效。具体而言，即使只使用AFHQ数据集中特定领域的10％进行训练，带有DCR的StarGANv2 [ 5]也能够达到最佳的FID分数17.15，而StarGANv2 [ 5]在AFHQ数据集的10％和100％的示例中的最佳FID分数分别为22.63和17.86。我们总结我们的贡献如下：0•我们引入了一种新颖的密集一致性正则化技术，称为DCR，用于GAN的鉴别器，以促进高保真度的图像生成和转换。0•我们展示了DCR在生成图像的空间邻域中维持结构和语义一致性的有效性。0•我们通过实验证明，DCR在各种图像到图像转换场景中取得了出色的性能。0在本文的其余部分，我们首先在第2节中讨论与我们方法密切相关的工作，然后在第3节中介绍我们的算法和实现细节。第4节展示了我们的实验结果及其分析，第5节总结了本文。02. 相关工作0本节回顾了现有的GAN鉴别器正则化方法，并介绍了适用于鉴别器正则化的通用密集表示学习技术。我们还讨论了现有的图像到图像转换方法，这是所提出的正则化器的主要目标任务。02.1. 鉴别器的正则化0GAN [ 8]是一种广为人知的生成模型，特别适用于图像生成和转换任务。生成器被训练成产生逼真的图像，欺骗鉴别器，而鉴别器则学习区分从生成器获得的假图像和从训练数据中采样的真实图像。GAN的网络架构的巨大进步使其能够生成Image-level prediction tasks, e.g., image classification,often achieve significant performance improvement by in-corporating self-supervised visual representation learningvia instance discrimination, which maximizes the similaritybetween two augmented images while optionally decreas-ing the similarity between different ones [2, 4, 9, 11, 33].However, such instance-level contrastive learning methodsmay be suboptimal as a pretext task due to the lack of theirspatial sensitivity.To address the limitation, dense self-supervised learningapproaches have been proposed, where they take into ac-count the pixel-level similarity between two augmented im-ages [27, 28, 30, 31]. View-Agnostic Dense Representation(VADeR) [27] adopts the pretext task that pulls the featuresat the overlapping locations of two different views croppedfrom a single image, while making the features from thenon-overlapping regions apart from each other. However,VADeR relies heavily on a large number of negative pairsand consequently incurs high computational cost. On theother hand, [31] proposes a pixel-to-propagation consis-tency (PixPro) regularization without negative pairs, which183030生成更真实图像的目标，但GAN在训练中仍然存在固有的稳定性问题，特别是对于源于非凸目标函数的超参数非常敏感。这个问题已经在各种研究中得到了解决，包括集成归一化方法[24]或通过梯度惩罚进行正则化[10, 19,29]。对于鉴别器的正则化结果表明，它可以稳定训练并提高性能[15, 16, 32, 34,35]。我们假设改进的主要原因是鉴别器中的良好表示，这对于区分真实图像和伪造图像至关重要，并最终提高了生成器的质量。特别是，[34]引入了一种简单的一致性正则化（CR）来对鉴别器进行正则化，并且与基于梯度的正则化技术[10, 19,29]相比，获得了大大提高的生成图像质量，同时减少了计算成本。为了通过优化鉴别器学习更具信息量的表示，已经采用了自监督学习方法[3, 15, 16,32]。例如，[3]引入了辅助旋转损失进行自监督，通过该损失将真实图像和生成图像分类为相关旋转角度之一，{0°，90°，180°，270°}。ContraD[15]区分两个独立的真实图像以及一对真实和伪造图像，以减轻鉴别器中的过拟合问题，同时在其中学习更强大的表示。这些工作的有希望的结果表明，鉴别器中学到的表示在实践中对于提高GAN的性能起着至关重要的作用。02.2. 密集表示学习0鼓励空间邻域中的像素具有相似的表示。空间一致表示学习（SCRL）[28]强制要求在单个图像的两个不同视图中识别的相同对象对应的特征具有一致性。02.3. 图像到图像的转换0未配对的图像到图像的转换技术根据是否使用循环一致性损失分为两类，循环一致性损失有助于学习从目标域到源域的逆映射[18, 37]。损失可以在图像域[5, 18, 21,37]或潜空间[13, 22,23]中定义，以保留输入和输出图像之间的关键属性。尽管通过循环一致性学习到的映射足够可靠，可以提供高质量的图像转换结果，但转换后的图像可能包含太多输入图像的信息，以至于无法有效地进行重建，导致不理想的输出。为了解决这个问题，已经采用了基于距离的损失[1]和几何一致性[7]来实现从源域到目标域的转换，而不使用其逆映射。对于保持原始图像内容的转换图像，采用了对比学习框架[26]，其中提出了一种基于补丁的对比损失，以保持源图像和目标图像之间的对应关系。采用结构一致性损失来强制源图像和目标图像之间的自相似性[36]。CUT [26]和F/LSeSim[36]通过利用跨域相似性函数，比具有循环一致性损失的算法提供更好的结果。然而，这些算法仅关注原始图像和转换图像之间的比较，而没有考虑它们的判别器中的表示。由于我们认为判别器表示准确反映目标域分布是生成图像转换中生成高保真图像的关键组成部分，我们提出了一种通过自监督学习的密集一致性正则化策略。03. 密集一致性正则化 (DCR)0本节介绍我们的主要算法，特别是密集一致性正则化模块的技术细节。我们还讨论了所提出方法的几个实现问题。03.1. 动机0GAN中鉴别器的作用是区分真实数据和生成器创建的假数据，并为生成器提供适当的反馈以生成逼真的图像。与图像分类等判别任务不同，图像生成需要在其输出中进行像素级预测。因此，鉴别器应该能够捕捉输出图像的局部上下文，以实现图像到图像转换任务中与目标域的高保真度。[31]引入了表示学习中的空间敏感性，用于测量更具辨别力的学习对象边界周围的空间重叠像素的一致性。为了使鉴别器具有空间敏感性，我们设计了一项任务，用于局部特征相似度度量，并在本节的其余部分讨论其细节。为了获得中层局部特征，我们将鉴别器D分解为两个子网络，分别表示为D0和D1D = D1 ◦ D0.(1)simnc(r1, z2; ˜Ω) ≡�{(i,j)|˜Ω(i,j)=1}−r1[i]∥r1[i]∥2·z2[j]∥z2[j]∥2, (2)LDCR = 12simnc(r1, Fsg(z2)) + 12simnc(r2, Fsg(z1)), (3)183040为了使鉴别器具有空间敏感性，我们设计了一个任务，用于局部特征相似度度量，并在本节的其余部分讨论其细节。为了获得中层局部特征，我们将鉴别器D分解为两个子网络，分别表示为D0和D10与大多数视觉表示学习一样，我们首先从图像x中采样两个增强视图x1和x2。这两个视图被调整为固定分辨率（例如128×128）并通过共享特征提取器D0。为了验证我们的假设，我们可视化了CUT[26]的鉴别器的输出特征图，如图1所示，其中DCR比vanilla CUT [26]和带有CR[34]的CUT更有效地关注前景区域，并抑制背景区域的激活。这个结果表明DCR有助于提高生成图像的质量，特别是在对象边界周围。03.2. DCR 模块0DCR受SimSiam[4]的启发，它仅利用正样本对进行对比学习，并采用停梯度技术以防止崩溃到平凡解。请注意，由于图像生成任务需要学习目标域的分布，从目标域数据集中采样负样本并不直接。可以引入额外的数据集来获得负样本，但是选择负数据集是棘手的，因为它需要复杂和全面的监督来检查数据集的各种属性。所提出的DCR模块，表示为R(∙)，由两个1×1卷积层和两个卷积之间的LeakyReLU激活组成。DCR模块的输出特征图大小与其输入相同（例如W×H×C），以保持空间信息。假设我们有两个增强图像的中间表示，分别为r1 :=R(D0(x1))和z2 :=D0(x2)。给定两个视图x1和x2的重叠区域Ω，我们定义它们对应特征的负余弦相似度，如下所示0其中 ˜ Ω 是表示特征对应关系的二进制映射，[ ∙ ]用于指定对应的索引0其中(i,j)表示特征图中的特定位置，∥ ∙ ∥2表示ℓ2范数。根据[4]，DCR损失定义如下0其中F sg ( ∙)是一个停梯度层1。由于我们希望鉴别器从目标域的图像中提取更多有用信息，因此我们仅将DCR应用于真实图像。尽管将DCR应用于生成的图像可能有助于鉴别器学习更好的表示，但我们认为这种正则化对于更好地模拟目标域分布并不一定有帮助（请参阅补充材料中的C节）。03.3. 判别器的目标0标准GAN中判别器的目标是0Ldisc = - Ex,y [log D y (x)] - Ex,y [log(1 - D y (G(x)))] ,0其中Dy(∙)表示与域y相对应的判别器的输出。所提出的方法同时最小化标准GAN损失和DCR损失，其表示为L D =Ldisc + λ ∙ LDCR，(4)0其中λ是我们实验中设置为1的超参数。03.4. 实现细节0本小节讨论了我们方法的一些关键设计问题。我们在补充文件的A部分提供了更多关于我们实现的细节。0密集表示的位置我们将DCR施加到最终残差块的输出或判别器的最终卷积层的输入上。由于所提出的DCR的性能提升严重依赖于密集表示的质量，因此确定适合正则化的表示级别非常重要。我们通过在网络中变化DCR的位置进行消融研究。关于这个问题的更多细节将在第4.5节中讨论。0DCR损失计算和正对配对选择我们根据两个重叠区域的局部特征D0(x1)和D0(x2)来测量DCR损失LDCR(3)。为了计算simnc(∙,∙)，我们采用了PixPro[31]中描述的方法。首先，估计并转换两个特征图中每个像素的位置和尺度到原始图像空间。然后，我们计算特征图中所有位置对之间的距离，并考虑估计的尺度对距离进行归一化。01 F sg ( z )表示z作为常数被冻结以进行反向传播。FSeSim [36]45.2±4.80.75±0.14 / 0.83±0.0486.5±4.00.66±0.05 / 0.81±0.0287.30.20 / 0.07−DCR36.7 1.40.89 0.02 / 0.89 0.0274.5 0.20.83 0.00 / 0.86 0.0273.50.34 / 0.10183050方法 Horse → Zebra Winter → Summer Cat → Dog (AFHQ) AFHQ Metric FID ↓ D&C ↑ FID ↓ D&C ↑ FID ↓ D&C ↑ FID ↓0CycleGAN [ 37 ] - 78.2 ± 1.0 0.56 ± 0.14 / 0.73 ± 0.12 80.9 ± 4.6 0.88 ± 0.03 / 0.82 ± 0.06 85.9 0.54 / 0.48 −0CUT [ 26 ] - 43.2 ± 2.3 0.73 ± 0.06 / 0.87 ± 0.02 77.8 ± 0.5 0.56 ± 0.12 / 0.51 ± 0.24 76.2 0.38 / 0.41 −0MUNIT [ 13 ] - 102.3 ± 4.3 0.29 ± 0.11 / 0.43 ± 0.09 97.0 ± 0.5 0.12 ± 0.03 / 0.16 ± 0.06 104.4 0.21 / 0.32 61.60StarGANv2 [ 5 ] - 19.7 1.38 / 0.68 42.2 0.23 / 0.39 44.2 0.93 / 0.69 18.1 (16.2 � )0DRIT++ [ 22 ] - 88.5 0.21 / 0.35 93.1 0.24 / 0.37 110.9 0.25 / 0.19 −0表1. Horse → Zebra, Winter → Summer, Cat →Dog和AFHQ数据集上各种图像到图像翻译模型的FID分数和D&C的定量比较。标准差是从两次运行中计算得出的。对于StarGANv2，由于使用随机潜在编码的模型固有的不确定性，我们提供了我们复现的平均性能，而[5]中报告的得分在AFHQ数据集上为16.2。0PixPro [ 31]建议根据整个批次中的距离固定阈值选择正对的配对。然而，DCR可以应用于密集表示图中的任何位置，我们应该考虑特征图大小作为一个额外的因素。因此，特征对应的正对配对由˜ Ω标识，其元素的值如下所示：0˜Ω(i, j) =0� 1，如果dist(i, j) ≤ τ ∙ sf 0，否则，(5)0其中dist(∙,∙)表示图像中两个位置之间的归一化距离，τ和sf表示阈值和特征图的空间分辨率的超参数。在我们的实验中，我们将τ设置为0.5，并在第4.5节中展示其对准确性的影响。04. 实验0我们从三个不同的方面验证了DCR的有效性：(a)使用单向和双向转换模型的图像到图像转换性能，(b)在训练数据有限的情况下提出的正则化器的好处，以及(c)对无条件GAN的适用性。我们还进行了一些消融研究，以展示所提方法的鲁棒性。04.1. 实验设置0我们主要在图像到图像转换上分析我们的方法，因为在条件GAN模型中，验证输出图像的期望属性更为直接。图像到图像转换任务通常涉及两个不同的问题——形状变形和纹理变化，我们评估了所提方法的性能。0在两个方面都采用了DCR的方法。由于DCR是GAN鉴别器的通用一致性正则化技术，我们测试了它在无条件GAN模型上的适用性。请注意，无条件GAN模型将预定义的潜在分布映射到目标域中的分布。因此，我们将无条件GAN任务视为具有潜在源域的条件GAN问题的特殊情况，而图像到图像转换的源域由相应训练数据集中的图像定义。0已测试的模型现有的无配对图像到图像转换方法属于双向或单向框架。双向框架利用源域和目标域之间的正向和反向映射。我们将DCR应用于CycleGAN[37]，它是双向框架中最具代表性的作品之一。我们还采用了MUNIT[13]和StarGANv2[5]，它们分别在特征级别和像素级别上利用循环一致性损失。此外，我们将DCR应用于DRIT++[22]，它利用解耦表示进行图像到图像转换。作为单向基准模型，我们采用基于对比补丁关系的CUT[26]和基于结构相似性的FSeSim[36]。对于无条件GAN，我们采用SND-CGAN[24]作为基准，并增加了最近提出的基于实例级别对比正则化方法ContraD[15]以实现额外的性能提升。0数据集和度量对于图像到图像转换任务，数据集需要包含具有几何变形或纹理变化的图像。我们进行了大量实验证明DCR在图像到图像转换的三个常用数据集上的有效性。与纹理变化相关的任务进行了评估。183060CycleGAN CUT FSesim+DCR0输入0Horse2ZebraCat2DogWinter2Summer0CycleGAN+DCR0图3. Horse → Zebra、Winter → Summer和Cat →Dog数据集上图像到图像转换结果的定性比较。CycleGAN[37]、CUT[26]和FSeSim[36]被用作基准模型，并将所提出的DCR集成到这些模型中。与基准算法相比，所提出的DCR可以在马上添加斑马的适当图案，并生成更逼真的图像。0在Horse → Zebra和Winter →Summer数据集上进行图像到图像的转换。使用AFHQ的Cat →Dog数据集来测试形状变形和几何变换。对于具有多个域的图像到图像的转换，我们还使用了AFHQ数据集[5]，其中包含具有大量类内和类间变化的高质量动物面孔。对于无条件的GAN，我们使用包含60K个32×32图像和10个标签的CIFAR-10[20]，其中50K用于训练，10K用于测试。我们使用Frechet Inception Distance(FID)[12]作为定量指标来评估生成质量和目标分布的准确性。我们还报告密度和覆盖度(D&C)[25]，同时计算生成结果的多样性和保真度。04.2. 图像到图像翻译的DCR0为了评估DCR与各种现有的图像到图像翻译模型，我们使用每个模型的官方实现并将DCR纳入其中。我们使用Horse→Zebra，Winter→Summer和Cat→Dog（AFHQ）来评估单一领域的模型。由于StarGANv2 [ 5 ]和MUNIT [ 13]可以处理多个领域，它们也在AFHQ数据集上进行了测试。我们为每个方向训练了三个MUNIT [ 13 ]模型，并计算了[ 5]之后的FID的平均值。表1呈现了综合结果，并展示了在测试数据集上所有基线模型的一致改进。对于使用AFHQ数据集的StarGANv2 [ 5]，我们要注意的是，我们报告了3次试验中最佳FID分数的平均值。有一些差距0在原始论文[ 5]中，我们在复现结果和报告结果之间存在一些差距。这可能是由于使用随机向量进行潜在引导翻译时的底层随机性导致的。因此，我们比较了使用复现结果的性能。值得注意的是，通过在不修改超参数的情况下将DCR应用于基线模型，我们实现了显著改进的FID分数。DCR损失对于形状变形非常有效，这通过在FID方面对Cat→Dog数据集的一致改进得到验证。如第3.4节所述，我们将DCR应用于最后一个卷积层的输入，根据我们在第4.5节中提出的分析，这对于形状变形任务更有优势。我们还使用最近引入的度量标准D&C [25]，并与基线算法进行了一致改进的性能比较，除了少数例外。图3展示了使用基线模型CycleGAN [ 37 ]，CUT [ 26]和FSeSim [ 36]以及将DCR集成到这些方法中的单模态图像到图像翻译结果。值得一提的是，与基线模型相比，我们观察到使用DCR生成的图像中存在更真实的局部语义和结构。在Horse→Zebra数据集的情况下，CUT [ 26]无法提供具有所需斑马风格的图像，而将DCR集成到CUT [26]中则能够从给定的马图像生成更具斑马风格的图像。总体而言，与基线模型相比，DCR在各种数据集上始终提供更好的结果。请参阅StarGANv2 [5]StarGANv2 [5] + DCRSNDCGAN [24]97.4SNDCGAN+ContraD [15]10.9SNDCGAN+Our8.6SNDCGAN+ContraD+Our7.718307010% 22.63 ± 3.70 17.15 ± 0.89 30% 19.08 ±4.88 16.88 ± 1.17 100% 17.86 ± 0.54 16.72 ±0.590表2.DCR对少量目标数据的效果的最佳FID分数的定量比较。我们随机选择了AFHQ数据集中野生领域的10％，30％和100％。最佳FID分数是猫到野生翻译的最佳FID分数和狗到野生翻译的最佳FID分数的平均值。我们报告了3次试验中最佳FID的均值和标准差。0附录中的B节中有更多单模态和多模态图像到图像翻译模型的定性结果。04.3. 少量目标数据的DCR0尽管我们通过将DCR应用于各种现有模型实现了FID的改进，但我们想知道在少量数据场景下，提出的DCR是否能够有效地反映目标领域的局部上下文。为了调查这一点，我们随机减少训练集中特定领域的真实数据的比例为30％和10％。我们使用StarGANv2 [ 5]和包含狗、猫和野生领域的AFHQ数据集作为基线进行实验。我们只减少了具有各种内部变化（狐狸、猎豹、狮子和老虎）的野生领域。为了公平比较，我们报告了三次试验的平均性能。定量和定性结果分别显示在表2和图4中。我们观察到在少量数据场景下，StarGANv2 [ 5]的FID分数方差相对较大。由于数据是随机选择的，FID分数因所选数据与测试数据的相似性而异。然而，提出的DCR显示出比基线更小的FID分数方差。这意味着提出的方法有效地捕捉到了目标领域的局部上下文。图4展示了AFHQ数据集的参考引导图像到图像翻译结果，我们只使用了野生领域10％的数据，而其他领域我们使用了全部数据。值得一提的是，StarGAN v2 [ 5]与DCR相比基线提供了显著更好的翻译图像。特别是由于野生领域的数据量较小，从猫和狗图像转换得到的图像无法反映猎豹图像的风格，而变成了狮子图像。然而，提出的DCR正确地编码了猎豹图像的风格，并将其翻译成了适当的猎豹图像。此外，提出的DCR鼓励网络在保持源图像几何形状的同时生成翻译图像。这些结果明确证实了DCR的强大性能。0方法 CIFAR-100表3. 无条件图像生成中最佳FID分数的定量比较。0作为小数据集高效训练和与现有的图像到图像转换任务的算法相结合时的翻译质量的强大正则化。04.4. 与无条件GAN的DCR0由于我们的DCR正则化了鉴别器的一致性，因此研究无条件GAN是很自然的。我们以SNDCGAN [ 24]为基线模型，并与最近的ContraD [ 15]进行比较，后者是基于实例级对比学习的正则化方法，为了简单起见，我们在CIFAR10数据集上进行了实验。我们的工作的动机是图像生成需要像素级预测，并且密集表示的正则化是合适的。表3显示了定量结果，DCR比实例级方法更能改善FID。实际上，结果显示了通过融合ContraD和DCR可以提升彼此性能的可能性。然而，实例级和密集级一致性正则化的作用仍然是一个开放的领域，我们认为它值得进一步研究。04.5. 消融研究0为了更好地理解我们提出的方法的超参数如何影响性能，我们进行了消融研究。我们在CycleGAN [ 37]模型上进行实验，使用Horse → Zebra和Cat →Dog（ImageNet [ 6 ]）数据集。0正则化的位置我们算法中的一个重要选择是在哪里应用提出的正则化。我们在需要形状变形任务和纹理转换并保持形状的两种类型的任务上进行实验。我们在CycleGAN的鉴别器的不同表示上集成DCR时，测量FID。结果如表4所示。定量结果表明，提出的DCR在任何表示上应用都可以提高性能。然而，改进差距在两种类型的数据集上显示出不同的行为方面。纹理转换任务在表示接近像素级时显示出更好的性能。另一方面，形状变形任务在更高级别的表示上提供更好的性能，因为它需要比其他任务更多的语义信息。为了在整体任务上执行，StarGANv2StarGANv2+DCRStarGANv2StarGANv2+DCRCycleGAN [37]77.286.5CycleGAN + DCR (layer2)49.270.5CycleGAN + DCR (layer3)51.459.9CycleGAN + DCR (layer4)51.157.8τ00.30.50.70.9FID77.256.751.151.457.9183080来源0参考文献0图4. StarGANv2和我们的参考引导样本的定性比较。图像右上角的虚线显示，与基线相比，提出的DCR合成了更相似的源图像结构。0马 → 斑马猫 → 狗 *0表4.对提出的DCR方法中密集表示位置的消融研究。层编号表示使用该层的哪个输出作为密集表示。星号（*）表示使用ImageNet中的示例进行的实验。0表5. 对提出的DCR方法中距离阈值 τ的消融研究。我们在CycleGAN [ 37 ]模型上对Horse →Zebra数据集进行了消融研究。 τ = 0表示没有提出的DCR的基线模型。0我们选择表示，要么是最终残差块的输出，要么是最终卷积层的输入。0如何识别正对的配对在DCR中的一个主要超参数是距离阈值τ(5)，用于识别特征对应关系˜Ω的正对。为了选择最佳的阈值τ，我们在Horse→ Zebra数据集上的CycleGAN[37]模型上尝试了各种值τ∈{0.3, 0.5, 0.7,0.9}。表5报告了在不同距离阈值τ下性能的定量比较。表5中的结果显示了一致的改进。0对于基准模型(τ =0)的改进。这验证了提出的DCR在提供更好的翻译图像方面的有效性。如表5所示，当我们将距离阈值τ设置为0.5时，我们获得了最佳结果。因此，在所有实验中，将距离阈值τ设置为0.5。0进一步的研究分析提出的DCR的性能提升可以在补充部分C中找到。我们进行了消融研究，以了解停止梯度的效果，以及我们为什么只将DCR应用于生成图像的裁剪区域，而不是整个图像或真实图像。05. 结论0我们提出了一种新颖的正则化技术，称为密集一致性正则化(DCR)。所提出的方法强制执行同一图像的两个不同视图中重叠区域的表示一致性。DCR适用于需要密集预测的任务，并可纳入各种现有的有条件和无条件GAN模型。根据我们在图像到图像翻译和无条件图像生成任务上的实验，DCR始终表现出卓越的性能。此外，DCR通过与实例级正则化方法的组合，有效地捕捉目标域中的局部上下文。有关潜在的负面社会影响和限制的讨论，请参阅补充文档的E部分。183090参考文献0[1] Sagie Benaim and Lior Wolf. 单边无监督域映射.神经信息处理系统进展, 30, 2017. 30[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey Hinton. 对视觉表示进行对比学习的简单框架.在机器学习国际会议上, 页码1597-1607. PMLR, 2020. 30[3] Ting Chen, Xiaohua Zhai, Marvin Ritter, Mario Lucic, andNeil Houlsby. 自监督GAN通过辅助旋转损失.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码12154-12163, 2019. 1, 30[4] Xinlei Chen and Kaiming He. 探索简单的孪生表示学习.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码15750-15758, 2021. 3, 40[5] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. StarGAN v2: 多领域多样化图像合成.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码8188-8197, 2020. 2, 3, 5, 6, 70[6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. ImageNet: 一个大规模的层次化图像数据库.在2009年IEEE计算机视觉与模式识别会议上, 页码248-255, 2009.70[7] Huan Fu, Mingming Gong, Chaohui Wang, KayhanBatmanghelich, Kun Zhang, and Dacheng Tao.几何一致性生成对抗网络用于单边无监督域映射.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码2427-2436, 2019. 30[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络. 神经信息处理系统进展, 27, 2014.1, 20[9] Jean-Bastien Grill, Florian Strub, Florent Altch´e, CorentinTallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch,Bernardo Avila Pires, Zhaohan Guo, Mohammad GheshlaghiAzar, Bilal Piot, koray kavukcuoglu, Remi Munos和MichalValko. Bootstrap your own latent - 自监督学习的新方法. 在H.Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan和H.Lin编辑的神经信息处理系统进展中, 第33卷, 第21271-21284页.Curran Associates, Inc., 2020年. 30[10] Ishaan Gulrajani, Faruk Ahmed, Mart´ın Arjovsky, VincentDumoulin和Aaron C Courville. 改进的Wasserstein GAN训练.在NIPS会议中, 2017年. 30[11] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie和RossGirshick. 动量对比用于无监督视觉表示学习.在IEEE/CVF计算机视觉与模式识别会议中, 第9729-9738页,2020年. 30[12] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, BernhardNessler和Sepp Hochreiter. 通过两时间尺度更新规则训练的GAN收敛到局部纳什均衡.在I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan和R.Garnett编辑的神经信息处理系统进展中, 第30卷. Curran Associates, Inc., 2017年. 60Fergus, S. Vishwanathan和R.Garnett编辑的神经信息处理系统进展中, 第30卷. CurranAssociates, Inc., 2017年. 60[13] Xun Huang, Ming-Yu Liu, Serge Belongie和Jan Kautz.多模态无监督图像到图像的转换.在欧洲计算机视觉会议(ECCV)论文集中, 第172-189页, 2018年. 2,3, 5, 60[14] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou和Alexei A Efros.条件对抗网络的图像到图像转换.在2017年IE

下载后可阅读完整内容，剩余1页未读，立即下载