无监督低级别图像到图像转换中的结构一致性约束

58 浏览量更新于2023-10-26 收藏 20.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

roadbuildingvegetationskycarothers0.00.10.20.30.40.5Semantics Distribution182490通过结构一致性约束减轻无监督低级图像到图像转换中的语义失真0Jiaxian Guo 1 Jiachen Li 2 Huan Fu 10Mingming Gong 3 Kun Zhang 4 , 6 Dacheng Tao 1 , 501悉尼大学2上海交通大学3墨尔本大学4卡内基梅隆大学5京东探索学院6穆罕默德∙本∙扎耶德人工智能大学0jguo5934@uni.sydney.edu.au lijc0804@sjtu.edu.cn hufu6371@uni.sydney.edu.au0mingming.gong@unimelb.edu.au kunz1@cmu.edu dacheng.tao@gmail.com0摘要0无监督图像到图像（I2I）转换旨在学习一个能够在没有配对数据的情况下保持输入图像语义的域映射函数。然而，由于源域和目标域中的底层语义分布通常不匹配，当前基于分布匹配的方法在匹配分布时可能会扭曲语义，导致输入图像和翻译图像之间的不一致，这被称为语义失真问题。在本文中，我们专注于低级别的I2I转换，其中图像的结构与其语义密切相关。为了在没有配对监督的情况下减轻这种转换任务中的语义失真，我们提出了一种新的I2I转换约束，称为结构一致性约束（SCC），通过减少翻译过程中颜色变换的随机性来促进图像结构的一致性。为了便于估计和最大化SCC，我们提出了一种称为相对平方损失互信息（rSMI）的近似互信息表示，它具有高效的解析解。我们的SCC可以轻松地融入大多数现有的转换模型中。对一系列低级别I2I转换任务的定量和定性比较表明，具有SCC的转换模型在计算和内存成本几乎不增加的情况下明显优于原始模型。01.引言图像到图像的转换，或者称为域映射，旨在将源域X中的图像正确地转换到目标域Y。它已应用于各种视觉任务[13, 46, 49, 59, 65]。早期的工作[18, 34,44]考虑了在配对数据集上进行监督图像到图像（I2I）转换，并且基于条件生成对抗性0网络可以生成高质量的翻译[18, 44,60]。然而，由于配对数据通常不可用或难以获得，无监督的I2I转换近年来引起了广泛关注[3, 17, 25, 26, 32, 43, 69,73]。0GTACityscapes0图1.GTA和Cityscapes中的类别分布。我们可以看到，GTA中天空的比例明显高于Cityscapes中的天空，因此基于分布匹配的方法必须将天空翻译为植被/建筑物以对齐分布。0受益于生成对抗网络（GANs）[14]，许多工作旨在通过找到GXY来执行无监督的I2I转换，使得翻译后的图像和目标域图像具有相似的分布，即PGXY（X）≈PY。由于可以满足对抗性损失的无限数量的函数，单独使用GAN可能会学习到一个远离真实函数的函数。为了解决这个问题，对学习到的映射函数施加了各种约束。例如，众所周知的循环一致性[26, 69,73]强制翻译函数GXY是双射的。DistanceGAN[3]保留源图像中的成对距离。GcGAN[10]强制函数对输入图像的某些几何变换平滑。DRIT++[32]和MUNIT[17]通过将图像嵌入到域不变内容空间和域特定属性空间中来学习分离表示，并且可以从表示学习组件中导出映射函数。上述方法在两个域之间表现良好182500输入CycleGAN0GAN+SCC0随机变换的几何结构0一致变换的几何结构0对应区域中的结构变换0输入0自拍动漫0GAN+SCC输入0输入CycleGAN0GTA Cityscapes0图2.不一致的几何结构翻译导致无监督低级图像翻译中的语义失真问题的说明。从视觉上看，我们可以看到在CycleGAN中进行翻译时，天空和人脸的几何结构发生了扭曲，导致语义失真，例如，天空变成了植被，没有刘海的脸变成了有刘海的脸。0只有样式信息不同。然而，在大多数不配对的数据集中，不仅样式而且底层语义分布也不同于源数据集和目标数据集[19]。以GTA到Cityscapes为例，我们对GTA和Cityscapes进行类别统计，结果如图1所示。可以看出，GTA中的类别分布与Cityscapes中的类别分布不同，例如，GTA中天空的比例明显高于Cityscapes中的比例，而GTA中的植被比例低于Cityscapes中的比例。图2还展示了自拍→动漫翻译中的一个例子，动漫数据集中带刘海的人脸比例明显高于自拍数据集中的比例。在这些情况下，先前的基于GAN的方法，例如CycleGAN[73]，旨在使域之间的分布对齐，即PGXY（X）≈PY，可能会将GTA2cityscape中的天空翻译为建筑物/植被，或者自动在自拍2动漫中在人脸上添加刘海，以便对齐分布（图2），导致输入和翻译图像之间的语义不匹配，即语义失真问题。当给定的源数据集和目标数据集具有不匹配的语义分布时，很难以通用方式解决语义失真问题[19]，因为语义的表征可能因任务而异。这种缺乏普遍最佳选择的情况通常在所谓的“无免费午餐”定理[30, 63,64]中得到形式化，表明没有单一的I2I算法可以在所有I2I应用中比其他算法表现更好。因此，我们需要使用适当的归纳偏差[1,24]来指导翻译模型根据不同I2I应用的具体要求保留相关内容。例如，在高级I2I图像翻译任务中，对象的姿势/位置可能被视为语义，但对象的类型（例如，猫→人脸）是0应该翻译的样式信息，因此[65]引入了姿势偏差以在翻译过程中正确保留姿势结构。在本文中，我们考虑了一个广泛适用的低级图像翻译问题[5]，它在计算机视觉应用的广泛范围内都是基础问题，例如域自适应[16]、分割[73]和模拟到真实[45]。在低级I2I中，域之间的差异来自于低级信息，例如分辨率、光照、颜色，而不是几何变化，而图像中的结构（例如对象的形状）在源域和目标域之间是最不变的，即图像的语义与其结构（对象的形状）高度相关。因此，语义失真可以被视为翻译图像中结构的变化，如图2所示。受此启发，减轻语义失真的自然解决方案是保留源图像的结构。为了保证源图像和翻译图像之间的图像结构的一致性，我们提出了一种I2I翻译约束，称为结构一致性约束（SCC）。我们观察到，如果保留图像结构，翻译前后的像素值通常高度相关（图3）。基于这一观察，我们提出了一种基于互信息（MI）的依赖度量，用于建模源图像和翻译图像中像素值之间的非线性关系。为了高效地估计像素值之间的MI，我们提出了所谓的相对平方损失互信息（rSMI），可以以解析形式估计。通过与GAN损失一起最大化rSMI，我们的方法可以通过更好地保留图像结构显著减少语义失真。在实验中，为了展示我们的结构一致性约束的有效性和兼容性，我们将其纳入GAN框架和其他现有的图像翻译方法（例如CycleGAN，CUT[43]）。在几个低级传统数据集上与现有I2I方法的定量和定性比较表明，具有SCC的模型在计算和内存成本很小的情况下明显优于相应的基线模型1。02. 方法论0无监督的图像到图像翻译旨在找到两个域X和Y之间的映射函数G XY ，给定来自边缘分布P X 和P Y 的未配对样本{x i }N i =1和{y j } M j=1。为了缓解低级别I2I翻译中的语义失真问题，我们直接促进源图像和翻译图像的结构一致性，因为图像结构与其语义在这个任务中高度相关。接下来，我们首先提出了将基于互信息的结构一致性约束（MI-based structureconsistencyconstraint）放置在源图像和翻译图像中的动机。01 代码可在 https://github.com/CR-Gjx/SCC 上获取MI=0.456MI=0.423MI=0.381MI=0.398MI=0.481MI=0.470MI=0.456MI=0.445MI(V xi, V ˆyi) = E(vxi ,v ˆyi )∼P(V xi ,V ˆyi )logP(V xi ,V ˆyi )PV xiPˆy182510输入 GAN+SCC CycleGAN GAN+VGG GAN+CUT 输入 GAN+SCC CycleGAN GAN+VGG GAN+CUT0图3. GTA → Cityscapes和肖像 →照片的无监督图像翻译示例。顶部行是每种方法的翻译结果。底部行是输入图像x和其对应的翻译图像ˆy的像素值的散点图，显示了两个图像中像素值的非线性依赖关系。显然，输入图像（X轴）和翻译图像（Y轴）之间像素值的依赖关系越强，输入图像的几何结构就越好地保持。MI代表我们的rSMI方法估计的互信息。具体来说，VGG指的是VGG特征的Contextual loss [39]。0结构一致性约束（SCC），然后详细介绍了SCC的细节，其旨在减少翻译过程中颜色变换的随机性，从而促进源图像和翻译图像之间的几何结构一致性。02.1. 动机0如图3、5(a)和7所示，先进的方法，例如CycleGAN、CUT[43]、Contexual loss [39]、U-GAT-IT [25]、MUNIT[17]等，可能会改变输入图像的几何结构，从而导致输入图像和翻译图像之间的语义不匹配。因此，有必要施加约束条件，以确保学习到的函数G XY在最小程度上改变图像样式时不会造成结构失真。我们的工作是首次探索这种无监督图像到图像翻译的约束条件。众所周知，图像中的几何结构通常由颜色勾勒出来。因此，如果我们希望在翻译过程中保留几何结构，我们希望输入和输出图像之间的颜色翻译保持一致。例如，夏天的绿叶应该被翻译成秋天的黄色，但我们不希望它被翻译成一种多彩的颜色，否则我们无法将其识别为叶子。基于这一观察，我们在图3的底部行绘制了图像在翻译前后的相应像素值。我们可以看到，如果翻译图像中的像素值（Y轴）更多地依赖于输入图像中的像素值（X轴），则会保留更多的结构。显然，先前的方法（例如CycleGAN、CUT、VGG特征的Contextualloss）未能在几何结构内一致地翻译颜色，这种颜色变换的随机性导致了几何结构和语义的失真。因此，减少颜色变换的随机性是缓解I2I翻译中语义失真问题的有效方法。在分析的基础上，我们开发了结构一致性约束（SCC）作为一种通用且有效的约束，以在翻译过程中保持像素级结构。SCC利用互信息来建模0像素值之间的非线性依赖关系，从而减少翻译中颜色变换的随机性。如图4所示，我们的SCC被强制应用于输入和翻译图像，从而允许单向无监督域映射，即G XY 可以独立于G YX进行训练。将我们的SCC应用于普通的GAN时，翻译前后的像素值具有更强的依赖关系（更高的MI），因此模型在低级别I2I翻译中更好地保留了几何结构，如图3所示，从而减少了语义失真。接下来，我们将介绍我们方法的详细内容。02.2. 互信息的近似表示0对于源域图像x i ∈ X及其翻译ˆ y i = G XY (x i)，我们将V xi和V ˆ y i分别表示为x i和ˆ y i中像素的随机变量。因此，xi中的像素，即{v x i j}M j=1，可以被视为从P V xi中采样的数据，而ˆ y i中的像素，即{v ˆ y i j}Mj=1，可以被视为从P V ˆyi中采样的数据，其中M是图像的像素数量。形式上，V xi和V ˆ y i之间的互信息为：0(1) 其中P(V xi,V ˆ yi)是V x i和V ˆ y i的联合分布，P V x i � PV ˆ yi是两个边缘分布P V x i和P V ˆ yi的乘积。由于V xi和V ˆ yi是低维的，估计(1)的一种直接方法是基于图像的直方图估计分布P。接下来，我们将介绍如何估计来自两个域图像的像素之间的互信息，并将其反向传播以优化翻译网络中的参数。为了实现有效的反向传播，我们提出了相对平方损失互信息（rSMI），它是著名的平方损失互信息（SMI）[54]的扩展，并可以通过解析方法进行估计。对于传统的表示，我们将P V x i � P V ˆ yi表示为S i，将P(V xi,V ˆ yi)表示为Qi。然后，基于Pearson（PE）散度[53]的SMI基于P V xi和P V ˆ yi之间的表达式如下：SMI(V xi, V ˆyi) = DP E(PV xi ⊗ PV ˆyi ||P(V xi ,V ˆyi ))= DP E(Si||Qi)= EQi[( Si1)2].(2)DrP E(SiQi) = DP E(SiβSi + (1β)Qi).(3)rSMI(V xi, V ˆyi) = DrP E(PV xi ⊗ PV ˆyi ||P(V xi ,V ˆyi ))= EβSi+(1−β)Qi[(Si− 1)2]iβSi + (1 − β)Qi= ωα(vxi, vˆyi)Txiˆyi(5)ˆα = ( ˆH + λR)−1ˆh,ˆH = 1 − βn(K ◦ L)(K ◦ L)T + βn2 (KKT ) ◦ (LLT ),�rSMI(V xi, V ˆyi) = 2ˆαT ˆh − ˆαT ˆH ˆα − 1.(7)GXYAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FGXYAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FAB7XicbVBNSwMxEJ3Ur1q/qh69BIvgqeyKoMeiBz1WsB/SLiWbZtvYbLIkWaEs/Q9ePCji1f/jzX9j2u5BWx8MPN6bYWZemAhurOd9o8LK6tr6RnGztLW9s7tX3j9oGpVqyhpUCaXbITFMcMkalvB2olmJA4Fa4Wj6nfemLacCXv7ThQUwGkecEuk5k0vaz9MeuWKV/VmwMvEz0kFctR75a9uX9E0ZtJSQYzp+F5ig4xoy6lgk1I3NSwhdEQGrOoJDEzQTa7doJPnNLHkdKupMUz9fdERmJjxnHoOmNih2bRm4r/eZ3URpdBxmWSWibpfFGUCmwVnr6O+1wzasXYEUI1d7diOiSaUOsCKrkQ/MWXl0nzrOp7Vf/uvFK7yuMowhEcwyn4cAE1uIU6NIDCIzDK7whV7QO/qYtxZQPnMIf4A+fwBuMo8FLSCC = 1NN�i=1�rSMI(V xi, V GXY (xi)),(8)minGXY maxDY LGAN+SCC(GXY , DY )=GAN(GXY , DY )λSCCSCC(GXY ),(9)LGAN(GXY , DY ) = Ey∼PY [log DY (y)]+ Ex∼PX [log(1 − DY (GXY (x))).(10)182520在传统的表示中，我们将P V x i � P V ˆ yi表示为S i，将P(V xi,V ˆyi)表示为Q i。然后，基于Pearson（PE）散度[53]的SMI基于P V xi和P V ˆ yi之间的表达式如下：0Q i是无界的，SMI ( V x i , V ˆ y i)可能是无穷大，导致反向传播中的数值不稳定。因此，我们使用相对Pearson（rPE）散度[67]来缓解这个问题：0在这里，我们引入混合分布βS i +(1 − β ) Q i，β ∈ (0 , 1)，来替代Qi。由于这种修改，密度比率将被限制在[0, 10β ]。因此，所提出的rSMI(V x i, V ˆ y i)可以写成：0(4) 为了估计rSMI(V x i, V ˆ y i)，我们直接使用{v x i j}Mj=1和{v ˆ y i j}M j=1的核函数的线性组合来估计密度比率：0其中 φ ∈ R m 是核函数，α ∈ R m是我们需要解的参数向量，m是核的数量。参考最小二乘密度差估计[52]，解得的最优解ˆα为（推导见附录A.1）：0n 2 ( K 1 n ) ◦ ( L 1 n ) (6) 其中 R是一个半正定的正则化矩阵，n 是样本数量，1 n是一个由1填充的n维向量，K 和 L 是由核函数组成的两个m× n矩阵，K 和 L 的Hadamard乘积用于定义φ，即φ(v x i, vˆ y i) = K(v x i) ◦ L(v ˆ yi)。最后，一个具有较小偏差的适当的互信息估计器可以表示为：0需要注意的是，计算� rSMI ( V x i , V ˆ y i)在资源上是友好的，因为它可以通过解析方法求解。因此，可以通过反向传播有效地更新翻译神经网络中的参数。0SC约束0Cycle约束0Cycle约束0图4.结构一致性约束的示意图。左图显示输入图像x中的像素值与其对应的翻译图像ˆy中的像素值具有强非线性依赖性，因此我们添加结构一致性约束来建模两个域图像中像素值的依赖关系。02.3. 完整目标0根据上述分析，我们使用互信息的结构一致性约束（SCC）可以表示为：0其中，N是样本数量，G XY (x i ) = ˆ y i 。我们直接最大化LSCC，以保证在翻译过程中图像的更多局部几何结构是不变的。通过将SCC与标准的对抗性损失相结合，可以在改变图像风格的同时保持其图像几何结构。因此，可以针对单向无监督域映射。完整目标的形式如下所示：0其中，L gan是对抗性损失[14]，引入了一个判别器DY，以鼓励输出的分布与目标域图像的分布相匹配，即P GXY (X) ≈ PY。此外，为了保证像素级别的分布一致性，我们使用了基于1×1卷积的GAN。目标函数如下所示：0在公式9中，λ SCC 是一个超参数，用于在训练过程中对Lgan 和L SCC进行加权。所提出的SCC可以很容易地集成到各种I2I翻译框架中，例如CycleGAN [73]和CUT [43]，只需将损失函数Lgan 替换为这些方法中的损失函数即可。03. 实验0在本节中，我们对三个典型的无监督低级图像翻译基准进行定量实验：数字翻译、无监督分割和(a) GAN(b) GAN + SCC(c) CycleGAN(d) CycleGAN + SCCCycleGAN26.1±8.195.3±0.484.7±2.531.6±5.683.8±3.095.9±0.4+ SCC38.0 0.596.7 0.191.5 0.347.4 2.087.7 2.196.1 0.2182530图5. SVHN →MNIST的定性比较。从图(a)和(b)可以看出，GAN方法与我们的SCC相结合后没有崩溃的解决方案。此外，CycleGAN中的语义扭曲问题在与SCC相结合后得到缓解。0表1. 数字实验的分类准确率。0翻译图像作为测试集翻译图像作为训练集0方法 S → M M → M-M M-M → M S → M M → M-M M-M → M0单独的GAN 21.3 ± 9.5 54.6 ± 40.5 80.3 ± 3.5 28.6 ± 10.8 45.7 ± 31.2 95.5 ± 0.40GcGAN- 旋转 32.5 ± 2.0 95.0 ± 0.6 85.9 ± 0.8 40.9 ± 6.5 84.6 ± 2.8 96.0 ± 0.10GcGAN - vf 33.3 ± 4.2 95.2 ± 0.4 84.5 ± 1.5 31.6 ± 5.6 83.8 ± 3.0 95.9 ± 0.40+ SCC 37.0 ± 0.8 96.6 ± 0.3 91.8 ± 0.8 49.5 ± 4.9 87.8 ± 2.3 96.0 ± 0.10Cyc + rot + SCC 39.0 ± 0.5 96.5 ± 0.3 91.8 ± 1.0 50.5 ± 1.8 89.8 ± 0.5 96.1 ± 0.10Cyc + vf + SCC 44.6 ± 6.8 96.7 ± 0.3 92.0 ± 0.8 51.3 ± 5.4 89.0 ± 0.8 96.1 ± 0.10图像生成（例如，Cityscapes[7]），以及模拟到真实（例如，Maps[18]和GTA2cityscapes[45]）。因为这些基准测试具有翻译图像的真实标签，所以我们可以定量评估翻译模型是否引起了语义失真问题。此外，为了定性评估我们方法的翻译质量，我们还在Sel�e →Anime，Portrait → Photo，Horse →Zebra数据集上进行了实验。有效性和兼容性我们将我们的结构一致性约束（SCC）与普通的GAN相结合，以展示其有效性，并将SCC与一些流行的方法（如CycleGAN [73]，GcGAN [10]和U-GAT-IT[25]）相结合，以展示其兼容性。然后，我们与最近发表的无监督I2I翻译方法（例如CycleGAN [73]，GcGAN[10]，CoGAN [35]，SimGAN [48]，BiGAN[8]，DistanceGAN [3]，CUT[43]），基于VGG的上下文损失[39]，基于VGG的内容损失[12]，VGG特征的L1损失[39]，DRIT++ [32]，UNIT[33]，MUNIT [17]，AGGAN [58]和U-GAT-IT[25]进行了定性和定量比较。具体来说，当前的基线方法各有优缺点：一些基线在一个任务上表现良好，但在其他任务上表现不佳。例如，一些风格转换方法在无监督图像分割上表现不佳。因此，根据当前的文献，我们将我们的方法与每个应用的SOTA方法进行比较。敏感性我们通过改变GTA2cityscapes上的超参数λSCC进行敏感性分析。0在附录中，我们研究了我们的SCC对生成多样性A.2.2和训练稳定性A.2.3的影响。0我们对所有实验进行三次检查，并报告平均分数以减少随机误差。对于第2.2节中介绍的互信息估计器的实现，我们将超参数β设置为0.5（关于β的其他值的更多分析见附录A.2.1），并为输入图像x和翻译图像ˆy使用九个高斯核。然后，我们将我们的SCC应用于所有基线，并保持其他实验细节（包括基线中的超参数和网络）不变。由于页面限制，我们在附录A.6和A.7中提供了更多的实验细节和定性结果。03.1. 定量评估03.1.1 数字翻译0我们进行了三个数字I2I翻译任务：SVHN →MNIST，MNIST-M → MNIST和MNIST → MNIST-M2。模型在尺寸为32×32的训练集上进行训练，λSCC设置为20。我们采用分类准确率作为评估指标，并设计了两种评估方法：（1）我们在目标数据集的训练集上训练一个分类器。使用从源数据集的测试图像翻译而来的假图像来计算分类准确率。这种评估方法只能衡量翻译图像的质量。（2）在从源数据集的训练图像翻译而来的图像上训练一个分类器，并在目标数据集的测试集上测试该分类器的性能。这种评估方法可以同时衡量翻译图像的质量和分类准确率。02 参考 S → M，M-M → M 和 M → M-MCoGANBiGAN/ALI\\\0.190.060.02\\\SimGAN\\\0.200.100.04\\\DistanceGAN\\\0.530.190.11\\\GAN + VGG0.2160.0980.0410.5510.1990.13334.3828.148.8DRIT++0.4230.1380.071\\\32.1229.852.1GAN ∗0.3820.1370.0680.4370.1610.09833.2219.342.0+ SCC0.4870.1480.0890.6420.2150.15528.9138.661.8GcGAN-rot ∗0.4050.1390.0680.5510.1970.12927.9842.864.6+ SCC0.4450.1620.0800.6510.2280.16226.5544.766.5CycleGAN ∗0.2320.1270.0430.520.170.1126.8143.165.6+ SCC0.3860.1610.0760.5710.1920.13426.6144.766.2CUT ∗0.5460.1650.0950.6950.2590.17828.4840.161.2+ SCC0.5720.1850.110.6990.2630.18227.3439.260.5182540表2. GTA → Citycapes，Citycapes解析 → 图像和Photo →Map的定量分数。带有�的分数是使用作者提供的代码在单个GPU上复现的。更多的定性结果在附录A.7.2中给出。0方法 GTA → Citycapes Citycapes解析 → 图像照片 → 地图0像素准确率 ↑ 类别准确率 ↑ 平均IoU ↑ 像素准确率 ↑ 类别准确率 ↑ 平均IoU ↑ RMSE ↓ 准确率%( δ 1 ) ↑ 准确率%( δ 2 ) ↑0输入标签 GAN+SCC GAN+VGG CUT GcGAN DRIT++ CycleGAN CycleGAN+SCC0图6. GTA →Cityscapes上的无监督图像转换示例。生成的示例清楚地显示了我们的SCC可以缓解语义失真问题，例如，主流转换模型中的天空到树木/建筑物。附录A.7中给出更多示例。0和转换图像的多样性，但它是不稳定的3。我们每个实验进行五次以减少基于GAN的方法的随机性。得分在表1中报告。一般来说，通过加入我们的SCC，所有基线都显示出在准确性和稳定性方面的有希望的改进，特别是对于具有挑战性的任务S →M。图5显示了一些定性结果。附录A.6.1和A.7.1分别给出了更多细节和结果。03.1.2 Cityscapes中的分割0根据[10, 73]，我们使用Cityscapes[7]的3975个不对齐图像进行模型训练，分辨率为128×128。我们使用FCN分数和场景解析度量来评估域映射器，就像之前在[73]中所做的那样。具体来说，对于解析 →图像，我们使用由pix2pix [18]提供的预训练FCN-8s[36]从翻译图像预测分割标签图，然后使用解析度量（包括像素准确率、类别准确率和平均IoU）将其与真实标签进行比较。03 域自适应。源域图像具有标签，而图像到图像的转换则没有。0我们不报告DRIT++的分数，因为其网络规模太大，无法以128×128的分辨率进行实验，这与其他方法的公平比较结果。但其他数据集的结果仍然可以显示出我们的方法优于DRIT++的优势。如表2所示，如果进一步受到我们的SCC的限制，所有图像转换方法的结果都有所改进，这显示了我们的方法在减少语义失真问题上的有效性。特别是，与GcGAN相比，与SCC相结合的GcGAN在解析 →图像任务中取得了显著的改进。03.1.3 地图0Maps数据集[18]包含2194对航空照片-地图图像，其中1096对用于训练，1098对用于评估。对于评估，我们使用GcGAN [10]建议的阈值δ（δ1 = 5和δ2 =10）以及RMSE和像素准确率等指标。所有图像都调整为256×256的分辨率。根据[10,73]，网络细节与Cityscape的细节类似，但生成器包含9个具有256×256分辨率图像的res-blocks。182550输入 GAN+VGG CycleGAN Cycle+SCC U(light) U(light)+SCC 输入 GAN+VGG CycleGAN Cycle+SCC U(light) U(light)+SCC0图7.Sel�e→Anime，Portrait→Photo，Horse→Zebra数据集的定性结果。附录A.7.3中给出了更多的定性结果。我们可以看到，无论是个人身份识别还是马的形状，都由我们的SCC增强的翻译模型更好地保留了0结果如表2所示。与普通GAN相比，我们

下载后可阅读完整内容，剩余1页未读，立即下载