基于检测的无监督图像到图像翻译方法及其在对象检测的无监督域自适应中的应用

134 浏览量更新于2023-10-24 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DUNIT：基于检测的无监督图像到图像翻译Deblina Bhattacharjee，Seungryong Kim，Guillaume Vizier，MathieuSalzmann计算机与通信科学学院，EPFL，瑞士{deblina.bhattacharjee，seungryong.kim，guillaume.vizier，mathieu.salzmann}@ epfl.ch摘要图像到图像翻译近年来取得了长足的进步，目前的技术能够处理不成对的训练图像，并考虑到翻译问题的多模态。尽管如此，大多数方法将图像作为一个整体来处理，这使得它们为内容丰富的场景产生的结果不太真实。在本文中，我们介绍了一种基于检测的无监督图像到图像翻译（DUNIT）的方法，显式占的对象实例在翻译过程中。为此，我们为全局图像和实例提取单独的表示，然后将其融合到一个共同的表示中，从中生成翻译后的图像。这使我们能够保留对象实例的详细内容，同时仍然建模我们的目标是生成单个一致场景的图像我们引入实例一致性损失来保持检测之间的一致性。此外，通过将检测器纳入我们的架构，我们仍然可以在测试时利用对象实例。正如我们的实验所证明的那样，这使我们能够超越最先进的无监督图像到图像翻译方法。此外，我们的方法也可以用作对象检测的无监督域自适应策略，并且在此任务上也实现了最先进的性能。1. 介绍图像到图像转换（I2I）最近获得了显著的吸引力，以至于被部署在各种应用中，例如超分辨率[20]，照片级逼真的图像合成[37，29]，彩色化[19，41]和域自适应[2]。这一趋势是由Pix2Pix的先驱工作[15]发起的，该工作在成对的训练图像上使用了条件生成对抗网络（GAN）[27]。从那时起，在这个领域取得了很大的进展，首先通过消除对训练图像进行配对的要求，导致cycleGAN [45]和UNIT [25]，然后通过考虑I2I任务的固有多模态，包括配对[44]和未配对[12，22]图像。双线性采样全局样式输入样式图像全球内容发生器实例1内容实例2内容实例3内容合并的特征图输入内容图像转换的图像图1：DUNIT概述。(Top)我们将一个域的样式与另一个域的图像级和实例级内容相分别提取实例级和图像级特征，并进行融合以生成单个一致性图像。(Bot-tom）通过考虑实例，我们的方法比图像级翻译技术（如UNIT [25]和DRIT [22]）产生更逼真的结果。虽然这些方法已经证明了有前途的结果，他们都认为I2I任务作为一个全球的翻译问题，在整个图像。因此，它们在翻译具有许多不同对象实例的内容丰富的图像的能力方面仍然受到限制INIT [34]和Insta-GAN[28]通过分别处理对象实例和全局图像/背景来解决这个问题Insta-GAN的目标是在调用实例时保留背景样式，而INIT的目标与我们相同，并且与前面的方法一样，即转换整个图像。为了实现这一点，INIT独立地转换全局图像和实例，在这些不同的元素上使用单独的重建损失。在测试时，INIT只使用此外，INIT没有使用实例提升的特征表示，其由下式示出：47874788E例如-水平双线性残差采样块X检测子网E全局样式池化埃什E全局样式池化YEEX全球I2I翻译实例感知I2I转换全局级残差块全局级残差块合并特征图检测子网GT图2：总体DUNIT架构。右侧的实例感知I2I转换块是域X中的夜间图像和对应的转换后的白天图像之间类似地，全局I2I转换块反映了域Y中的白天图像与其转换的夜晚图像之间的操作。蓝色背景将我们的贡献与我们的工作所基于的DRIT [22]骨干粉色线对应于域X，黑色线对应于域Y。全局级残差块在域X和域Y中具有不同的特征，因此被不同地颜色编码。域X中的全局特征以深蓝色示出，域Y中的全局特征以深灰色示出，损失以绿色示出，全局操作以浅橙色示出，域X中的实例特征以黄色示出，检测子网络以浅蓝色示出，合并特征以深橙色示出。图2中的合并特征图。在本文中，我们介绍了一个框架，在计算对象实例的同时，将它们的翻译与全局图像的翻译统一起来，如图1所示，因此实例也可以在测试时被利用。为此，我们将一个对象检测器内的I2 I architec- ture，处理的实例功能和图像的分开，并重新组装所得到的表示在一个联合，我们解码成一个单一的图像。分别处理这些特征使我们能够考虑不同对象和背景的详细和多样的内容，但融合实例级和图像级表示模型的事实是，我们的为了进一步利用训练过程中的检测，我们引入了实例一致性损失，它将原始图像中的检测与翻译图像中的检测进行比较。在测试时，我们遵循与训练期间相同的过程，包括检测对象实例，独立于全局图像处理它们，并融合结果表示以生成最终图像。因此，我们的主要贡献如下：• 我们通过引入-使用基于检测的转换方法，该方法在分别处理对象实例和全局图像的同时，融合它们的表示，以便产生单个一致的图像。• 我们引入了一个实例一致性损失，它通过对原始图像和翻译图像中的检测应该一致的直觉进行建模，进一步利用训练期间的实例。• 通过将检测器纳入体系结构，我们明确的原因，不仅在训练，而且在测试时的实例• 在训练期间，我们只需要访问单个域中的地面实况检测。因此，我们的方法也可以被认为是执行无监督的主适应对象检测。我们在标准INIT，Pascal-VOC类[7]，Comic 2k [14]，cityscapes [4]和KITTI [9]基准上的实验表明，我们的方法优于最此外，我们证明了我们的方法也优于最先进的无监督域自适应检测算法。47892. 相关工作2.1. 图像到图像翻译I2I翻译方法的出现始于条件GAN的发明[27]，其首次应用于学习Pix2Pix中的源和目标域之间的映射[15]。从那时起，条件GAN已被应用于许多任务，例如场景转换[13]，季节转换[25]和草图到照片转换[35]。虽然条件GAN产生了令人印象深刻的结果，但它们在训练过程中需要成对的图像。不幸的是，在许多I2I翻译场景中，收集这种配对的训练数据是困难和昂贵的。为了克服这一点，cycleGAN [45]在源域和目标域之间引入了循环一致性损失，遵循将图像从源域转换到目标域然后再转换回源域应该产生一致图像的直觉。UNIT [25]进一步扩展了这个想法，它用域共享的单个潜在空间取代了cycle- GAN的域特定潜在空间。然而，无论是条件GAN，还是cycleGAN，也不是UNIT都不能解释I2 I翻译的多模态;一般来说，一个域中的单个图像可以以许多不同但同样真实的方式转换为另一个域。这是BicycleGAN [44]解决的任务，但在训练过程中利用配对图像。最近，MUNIT [12]和DRIT[22]通过学习具有域不变内容空间和特定于域的属性/样式空间的解纠缠表示，引入了多模态，不成对场景的解决方案。虽然有效，但所有上述方法都执行图像级翻译，而不考虑对象实例。因此，当翻译具有许多对象的复杂场景（例如交通场景）时，它们往往产生不太真实的结果。InstaGAN [28]是第一个解决实例级翻译的工作为此，InstaGAN将两个感兴趣域中的对象在这里，相比之下，我们的目标是翻译整个图像，对象的立场和背景包括在内。这也是INIT [34]提出的任务，它建议定义一个样式库来分别翻译实例和全局图像。然而，在训练过程中，INIT完全独立地处理对象实例和全局图像，每个实例都有自己的重建损失。因此，在测试时，它根本不利用对象实例，因此返回到图像级翻译。在这里，我们建议统一图像及其实例的翻译，从而允许我们在测试时利用对象实例。正如我们的实验所示，这将导致更真实的翻译，并进一步允许我们执行无监督的域自适应。图3：合并全局和实例级特性。我们使用双线性采样[16]将每个对象的实例级特征定位在全局特征映射中的相应位置。然后，我们将此表示与全局表示合并，本质上是通过在对象位置处重新定义全局特征。2.2. 域适应在计算机视觉中已经广泛地研究了域自适应，例如，多核学习[5，6]、子空间对齐[8]和协方差矩阵对齐[38]。最近，I2I翻译也被用于此任务[17，40，39，43，11，3，23]。相比之下，关于对象检测的域自适应的文献仍然较稀疏[26，1]，因为该任务由于其附加的本地化属性而本质上更具挑战性。在[39]中，引入了基于自适应支持向量机的基于可变形部分的模型，以克服对象检测的域偏移。最近，[30]使用子空间对齐将基于区域的卷积神经网络（RCNN）[10]从两个域中提取的特征转换为公共表示。然而，这些方法不是端到端可训练的。这在 [2]中通过域自适应 Faster-RCNN对象检测网络推理在图像和实例级别联合此外，弱监督跨域自适应论文[14]介绍了一个域转移阶段，其中对cycleGAN生成图像的检测此外，在[18]中，引入了一种域自适应表示学习技术所有这些方法都使用Faster-RCNN [31]作为检测器，以在全局水平上适应域之间的差异当我们联合利用全局图像和对象实例时，我们以I2I转换形式主义这样做，我们将证明它会产生更好的结果。4790XyXXyXXy3. 方法3.1. 问题表述和概述我们的目标是学习两个视觉域XRH×W×3和YRH×W×3之间的多模态映射，共同解释了全局图像和-X中的对象姿态为此，我们在DRIT的基础上构建我们的方法埃什TL埃什br阿TL埃什TL阿br埃什brY实例一致性backbone [22]，它处理多模态但不推理实例。我们的体系结构如图2所示.我们假设，在训练期间，我们可以访问单个域X中的地面实况边界框，即，图2中的夜晚。然而，在测试时，我们不需要访问地面实况对象边界框;我们的网络会预测到它们。现在我们来解释一下图4：实例一致性损失的可视化，其是域X和Y中检测到的边界框的左上像素之间的l1距离与域X和Y中检测到的边界框的右下像素之间的l1距离的总和。{Fi}表示以这种方式获得的特征图的集合我们的网络更详细。Xi3.2. 图像到图像翻译模块我们的架构包括2风格的编码器{Es，Es}，每个域一个，3个内容en-其中每个对象实例有一个特征图Fx代替以与INIT中类似的分别解码图像级特征Fx和实例级特征{ F i }，这里我们提出将它们融合以便获得一个单一的表象，我们可以解码成一个骗局X y编码器{Ec，Eci，Ec}，二是用Gy对全局图像进行处理。为了实现这一目标，我们需要重新--X x y在每个域（Ec，Ec）中，和另外一个域（Eci），在各自的位置x y x域X中的实例。现在让我们考虑域Y，我们没有实例。我们使用Ec从域Y中的图像Iy中提取全局内容特征，然后将其与使用Es从域X中的图像Ix中提取的风格特征合并。然后，所得到的表示通过解码器Gx，该解码器G x生成Iy到域X的平移。在标准DRIT框架中，这个过程被镜像为从域X到域Y。3.3. 对象检测模块我们的目标是考虑对象实例。为此，我们首先使用检测子网络检测Ix中的对象实例，然后并行处理全局图像和对象实例，然后融合它们的表示并使用解码器Gy实现到域Y的翻译。具体来说，在图像级别，我们使用Ec从Ix中提取全局内容特征，并将这些特征与使用Es从Iy中提取的样式特征合并。这是使用图2中描绘的全局级残差块来实现的，其架构遵循DRIT [21]中使用的残差块的架构。让我们用Fx表示从该操作产生的全局特征图。在我们提取Fx的同时，我们还处理每个单独的对象检测。为此，对于每个实例i，在全球特征地图中。该过程如图3所示。本质上，我们利用[16]中引入的双线性采样策略将实例特征放置在与Fx大小相同的映射中，然后通过简单地将映射中非空位置处的Fx中的特征替换为映射中的特征来将该映射与Fx3.4. 培训为了能够处理未配对的训练图像，我们遵循循环一致性方法，并将生成的图像转换回其原始域。本质上，该过程反映了上述过程;它使用这些实例返回到域X，并在全局图像级上动作以生成域Y图像。下面，我们详细介绍了所得到的基于检测的无监督图像到图像翻译（DUNIT）模型的损失函数和训练过程Image-to-Image translationmodule.我们方法是建立在DRIT主干上的，它将输入图像嵌入到共享样式空间和特定于域的内容空间中。因此，我们对两种风格编码器（Es，Es）使用与DRIT相同的权重共享策略，并利用相同的损失项。它们包括：• A内容对抗损失L内容（Ec，Ec，Dc）依赖于-advx y我们首先裁剪相应的图像区域，这可以以ROI池化方式完成，并使用Eci提取实例级内容特征。然后我们将这些特征在内容分类器c上进行操作，其目标是区分两个域的内容特征;与从I中提取的全局汇集的样式特征• 域对抗损失Lx（Ec，Es，Gx，Dx）和y advy x使用图2所示的实例级残差块，Ly （E c，E ci，E s，G y，D y），每个域一个，advx x y其架构与全局级架构相同。设具有对应的域分类器Dx和Dy;阿TL阿br4791X1x x y xy后x xx伊特尔• 一个跨周期一致性损失Lcc（Gx，Gy，Ec，Eci，Ec，Es，Es）的利用解开的内容和风格表示进行循环重建[36];4. 实验和结果4.1. 无监督图像到图像翻译为了验证我们的方法，我们进行实验上的• 自重构损耗Lx（Ec，Eci，Es，Gx）和[34]这是一个非常多样化和复杂的数据集y c s中国x x xing数据集。在DRIT之后，我们调整Lrec（Ey，Ey，Gy）确保发电机可以重新启动，从自己的领域中构建样本;数据集到216×216，以考虑GPU的限制。我们使用4个GPU来训练我们的模型，批量大小为16。评估-• KL损失Lx （Es）和Ly （E）鼓励我们将其与以下五种状态进行比较：KLxKLy使所述样式表示的分布接近于标准正态分布;• 潜在回归损失Lx（Ec，Eci，Es，Gx）和最先进的不成对I2I翻译方法。• CycleGAN [45]，包括源和目标之间的向前和向后翻译功能，Ly（Ec，Es，Gy），促进了拉伊潜在的风格表现和形象，vertible。注意，与DRIT相反，在这里，这些损失项中的若干项利用实例内容编码器Eci。目标检测模块。除了上面列出的所有DRIT损失之外，我们还引入了一个新的实例一致性损失，它显式地对检测到的对象进行推理。这种损失背后的直觉是，在Ix和平移后的相应图像中应该检测到相同的对象实例。强制执行两个图像中的检测之间的一致性提出了如何匹配这些检测的问题。为了克服这一点，我们利用一个现代化的检测器，依赖于固定的检测锚。由于锚点的然后，我们的目标是在两个图像中的相同锚点处的阳性检测对应于相同的对象，因此具有相同的边界框。最后，我们定义了实例一致性损失得到域与一个对抗性的损失。• UNIT [25] 通过使用共享的潜在空间改进了CycleGAN，包括两个VAE-GAN和一个循环一致性损失。• MUNIT [12]，它假设图像表示可以分解为域特定样式表示和域不变内容表示，并交换这些分解的内容/样式潜在特征以生成翻译。• DRIT [22]，它与MUNIT非常相似，除了它在两个域中都包含生成器和域鉴别器，以及两个内容编码器和两个风格编码器。• INIT [34]，它建立在MUNIT主干上，并考虑实例级样式转换以及全局转换。它使用跨周期一致性丢失、全局和实例级GAN丢失以及ΣLic=Σ|P xi− P yi|+的|、|,全局和实例级重建丢失。1TL 我|y=1y=1TL1br我|y=1y=1BR1我我我（一）我们在PyTorch中实现了我们的方法，代码可在https://github.com/IVRL/DUNIT上获得。其中y=x=1指示锚i被预测为pos。我它在域X中，并且类似地在域Y中，Pyi是do中的锚i的边界框左上像素为了评估这些方法，我们使用以下三个标准的性能指标。TLXIY主X和域Y，并且Pbr和Pbr是对应的右下像素。在我们的实验中，我们使用了 RetinaNet 检测器[24]。我们采用[24]的焦点损失进行实例检测。焦点损失进一步引入参数α来抵消类别不平衡。在我们的实验中，我们使用α= [0。25，0。[5]如[24]，γ= 2。我们将在实验中研究这些参数的影响。请注意，我们将RetinaNet应用于Ix及其在域Y中的翻译版本。因此，我们在这两种情况下都使用焦点损失，这进一步鼓励转换后的图像在与输入图像相同的位置包含对象实例，因为在训练期间，我们将所有检测与地面实况边界框进行比较。• Inception Score（IS）[33]，它对所有翻译输出的多样性进行编码。• 条件初始评分（CIS）[12]，它对以单个输入图像为条件的翻译输出的多样性进行编码，通常用于多模态方法。• LPIPS距离[42]，它衡量翻译图像的多样性，并已被证明与人类感知密切相关。为了计算这个指标，按照[34]中使用的设置，我们从100个输入测试图像中随机抽取19对翻译输出。4792CycleGAN[45]UNIT[25]MUNIT[12]DRIT[22][第34话]DUNIT是独联体是独联体是独联体是独联体是独联体是独联体阳光明媚1.0261.0231.0731.0901.0971.0330.0140.0120.0110.0100.0140.0901.0301.0241.0751.0231.1341.0460.0820.0270.0970.0140.0810.2191.2781.0511.1461.1021.0951.3211.1591.0361.0121.0551.0081.0261.2241.0991.2071.1031.1041.2491.0581.0241.0071.0281.0251.0461.1181.0801.1521.1191.1421.4601.0601.0451.0361.0601.0401.0161.2591.1081.2251.1251.1491.4721.1661.0831.0291.0831.0331.077→夜晚晚上→阳光明媚阳光明媚→下雨阴雨→阳光明媚阳光明媚→多云多云→阳光明媚平均1.0570.0251.0550.0871.1661.0321.1641.0311.1791.0431.2231.079表1：我们的方法与INIT数据集上的最新技术的定量比较。我们报告了初始评分（IS）和条件性初始评分（CIS）（越高越好）。具有实例一致性损失（IC）的DUNIT给出了最佳结果。方法结果的多样性（LPIPS距离）晴天→夜晚晴→雨晴→多云平均UNIT [25]0.0670.0620.0680.066CycleGAN [45]0.0160.0080.0110.012MUNIT [12]0.2920.2390.2110.247DRIT [22]0.2310.1730.1660.190[第34话]0.3300.2670.2240.274DUNIT0.3380.2980.2250.287真实图像0.5730.4890.4650.509表2：我们的方法与最先进的图像多样性的定量比较在[21]之后，我们报告了LPIPS度量。请注意，DUNIT产生最高的多样性得分。图5：晴天到黑夜的定性比较。我们从左到右显示了源域中的输入图像，cycleGAN [45]和UNIT [25]的结果，以及MUNIT [12]，DRIT [22]和DUNIT（我们的）的随机输出。我们在表 1 中提供了 IS 和 CIS ，在表 2 中提供了LPIPS。DUNIT在所有域对和所有指标上都优于基线，除了在Sunny→Night上的IS，MUNIT的得分略平均而言，我们的表现比基线高出一个COM-fortable margin，包括INIT，它也利用了对象实例。在图5中，我们定性地比较了不同的方法。请注意，DUNIT产生的图像比基线更清晰、更真实。我们没有将INIT包括在这个定性比较中，因为它的代码不是公开的。消融研究。我们现在评估我们的方法的不同方面。首先，我们研究了实例一致性损失的影响。为此，我们比较了结果ob-4793使用我们的方法获得实例一致性损失（DUNIT w/IC）和没有它（DUNIT w/o IC）。我们在表3中报告了来自INIT数据集的三对域上的LPIPS距离以及IS和CIS 度量。请注意，IC损失始终改善所有对上的DUNIT结果这证明了约束翻译图像中的内容以保留输入图像中的我们认为这是一个更普遍的现象，辅助任务可以帮助改善翻译过程。然后，我们转向探索-ING在我们的体系结构中的检测子网的选择。除了在我们以前的实验中使用的RetinaNet之外，我们还评估了Faster-RCNN。注意，在这种情况下，检测不是成对的，我们不能使用4794我我我我我我输入样式图像MUNIT DRIT DUNIT图6：定性比较条件下的一个图像风格为晴天多云（第一行）和晴天下雨（第二行）。我们从左到右显示源域中的输入图像，用于翻译的样式图像，然后分别显示MUNIT [12]，DRIT [22]和DUNIT（我们的）的输出。我们只显示多峰结果，因为它们比单峰方法（如CycleGAN [45]和UNIT [25]）表现得更好，如图5所示。Effect of the IC lossw/Licw/oLicw/Licw/oLicLPIPS LPIPS 是独联体是独联体晴至0.338夜间0.3221.2591.1661.2161.049晴至0.298多云0.2521.2251.0291.1381.002晴至0.225多云0.2031.1491.0331.1081.009平均值0.2870.2591.2111.0761.1541.020表3：消融研究：我们比较了我们的方法与立场一致性损失（DUNIT W/LIC）和没有它（DUNIT W/O LIC）。我们报告了LPIPS距离、起始评分（IS）和条件性起始评分（CIS）。图7：使用RetinaNet（中），Faster-RCNN（右）对输入日图像（左）的预测检测。请注意，RetinaNet的mAP越高，实例翻译效果越好。IC损失此外，使用RetinaNet，我们评估了α∈[0，1]和γ∈ {1，2}的不同超参数设置。从表4中，我们可以看到α = 0的RetinaNet。25γ= 2给出了测试域上的最佳IS和CIS。在保持γ= 2的同时改变α会产生非常接近的结果，但将γ减小到1会导致分数降低尽管如此，RetinaNet始终优于Faster-RCNN。在图7中，我们定性地比较了RetinaNet和Faster-RCNN，以及它们对翻译图像的影响;RetinaNet的更高检测准确性转化为更高质量的图像。请注意，我们使用Faster-RCNN检测器的方法性能相对较低是由于检测器本身。特别是，Faster-RCNN是一个两阶段检测器的事实阻止了完整的端到端训练，并意味着原始图像和转换图像中的区域这导致检测的鲁棒性低于RetinaNet，我们观察到这些非鲁棒性检测阻碍了训练期间实例一致性损失的最终，这导致在全局特征图中包含不正确的实例信息，从而产生比使用可以端到端训练并依赖于自然配对的锚点的RetinaNet时更差的结果。这表明，我们的方法的结果取决于检测器，但最先进的单级检测器已经达到了足够的精度，使我们优于全局图像平移。4.2. 无监督域自适应检测我们进一步测试我们的方法的任务，无监督域适应对象检测。我们使用最先进的方法作为基线来解决这个任务，即域自适应Faster RCNN [2]，[14]的域转移阶段，[18]的移位域阶段和[32]的特征一致性阶段的风格转移。我们在不同的数据集上进行实验，包括PascalVOC类[7]作为源域，Comics2K [14]作为目标域，Kitty对象检测基准[9]作为源域，Cityscapes [4]作为目标域。我们遵循与[18]中相同的数据准备和相同的实验设置。请注意，源域和目标域之间的类间方差和数据分布的巨大差异使得这些数据集对于合成非常具有挑战性。在表5中，我们报告了平均平均前-4795对象检测方法更快-RCNNRetinaNetα = 0。25岁γ= 2RetinaNetα = 0。五十γ= 2RetinaNetα = 1。0，γ = 1。0是独联体是独联体是独联体是独联体晴天→夜晚1.2231.0581.2591.1661.2551.1631.2301.104晴→雨1.2081.0081.2251.0291.2231.0251.2131.017晴→多云1.1041.0251.1491.0331.1441.0311.1131.027平均1.1781.0301.2111.0761.2071.0731.1851.049表4：消融研究：我们比较了我们的方法（DUNIT）与不同的对象检测子网络（Faster R-CNN或RetinaNet）结合使用。对于RetinaNet，我们报告了使用不同超参数α和γ值获得的结果。我们报告了初始评分（IS）和条件性初始评分（CIS）。我们使用α= 0。25和γ= 2，对于我们的最佳模型。图8：定性领域适应结果。我们使用DUNIT将Pas- cal VOC图像转换到Comics 2k域，并将在原始Comics 2k数据上训练的检测器应用到trans-vector中。我DUNIT不带Lic56.2 59.5 24.9 48.2 47.2lated图片（左）输入图像、（中）转换图像和（右）检测。我我表5：领域适应任务的定量比较。我们报告两对域的mAP。DT是[14]中的域转移阶段，RNN是域自适应快速rcnn方法[2]，DARL是域自适应表示学习方法[18]。在表6中，我们详细介绍了KITTI→Cityscapes案例的每类平均精度（AP）。进一步-更多，在图。8、我们展示了VOC→漫画案例的定性检测实例。在这组实验中，我们使用Faster-RCNN [31]作为翻译输出的检测器因为所有上述基线都依赖于这个检测器。请注意，我们的模型显著优于基线。请注意，上述基线中提出的鲁棒伪标记技术可以并入我们的方法中，并且可以进一步提高性能。此外，所有班级的差距都是一致的。这表明，用我们的方法在域之间翻译图像比学习域不变表示更有效。我表6：KITTI→Cityscapes适应情景的每类平均精度的定量比较。5. 结论我们已经介绍了一种方法来考虑对象实例时，域之间的图像翻译。为此，我们建议分别处理实例和全局图像，但将它们各自的表示融合，以便生成单个一致的图像。这使我们能够翻译内容丰富的图像，从而产生在数量上优于最先进的I2I翻译算法的逼真图像。通过在训练过程中只需要访问单个域的地面实况对象边界框，我们的方法还允许我们执行对象检测的无监督域自适应，再次产生最先进的结果。在我们的I2I翻译实验中，我们的实例一致性损失已被证明是重要的，以获得现实的结果。然而，我们相信这种损失只是一个更广泛的想法的一个实例：人们可以强制任何辅助任务的输出之间的一致性，以帮助I2I翻译过程。因此，在未来，我们将研究其他辅助任务的使用，例如实例分割，表面深度和法线预测以及对象姿态估计。谢谢。这项工作得到了瑞士国家科学基金会通过Sinergia基金CRSII5−180359的部分支持。方法Pers.车特鲁克比克地图[14]28.540.725.929.731.2[2]39.240.225.748.938.5DARL [18]46.458.727.049.145.3DAOD [32]47.359.128.349.646.1DUNIT w/Lic60.765.132.757.754.1方法VOC→漫画KITTI→城市[14]23.531.2[2]23.238.5DARL [18]34.545.3DAOD [32]36.446.1DUNIT w/Lic40.254.1DUNIT不带Lic39.447.24796引用[1] Fabio Maria Carlucci，Lorenzo Porzi，Barbara Caputo，Elisa Ricci，and Samuel Rota Bulgaret.自动拨号：自动域对齐图层。CoRR，abs/1704.08082，2017年。3[2] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.域自适应更快的R-CNN用于野外目标检测。CoRR，abs/1803.03243，2018。一、三、七、八[3] 陈云春，林燕玉，杨铭轩，黄家斌。Crdoco：具有跨域一致性的像素级域转移，2020年。3[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。二、七[5] Lixin Duan，Ivor Tsang，and Dezhi Xu. 域转移多核学习。IEEE Transactions on Pattern Analysis and MachineIntelligence，34：1- 1，2011年5月。3[6] Lixin Duan，Dong Xu，Ivor Wai-Hung Tsang，and JieboLuo.通过从网络数据学习的视频中的视觉事件识别。IEEE Transactions on Pattern Analysis and MachineIntelligence，34（9）：1667-1680，2011。3[7] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303二、七[8] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。在Proceedings of the IEEE international conferenceon computer vision，pages 2960-2967，2013中。3[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。二、七[10] 罗斯湾 Girshick ， Jeff Donahue ， Trevor Darrell ， andJitendra Malik.丰富的特征层次结构，用于精确的对象检测和语义分割。CoRR，abs/1311.2524，2013年。3[11] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。Cycada：周期一致的对抗性结构域适应。ICML，abs/1711.03213，2018。3[12] 黄勋刘明宇Serge J. Belongie和Jan Kautz。多模态无监督图像到图像翻译。ECCV，abs/1804.04732，2018。一、三、五、六、七[13] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM Transactions onGraphics，36：1-14，2017年7月。3[14] Naoto Inoue ， Ryosuke Furuta ， Toshihiko Yamasaki ，and Kiyoharu Aizawa.通过渐进域自适应的跨域弱监督对象检测CoRR，abs/1803.11365，2018。二三七八[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。CoRR，abs/1611.07004，2016。第1、3条4797[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu. 空间 Transformer 网络。 CoRR ，abs/1506.02025，2015年。三、四[17] Taeksoo Kim 、 Moonsu Cha 、 Hyunsoo Kim 、 JungKwon Lee和Jiwon Kim。学习发现跨域关系与生成对抗网络。CoRR，abs/1703.05192，2017。3[18] Taekyung Kim 、 Minki Jeong 、 Seunhyeon Kim 、Seokeon Choi和Changick Kim。多样化和匹配：一种用于目标检测的领域自适应表示学习范例。CoRR，abs/1905.05396，2019。三、七、八[19] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。CoRR，abs/1603.06668，2016。1[20] ChristianLedig ， Lucas Theis ， Ferenc Huszar ， JoseCaballero ， Andrew P. Aitken ， Alykhan Tejani ，Johannes Totz，Zehan Wang，and Wenzhe Shi.使用生成对抗网络的照片级真实感单幅图像超分辨率。CoRR，abs/1609.04802，2016。1[21] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的图像到图像的翻译 CoRR ，abs/1808.00948，2018。四、六[22] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的2018年欧洲计算机视觉会议。一、二、三、四、五、六、七[23] 李云生，陆远，努诺·瓦斯康塞洛斯。语义分割领域适应的双向学习，2019。3[24] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，and Piotr Dollár.用于密集对象检测的焦点损失。CoRR，abs/1708.02002，2017。5[25] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。CoRR，abs/1703.00848，2017年。一、三、五、六、七[26] 卢昊，张磊，曹志国，魏伟，柯贤，沈春华，安东·范登亨格尔 . 当无监督域自适应满足张量表示时。CoRR，abs/1707.05956，2017年。3[27] Mehdi Mirza 和 Simon Osindero 条件生成对抗网。CoRR，abs/1411.1784，2014。第1、3条[28] Sangwoo Mo Minsu Cho和Jinwoo Shin。 Insta- gan：实例感知的图像到图像转换。CoRR，abs/1812.10889，2018。第1、3条[29] Taesung Park，Ming-Yu Liu，Ting-Chun Wang，Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。

下载后可阅读完整内容，剩余1页未读，立即下载