无监督域自适应中的跨域一致性的像素级域传输算法

71 浏览量更新于2023-10-20 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1791CrDoCo：具有跨域一致性的像素级域传输陈运春1，2林燕玉1杨铭宣3，4黄家斌51中研院2国立台湾大学3加州大学默塞德分校4谷歌5弗吉尼亚理工大学标记的示例（源域）输入（目标域）输出图1：所提出的方法的应用。我们的方法的应用范围从语义分割（顶行），深度预测（中间行），光流估计（底行）。摘要无监督域自适应算法旨在将从一个域学习到的知识转移到另一个域（例如，合成到真实图像）。适应的表示通常不捕获对于密集预测任务至关重要的像素级域偏移（例如，语义分段）。在本文中，我们提出了一种新的逐像素的adversar- ial域自适应算法。通过利用图像到图像的翻译方法进行数据增强，我们的关键见解是，虽然域之间的翻译图像我们利用这个属性，并引入一个跨域的一致性损失，强制我们的适应模型产生一致的预测。通过大量的实验结果，我们表明，我们的方法相比，有利地对各种各样的unsupervised域适应任务的最先进的。1. 介绍深度卷积神经网络（CNN）非常需要数据。然而，对于许多密集预测任务（例如，语义分割、光流估计和深度预测），收集具有像素级注释的大规模和多样的数据集是困难的，因为标记过程通常是昂贵的和劳动密集的（参见图1）。开发可以传递从一个标记数据集（即，源域）到另一个未标记的数据集（即，靶域）因此变得越来越重要。然而，由于域移位问题（即，源数据集和目标数据集之间的域差距），学习的模型常常不能很好地推广到新的数据集。为了解决这些问题，已经提出了几种无监督域自适应方法来调整源域和目标域之间的数据分布。现有方法要么应用特征级[39，26，44，42，15，14]光流语义分段深度预测1792或像素级[1，36，7，14]自适应技术，以最小化源和目标数据集之间的域间隙然而，对齐边缘分布并不一定导致令人满意的性能，因为没有明确的约束施加在目标域中的预测上（因为没有标记的训练示例可用）。虽然已经提出了几种方法来缓解这个问题，通过课程学习[34，6]或自定进度学习[53]，不同风格的图像分割网络预测问题仍然具有挑战性，因为这些方法只能从当前模型表现良好的情况中学习。我们的工作。在本文中，我们提出了CrDoCo，一个像素级的对抗域适应算法的密集预测任务。我们的模型由两个主要模块组成：1）图像到图像转换网络和2）两个域特定任务网络（一个用于源，另一个用于目标）。图像翻译网络学习将图像从一个域翻译到另一个域，使得翻译后的图像具有与翻译后的域中的图像相似的分布。域特定任务网络将源/目标域的图像作为输入来执行密集预测任务。如图2所示，我们的核心思想是，虽然两个不同领域中的原始图像和翻译图像可能具有不同的风格，但它们在各自领域特定任务网络中的预测应该完全相同。我们使用跨域一致性损失来强制执行此约束，该跨域一致性损失提供了额外的监督信号以促进网络训练，从而使我们的模型能够产生一致的预测。我们展示了我们的方法在无监督域自适应设置中对多个不同任务的适用性。我们的贡献。首先，我们提出了一种用于无监督域自适应的对抗学习方法，该方法适用于广泛的密集预测任务。其次，我们提出了一种跨域一致性损失，为网络训练提供额外的监督信号，从而实现更准确和一致的任务预测。第三，大量的实验结果表明，我们的方法实现了国家的最先进的性能对现有的无监督域自适应技术。我们的源代码可以在https://yunchunchen.github.io/CrDoCo/上找到2. 相关工作无监督域自适应。无监督自适应方法可分为两类：1）特征级自适应和2）像素级自适应。模型级自适应方法旨在通过测量相关距离[39]、最小化最大平均差异[26]或在特征中应用对抗性学习策略[44，42]来图2：主要思想。虽然图像在不同的域中可能具有不同的外观/风格，但是它们的任务预测（例如，如该示例中所示的语义分割）应该完全相同。我们在本文中的核心思想是施加两个任务预测之间的跨域一致性损失。空间在图像分类的背景下，已经开发了几种方法[10，11，26，27，43，44]来解决域偏移问题。对于语义分割任务，现有方法通常在多个级别上对齐特征激活的分布[15，17，42]。最近的进步包括应用类对抗学习[4]或利用自定进度的学习策略[53]来适应合成到真实或跨城市的适应[4]，采用电流学习来适应合成到真实的雾场景[34]，或逐步适应模型从白天场景到夜间[6]。另一条研究线集中在像素级自适应上[1，36，7]。这些方法通过图像到图像转换[1，36]或样式转移[7]方法在目标域中执行数据增强来解决最近，许多方法解决了图像分类[14]、语义分割[14]和单视图深度预测[48]任务中的联合特征级和像素级自适应这些方法[14，48]利用图像到图像转换网络（例如，CycleGAN [51]）以利用像素级自适应将图像从源域转换到目标域。然后将翻译后的图像传递到任务网络，然后进行特征级对齐。虽然已经探索了特征级和像素级适应，但在不对目标预测实施明确约束的情况下对齐边缘分布不一定会导致令人满意的性能。我们的模型建立在现有的特征级和像素级自适应技术的基础上[14，48]。关键的区别在于我们的跨域一致性损失，它明确地惩罚了任务网络的不一致预测。周期一致性。循环一致性约束已成功地应用于各种问题。在图像到图像的转换中，强制执行循环一致性允许网络在没有配对数据的情况下学习映射[51，22]。一致性损失图像平移1793AdvAdv在语义匹配中，基于循环或传递性的一致性损失有助于正则化网络训练[50，49，3]。在运动分析中，前后一致性检查可用于检测遮挡[28，20，52]或学习视觉对应[45]。与上述方法类似，我们表明，强制执行两个特定于域的网络来产生一致的预测，会大大提高性能。从合成数据中学习。在大规模合成数据集上训练模型已经在语义分割中得到了广泛的研究[41，42，15，14，7，17，34，35，[18]第18话，我的第一次。流[40，19，21]，非模态分割[16]和对象检测[7，30]。在我们的工作中，我们表明，建议的跨域一致性损失不仅可以适用于翻译的图像和相应域中的图像。其次，重建损失L重新正则化图像平移网络GS→T和GT→S，以在从一个do平移图像时执行自重建。main到另一个，然后是反向翻译。第三，特征级对抗性损失Lfeat将翻译图像的特征表示与相同域中的图像的特征表示之间的分布对齐。第四，任务损失L任务引导两个特定领域的任务网络F S和F T执行密集预测任务。第五，跨域一致性损失Lconsis对任务预测施加一致性约束。这种跨域损失在训练期间耦合两个域特定任务网络FS和FT，并为未标记的目标域图像IT及其转换的目标域图像IT→S提供监督信号。具体地，训练目标L被定义为：从合成到真实的适应，而是真实到真实的适应任务也是。L=Ltask+λconsis·Lconsis+λrec·Lrec（一）+ λimg· Limg+λfeat·Lfeat，advadv3. 方法在本节中，我们首先概述我们的方法。然后，我们描述了所提出的损失函数，用于在密集预测任务上执行跨域一致性最后，我们描述了其他损失，通过促进网络训练。3.1. 方法概述我们认为任务的无监督域适应密集的预测任务。在此设置中，我们假设我们可以访问源图像集XS、源标签集YS和未标记的目标图像集XT。我们的目标是学习一个任务网络FT，它可以可靠而准确地预测目标域中每个图像的密集标签。为了实现这个任务，我们提出了一个端到端的可训练网络，它由两个主要模块组成：第一章图像转换网络GS→T和GT→S; 2）两个领域特定任务网络FS和FT。那个...年龄翻译网络将图像从一个域翻译到另一个域。域特定任务网络获取输入图像以执行感兴趣的任务。如图3所示，所提出的网络将来自源域的图像IS和来自目标域的另一图像IT作为输入。我们首先使用图像翻译网络，以获得相应的翻译其中，λconsis、λrec、λimg和λfeat是用于控制相应损失项的相对重要性的超参数。下面我们将详细介绍每个损失函数。3.3. 跨域一致性损失由于我们在目标域中没有标记数据，为了让我们的模型在未标记数据上产生准确的任务预测，我们首先生成IT的翻译版本（即，IT→S）通过将IT传递到图像翻译网络GT→S（即，IT→S=GT→S（IT））。我们的主要观点是虽然IT（属于目标域）和IT→S（属于源域）可能在外观或风格上不同这两个图像应该具有相同的任务预测结果（即，FT（IT）和FS（IT→S）应该完全相同）。因此，我们提出了一个跨域一致性损失Lconsis，它桥接了两个特定于域的任务网络的输出FS和FT）。损失加强了两个任务预测FT（IT）和FS（IT→S）. 对于语义分割任务，我们计算双向KL发散损失，并定义交叉-语义分割的领域一致性损失任务为Lconsis（XT;GS→T，GT→S，FS，FT）图像IS→T =GS→T（IS））（在目标域中）和= −EΣ。f（h，w，c）logfΣ（h，w，c）IT→S=GT→S（IT）（在源域中）。然后我们通过IS和IT→S到FS，IT和IS→T到FT，以获得它们的任务预测。3.2.目标函数ITXT-EITXTh、w、cΣFh、w、cT→ST（h，w，c）log不.fT→SΣ（h，w，c），（二）用于训练所提出的网络的总体训练目标L由五个损失项组成首先，图像级对抗性损失Limg将图像分布在1794其中f T=F T（I T）和f T→S=F S（I T→S）分别是I T和I T→S的任务预测，而c表示类的数量。1795SAdv不图3：所提出方法的概述。我们的模型由两个主要模块组成：一个图像转换网络（以灰色突出显示）和两个特定领域的任务网络（分别以蓝色和绿色突出显示）。图像翻译网络学习将输入图像从一个域翻译到另一个域。然后，输入和翻译的图像被馈送到其对应的特定于域的任务网络以执行任务预测。我们的主要贡献在于使用跨域一致性损失Lconsis来正则化网络训练。由于我们的任务模型对不同的任务产生不同的输出，我们的跨域一致性损失Lconsis是任务相关的。对于深度预测任务，我们使用跨域一致性损失Lconsis的L1损失。对于光流估计任务，跨域一致性损失Lconsis计算两个任务预测之间的端点误差。3.4.其他损失除了建议的跨域一致性之外任务预测和对应的地面实况标签之间的交叉熵损失作为我们的任务损失Ltask。因此，任务损失L任务也是任务相关的。我们使用的深度预测任务和光流估计的端点误差的1001损失。Featur re-l ev eladversariallossLfeat.除了施加跨域一致性和任务损失之外，我们还应用了两个特征级鉴别器Dfeat（用于源域）和Dfeat（用于目标域）[51]。TheWomen'sFeetAT损失Lconsis，我们还采用了其他几个损失介绍T S在[14，48，51]中，以促进网络培训。别问损失了。为了使用标记数据来指导两个任务网络FS和FT的训练有助于调整IS(i.e.、fS）和IT→S（即，fT→S）。为了实现这一点，我们将源域中的特征级对抗损失定义为Lfeat（XS，XT;GT→S， FS，Dfeat）通过将IS传递到GS→T，将源域图像IS传递到ISAdv=EIXS[log（Dfeat（fS））]（三）(i.e.、我S→T =GS→T（IS）））。同样，之前的图像和Ss s+E[log（1−Dfeat（f））]。翻译后应该有相同的地面真实标签。也就是说，IS→T的标号与IS的标号相同，IS的标号是ys。ITXT同样，DfeatST→S将分布调整为-因此，我们可以定义任务损失L任务来训练两个特定领域的任务网络FS和FT使用la-不可靠的数据对于语义分割，我们计算吐温 fT 且fS→T。这对应于目标域中的另一个特征级对抗性损失，Lfeat（XT，XS;GS→T，FT，Dfeat）.副词TS）ur/%F我*SfSf+askF34a/0f12a+a/0I（FSf（）*（FTf+askf*）（f34fc#$ss&sa/0f12a+a/0Tar$%&（I（FTF（S u（）*GT#$SGS#$T1796SS不Adv不AdvD，D图像级对抗损失Limg.在除了GS→T和GT→S。图像级显示Advimgimg特征级自适应，我们也考虑图像级自适应，翻译后的意象与对应域中的意象之间的关系与Zhuet al相似。[51]，我们部署了两个图像级鉴别器Dimg（用于源域）和犯罪者DS和DT由四个剩余块组成其中每一个都由卷积层fol组成由ReLU激活而降低对于特征级判别器Dfeat和Dfeat，我们使用与S S TDimg（用于目标域）。Dimg旨在调整Tsai等人[42]。图像到图像翻译网络T SG和G，以及鉴别器Dimg，Dimg，图像IS和翻译的图像IS之间的分布S→TT→SS TI. 为了实现这一点，我们定义了图像级广告-Dfeat和Dfeat都是随机初始化的。我们有一个T→S S T源域中的对抗性损失，批量大小为1，学习率为10−3，动量0的情况。9，并将权重衰减设置为5×10−4。我们的超-Limg（XS，XT;GT→S，Dimg）参数设置：λ=10，λ=10，λ=0。1、副词S孔西斯recimg=EIS+EITXSXT[log（Dimg（IS））][log（1− Dimg（IT→S））]。（四）且λfeat= 0。001。我们在一台NVIDIA上训练模型，GeForce GTX1080 GPU，12GB内存。4. 实验结果同样，我们有另一个图像级对抗性损失，在靶结构域中作为Limg（X T，X S; G S→T，Dimg）。4.1. 语义分割副词T重建损失Lrec. 最后，我们使用图像重建损失Lrec来正则化图像翻译网络的训练我们利用的属性，当翻译图像从一个域到另一个域，然后执行反向翻译，我们应该获得相同的图像。也就是说，GT→S（GS→T（IS））→IS，对任何IS在源域和GS→T（GT→S（IT））IT，对于任何目标域中的IT保持不变。更准确地说，我们将重建损失Lrec定义为：Lrec（XS，XT;GS→T，GT→S）我们提出了在两种不同的设置中进行语义分割的实验结果： 1 ）合成到真实：从合成 GTA 5 [32] 和SYNTHIA [33]数据集适应来自Cityscapes数据集的真实世界图像[5]和2）真实到真实：使Cityscapes数据集适应不同的城市[4]。4.1.1GTA5城市景观数据集。GTA 5数据集[32]由24，966张合成图像组成，具有19个类别=EIS[G T→S （GS→T（IS）I'msureI'msureI'msure.[2001年1月1日]（五）（与Cityscapes数据集兼容[5]）。以下Hoffman等人[14]，我们使用GTA5数据集并适应+EIT<$XT[<$GS→T（GT→S（IT））−IT<$1]。Zhuet al. [51]中，我们使用N1范数来定义重建损失Lrec。基于上述损失函数，我们的目标是通过优化来求解目标域任务网络F将模型添加到Cityscapes的训练集（包含2975张图片）中。评估方案。我们在Cityscapes验证集上使用500张图像评估我们的模型，使用平均交叉联合（IoU）和像素精度作为评估指标。最小-最大问题：F=arg min minFFS，MaxDimg，DimgL.（六）任务网络。我们使用两个任务网络来评估我们提出的方法：1）扩张残差网络-26（DRN-26）公司简介S→T壮举壮举GT → SST也就是说，为了使用标记的源域图像和未标记的目标域图像来训练我们的网络，我们最小化跨域一致性损失Lconsis、任务损失Ltask和重建损失Lre c。图像级对抗性损失Limg和特征级对抗性损失Lfeat被优化以在同一域内对齐图像和特征分布。相反，提出的跨域一致性损失在两个不同的域中对齐任务预测。17973.5. 实现细节我们使用 PyTorch 实现我们的模型。我们使用CycleGAN [51]作为图像到图像的翻译网络26）[46]和2）FCN8 s-VGG16 [25]。对于DRN-26，我们初始化Hoffman等人的任务网络。[14 ]第10段。对于FCN8 s-VGG16，我们从Sankaranarayanan等人初始化我们的任务网络。[35 ]第35段。结果我们将我们的方法与最先进的方法进行比较[41，51，24，15，14，7，17，35，47]。表1的顶部区块呈现实验结果。两个特征主干上的结果表明，我们的方法与最先进的方法相比表现良好，比以前的最佳竞争对手高出4 。当使用 DRN-26 [46] 和 1. 当使用 FCN8 s-VGG16 [25]时，平均IoU为0%[35]。我们表明，所提出的跨域一致性损失Lconsis对于改进的性能是至关重要的（例如，增加Lconsis可提高平均IoU1798表1：用于语义分割的合成到真实适配的实验结果。我们将最高结果表示为粗体加下划线。GTA5→城市景观方法骨干路人行道建筑壁围栏极红绿灯交通标志植被地形天空人骑手车卡车Bus火车摩托车自行车平均IoUSynth. [七]《中国日报》68.919.952.86.513.69.311.78.075.011.056.536.90.151.38.54.70.00.10.022.971.9DR [41]67.523.565.76.712.011.616.113.770.38.371.339.61.655.015.13.00.60.23.325.573.8CycleGAN [51]89.345.181.627.518.629.035.717.379.329.471.559.715.785.318.214.81.421.912.539.686.6单位[24]90.538.581.123.516.330.225.218.579.526.877.859.217.484.422.216.11.616.716.939.187.1[15]第十五话CyCADA [14][46]第四十六话70.479.132.433.162.177.914.923.45.417.310.932.114.233.32.731.879.281.521.326.764.669.044.162.84.214.770.474.58.020.97.325.60.06.93.518.80.020.427.139.5-82.3DS [7]89.043.581.522.18.527.530.718.984.828.384.155.75.483.220.328.30.18.76.238.387.2GAM [17]-------------------40.281.1Ours w/oLconsis89.144.980.927.518.830.235.617.179.527.271.659.716.184.618.114.61.422.110.939.485.8我们95.149.286.435.222.136.140.929.185.033.175.867.326.888.923.419.34.325.313.545.189.2Synth. [47个]18.16.864.17.38.721.014.916.845.92.464.441.617.555.38.45.06.94.313.822.3-Curr. [47]第四十七话LSD [35][25]第二十五话74.988.022.030.571.778.66.025.211.923.58.416.716.323.511.111.675.778.713.327.266.571.938.051.39.319.555.280.418.819.818.918.30.00.916.820.816.618.428.937.1--我们89.133.280.126.925.018.323.412.877.029.172.455.120.279.922.319.51.020.118.738.186.3SYNTHIA→城市景观Synth. [七]《中国日报》28.510.849.60.20.018.50.75.665.3-71.636.66.443.8-2.7-0.810.018.554.6DR [41]31.316.759.52.20.019.70.46.264.7-67.343.13.935.1-8.3-0.35.519.257.9CycleGAN [51]58.820.471.61.60.727.92.78.573.5-73.145.316.267.2-14.9-7.924.727.171.4单位[24][15]第十五话[46]第四十六话56.311.520.619.673.230.81.84.40.30.029.020.34.00.111.811.772.242.3--74.568.750.751.218.43.867.354.0--15.13.2--6.70.229.50.628.017.070.8-DS [7]67.028.075.34.00.229.93.815.778.6-78.054.015.469.7-12.0-9.919.229.576.5Ours w/oLconsis58.317.264.32.00.724.32.65.972.2-70.841.910.364.2-12.5-8.021.329.875.3我们62.221.272.84.20.830.14.110.776.3-73.645.614.969.2-14.1-12.223.033.479.5Synth. [47个]5.611.259.68.00.521.58.05.372.4-75.635.19.023.6-4.5-0.518.022.0-Curr. [47]第四十七话LSD [35][25]第二十五话65.280.126.129.174.977.50.12.80.50.410.726.83.511.13.018.076.178.1--70.676.747.148.28.215.243.270.5--20.717.4--0.78.713.116.729.036.1--我们84.932.880.14.30.429.414.221.079.2-78.350.215.969.8-23.4-11.015.638.284.7了5. 7%，像素精度提高3。当采用DRN-26[46]作为任务网络时为4%）。图4给出了一个示例，展示了所提出的跨域一致性损失L consis的有效性。我们发现，通过应用跨域一致性损失Lconsis，我们的模型产生更一致和准确的结果之前和之后的图像翻译。4.1.2从SYNTHIA到Cityscapes数据集。我们使用的SYNTHIA-RAND-CITYSCAPES [33]设置为源域，其中包含与Cityscapes注释类兼容的9，400张图像。根据Dundaret al. [7]，我们在Cityscapes验证集上评估了16个类的图像。结果我们将我们的方法与最先进的方法进行比较[41，51，24，15，7]。表1的底部区块呈现实验结果。在DRN-26[46]或FCN8 s [25]骨干中，我们的方法实现了最先进的性能。同样，我们也发现了相当大的进步，这是一个真实的适应。该数据集包含四个不同的城市：里约、罗马、东京和台北，每个城市有3200张没有注释的图像和100张13个类别的像素级地面实况图像。在Tsaiet al. [42]，我们使用Cityscapes [5]训练集作为我们的源域，并使用3，200张图像使模型适应每个目标城市，并使用100张注释图像进行评估。结果我们将我们的方法与Cross-City [4]，CBST [53]和AdaptSegNet [42]进行比较。表2显示，我们的方法在四个城市中的两个城市实现了最先进的请注意，Adapt-SegNet [42]中的结果是通过使用ResNet-101[13]获得的。我们使用默认设置运行他们的公开代码，并使用ResNet-50[13]作为功能主干报告结果，以进行公平比较。在相同的实验环境下，我们的方法与最先进的方法相比毫不逊色。此外，我们表明，强制跨域一致性约束，我们的方法使用所提出的跨域一致性损失L4.1.3城市景观到跨城consis。持续有效地改进评估在这四个城市。4.2. 单视图深度估计数据集。除了合成到真实的适应，我们在Cross-City数据集上进行实验[4]为了表明我们的公式不限于语义分割，我们提出了实验结果，1799输入图像Ground truth Ours w/oLconsisOurs图4：语义分割的视觉结果。我们将图像从Cityscapes转换为GTA5。对于每个输入图像，我们提出的分割结果，并没有应用跨域一致性损失。表2：用于语义分割的真实到真实适配的实验结果。适应：城市景观→穿越城市城市旅游[4]-79.529.384.50.022.280.682.829.513.071.737.525.91.042.9CBST [53]ResNet-38 [13]87.143.989.714.847.785.490.345.426.685.420.549.810.353.6罗马[42]第四十二话[42]第四十二话ResNet-101 [13]ResNet-50 [1]83.985.434.234.688.388.118.818.940.239.186.282.393.189.147.843.221.722.480.979.947.844.648.346.08.65.353.852.2Ours w/oLconsisResNet-50 [1]84.431.287.718.638.080.785.443.519.879.445.344.25.151.0我们ResNet-50 [1]90.237.291.222.041.186.391.747.125.183.048.047.56.255.1城市旅游[4]-74.243.979.02.47.577.869.539.310.367.941.227.910.942.5CBST [53]ResNet-38 [13]84.355.285.419.630.180.577.955.228.679.733.237.611.552.2里约[42]第四十二话[42]第四十二话ResNet-101 [13]ResNet-50 [1]76.275.844.743.984.680.79.37.725.521.181.880.887.388.055.351.232.727.474.371.128.925.643.043.727.626.951.649.5Ours w/oLconsisResNet-50 [1]74.744.181.25.319.280.786.352.327.769.224.145.425.248.9我们ResNet-50 [1]77.543.381.210.123.279.788.257.431.972.229.138.922.450.4城市旅游[4]-83.435.472.812.312.777.464.342.721.564.120.88.940.342.8CBST [53]ResNet-38 [13]85.233.680.48.331.183.978.253.228.972.74.427.047.048.8东京[42]第四十二话[42]第四十二话ResNet-101 [13]ResNet-50 [1]81.576.026.025.377.878.117.815.426.822.382.781.390.991.155.845.238.034.672.169.34.22.324.520.750.848.249.946.9Ours w/oLconsisResNet-50 [1]72.324.977.614.323.180.990.743.635.268.93.119.842.445.9我们ResNet-50 [1]82.129.378.218.227.583.191.256.437.874.39.526.052.151.2城市旅游[4]-78.628.680.013.17.668.282.116.89.460.434.026.59.939.6CBST [53]ResNet-38 [13]86.135.284.215.022.275.674.922.733.178.037.658.030.950.3台北[42]第四十二话[42]第四十二话ResNet-101 [13]ResNet-50 [1]81.781.829.527.885.283.226.424.415.612.676.774.191.788.731.030.912.511.171.570.841.140.247.345.327.726.249.147.5Ours w/oLconsisResNet-50 [1]79.626.984.123.714.172.886.530.39.969.940.644.725.846.8我们ResNet-50 [1]79.728.185.124.416.474.387.929.512.869.840.046.828.147.9单视图深度预测任务。具体来说，我们使用SUNC [38]作为源域，并将模型适应NYUDv2 [37]数据集。数据集。为了生成配对的合成训练数据，我们从SUNC数据集[38]中绘制了RGB图像和深度图，该数据集包含45，622个具有各种房间类型的3D房屋。继郑等。[48]，我们根据真实NYUDv2数据集[37]的分布选择相机位置、姿态和参数，并使用Song等人描述的标准保留有效的深度图。[38]第30段。在-总而言之，我们从4，562个不同房屋中生成了130，190个有效视图。评估方案。我们使用均方根误差（RMSE）和对数尺度版本（RMSE log.），平方相对差（Sq. Rel.）和绝对相对差（Abs. Rel.），以及通过阈值（δ阈值）测量的准确度。任务网络。我们从Zheng等人的无监督版本初始化我们的任务网络。48.城市方法功能主干路人行道建筑光签署植被天空人骑手车总线摩托车自行车平均IoU1800表3：用于深度预测的合成到真实（SUNC G→NYUv2）适配。“监督”列指示用NYUv2训练数据训练的方法。我们用粗体和下划线表示前两个结果。方法监督ABS. Rel. ↓平方Rel. ↓RMSE↓RMSE日志。↓δ<1。25↑δ<1。252↑δ<1。253↑Liu等[23日]J0.213-0.759-0.6500.9060.976Eigen等人[9]第九话J0.2150.2120.9070.2850.6110.8870.971Eigen等人[8]（VGG）J0.1580.1210.6410.2140.7690.9500.988[48]第四十八话J0.1570.1250.5560.1990.7790.9430.983Synth.0.3040.3941.0240.3690.4580.7710.916基线（训练集平均值）0.4390.6411.1480.4150.4120.6920.586[48]第四十八话0.2570.2810.9150.3050.5400.8320.948Ours w/oLconsis0.2540.2830.9110.3060.5410.8350.947我们0.2330.2720.8980.2890.5620.8530.952结果表3显示了与先前方法的比较[23，9，8，48]。在这里，“监督”列表示该方法是以监督的方式学习的虽然不能直接比较，但我们报告了他们的结果。在相同的实验设置下，我们观察到我们的方法在所有采用的评估指标上都达到了最先进的此外，与整合的跨域一致性损失Lconsis，我们的方法表现出一贯的改善性能。4.3. 光流估计我们展示了在合成数据集上训练的模型的评估MPISintel [2]），并在KITTI 2012 [12]和KITTI 2015 [29]数据集的真实世界图像上测试适应模型。数据集。MPI Sintel数据集[2]由1，401个从人工场景渲染的图像组成。有两个版本：1）最终版本由具有运动模糊和大气效果的图像组成，2）干净版本不包括这些效果。我们使用干净的版本作为源数据集。我们报告了通过1）使用KITTI 2012 [12]作为目标数据集和2）使用KITTI 2015 [29]作为目标数据集获得的两个结果。评估方案。我们采用KITTI 2012和KITTI 2015的平均终点误差（AEPE）和F1得分来评估性能。任务网络。我们的任务网络是从PWC-Net [40]初始化的（没有对KITTI数据集进行微调）。结果我们将我们的方法与最先进的方法进行比较[40，31，19]。表4显示，我们的方法在两个数据集上都实现了性能的提高。当将建议的跨域一致性损失Lconsis，我们的模型将结果提高了1。76个方面 KITTI2012 测试集的平均终点误差为10. 6%的F1-所有在KITTI 2015测试集。表4：用于光流估计的合成到真实自适应的实验结果。左图： MPI Sintel→KITTI 2012 。右：MPI Sintel→KITTI 2015。“finetune”列粗体和带下划线的数字分别表示前两个结果。方法finetuneAEPE火车KITTI 2012AEPE测试F1-Noc测试AEPE火车KITTI 2015F1-全部火车F1-全部测试SpyNet [31][19]第十九话PWC-Net [40]JJJ4.131.281.454.71.81.7百分之十二点三一百分之四点八二4.22%-两点半2.16-8.61%9.80%35.05%百分之十点四一9.60%[19]第十九话4.09--10.0630.37%-PWC-Net [40]4.144.228.10%10.3533.67%-Ours w/oLconsis4.164.92百分之十三点五二10.7634.01%36.43%我们2.193.168.57%8.0223.14%25.83%4.4. 限制我们的方法是内存密集型的，因为训练同时涉及多个网络。缓解这一问题的潜在方法包括：1）在两个任务网络上采用部分共享，例如，共享最后几层两个任务网络，以及2）共享图像转换网络中的编码器GS→T和GT→S）。5. 结论我们已经提出了一个简单但令人惊讶的有效损失，用于改善密集预测任务的我们表明，通过对所提出的跨域一致性损失进行分析，我们的方法在广泛的任务范围内始终如一地提高了性能。通过大量的实验，我们证明了我们的方法是适用于各种各样的任务。谢谢。这项工作得到了NSF的部分支持，1755785号1149783，科学和技术部（MOST）根据赠款107-2628-E-001-005-MY 3和108-2634-F-007-009，以及Adobe，Verisk和NEC的礼物。我们感谢NVIDIA公司捐赠GPU的支持1801引用[1] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR，2017年。[2] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。ECCV，2012年。[3] Yun-Chun Chen，Po-Hsiang Huang，Li-Yu Yu，Jia-BinHuang，Ming-Hsuan Yang，and Yen-Yu Lin.具有前景检测和循环一致性的深度在ACCV，2018年。[4] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min

下载后可阅读完整内容，剩余1页未读，立即下载