从合成数据中学习语义分割

51 浏览量更新于2023-10-19 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从合成数据中学习语义分割一种几何引导的输入输出自适应方法陈宇华1李文1陈晓然1Luc Van Gool1，21苏黎世联邦理工学院计算机视觉实验室2VISICS，ESAT/PSI，KU Leuven{yuhua.chen，liwen，chenx，vangool}@ vision.ee.ethz.ch摘要作为手动逐像素标注的替代方案，合成数据已越来越多地用于训练语义分割模型。这样的合成图像和语义标签可以很容易地从虚拟3D环境中生成。在这项工作中，我们提出了一种方法，跨域的语义分割与辅助几何信息，这也可以很容易地从虚拟环境中获得。在两个级别上利用几何信息来减少域移位：在输入层，我们用几何信息扩充标准图像翻译网络，将合成图像翻译成真实感风格;在输出层，我们建立了一个任务网络，同时执行语义分割和深度估计。同时，对抗训练应用于联合输出空间，以保持语义和深度之间的相关性。所提出的方法在两对合成到真实数据集上进行了验证：Vir-tual KITTI→ KITTI和SYNTHIA→ Cityscapes，与基线相比，我们实现了明显的性能提升和各种竞争方法，证明了几何信息用于跨域语义分割的有效性。我们的实施可在www.example.com上获得http://github.com/yuhuayc/gio-ada。1. 介绍语义分割指的是将给定图像中的每个像素分类到其语义类别的任务，例如天空道路汽车该任务提供了对场景的逐像素语义理解，并导致许多有吸引力的应用，如机器人技术、自动驾驶等。像许多其他视觉感知任务一样，深度神经网络[28]在大规模标记数据集上训练时，在语义分割方面表现出色。然而，构建这种用于语义分割的标记数据集并不是一件容易的事情，无论是收集还是注释：*通讯作者。源域目标域语义分割模型真实图像合成图像语义标签深度图图1.我们的目标是适应从合成数据到真实数据的语义分割模型语义标签仅在源域（合成数据）中可用。在目标域中仅给出未标记的图像（真实数据）。该方法利用虚拟环境中容易获取的合成数据中的辅助几何信息，加强了领域自适应过程具有大量场景和条件多样性的图像;由于获取逐像素标签的过程，注释它们的成本甚至更高。为了解决这些瓶颈，合成数据成为监督语义分割模型的一个迷人的替代方案。计算机图形学的最新进展使得自动生成合成图像成为可能，其中具有来自虚拟3D环境的对应的每像素标签[46，45]。合成数据的训练似乎然而，这是一种降低注释成本的诱人方法，当将学习的模型应用于实际数据时，外观上的不匹配通常会导致性能显著下降。已经提出了许多工作，以解决这个问题，从域分布转移的角度来看，使用各种dom-main适应技术[21，57，5]。另一方面，图像转换技术[60]也被广泛用于将合成图像转换为现实风格。这可以被看作是在像素级对齐域分布[20]。然而，这些作品通常只使用合成图像和相应的语义标签。然而，合成数据的一个显著优势是，18411842不幸被忽视了：实际上可以从虚拟环境中获得丰富的信息，例如深度、表面范数、光流等，以比在现实世界中获得同类信息低得多的成本如图1所示，这项工作的目的是利用合成域的补充几何信息，以改善真实数据中的跨域语义我们的动机是这样一个事实，即几何和语义自然耦合。几何线索通常可以暗示语义，反之亦然。如以前的工作[54]所示，联合推理语义和深度提高了这两个任务的性能。此外，与合成图像和真实图像之间的大差距不同，深度和语义之间的相关性更具有域不变性，并且受域移位的影响更小。例如，道路通常是平坦的，天空是遥远的，电线杆是垂直的.这些事实在合成数据和真实数据中均成立。因此，语义和几何学之间的相关性非常有利于减少域间隙。此外，从合成数据中获取深度信息相对容易，因为人们可以简单地从虚拟3D环境中生成深度，并且不需要特殊设备（例如，激光雷达，校准立体摄像机）是必需的。本文提出了一种新的方法，称为几何引导的输入输出自适应（GIO-Ada），在该方法中，我们在两个层次上利用深度信息进行域自适应任务：1）在输入层，一个增强的图像变换网络以合成图像及其相应的语义和深度图作为输入，并通过利用原始图像之间的内在联系来训练生成具有真实风格的图像，语义和几何信息; 2）在输出层，任务网络利用合成域的监督联合执行语义分割和深度估计。此外，对抗训练应用于语义分割和深度估计的联合输出空间，从而保持语义和深度之间的域不变通过上述模块，几何信息不仅改善了语义分割，而且有助于缓解合成数据与真实数据之间的领域差距。通过对Virtual KITTI [11]、KITTI [13]、SYN-THIA[47]和Cityscapes [7]数据集的广泛实验来验证所提出的方法，其中我们实现了比不利用地理信息的非自适应基线和竞争方法显著的性能改进实验表明，我们的方法可以提高跨域的语义分割，通过合并几何信息的合成数据。2. 相关作品语义分割是一个非常活跃的研究领域。最近的方法大多是基于完全一致的，卷积网络 [35] ，具有逐像素预测的修改，例如DilatedNet [56]，DeepLab [3]，PSP- Net [59]等。这样的模型通常在具有逐像素注释的数据集上训练，[9]，COCO [34]，Cityscapes [7]。然而，构建这样的标记数据集是昂贵且费力的。随着计算机图形学技术的发展，合成数据为训练语义分割模型提供了一种新的方法。为此，已经建立了几个合成数据集，例如GTAV[46]，SYNTHIA [47]，Vir- tual KITTI [11]等。这些数据集通常从虚拟3D环境生成，这意味着也可以容易地生成除语义标签之外的这样的模态包括光流、深度、表面法线等。我们的工作是出于利用这种自由的监督合成数据，以有效地执行跨域语义分割。领域自适应是机器学习和计算机视觉中的一个经典问题。它的目的是减轻由于训练数据和测试数据之间的分布不匹配而导致的平均性能下降它主要通过传统方法[29，18，15，10，33]和基于CNN的方法[36，12，14，50，42]39、31、19、37、38]。我们参考[43，8]进行全面调查。除了图像分类，域自适应已经在其他视觉任务中进行了研究，例如目标检测[4]，深度估计[1]等。我们的工作主要涉及跨域语义分割[21，57，20，53，48，5，62，61]。霍夫曼[21]提出通过将来自两个领域的特征与对抗训练进行对齐来改进跨领域语义分割。遵循这条路线，已经提出了许多工作来使用不同的技术解决语义分割中的域转移问题，例如课程风格学习[57]，蒸馏损失[5]，输出空间对齐[53]，类平衡自训练[62]，保守损失[61]等。此外，受生成对抗网络[44，17]和图像翻译技术[60，22]的成功启发，一些作品还建议将合成图像转换为现实风格，从而减少原始像素级别的域间隙[51，20，41，20，48，16]并提高真实世界中的语义分割性能上述工作通常仅利用标记的源图像和未标记的目标图像，而忽略数据集中的其他信息，例如几何信息。在这项工作中，我们利用在目标域的特权深度信息。类似的想法已被用于图像识别[32，2]，并通过并行工作[30]用于语义分割。深度辅助语义分割深度估计和语义分割是场景理解的两个基本任务。已经提出了1843ee输入级自适应输出级自适应图像变换网络&i（）任务网络图像鉴别器*i（）&tas/输出鉴别器*+输出阿勒特y1td3t2000年y1sd3s伊什ys$s图2. 建议架构概述。源数据流以橙色线显示，而目标数据流以黑色线显示。图像转换网络将合成图像转换为真实感风格，任务网络用于同时执行语义分割和深度估计共同学习，互惠互利。 Wang等人 [54]使用CNN构建分层CRF以利用几何线索，Kendall等人[26]提出了两个任务的跨任务不确定性。此外，各种技术已用于任务，包括微调[40]，跨模态影响[23]，具有中间辅助任务的任务蒸馏模块[55]，递归估计[58]，任务注意力损失[24]。更广泛地说，它可能与多任务有关[27]。在这项工作中，语义和深度之间的相关性也得到了利用，但目的是领域适应。3. 方法在本节中，我们将介绍在深度信息的帮助下，从合成数据中学习语义分割模型的方法。在无监督域自适应协议之后，利用合成数据作为源域S，并且利用真实数据作为目标域T。在源域，我们可以访问合成图像xs∈S以及相应的地面真实标签，包括：ing语义分割标签ys和深度标签ds。在目标域中，只有未标记的图像xt∈T是可用的.3.1. 拟议方法我们提出的几何引导输入输出自适应（GIO-Ada）方法的概述如图2所示。为了解决合成域和真实域之间的域差距，域自适应在两个级别上联合执行，即输入级和输出级。深度信息（即，几何信息）用于改进两个级别上的自适应。输入级自适应旨在减少原始像素级的视觉差异。输入级自适应的输出稍后用作以下任务网络的输入。为此，我们部署了图像变换网络Gimg，其将合成图像xs连同其对应的深度ds和语义标签ys作为输入。变换网络Gimg被假定为产生具有与目标域中的图像视觉上相似的外观的变换后的图像x_s，并且同时保留用于语义分割和深度估计的有用信息现有的像素级自适应方法大多没有考虑源域的深度信息。这显然不是最佳的，原因如下：几何信息一旦在绘制过程中被丢弃，就变得更加难以恢复。另一方面，几何信息与语义信息高度相关。由于这些原因，我们使用深度信息作为图像变换网络的辅助输入，以更好地保留图像平移过程中的信息。输出级自适应的目的是调整两个领域的任务网络的输出，并保持任务之间的连贯相关性输出级自适应包括任务网络G任务和输出级判别器D输出。G任务以真实图像xt或变换后的合成图像xs作为输入，然后同时预测语义分割y和深度预测d。D输出试图确定输出（语义和深度）是从变换的合成图像还是真实图像预测的。在输出级自适应中利用几何信息带来了几个好处。首先，通过学习深度估计作为辅助任务，我们可以学习表示，1844eeeeee对域移位更鲁棒第二，语义和深度之间的相关性可以用作域对齐的有力由于在目标域中没有给出地面实况标签，因此在两个域之间对齐输出空间可以是指导训练的非常有用的监督信号。与之前的工作[53]不同，它只对齐单个任务的输出空间，在这里，我们考虑语义分割和深度估计的联合输出空间。通过这种方式，我们不仅调整了每个任务的输出分布，而且还调整了不同任务之间的底层互连。这被证明是有效的提高性能的两个任务。这也与我们的动机一致，即这样的连接受域转移的影响较小，例如，天空总是很远，汽车通常在街上等。在此，我们将在以下章节分别阐述这两个层面上的改编。3.2. 输入级自适应为了将合成图像转换为真实风格的图像，我们构建了一个图像转换网络Gimg，其中合成图像xs，语义分割标签ys和深度图ds作为输入。具体地，深度图被归一化到数据集中的所有图像之间的[0，1]的范围中，并且语义标签被表示为C个通道的独热图，其中C是类别的总数网络产生变换图像xs=Gimg（xs，ys，ds），其被期望是真实的外观并且仍然包含任务网络的重要信息（例如，语义分割、深度估计）。受最近关于生成对抗网络（GAN）的工作的启发[17]，我们应用了一个可扩展的图像来保证生成图像的真实性。训练所述CNOD图像以区分变换的合成图像和真实图像。与此同时，Dimg还用于指导图像变换网络的训练，其方式类似于GAN中的对抗训练策略。与以前的作品[20，60]类似，我们使用Patch- GAN [22]对补丁进行操作，从中我们以二维地图的形式获得了P2P输出训练Dimg的损失可以写为：L输入=ExtXT[logDimg（xt）]（1）+Exs<$XS[log（1−Dimg（x<$s））]，其中，为了简单起见，我们省略了图像的宽度和高度维度如上所述，期望变换后的图像对手头的任务有用。这是通过联合训练图像变换网络与任务网络来实现的（细节将在下一节中提供）。由于图像变换网络是可微分的，因此来自任务网络的梯度可以引导变换网络确保保存合成数据中的有用信息3.3. 输出级自适应我们的任务网络G任务同时对给定的输入图像执行语义分割和深度估计该网络在两个域之间共享，并将变换后的合成图像xts或真实图像xt作为输入。具体地，在两个任务之间共享特征提取器，每个任务在特征提取器之上分别具有两个解码器，即，一个解码器用于语义分割输出，另一个用于深度估计输出。语义分割任务通过最小化标准交叉熵损失来学习：Lseg=ExsXS[CE（ys，yes）]，（2）其中ys代表真实语义标签，ys代表预测标签。关于语义分割任务，深度估计可以被视为辅助任务。作为一种常见的做法，我们部署深度估计任务的`1损失如下：Ldepth=ExsXS[||ds−des||1]、（3）其中ds代表地面实况深度，ds代表预测深度。请注意，这两种损失只适用于源域，其中监督是可用的。为了确保任务网络在目标域中表现良好，我们进一步在输出上应用了一个由[53]启发的CNOD 任务然而，我们的工作不是只使用语义分割输出，而是联合考虑语义和深度，因为语义和深度信息之间的内在相关性可能是有效减少域差异的有用线索特别地，我们将语义分割预测的输出连接起来（分别为）。 y t）和深度估计图D s（resp. d t），这导致在连接的输出。我们使用连接的输出来训练区分源域的输出与目标域的输出的所述CJD任务。与Dimg类似，Dtask也被制定为PatchGAN，以支持其对空间上下文关系的感知。D任务的损失可以写为：Loutput=ExtXThlogDoutput（dett，yett）i（4）+ Exs<$XShlo g（1−Do utp ut（des，yes））i.3.4. 总体培养目标将输入级和输出级模块放在一起，我们联合训练所有网络Gtask、Gimg、Dimg和Doutput。总体目标如下：1845路建筑极红绿灯交通标志植被地形天空车卡车Miou不适应79.360.50.00.39.566.88.385.959.24.837.5输入电平适配器83.267.410.821.924.568.86.588.377.89.345.9输出电平适配器81.169.17.18.628.379.543.386.079.317.850.0GIO-ADA81.471.211.326.623.682.856.588.480.112.753.5表1. 虚拟KITTI→KITTI的定量结果。使用超过10个类别的mIoU报告结果。最佳结果以粗体表示。minGimgmax{Lseg+λdepthLdepth（5）Dimg4.1. 实验设置遵循常见的无监督域自适应协议，我们使用合成数据集作为源域，G任务D输出+λinputLinput+λoutputLoutput}，其中λs作为权衡权重来平衡不同的损失项。采用对抗训练策略优化了最小-最大问题。注意，域自适应过程仅在训练阶段执行。在测试时，只有G任务应用于真实图像，而其他组件，如Gimg，Dimg和D输出在推理过程中被删除。3.5. 实现细节在我们的GIO-Ada方法中，图像变换网络Gimg类似于CycleGAN [60]中的生成器，它基于[25]中的网络，具有几个卷积层和残差块。对于任务网络，我们使用具有VGG骨干的DeepLab-v2模型[3]部署类似的架构[52]。更详细地说，在共享VGG编码器的顶部，我们构建了两个独立的解码器：一个用于深度估计，另一个用于语义分割。两个解码器都使用了DeepLab v2的ASPP模块，唯一的区别是输出通道的数量。任务网络使用ImageNet预训练的权重进行初始化。此外，鉴别器基于Patch-GAN [22]，其权重从高斯分布随机初始化。在训练中，权衡参数被设置为 λdepth=0 。 1 ，λinput=0。1，λo utp ut=0。001。每个小批量包含两个图像，一个来自源域，另一个从目标域采样随机水平翻转用于数据增强。我们使用Adam opti- mizer，初始学习率为2×10- 4。该网络训练了10个epoch。4. 实验在本节中，我们验证了我们提出的GIO-Ada方法从合成数据到真实场景的语义分割的有效性。并将真实数据集作为目标域。对于合成数据集，我们使用Virtual KITTI [11]和SYNTHIA [47]，因为深度信息可用于这两个数据集。因此， KITTI [13] 和Cityscapes [7]被用作真实数据集，这导致两个自适应对：虚拟KITTI→KITTI，SYNTHIA→城市景观。我们简要介绍了在我们的实验中使用的数据集如下。KITTI [13]是一个关于自动驾驶的数据集，它由描绘几个驾驶城市场景的图像组成。它由多个城市的移动车辆收集。在我们的实验中使用了语义分割的官方分割，包含200张训练图像和200张测试图像。图像的空间分辨率约为1242×375。由于地面实况标签仅在训练集中可用，因此我们使用官方的未标记测试im-年龄来适应我们的模型，我们在官方训练集上报告结果。Virtual KITTI [11]是一个照片级真实感的合成数据集，包含21，260张图像。每幅图像都在像素级上用类别和深度信息进行了密集的注释。它模拟了KITTI数据集的条件，具有与KITTI数据集相似的场景布局、摄像机视点和图像分辨率，因此非常适合研究合成数据与真实数据之间的局部自适应问题。Cityscapes [7]在训练集中包含2，975张图像，在验证集中包含500张图像具有2048×1024像素的固定空间分辨率。由于图像的尺寸很大，通常我们将图像缩小到一半分辨率（1024×512像素）。训练集用于调整模型，我们报告了我们的验证集上的结果。SYNTHIA [47]是一个包含城市场景合成图像和像素注释的数据集。渲染-1846Na cg gd +d +s +sd37.5 39.8 43.5 44.244.7表2. 输入水平适应的消融研究。 mIoU超过10个类别。na：非适应基线;cg：使用CycleGAN [ 60 ]进行图像转换; gd：由任务网络引导的图像转换网络;+ d：具有到图像变换网络的附加深度输入;+ s：带有附加语义标签输入- put;+ sd：语义和深度标签都作为额外的输入，这也是我们最终的输入级自适应模型。ING覆盖各种环境和天气条件。在我们的实验中，我们采用SYNTHIA-RAND- CITYSCAPES子集，其中包含9，400个与Cityscapes类别兼容的图像。4.2. 结果在Virtual KITTI→ KITTI我们首先评估所提出的方法，用于学习从虚拟KITTI数据集到KITTI数据集的语义分割。两个数据集之间的10个常见类别用于性能评估。我们使用交集对并集（mIoU）的平均值报告结果，总结见表1。总的来说，我们的GIO-Ada通过以下方式在非自适应基线上改进了mIoU：+16%，这证实了我们的跨领域语义分割方法的有效性。为了进一步研究适应模块在不同层面上的益处，我们通过测试消融的版本来分解性能我们的方法：输入电平自适应实现了+8。4%的性能增益，而输出电平自适应达到+12。5%的改善。这证明了这两个模块用于将分割模型从合成域调整到真实域的有效性。此外，这两个自适应模块也被证明是互补的，因为组合它们可以进一步减少域间隙。我们还在图3中提供了一些定性示例。从这些结果中，我们观察到，分割结果通常得到改善与我们的GIO-Ada方法。特别是，通过利用几何线索，我们的模型对具有几何结构的对象（如电线杆，交通标志等）产生改进的分割质量，这对于现有方法来说通常是具有为了进一步研究不同的设计变体，特别是关注两个组件中几何线索的重要性。我们在下面分别对两个适应模块进行进一步的消融研究输入水平自适应消融研究：在我们最终的输入级自适应模型中，我们使用图像变换网络，该网络将图像及其对应的语义和深度标签作为输入。为了调查naSS深度分离接头37.545.943.846.350.0表3. 输出水平适应的消融研究。mIoU超过10个类别NA：非自适应基线;SS：对齐语义分割输出;Depth：对齐深度估计输出;SEP：单独对齐语义分割和深度估计的输出;Joint：对齐语义分割和深度估计的联合输出空间，这也是我们用于输出级自适应的最终模型使用额外的输入，我们测试了三种变体的输入级自适应模块，只有深度，只有语义标签，或没有作为额外的输入。我们还包括[60]，一个通常适用于比较的动态适应的图像翻译模型结果总结在表2中。我们观察到，所有其他方法优于非自适应基线，证明了输入级自适应的重要性。然而，CycleGAN仅将基线结果提高了+2。3%，这与任务网络实现的+6%的改进相比是不太有效的。这表明，来自任务网络的梯度是图像变换网络保存有用信息的有用指导。然而，当进一步将附加信息作为输入时，性能可以进一步提高单独添加深度和语义分割作为额外的输入，提高了+6。7%和+7。2%，分别，并将它们整合在一起产生+8。4%的性能提升。结果表明，几何信息可以是非常有用的图像变换过程中的意义上说，它有助于保持丰富的信息在原始的3D环境。我们通过使用CycleGAN和图4中的方法提供一些翻译图像的示例来进一步证明这一点，在图4中，我们清楚地观察到我们的模型能够在翻译过程中保留更多的几何和语义概念。更具体地说，CycleGAN被观察到在天空中产生建筑物和树木的相比之下，我们的方法是能够保持语义和几何的一致性。输出水平适应性消融研究：我们还研究了输出级自适应的不同变体。我们的联合输出空间自适应有几种可能的替代方案。例如，分别在语义分割空间和深度估计空间中执行[53]提出的输出空间对齐此外，我们尝试建立两个判别器来单独对齐两个输出空间，而不考虑两个任务之间的相关性。我们将这些变体与我们的最终模型进行比较，该模型将语义段的联合输出空间1847道路人行道建筑墙*栅栏* 杆 *交通灯交通标志植物天空人乘用车总线摩托车MioumIoU不包括 *[21]第二十一话11.5 19.6 30.84.40.0 20.30.111.7 42.3 68.7 51.23.854.03.20.20.620.1 22.9[第57话]65.2 26.1 74.90.10.5 10.73.73.076.1 70.6 47.18.243.2 20.7 0.7 13.1 29.0 34.8跨城市[6]62.7 25.6 78.3---1.25.481.3 81.0 37.46.463.5 16.1 1.24.6-35.7ROAD-Net [5]77.7 30.0 77.59.60.3 25.8 10.3 15.6 77.6 79.8 44.5 16.6 67.8 14.5 7.0 23.8 36.1 41.7Tsai等人 [五十三]78.9 29.2 75.5---0.14.872.6 76.7 43.48.871.1 16.0 3.68.4-37.6Sankaranarayanan等人 [49]80.1 29.1 77.52.80.4 26.8 11.1 18.0 78.1 76.7 48.2 15.2 70.5 17.4 8.7 16.7 36.1 42.1CBST [62]69.6 28.7 69.5 12.1 0.1 25.4 11.9 13.6 82.0 81.9 49.1 14.5 66.06.63.7 32.4 35.4 40.7不适应9.714.1 58.54.70.3 22.71.912.9 70.7 60.9 50.27.232.2 17.4 1.38.023.3 26.5输入电平适配器77.0 29.3 67.90.10.1 24.7 10.7 17.4 79.4 78.8 49.2 13.7 70.34.35.8 12.8 33.8 39.7输出电平适配器79.6 29.7 75.7 11.4 0.3 25.3 11.1 14.8 76.7 76.9 45.3 15.9 67.7 15.8 4.8 13.5 35.3 40.6GIO-ADA78.3 29.2 76.9 11.4 0.3 26.5 10.8 17.2 81.7 81.9 45.8 15.4 68.0 15.9 7.5 30.4 37.3 43.0表4. 与从SYNTHIA到Cityscapes的跨领域语义分割的最新方法进行比较。所有结果都是基于VGG作为骨干架构。有些作品只报道13类，我们在此用 * 标记这些排除的类别。我们还报告了13个类的平均性能，作为mIoU（不包括）。* 的文件。最佳结果以粗体表示。和深度估计。结果示于表3中。首先，我们观察到，所有的变体实现了显着的增益超过基线，显示- ING域适应技术的有效性一般。特别是，语义分割预测的输出空间对齐[53]实现了+8。4%，而同样的输出空间自适应模块在深度预测上的提升为+6。百分之三。这并不奇怪，因为我们的最终目标是语义细分对齐语义分割输出对分割结果有更直接的影响然后，我们结合深度对齐和语义分割对齐，这给出了+8的改进。8%，略优于仅使用语义分割对齐。这表明，如果不对任务之间的相关性进行建模，那么琐碎地最后，通过调整语义分割和深度估计的联合输出空间，我们实现了+12的显著改进。5%，表明联合相关对减少畴移是非常有效的，这也验证了我们的动机。4.3. 搜索结果SYNTHIA→ Cityscapes为了便于与其他最先进的作品进行比较，我们进一步评估了SYN-THIA到城市景观设置的拟议方法[21，57，6，5，53，49，62]。所有方法的结果总结见表4。为了公平比较，所有方法都基于VGG-16主链。类似于虚拟KITTI→ KITTI的设置，输入和输出电平的自适应都很有用对于性能改进：输入级自适应将基线提高+10。5%，而输出级自适应将其提高了+12。0%。集成两个模块提供了+14的更大性能增益。比非适应性基线高0%。这再次验证了我们的自适应模块在输入和输出两个层面上的有效性我们的GIO-Ada以显著的优势优于所有其他竞争方法。我们把这归因于补充几何线索的语义分割任务dur-ing域适应。然而，我们的方法采取的几何线索，这是经常被其他方法忽略我们的方法有可能与其他技术相结合，进行潜在的改进。5. 结论在本文中，我们介绍了几何引导的输入输出自适应（GIO-Ada）方法，有效地利用合成数据中的几何信息来解决跨域语义分割问题。在两个不同的层面上执行几何引导的自适应：1）在输入层面上，深度信息与语义注释一起用作用于引导图像变换网络减少原始像素上的域偏移的附加输入，以及2）在输出层面上，深度预测和语义预测用于形成联合输出空间，在该联合输出空间上应用对抗训练策略以减少域偏移。班我们已经在两对数据集上实验验证了我们的方法。结果表明，我们的GIO-Ada跨域语义分割的有效性与杠杆几何信息从虚拟数据。致谢作者衷心感谢瑞士阿尔玛的支持。1848图3. KITTI数据集上的语义分割定性结果。我们遵循Cityscapes的颜色编码方案对标签地图进行着色。从左至右：左：输入图像，中：非自适应结果，右：GIO-Ada结果。请注意，我们的方法对具有几何结构的对象（如电线杆、交通标志等）产生了显著的改进。图4. 关于投入一级适应的定性结果。从左到右：左：输入合成图像，我们比较中间的图像翻译结果：CycleGAN，右：GIO-Ada结果。请注意，CycleGAN在转换过程中对对象产生幻觉，而GIO-Ada能够保留语义和几何信息。1849引用[1] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。CVPR，2018年。2[2] 林琛，文丽，董旭。基于rgb-d数据学习的rgb图像识别。CVPR，2014。2[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网络、无纹理卷积和全连接CRF进行语义图像分割。在T-PAMI，第40卷，第834-848页中IEEE，2017年。二、五[4] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.域自适应Faster R-CNN用于野外目标检测。CVPR，2018年。2[5] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。CVPR，2018年。一、二、七[6] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun. 不再有歧视：道路场景分段器的跨城市适应。ICCV，2017年。7[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。CVPR，2016年。二、五[8] 加布里埃拉·楚卡视觉应用程序的域适应：全面调查。arXiv：1702.05374，2017年。2[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。在IJCV，第88卷，第303施普林格，2010年。2[10] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。ICCV，2013年。2[11] Adrien Gaidon ， Qiao Wang ， Yohann Cabon ， andEleonora Vig.虚拟世界作为多对象跟踪分析的代理。CVPR，2016年。二、五[12] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015. 2[13] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The KITTI dataset.在IJRR，第32卷，第1231-1237页中Sage出版物Sage中国：英国伦敦，2013年。二、五[14] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，David Balduzzi，and Wen Li.用于无监督域自适应的深度重建-分类网络。ECCV，2016。2[15] 龚伯清，袁氏，费莎，克里斯汀·格劳曼。用于无监督域适应的测地线流核CVPR，2012年。2[16] Rui Gong ， Wen Li ， Yuhua Chen ， and Luc VanGool.DLOW：适应和泛化的域流。在CVPR，2019年。2[17] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和1850Yoshua Bengio生成性对抗网。NIPS，2014年。二、四[18] Raghuraman Gopalan，Ruonan Li，and Rama Chellappa.用于对象识别的Do- main适配：无人监督的方法。ICCV，2011年。2[19] PhilipHaeusser、ThomasFrerix、AlexanderMordvintsev 和 Daniel Cremers 。关联域自适应。ICCV，2017年。2[20] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。Cycada：周期一致的对抗性结构域适应。ICML，2018。一、二、四[21] 朱迪·霍夫曼，王德全，余菲，特雷弗·达雷尔. FCNs inthe wild ： Pixel-level adversarial and constraint- basedadaptation.arXiv：1612.02649，2016。一、二、七[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros. 使用条件对抗网络的图像到图像翻译。CVPR，2017年。二、四、五[23] OmidHosseini Jafari 、 OliverGroth 、 AlexanderKirillov、Michael Ying Yang和Carsten Rother。分析用于联合深度预测和语义分割的模块化CNN架构。ICRA，2017年。3[24] Jianbo Jiao，Ying Cao，Yibing Song，and Rynson Lau.看得更深更深：具有语义增强器和注意力驱动损失的单目深度估计。ECCV，2018年。3[25] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失ECCV，2016。5[26] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。CVPR，2018年。3[27] Iasonas Kokkinos UberNet：使用不同的数据集和有限的内存训练一个通用的卷积神经网络，用于低，中，高层次的视觉。CVPR，2017年。3[28] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。1[29] Brian Kulis Kate Saenko和Trevor Darrell 你看到的并不是你得到的：使用非对称核变换的域自适应。CVPR，2011年。2[30] Kuan-Hui Lee ， German Ros ， Jie Li ， and AdrienGaidon. SPIGAN ：从模拟中进行特权对抗学习。arXiv：1810.03756，2018年。2[31] DalLi，Yongxin Yang，Yi-Zhe Song，and Timothy MHospedales.更深、更广、更艺术的领域概括。ICCV，2017年。2[32] 文丽，林晨，徐东，陆凡古。通过从rgb-d数据学习进行rgb图像和视频的视觉识别T-PAMI，40（8）：2030-2036，2018。2[33] Wen Li，Zheng Xu，Dong Xu，Dengxin Dai，and LucVan Gool.使用低秩样本支持向量机的领域泛化和自适应。T-PAMI，40（5）：1114-1127，2018。2[34] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。ECCV，2014年。21851[35] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015年。2[36] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I Jordan.使用深度适应网络学习可转移特征。ICML，2015. 2[37] 卢昊，张磊，曹志国，魏

下载后可阅读完整内容，剩余1页未读，立即下载