深度感知域自适应方法在语义分割中的性能提升

41 浏览量更新于2023-10-16 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

17364DADA：语义分割中的深度感知领域自适应Tuan-HungVu1HimalayaJain1MaximeBucher1MatthieuCord1，2PatrickPe'rez11valeo.ai，Paris，France2 Sorbonne University，Paris，France图1：我们提出了一种新的深度感知域自适应框架（DADA），以有效地利用深度作为无监督域自适应设置中的特权信息。该示例显示了与不使用深度的最先进的域适应相比，从目标域的场景的语义分割如何受益于所提出的方法在图在这里，注释的源域数据来自合成SYNTHIA数据集，未注释的目标域图像是来自Cityscapes的真实场景。黄色方框中突出显示的骑自行车的人是我们获得的改进的一个很好的定性说明。摘要无监督域自适应（UDA）对于具有代表性的数据的大规模注释具有挑战性的应用非常重要。特别是对于语义分割，它有助于在真实的“目标域”数据上部署模型，这些模型是在来自不同“源域”（特别是虚拟环境）的注释图像上训练的。为此，大多数以前的作品认为语义分割作为唯一的模式的监督源do-main数据，而忽略了其他可能可用的信息，如深度。在这项工作中，我们的目标是利用-在训练UDA模型时，我们最多只能获得这样的特权信息。我们提出了一个统一的深度感知UDA框架，利用在几个互补的方式在源域的密集深度的知识。作为结果，训练的语义分割模型在目标域上的性能得到提升。我们的新方法确实在不同的具有挑战性的合成-2-真实基准上实现了最先进的性能。代码和型号可在https://github.com/valeoai/DADA上获得。1. 介绍深度卷积神经网络（CNN）的进步为包括语义分割在内的许多识别任务带来了重大飞跃然而，预测所有图像像素的语义标签是一个具有挑战性的问题，特别是当模型在一个域上训练时，称为源，但在另一个域上评估时，称为目标。源分布和目标分布之间的所谓域间隙通常会导致目标性能的急剧下降。相反，自动驾驶汽车等自主关键系统需要在各种测试条件下具有强大的性能对于这样的系统，在罗马拍摄的阳光明媚的城市图像上训练的语义分割模型即使在伦敦有雾的场景下也会产生良好的效果解决域间隙问题的技术通常被归类为域自适应（DA）[7]。在分布式工作中，大多数DA设置在目标侧是无监督的，即，在源域上的监督训练期间，只有未注释的目标样本这被称为无监督域自适应（UDA）。近年来，UDA17365使用诸如MMD [20，42]或对抗训练[14，35]的分布差异最小化，生成方法[13]等方法在该UDA背景下，由于零成本源标签获取，其中源和目标样本是合成的并且是真实图像再现的合成-2-真实场景此外，最近的虚拟引擎可以模拟其他感官输出，如密集/稀疏深度或雷达;例如，SYNTHIA数据集[29]提供了合成城市场景的相应虚拟深度图。大多数以前的UDA作品忽略了这样的额外信息，除了李等人。[18]他们建议使用深度来正则化风格转换网络。在这项工作中，我们提出了一个新的计划，利用深度信息在源域的UDA。我们hypothesize，引入额外的深度特定的自适应带来的互补效应，以进一步弥合源和目标之间的性能差距，在测试时。为此，我们转换分割骨干，使深度信息嵌入到一个dedi- cated深架构的辅助深度回归任务的手段。在我们的框架中，深度作为额外的源域监督（仅在训练时可用），将被视为特权信息。另一个挑战是有效地将深度信号纳入UDA学习。为了解决这个问题，我们引入了一种新的基于融合网络输出的深度感知对抗训练协议。这种后期融合的灵感来自于我们的直觉，即不同深度层次的视觉信息应该被区别对待。所提出的方法如图1所示，其中对关键对象类别（如“人类”和“车辆”）的深度感知适应的好处是可见的。该方法的贡献如下：• 深度感知UDA学习策略：我们引入了一种新的深度感知自适应方案，即DADA学习，它同时对齐分割-基于和基于深度的源和目标信息，同时知道场景几何形状。• 深度感知的深度架构：我们提出了一种新的深度感知分割流水线，命名为DADA ar，架构，其中深度特定和标准CNN外观特征在通过分割分类器转发之前被融合。• 最先进的性能：评估表明，我们的框架实现SotA的结果具有挑战性的合成2-真正的基准。我们还报告消融研究，以提供对所提出的方法的见解2. 相关作品无监督域自适应在过去几年中受到了很多关注[7，9，14，21，37，42]。它通常采用域差异最小化、生成方法或使用某些特权信息来指导学习。由于我们只关心视觉语义分割在这项工作中，我们限制我们的审查UDA的方法，针对这一任务。UDA用于分割的各种方法采用对抗训练来最小化跨域差异。其主要思想源于生成对抗网络（GAN）[10]，是训练一个预测数据域（源或目标）的神经网络，而分割网络试图欺骗它（以及源上的监督在与语义网络的竞争中，在完成任务之前，分割网络试图将其输入映射到域不可知的中间或最终表示（这是语义网络的输入这种与对抗训练的对齐通常在特征空间中完成。在[14]中，特征对齐不仅通过对抗训练完成，而且通过类别特定自适应转移源域的标签统计数据完成。[5]使用对抗训练对网格软伪标签进行类级对齐。在[4]中，进行了空间感知自适应，并使用蒸馏损失通过强制分割网络的输出类似于在真实数据上训练的参考网络来专门解决合成到真实的自适应虽然大多数这些方法在特征空间上进行对齐，但最近[35，39]提出了在输出空间上对齐[35]在分割网络的预测上进行对齐，[39]建议在预测概率的加权自信息上进行对齐。[36]和[23]分别通过补丁级对齐和类别级对抗性损失扩展了[35在[30，31]中提出了UDA对抗训练的另一种用途，其中来自目标域的相同输入的两个实例之间的差异被最小化，而分类层试图最大化它。我们提出的方法也使用了对抗训练，但它通过引入深度来进一步改进。另一个备受关注的策略是使用生成网络将源域样本转换为目标图像。CyCADA [13]使用Cycle-GAN [45]来生成以源图像为条件的类似目标的图像，即，生成的图像包含具有目标域的“风格”（颜色和纹理）的源的结构或语义内容。这些生成的图像继承了条件源图像的真实语义分割，然后可以用于分割网络的[46]使用GAN [10]对齐源嵌入和目标嵌入，并将交叉熵损失替换为保守损失（CL），这会惩罚简单和困难的源示例。在DCAN [41]中，在发生器和分割网络中使用类似的生成方法与通道特征对齐。17366+berHuZ−z5其他一些有趣的作品研究了对抗和生成方法的结合[25，32，44]，自我训练[47]和课程风格学习[43]。为了帮助各种任务中的域适应，一些作品探索了源数据上特权信息的使用[2，19，33]。使用特权信息（PI）进行学习的想法首先由Vapnik Vashist（2009）[38]提出。PI是仅在训练时可用的附加信息。这在概念上类似于人类在老师的评论或解释的帮助下学习新的概念或概念。以下[38]许多作品[12，22，24，34，40]调查PI的各种任务。最近，SPIGAN [18]提出了这样一种用于语义分割的UDASPIGAN首先使用生成网络将源图像转换为目标类型的图像。然后，这些新图像被用于以监督的方式训练分割网络以及深度回归网络（私有信息网络），这要归功于源图像的地面实况。这项工作表明，额外的深度回归任务有助于像素级自适应，或者换句话说，更好地捕捉生成的目标图像中的源图像的内容。在目前的工作中，我们还利用深度回归任务来帮助域适应。但是，这是一个accom-最近在[24]中引入的用于检测的块。这相当于将一个新的分支嫁接到CNN的主干上。在这个分支中，骨干CNN特征被连续地馈送到三个编码卷积层中，然后是一个平均池化层以输出深度图预测。在返回到主分支的残差路径上，编码特征（在深度池化之前）由卷积层解码并与骨干特征融合。图2的顶部显示了所提出的混合架构，将辅助块架构与骨干块架构混合。重要的是，对于特征级融合，我们采用了元素级产品，表示为“Feat.图2顶部的“融合为了产生分割预测，我们通过剩余的分类模块前馈融合的特征。源域监督训练。我们的模型在源域上使用监督分割和深度损失进行训练。我们考虑训练集Ts⊂RH×W×3×（1，C）H×W×RH×W源尺寸为H×W的彩色图像以及像素级C级分割和深度注释。让DADA是一个网络，它获取图像x并联合预测一个C维以一种明显不同于SPIGAN（达达（x）=P=P（h，w，c）1、深度仅使用深度作为生成器的正则化）。segmapDADDepthXΣ（x）=x（h，w）x h，wh、w、c. 与[15]相似，我们3. 深度感知域自适应在本节中，我们描述了我们提出的使用深度进行语义分割的UDA方法。我们的目标是使用深度作为UDA设置中的特权信息，采用逆深度表示，即，深度衰减在离开摄像机时，学习DADA的参数θDADA，以最小化源样本（xs，ys，zs）∈Ts上的分段和深度损失：提高目标域上的分割性能。为此，我们修改了一个语义段网络ΣHLseg（xs，ys）=−公司简介y（h，w，c）logP（h，w，c），（1）通过包括单目深度回归部分来实现。更sxsh=1w=1c=1具体而言，我们设计了一种深度架构，以将深度嵌入到专用残差块中，如图2所示在第3.1节中，我们ΣHΣWLdep（xs，zs）=−h=1w=1.（h，w）（h，w）xssΣ、（二）尾DADA网络架构和监督学习-在源数据集上使用。第二部分涉及这种UDA方法的学习计划。才能得到完整[17]《易经》中的“逆”字是指.|如果|e z |≤ c，| ≤c,berHu（ez）=2 2（三）的几何信息的好处，我们提出了一个深度-ez+c2c否则，意识对抗学习方案。我们认为，对于主要的适应，特别是在城市设置中，更接近自我相机的对象应该得到更多的强调。我们的框架如图2所示3.1. DADA网络架构。其中c是正阈值，我们在实践中将其固定为最大深度残差的1。从经验上讲，BerHu损失是有利于深度回归任务：具有较大残差的样本更多地受到R12项的惩罚，而小残差样本的梯度更多地被R11下划线。最后，我们的DADA优化问题的源做-main公式为：从现有的语义分割架构开始，我们插入额外的模块（1）来预测单声道，min1ΣLseg（xs，ys）+λdepLdep（xs，zs），（4）作为附加输出的常规深度，以及（2）将该辅助任务所利用的信息反馈回主流。更具体地说，我们采用剩余助动词Z17367θDADA |Ts|S其中λdep是深度回归的加权因子[1]被看作是经验概率，在C类上和为1。不17368图2：DADA体系结构（顶部）和DADA学习方案（底部）。在顶部，深蓝色堆栈显示了CNN网络的骨干;浅蓝色方框表示网络模块;绿色块代表输出功能。在下半部分，蓝色和红色箭头分别区分源样本和目标样本的网络流。为了方便参考，在学习块上3.2. DADA对抗式学习计划对于语义分割中的UDA，其关键思想是对齐源域和目标域，以便网络无法区分域。我们在此遵循在输出处对齐要素的最新策略水平[35，39]，即由分割网络DADAseg在输入图像x上产生的软分割图Px。我们在此质疑将这种方法用于辅助空间的可行性，即，深度预测Zx在目前的工作中，希望主要任务的性能得到改善。我们假设，对准源和目标分布也在深度空间IM-planetary弥合了共享的较低级别CNN表示的域差距，并应改进目标域上的主要任务。为了实施这一战略，我们提出了一个• 我们将加权的自信息Ix与深度预测Zx融合以产生深度-自映射Ix 。Zx和Ix的融合，我们称之为DADA融合，是Ix与Zx的元素乘积。由于这里使用了深度的倒数，因此意味着对更接近自我相机的场景元素的更强关注。• 然后，我们在I/Ox上进行自适应调整。深度分布图I-X携带3D结构和几何信息，这些信息在整个域中应该是一致的，因此在该空间上的对齐有利于自适应。正如我们将在下一节中看到的那样。形式上，给定目标域中的未注释图像的集合，训练CXD以区分源图像与源图像。目标输出（分别标记为“1”和“0”）具有以下分类目标最小化：接缝对齐：我们先把两个信号合并，然后将融合的特征作为输入转发到一个SVM。我们在图2的右下部分说明了DADA对抗学习方案。更确切地说：minθD1|Ts|ΣLD（Ixs，1）+Ts1|Xt|ΣLD（Ixt，0），（6）Xt• 我们计算加权自信息（映射[39]Ix∈[0，1]H×W×C定义为：而DADA网络则是用“傻瓜”的方法更新的目标最小化：Σ（h，w，c）（h，w，c）（h，w，c）minθ1|X|不LD（Ixt，1）。（七）Ix= −Px·log Px。（五）达达Xt17369在每次训练迭代中，我们为网络提供来自源域和目标域的两个样本的小批量。（4）和（7）中的两个目标通过用于对抗部分的加权因子λadv所有损失的分量被累积，然后反向传播以更新网络。讨论在与我们相同的任务中使用深度作为特权信息的唯一方法是SPIGAN [18]。而在DADA中，通过特征融合和DADA融合，我们利用深度来增强外观特征并改善源-目标对齐，SPIGAN利用深度作为像素级对齐生成器的正则化。我们认为，我们使用深度的方式是更明确的，这反过来，从特权信息中获得更多的好处。此外，由于第3.1节中所述的辅助阻滞中的残余融合，在推导主要任务预测时直接考虑了深度信号。这种残差融合将深度特定自适应的有益效果传播到主要分割任务。4. 实验本节介绍定量和定性结果。我们在第4.1节中介绍了在这项工作中使用的合成-2-实基准。然后，我们在第4.2节中分析了拟议模型的性能，并在第4.3节中报告了消融研究。4.1. 实验细节数据集。在这项工作中，我们使用SYNTHIA数据集[29]作为源域。它由9400张合成图像组成，这些图像被标注了像素级的语义标签和深度。类似于以前的作品[18，35，39]，我们采用了使用Cityscapes风格注释的拆分 SYNTHIA-RAND-CITYSCAPES 。对于目标域，我们使用Cityscapes [6]或Mapillary Vistas [26]数据集。以下是我们的实验设置的详细信息：• SYNTHIA→Cityscapes（16类）：这是以前作品中使用的模型在SYNTHIA共有的16个类上进行训练城市景观。与[35，39]类似，我们也报告了13类子集的每一个结果。• SYNTHIA→Cityscapes / Vistas（7类）：按照[18]，我们对SYNTHIA、Cityscapes和Vistas共有的7个网络架构。在我们的实验中，我们采用基于ResNet-101 [11]的Deeplab-V2 [3]作为主干分割架构。像[35，39]一样，我们应用Atrous空间金字塔池化（ASPP），采样率为{6，12、18、24}。分割预测仅在conv5功能。对于对抗训练，我们使用由4个连续卷积层组成的DC-GAN用于深度回归的编码模块有三个连续的卷积层：第一个和最后一个卷积层的内核大小为1;中间层的内核大小为3，具有适当的零填充，以确保相同的输入和输出分辨率。每一层使用的通道比前一层少4在解码部分，我们通过1×1卷积层提供解码层的输出通道数与ResNet-101主干功能的通道大小相同实作详细数据。实现是使用PyTorch深度学习框架完成的[27]。为了训练和验证我们的模型，我们使用一个具有11 GB内存的NVIDIA 1080 TI GPU。我们使用在ImageNet数据集[8]上预训练的ResNet-101 [11]初始化我们的模型。分割和深度回归网络由标准的随机梯度下降优化器[1]训练，学习率2. 5× 10-4，动量0。9和重量衰减10−4。对于训练，我们采用Adam opti-mizer [16]，学习率为10−4。在所有实验中，我们将深度回归任务的λdep固定为10−3，并使用λadv=10−3来加权对抗性损失。4.2. 结果我们提出的DADA方法的结果相比，不同的基线。在三个基准上，我们的模型实现了最先进的性能。我们广泛的研究表明，利用深度作为特权信息与我们的DADA框架UDA在语义分割的好处。SYNTHIA→ 城市景观：在表 1 中，我们报告了Cityscapes验证集的16个类的语义分割性能，即“平均交集对并集”（mIoU，%）。DADA在基准测试中实现了最先进的性能。据我们所知-边缘，SPIGAN [18]是针对同一问题的唯一已发表的工作，也认为深度作为特权信息。DADA的D增益为1。8%，几乎是SPIGAN的两倍。分析每个类别的结果，我们观察到相对于AdvEnt [39]的改进主要来自“汽车（升百分之七），”巴士（升百分之八，1%）和“单车”（升5，1%）。在“对象”类（如“光”和“杆”）上，DADA引入了适度增益。图3显示了比较DADA和AdvEnt基线的一些定性示例我们的模型在“车辆”类上显示出更好的结果DADA也明显优于其他报告13类子集结果的基线方法17370SYNTHIA→城市景观（16类）模型深度道路人行道建筑墙 *栅栏 *杆 *光标志蔬菜天空人ridercarbusmbike自行车MiouD-gainmIoU*[18]第十八话69.5 29.4 68.7 4.4 0.3 32.4 5.8 15.0 81.0 78.7 52.2 13.1 72.8 23.6 7.9 18.7 35.8-41.2SPIGAN [18]C71.1 29.8 71.4 3.7 0.3 33.26.415.681.2 78.9 52.7 13.1 75.9 25.5 10.0 20.536.81.042.4[35]第三十五话79.2 37.2 78.8---9.9 10.5 78.2 80.5 53.5 19.6 67.0 29.5 21.6 31.3--45.9[36]第三十六话82.2 39.4 79.4---6.5 10.8 77.8 82.0 54.9 21.1 67.7 30.7 17.8 32.2--46.3[23]第二十三话81.3 37.0 80.1---16.113.7 78.2 81.5 53.4 21.2 73.0 32.922.6 30.7--47.8高级工程师[39]87.0 44.1 79.7 9.6 0.6 24.3 4.8 7.2 80.1 83.656.4 23.7 72.7 32.6 12.8 33.7 40.8-47.6达达C89.2 44.8 81.4 6.8 0.3 26.2 8.6 11.181.8 84.0 54.7 19.379.7 40.7 14.038.8 42.61.849.8表1：在SYNTHIA上训练的不同模型的Cityscapes验证集上的语义分割性能mIoU（%）。顶部和底部子表分别对应于基于VGG-16和基于ResNet-101的模型。对于利用深度的方法，我们报告了绝对深度驱动的mIoU增益（D-Gain）。我们还示出了13个类（mIoU*）的mIoU（%），不包括具有 * 的类(a)SYNTHIA→城市景观（7类）(b)SYNTHIA→景观（7类）分辨率模型深度平坦常数对象自然天空人类车辆Miou平坦常数对象自然天空人类车辆Miou320 ×640[18]第十八话SPIGAN [18]C90.3 58.2 6.8 35.8 69.0 9.5 52.191.266.4 9.6 56.8 71.5 17.7 60.346.053.453.0 30.8 3.6 14.6 53.0 5.8 26.974.1 47.1 6.8 43.3 83.726.844.1[39]第三十九话达达C86.3 72.7 12.0 70.481.2 29.8 62.989.676.0 16.3 74.4 78.343.8 65.759.463.482.7 51.8 18.467.8 79.5 22.783.8 53.7 20.562.184.5 26.6 59.254.055.8充分[39]第三十九话C89.6 77.8 22.176.3 81.4 54.7 68.792.3 78.3 25.075.582.2 58.7 72.467.270.486.9 58.8 30.5 74.1 85.186.7 62.1 34.9 75.9 88.6 51.1 73.865.267.6Oracle（唯一目标）97.6 87.9 46.0 87.9 88.8 69.1 88.6 80.8 95.0 84.2 54.8 87.7 97.2 70.2 87.5 82.4表2：7类设置中的语义分割性能mIoU（%）。（a）城市景观和（b）远景验证集。我们报告在不同分辨率下产生的结果。AdvEnt* 是将AdvEnt发布的代码改编为7类设置。表2-a显示了相同实验设置的结果，不同之处在于对7个类别进行了训练和验证。为了与[18]进行比较，我们报告了在320×640分辨率下产生的额外结果。我们的DADA框架在这个基准上的表现远远超过了最先进的技术。在AdvEnt基线上，我们实现了+3。mIoU提高2%。与16级结果，在“车辆”类别上取得重大进展（+3，7%）被观察到。此外，我们将“人类”类别的+3%我们推测这一下降源于类别内的混淆，即，“行人”和“骑车人”容易混淆。一个显着的改进指出，在较低的分辨率设置，其中使用深度增加+14。0%的“人类”类别IoU。这些重新-结果证明了DADA对于UDA的优点，特别是在关键类别如在[18]中引入的一个有趣的UDA度量是负传输率（越低越好）-适应后测试用例的适应）。在 SYNTHIA→Cityscapes （ 7 类）上，320×640分辨率的DADA模型只有5%的负迁移率，而SPIGAN只有9%。值得注意的是，在这种情况下，我们的唯一源上mIoU为50%，远大于[18]（36. 3%）。在不使用深度的情况下，AdvEnt基线遭受负跨-11%，是17371(a) 输入图像（b）GT（c）AdvEnt（d）DADA图3：SYNTHIA→Cityscapes（16类）设置的定性结果。四列绘制了（a）RGB输入图像，（b）地面实况，（c）AdvEnt基线输出和（d）DADA预测。DADA在“公交车”、“汽车”、“自行车”类上表现良好最好用彩色观看。（a）输入图像（b）GT（c）SPIGAN（d）DADA图4：SYNTHIA→Vistas（7类）设置中的定性结果。所有模型均在320×640分辨率下进行训练和测试。从左到右，我们显示了（a）RGB输入图像，（b）相应的分割地面实况，（c）SPIGANDADA不仅在视觉上比SPIGAN表现得更好，而且它还能在以下方面产生正确的预测：错误标注的建筑区域。最好用彩色观看。SYNTHIA→远景：在这个实验中，Mapillary Vistas [26]被用作目标域。在SPIGAN [18]，作者报告了与Cityscapes相比，在Vistas上的不利UDA行为。这似乎是由源 - 目标图像平移在尝试缩小SYNTHIA和Vistas之间的较大差距时引入的伪影在这种情况下，利用深度信息展示了重要的适应性改进（+17。3%）。另一方面，我们的UDA框架没有经历这样的困难。事实上，如表2（a-b）所示，AdvEnt基线性能比SPIGAN-no-PI好得多，在两个目标数据集上的绝对mIoU没有显著差异（59. 4%vs.54. 0%）。在这样一个更强的基线上，DADA仍然实现了+2的整体改善。4%mIoU。我们还在基准测试中获得了最佳的每类IoU。DADA（在320×640图像上训练和测试）具有30%的负转移率，而SPI-GAN为42%。讨论的[18]第十八话挑战性的领域差距SYNTHIA和Vistas之间的差异可能导致这些高阴性率。除此之外，我们还提出了一个问题--17372SYNTHIA的百分比10% 30% 50% 70% 100%城市景观mIoU 32.6 35.1 40.9 41.042.6表 4 ：在 SYNTHIA 的组分上训练时的 DADA 性能。Cityscapes上的性能是训练集使用百分比的函数仍然宽松，因为对抗性损失被单独优化。我们的深度感知自适应框架S7同时采用特征融合和DADA融合，性能最佳：在对抗性训练期间更多地关注较近的物体是有益的。表 3 ： Cityscapes 确认集 7 次消融实验的分割性能（mIoU）。没有复选标记的设置S1表示仅源培训。Vistas数据集的注释质量，对结果进行目视检查，发现不一致。有趣的是，当我们评估在Cityscapes验证集上使用当前设置（SYNTHIA→Vistas）训练的DADA模型时，可以说注释更清晰，负迁移率降至6%。在图4中，我们展示了一些定性结果比较-我们最好的模型与SPIGAN。如上所述，我们注意到Vistas分割注释是有噪声的。例如，一些建筑区域被树枝稍微覆盖，被标注为“植被”。DADA在这些领域提供了合理的预测-4.3. 消融研究深度感知对抗性适应的效果。我们在表3中报告了七种训练设置（S1至S7）的性能：S1是仅源基线（根本没有自适应），S2相当于AdvEnt（没有使用深度），S7是DADA。中间设置S3至S6相当于使用或不使用AdvEnt首先，我们注意到辅助深度空间（S4和S5）上的对抗适应确实有助于提高主要任务的性能。S5相对于S4的改进证明了特征级深度融合的优势。S2和S3的可比较的性能表明，在没有深度特定自适应的情况下，对源域的深度监督是无效的。事实上，S6在空间和深度上有两个独立的对抗适应，比S2和S3更好尽管如此，在S6中，空间之间的耦合注释工作优势。表4报告了DADA在源数据集的不同部分上训练时的性能。仅使用50%的带有分割和深度注释的SYNTHIA图像，DADA实现了与在所有带有分割注释的图像上训练的AdvEnt相当的性能（40. 9%，四十8%）。这一发现对于真实世界的设置具有实际意义，其中源域也由真实场景组成：虽然密集深度注释在这种情况下保持自动（通过如Cityscapes中的立体匹配或稀疏LiDAR测量的致密化），但是语义注释必须是手动的，这导致高成本和质量问题。因此，即使另外需要深度，注释较少的场景也是有益的局限性。我们观察到一些失败的情况下，不同的对象是无法区分的，由于模糊的深度输出。在这种情况下，提高深度质量可能会有所帮助然而，在我们的框架中，深度回归只是一个辅助任务，它有助于利用特定于几何的信息来丰富视觉表示，从而改善主要任务。如[24]所述，过多地关注辅助任务实际上会损害主要任务的表现。5. 结论在这项工作中，我们提出了一种新的UDA框架DADA -通过辅助深度预测任务利用该附加信息，该辅助深度预测任务又允许经由融合的特征富集以及原始自适应损失的深度感知修改。我们的实验评估表明，DADA始终优于其他UDA方法在不同的合成-2-真正的语义分割基准。作为未来工作的一个方向，我们设想扩展到真实世界的场景，其中源域中的深度信息仅稀疏可用，例如，如汽车激光扫描仪（LiDAR）所提供的。设置Surp.适应。深度自适应壮举.融合DADA融合mIoU（%）S1（无自适应）32.2S2（高级）C40.8S3CC40.7S4C35.7S5CC38.0S6CCC41.617373引用[1] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT中。2010. 5[2] 林琛，文丽，董旭。通过从RGB-D数据学习来识别RGBCVPR，2014。3[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接CRF进行语义PAMI，2018年。5[4] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在CVPR，2018年。2[5] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。InICCV，2017.2[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。5[7] 加布里埃拉·楚卡视觉应用领域自适应研究综述在计算机视觉应用中的域适应，第1-35页Springer，2017. 一、二[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。5[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。2[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[12] 朱迪·霍夫曼，索拉布·古普塔，特雷弗·达雷尔。通过模态幻觉学习附带信息。在CVPR，2016年。3[13] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。CyCADA：Cycle-consistent adversarial domainadaptation。在ICML，2018。2[14] 朱迪·霍夫曼，王德全，余菲，特雷弗·达雷尔. FCNs inthe wild ： Pixel-level adversarial and constraint- basedadaptation.arXiv预印本arXiv：1612.02649，2016。2[15] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在CVPR，2018年。3[16] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年，国际会议。5[17] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV，2016年。3[18] Kuan-Hui Lee ， German Ros ， Jie Li ， and AdrienGaidon.SPI-GAN ：从模拟中学习对抗。 2019 年，在ICLR。二三五六七17374[19] 文丽、离牛、东旭。利用网络数据中的特权信息进行图像分类。2014年，在ECCV。3[20] 龙明生，曹跃，王建民，迈克尔·乔丹.使用深度自适应网络学习可转移特征ICML，2015。2[21] 龙明生，韩柱，王建民，迈克尔·乔丹.无监督域自适应残差传输网络。在NIPS，2016年。2[22] Da vidLopez-Paz ， Le' onBottou ， BernhardScho¨lk opf ，andVladimir Vapnik. 统一蒸馏和特权信息。ICLR，2016年。3[23] 罗亚伟，郑良，关涛，于俊青，杨毅。让我们仔细看看Domain Shift：语义一致域适应的类别级对手。arXiv预印本arXiv：1809.09478，2019。二、六[24] 泰勒·莫丹，尼古拉斯·托姆，吉勒·海纳夫，马修·科德。用rock重温多任务学习：一个用于视觉检测的深度在NIPS，2018年。三、八[25] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorthi和Kyungnam Kim。用于域适应的图像到图像在CVPR，2018年。3[26] GerhardNeuhold ， TobiasOllmann ， SamuelRotaBulo` ，andPeter Kontschieder.Mapillary Vistas数据集用于街道场景的语义理解。InICCV，2017. 五、七[27] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动微分。在NIPS研讨会，2017年。5[28] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。5[29] German Ros 、 Laura Sellart 、 Joanna Materzynska 、David Vazquez和Antonio M.洛佩兹SYNTHIA数据集：一个大的合成图像集，用于城市场景的语义分割。在CVPR，2016年。二、五[30] Kuniaki Saito，Yoshitaka Ushiku，Tatsuya Harada，andKate Saenko.Adversarial dropout regularization 。在ICLR，2018年。2[31] 斋藤国明，渡边康平，牛久义孝，原田达也.非监督域自适应的最大分类器差异。在CVPR，2018年。2[32] 斯瓦米·桑卡拉纳拉亚南、约格什·巴拉吉、阿皮特·杰恩、南林爵士和拉玛·切拉帕。从合成数据中学习：解决语义分割的域转移在CVPR，2018年。3[33] 尼古拉斯·萨拉菲亚诺斯，米哈利斯·弗里卡斯，扬尼斯·卡卡迪亚里斯.自适应SVM+：学习领域适应的特权信息。InICCV，2017. 3[34] Viktoriia Sharmanska，Novi Quadrianto，and ChristophLampert.学习使用特权信息进行排名。InICCV，2013.3[35] Yi-Hsuan Tsai，Wei-Chih Hung，Samuel Schulter，Ki-hyuk Sohn ， Ming-Hsuan Yang ， and ManmohanChandraker.学习适应语义分割的结构化输出空间。在CVPR，2018年。二、四、五、六17375[36] 蔡怡萱，孙奇赫，塞缪尔·舒特，曼-莫汉·钱德拉克。经由区别性表示的结构化输出的域适应。arXiv预印本arXiv：1901.05427，2019。二、六[37] Eric Tzeng，Judy Hoffman，Kate Saenko，and TrevorDarrell.对抗性判别域自适应。在CVPR，2017年。2[38] Vladimir Vapnik 和 Akshay Vashist 。一种新的学习模式：利用特权信息学习。神经网络，2009年。3[39] Tuan-Hung Vu ， Himalaya Jain ， Maxime Bucher ，Matthieu Cord，andPatrickPe'rez.AD VENT：语义分割中领域自适应的Adv ersarialentr

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度感知域自适应方法在语义分割中的性能提升

单源域自适应与多源域自适应

基于度量的域自适应和基于对抗的域自适应异同点

迁移学习全局域自适应，子域自适应，深度子域自适应分解是什么，他们的区别是什么

基于度量的域自适应和基于对抗的域自适应相似之处

全局域自适应，子域自适应，深度子域自适应分解是什么，他们的区别是什么

DANN在域自适应算法中的优点

NeRF与域自适应技术

advent无监督域自适应

深度学习代码中域自适应技术DA.METHOD参数怎么设置

深度网络自适应DDC

域自适应和域适应是一个概念吗

域自适应中的域由什么组成

解释一下“域自适应”和“迁移学习”

基于深度学习的自适应算法有哪些

域自适应迁移学习中损失函数

高精度语义分割方法发展史

域自适应中DA.LAMB_DA 是什么有什么用？

域自适应中DA.LAMB_DA在代码中有怎样的使用

2021注意力机制 语义分割

基于微信小程序的新生报到系统设计与实现.docx

最新资源

2021注意力机制语义分割