基于自监督深度估计的领域自适应语义分割

145 浏览量更新于2023-10-13 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于自监督深度估计的领域自适应语义分割王勤1戴登新1，2*Lukas Hoyer1 Luc Van Gool1，3 Olga Fink11瑞士苏黎世ETH 2德国 MPI for Informatics3 KU Lueven，比利时{qwang，lhoyer，ofink} @ ethz.ch{ dai，vangool} @ vision.ee.ethz.ch摘要用于语义分割的领域自适应旨在在源和目标领域之间存在分布转移的情况下提高模型性能。利用辅助任务（如深度估计）的监督然而，这种监督并不总是可用的。在这项工作中，我们利用自我监督的深度估计，这是在这两个域上可用的指导，以弥合域差距。一方面，我们提出明确地学习任务特征相关性，以加强目标语义预测的帮助下，目标深度估计。另一方面，我们使用来自源和目标深度解码器的深度预测差异来近似逐像素自适应难度。从深度推断的适应难度然后用于细化目标语义分割伪标签。所提出的方法可以很容易地实现到现有的分割框架。我们证明了我们的方法在基准任务SYNTHIA到城市景观和GTA到城市景观上的有效性，在此基础上，我们实现了55的新的最先进的性能。0%，56。6%，分别。我们的代码可在https://qin.ee/corda上获得。1. 介绍语义分割的任务要求模型为给定的场景分配像素级类别标签。虽然深度学习模型在大量高质量注释训练数据的帮助下在基准数据集上取得了良好的性能[1，48]，但由于照明，外观，视点，背景等的差异，它们仍然面临训练和测试数据之间的域转移的现实挑战。无监督域自适应（UDA）可以通过对齐域分布[40]或递归地细化目标伪标签[55]来潜在地修复这个域间隙。*通讯作者图1.我们建议使用自我监督的深度估计（绿色），以提高语义分割性能下的无监督域适应我们显式地学习语义和深度之间的任务特征相关性（橙色），并使用它来改进目标语义。我们使用由来自两个特定于域的深度解码器的目标图像的深度预测差异近似的自适应差异（蓝色）来细化我们的所提出的相关性感知域自适应方法可以大大提高目标域的分割性能。近年来，由于多任务学习的成功[49，44]，辅助任务（如深度估计）越来越多地用于帮助适应。由于辅助任务通常与语义相结合，因此它们已被证明对主要分割任务有益[19]。现有的工作[41，3]通常利用来自合成源域的易于访问的深度信息来训练辅助深度网络，但由于其不可访问性而不考虑受自监督深度估计的最新进展的启发，其中深度可以从立体声对[7，8]或视频序列[54]中训练，我们提出利用用于地面实况深度不可用的域（源域和/或目标域）额外的自我监督深度估计可以帮助我们明确地学习任务之间的相关性，以85158516提高最终的语义分割性能。的相关性的学习的动机的事实，任务之间的相关性是跨域比个别模态更不变。正如以前的作品[3]所提到的，天空总是遥远的，道路和侧面总是平坦的。语义和深度之间的这些域鲁棒相关性具有在存在域转移的情况下大大提高目标语义分割性能的潜力为此，我们建议以两种方式利用这种相关性。一方面，我们建议明确学习深度和语义之间的任务特征相关性。这是通过使用域共享的多模态蒸馏模块来建模语义和深度特征之间的交互和互补性来实现的。从源域学习的相关性可以被共享并转移到目标域，以提高目标分割性能。另一方面，我们利用相关性来细化目标语义伪标签。我们通过计算特定于域的深度解码器的预测之间的差异来近似适应难度由于深度和语义是耦合的，我们假设估计的适应困难可以从深度转移到语义。我们建议使用这种关系来指导目标域上的语义结合这两种方法的相关性开发导致我们提出的相关性感知域自适应（CorDA）的方法。我们在图1中说明了利用相关性的两种方法。值得一提的是，我们的策略可以很容易地实现。自监督深度估计可以从易于访问的图像序列或立体图像中学习，并且所提出的相关学习模块可以容易地并入现有的UDA网络中以用于语义分割。我们证明了我们提出的方法的有效性的基准任务SYNTHIA的城市景观和GTA的城市景观，我们实现了新的国家的最先进的分割性能。我们的贡献总结如下：• 我们提出了一个新的UDA框架，有效地利用两个域上的自监督深度估计，以提高语义分割。• 具体来说，我们明确地学习的相关性之间的模态和跨域共享此外，我们通过使用深度预测差异近似的适应难度来细化语义伪标签。• 尽管简单，我们提出的方法实现了新的国家的最先进的分割性能的基准任务 SYNTHIA-to-Cityscapes和GTA-to-Cityscapes。2. 相关工作无监督域自适应无监督域自适应（UDA）[27，28]旨在在标记源和未标记目标域之间存在域偏移的情况下提高目标模型性能。已经提出了许多UDA方法来减轻域偏移。一个常见的动机是对齐源和目标分布[6]。这可以通过几种不同的方式来实现。AdaptSegNet [37]和Advent [40]通过逆向对齐输出空间或特征空间中的分布来实现域偏移。另一个流行的方向是通过生成对抗网络[13]或傅立叶变换[47]对齐源图像和目标图像的输入像素。近年来，特别是在UDA语义分割领域，自训练框架下的伪标签精化取得了有竞争力的成果。通过迭代地使用逐渐改进的目标伪标签来训练网络，可以进一步提高目标域上的性能。在这种激励之后，CBST [55]通过使用特定于类别的阈值来提高自我训练PyCDA [21]发现，在不同尺度中包含伪标签可以进一步提高模型性能。[53]使用语义预测的不确定性来细化伪标签。使用pro-totypes [50]来细化伪标签也显示出了有前景的结果。最近，DACS [36]通过将自我训练与ClassMix [ 25 ] 相结合，展示了强大的结果，ClassMix[ 25]在训练期间混合了源图像和目标图像。在语义分割中使用几何信息最近越来越多地使用附加的几何信息来帮助学习语义[29]，因为几何和语义信息高度相关。在UDA的设置中，有几个作品开创了这个方向。SPIGAN [19]将源图像转换为目标风格，以减少域间隙。在SPIGAN中使用辅助深度回归任务来正则化生成器，并更好地捕获翻译图像的语义DADA [41]使用辅助深度预测分支来预测两个域的深度。预测随后与语义预测融合在一起并馈送到域鉴别器中。GIO-Ada [3]在输入空间转换和输出级自适应中利用深度信息，其中将鉴别器应用于深度和语义预测的级联。现有的工作通常使用来自源域中的合成数据的附加深度信息。来自目标几何信息的监督在很大程度上是未开发的。多任务蒸馏我们的工作也与多任务学习（MTL）密切相关[38]，其中多个任务由单个网络预测。现代多任务学习方法[44，52，39]旨在从不同任务中提取信息。这通常是通过使用共享的骨干网络和特定任务的头来实现的。初始8517我我我111nnn11MM我1D {}不首先进行任务预测以学习特定于任务的中间特征。然后，在执行最终任务预测之前，通过多模态蒸馏单元组合这些任务特定的特征表示大多数多任务学习工作都集中在完全监督的情况下，其中不存在域转移，并且直接提供所有任务的基础事实。我们关注UDA的设置，其中没有为主要任务和辅助任务提供目标获取地面实况在这样的设置下的MTL是欠研究的。受这些方法的成功的激励，我们修改和推广PAD-Net [44]以捕获跨域的模态之间的相关性，以便促进UDA设置中语义和深度的多模态学习的思想也在其他相关领域进行了探索，例如对象检测[22，18，26]。自我监督学习我们的工作也与广义上的自我监督学习有关。自我监督学习最近在各种视觉任务中学习有意义的表示方面取得了很好的表现[10，2]。在分类背景下的UDA中，自监督学习已被证明能够通过学习预测辅助任务来提高目标域中的泛化能力[45，33，35]。然而，这些工作所使用的辅助任务是相对任意的（如旋转预测），并没有利用主任务和辅助任务之间的相关性在这项工作中，我们利用的可能性，使用深度估计，以提高语义分割的UDA框架下的性能。与将（半）监督语义分割与自监督深度估计[15，14]相结合的工作相比，我们明确地处理了域转移的挑战。3. 方法在UDA设置中，我们从源域获得标记数据，从目标域获得未标记训练样本。由于合成数据的注释相对容易生成，因此标记的合成数据通常用作源S，而未标记的目标数据被视为目标T。形式上，在源域中，DS={（xS，yS，dS），. . .，（xS，yS，dS）}作为la-S的集合。在真实世界目标数据集中通常不提供精确的深度信息。因此，现有的工作通常只使用来自虚拟环境的源深度信息不幸的是，这限制了学习模态和域之间的全面相关性的可能性。为了克服这个限制，在这项工作中，我们建议使用自监督深度估计作为目标域dT上的伪地面实况。自监督深度的使用使我们能够利用模态之间的相关性来进一步改善UDA性能，如图1所示。首先，我们学习源域上的语义和深度特征之间的域鲁棒任务特征相关性，并将其与目标域一起转移，如第3.2节所述。在我们的实现中，为了避免两个阶段的训练，我们通过在学习过程中具有共享模块来使用连续转移。其次，我们近似的适应困难，通过计算源和目标深度解码器的预测之间的差异。由于深度和语义是自然耦合的，我们使用适应难度来细化语义伪标签，如第3.3节所述。3.1. 自监督深度估计自监督深度估计可以从立体对[7，8]或视频序列[54]中训练两者都相对容易获得，因此通常已经是真实世界数据集的一部分。通过使用现成的解决方案，例如半全局匹配[12]和MonoDepth2 [9]，可以轻松生成伪深度信息。生成的深度被用作我们提出的模型的训练的固定伪深度地面实况生成过程的详细说明见第4节，更详细的说明见补充资料。如果深度信息在源域中不可用，诸如对于GTA5 [30]，则也可以应用相同的生成过程。这些额外的深度估计现在可以促进两个域中语义和深度之间的相关性的学习3.2. 相关性感知架构为了利用域鲁棒相关性-beled训练数据，其中xS是第i个样本，yS是深度和语义信息之间的差，我们自适应我我其中，dS是用于语义分割的对应标签，dS是用于可选辅助任务（诸如深度估计）的标签，并且η是标记的源样本的总数在经典UDA训练设置中不使用可选辅助任务。类似地，目标真实训练数据可以表示为T=（xT，dT），. . . 其中，XT是第i个未标记的训练样本，dT是可选辅助任务的标记，并且m是未标记的样本的数量。语义分割的UDA的任务是训练一个在测试图像上表现良好的模型D测试={x测试，. . . ，xtest}。我们多任务学习的最新发展[44，39]到我们的相关感知UDA框架。图2描绘了所提出的方法的框架。两个域共享共同的卷积骨干网络以将图像编码成深度特征。这可以通过任何现代深度CNN模型来实现。然后，域特定深度头和共享语义预测头用于生成中间多模态预测。在下一步中，使用域共享任务特征关联模块来显式地学习深度和语义之间的关联，并将来自考虑深度估计作为辅助任务。另一个任务是加强最终的分割预测。8518initL5ΣΣˆ(x,y)=−ylogyL（xinitsegHWSinit不⊗ⓈL~SberHu（d）-d）、⑷segD+（W1FD）<$σ（W2<$FFΣΣ深度init图2.我们提出的相关性感知域自适应（CorDA）的网络架构，其中我们结合了建议的任务特征相关性模块和适应难度转移的基础上的伪标签细化。语义和深度特征由域共享特征相关模块处理，以明确地学习它们之间的域鲁棒相关性，并为其他模态提供补充信息。此外，如图的最右侧所示，在训练过程中，基于由深度预测差异近似的适应难度来重新加权语义伪标签领域特定的中间预测首先生成中间预测，以支持后期学习其中yinit是语义中间预测。 y~T是目标域的独热语义伪标签。两语义和深度信息之间的相关性。Sinit yT是中间语义预测通过对主干特征应用卷积瓶颈，获得了256个通道的语义特征和深度特征。应用语义和深度预测头来提供中间预测。我们使用两个独立的深度头的源和目标域的深度监督，从这两个域的帮助下，自我监督的深度估计。由于没有强有力的监督目标语义预测，我们共享这两个领域的语义头。通过双线性插值将预测重新缩放到输入分辨率。在[41]之后，我们使用深度的反向Huber损失：.|如果|e z|≤ c，|≤c,z从相同的共享语义解码R。d®S和d®T是来自单独的源深度解码器和目标深度解码器的中间深度预测。w是我们将在3.3节中介绍的逐像素伪标签权重。在[3，41]之后，针对深度学习损失采用逆深度。对于我们所有的实验，地面实况深度要么来自模拟器，要么来自预先计算的深度估计。~中的波浪号表示这是中间预测的损失函数。共享任务特征相关模块来自最后一步的语义和深度特征然后被馈送到域共享任务特征相关模块以学习域共享任务特征相关模块。berHu（ez）=e2+c22c（一）否则，语义和深度之间的相关性。实现这一点通过结合两个空间注意力，捕捉其中c是阈值，其被设置为最大值的1深度差我们使用交叉熵损失为se-Mantic损失计算这导致了中间预测损失的以下损失分量：深度与语义的相互关系。德-特征相关性模块的符号很大程度上受到多任务学习领域的工作的启发[39，44]，其中类似的注意力模块用于帮助多个任务的联合学习。现有的工作提取的相关性HW从多个尺度和不同的模态。我们建立~SsegS s s Sinith=1w=1、（二）我们的模型基于PAD-Net [44]，因为它的简单性和有效性。具体来说，考虑到语义fea-HWturesF并且深度特征F，蒸馏后的fea-~TsegT，yT）=−hΣ=1wΣ=1wy~T logyT，（3）segturesFoo深度深度，通过下式计算阿托佐= F seg+（W1F depth）σ（W2F depth）（6）h=1w=1~T深度HW（xT，dT）=h=1w=1berHu（dTyL、FL（xS，dS）=Fo=F），（7）深度深度SsegSseg8519-d）、（5）其中表示卷积运算，并且表示逐元素乘法。σ是用于注意力图的归一化的S 形函数。W表示8520seg深度segL=L+L+ αL+ αL卷积的可学习权重。我们注意到这种自我注意变体在我们的实验中表现得更好。任务特征关联模块的好处是双重的。一方面，注意从另一模态中捕捉到补充信息，忽略不相关信息。因此，我们明确地了解了这两种模式之间的相关性。另一方面，通过设计来共享从源域到目标域的注意力，我们的目标是学习更鲁棒和更概括的相关性。特定于域的最终解码器源深度解码器fS和目标深度解码器fT。我们比较了由源解码器和目标解码器估计的深度之间的逐像素预测差异然后将差异用作逐像素自适应难度的指示符。由于语义和深度的耦合关系，我们假设顺应困难可以从深度转移到语义上。深度预测差异高的像素指示该区域的较大域间隙，因此，应当被赋予语义伪标签的较低权重。下面的等式用于为seman分配权重Mantic featuresFo以及提取的深度特征F0，目标结构域上的tic伪标记：我们现在可以提供整个网络的最终预测。类似于中间预测，我们使用用于两个域的共享语义解码器来使用Fo作为输入执行最终预测。的深度解码器∆ =abs（fS（xT）−fT（xT））∆w=relu（1−），（九）源域和目标域保持独立。整体因此，整个网络的损失函数导致：DT其中dT是目标深度的伪地面实况~Sseg~TsegSS 深度T~T深度（八）并且将逐像素权重w应用于目标语义L~T中的伪标签LT ，如等式3所示。+LS+LT+αSLS+αTLT，segseg其中Sseg不seg深度深度预测差异通过伪地面实况dT，以产生预测差异α和α是深度损失的超参数。最终预测的损失函数具有与其中间对应物相同的公式。因此，所提出的框架的架构包含域特定深度解码器和共享任务特征相关模块，以明确地学习深度和语义之间的相关性。然后，可以由语义解码器生成针对目标图像的最终语义预测3.3. 适应困难的伪标记精化由于目标语义监督在UDA设置中不可用，因此自训练方法[56，21]通常使用目标语义预测作为用于训练的语义伪标签。然而，伪标签可能是嘈杂的和过度自信的[56]，因此过滤掉不可靠的标签是很重要的。现有的工作通过利用预测不确定性[53]和类置信度[56]来细化伪标签。我们的方法是对它们的补充。我们利用自监督深度和任务相关性的可用性来改进语义伪标签。对于特定于域的深度解码器，我们可以通过计算源深度解码器和目标深度解码器对目标图像的预测之间的差异来近似域自适应的难度。由于深度和语义是自然耦合的，我们假设估计的自适应难度可以从深度转移到语义。我们利用这种关系来完善的语义伪标签。具体地，给定目标图像输入XT，我们使用两个深度预测来计算目标图像的最终深度预测。在相对于相机具有不同距离的像素上更具有可比性逐像素权重w被设计为在0到1的范围内。如果源深度解码器和目标深度解码器针对目标图像中的像素给出相同的预测，则这指示该区域中的域间隙非常小，并且预测的语义伪标签可能是正确的。因此，我们将1分配给该像素的语义伪标签。如果深度预测差异大，则域间隙大，因此，难以正确地预测在这种情况下，权重w变得更接近0，并且该区域的语义伪标签对语义训练损失几乎没有贡献。3.4. 总结将所提出的相关性感知架构与任务特征相关性转移和具有适应难度的伪标签细化相结合，得到我们的相关性感知域适应（CorDA）框架。如图2所示，我们使用了一个相关性感知架构，它包含了一个共享的功能扩展模块和特定于域的深度解码器。在整个训练过程中，语义伪标签使用在我们的深度引导难度细化中引入的逐像素域间隙指示器进行重新加权。所提出的方法可以很容易地集成到任何UDA框架的语义分割。为了表明我们的方法是对现有框架的补充，我们使用DACS [36]作为我们的基础框架，因为它提供了一个简单但强大的基线。DACS混合源图像和目标图像，并使用固定的阈值来过滤伪标签。8521××××4. 实验我们评估我们提出的基准任务SYNTHIA的城市景观和GTA的城市景观的方法。Cityscapes数据集[5]是一个包含欧洲城市驾驶场景的真实世界数据集。它包含19个类别的精细语义分割，由2，975张训练图像和500张验证图像组成。按照[3]使用的实验方案，将具有2048 × 1024像素的固定空间分辨率的原始图像缩小到1024 × 512。我们使用来自[34]的公开可用的立体声深度估计这些深度估计最初是使用具有立体修补[42]的半全局匹配[12]生成的。在消融研究中，我们还评估了使用自监督单目深度估计作为 Cityscapes 的伪地面实况的可能性。它由在Cityscapes训练图像序列上训练的Monodepth2 [9]模型提供。我们使用Cityscapes训练集与标签作为适应的目标域，并报告我们的验证集的结果。我们总是报告每个类性能的交集对并集（IoU）以及所有类的平均交集对并集（mIoU）。SYNTHIASYNTHIA数据集[31]是从虚拟环境中收集的道路场景的合成数据集。按照[41，3]使用的设置，我们采用使用Cityscapes 风格注释（16个重叠类）的SYNTHIA-RAND-CITYSCAPES分割。该数据集由9，400张合成图像组成我们使用数据集提供的模拟深度作为源深度监督。GTA5GTA5数据集[30]是从游戏环境中生成的。它包含24，966张使用Cityscapes风格注释（19个类别）标记的图像。我们使用Monodepth2 [9]来生成GTA5数据集的深度信息。monodepth2模型仅在来自GTA5数据集的图像序列上训练。我们将发布我们的单眼深度估计数据集。表1.在我们提出的SYNTHIA-to-Cityscapes适应任务框架中，立体深度估计用于目标数据。mIoU* 表示超过13个等级的性能，不包括墙壁、栅栏和杆，因为它也广泛用于文献中。方法深度特征校正难度精炼。mIoU*Miou基线[36]54.848.3简单辅助CorDA（F）CorDA（FD）CCCCCC55.962.462.849.654.255.0对于我们的相关感知架构，我们采用ResNet-101 [11]作为共享编码器，DeepLabv 2 [1]作为任务解码器。语义和深度特征瓶颈是具有两个3x3和四个1x1卷积运算的残差块。我们的训练过程基于DACS [36]，并通过具有适应难度的伪标签细化来增强。在[36]之后，批次大小设置为2。学习率从2开始。510−4，并遵循指数为0.9的多项式衰减。来自源域的图像被缩放到1280 ×760。1024 512的解用于目标域作为训练的输入。随机作物的大小512 512被用作附加的增强。我们将源深度损失的权重设置为α S= 0。01和目标深度损失重量至αT= 0。001。所有模型都经过250，000次迭代的训练。我们在培训结束时报告我们的表现。4.1. SYNTHIA→−Cityscapes的结果我们首先评估所提出的模型的SYNTHIA到城市景观的任务的有效性我们报告了常见的16个类的mIoU性能。消融研究：我们提出的框架的主要贡献是利用自我监督深度来有效地学习任务和域之间的共享相关性。为了验证我们的动机，我们对每个组件进行了消融研究我们首先包括DACS作为一个强大的基线，它已经能够捕捉语义相对较好地没有几何信息的帮助然后，我们额外地使用自监督深度并针对源深度和目标深度两者添加深度预测辅助任务（而不使用任务特征相关模块）然后，我们评估我们提出的域共享任务特征相关模块，以验证明确学习的贡献，ING模态之间的相关性。最后，我们根据适应难度添加我们的伪标签细化。这个最终设置对应于我们提出的框架。如表1所示，直接使用源和焦油-在不对架构和训练过程进行任何修改的情况下获得深度信息作为辅助任务（在表中表示为SimpleAux）已经可以导致相对于DACS基线的小的改进，并且给出49.6%的mIoU。这验证了普遍的信念，即额外的深度信息可以帮助学习语义。然而，这种改进并不显著，很可能是因为这种同时学习两个任务的幼稚方式不能保证两个任务都具有良好的泛化能力[17，44]。通过使用具有任务特征相关性CorDA（F）的相关性感知体系结构来显式地建模深度和语义之间的相关性，我们可以更好地利用深度信息和信号。8522表2. SYNTHIA-to-Cityscapes适应任务的语义分割结果。mIoU* 表示超过13个类别的性能，不包括标记有 * 的那些类别。方法深度道路步行建设。墙*栅栏 *杆 *光标志veget。天空人乘用车mIoU*Miou来源[36]36.314.668.89.20.224.45.69.169.079.452.511.349.89.511.020.733.729.5输出适配[37]84.342.777.5---4.77.077.982.554.321.072.332.218.932.346.7-高级[40]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.233.048.041.2CBST [55]68.029.976.310.81.433.922.829.577.678.360.628.381.623.518.839.848.942.6R-MRNet [53]87.641.983.114.71.736.231.319.981.680.663.021.886.240.723.653.154.947.9SIM卡[43]83.044.080.3---17.115.880.581.859.933.170.237.328.545.852.1-美国食品药品监督管理局[47]79.335.073.2---19.924.061.782.661.431.183.940.838.451.152.5-Yang等人[46个]85.144.581.0---16.415.280.184.859.431.973.241.032.644.753.1-IAST [24]81.941.583.317.74.632.330.928.883.485.065.530.886.538.233.152.757.049.8DACS [36]80.625.181.921.52.937.222.724.083.790.867.638.382.938.928.547.654.848.3SPIGAN [19]C71.129.871.43.70.333.26.415.681.278.952.713.175.925.510.020.542.436.8GIO-Ada [3]C78.329.276.911.40.326.510.817.281.781.945.815.468.015.97.530.443.037.3DADA [41]C89.244.881.46.80.326.28.611.181.884.054.719.379.740.714.038.849.842.6CTRL [32]C86.442.580.420.01.027.710.513.380.682.661.023.781.842.921.044.751.545.0CorDA（单声道）C90.247.585.624.53.038.241.636.585.991.770.342.486.042.934.750.462.054.5CorDA（立体声）93.361.685.319.65.137.836.642.884.990.469.741.885.638.432.653.962.855.0C大大减少了域间隙。这导致4.6%的绝对改善，在靶结构域上产生54.2%的mIoU。如果我们移除相关性学习模块并保留额外的特征和语义瓶颈，则性能下降到51.7% mIoU。这清楚地证明了学习两种模式之间的相关性的重要性。此外，通过比较源和目标深度解码器之间的预测差异，我们将我们的伪标签细化与适应难度模块集成到网络中，这导致我们最终提出的框架CorDA（FD）。这使我们的绝对性能进一步提高了0.8%。从表1中，我们可以观察到，具有任务特征相关性的相关性感知架构和具有适应难度的伪标签细化都有利于提高语义分割性能。结果清楚地验证了所提出的每个组件的贡献。消融研究：伪深度地面实况的选择如前面部分所述，用作伪地面实况的深度信息可以来自各种源，例如自监督单目深度估计或立体深度估计。在这项消融研究中，我们比较了深度信息源的选择的影响，并研究了我们提出的方法对不同类型的深度估计的鲁棒性。我们再次使用SYNTHIA-to-Cityscapes作为我们的评估任务。我们将Cityscapes的伪深度地面实况从之前的立体估计改变为来自Monodepth2的单目如表2所示，我们的完整模型CorDA的性能与两个深度选项相对相似。单眼深度的使用产生 54.5%mIoU ，而立体深度产生55.0%mIoU。具有单眼深度的模型性能稍低，因为立体深度通常具有较高的估计质量。在这两种情况下，性能图3.GTA-to-Cityscapes的语义分割结果非常有竞争力，比基线强得多。这指示所提出的方法对于伪深度地面实况的选择是相对鲁棒的，并且能够捕获语义与深度信息之间的相关性，而不管其是单目还是立体估计。我们想要强调的是，对于立体和单目深度估计两者，仅来自相同数据集的立体对或图像序列被用于训练和生成伪深度估计模型。由于不使用来自外部数据集的数据，并且立体对和图像序列相对容易获得，因此我们使用自监督深度的建议具有在现实世界应用中有效实现的潜力我们将我们最终提出的模型的性能与表 2 中的SYNTHIA到Cityscapes无监督域自适应任务的最新方法进行了比较。通过利用来自自监督深度估计的监督和学习语义与深度之间的相关性，所提出的方法在该任务上实现了55.0%的mIoU（立体声深度）。这产生了6.7%的绝对利润率8523表3.GTA5到城市景观任务的实验结果（mIoU，%）我们的方法CorDA使用GTA5的单眼深度估计和Cityscapes的立体深度估计。方法道路步行建设。墙栅栏杆灯标志植物。地形天空人乘用车卡车公共汽车火车Miou来源[37]75.816.877.212.521.025.530.120.181.324.670.353.826.449.917.225.96.525.336.036.6汽车旅馆[4]76.336.169.628.622.428.629.314.882.335.372.954.417.878.927.730.34.024.912.639.4输出适配[37]86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4高级[40]87.621.482.034.826.228.535.623.084.535.176.258.630.784.834.243.40.428.435.344.8CBST [55]91.853.580.532.721.034.028.920.483.934.280.953.124.082.730.335.916.025.942.845.9BDL [20]91.044.784.234.627.630.236.036.085.043.683.058.631.683.335.349.73.328.835.648.5MRKLD-SP [56]90.846.079.927.423.342.346.240.983.519.259.163.530.883.536.852.028.036.846.449.2Kim等人[16个]92.955.085.334.231.134.940.734.085.240.187.161.031.182.532.342.90.336.446.150.2CAG-UDA [51]90.451.683.834.227.838.425.348.485.438.278.158.634.684.721.942.741.129.337.250.2美国食品药品监督管理局[47]92.553.382.426.527.636.440.638.982.339.878.062.634.484.934.153.116.927.746.450.5PIT [23]87.543.478.831.230.236.339.942.079.237.179.365.437.583.246.045.625.723.549.950.6IAST [24]93.857.885.139.526.726.243.134.784.932.988.062.629.087.339.249.623.234.739.651.5DACS [36]89.939.787.930.739.538.546.452.888.044.088.867.235.884.545.750.20.027.334.052.1Corda94.763.187.630.740.640.247.851.687.647.089.766.735.990.248.957.50.039.856.056.6这是与先前的现有技术的公开作品DACS [36]相比的我们想强调的是，通过使用单眼或立体深度估计，我们提出的方法稳定地优于其他方法的大幅度。这再次显示了学习语义和深度之间的相关性的重要性我们还比较了我们的方法，现有的四个作品，也利用了在训练过程中的深度信息。与使用对抗训练来利用来自源域的附加深度的这些作品不同，我们明确地学习了两个域中的模态之间的相关性，而没有任何对抗分量。这使得训练更稳定，并且更有效地利用相关性。如表中所示，所提出的CorDA大幅优于这些方法然而，我们的方法是互补的，可以潜在地与这些现有的对抗方法相结合。4.2. 结果在GTA→− Cityscapes为了进一步证明所提出的CorDA框架的有效性以及明确学习深度和语义之间的相关性的重要性，我们将我们的方法与GTA5到Cityscapes任务的12个竞争作品进行了实验结果总结于表3中。我们使用单眼深度估计作为GTA5的伪深度地面实况（因为由于数据集的限制，没有立体对可用）和Cityscapes的立体深度估计。结果表明，我们的框架是强大的不同来源的深度估计和竞争的CorDA模型可以成功地训练使用不同类型的深度估计的两个域。我们的方法比DACS产生4.5%的mIoU的绝对改进，并实现56.6%的mIoU。这优于竞争的方法，具有显著的利润。如图3中的样本预测所示，预测质量在很大程度上提高了容易混淆的类，如人行道和道路。为了确保与DACS的公平比较，在先前的实验中使用另一种方法是使用仅ImageNet预训练的权重。为了评估预训练权重选择对 CorDA 的影响，我们使用仅ImageNet权重重新运行了立体城市景观深度估计的基准实验在此设置中，CorDA分别为SYNTHIA和GTA-to-Cityscapes这种性能与ImageNet +COCO权重的结果非常相似，并且仍然以较大的幅度优于竞争方法。5. 结论在这项工作中，我们引入了一个新的域适应框架的语义分割，有效地利用了指导从自我监督的辅助任务，以弥合领域差距。所提出的方法显式地学习语义和辅助任务之间的相关性，以更好地将该领域共享的知识转移到目标领域。为了实现这一点，使用域共享任务特征相关模块。我们进一步利用了自适应难度，通过来自域深度解码器的预测差异来近似，以改进我们的分割预测。通过将我们的方法整合到现有的自我训练框架中，我们在两个基准任务 SYNTHIA-to-Cityscapes和GTA-to-Cityscapes上实现了最先进的性能。结果验证了我们的动机，并证明了捕获模态之间的相关性，以提高语义分割性能的重要性。鸣谢Qin Wang和Olga Fink的贡献由瑞士国家科学基金会（SNSF）PP00P2 176878。这项工作也由丰田汽车欧洲通过研究项目TRACE-Zurich资助。8524引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。1、6[2] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在国际机器学习会议（ICML）的会议记录中，第1597-1607页。PMLR，2020年。3[3] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割：一种几何引导的输入输出自适应方法。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第1841-1850页，2019年。一二四六七[4] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2018年6月。8[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集IEEE/CVF计算机视觉和模式识别会议（CVPR），2016年。6[6] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督主适应。在国际机器学习会议（ICML）的会议中，第1180-1189页2[7] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议（ECCV）的会议记录中，第740-756页

下载后可阅读完整内容，剩余1页未读，立即下载