语义分割的几何无监督域自适应算法的优势

189 浏览量更新于2023-10-14 收藏 2.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1语义分割的几何无监督域自适应算法Vitor Guizilini Jie Li Rares， Ambrus， Adrien Gaidon ToyotaResearch Institute（TRI），Los Altos，CA{first.lastname}@ tri.globalSYNTHIA VKITTI2并行域摘要模拟器可以有效地生成大量的标记合成数据，并对语义分割等难以标记的任务进行完美的监督。然而，它们引入了一个严重损害现实世界性能的域间隙。我们建议使用自监督的单眼深度估计作为代理任务来弥合这一差距，并改善模拟到真实的无监督域自适应（ UDA ）。我们的几何无监督域自适应方法（GUDA）1通过多任务目标学习域不变表示，该多任务目标将合成语义监督与视频上的真实世界几何约束相结合。GUDA在三个基准上建立了UDA中用于语义分割的最新技术水平，优于使用领域对抗学习、自训练或其他自监督代理任务的方法。此外，我们表明，我们的方法规模以及合成数据的质量和数量，同时也提高了深度预测。1. 介绍来自几何约束的自监督学习用于直接从未标记的视频中学习深度和自我运动等任务[13，22，24，51，76]。然而，像语义分割和对象检测这样的任务本质上需要人类定义的标签。昂贵的手动标记的有希望的替代方案是使用合成数据集[4，9，14，45，46]。模拟器确实可以编程以生成具有准确标签的大量不同数据（参见图1），包括用于光学和场景流[30，44]、对象检测[42]、跟踪[14]、动作识别[9]和语义分割[45，46]。然而，没有一个模拟器是完美的.因此，有效地使用合成数据需要克服模拟域与真实域之间的差距，即由于内容、场景几何、物理、外观或渲染伪影的差异而导致的源合成域与目标真实域之间的分布偏移。无监督领域自适应（UDA）的目标是在没有任何真实世界标签的情况下，提高跨该领域差距的泛化能力。大多数方法使用adversar-1https://github.com/tri-ml/packnet-sfm(a) 合成数据集（地面实况）城市景观KITTI DDAD(b) 真实世界数据集（预测）图1：我们的GUDA方法在多任务设置中对视频使用几何自监督，以在UDA中实现最先进的结果用于语义分割。用于像素或特征级自适应的学习[3，15，27，35，54，59，69]或通过精炼伪标签[31，32，73，77，78，50]。这些方法产生了明显的改进，但需要学习目标网络之外的多个网络，难以训练（对抗学习），或限于语义上接近的域（高置信度伪标签的迭代扩散）。或者，很少有作品[53，67]探索了简单的图像级自监督代理任务[20，40，33]以改善跨领域的泛化，但对于语义分割的UDA仅取得了有限的成功在这项工作中，我们引入了自我监督的单眼深度作为代理任务的UDA在语义分割。本文提出了一种综合监督与实时监督相85378538转转LL转→→BB世界自监督深度估计目标来学习域不变编码器。虽然视频上的几何约束可以帮助克服图像上的语义差距并不明显，但我们的方法称为用于几何无监督域自适应的GUDA，优于其他用于语义分割的UDA方法。此外，我们可以直接将我们的方法与自训练的伪标签相结合，从而在标准SYNTHIA-to-Cityscapes基准上达到新的技术水平。此外，我们在Cityscapes [7]，KITTI[18]和DDAD [24]上显示，我们的方法在合成数据的数量和质量方面都很好（参见。图1），从SYNTHIA [46]到VKITTI2 [4]，以及新的大规模高质量数据集[1]。最后，我们表明，GUDA也能够在现实世界中的领域的最先进的单目深度估计2. 相关工作2.1. 无监督域自适应无监督域自适应（UDA）是计算机视觉中的活跃研究领域[8，62，64]。它的主要目标是在标记的源数据集和相关但统计上不同的未标记的目标数据集上学习模型，其中模型有望泛化。常见的方法依赖于域不变学习或域之间的统计对齐[15，56，68]。在这项工作中，我们认为UDA的语义分割，标签过程是繁琐和昂贵的。已经提出了几种合成数据集来减少对真实世界标签的需求，例如SYNTHIA [46]，GTA5 [45]和VirtualKITTI [14]。然而，在这样的数据集上训练的模型在真实世界的数据集上测试时会遭受显着的性能下降。为了克服这种大的模拟到真实的泛化差距，一些工作已经提出在像素[27，65，70，71，69]，特征[28，48，29]或输出[55，60，49]的水平上使用对抗学习可替代地，自我训练（a.k.伪标记）也具有深度信息作为显式监督或在适配阶段期间强制附加约束相反，我们通过来自几何视频级线索的自我监督来推断和利用目标通过同时学习这两个域中的深度估计，我们产生足够有鉴别力的特征来执行此任务，同时对目标域和源域之间的分布的一般差异具有鲁棒性2.2. 自我监督学习自监督学习（SSL）最近通过定义辅助任务在特征提取中显示出有希望的结果，仅使用未标记的数据作为输入[20，33，40，57]。典型的辅助任务着眼于重建输入数据的不同方式，例如旋转[20]、补丁拼图[40]或图像着色[33]。只有少数作品使用SSL作为域适应的工具[19，5，53，67]，报告的结果与最先进的技术相去甚远（参见。选项卡. ①的人。[19]提出了一种用于图像分类的目标域上的辅助图像重建任务[19]，而[5，53，67]探索了不同的图像级借口任务以改进标准对抗域适应。在本文中，我们建立在视频中用于单目深度和自我运动估计的自监督学习的最新发展[22，24，51，74]。我们表明，这些SSL任务帮助UDA，利用强大的几何先验的视频，以适应功能在多任务设置。3. 几何无监督自适应我们提出的 geomet 架构图 -无监督域自适应（GUDA）如图所示。二、它由三个网络组成：深度fD：ID（），其获取输入图像I并输出预测深度mapDSemanticfS：IS，其处理相同的输入图像并输出预测的语义图S;以及P〇 sefT：{Ia，Ib}→Tb，其处理一对图像并输出[2019 -05- 27][2019 - 05 - 27][2019 - 05 - 05][2019 - 05 - 05] 在这些a工作时，使用源域中的地面真实标签和目标域中的推断伪标签迭代地训练模型，作为优化循环的一部分进行更新。虽然仍然探索不足，另一个有前途的方向是在源域中使用其他模态，以帮助语义分割到目标域的无监督转移。SPIGAN [35]使用合成深度作为特权信息，在对抗训练期间提供额外的正则化。GIO-Ada [6]在目标域中的样式转移期间使用几何信息，包括深度和表面法线。DADA [61]使用共享编码器在对抗训练期间预测深度和语义分割，并融合深度感知特征以改善语义分割预测。与[6，35，61]相反，我们不仅使用源它们之间的刚性变换T 深度和语义网络工作共享相同的编码器fE：IF，使得fD：fE（I）DandfS：fE（I）两者都将相同的潜在特征F^解码到它们各自的任务中。看到秒4.2体系结构细节。在训练期间，我们采用混合批处理方法，其中在每次迭代时，接收并处理真实R和虚拟V批处理以生成对应的真实R（Sec.3.1）和虚拟V（Sec.3.2）损失，这取决于现有的信息。最终损失定义为：L=LR+λVLV（1）其中λV是用于在优化期间平衡真实损耗和虚拟损耗的系数。下一节将详细介绍如何计算每种损失。8539联系我们我{ }不不⟨⟩LL图2：我们提出的用于几何无监督域自适应的多任务多域GUDA架构的示意图，该架构使用实数的混合批量训练（Sec. 3.1）和虚拟（Sec. 3.2）样品。训练过程中的公共路径（自监督）是蓝色的，而其他路径（灰色）使用合成监督。3.1. 真实（目标）样本处理假设真实世界样本仅包含未标记的图像序列It，其形式为当前帧It和时间连续It-s，，It+s。在所有实验中，我们考虑了s= l的时间上下文，得到int=I t−1，I t，I t+1.为了简单起见，我们还假设所有帧的已知且恒定的相机固有函数K然而，该假设可以放宽到包括投影模型的同时学习[23，58]。接下来[53]，我们在目标域中使用辅助自我监督任务来帮助适应在源域中学习的特征。具体地，已经实现了经由视频中的自监督光度一致性的深度和自我运动学习。给出了预测的深度图D（ t）和图像之间的相关变换T（t）It=It'.π。Dt，Tt'，KΣΣ（3）其中π是由相机几何形状确定的投影运算，并且是双线性采样算子，其是局部次可微的，因此可以用作优化流水线的一部分为了测量重建误差，我们使用标准光度损失[72]，具有结构相似性（SSIM）分量[63]和像素空间中的L1距离，由α= 0加权。八十五：.1−SSIM（It，It）Σ显示出与监督学习竞争的结果在一些领域[24，74]。利用这种洞察力，我们LP（It，It）=α2+（1−α）||It−It||1（4）将我们的目标域损失定义为：LR=LP+λPLLPL（2）其中P是第3.1.1节中描述的自监督光度损失，并且PL是第3.1.2节中描述的可选伪标记损失，具有权重系数λPL。3.1.1自监督光度损失根据先前的工作[16，74]，自监督深度和自我运动目标可以被公式化为新颖的视图合成问题，其中使用来自参考图像的信息来重建目标图像It。8540∈I在上采样到最高分辨率之后，针对每个图像计算该损失，并且在 [22]之后，我们使用自动掩蔽和最小重投影误差来减轻由遮挡和动态对象引起的影响。3.1.2伪标记蒸馏自我训练方法[32，73，78]目前是解决几种不同任务的无监督域适应的主导框架[47]。它们通过使用源域中的监督迭代地细化目标域中的高置信度伪标签来这种域自适应源原则上可以用于通过几何自监督来增强我们提出的域自适应8541LLLLCu，vu，v.ΣΣΣ在这里，我们提出了一个简单而有效的方法来解决这个问题。通过使用预先计算的伪标签作为目标域中的监督，将来自自训练方法（或任何其他UDA方法）的信息添加到GUDA中由此产生的损失类似于在第2节中描述的监督语义损失。3.2.1，使用来自真实样本的预测语义映射S（和从相同输入图像I预先计算的伪标签SPL作为地面实况：LPL=LS（S，SPL）（5）(a) 现实世界的自我监督(b) 综合深度监测(c) 综合深度+常规监管在我们的消融分析中（表2），我们表明，GUDA与来自自训练方法[73]的伪标签监督的组合实现了最佳结果，超过了其他方法，并在语义分割的无监督域适应中建立了新的技术水平。3.2. 虚拟（源）样本处理虚拟样本由输入图像It和相应的图3：来自真实世界样本的合成数据集的表面法线正则化的效果。在（a）中，在训练期间仅使用对真实图像的自我监督。(b)添加了合成深度损失，并且在（c）中添加了我们提出的表面法线正则化损失方差和对数空间误差的加权平方均数∆d=logd−logd：为所有考虑的任务响应密集注释，即深度图D t和语义标签S t。如果顺序数据可用，则我们还假设时间上下文It=一个LD=PdΣ∈D ∆d2−2λP2∆dd∈D（八）{It−1，It，It+1}，对应的地面真实刚性变换帧之间的距离Tt={T t−1，Tt+1}，且常数其中P是具有有效深度的像素d∈D的数量t t照相机内部函数K. 监督的可用性允许在源域中学习语义和深度任务，将该信息编码到共享编码器fE和相应的解码器fD和fS中。我们将源域损失定义如下：LV=LD+λSLS+λNLN+λPPLPP（6）哪里S是有监督的语义损失（Sec.3.2.1）、D是受监督的深度损失（Sec.3.2.2），N是表面法向正则化项（第3.2.2节）。3.2.3），并且PP是可选的部分监督的光度损失（第3.2.3节）。3.2.4），每个由其相应的系数加权。3.2.1监督语义丢失在[66，43]之后，我们使用预测的S和地面真实S标签之间信息.系数λ平衡方差和误差最小化，并且遵循先前的工作[34]，我们使用λ= 0。85在所有实验中3.2.3曲面法线正则化由于深度估计是在每个像素的基础上产生的，因此通常会强制执行额外的平滑损失[21]以保持局部一致性。在这里，我们提出了平滑度损失的替代方案，其利用合成数据集中可用的密集深度监督，并最小化由地面实况和预测深度图产生的表面法向量之间的差异。请注意，与其他方法[11，39]不同，我们没有明确预测表面法线作为额外的任务，而是将其用作正则化以在预测的深度图中实施某些结构属性。对于任何像素p∈D，其表面法向量n∈R3计算为：一个LS= −KΣ1[c=yu，v，pc

下载后可阅读完整内容，剩余1页未读，立即下载