单目几何场景理解的多任务框架：全景分割和自监督单目深度估计

64 浏览量更新于2023-10-13 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15804MGNet：用于自动驾驶的单目几何场景理解乌尔姆大学测量、控制与微技术研究所{markus.schoen，michael.buchholz，klaus.dietmayer} @ uni-ulm.de摘要我们介绍MGNet，monocular几何场景理解的多任务框架我们将单目几何场景理解定义为两个已知任务的组合：全景分割和自监督单目深度估计。全景分割不仅在语义上而且在实例的基础上捕获整个场景。自监督单目深度估计使用从相机测量模型导出的几何约束，以便仅从单目视频序列测量深度。据我们所知，我们是第一个提出将这两项任务结合在一个单一模型中的人。我们的模型的设计重点是低延迟，以提供快速的推理，实时在一个单一的消费级GPU。在部署过程中，我们的模型产生密集的3D点云与实例感知se-mantic标签从单个高分辨率相机图像。我们在两个流行的自动驾驶基准上评估我们的模型，即，Cityscapes和KITTI，并在其他实时方法中显示出源代码可以在https：//github上找到。com/markusschoen/MGNet.1. 介绍场景理解是自动驾驶感知系统的重要组成部分，因为它为诸如多对象跟踪或行为规划的更高级别的功能提供必要的信息。语义分割的最新进展[5，42，61，67，81，85]和基于深度神经网络的实例分割[22，25，39，69，70]显示出出色的结果，而快速模型[9，13，26，51，78]集中于优化用于等待时间关键的应用的速度-准确性折衷，例如，熟练驾驶。新的任务经常出现，使感知系统向全场景理解迈进了一步，但也增加了任务的复杂性。这些任务之一是全景分割[32]，语义和实例分割的组合。语义分割的重点是材料类，即非晶区(a) 输入图像（b）全景分割(c)单目深度估计（d）3D点云图1：我们的模型的示例预测，（a）被馈送到网络的输入图像，（b）在输入图像之上的全景预测，（c）单目深度估计，以及（d）由网络实时生成的最终3D点云例如天空或道路，而实例分割集中于事物类，即，可计数的物体，如汽车、自行车或行人。全景分割处理的东西和事物类，不仅提供了唯一的类标签的每个像素的图像，但也可数对象的实例ID。全景分割是自动驾驶车辆中实现场景理解的重要一步，因为它不仅提供了对象遮罩，还提供了有趣的变形区域，如可行驶的道路空间或人行道。然而，绝大多数[3，7，12，31，36，38，40，46，5272，73，76]的全景分割方法集中于高质量而不是推理速度，使得它们不适合于车载集成到自主车辆感知系统中。只有少数方法[9，13，26，51]已被提出在低延迟制度。另外，二维图像平面中的基于相机的测量限制了自主车辆中的全景分割模型的能力。2D像素位置不足以用于诸如行为规划之类的高级系统来推理当前环境。相反，需要3D表示。15805单目深度估计[11]通过从单个相机图像预测每像素深度估计来解决这个问题使用该深度信息，来自图像的像素可以被投影到3D空间中。基于相机的深度估计是一个病态问题，由于相机测量模型，使其成为一个非常具有挑战性的任务来解决。此外，难以获得准确的深度注释。立体相机可以提供深度信息，但是需要两个相机之间的精确校准。另外，所得到的深度图像是有噪声的，在更远的距离处是不准确的，并且具有立体匹配失败的许多缺失区域相比之下，激光雷达传感器提供具有高精度的距离测量。测量结果可以被投影到图像平面中并用作标签，但是这同样需要传感器之间的精确校准和同步。生成的深度图像要精确得多，但非常稀疏。因此，最近的方法遵循使用立体图像[14，16]，视频序列[2，19，20，45，64，75，82在训练期间。训练目标被制定为基于几何约束的图像合成问题。组合多个任务可能需要大量资源。为每个任务训练单独网络的简单方法可以在低资源环境中快速达到硬件限制因此，多任务学习[1]出现在单个网络中组合多个任务，以减少目标硬件上的延迟和内存需求。虽然联合任务训练可以潜在地提高单一任务的表现，但它也带来了自身的困难，例如，损耗平衡和梯度冲突。在这项工作中，我们介绍了单目几何场景理解的任务，全景分割和自我监督的单目深度估计的组合我们提出了一个多任务框架，我们称之为MGNet，以解决这个新的任务，重点是延迟。MGNet将最先进的方法Panoptic Deeplab [7]和Monodepth2 [17]的思想与轻量级网络架构相结合。自监督单目深度估计公式化在训练期间仅需要视频序列，从而将我们从难以获取地面实况数据的需要中释放出来。因此，我们的模型可以使用来自单个相机的数据进行训练。我们提出了[75]中介绍的密集几何约束模块（DGC）的改进版本，使用我们的全景预测进行尺度感知深度估计。与[3]类似，我们为视频序列帧生成伪标签，这减少了全景分割所需的注释帧多任务设置隐含地约束模型学习两个任务的统一表示，并减少了整体延迟。我们使用[29]中介绍的同方差不确定性加权，但采用了一种新的加权方案，结合固定和可学习的任务权重，以改善多个任务绩效在部署过程中，我们的模型使用单个相机图像作为输入，生成具有实例感知类标签的3D点云。图1显示了我们模型的预测示例。我们在Cityscapes [8]和KITTI [15]上评估了我们的方法，并且能够在延迟方面优于以前的方法，同时保持有竞争力的准确性。具体来说，在Cityscapes上，我们在全分辨率上实现了55.7PQ和8.3 RMSE，30 FPS分辨率 1024×2048 像素图像。在 KITTI 上，我们在384×1280 像素的图像上实现了 3.761 的 RMSE 和 82FPS。2. 相关工作由于，据我们所知，还没有组合算法存在，我们讨论的相关工作分别为领域的全景分割和自我监督的深度估计。此后，我们讨论了相关工作领域的多任务学习场景理解。2.1. 全景分割引入全景分割[32]来统一语义和实例分割的任务。自上而下的方法[6，31，36，40，46，52大多数方法采用Mask R-CNN [22]头，结合用于语义分割的单独分支和用于处理冲突的合并模块例如，Mohan和Valada[46]提出了Mask R-CNN的新变体以及新的融合模块，以实现最先进的结果。相比之下，自下而上的方法[3，4，7，12，66，76]是无命题的。例如，PanopticDeepLab [7]将实例遮罩表示为像素偏移和中心关键点。一个有效的合并模块被用来将logit分组为最终实例掩码。以前的作品[3，4，55，66]建立在这个简单而强大的框架上，证明了它的灵活性。我们的工作还使用Panoptic DeepLab框架作为基础。最近，出现了用于端到端全景分割的第一种方法[38，65]。与以前的作品相比，这些方法直接预测全景分割图使用的东西和事物类的统一表示。例如，Wanget al. [65]引入了MaX-DeepLab ，这是一种新型架构，它使用掩模Transformer头扩展了Axial-DeepLab [66]。然而，他们的方法计算要求高，使其不适合实时应用。仅存在关注实时全景分割的少数作品Hou等人[26]通过提出一种具有高效数据流的新型全景分割网络，我们的模型具有相似的性能，同时解决了自我监督的单目深度估计的额外任务。15806××2.2. 自监督单目深度估计Zhou等[84]是第一个提出仅使用单目视频序列进行监督的深度估计训练方案的人该思想是通过使用预测的深度估计和预测的帧之间的相对姿态来从视频序列中的相邻帧合成然后使用光度损失将合成帧与当前帧进行比较。在训练期间，使用不同尺度的多个深度图来减轻从低纹理区域学习的影响。自监督深度学习的假设是静态环境中的移动相机，并且帧之间没有遮挡。此外，由于光度损失的模糊性质，深度只能预测到未知的比例因子。从那时起，许多作品[2，17，19，20，37，43，45，64，75，82，83，86]大大推进了这一领域。例如，Godardet al.[17]建议在损失计算之前对多尺度深度图进行上采样，并使用最小光度误差来解决遮挡问题。此外，他们提出了一种自动掩蔽策略，以避免在低纹理区域和动态对象区域中出现无限深度的洞Xue等人[75]建立在[17]的基础上，并提出了一个DGC来估计基于几何约束的比例因子我们将[75]的基本思想纳入我们的框架中，但引入了利用我们的全景预测的DGC的改进版本一些作品专注于结合语义[21，34]或全景[57]标签图，以显式提升自监督深度图的性能。相比之下，我们的方法使用多任务优化来隐式地提高单任务性能。2.3. 多任务学习多任务学习[1]的出现是为了通过在单个网络中组合多个任务来节省计算资源。此外，一次学习多个任务可以提高泛化能力，并导致比单任务性能更好的结果。存在许多作品，其在多任务设置中处理用于场景理解的不同任务[18，28，29，48，55，63，68，69]。74、79、80]。Goel等人[18]提出了QuadroNet，这是一种实时模型，可以预测2D边界框，全景分割和单个图像的深度。虽然与我们在预测方面的工作类似，但它们以完全监督的方式训练深度，在训练期间需要视差或激光雷达地面实况。一些工作在多任务框架中结合语义分割和自监督深度估计Klingner等人[33]表明自监督深度和监督语义分割联合训练可以提高模型的性能并增加噪声鲁棒性。我们的模型不结合语义分割，而是panoptic segmenta- tion与自我监督的深度估计。3. 方法在本节中，我们描述了我们的MGNet框架，以在单个有效模型中联合处理全景分割和自监督单目深度估计的任务。图2给出了我们的框架的概述。下面几节将详细解释我们框架的不同部分。3.1. MGNet网络架构我们的MGNet架构被设计为一个编码器-解码器结构，具有一个共享编码器和三个特定于任务的解码器。编码器：编码器由一个特征提取主干组成，它以不同的尺度提取图像级特征，最大输出步幅为32。主干可以很容易地切换，因此我们在第4节中比较了不同的轻量级主干的整体性能和延迟。此外，我们在主干的最后一个特征图的顶部添加全局上下文模块（GCM）。GCM使用全局平均池化从输入图像中提取细粒度特征。任务特定解码器：特定于任务的解码器都共享相同的结构。对于全景分割，我们使用两个解码器，如[7]中所提出的，一个用于语义分割，一个用于实例分割。单个解码器用于自监督深度估计的任务。我们利用来自[78]的注意力细化模块（ARM）和特征融合模块（FFM）以高效和有效的方式组合来自不同尺度的特征与[78]类似，我们在主干的最后两个特征图上使用两个ARM，并将它们与全局上下文模块生成的细粒度特征添加在与[78]相比，我们不遵循使用用于低级特征的空间路径和用于高级特征的上下文路径的双边特征编码。我们发现，双边的方法并没有提高性能，但增加了延迟的整体模型。相反，我们使用一个跳过连接prop- agate低级别的功能，从骨干到解码器，并将它们与高级功能的FFM。头部模块：我们在每个解码器中添加简单的头模块来生成 logits 。所有磁头共享相同的结构，使用33conv，然后是11conv，以将特征通道大小映射到最终的logits通道大小，例如用于语义分段的语义类的数量。与[7]类似，我们通过其质心和指向中心的像素2D偏移向量对实例进行我们使用一个单独的头用于实例中心和偏移回归，但共享实例任务的解码器。由深度头产生的对数通过如[17]中所使用的S形激活。15807ΣL−×3x3转换1x1转换到解码器语义中心语上采样上采样3x3 Conv 3x3 Conv语义解码器3x3转换1x1转换实例中心头实例全景分组融合上采样3x3转换功能主干上采样3x3转换实例解码器3x3转换1x1转换输入帧It实例偏移头上采样上采样3x3 Conv3x3 Conv深度解码器3x3转换1x1转换DGC3D投影深度水头后处理R，t构成CNN主头对数最终预测仅培训模块输入帧It-1、It、It+1不确定性参数损失计算辅助头部LogitsFFM臂臂FFMGCM臂臂FFM臂臂图2：我们的MGNet框架概述我们使用一个轻量级的骨干编码的图像特征，并采用全球上下文模块（GCM），以最大限度地提高接受领域。三个任务特定的解码器被用来融合不同尺度的骨干功能，使用注意力细化模块（ARM）和功能融合模块（FFMs）。任务特定头将融合特征转换为对数。对象实例被表示为实例中心和逐像素偏移，即，二维向量，表示到实例中心的x-y偏移。后处理将实例分组到给定偏移预测的最近中心，并基于多数投票分配语义类。深度预测首先使用密集几何约束模块（DGC）缩放，然后用于将全景预测转换为最终的3D点云预测. 预测相邻相机帧It-1、It和It+1之间的6个DOF姿态的姿态网络、用于多视图光度损失的辅助头以及用于多任务优化的不确定性参数仅在训练期间使用3.2. 多任务优化全景分割：我们遵循Panoptic DeepLab方法[7]，并使用[76]中首次引入的加权自举交叉熵损失进行语义分割N每个实例中心的2D高斯热图具有8个像素的固定西格玛，并使用均方误差（MSE）损失进行优化。对于实例掩码预测，我们进一步通过其到对应实例中心的偏移向量来编码属于事物类的像素。我们使用L1损失的偏移矢量预测的优化。我们每一个人，都有自己的烦恼。哪里seg=1ωK i=1·1[p]i，yi100ms。使用外部数据的方法，即[47]第47话，是一个很好的比喻。方法DS决议吸光度相对值↓RMSE↓δ<1。25↑δ<1。252↑δ<1。253↑SfMLEarner [84]CS+K416 ×128416 ×128416 ×128416 ×128640 ×192640 ×192640 ×1921280 ×3840.1766.1290.7580.9210.971[45]第四十五话CS+K0.1345.5010.8270.9440.981GeoNet [77]CS+K0.1325.2400.8830.9530.985DDVO [64]CS+K0.1264.9320.8510.9580.986EPC++[43]K0.1204.7550.8560.9610.987单深度2 [17]K0.0903.9420.9140.9830.995SynDistNet [35]K0.0763.4060.9310.9880.996[20]第二十话CS+K0.0713.1530.9440.9900.997我们CS+K1280 ×3840.0953.7610.9020.9790.992表4：我们的方法与最先进的自监督深度估计方法在KITTI 2015本征分裂上的比较，距离高达80米。我们使用[62]中改进的地面实况图进行比较。4.3. 消融研究我们对Cityscapes进行消融研究。首先，我们比较了四个轻量级骨干，即Mo-bileNetV 3 [27]，MNASNet100 [59]，EfficientNetLite 0 [60]和ResNet 18 [23]。结果报告于表1中。ResNet18在PQ和FPS方面表现最好，而在 RMSE 方面仅略差于 EfficientNetLite0 。MobileNetV3和MNASNet100的表现明显更差。因此，我们使用ResNet18作为所有进一步实验的骨干。此外，我们研究了表2中的多任务训练、不确定性加权和视频序列训练的效果与两个单独的单任务模型相比，具有固定权重的朴素多任务设置提高了RMSE，但降低了PQ。然而，增加不确定性权重，我们看到了0.1%PQ和0.7m RMSE的改善，与单任务基线相比通过添加视频序列训练，我们可以进一步将性能提高到55.7 PQ和8.3 RMSE。4.4. 城市景观我们将我们的最终模型与表3中Cityscapes验证集上的最先进方法在PQ和端到端运行时方面进行了比较。为了公平的运行时比较，我们只推断我们的全景分割网络部分，并报告未优化的性能。我们的模型是最快的模型，总的端到端运行时间为44毫秒，与第二快的方法相比快了30%以上。考虑到所有其他型号的运行时都是在更快的GPU上报告的在PQ方面，与顶级执行方法存在很大差距。这并不奇怪，因为这些方法使用比我们的方法更重的架构需要超过100ms。与具有MobileNetV 3主干的Panoptic DeepLab [7]相比，这是文献中与我们的方法最相似的变体，我们的模型提供了更好的速度-准确性权衡，PQ提高了0.3%，运行时间提高了30%以上Hou等人[26]说明一个15812×××(a) 输入图像（b）全景分割（c）单目深度估计（d）3D点云图3：来自Cityscapes和KITTI数据集的不可见图像的定性结果。列（从左到右）分别示出了输入图像、全景预测、单眼深度估计和最终3D点云预测。为了更好的可视化，在3D点云中省略了实例前两行显示Cityscapes数据集上的预测，而最后两行显示KITTI数据集上的预测。在他们的论文中，优化的运行时间为30 FPS，与我们优化的网络一样快然而，我们的模型还以自我监督的方式预测深度。我们在图3中示出了我们的方法对来自Cityscapes数据集的未看到的图像的定性结果。4.5. KITTI对于KITTI，我们使用来自Cityscapes的最佳模型在KITTI训练集上生成伪标签。这使我们能够在完整的本征分裂上进行训练，并结合优化这两个任务，类似于Cityscapes。我们再次使用额外的不确定性权重来平衡损失项。我们的方法对来自KITTI数据集的不可见图像的定性结果我们报告了深度估计的定量结果，并将其与表4中KITTI本征分裂的其他自监督方法进行比较。与以前的方法相比，我们的模型与Monodepth2 [17]相当，并且超过了大多数其他以前的方法。只有两种方法，PackNet-SfM [20]和Syn-DistNet [35]，能够始终优于我们的模型。PackNet-SfM使用更重的网络架构，在全分辨率1280 384像素图像上仅达到6.25 FPS。相比之下，我们的方法在全分辨率图像上达到82 FPS，因此具有实时能力。SynDistNet使用带有明确语义指导的多任务方法虽然SynDistNet不能执行全景分割，但模型显示，与隐式方法相比，显式方法可以进一步提高单任务性能。5. 结论在这项工作中，我们介绍了单目几何场景理解的任务，作为全景分割和自监督深度估计的组合。为了解决这个复杂的任务，我们引入了MGNet，这是一种高效的架构，它通过将两个领域的最先进概念与轻量级网络架构仔细结合来实时运行。我们在Cityscapes和KITTI上评估了我们的模型，并显示出具有竞争力的结果。在Cityscapes上，我们在1024 2048像素的图像上以30 FPS实现了55.7 PQ和8.3 RMSE 在KITTI上，我们在384张 1280 像素的图像上实现了 3.761 的RMSE 和82FPS。虽然与我们的工作相比，最先进的方法在单个任务上提供了更高的准确性，但它们不适合实时应用，例如自动驾驶我们希望我们的工作能启发研究人员进一步研究单目几何场景理解的任务。未来的研究可以集中在使用自监督方法进行全景分割，将相关任务（如3D对象检测）集成到框架中，或者使用显式方法研究任务之间的关系以提高单任务性能。确认本研究在项目UNICARAgil（FKZ 16EMO0290）中完成。我们感谢德国联邦教育和研究部（BMBF）对该项目的财政支持。15813引用[1] 瑞奇 · 卡鲁阿纳多任务学习。Machine learning ， 28（1）：41[2] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测在AAAI人工智能会议论文集，第33卷，第8001-8008页[3] Liang-Chieh Chen ， Raphael Gontijo Lopes ， BowenCheng ， Maxwell D Collins ， Ekin D Cubuk ， BarretZoph，Hartwig Adam，and Jonathon Shlens.天真学生：在视频序列中利用半监督学习进行城市场景分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第695-714页Springer，2020年。[4] Liang-Chieh Chen，Huiyu Wang，and Siyuan Qiao.缩放用于全景分割的宽残差网络 arXiv 预印本 arXiv ：2011.11675，2020。[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页。Springer，2018.[6] Yifeng Chen ， Guangchen Lin ， Songyuan Li ， OmarBourahla，Yiming Wu，Fangfang Wang，Junyi Feng，Mingliang Xu，and Xi Li.Banet：具有用于全景分割的遮挡处理的双向聚合网络。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。[7] Bowen Cheng，Maxwell D Collins，Yukun Zhu，TingLiu，Thomas S Huang，Hartwig Adam，and Liang-ChiehChen. Panoptic-deeplab：用于自下而上全景分割的简单、强大且快速的基线。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。[9] D. de Geus、P.Meletis和G.杜伯曼快速全景分割网络。IEEE Robotics and Automation Letters，5（2）：1742[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition（CVPR），第248- 255页[11] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展（NeurIPS），第27卷。Curran Associates，Inc. 2014年[12] Naiyu Gao ， Yanhu Shan ， Yupei Wang ， Xin Zhao ，Yinan Yu，Ming Yang，and Kaiqi Huang. Ssap：具有亲和金字塔的单次实例分割。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年。[13] Naiyu Gao，Yanhu Shan，Xin Zhao，and Kaiqi Huang.学习- ING类别和实例感知像素嵌入快速全景分割。IEEE图像处理学报，30：6013[14] Ravi Garg，Vijay Kumar Bg，Gustavo Carneiro，and IanReid.单视图深度估计的无监督cnn：Geome-尝试拯救。在欧洲计算机视觉会议（ECCV）的会议记录中，第740施普林格，2016年。[15] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 InternationalJournalofRoboticsResearch（IJRR），2013。[16] Clement Godard，Oisin Mac Aodha，and Gabriel J.兄弟-拖。具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

单目几何场景理解的多任务框架：全景分割和自监督单目深度估计

单目深度估计与双目深度估计谁好

单目深度估计kitti

基于单目视觉的深度估计方法

如何由lambert模型做单目深度估计

单目深度估计 有什么高精度的方法

使用单目视觉测量深度

opencv 单目视觉

单目3D目标检测国内外研究现状

YOLOv8跟踪分割+单目测距（python）

improving sea-thru with monocular depth estimation methods

基于OpenSfM的单目三维重建实现详细步骤

单目视觉的三维目标检测算法

three.js全景框架

three.js 全景 场景切换

帮我写一段介绍基于单目/立体图像的3D目标检测方法的发展（用文献的形式呈现出其一步步发展点）要求具备全面详细概括性、关键重要性

YOLOv3+单目测距

基于单目视觉的三维目标检测

mobileeye单目视觉测距原理

单目测距算法matlab代码实现

JAVA+access综合测评系统毕业设计(源代码+论文+开题报告+任务书).zip

最新资源

单目深度估计有什么高精度的方法

three.js 全景场景切换