基于多视点几何的单视点深度的动态交通场景单目场景流量估计方法

136 浏览量更新于2023-10-13 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2780Mono-SF：多视点几何满足单视点深度的动态交通场景单目场景流量估计Fabian Brickwedde1，2 Steffen Abraham1Rudolf Mester3，21 Robert Bosch GmbH，Hildesheim，Germany2VSI实验室，CS部门，德国法兰克福歌德大学3挪威开放人工智能实验室，CS部门(IDI)，NTNU特隆赫姆，挪威法比安·布里克韦德Steffen.Abraham}@ de.bosch.com摘要现有的3D场景流估计方法提供了场景的3D几何形状和3D运动，并且例如在自动驾驶的背景下获得了很多关注。这些方法传统上基于立体图像的时间序列。在本文中，我们提出了一种新的单目三维场景流估计方法，称为单SF。Mono-SF通过组合多视图几何和单视图深度信息来联合估计场景的3D结构和Mono-SF基于多视点几何的原理，在连续图像中扭曲参考图像方面，认为场景流应该是一致的。为了以统计方式集成单视图深度，提出了一种称为ProbDepthNet的卷积神经网络ProbDepthNet从单个图像而不是单个深度值来估计逐此外，作为ProbDepth-Net的一部分，提出了一种用于回归问题的新的重新校准技术，我们的实验表明，Mono-SF优于最先进的单眼基线，消融研究支持Mono-SF方法和ProbDepthNet设计。1. 介绍在诸如移动机器人或自主车辆的应用中，利用周围环境的表示，例如，完成导航任务。从计算机视觉的角度来看，图像中像素的3D位置和运动被表示为3D场景流[59，60]，其传统上基于立体图像的时间序列来估计[4，44，61]。在这项工作中，我们提出了一种新的场景流量估计方法，单SF，单目摄像机设置专注于动态交通场景。单目摄像机系统通常优于立体摄像机，因为其成本效益更高，并且避免了校准的努力3D场景模型图1.用于单目场景流量估计的Mono-SF概述Mono-SF联合优化一组平面的3D几何形状与刚体的6D运动，考虑a）通过将参考图像扭曲成连续图像的光度距离，b）由ProbDepthNet提供的概率深度分布和c）场景模型平滑度先验。安装立体声设备然而，3D场景流估计是一个不适定的问题，在单目摄像机设置。为了解决模糊性，以前的单目方法假设移动物体与周围环境接触[6，8，51]，或者场景遵循关于表面和运动的平滑先验[36，46，66]。这些假设可能会被违反，并且该方法仍然需要相机相对于场景的相对平移运动。与基于多视图几何的方法相比，提出了方法（例如，[10，14，19]），其以合理的质量水平从单个图像提供然而，单视图深度估计和多视图几何大多数被处理为两个单独的任务，或者以仅适用于静态场景的方式融合[12，54，71]。我们提出的Mono-SF方法在概率优化框架中将多视图几何与单视图深度信息相结合，以提供一致的3D场景流估计。因此，这两种类型的信息都被开发，并且单视图深度用于解决基于多视图几何的模糊性。图像+实例蒙版Prob-深度网络概率深度分布深度不确定6D运动光度距离刚体三维平面个超像素概率优化深度一致性深度一致性深度不确定性t=1t=02781以前的方法[4，44，45]表明，特别是交通场景的合适表示是分解为3D平面表面元素，每个元素分配给一个刚体。刚体可以是背景，也可以是潜在的运动物体。在该模型之后，Mono-SF联合估计每个平面的3D几何形状和每个刚体的6D运动，考虑a）通过将参考图像扭曲成连续图像的多视图几何形状，b）概率性单视图深度估计，以及c）场景模型平滑度先验（参见图2）。①的人。此外，利用实例分割来检测潜在移动对象的集合。作为额外的贡献，我们提出了ProbDepth-Net，这是一种卷积神经网络（CNN），它从单个图像而不仅仅是单个深度值（如[10，14，19]）中估计像素概率深度分布。然而，过度自信估计的问题是分类中的一个众所周知的问题[21]，它通常在回归的概率方法中被忽略[17，31，32，34]。因此，我们提出了一种新的重新校准技术：Cal- ibNet，ProbDepthNet的一个小的后续部分，在训练数据的保留分割上进行训练，以补偿过拟合效应并提供良好校准的分布。我们的Mono-SF方法根据几种最先进的单眼基线进行了评估此外，ProbDepthNet被验证为提供良好校准的深度分布。我们的实验表明，几个以前的概率方法遭受过度自信的估计ProbDepthNet用于在Mono-SF中集成单视图深度信息的适用性得到确认，特别是由于以概率和良好校准的形式提供单视图深度信息的重要性。2. 相关工作这里介绍的与方法有关的工作分为三类：第一类是基于立体的场景流方法，它启发了我们的Mono-SF场景模型和优化框架。第二类提供了包括基线方法的用于单目场景重建的方法的概述。最后，概率深度学习的类别代表了与ProbDepthNet的概率设计相关的工作。立体场景流：场景流估计是由Vedula等人介绍的。[59，60]作为联合优化的3D几何和运动的场景的基础上，一个se-立体图像序列。大多数变分方法随后被用于扩展场景流概念[3，25，29，50，58，64，65]。然而，Vogel etal.[61]是的，首先，在动态交通场景的各自任务上，显著优于单独的立体声和光流方法。它们将动态场景表示为刚性移动平面表面元素的集合，并考虑场景模型先验，联合优化每个平面的几何形状和运动。Menze等人[44]通过一组刚性移动对象来制定问题，并通过每个平面的几何形状联合优化它们的运动。如果平面与对象的关联由[4]中提出的实例分割支持，则这种表示特别有益。我们的Mono-SF模型对应于这些方法，称为对象[44]或实例场景流[4]，但Mono-SF仅使用单眼图像。单目场景重建：传统的单目场景重建是基于运动恢复结构（SfM）原理。基于SfM的方法可分为几类：首先，基于刚性SfM的方法基于刚性场景与相机的相对运动来估计刚性场景的3D几何形状，例如，静态场景和移动摄像机[11，13，47，48，57]。其次，非刚性SfM原理通常用于推导单个对象的变形[7，16，20]。第三，多体SfM是单独重建场景的各个移动部分的概念[36，51]。然而，重建的绝对和相对尺度一般是未知的需要场景模型假设来解决这种尺度模糊性，例如移动物体与周围环境接触[6，8，51]，或者场景遵循关于表面和运动的平滑度[36，46，66]。即使单视图深度估计的想法到目前为止并不新鲜[27，40，52]，真正的突破是通过使用深度学习方法实现的。Pioneering，Eigen等人[10]提出了一种CNN，它以监督的方式训练，并以粗略到精细的方案估计深度。之后，提出了各种自监督和非监督方法，使用立体设置[15，19]或单目图像序列[42，62，75，76]中的图像重建损失。Fu等人[14]将深度估计公式化为有序回归问题，这导致了[56]报告的KITTI深度预测基准中的当前领先方法。提出了多任务CNN，其沿着深度估计光流[55，70，73，77]。因此，两个任务通过组合的训练损失而彼此受益。DeMoN [57]还可以在推理期间利用多视图信息进行深度然而，它仅聚焦并应用于静态场景，因为它仅估计整个场景的单个相机而单视图深度估计和多视图几何大多被视为单独的任务，少数作品结合两者。单视图深度估计可以用于单目视觉里程计中的尺度估计[2，69，71]或与静态视觉里程计中基于SfM的深度估计融合。2782环境[12，54，71]。Kumar等人[37]在类似于[ 36 ]的基于多体或非刚性SFM的方法中使用单视图深度估计进行深度初始化。Brickwedde等人[5]提出了单视图深度估计和光流的融合与这些方法相比，Mono-SF被公式化为场景流估计问题，并且集成了概率性单视图深度分布而不是单深度值。概率深度学习：在前一节中提到的单视图深度估计的方法不提供不确定性测量或概率分布，深度估计的一部分。Kendall和Gal [32]区分了两种不确定性，即认知不确定性和任意不确定性。认知不确定性对应于模型参数的不确定性或模型生成训练数据的无知，而任意不确定性指的是输入数据中的噪声[32]。Malinin等人[43]通过引入分布不确定性来表示分布外数据，扩展了该定义为了估计回归问题中任意不确定性的程度，已经提出了不同的策略。首先，可以通过最小化训练数据上的负对数似然来学习概率分布[32，34]。Second，Ilg等.[31]提出了一个单一的网络，被推到估计一组互补的假设。因此，任意的不确定性被这些假设的经验分布编码。第三，Gast和Roth [17]用概率层替换了每一层，以通过网络传播输入不确定性。这里提出的ProbDepthNet方法属于用单个网络和单个干扰估计任意不确定性的范畴，如[17，31，32，34]。对于分类问题，Guo et al.[21]表明，现代神经网络倾向于在训练数据上过拟合，这导致高度过度自信的估计。提出了重新校准技术来补偿这种影响[21，35，49]。3. 方法单目场景流估计方法Mono-SF在概率优化框架中将多视图几何与概率单视图深度信息相结合。首先，描述了一种称为ProbDepthNet的CNN，它以概率和良好校准的形式提供单视图深度信息。其次，提出了Mono-SF模型和优化框架.3.1. 概率单视图深度估计为了以统计方式整合Mono-SF中的单视图深度估计因此，ProbDepthNet的主要目标不是提供单一的深度估计，ProbDepthNet左图像深度网µ 0...µKs 0. SKλ0 λKµ 0...µK是的。SKλ0... λK右图像损耗LSGM完成lidar点云深度分裂校准分流器损耗LCalibNet图2.用于概率单视图深度估计的ProbDepthNet概述该体系结构由两部分组成：用于重新校准的深度网和校准网（蓝色）。两个部分都提供了一个参数化形式（μi，si/si和λi/λi）的混合高斯-sians每个部分使用负对数似然损失（橙色）在训练数据的不同分割上进行训练。地面实况数据由基于立体SGM [26]完成的激光雷达点云（绿色）提供估计，而是提供给定输入图像I的每个像素p的深度的概率密度函数。深度由其逆形式d=Z−1编码，其中Z是相机坐标中3D位置的z坐标可能-DepthNet估计逐像素概率密度函数p p（d|I）参数化为高斯混合：ΣKpp（d|I）=λ i·N（d− µ i，σ i）（1）i=1K表示分量数，λi是权重，µi是均值，σi是第i个分量的方差与单一高斯分布相比，混合模型能够捕获更一般的分布，例如多峰分布。但是，高斯的混合更是示例性的选择，并且也可以使用概率分布的其他参数化。图 2给出了架构、训练过程和地面实况生成的概述。ProbDepthNet 由两部分组成： DepthNet 和CalibNet 。 DepthNet 是一个完全卷积的 ResNet-50[24]，在相应的编码器和解码器层之间具有跳过连接深度网络的输出是高斯混合的参数，其中方差在对数空间si= logσi中提供。此外，深度网络的方差si和权重λi由CalibNet重新校准，其输出相应的重新校准值si和λi。CalibNet仅由五个1×1卷积层组成：一个没有非线性激活函数的层提供缩放的版本的输入和剩余路径与四层包括指数线性单位作为激活函数。所有层的特征的数量等于输入的数量，把2K。这两个网络都是在不同的训练数据分割上训练的，以避免深度网络在calibra上的过度拟合分裂。负对数似然损失L最小化2783不我j ji不在类似于[32，34]的训练中：刚体的6D运动Tj平面的3D法线niΣL=u，v∈GTΣ-日志.ΣKi=1ΣΣλiN（dGT−µi，σi）（二）图3.Mono-SF模型变量与能量最小化u，v∈GT是图像中具有有效地面真实深度值dGT的所有像素，µi，λi，σi是训练网络的输出。为了克服激光雷达数据在密度、距离和视场方面的局限性首先，将激光雷达点云投影到图像上，并去除不一致的测量值以处理遮挡问题。其次，通过使用基于SGM的方法[26]考虑两个立体图像之间的光度距离来完成这些稀疏深度图。ProbDepthNet通过在训练过程中观察深度分布来学习估计逐像素深度分布。因此，深度分布捕获了关于Kendall和Gal理论的任意不确定性[32]。任意不确定性被认为是许多视觉应用中最主要的不确定性[32]。实验结果表明，CalibNet用于重-问题是移动对象（在左图像中着色）和背景的6D刚体运动Tj以及超像素平面（在右图像中的边界）的3D缩放法线n1。通常，每个超像素与一个刚体相关联并且与对应超像素的像素Ri相关联能量最小化问题：的主要思想单SF是场景几何形状和运动在连续图像I1中扭曲参考图像I0方面应该是一致的，并且与深度分布p（d）一致|I0）和p（d |1）由ProbDepthNet提供。形式上，Mono-SF联合优化每个刚体Ti的6D运动和每个平面ni的3D法线作为能量最小化问题。能量项E由每个像素p0的一元数据项Φ（p0，ni，Tj）和每两个平面n k的成对平滑项Φ（ni，nj）组成并且nl在图像k中相邻，l∈ N：校准也适用于类似于[17，31]的不同概率方法。Σ ΣE=nip0∈RiΦ（p0，ni，Tj）+Σk，l∈Nn（nk，nl）（3）3.2. 单目场景流本节介绍Mono-SF优化框架，结构如下：首先，描述了场景分解为分段平面表面元素和刚体。其次，将优化公式化为能量最小化问题，其组合a）基于多视图几何的光度距离，b）ProbDepthNet的概率单视图深度估计和c）场景模型平滑度先验。最后给出了优化问题的推理和初始化Tj是对应于平面ni的刚体。一元项Φ（p0，ni，Tj）由两部分组成.首先，Φpho（p0，ni，Tj）最小化像素p0与其在连续图像中的投影位置之间的基于外观的光度距离。第二，Φsvd（p0，ni，Tj）优选与时间t= 0和t= 1处的ProbDepthNet的估计深度概率一致的3D位置：Φ（p0，ni，Tj）= Θ0 Φpho（p0，ni，Tj）Σ+ Θ Φsvd（p，n，T）（4）单目场景流模型：根据以前的目标场景流方法[4，44，45]，主要假设1tt∈{0，1}0ij是，特别是，交通场景可以近似由一组分段平面表面元素来表示场景的结构和一组刚体来表示运动（见图1）。（3）第三章。形式上，参考图像被划分成一组超像素，每个超像素表示3D图像。飞机每个3D平面由其法线ni∈R3定义，并由平面到相机的反比距离进行通过nTX= 1对平面上每个点的3D位置X进行编码。刚体集包括背景以及其他交通参与者，例如通过实例分割检测到的行人或车辆。即使行人不经历刚体运动，在一定尺度下，也可以通过其主导刚体变换来近似[45]。每个刚性物体由其6D运动Tj∈SE（3）表示。Addi-这些项分别由Θ0或Θ1加权。光度距离Φpho（p0，ni，Tj）将两个相应图像位置p0和p1的相似性评定为在τ0处截断的其各自5 × 5普查描述符[74]的汉明距离。第二图像I1中的相应图像坐标p1由考虑3D法线ni和相应刚体Tj的运动的同态[ 22 ]定义：p1=K（R−tnT）K−1p0（5）Rj和tj是将Tj分解为旋转矩阵和平移向量。K是固有相机矩阵。项Φsvd（p0，ni，Tj）基于ProbDepthNet估计对像素p 0的深度的一致性进行评级。2784不0不1t tt不而在时间t= 0时的深度d0（p0，ni）直接由相应的缩放法向矢量ni定义，需要考虑相应刚体Tj的运动以导出在时间t= 1时的深度d1（p0，ni，Tj）。两个深度值都由ProbDepthNet为其各自的图像It和图像坐标pt提供的概率的负对数似然来评级：Φsvd（p0，ni，Tj）=−logpp（d t（p0，ni，Tj）|（ 6 ）图像坐标 p1 再次如等式（ 1 ）中定义。（五）、前面的数据项包括单视图深度信息和基于多视图几何的光度距离。此外，类似于[ 44 ]，场景模型先验被集成为成对平滑项，摄影机的自我运动这里应用的关键思想是整合单视图深度信息以提供度量尺度。与[2，69，71]相比，我们将此想法附加地应用于移动对象的尺度感知姿态估计。首先，使用简单的投票方案，基于稀疏流对应（pi，pi）[18]对由Mask R-CNN [23]（[63]的实现）检测到的图像I0和I1每个对象实例以及背景都构建一个刚体。第二，6D运动每个刚体的Tj∈SE（3）与一组3D点Xi∈ X（一个点对应于位于相应实例掩码中的每个流对应）联合优化，Σ ΣΘ4Φproj（pi，Xi，Tj）+ Φsvd（Xi，Tj）。（十）k lXi∈Xt∈{0，1}- 根据深度dkd（nk，nl）来推断平滑结构，以及定向矩阵（nk，nl），每个部分由Θ2或Θ3加权：Φproj（pi，X，T）是X关于RE-t tiji图10示出了由Θ4加权的基于流的图像位置P1的切面。n（nk，nl）= Θ2πd（nk，nl）+ Θ3πori（nk，nl）（7）对于每个共享边界像素p0∈ Bk，平面nk的l，n-1，深度差被惩罚：Σ10.2.1.1.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2|d0（p0，nk）− d0（p0，nl）|，τ1）p0∈Bk，l（八）类似地，通过测量法向量nk和nl的相似性，优选图像中相邻平面的平滑取向：不Φsvd（Xi，Tj）将3D点Xi与ProbDepthNet估计的一致性评级为类似于等式（六）、的Eq的能量项使用在[38]中实现的Levenberg- Marquardt求解器优化公式（10随后，初始化3D平面的集合。首先，基于与[1，67]类似的适于单目情况的半全局匹配来同样，深度估计还由ProbDepthNet估计进行评级。其次，使用该方法初始化包括其3D法线ni的最小值（n，n）=min.Σ|nknl|1−，τ（九）在[68]中。平面的像素被强制为相同的实例以获得与刚体的唯一关联。KL||n||||n||2K L4. 实验两个平滑项均被τ1或τ2截断，以考虑深度或方向的不连续性，例如在不同对象之间。超参数Θ和τ根据刚体类型、背景或对象而不同地定义，并且对于与不同刚体相邻的平面而不同地定义。为了便于阅读，在前面的公式中忽略了这些依赖关系。推论：场景流估计被公式化为等式中的能量最小化问题。（三）、假设合适的初始化，这将在下一节中讨论，可以应用迭代优化方法福尔-根据所提出的对象场景流方法的优化[4，44]，粒子最大乘积置信度传播用于10次迭代，其中每个6D刚体运动具有5个粒子，每个3D法向量具有10个粒子。初始化：优化问题需要对所有变量进行适当的初始化. 在第一步中，初始化一组刚体，包括它们的比例感知6D运动传统上，已知的相机高度或附加的惯性测量单元用于汽车领域中的尺度感知单目视觉里程计。但是，这仅提供以下方面的比例信息在本节的第一部分中，分析了ProbDepthNet：显示了ProbDepthNet的定性结果，介绍了其他数据集的生成能力，消融研究证实了重新校准技术对提供良好校准分布的重要性。在第二部分中，Mono-SF优化框架通过显示定性结果和相对于几种最先进的方法的定量此外，两项消融研究证实了Mono-SF的Prob-DepthNet设计，并支持Mono-SF单个组件的重要性。4.1. 概率单视图深度估计实验在针对KITTI场景流训练集训练的ProbDepthNet模型上进行[45]。该模型在KITTI原始数据集的33个序列上进行训练，这些序列不是场景流集的一部分大约75%/ 25%的序列用于训练DepthNet /Cal。ibNet。它使用Adam优化器训练了15个 epoch，学习率为10- 4，每5个epoch减半，小批量为4。将输入图像缩放到2785深度网络深度网络+校准网络DepthNet（Hypo[31]）DepthNet（Hypo[31]）+CalibNetDepthNet（ADF[17]）DepthNet（ADF[17]）+CalibNet完美校准+CalibNet图像地面真实深度平均深度µ0偏差s0Recali b。变异性s100图4.KITTI场景流集合[44]上的ProbDepthNet的示例性估计，用于高斯混合的第一分量，不包括权重。颜色从近（红色）到远（蓝色）或从高方差（红色）到低方差（蓝色）对逆深度进行编码图5. ProbDepthNet（在KITTI上训练）在Cityscapes [9]（顶部）和Make3D [53]（底部）的中央裁剪上的泛化。该图显示了基于第一个分量的平均深度值μ0（中间）和重新校准的对数方差sμ0（右侧）的形式。的512×256和具有8个分量的高斯混合。图4示出了ProbDepthNet的示例性输出。这些差异在视觉上与场景中具有挑战性的部分相关，例如对象边界或极点。CalibNet提供的估计重新校准的方差s_0显著高于方差s_0。为KITTI训练的ProbDepthNet的泛化能力通过图中Make3D [53]和Cityscapes [9]数据集的定性结果进行了可视化。五、更多定性结果和讨论，请参见参考资料以下消融研究通过添加在保持分裂上训练的CalibNet来分析拟定的重新校准。我们建议通过最小化负对数来训练适用于不同的概率方法。对于Mono-SF中的集成，模型还在Cityscapes上进行了预训练[9]。与之前用于单视图深度估计的非概率方法（如[14，19，39]）相比，ProbDepthNet的主要优点是提供了校准良好的深度分布。然而，除了纠正不确定性之外，基本估计数还应具有足够的质量。定量评估（见补充材料）表明，由分布的总平均值表示的深度估计的准确性与[19，39]相当，略低于[14]。4.2. 单目场景流Mono-SF从聚焦于动态交通场景的单目图像估计3D场景流，这意味着提供每个像素的3D位置和3D运动以下结果和评价基于等效值-0−1−2−30 5000 10000 15000 20000 25000 30000 35000 40000训练步骤似然（NLL）与[32]中的方法有关。但对提供了不同概率方法的比较，深度网络部分也使用类似于[ 31 ]的多假设策略（“Hypo [ 31 "）进行训练，图6示出了每1000个训练步骤的KITTI场景流集合（其不是训练数据的一部分）上的平均NLL。在图的底部图中。6、对最终模型的标定进行了评价。给定间隔内的地面实况深度值的频率应与估计分布的累积概率相同过度拟合效应的影响在不同的方法中有所不同此外，CalibNet被验证为有用的重新校准技术1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0 0。00。2040608个1. 0置信区间图6.上图：训练过程中KITTI场景流集上ProbDepth-Net的平均负对数似然（NLL）;下图：校准图，比较位于给定置信区间内的该频率等于完美校准模型的置信区间（虚线）。通过包含CalibNet进行重新校准，可以补偿过拟合效应，并实现更好的校准模型。深度网DepthNet+CalibNet DepthNet（Hypo[31]）DepthNet（Hypo[31]）+CalibNetDepthNet（ADF[17]）DepthNet（ADF[17]）+CalibNet+CalibNet平均NLL频率2786[19，30]第五届中国国际机器人展览会图7.单目场景流估计方法在KITTI场景流训练集上的示例性定性结果[44]。每个场景的顶行显示了时间t= 0（左半部分）和t= 1（右半部分）的深度值，颜色从近（红色）到远（深蓝色）。光流在每个场景的底行中可视化。为了可视化的目的，对地面实况进行插值。方法MREBGD1FG所有BGD2FG所有BGFLFG所有BGSFFG所有[73]第七十三话20.08 47.03 63.41 49.54 56.25 68.82 58.17 32.43 67.69 37.83 67.69 91.41 71.32DF-Net [77]18.95 44.43 57.94 46.50 61.55 61.47 61.54 25.66 37.45 27.47 71.63 82.52 73.30所有像素[70]-23.62 27.38 26.81---25.34 28.00 25.74---[19]第十九话：一个人的世界9.06 25.33 19.83 24.49 35.83 26.15 34.34 9.40 14.22 10.14 40.55 35.17 39.73[14]第14届中国国际航空航天博览会[编辑11.18 17.02 37.54 20.16 30.08 40.47 31.67 4.016.764.43 32.57 46.89 34.76DMDE [51]14.6------------S.汤[36]12.68------------MFA [37]11.82------------Mono-Stixels [5]8.04 18.28 22.06 18.86 22.00 31.19 23.41 9.84 14.36 10.54 24.03 39.13 26.34Mono-SF（我们的）8.14 15.64 22.72 16.72 17.93 24.71 18.97 12.20 9.90 11.85 20.19 29.40 21.60MRE：t=0时的平均相对深度误差（上限为50 m）; D1和D2：t= 0.1时的视差误差;F1：光流误差; SF：场景流误差fg：前景（移动）; bg：背景（静态）; all：bg + fg ;†：用于训练的数据集部分（不考虑排名）;误差以百分比表示，见表1。在KITTI场景流训练集上对单目场景流方法进行定量评估[45]。这些方法分为四组：第一，多任务CNN;第二，结合光流和单视图深度估计作为单独的任务;第三，基于多体或非刚性SfM的方法;第四，融合单视图深度信息与多视图几何形状。Lent表示为在两个时间（t= 0，t= 1）的每个像素的深度和光流。由此，评估3D位置和基于其3D运动从t= 0到t= 1预测3D点的方法的能力KITTI [45]（见图7）和Cityscapes数据集[9]（见图8）显示了Mono-SF的示例性定性结果。更多结果请参见补充材料定量评估基于KITTI场景流数据集[45]，其报告了时间t= 0（D1）和t= 1（D2）处的深度和光流（F1）的误差频率如果估计值超过了图8. Mono-SF对Cityscapes作物的示例性定性结果（移除汽车引擎盖）;左：第一个输入图像，中间：在时间t= 0（左半部分）和t= 1（右半部分）的估计深度值，右：估计光流3个像素的阈值和在立体视差或光流端点误差方面的5%。此外，如果估计满足所有D1、D2和F1度量，则仅将其定义为有效场景流估计（SF）所有的指标分别评估移动对象（fg），静态场景（bg）和两者的组合（所有）。我们提出了四类最先进的单眼基线方法。第一类是多任务网络，GeoNet [73]，DF-Net [77]和EveryPixel[70]。这些CNN以无监督的方式进行训练，能够为图像和光流估计提供单视图深度估计对于GeoNet和DF-Net，使用其发布的代码和模型。EveryPixel方法的结果在他们的论文中陈述[70]（D2度量被排除在外，因为它似乎不一致）。作为第二类，单视图深度估计由于“DORN”的已发布模型深度流量深度流场景1场景22787能源条款结果表2.KITTI场景流测试集上的Mono-SF结果与一些基于立体的场景流估计方法一致。和第三组包括基于多体或非刚性SfM的方法DMDE [51]和S.Soup [36]。第四类由方法MFA [37]、Mono-Stixel[5]和我们的Mono-SF方法组成，这些方法是将单视图深度信息与多视图几何融合的方法DMDE、S.Soup和MFA仅使用平均绝对相对误差（MRE）对其上限为50m的深度估计进行了评估对于Mono-Stixel方法，作者提供了一个场景流度量的结果，使用CIMFlow [30]和LRC [19]作为输入。定量评价的结果如表1所示。据我们所知，这是第一次，这些方法作为一个场景流量估计问题进行评估和比较。结果表明，第四组方法，结合单视图深度和多视图几何优于其他方法。Mono-SF在大多数指标上显示出最好的评级，特别是在场景流（SF）指标上优于以前的方法Mono-SF的方法和实现目前不关注运行时间，并且在单个CPU核心上每个图像需要大约41秒。Mono-SF还提交了KITTI场景流基准测试（见表2）。Mono-SF是第一种单目方法，在21种已发表的立体场景流方法中排名第13位。4.3. 消融研究为了分析所提出的ProbDept-Net设计的重要性，在Ta中提供了基于不同单视图深度估计的四个Mono-SF变体的结果。方法D1-全部D2-全部F1-全部SF-全部Mono-SF（LRC [19]）22.36 26.29 15.10 30.96Mono-SF（无问题）深度）25.49 28.80 15.04 33.59Mono-SF（无重新校准）20.32 23.37 15.50 26.91单SF16.72 18.97 11.85 21.60表3. Mono-SF的ProbDepthNet消融研究。对于整合单视图深度信息，ProbDepthNet比LRC更适合于单视图深度估计（对“（LRC [ 19 ]）”的改进深度）对于Mono-SF。表4. Mono-SF入路的消融研究。使用Mono-SF优化改进了场景流估计与其初始化的一致性（由没有复选标记的行表示）。能量最小化问题的每一项（光度量距离（Φpho）、单视图深度（Φsvd）和平滑先验（Φ svd））都对最终性能有贡献。ble3.两种Mono-SF变体“Mono-SF（LRC [ 19 ]）”和“Mono-SF（w/o prob. depth）”利用仅提供单视图深度值而不是深度分布的CNN。而“Mono-SF（LRC[19]）”基于用于单视图深度估计的LRC方法，“Mono-SF（w/o prob.深度）”是基于由分布的总平均值表示的ProbDepthNet的非概率估计。通过假设所有像素具有相同的高斯分布（在测试集上基于概率 ProbDepthNet 的 Mono-SF （ “Mono-SF”）优于两者。这支持所要求保护的ProbDepthNet设计以概率形式提供单视图深度估计。此外，与基于不包括 CalibNet“Mono-SF （ w/orecalib. ） ” 的ProbDepthNet的变体相比，支持重新校准技术是必不可少的组成部分。在表4中，通过移除所提出的能量最小化问题的一些部分（将它们的权重设置为零）来分析Mono-SF优化框架的各个组件。Mono-SF的初始化描述见第3.2由没有复选标记的行表示。与这种初始化相比，Mono-SF的场景流计算得到了进一步的改进。此外，烧蚀研究表明，能量项的每一部分都对最终性能有贡献;多视图几何形状、单视图深度信息和场景模型平滑度先验。5. 结论在本文中，我们提出了Mono-SF的联合估计的三维几何和运动的特定的交通场景相结合的多视图几何和单视图的深度信息。对于合理的统计积分，我们展示了以概率和良好校准的形式提供单视图深度信息的重要性，这是通过我们提出的包括新的重新校准技术的ProbDepthNet实现的。ΦphoΦSVDΨD1-所有D2-全部Fl-allSF-all---18.7221.3015.1825.92C--21.2023.4113.8526.11CC-18.6521.1013.3123.67CCC16.7218.9711.8521.60方法D1-全部D2-全部F1-全部SF-全部[41]第四十一话2.554.044.736.31ISF [4]4.465.956.22八点零八分[28]第二十六话：一个人6.8415.6024.98美元2788引用[1] Min Bai ， Wenjie Luo ， Kaustav Kundu ， and RaquelUrtasun.利用语义信息和深度匹配实现光流。欧洲计算机视觉会议（ECCV），第154-170页。施普林格，2016年。5[2] Dan Barnes ， Will Maddern ， Geoffrey Pascoe ， andIngmar Posner.分心的：城市环境中鲁棒单眼视觉里程计的自我监督干扰学习。IEEE International Conferenceon Robotics and Automation（ICRA），第1894-1900页。IEEE，2018年。二、五[3] Tali Basha，Yael Moses，Nahum Kiryati。多视图场景流量估计：一种以视图为中心的变分方法。International Journal of Computer Vision，101（1）：62[4] Aseem Behl ， Omid Hosseini Jafari ， Siva KarthikMustikovela，Hassan Abu Alhaija，Carsten Rother，andAndreas Geiger.边界框、分割和对象坐标：在自动驾驶场景中识别3D场景流估计有多重要？IEEE计算机视觉和模式识别会议（CVPR），第2574-2583页，2017年。一、二、四、五、八[5] Fabian Brickwedde，Steffen Abraham和Rudolf Mester。利用单一图像深度预测进行单轴像素估计。欧洲计算机视觉研讨会（ECCV Workshops）IEEE，2018年。三、七、八[6] Fabian Brickwedde，Steffen Abraham和Rudolf Mester。Mono-Stixels ：动态街景的单目深度重建。在 procIEEEInternationalConferenceonRoboticsandAutomation（ICRA），第1-7页。IEEE，2018年。一、二[7] NeilBrikbeck，DanaCobzas，andMartinJagersand. 深度和场景流从一个单一的移动相机。3D数据处理、可视化和传输国际研讨会论文集，2010年。2[8] Sebastian Bullinger ， Christoph Bodensteiner ， MichaelArens，and Rainer Stiefelders.基于环境结构约束的单目视频三维车辆轨迹重建。欧洲计算机视觉会议（ECCV），第35-50页，2018年。一、二[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉和模式识别会议（CVPR），第3213-3223页，2016年。六、七[10] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在proc 神经信息处理系统进展（NeurIPS），第23

下载后可阅读完整内容，剩余1页未读，立即下载