基于RGB和稀疏感知的深度估计

182 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于RGB和稀疏感知的深度估计赵晨[0000−0002−6681−4053]、维贾伊·巴德里纳拉亚南[0000−0002−3297−7495]、吉拉德·德罗兹多夫[0000−0002−6660−6481]、安德鲁·拉比诺维奇[0000−0003−3078−6705]Magic Leap，Sunnyvale CA 94089，USA{zchen，vbadrinarayanan，gdrozdov，arabinovich}@ magicleap.com抽象。我们提出了一个深度模型，可以准确地产生密集的深度图给定的RGB图像与已知的深度在一个非常稀疏的一组像素。该模型同时适用于室内/室外场景，并在NYUv 2和KITTI数据集上以近乎实时的速度生成最先进的密集深度图。我们超越了国家的最先进的单眼深度估计，甚至与深度值对于每10000个图像像素中只有1个，并且我们在所有稀疏级别上都优于其他稀疏到密集深度方法。带深度值-使用1/ 256的图像像素，我们在室内场景中实现了小于实际深度的1%的平均误差，与消费级深度传感器硬件的性能相当。我们的实验表明，它确实是可能的，有效地转换稀疏的深度测量获得使用，例如。低功率深度传感器或SLAM系统转换成高质量的密集深度图。关键词：稀疏到密集深度，深度估计，深度学习。1介绍高效、准确和实时的深度估计对于虚拟/混合现实、自动驾驶车辆和机器人等领域的各种场景理解应用至关重要。目前，消费级Kinect v2深度传感器的功耗为15W，只能在室内有限范围内工作。4. 5米，并在增加的环境光下降解[8]。作为参考，VR/MR头戴式深度相机将需要消耗1/ 100的功率，并且在RGB相机的全FOV和分辨率下具有1- 80 m的范围（室内和室外）这样的要求提供了联合开发节能深度硬件和深度估计模型的机会我们的工作开始从这个角度来解决深度估计。由于其固有的尺度模糊性，单目深度估计是一个挑战性的问题，最先进的模型[4，17]仍然在流行的大规模NYUv2室内数据集上产生>12%的这样的误差对于诸如3D重建或跟踪的应用是禁止的，并且与诸如Kinect的深度传感器相比非常差，Kinect在室内具有大约1%的相对深度误差[14，25]2Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich图1：从稀疏到密集深度。 RGB图像和非常稀疏的深度图被输入到深度神经网络中。我们获得高质量的密集深度预测作为我们的最终输出。认识到单目深度估计的局限性，我们提供了我们的深度模型，其具有稀疏量的测量深度以及RGB图像（参见图1B）。1）以便估计完整深度图。这样的稀疏深度解决了深度标度模糊性，并且可以从例如飞行时间传感器[8]中的稀疏照明模式、可靠的立体匹配、LiDAR类传感器或定制设计的稀疏传感器。我们表明，所得到的模型可以提供与现代深度传感器相当的性能，尽管只观察到一小部分的深度图。我们相信我们的研究结果可以激励更小，更节能的深度传感器硬件的设计。因为现在的目标是使稀疏深度图（具有附加线索）致密化从RGB图像），我们称我们的模型为深度致密化，或D3。我们的D3模型的一个优点是，它适应任意稀疏的深度输入模式，其中每一个可以对应于一个相关的物理系统，TEM。稀疏深度的规则网格可以来自较低功率的深度传感器，而诸如ORB [27]或SIFT [21]的某些兴趣点稀疏模式可以从现代SLAM系统[23]输出。在这项工作的主体中，我们将专注于规则网格模式，因为它们易于解释并且与现有深度传感器硬件直接相关，尽管我们在补充材料中详细介绍我们对深度估计领域的贡献如下：1. 一种用于密集场景深度估计的深度网络模型，其精度可与传统深度传感器相媲美。2. 一种同时适用于室内和室外场景的深度估计模型，对常见的测量误差具有鲁棒性。3. 一种灵活、可逆的稀疏深度输入参数化方法，可在训练和测试期间适应任意稀疏输入模式2相关工作在深度学习出现之前，深度估计已经在计算机视觉中得到了解决[28，29];然而，产生全分辨率逐像素预测图的编码器-解码器深度网络架构[1，20]的普及使得深度神经网络特别适合于该任务。这种进步基于RGB和稀疏感知的深度估计3已经刺激了对深度估计的深度方法的一系列研究，无论是通过融合CRF与深度网络[37]，利用几何和立体一致性[5，16]，还是探索新的深度架构[17]。计算机视觉中的深度通常用作执行其他感知任务的组件深度估计的第一种方法之一还同时估计多任务架构中的表面法线和分割[4]。其他多任务视觉网络[3，12，34]也通常使用深度作为补充输出，以提高整体网络性能。使用深度作为显式输入在计算机视觉中也很常见，在跟踪[30，33]，SLAM系统[13，36]和3d重建/检测[7，19]中有大量应用。对于高质量的深度图显然存在迫切的需求，但是当前的深度硬件解决方案是耗电的，具有严重的范围限制[8]，并且当前的传统深度估计方法[4，17]未能实现取代这样的硬件所必需的精度。这些挑战自然会导致深度致密化，这是一种将深度学习的力量与节能的稀疏深度传感器相结合的中间地带。深度致密化与深度超分辨率有关[10，31]，但是超分辨率通常使用双线性或双三次下采样深度图作为输入，并且因此仍然隐含地包含来自低分辨率图中的所有像素的信息这种附加信息对于真正的稀疏传感器是不可访问的[22]和[23]中的工作遵循更困难的致密化范例，其中仅提供测量深度的几个像素我们将证明我们的致密化网络优于[22]和[23]中的方法。3方法3.1用于稀疏深度输入的我们希望的稀疏深度输入，可以容纳任意的稀疏输入模式的参数化。这应该允许在训练和测试期间不仅在不同的深度模型中而且甚至在相同的模型中改变这样的模式因此，与其直接将高度不连续的稀疏深度图馈送到我们的深层致密化（D3）模型（如图11所示），1），我们提出了稀疏深度输入的更灵活的参数化。在每个训练步骤中，我们参数化的输入是：1. I（x，y）和D（x，y）：RGB矢量值图像I和地面实况深度D。这两个地图的尺寸都是H×W。D中的无效值被编码为零。2. M（x，y）：尺寸为HXW的二进制图案掩模，其中M（x，y）= Ide。精细（x，y）我们所需深度样本的位置M（x，y）被预处理，使得M（x，y）= 1的所有点必须对应于有效深度点（ D（x，y）>0）。(see算法1）。根据I、D和M，我们形成用于稀疏深度输入的两个映射S1（x，y）和S2（x，y）。S2（x，y）。这两个地图都有维度H×W（见图1）。2为例）。4Z. Chen，V. Badrinarayanan，G. Drozdov和A. RabinovichR算法1用于深度加密（D3）模型的稀疏输入输入图像I（x，y）、深度D（x，y）和图案掩模M（x，y）。对所有（x，y）初始化S1（x，y）= 0，S2（x，y）= 0.对于r：=（x，y）s. t. D（r）= 0且M（r）= 1：rnew=argmin′||r− r′||2秒。t. D（r′）>0;（||·||2denotestheL2norm. ）M（r）= 0;M（ r_new）= 1;ENDFOR（所有深度位置现在都有效。）对于r：=（x，y）：rnearest=argmin′||r′− r||2秒。t. M（r′）=1;RS1（x，y）=D（r最近）;S2（x，y）= D（r最近）结束OUTPUT串联（S1，S2）√||2个; ||2;图2：各种稀疏模式。 NN填充图S1（顶行）和采样模式欧几里得距离变换S2（底行）被示出用于规则和不规则稀疏模式。S2中的暗点对应于我们可以访问深度信息的像素。–S1（x，y）是稀疏深度M（x，y）* D（x，y）的NN（最近邻）填充。–S2（x，y）是M（x，y）的欧氏距离变换，即当M（x ′，y ′）= 1时，n（x，y）与t（x′，y ′）之间的L2距离.稀疏深度输入的最终参数化是S1（x，y）和S2（x，y）的级联，总维度为HXWX2。该过程在算法1中描述参数化是快速的，最多涉及两个欧几里德变换。由此产生的神经网络映射S1是非零无处不在，使我们能够处理的致密化问题作为一个残差预测相对于S1。距离图S2通知模型关于图案掩模M（x，y），并且充当模型应当输出的残差幅度的先验（即，距离具有已知深度的像素更远的点往往会导致更高的残差）。包含S2可以大大提高模型性能和训练稳定性，特别是当在训练期间使用多个稀疏模式时（见5.3节基于RGB和稀疏感知的深度估计5在这项工作中，我们主要关注规则的网格模式，因为它们是高覆盖率的稀疏地图，能够与先前的工作（如[22]中）进行直接比较，这些工作通常假设网格状稀疏模式，但我们的方法完全推广到其他模式，如ORB（参见补充材料）。3.2稀疏模式选择对于规则的网格图案，我们试图通过在X和y方向上的后续图案点之间强制相等的间距来确保在选择图案掩模M（x，y）时的最小空间偏差。这导致稀疏深度图S1中的正方形区域的棋盘图案（参见图1B）。2）的情况。当一个深度模型必须适应不同分辨率的图像时，这种策略是方便的，因为我们可以简单地将M（x，y）中的正方形图案从一个分辨率扩展到下一为了便于解释，我们将始终使用接近整数级下采样的稀疏模式;对于A×A的下采样因子，我们将H*W/A的值设为2维。如果在480×640图像上进行24 × 24下采样，这将是总像素的0.18%。根据经验，我们观察到改变稀疏模式是有益的M（x，y）。对于期望的N个稀疏点的最终图案，我们在Nsparse（t）=Ne-0的过程中执行低密度扫描。0003t+Nf或训练步长0≤t≤ 80000。这样的时间表以期望稀疏模式密度的六倍开始训练，并且随着训练的进行而朝着最终密度平滑地衰减。与静态稀疏模式相比，使用此衰减时间表时，我们看到训练L2我们还可以在每个训练步骤中使用随机变化的采样密度进行训练。我们在第5.3节中展示了这一点，从而产生了一个在不同采样密度下同时表现良好的4实验装置4.1架构我们基于我们的网络架构（见图1）。3）在[2]中使用的网络上，但使用DenseNet [9]块代替Inception [32]块。我们根据经验发现，我们提出的模型在整个深度网络中携带稀疏深度信息至关重要，DenseNet的残差性质非常适合这一要求。为了获得最佳结果，我们的架构保留了多个分辨率的特征图，以便在解码阶段添加回网络。图中的每个块3表示DenseNet模块（见图3）。3插图用于精确模块示意图），除了第一个和最后一个块，它们是简单的3x 3步幅-2卷积层。稀疏输入[S1，S2]的副本被呈现为每个模块的附加输入，被下采样到适当的分辨率。每个DenseNet模块由2L层和每层k个特征图组成;我们使用L = 5和k = 12。在下采样/上采样块处，最终卷积具有步幅2。将网络的（残差）输出添加到稀疏输入图S1以获得最终深度图估计。6Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich图3：D3网络结构.我们提出的多尺度深度网络将与 S1和 S2级联的RGB图像作为输入。第一个和最后一个计算块是简单的3x 3步幅-2卷积，但所有其他块都是DenseNet模块[9]（见插图）。网络中的所有卷积层都是批量归一化[11]和ReLU激活的。网络输出残差，该残差被添加到稀疏深度图S1以产生最终的密集深度预测。4.2数据集我们对室内和室外场景进行了广泛的实验。对于室内场景，我们使用NYUv2 [24]数据集，它提供了使用Kinect V1传感器拍摄的高质量480×640深度数据，范围高达10米。使用标准方法[18]填充缺失的深度值。我们使用249/215训练/验证场景的官方分割，并从训练场景中采样26331张图像。我们用水平翻转进一步增强训练集我们测试的标准验证集的654个图像与其他方法进行比较。对于户外场景，我们使用KITTI道路场景数据集[35]，其深度范围高达85m。KITTI提供了超过80000张图像用于训练，我们进一步增加了水平翻转。我们在完整的验证集上进行测试（约10%的训练集大小）。KITTI图像的分辨率为1392×512，但我们在训练过程中随机选取480×640个作物，以便与NYUv2数据进行联合训练640个水平像素是随机采样的，而480个垂直像素是图像底部的480个像素（因为KITTI只提供朝向地面的LiDARGT深度KITTI中使用的LiDAR投影产生非常稀疏的深度图（每个图像仅标记<10%的深度），并且我们仅在GT深度的点上评估我们的模型。4.3一般培训特点和绩效考核在我们所有的实验中，我们使用Tensorflow 1.2.1在4个Maxwell TitanXGTX GPU我们培训80000批，从基于RGB和稀疏感知的深度估计71 e-3的学习速率，每25000步使学习速率衰减0.2我们使用Adam [15]作为我们的优化器，并使用标准的像素级L2损失进行训练。使用标准度量[4，23]来评估我们的深度估计模型相对于stivalidGTdepth值。LetybetepredicteddepthanddyteGTdepth.对于N个像素在该数据中。我们认为：（1）R_（root）M_（e）是一个S_q_ar_e_r。r或（RΣMSE）：1[y−y]2，（2）MeanAbsoluteRelativeError（MRE）：100|yˆ−y| 得双曲正弦值.N N yyyi（3）DeltaThresholds（δ）：|{y}|max（y，y）<1. 二十五日|. δ是与h相关的像素的值我|联系我们|我在由常数i控制的阈值下的相对误差。5结果和分析在这里，我们提出的结果和分析的D3模型的室内（NYUv2）和室外（KITTI）数据集。我们进一步证明了D3是强大的输入错误，也推广到多个稀疏输入模式。5.1来自NYUv2的图4：NYUv2数据集上的性能。RMSE和MRE绘制在左侧（越低越好），而δi绘制在右侧（越高越好）。我们的D3模型在所有稀疏情况下都能实现最佳性能，而室外数据（D3混合）的联合训练只会导致轻微的性能损失。从表1中，我们可以看到，在所有模式稀疏度下，与[23]和[22]2中的结果相比，D3网络为所有度量1提供了卓越的性能。1使用0.18%稀疏度训练的模型在37 K图像的较大NYUv 2测试集上表现非常好：RMSE0.116m/MRE 1.34%/δ1 99.52%/δ2 99.93%/δ3 99.986%。2由于[22]中的结果是在NYUv2 val集的一个小子集上计算的，因此度量归一化到每个工作8Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich表1：NYUv2上的D3性能RMSE和MRE越低越好，而δi越高越好。NNFill对应于使用稀疏映射S1作为我们的最终预测。如果没有提供稀疏深度，则D3模型达不到[4]和[17]，但即使在0.01%的采样点处，D3模型也比最先进的非稀疏方法提供了显着的改进此外，与其他稀疏深度方法相比，D3在所有输入稀疏度下的表现模型%点下采样RMSE MREδ1δ2δ3采样因子（m）（%）（%）（%）（%）Eigen等人[4]美国0N/A0.64115.876.995.098.8Laina等人[17个]0N/A0.573 12.7 81.1 95.3 98.8D3无稀疏0N/A0.71122.37 67.32 89.68 96.73NN填充0.01196×960.586 11.69 86.895.898.4D3（我们的）0.01196×960.318 7.20 94.2 98.9 99.8Ma等人[23日]0.029∼59×590.3517.892.898.499.6NN填充0.04348×480.383 6.23 94.42 98.20 99.35D3混合（我们的）0.04348×480.2173.7797.90 99.65 99.93D 3（我方）0.04348×480.1933.2198.31 99.73NN填充0.17424×240.250 3.20 97.599.399.8Lu等人[22日]-24×240.171----D3混合（我们的）0.17424×240.1311.7699.31 99.90 99.98D 3（我方）0.17424×240.1181.4999.45 99.92 99.98Ma等人[23日]0.289∼19×190.234.497.199.499.8NN填充0.39116×160.1922.1098.599.699.88Lu等人[22日]-16×160.108----D 3（我方）0.39116×160.0870.9999.72 99.97 99.99D3混合网络的准确性度量表示在NYUv2（室内）和KITTI（室外）数据集上同时训练的网络的NYUv2结果（更多细节请参见第5.4节）。我们看到，将具有显著不同语义的户外数据集合并，只会导致准确性的轻微下降图4具有额外稀疏性的比较结果，并再次证明我们的训练模型比其他最近的方法更准确。在 16×16 下采样时，我们的绝对平均相对误差下降到 1% 以下（0.99%）。此时，我们的D3模型的误差变得与消费级深度传感器的误差相当图5（a）呈现了在GT深度的不同值处的相对误差的更详细的曲线图。我们的模型在最常见的室内深度（约2- 4米）表现良好，如图2中的直方图所示。5（b）。在更远的深度处，MRE恶化，但是这些深度值在数据集中更罕见。这表明，使用更平衡的数据集也可以提高这些MRE值。基于RGB和稀疏感知的深度估计9表2：D3和其他架构的时序.假设稀疏度为0.18%并使用1 MaxwellTitan X评估模型。D3网络与其它高效网络结构相比，具有最低的RMSE一个超薄版的D3运行在一个接近实时的16fps的VGA分辨率。模型L kRMSE FPS正演(m)合格模型L kRMSE FPS正演(m)合格D 35 120.118 100.11SegNet [1] - -0.1505 0.20D33 8 0.127130.08ENet [26] - -0.237二十五点零四D32 6 0.131160.06(a)（b）第（1）款图5：在不同深度的NYUv2 MRE性能。（a）不同稀疏程度下在0.39%稀疏度下，平均MRE小于1%，这与深度传感器相当（b）验证数据集中GT深度的直方图;较高的相对误差对应于较罕见的深度值。我们在NYUv2数据集上的网络预测的可视化如图6所示。在高度稀疏的48×48下采样下，我们的D3网络已经显示出比没有任何稀疏输入的普通网络有了显着的改进。我们在这里注意到，尽管网络输出作为残差添加到具有许多一阶不连续性的稀疏映射，但最终预测看起来平滑并且相对没有尖锐边缘伪影。事实上，在图的最后一列6，我们可以看到我们的网络产生的直接残差预测也包含尖锐的特征，这些特征抵消了稀疏映射中的非平滑性。5.2计算分析在表2中，我们显示了在0.18%采样点处各种模型的前向传递时间和准确度我们的标准D3模型（L= 5，k= 12）实现了最低的误差，每个VGA帧每次正向通过的时间为0.11s。较薄版本的D3网络会导致轻微的精度下降，但仍优于其他众所周知的高效架构[1，26]。我们D3的基准速度10Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich图6：NYUv2上的D3预测的可视化。左栏：采样RGB和GT深度。中间列：顶部为稀疏S1图，底部为不同稀疏度的D3网络预测.Vanilla网络表示没有稀疏输入（单目深度估计）的情况。最后一列：D3残差预测（与S1求和以获得最终预测）和最终估计相对于GT的误差图距离越远，误差越大电阻率以灰度绘制，上限为|δ|≤ 1，可视化更好;它们表现出与S1相似的尖锐特征，显示了D3模型如何抵消S1的非平滑性。因此，网络可以接近全分辨率480×640输入的实时速度简单地说，以半分辨率操作将导致我们更纤薄的D3网络以>60fps的实时速度操作这种速度对于深度是场景理解的关键组成部分的许多应用领域是重要的5.3将D3推广到多种模式及S2我们训练一个D3网络与不同的输入稀疏性（均匀采样之间的0.065%和0.98%的点）为每一批。图图7（a）示出了相对于0.18%和0.39%稀疏度模型，该多稀疏度D3网络如何单稀疏度训练的D3网络在它们被调整的稀疏度附近可预测地表现最好。然而，多稀疏性D3网络仅在这些稀疏性上表现稍差，并且在远离其训练稀疏性值的情况下显著优于显然，一个随机的基于RGB和稀疏感知的深度估计11(a)（b）第（1）款图7：多稀疏D3模型。(a)随机采样网络在每次迭代时都使用不同的稀疏模式（0.065%和0.98%之间的点采样）进行训练，并且在所有稀疏度水平下都表现良好，而在其特定的稀疏度下仅略优于单密度网络。（b）在包括和不包括距离图S2的情况下训练的D3模型的验证损失曲线（对于0.18%采样点）。S2显然对稳定性和性能至关重要，特别是在使用复杂模式时间表进行训练采样时间表有效地规范了我们的模型，同时在所有稀疏在很大的范围内。这种鲁棒性在其中在相同设备中使用不同测量模式的场景中可能是有用的包含距离图S2为我们的网络提供了稀疏模式的空间信息，当稀疏模式在训练期间发生变化时，这一点尤其重要。图图7（b）显示了使用和不使用S2训练的D3网络的验证L2损失曲线。S2将相对L2验证损失提高了34.4%，并且当稀疏模式在训练期间随机变化时，极大地稳定了训练。对于慢衰减采样时间表（即我们的大多数D3网络使用的是什么），改进是8.8%，甚至对于静态采样时间表（图的底部）。（2）2.8%的改善。因此，包含距离图对于很好地训练我们的模型显然是必不可少的。5.4将D3推广到室外场景我们将我们的模型扩展到具有挑战性的户外KITTI数据集[35]。我们所有的KITTI D3模型都被初始化为预先训练好的NYUv2模型。然后，我们只使用KITTI数据（KITTI除外）或每个批次的NYUv 2和KITTI数据的50/50混合（混合模型）进行训练。由于NYUv2图像的最大深度为10m，因此KITTI专用模型的深度值按0.1缩放对于混合模型，我们使用场景不可知的缩放规则;我们将所有图像缩小到最大深度≤ 10 m，并在推断时反转此缩放我们的最新结果如表3所示。重要的是，对于NYUv2，我们的混合模型仅比KITTI独占网络略差补充材料中提供了更多关于其他稀疏性的结果12Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich表3：KITTI数据集上的D3模型性能。RMSE和MRE的值越低越好，而δi的值越高越好。对于竞争的方法，我们显示在最接近的稀疏性的结果我们的模型的性能，包括混合模型，是优越的大幅度。模型%点下采样RMSE MREδ1δ 2δ 3采样因子（m）（%）（%）（%）（%）NN填充0.07736×364.4419.306 91.88 97.75 99.04D3混合（我们的）0.07736×361.9063.14 98.62 99.65 99.88D3（我们的）0.07736×361.600 2.50 99.12 99.76Ma等人[23日]0.096∼32×323.8518.3 91.9 97.0 98.6NN填充0.17424×243.203 5.81 96.62 99.03 99.57D3混合（我们的）0.17424×241.4722.22 99.30 99.83 99.94D3（我们的）0.17424×241.387 2.09 99.40 99.85 99.95Ma等人[23日]0.240∼20×203.3787.3 93.5 97.6 98.9NN填充0.39116×162.245 3.73 98.67 99.60 99.81D3混合（我们的）0.39116×161.1201.62 99.67 99.92 99.97D3（我们的）0.39116×161.008 1.42 99.76 99.94 99.98我们的模型输出的可视化如图所示。8.这里的亮点是混合模型为NYUv2和KITTI生成了高质量的深度图有趣的是，即使是KITTI独家模型（图的底行）。8）在NYUv2数据集上产生良好的定性结果。也许更引人注目的是，即使是没有KITTI数据训练的NYUv2预训练模型（图3的倒数第三行）。8）在KITTI上产生合理的结果。这表明，我们的D3模型本质上具有一定程度的跨域概括性。5.5稳健性检验到目前为止，我们已经从高质量的Kinect和LiDAR深度图中采样了深度，但在实践中，稀疏的深度输入可能来自不太可靠的来源。我们现在演示我们的D3网络如何在稀疏深度输入中给出以下1. RGB相机和深度传感器之间的空间配准不良。2. 随机高斯误差3. 随机孔（脱落），例如由于阴影、镜面反射等。图在图9中，我们示出了这些潜在误差源中的每一个的示例，并且在图10中，我们示出了当在稀疏深度输入中使用这样的误差进行训练时，D3如何执行（参见列表度量的补充材料）。D3网络在所有误差源下都能优雅地降级，大多数模型仍然基于RGB和稀疏感知的深度估计13图8：对NYUv2和KITTI的联合预测。RGB、深度GT和稀疏输入S1在前三行中给出在最后三行中给出了三个模型对室内和室外场景的预测，倒数第二行示出了同时在两个数据集上训练的混合模型。所有稀疏贴图的密度都为0。18%（24×24下采样）。图9：稀疏深度的潜在误差。右边的三个稀疏深度图都表现出在真实传感器中常见的显著误差优于表1中的其他基线（其中没有一个受到输入误差的影响）。特别令人鼓舞的是，网络在恒定的配准误差下表现稳健，这是多个成像传感器在同一视觉系统中活动时的一个非常常见的问题。该网络有效地学习固定不同视觉输入之间的校准。可预测地，当误配准在每个图像中随机变化时，误差高得多。5.6讨论通过我们的实验，我们展示了D3模型如何14Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich图10：在各种稀疏深度误差下D3网络的精度.在所有潜在的误差源（除了不太可能的随机空间配准误差），D3网络表现出优雅的错误退化。对于恒定的空间误配准，这种误差退化几乎可以忽略不计密集的深度图。最值得注意的是，我们的模型可以同时在室内和室外场景中表现良好。我们将模型的整体性能归因于许多因素。从表2中可以看出，我们的多尺度架构的设计非常重要，其中稀疏输入以各种尺度摄取，输出被视为相对于S1的残差用于优化性能。我们提出的稀疏输入参数化显然允许更好和更稳定的训练，如图所示。7.最后，训练课程的设计，其中我们在训练过程中使用不同的稀疏度的深度这样的策略使得模型对测试稀疏度的时间变化具有鲁棒性（参见图1B）。7）并减少整体误差。6结论我们已经证明，经过训练的深度致密化（D3）网络可以使用稀疏的深度信息和配准的RGB图像来产生高质量的密集深度图。我们灵活的参数化的稀疏深度信息导致模型，容易推广到多种场景类型（同时工作在室内和室外图像，从1米到80米的深度）和不同的稀疏输入模式。即使在室内场景的相当激进的稀疏度下，我们也实现了低于1%的平均绝对相对误差，与消费级深度传感器硬件的性能相当我们还发现，我们的模型是相当强大的各种输入错误。因此，我们已经表明，稀疏的深度测量可以是足够的应用程序，需要一个RGBD输入，无论是在室内还是室外。在我们的调查中，自然的下一步将是评估致密深度图如何在3D重建算法、跟踪系统或用于相关视觉任务（诸如表面法线预测）的感知模型中执行。我们希望我们的工作能够从软件和硬件的角度激发对稀疏深度的进一步研究。基于RGB和稀疏感知的深度估计15引用1. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器 - 解码器架构。 IEEE Transactions on Pattern Analysis and MachineIntelligence39（12），24812. 陈伟，傅志杨，D.，Deng，J.：在野外的单一图像深度感知在：神经信息处理系统的进展。pp. 7303. 陈志，Badrinarayanan，V. Lee，C.Y.，Rabinovich，A.：Gradnorm：深度多任务网络中自适应损失平衡的梯度归一化。arXiv预印本arXiv：1711.02257（2017）4. Eigen，D. Fergus，R.：使用通用的多尺度卷积架构预测深度、表面法线和语义标签。在：IEEE国际计算机视觉会议pp. 26505. 加格河BG、V.K.、Carneiro，G. Reid，I.：用于单视图深度估计的无监督CNN：几何学拯救了我们。欧洲计算机视觉会议。pp. 740-756. Springer（2016）6. 汉，S.，毛，H.，Dally，W.J.：深度压缩：压缩深度神经网络-使用修剪，训练量化和霍夫曼编码。arXiv预印本arXiv：1510.00149（2015）7. Hermans，A. Floros，G.莱贝B：基于rgb-d图像的室内场景密集三维语义映射。在：机器人与自动化（ICRA），2014年IEEE国际会议。pp. 2631-2638 IEEE（2014）8. 你好，R 好了M 每个人都知道，G. 我没有C. ：基于飞行时间技术的探测器和距离扫描仪的更新。Machine Vision and Applications27（7），10059. Huang，G.，刘志， Weinberger，K.Q.， van der Maaten，L.：密集连接卷积网络在：IEEE计算机视觉和模式识别会议论文集卷1，p.3（2017）10. 许德华Loy，C.C.，唐X：通过深度多尺度引导实现深度图超分辨率。欧洲计算机视觉会议。pp. 353-369. Springer（2016）11. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议。pp. 44812. Kendall，A.，Gal，Y.，Cipolla，R.：多任务学习使用不确定性来权衡场景几何和语义的arXiv预印本arXiv：1705.07115（2017）13. Kerl，C.，Sturm，J.，Cremers，D.：rgb-d相机的密集视觉冲击在：智能机器人和系统（IROS），2013年IEEE/RSJ国际会议。pp. 2100-2106. IEEE（2013）14. Khoshelham，K.，Elberink，S.O.：用于室内测绘应用的kinect深度数据的精度和分辨率。传感器12（2），143715. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）16. Kuznietsov，Y.， Stu¨c k le r，J.， Leibe，B. Sesemi-supperv用于单个深度图预测。IEEE计算机视觉与模式识别会议论文集。pp. 664717. 莱娜岛鲁普雷希特角Belagiannis，V.，Tombari，F.，Navab，N.：使用全卷积残差网络进行更深的深度预测。在：3D视觉（3DV），2016年第四届国际会议上。pp. 239-248 IEEE（2016）16Z. Chen，V. Badrinarayanan，G. Drozdov和A. Rabinovich18. Levin，A.，Lischinski，D.，Weiss，Y.：使用最佳化着色。ACM Transactions onGraphics（ToG）卷第23页。689-694. 04年01月05日19. Lin，D.Fidler，S.，乌尔塔松河：三维物体检测的整体场景理解RGBD摄像头在：计算机视觉（ICCV），2013年IEEE国际会议上。pp. 1417-1424年IEEE（2013）20. 朗J Shelhamer，E.，达雷尔，T.：用于语义的细分在：IEEE计算机视觉和模式识别会议论文集。pp. 343121. Lowe，D.G.：从尺度不变的关键点中提取独特的图像特征。内National Journal of Computer Vision60（2），91-110（2004）22. 卢，J，福赛斯地方检察官等：稀疏深度超分辨率。在：CVPR中。卷第六届（2015年）23. Ma，F.，Karaman，S.：稀疏到密集：从稀疏深度样本和单个图像进行深度预测。arXiv预印本arXiv：1709.07492（2017）24. Nathan Silberman Derek Hoiem P.K.Fergus，R.：室内分段和超从RGBD图像的端口推断In：ECCV（2012）25. Nguyen，C.V.，Izadi，S.，Lovell，D.：为改进的3d重建和跟踪建立kinect传感器噪声模型。在：3D成像，建模，处理，可视化和传输（3DIMPVT），2012年第二届国际会议pp. 五二四530. IEEE（2012）26. Paszke，A.，Chaurasia，A.，Kim，S.，Culurciello，E.：Enet：用于实时语义分割的深度神经网络架构。arXiv预印本arXiv：1606.02147（2016）27. Rublee，E.，Rabaud，V.，Konolige，K.，Bradski，G.：Orb：一个高效的替代方案筛选或冲浪。在：计算机视觉（ICCV），2011年IEEE国际会议上。pp. 2564-2571.IEEE（2011）28. Saxena，A.，Chung，S.H.，Ng，A.Y.：从单个单目图像学习深度在：神经信息处理系统的进展。pp. 116129. Sinz，F.H.，Candela，J.Q.，Bakır，G.H.，Rasmussen，C.E.，Franz，M.O.：从立体声学习深度在：联合模式识别研讨会。pp. 245-252 03 The Dog（2004）30. Song，S.，Xiao，J.：使用rgbd相机重新访问跟踪：统一基准和基线在：计算机视觉（ICCV），2013年IEEE国际会议上。pp. 233-240. IEEE（2013）31. 宋，X.，戴，Y.，秦X：深深度超分辨率：学习深度超分辨率。使用深度卷积神经网络的分辨率。亚洲计算机视觉会议.pp. 360-376 Springer（2016）32. 塞格迪角刘伟， Jia，Y.， Sermanet，P.， Reed，S.， Anguelov，D.， Erhan，D.，Vanhoucke，V.，Rabinovich，A.，等：更深的回旋。Cvpr（2015）33. Teichman，A.，卢西尔J.T. Thrun，S.：学习在rgbd中分段和跟踪。IEEETransactions on Automation Science and Engineering10（4），84134. 泰希曼 M.，韦伯 M.，佐尔纳 M.，西波拉 R.，乌尔塔孙 R.：多-net：自动驾驶的实时联合语义推理。arXiv预印本arXiv：1612.07695（2016）35. Uhrig，J.，施耐德，N.，施耐德湖弗兰克，美国，Brox，T.，Geiger，A.：稀疏性不变cnn在：3D视觉国际会议（3DV）（2017）36. Whelan，T. Kaess，M.，Johannsson，H.，Fallon，M.莱纳德杰杰McDonald，J. ：实时大规模高密度 rgb-d slam 与体积融合。 The International Journal ofRobotics Research34（4-5），59837. 徐，D.， Ricci，E.，欧阳，W. 王，X.， Sebe，N.：多尺度连续crfs作为

下载后可阅读完整内容，剩余1页未读，立即下载