基于深度学习的表面法线引导的室外场景稀疏激光雷达数据和单个彩色图像的深度预测

52 浏览量更新于2023-10-18 收藏 14.57MB PDF 举报

表面法线

彩色图像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

In this work, we propose an end-to-end deep learningsystem to produce dense depth from sparse LiDAR data anda color image taken from outdoor on-road scenes leveraging133130DeepLiDAR：基于深度学习的表面法线引导的室外场景稀疏激光雷达数据和单个彩色图像的深度预测0Jiaxiong Qiu 1 � Zhaopeng Cui 2 � Yinda Zhang 3 �0Xingdi Zhang 1 Shuaicheng Liu 1 , 4 † Bing Zeng 1 Marc Pollefeys 2 , 501 UESTC 2 ETH Z¨urich 3 Google 4 Megvii Technology 5 Microsoft0摘要0本文提出了一种深度学习架构，可以从单个彩色图像和稀疏深度中为室外场景生成准确的密集深度。受室内深度补全的启发，我们的网络估计表面法线作为中间表示来生成密集深度，并可以进行端到端训练。通过修改的编码器-解码器结构，我们的网络有效地融合了密集彩色图像和稀疏激光雷达深度。为了解决室外场景的特定挑战，我们的网络预测了一个置信度掩码，以处理由于遮挡而导致的前景边界附近的混合激光雷达信号，并结合来自彩色图像和表面法线的估计以及学习到的注意力图来提高深度的准确性，特别是对于远距离区域。大量实验证明我们的模型在KITTI深度补全基准测试中优于现有技术的性能。消融研究显示了每个模型组件对最终性能的积极影响，综合分析表明我们的模型对于更高稀疏度或来自室内场景的输入具有良好的泛化能力。01. 引言0在室外环境中测量密集且准确的深度对于各种应用非常重要，例如自动驾驶和无人机。大多数室内深度感知解决方案由于被动照明的强干扰而失败[11,41]，而立体方法通常由于较低的分辨率和较小的三角测量角度而在远距离区域变得不太准确[45]。因此，激光雷达是室外环境中占主导地位的可靠解决方案。然而，高端激光雷达价格昂贵，而商品级设备的分辨率往往很低[27]，这给中远距离区域的感知带来了困扰。0� 表示相等的贡献。†表示通讯作者。0彩色图像激光雷达的稀疏数据0DeepLiDAR：我们的密集预测（以输入彩色图像着色）0DeepLiDAR：我们的密集预测（以表面法线着色）0图1.我们的系统接受彩色图像和来自激光雷达的稀疏深度图像作为输入（第一行），并输出密集深度图（第二行）。我们的模型不直接生成完整的深度，而是估计表面法线（第三行）作为中间表示，这有助于生成准确的深度。0时空融合可以提供更密集的深度，但要么需要多个设备，要么受到动态物体和延迟的影响。目前还没有一种可以立即获得密集且准确的深度的经济解决方案。0一种有希望的尝试是利用低成本的激光雷达获取稀疏但准确的深度，并借助对齐的彩色图像使其变得密集。在深度学习取得巨大成功的背景下，一种明显的方法是直接将稀疏深度和彩色图像输入神经网络，并回归得到密集深度。不幸的是，与可解释的模型相比，这种黑盒子的效果并不一样好，可解释的模型可以从彩色图像中学习到局部深度相关性，从而插值出稀疏信号。对于室内场景，Zhang等人通过将表面法线估计为中间表示，并通过单独的优化求解深度，取得了优秀的结果。然而，目前尚不清楚表面法线是否是室外场景的合理表示，以及这种系统的性能如何。Image PlaneDistance of the next pixel via correct normalDistance of the next pixel via noisy normalDistance error due to normal errorObserved depthCorrect normalNoisy normalCameraPixelsFigure 2. Sensitivity to noise. Reconstructing depth from normalbecomes more sensitive to the noise/error in the estimated normalwhen the distance goes up. We show two cases to estimate thedepth of the neighboring pixel via correct (green) and noisy (yel-low) normal. The further case results in much larger error (red)compared to the closer one even though the surface normal erroris the same (15◦) for two cases.surface normal as the intermediate representation. We ﬁndit non-trivial to make such a system work equally well as inthe indoor environment, generally because of the followingthree challenges:Data Fusion. How to combine the given sparse depth anddense color image is still an open problem. One commonmanner is to concatenate them (usually with a binary maskindicating the pixel-wise availability of the LiDAR depth)directly as the network input (i.e. early fusion), in which thenetwork has the best access to all sources of inputs startingfrom the encoder. However, the result may produce artifactsnear the boundaries of the missing values, or merely copydepth from where it is available but fail otherwise. Inspiredby the idea of leveraging intermediate afﬁnity, we designan encoder-decoder architecture, namely deep completionunit (DCU), where separate encoders learn afﬁnity from thecolor image and features from the sparse depth respectively,while the decoder learns to produce dense output. The DCUfalls in the style of late fusion architecture but different inthat the feature from the sparse depth is summed into thedecoder rather than ordinary concatenation. The summation[5] favors the features on both sides in the same domain, andtherefore encourages our decoder to learn features more re-lated with depth in order to keep consistent with the featurefrom the sparse depth. This also saves network parametersas well as inference memory. Empirically, we ﬁnd DCUbeneﬁts both the intermediate surface normal and the ﬁnaldepth estimation.Sensitivity to Noise. Zhang et al. [55] demonstrated thatsurface normals of indoor scenes are easier to estimate thanabsolute depth and sufﬁcient to complete the depth givenincomplete signals. However, in outdoor scenes, solvingdepth from normals does not work ubiquitously well espe-cially for the distant area mainly due to the perspective ge-ometry. As shown in Fig. 2, the same surface normal errorcauses much larger distance error for the horizontal roadsurface in the far area compared to the close range area.Having these areas hard to be solved from surface normalsgeometrically, we propose to learn them directly from theraw inputs. Therefore, our model contains two pathways toestimate dense depth maps from the estimated surface nor-mals and the color image respectively, which are then in-tegrated via automatically learned attention maps. In otherwords, the attention maps learn to collect better solution foreach area from the pathway that is likely to perform better.Occlusion. As there is almost inevitably a small displace-ment between the RGB camera and the LiDAR sensor, dif-ferent depth values are normally mixed with each otheralong the boundaries due to occlusion when warping Li-DAR data to the color camera coordinate, especially forthe regions close to the camera (Fig. 5 (b)). Such mixtureof depth confuses the model and causes blurry boundaries.Ideally, the model should downgrade the conﬁdence of thesparse depth in these confusing area and learn to ﬁll in us-ing more reliable surroundings. We propose to learn sucha conﬁdence mask automatically, which takes the place ofthe binary availability mask feeding into the surface nor-mal pathway. Even though without ground truth, our modelself-supervisely learns this occlusion area containing over-lapping sparse depth.Our full pipeline is shown in Fig. 3. The contribu-tions of this work are as follows. Firstly, we propose anend-to-end neural network architecture that produces densedepth from a sparse LiDAR depth and a color image usingthe surface normal as the intermediate representation, anddemonstrate that surface normal is also a good local depthrepresentation for the outdoor scene. Secondly, we proposea modiﬁed encoder-decoder structure to effectively fuse thesparse depth and the dense color image. Thirdly, we in-vestigate the challenges for outdoor scenarios, and designthe network to automatically learn a conﬁdence mask forocclusion handling, and attention maps for the integrationof depth estimates from both the color image and normals.Lastly, our experiment shows that out model signiﬁcantlyoutperforms the state-of-the-art on benchmarks and gener-alizes well to input sparsity and indoor scenes.331402. 相关工作0稀疏样本的深度预测。当准确但低分辨率的深度传感器，如低成本LiDAR和单线激光传感器变得广泛可用时，从稀疏输入生成密集深度开始引起关注。一些方法通过小波分析产生密集深度或视差[16,30]。最近，提出了基于深度学习的方法，并取得了有promising结果。Uhrig等人[48]提出了不变稀疏CNN来处理不同输入深度稀疏性。Ma等人[34]提出将稀疏深度和彩色图像的拼接输入到编码器-解码器深度网络中，并进一步扩展了自监督学习[33]。Jaritz等人[20]结合了语义分割来改进深度补全。Cheng等人[6]通过循环神经网络学习了一个亲和矩阵，以指导深度插值。y+33150二进制掩码0稀疏深度0RGB0深度补全单元0最终密集深度0z置信度/注意力彩色图例0表面法线0注意力图密集深度0注意力图密集深度0稀疏深度置信度掩码0法线通道0彩色通道0图3.我们模型的流程。我们的模型由两个路径组成。两个路径都从RGB图像、稀疏深度和二进制掩码作为输入开始，表面法线路径（下半部分）为场景生成像素级表面法线，然后将其与稀疏输入深度和从彩色路径估计的置信度掩码结合起来产生密集深度。彩色路径也产生了密集深度。最终的密集深度输出是使用估计的注意力图对两个路径的深度进行加权求和。0的工作。与这些工作相比，我们的模型更加物理驱动，并明确地利用表面法线作为中间表示。0室内环境的深度细化。在室内环境中，由于传感技术的限制[3, 37,11]，商品RGB-D传感器的深度质量并不理想。已经提出了许多方法来利用对齐的高分辨率彩色图像来改善深度。一类方法是深度超分辨率，旨在提高深度图像的分辨率[35, 43,15, 53, 32, 23, 36,47]。这些方法假设存在低分辨率但密集的深度图，没有丢失信号。另一类方法是彩色图像引导的深度修复，可以处理任意形状的大面积缺失区域。传统方法使用颜色作为引导来计算局部亲和性或不连续性[18, 14, 44, 2, 12, 54, 58,1]。尽管深度学习已经广泛应用于图像修复[49, 38, 29,52]，但将这些网络扩展到彩色引导的深度修复还没有得到很好的研究。Zhang等人[55]提出了通过全局优化估计表面法线并求解深度的方法。然而，对于室外场景，作为深度的中间表示，法线是否仍然有效尚不清楚。0从单个RGB图像估计深度。有很多方法可以从单个彩色图像中估计深度。早期的方法主要依赖于手工设计的特征和概率图模型[42, 21, 22, 24,31]。随着深度学习的发展，许多基于深度神经网络的方法[9, 25, 40,28]被提出用于单视图深度估计，因为深度网络具有强大的特征表示能力。例如，Eigen等人[9]提出了一个多尺度卷积网络，从粗到细预测深度。Laina等人[25]提出了一个单尺度但更深的全卷积架构。Liu等人[28]在统一的CNN框架中结合了深度CNN和连续CRF的优势。在深度估计过程中，还有一些利用表面法线的方法[8, 26, 4, 39]。Eigen等人0[8]和Li等人[26]提出了预测深度或法线的架构，但是独立地进行。Chen等人[4]使用稀疏表面注释作为深度估计的监督，但不是中间表示。Qi等人[39]基于双流CNN联合预测深度和表面法线，并专注于室内场景。最近，还提出了一些无监督方法[57, 13,51]。尽管这些方法可以从单个彩色图像中产生合理的深度估计，但它们不处理稀疏深度作为额外的输入，并且不适合恢复高质量的深度。此外，我们的方法是首个使用表面法线作为室外深度补全的中间表示的方法。03. 方法0我们的模型是一个端到端的深度学习框架，它以RGB图像和从LiDAR投影的稀疏深度图像作为输入，并生成密集深度图像。如图3所示，整个网络主要由两个路径组成：颜色路径和表面法线路径。颜色路径以彩色图像和稀疏深度为输入，输出完整的深度。表面法线路径首先从输入的彩色图像和稀疏深度预测出表面法线图像，然后将其与稀疏深度和从颜色路径学习到的置信度掩码结合起来，生成完整的深度。这两个路径都是由一系列深度补全单元（DCU）实现的，然后通过学习得到的加权和将两个路径的深度集成起来，生成最终的完整深度。03.1. 深度补全单元0Zhang等人[55]提出在预测深度或表面法线时，从输入中去除不完整的深度，以摆脱局部最优解。然而，由于稀疏深度与密集深度和表面法线之间存在强相关性，如果网络没有机会从中学习，那么这显然是非最优的。受传统的彩色图像引导修复方法[46, 17,52]的启发，我们提出了一种网络架构，使得编码器可以从彩色图像或表面法线中学习局部关联性，然后通过另一个编码器将其与输入的稀疏深度生成的特征进行插值。我们的深度补全单元的详细内容如图4所示。RGB/法线和稀疏深度的两个编码器都由一系列ResNet块组成，后面跟随着带有步长的卷积，最终将特征分辨率缩小到输入的1/16。解码器由四个上投影单元组成，如[25]中介绍的那样，逐渐增加特征分辨率，并将两个编码器的特征集成起来生成密集输出。由于输入的稀疏深度与解码器的输出（例如表面法线或深度）密切相关，稀疏深度的特征在解码器中应该有更大的贡献。因此，我们将RGB/法线的特征进行连接，但将稀疏深度的特征与解码器中的特征进行求和。由于求和更倾向于在同一域中两侧的特征[5]，解码器被鼓励学习与深度更相关的特征，以保持与稀疏深度的特征一致。如图3所示，我们使用DCU来预测表面法线或深度，输入相同但是使用目标地面真值进行训练。+++++2x4x8x16xRGB / NormalDense Ouputlocal afﬁnity from color image or surface normals, which isthen leveraged by the decoder to conduct interpolation withthe features generated from the input sparse depth throughanother encoder.The details of our deep completion unit is shown inFig. 4. Both encoders for RGB/normal and sparse depthconsist of a series of ResNet blocks followed by convolu-tion with stride to downsize the feature resolution eventu-ally to 1/16 of the input. The decoder consists of four up-projection units as introduced in [25] to gradually increasethe feature resolutions and to integrate features from bothencoders to produce dense output. Since the input sparsedepth is strongly related with the decoder output, e.g., sur-face normal or depth, features from the sparse depth shouldcontribute more in the decoder. As such, we concatenate thefeatures from the RGB/normal but sum the features fromthe sparse depth onto the features in decoder. As the sum-mation favors the features on both sides in the same domain[5], the decoder is encouraged to learn features more relatedto depth in order to keep consistent with the feature from thesparse depth. As shown in Fig. 3, we use the DCU to pre-dict either surface normal or depth with the same input buttrained with the target ground truth.33160ResNet块卷积上投影02倍 4倍 8倍 16倍0稀疏输入0图4.深度补全单元的详细架构。我们的深度补全单元采用了后期融合策略，即仅在解码器中将RGB/法线和稀疏深度的特征进行组合。与[20]不同的是，我们在解码器的每个分辨率上对两侧的特征进行求和。03.2. 基于注意力的整合0从表面法线恢复深度并不在所有地方都能很好地工作，并且可能对某些区域的法线噪声敏感。我们提出利用来自彩色图像的先验生成这些区域的深度，而不是来自估计的表面法线的几何信息。因此，我们的模型由两个并行的路径组成，分别从输入的彩色图像和估计的表面法线中预测稠密深度。这两个路径也都以稀疏深度作为输入。最终的稠密深度应该是这两个估计深度的整合，其中更准确的深度测量值来自正确的路径。0（a）RGB图像0（b）放大视图（c）扭曲的深度（d）置信度图。图5.遮挡和学习的置信度。（b）显示了（a）中蓝色框标记的区域的放大视图。由于RGB相机和激光雷达之间的位移，将稀疏深度与彩色图像对齐会导致前景/背景深度混合在遮挡区域中，如（c）中的树干。我们的网络学习到了一个成功降低混淆区域权重的置信度掩码（d）。0我们使用注意机制来整合从两个通道恢复的深度，其中两个深度的组合不是固定的，而是取决于当前的上下文。具体而言，我们首先使用ReLU进行三次卷积，预测每个通道的得分图。然后将两个通道的得分图输入到softmax层，并转换为组合权重。最终的稠密深度输出计算如下：0ˆD = wc ∙ ˆDc + wn ∙ ˆDn, (1)0其中ˆDc和ˆDn分别是来自彩色和表面法线通道的深度，wc和wn分别是学习到的组合权重。如图7所示，学习到的wc和wn有效地针对其相应深度输出的强部分。03.3. 置信度预测0如前所述并如图5所示，由于激光雷达传感器和彩色相机之间的位移，存在混合前景和背景深度信号的模糊区域。这通常是由遮挡引起的，在近距离的物体边界上更频繁发生。理想情况下，我们应该找到这些混淆的区域并解决模糊性，然而这更具挑战性，因为这需要在深度不连续性附近进行准确的三维几何估计。相反，我们要求网络自动学习一个置信度掩码，以指示输入稀疏深度的可靠性。我们用来自彩色通道的学习置信度掩码（md）替换了简单的二进制掩码，这是一个输入的硬置信度。如图5所示，即使没有这些掩码的真实值，模型也能成功地学习到遮挡区域与重叠的稀疏深度值（例如树干）之间的关系。RMSEMAEiRMSEiMAECSPN [6]1019.64279.462.931.15Spade-RGBsD [20]917.64234.812.170.95HMS-Net [19]841.78253.472.731.13MSFF-Net [50]836.69241.542.631.07NConv-CNN [10]829.98233.262.601.03Sparse-to-Dense [33]814.73249.952.801.21RMSEMAEiRMSEiMAEBilateral [44]2989.021200.569.675.08Fast [2]3548.871767.8026.489.13TGV [12]2761.291068.6915.026.28Zhang et al. [55]1312.10356.604.291.4133170成功地学习到了具有重叠稀疏深度值（例如树干）的遮挡区域。03.4. 损失函数0整个系统的损失函数定义如下：0L = λ1Ld(ˆDn) + λ2Ld(ˆDc) + λ3Ld(ˆD) + λ4Ln(N) (2)0其中Ld定义了对估计深度的损失，Ln定义了对估计表面法线的损失。我们使用余弦损失[56]来计算Ln。对于Ld，我们使用估计深度的L2损失和从深度转换的法线的余弦损失。λ1、λ2、λ3、λ4调整损失函数中各项之间的权重。我们采用多阶段训练方案以实现稳定的收敛。首先，我们将λ4设置为1，将其他权重都设置为零，只对表面法线估计进行预训练。然后，我们将λ1设置为0.3，λ2设置为0.3，λ3设置为0.0，λ4设置为0.1，进一步训练彩色和表面法线通道。最后，我们将λ1设置为0.3，λ2设置为0.3，λ3设置为0.5，λ4设置为0.1，对整个系统进行端到端的训练。对于所有的训练设置，我们使用Adam作为优化器，初始学习率为0.001，β1为0.9，β2为0.999。学习率每5个epoch减半。03.5. 训练数据0由于真实数据集中缺乏地面真实法线，我们使用开放的城市驾驶模拟器Carla[7]生成了一个合成数据集。我们渲染了包括RGB图像、稀疏深度图、密集深度图和表面法线图在内的5万个训练样本，示例在我们的补充材料中展示。对于真实数据，我们使用KITTI深度补全基准数据集进行微调和评估。KITTI数据集的完整表面法线地面真值是通过局部平面拟合[44]从真实的密集深度图计算得到的。04. 实验0我们进行了大量实验来验证我们模型的有效性，包括与相关工作的比较和消融研究。由于我们模型的主要应用之一是在车载激光雷达设备上，大部分实验都是在KITTI深度补全基准[48]上进行的。然而，我们还在室内环境中运行我们的模型以验证其泛化能力。04.1. 与最先进方法的比较0在KITTI深度补全基准的测试集上评估我们的方法。测试集包含1000个数据，包括彩色图像、稀疏LiDAR深度和彩色相机与LiDAR之间的变换。地面真值被保留，评估只能在他们的服务器上进行，以防止过拟合。评估服务器计算四个指标：均方根误差（RMSE mm）、平均绝对误差（MAEmm）、逆深度的均方根误差（iRMSE 1/km）0我们的方法 758.38 226.50 2.56 1.150表1.KITTI测试集上深度补全的性能[48]。评估通过KITTI测试服务器进行，提交按照RMSE在排行榜上进行排名。我们的模型在RMSE上与第二名[33]相比有很大的差距。0我们的方法 687.00 215.38 2.51 1.100表2. KITTI验证集上深度补全的性能[48]。我们与非学习型方法[44,2, 12]和Zhang et al .[55]进行比较。我们的方法在所有评估指标上表现最好。0在逆深度的均方根误差（RMSE）和逆深度的平均绝对误差（iMAE）中，RMSE是最重要的指标，并被选择用于在排行榜上对提交进行排名，因为它直接测量深度误差，并对深度测量更具挑战性的更远距离进行惩罚。我们的方法和其他高排名方法的性能列在表1中。我们的方法在提交时在排行榜上排名第一，与第二名相比有显著改进。与一些竞争方法[33,6]的定性比较显示在图6中。对于每个示例，我们展示恢复的完整深度，以及放大显示一些细节。总体而言，我们的方法产生了更准确的深度（例如完整的汽车），并且具有更好的细节（例如路边的栏杆）。我们的模型在单个GPU（Nvidia GTX1080Ti）上的运行时间为每张图像0.07秒。在KITTI验证集上的评估。我们进一步与KITTI基准测试中未参与的其他相关方法进行比较，包括使用颜色的双边滤波器（Bilateral），快速双边滤波器（Fast），使用总变差进行优化（TGV），以及室内场景的深度补全[55]。模型仅在训练集上进行训练。定量结果显示在表2中。可以看出，我们的方法明显优于所有其他方法。非学习型方法[44, 2,12]的性能不佳，可能是因为光照变化剧烈和复杂的场景结构。张等人[55]的性能比上述方法要好得多，但仍远远落后于我们的模型，因为它不能处理室外特定问题。定性比较结果显示在图7中。从突出显示的区域可以看出，Bilateral[44]和Fast [2]过度平滑了物体的边界和细节。33180（a）Sparse-to-Dense [33]（b）CSPN [6]（c）我们的方法图6.KITTI测试集上的定性比较。我们展示了我们的方法和排名靠前的方法：CSPN [6]和Sparse-to-Dense[33]的结果。对于每个示例，我们展示了彩色图像、密集深度输出和一些局部区域的放大视图。我们的模型产生了更准确的结果，与彩色图像更好地对齐。我们的模型还保留了树木、交通灯和路灯等细小结构。0相比之下，TGV [12]生成了详细的结构，但是平滑的表面噪声，比如道路。张等人[55]在近区域表现良好，但在远处和表面法线估计失败的地方，例如交通标志和车窗，比我们的方法差。我们的方法成功解决了这些问题，原因有两个。首先，我们将离线线性优化集成到网络中，允许端到端训练以获得更优的解决方案。从表3（“-注意力集成”）可以看出，我们的法线路径的深度预测已经比张等人[55]好得多。其次，我们进一步学习了一个置信度掩码来处理遮挡，并使用基于注意力的集成来改善法线路径失败的区域。04.2. 消融研究0为了了解每个模型组件对最终性能的影响，我们通过分别禁用每个组件进行了全面的消融研究，并展示了结果的变化。定量结果如表3所示。每个组件禁用后性能合理下降，完整模型效果最好。表面法线路径的影响。为了验证表面法线是否是室外场景中合理的中间深度表示，类似于室内情况，我们训练了一个模型，不估计法线，而是直接输出0模型 RMSE MAE iRMSE iMAE0- 正常路径 774.25 258.77 4.65 1.40 - 注意力集成 729.96239.08 2.74 1.20 - DCU 767.82 246.36 2.69 1.17 -置信度掩码 756.32 272.91 2.70 1.190完整模型 687.00 215.38 2.51 1.100表3.KITTI验证集上深度补全的消融研究。我们禁用每个主要组件重新训练模型，并在KITTI验证集上进行评估。我们的完整模型在所有组件上都取得了最佳性能。完整的深度。在这种设置下，也没有注意力集成，因为只有一条路径可用。性能在表3中显示为“-正常路径”。与我们的完整模型相比，性能显著下降，即RMSE增加了约87mm。这证明了表面法线对于室外深度补全也是有帮助的。0注意力集成的影响。然后我们禁用了基于注意力的集成，以验证两条路径组合的必要性，即仅考虑来自法线路径的深度。没有这种集成，所有的评估指标（表3“-注意力集成”）相比完整模型都下降。图7（行w c，wn）显示了自动学习的彩色路径和表面法线路径的注意力图。可以看出，表面法线路径在近距离上效果更好（即权重更高），但当距离增加时效果变差，这是一致的33190RGB0稀疏0置信度0法线0w c0w n0双边0快速0TGV0张等人0我们的0图7.KITTI验证集上的定性结果。从上到下依次是RGB图像输入、稀疏深度输入、置信度掩码、估计的表面法线、彩色路径的注意力图、法线路径的注意力图、Bilateral [44]、Fast [2]、TGV [12]、张等人[55]和我们的方法的结果。我们在结果中标记了一些区域，以突出不同方法之间的差异。0与我们的分析一致。相比之下，颜色通道无法捕捉到与表面法线通道相比近距离的精细细节，但在远距离上更好。尽管颜色通道对较少的区域的工作效果比表面法线通道更好，但在远距离的区域中取得良好的性能非常重要，因为更容易出现较大的误差。0深度补全单元的影响。我们还将我们的深度补全单元替换为传统的编码器-解码器架构，其中输入颜色图像、稀疏深度和二进制掩码在开始时进行连接，并作为输入提供给网络。即使启用了模型的所有其他组件（Tab.3“-DCU”），这种修改也会导致性能显著下降。请注意，我们10 -210 -110 0020004000600080001000010 -210 -110 002040608010033200采样比例0双边快速张等我们0采样比例0双边快速张等我们0图8.不同稀疏度下的性能。我们通过对原始LiDAR进行子采样来测试我们的模型在不同稀疏度的输入深度上的性能。即使在非常稀疏的深度输入下，我们的方法仍然表现良好，并且优于其他方法。将稀疏深度编码器的特征与解码器的特征相加而不是普通的连接。我们还尝试了连接选项，但这需要更多的内存，并且产生稍微差一些的性能。0置信度掩码的影响。最后但并非最不重要的是，我们通过用典型的二进制掩码替换学习到的置信度掩码来禁用置信度掩码，该掩码指示每个像素的稀疏深度的可用性。与完整模型相比，这导致RMSE增加了69mm。相反，我们的

下载后可阅读完整内容，剩余1页未读，立即下载