没有合适的资源?快使用搜索试试~ 我知道了~
tion, faster scan rates, and allow fine control over verticaland horizontal resolution by electronically steering a mir-ror. Cwalina et al. [6], proposed a high-resolution MEMsbased LIDAR sensor able to achieve faster scan rates byperforming very sparse random scanning of the scenario,which is particularly convenient in highly dynamic scenar-ios. They relied on post-processing methods based on com-pressive sensing and deep learning for successfully recov-ering dense depth images. LiDAR sensors typically providesparse point clouds compared to the depth camera images,and require additional processing (3D to 2D projection anddepth completion) to facilitate higher-level tasks, such asobstacle avoidance, object recognition, segmentation, etc.Developing a generalized solution for depth completion ischallenging because of sparsity in the input, irregular spac-ing between the scanned points, and the usage of differentLiDARs systems depending on the application requirement.A naive way of obtaining dense images is through simpleinterpolation. But, this results in depth bleeding or blur-ring around depth discontinuities, especially for extremelysparse measurements. State-of-the-art (SoTA) deep learn-ing approaches complement sparse LiDAR measurements58180SIUNet:稀疏不变U-Net用于边缘感知深度完成0Avinash Nittur Ramesh Fabio GiovanneschiFraunhofer FHR Wachtberg, Germany0avinash.ramesh@fhr.fraunhofer.de0Mar´ıa A. Gonz´alez-Huici0摘要0深度完成是从稀疏深度测量(例如LiDAR)生成密集深度图像的任务。现有的无导向方法由于深度出血,特别是在极度稀疏的测量中,无法恢复具有清晰物体边界的密集深度图像。最先进的有导向方法需要额外的处理来进行多模态输入的空间和时间对齐,以及复杂的数据融合架构,使其对定制传感器设置来说并不简单。为了解决这些限制,我们提出了一种基于U-Net的无导向方法,该方法对输入的稀疏性是不变的。通过在合成数据集上进行辅助学习,明确地强制实施重建中的边界一致性,其中密集深度和深度轮廓图像作为目标,然后在真实世界数据集上进行微调。通过我们的网络架构和简单的实现方法,我们在KITTI基准测试中取得了与无导向方法相媲美的结果,并且显示重建图像具有清晰的边界,即使对于极度稀疏的LiDAR测量也具有鲁棒性。01. 引言0深度完成是汽车行业和机器人社区中的热门话题,尤其是在SLAM[29]、目标检测[3, 15, 42]、分割[28, 50,52]等领域。它旨在恢复稀疏测量中缺失的深度值。现代传感器,如红外深度相机和立体相机模块,直接提供密集的深度图像。然而,它们不适用于长距离应用,并且在低光条件下性能显著下降,使其不适用于户外环境。另一方面,传统的LiDAR在这个领域表现出色,能够扫描环境,尽管由于机械限制而具有有限的垂直和水平分辨率。随着传感器技术的进步,基于相干MEMs的LiDAR系统[6, 19,48]提供更好的距离分辨率、更快的扫描速率,并通过电子控制镜子来实现对垂直和水平分辨率的精细控制。Cwalina等人[6]提出了一种基于MEMs的高分辨率LiDAR传感器,通过对场景进行非常稀疏的随机扫描来实现更快的扫描速率,这在高度动态的场景中特别方便。他们依靠基于压缩感知和深度学习的后处理方法成功地恢复了密集的深度图像。与深度相机图像相比,LiDAR传感器通常提供稀疏的点云,并需要额外的处理(3D到2D投影和深度完成)来实现更高级别的任务,如避障、物体识别、分割等。由于输入的稀疏性、扫描点之间的不规则间距以及根据应用需求使用不同的LiDAR系统,开发通用的深度完成解决方案具有挑战性。通过简单的插值来获取密集图像的一种简单方法是通过简单的插值。但是,这会导致深度不连续处的深度出血或模糊,特别是对于极度稀疏的测量。最先进的(SoTA)深度学习方法补充稀疏的LiDAR测量0图1:SIUNet分为两个阶段进行训练,即辅助学习和迁移学习。在训练过程中,从合成数据集生成深度轮廓图像,并将其用作目标,以确保密集深度输出的边界一致性。在训练和推理过程中,仅使用稀疏深度作为输入。Unguided depth completion methods [1, 5, 10, 22, 23,30, 41] rely on the availability of only sparse measure-ments as input.This greatly enhances simplicity of theoverall system because additional tasks such as, data fu-sion, removal of outliers, and sensor synchronization arenot required. Early approaches [1, 22, 30] produced densedepth images based on traditional hand-crafted rules or im-age processing techniques. These methods are based onprior knowledge and are not robust to variability and un-certainty in sparse measurements. A naive way to producedense depth output in a learning-based approach would beto train a convolutional regression network to directly mapsparse LiDAR input to dense depth output. Li et al. [23]assigned zeros to missing depth points in the sparse inputand chose to train with a standard CNN. Uhrig et al. [41]demonstrated that such approaches produce sub-optimal re-sults because they are sensitive to variation in sparse mea-surements. To address this issue, they proposed sparsityinvariant CNN, which explicitly considers the location ofmissing points during convolution. Jaritz et al. [28] pro-posed that a standard CNN architecture can perform wellwith ad-hoc training process, i.e., by introducing varyinglevels of sparsity in the input during training. However,due to the unavailability of RGB images or semantic cuesin the inputs, unguided methods tend to produce smoothedges due to depth bleeding around object boundaries. Toaddress this problem, several loss functions have been pre-viously designed [26, 43, 40, 44, 49]. Nevertheless, densedepth images produced by unguided depth completion tech-58190通过从其他传感器(如立体相机图像、RGB图像等)获取的附加数据,以获得密集的深度图像[17, 24, 47,53]。然而,这些方法并不简单[14,33],因为它们需要复杂的神经网络架构来执行数据融合,处理来自不同传感器的噪声数据,并解决由传感器放置的微小偏移引起的遮挡问题。存在一些仅依赖于稀疏LiDAR测量数据的无导向方法[5, 10, 22,41]。这些方法的缺点是由于输入的稀疏性和无法提供语义线索的RGB图像的不可用性,它们无法恢复清晰的物体边界。在这项工作中,我们解决了有导向和无导向深度完成方法中提到的一些缺点。为此,我们提出了一种简单而有效的基于U-Net[35]架构的稀疏不变卷积神经网络,用于生成具有清晰物体边界的密集图像。我们的网络仅依赖于目标域中的LiDAR测量数据,如图1所示,并且对输入的稀疏性是不变的。我们采用了多任务特征学习[2, 11,25],首先在合成数据集上训练我们的网络,其中稀疏深度图像作为输入,密集深度图像以及与之对应的深度轮廓图像(从源域的语义分割图像生成)作为目标。然后,在仅使用LiDAR测量数据作为输入和目标的真实世界数据集(目标域)上进行迁移学习。我们在这里总结我们工作的主要贡献:0•我们提出了一种稀疏不变的U-net架构,将稀疏深度图像作为唯一输入,并生成密集的深度图像和辅助/残留深度轮廓图像。我们方法的特点是网络中没有分支[50],从而形成了一个非常简单的架构,具有端到端的特征共享。0•我们提出了一种新颖的方法,通过采用新的损失函数,生成目标深度轮廓,并允许网络明确地从中学习结构信息。0•通过与现有的无导向方法进行定性和定量比较,我们展示了我们方法的竞争力,并最终证明了我们的网络对极度稀疏的LiDAR测量的鲁棒性。02. 相关工作02.1. 有导向的深度补全0有导向的深度补全方法[17, 24, 47,53]优于传统的手工制作方法和无导向的方法0这些方法在深度补全方面明显优于传统的方法。这些方法需要额外的数据与稀疏的LiDAR测量一起作为输入,以指导网络。这些输入通过早期融合、混合融合或晚期融合技术[28,37, 46,53]进行融合。由于RGB图像提供了关于语义和上下文信息的强烈线索,当前最先进的解决方案[14, 17, 24, 47,53]依赖于图像引导和基于注意力的技术。恢复物体边界对于深度补全任务至关重要,因为它有助于区分场景中的物体。因此,通过融合多个输入,这些方法在获得密集深度输出的边界一致性方面表现出色。然而,这些方法对于定制的最终用户系统来说是繁琐且非平凡的[14, 21, 33,54],因为它们需要复杂的神经网络架构来执行数据融合、处理噪声传感器数据、消除由于传感器视点的微小位移导致的遮挡引起的异常值,并处理由于不同采集时间导致的动态场景中的运动伪影等。这些方法对额外传感器的依赖导致了最终用户系统(如自动驾驶车辆、机器人等)成本的总体增加。02.2. 无导向深度补全58200这些技术产生的边界不一致[25,47],尤其是对于高度稀疏的输入。02.3. 多任务特征学习0多任务特征学习[11]使网络能够同时学习独立但相关的任务,从而提高两个任务的性能。其思想是通过使用共享特征隐式地在任务之间传递知识,以利用任务之间的共同点。Jaritz等人[28]提出了一种基于NASNet[55]的编码器-解码器,并使用相同的网络稍微调整来实现深度补全和语义分割。Ye等人[50]最初独立地训练了两个网络,用于深度补全和语义分割。然后,他们提出了一种基于编码器-解码器的网络,该网络共享了这两个网络的特征,以在知识融合设置中联合估计密集深度图像和语义分割图像。另一方面,Lu等人[25]采用了辅助学习[34]方法,这是多任务特征学习的一种变体。他们的主要重点是生成密集深度输出。但他们同时还生成灰度图像作为辅助任务,以帮助深度补全。我们的工作也采用了辅助学习技术,受到Lu等人的工作的启发。与他们的工作不同,我们的网络生成密集深度图像和深度轮廓图像。我们提出的方法的特点是网络中没有分支,从而得到一个简单的架构。原因是我们的主要任务和辅助任务都在同一个领域,即深度。这导致了特征的端到端共享,进一步增强了主要任务。此外,他们的工作依赖于目标领域的RGB图像作为训练过程中的辅助目标。然而,我们的解决方案仅依赖于LiDAR数据的可用性,而不需要训练过程中的目标领域语义先验,使最终用户系统能够完全依赖于LiDAR传感器。03. 方法论03.1. 问题描述0我们假设最终用户系统/传感器设置仅提供LiDAR测量数据,并不提供来自其他传感器模态(如RGB相机)的数据。我们考虑到LiDAR测量中的稀疏性和扫描模式可能会有很大的变化。在这些假设下,我们的目标是仅依靠稀疏LiDAR测量作为网络输入来获得具有清晰物体边界的密集深度图像。我们提出了一种基于U-Net[35]架构的简单稀疏不变神经网络。我们通过辅助学习方法在合成数据集SYNTHIA[36](源领域)上训练该网络,然后在真实数据集KITTI[13]上进行迁移学习。0(目标领域)。在辅助学习方法中,我们的网络通过采用一种新的损失函数,同时优化两个目标,即密集深度和深度轮廓图像。合成LiDAR数据的生成和深度轮廓的真值在第3.3节和第3.4节中进行了讨论。我们通过将真实世界的LiDAR测量作为输入和KITTI的半密集地面真值作为目标进行迁移学习来继续训练。我们的方法概述如图1所示。03.2. 网络架构0我们的网络架构如图2b所示,它是基于U-Net架构的全稀疏卷积神经网络。它具有由多个下采样阶段组成的编码器,后面是由多个上采样阶段组成的解码器,每个阶段之间都有残差连接。浅层阶段提取低级结构特征,深层阶段捕捉高级上下文特征。残差连接允许在编码器和解码器的不同层次的多分辨率特征之间进行融合。在瓶颈处,所有特征图的尺寸都为10我们采用并改进了Uhrig等人提出的稀疏卷积层,用于在我们的网络中执行卷积、转置卷积和特征串联。输入像素的有效性通过二进制掩码随着特征一起在网络中传播。通过稀疏卷积层进行下采样,通过稀疏转置卷积层进行上采样。特征串联采用了Huang等人的建议。由于使用稀疏卷积层进行上采样,我们减轻了物体边界处的深度渗透效应,如第4.4节所示。我们的网络在最后一层产生两个输出,但不需要分支输出,因为两个输出都在相同的域中,即深度。0图3:SYNTHIA的随机和结构性稀疏深度地面真实值。为了方便观察,图像已经膨胀(最佳观看效果为彩色)03.3. 训练细节0SYNTHIA[36]数据集提供了可以用作目标的密集深度图像,但它不提供输入的LiDAR数据。因此,密集深度图像通过使用伯努利采样随机或结构性稀疏化,通过消除一些像素来生成,然后用作输入。图3显示了一些模式化深度图像的示例。θ∗ = arg minθL(x∗d, x∗c, ˜xd, ˜xc)(1)mu,v =�1,x∗du,v ̸= 00,x∗du,v = 0(2)�i,j���x∗di,j −�˜xdi,j ◦ mi,j�����i,j mi,j(3)cu,v =�1,∇su,v ̸= 00,∇su,v = 0(4)�i,j���x∗ci,j −�˜xci,j ◦ ci,j�����i,j ci,j(5)58210(a)目标深度轮廓的生成0(b)SIUNet的网络架构0图2:SIUNet在辅助学习设置(源域)中:首先,通过利用SYNTHIA[36]数据集的语义分割图像生成目标深度轮廓图像。然后,使用稀疏化深度图像作为唯一输入,以及密集深度和深度轮廓图像作为目标,在SYNTHIA数据集上训练网络(最佳观看效果为彩色)0通过使用内部相机校准参数,将相机图像平面上的深度像素投影到3D球坐标系中,然后根据所需的方位角和仰角分辨率过滤出点云数据,创建了类似于结构化LiDAR的模式。在训练过程中,对KITTI和SYNTHIA数据集进行了零均值高斯噪声与深度相关方差、均匀随机噪声、基于强度的衰减[7]、随机裁剪和水平翻转等即时数据增强技术。这样做的目的是获得一个对输入模式或稀疏性不变的强大网络。03.4. 深度轮廓生成0SYNTHIA数据集提供了带有相应密集深度图像的语义分割图像。语义分割图像被转换为灰度颜色空间,并通过使用Sobel滤波器进行卷积从中提取边缘。这个操作的结果被用作密集深度图像上的二进制掩码,最终获得深度轮廓图像,如图2a所示。使用深度轮廓而不是RGB或分割图像的想法是深度轮廓和密集深度图像的域是相同的,即深度。这大大简化了网络架构,减少了与分支架构相比的可训练参数的数量。此外,深度轮廓图像强制边界一致性,因为它们提供结构线索而不是语义线索,使网络对数据集中未见的语义类别具有边缘感知和通用性。这在第4.5节中已经证明,即使在室内数据集上评估我们的网络,也是在室外数据集上进行训练。03.5. 损失函数0给定稀疏深度输入 x ,我们希望通过优化网络参数 θ来获得密集深度输出 ˜ x d 。优化是通过最小化损失函数 L来完成的,该函数计算重建输出 ˜ x d 和 ˜ x c与目标地面真实值 x � d 和 x � c之间的误差,如公式(1)所示。θ �表示在训练过程中获得的最优网络权重。在辅助学习过程中,我们有两个目标并使用两个损失函数。第一个是深度完成的主要任务,如公式(2)和(3)所示,其中密集深度图像x � d 是目标。在这里,深度掩码 m用于指示目标中有效的深度像素。第二个损失函数是深度轮廓生成的辅助任务,如公式(4)和(5)所示。语义分割图像 s 用于生成目标深度轮廓图像 x � c = x � d ◦ c。在这里,轮廓掩码 c用于指示目标深度轮廓中有效的轮廓像素。最后,对于迁移学习任务,我们只使用公式(2)和(3)。深度和轮廓掩码都用于MAE和RMSE的计算。0L_D_MAE=0L_C_MAE=SICNN [41]4.941.781601.33481.27ADNN [5]59.393.191325.37439.48NCNN [9]4.671.521268.22360.28IP-Basic [22]3.781.291288.46302.60PSM [54]3.761.211239.84298.30StoD(d) [26]3.211.35954.36288.64pNCNN [8]3.371.05960.05251.77Spade-sD [28]2.600.981035.29248.3258220辅助学习过程的总损失L_Tot_MAE是L_D_MAE和L_C_MAE的加权组合,如公式(6)所示。0L_Tot_MAE = w_d ∙ L_D_MAE + w_c ∙04. 实验与结果0数据集:SYNTHIA[36]是一个合成数据集,提供了城市和高速公路场景的RGB、深度和语义对应图像,尺寸为(640×480)。共提供了96,348个对应图像作为训练集,29,850个作为测试集。我们仅将SYNTHIA数据集用作源域辅助学习,并利用语义图像生成深度轮廓。我们将KITTI[13]数据集用作目标域的迁移学习,其中训练和推理仅依赖于LiDAR测量。KITTI数据集提供了稀疏的VelodyneLiDAR深度图和半稠密的深度地面真实图像,这些图像被中心裁剪为1216×352。共提供了85,898对这些图像作为训练集,15,920对作为验证集。我们在KITTI基准测试集上评估了我们网络的性能。评估指标:根据KITTI深度补全基准,我们使用RMSE(mm)和MAE(mm)评估我们的模型的深度,使用iRMSE(km-1)和iMAE(km-1)评估逆深度。我们按照MAE指标的降序排列模型,结果见表1。实现细节:我们使用PyTorch [32]实现我们的网络,并在NVIDIAQuadro RTX 4000GPU上以批量大小为4进行训练。我们选择了Adam[20]优化器,学习率为0.001,没有权重衰减,在SYNTHIA数据集上训练了20个epoch,在KITTI数据集上训练了10个epoch。我们使用Kaiming正态分布[16]初始化网络的权重,并使用w_d = w_c =1来计算辅助学习的损失。对于迁移学习,只优化了最后三层的权重,并且没有使用深度轮廓目标。这样做的目的是使用辅助学习任务中学到的权重作为迁移学习任务的权重初始化。04.1. 定性分析0我们在图4中展示了我们的定性结果,并将其与Spade-sD[28]、pNCNN [8]、Sparse-to-Dense [26]、PSM[54]等SoTA无导向方法进行了比较。我们选择了三个例子,并在每个重建图像的右下角提供了感兴趣区域的放大视图。从定性上看,我们的模型在边界一致性和结构正确性方面优于所有方法。在示例1和示例3中,我们可以清楚地看到车辆边界处发生了深度渗透。0表1:我们的方法与SoTA无导向方法的数值比较表明,我们的方法产生了有竞争力的结果。误差指标是在KITTI深度补全基准上计算的。↓表示数值越小越好0方法 iRMSE ↓ iMAE ↓ RMSE ↓ MAE ↓ (km-1) (km-1)(mm) (mm)0SIUNet(我们的模型) 2.73 0.96 1026.61 227.280其他方法。然而,我们的模型产生了清晰的重建结果。在示例2中,无导向方法往往会产生不连续性,然而我们的模型能够恢复交通标志牌的深度和结构。这种良好重建的原因可以归因于使用深度轮廓图像进行辅助学习。关于这一点,我们在第4.3节中提供了更多证据。04.2. 数值分析0表1呈现了我们方法和SoTA方法在KITTI深度补全基准上的定量结果。我们的模型在MAE = 227.28和iMAE =0.96方面取得了最佳成绩,在其中排名第一。我们的RMSE和iRMSE结果也优于大多数其他模型,证明了我们方法的有效性。我们的模型最初在SYNTHIA数据集上进行了辅助学习设置的训练,使用l1损失,然后在迁移学习期间仅使用KITTI的半稠密地面真实图像作为目标进行了训练。04.3. 消融研究0为了展示我们方法的有效性,我们通过逐步添加我们框架的构建块进行了各种实验。我们在表2中展示了消融研究的定量结果。我们研究了稠密地面真实图像不可用的影响,以及传统学习、迁移学习(TL)、辅助学习(AL)和零样本学习(ZSL)等不同训练方法的影响,以及它们的组合,最后是训练损失的影响。(测试1)我们从一种假设下的简单实现开始进行深度补全,假设地面真实深度图像不可用。在这种传统设置下,我们使用KITTI自身的稀疏LiDAR深度图像作为输入和目标来训练我们的模型。我们评估了我们模型在KITTI半稠密地面真实图像上的性能。从图5中对应的图像可以看出,这在重建输出中产生了线条伪影。(测试2)为了改善重建效果,我们采用了在SYNTHIA数据集上进行传统设置的训练,然后在KITTI上进行迁移学习,但目标仍然是稀疏深度。尽管SYNTHIA提供了稠密深度图像,但在迁移学习后,我们仍然发现一些不需要的伪影。这可以归因于迁移学习期间目标图像的高稀疏性。为了证明这一点,(测试3)我们在SYNTHIA数据集上进行了辅助学习的另一个实验,并直接在KITTI数据集上进行了评估。在这个阶段,可以清楚地看到稠密深度目标的重要性。我们建议,在没有真实世界地面真实图像和其他传感器数据可用的情况下,我们可以选择所提出的零样本学习方法。这种方法的特点是对稀疏性和模式的鲁棒性。(测试4)我们进一步评估了模型在传统学习中训练时的性能,但目标是KITTI的半稠密深度图像。这种方法明显优于零样本学习方法。这是因为在零样本学习方法中,模型是以一种通用的方式进行训练的,没有学习目标域的特定知识。(测试5)进一步的测试表明,更密集的深度目标确实提高了重建的质量,包括结构正确性。(测试6、7)最后,我们展示了使用MAE损失训练模型相对于使用RMSE损失训练模型能够产生更清晰的物体边界。在图6中,我们还展示了使用SIUNet中的稀疏不变卷积(而不是UNet中的常规卷积)进行深度补全的有效性。58230(a)参考的RGB图像,(b)PSM [54],(c)StoD(d) [26],(d)pNCNN [8],(e)Spade-sD [28],(f)SIUNet(我们的模型)0图4:我们的方法与SoTA无导向深度补全方法的定性比较,按MAE从上到下的降序排列。我们方法的局部放大视图显示了物体边界的清晰度和结构正确性。其他方法的重建中可以观察到深度渗透现象。0图5:使用传统学习、迁移学习(TL)、辅助学习(AL)和零样本学习(ZSL)等不同训练方法的消融研究的定性比较。在训练KITTI之前,TL和AL方法在SYNTHIA数据集上进行了训练。为了方便观察,稀疏深度输入已经进行了膨胀处理。58240表2:使用不同的训练目标和训练方法(如传统学习、迁移学习(TL)、辅助学习(AL)和零样本学习(ZSL))进行消融研究。误差是相对于KITTI深度补全验证集的半稠密地面真实图像计算的。在训练KITTI之前,TL和AL方法在SYNTHIA数据集上进行了训练。0测试 训练方法 训练目标 MAE(mm)01 传统稀疏 495 2 TL稀疏 421 3 AL + ZSL 无364 4 传统半稠密 267 5 TL半稠密 266 6 AL+TL(我们的L2) 半稠密 249 7 AL+TL (我们的L1)半稠密 2240在传统设置中,我们使用KITTI自身的稀疏LiDAR深度图像作为输入和目标来训练我们的模型。我们在KITTI的半稠密地面真实图像上评估了我们模型的性能。从图5中对应的图像可以看出,这在重建输出中产生了线条伪影。(测试2)为了改善重建效果,我们采用了在SYNTHIA数据集上进行传统设置的训练,然后在KITTI上进行迁移学习,但目标仍然是稀疏深度。尽管SYNTHIA提供了稠密深度图像,但在迁移学习后,我们仍然发现一些不需要的伪影。这可以归因于迁移学习期间目标图像的高稀疏性。为了证明这一点,(测试3)我们在SYNTHIA数据集上进行了辅助学习的另一个实验,并直接在KITTI数据集上进行了评估。在这个阶段,可以清楚地看到稠密深度目标的重要性。我们建议,在没有真实世界地面真实图像和其他传感器数据可用的情况下,我们可以选择所提出的零样本学习方法。这种方法的特点是对稀疏性和模式的鲁棒性。(测试4)我们进一步评估了模型在传统学习中训练时的性能,但目标是KITTI的半稠密深度图像。这种方法明显优于零样本学习方法。这是因为在零样本学习方法中,模型是以一种通用的方式进行训练的,没有学习目标域的特定知识。(测试5)进一步的测试表明,更密集的深度目标确实提高了重建的质量,包括结构正确性。(测试6、7)最后,我们展示了使用MAE损失训练模型相对于使用RMSE损失训练模型能够产生更清晰的物体边界。在图6中,我们还展示了使用SIUNet中的稀疏不变卷积(而不是UNet中的常规卷积)进行深度补全的有效性。0对输入稀疏性的鲁棒性04.4. 稀疏不变性0我们评估了我们模型在输入深度图像的不同稀疏水平下的性能。为了引入稀疏性,我们使用伯努利采样随机消除了已经稀疏的输入深度图像的有效像素。图6显示了在不同稀疏水平下(以%表示)重建深度图像的定性和定量结果。我们采用了Jaritz等人提出的一种特定训练方法[28],在0%和99%之间随机变化输入的稀疏性。显然,我们的模型在不同的稀疏水平下表现良好,同时保持重建图像中的清晰物体边界。值得注意的是,在95%的稀疏性下,输入图像仅包含约1,000个有效深度像素。通过将如此极度稀疏的深度图像作为网络的输入,我们能够重建约270,000个像素,相当于0.37%的比例,MAE为512毫米。与Jaritz等人[28]和Huang等人[18]的工作相比,我们的方法不会在极度稀疏的输入周围模糊重建。我们还展示了在不同输入稀疏水平下使用稀疏不变卷积(在SIUNet中)而不是常规卷积(在UNet中)的有效性,以提高对输入稀疏性的鲁棒性。在这里,UNet和SIUNet都是在相同条件下进行训练的,如图1所示。04.5. 泛化能力0我们还在NYUv2室内数据集[39]上进行了实验,并在表3中与引导方法进行了数值比较。我们的模型在目标领域(室内)上提供了有竞争力的结果,该领域与源领域(室外)不同,而且仅是一种无引导的方法。请注意,我们的模型在NYUv2数据集上仅进行了迁移学习,该模型在辅助学习设置中使用了l1损失,并且最初在SYNTHIA数据集上进行了训练。0NYU数据集由MicrosoftKinect在室内场景中捕获的RGB和深度图像组成。它提供了47,584个训练图像和654个测试图像,尺寸为640×480。这些图像按照[25,27]的方法进行了尺寸减半和中心裁剪。深度图像通过均匀采样500个点进行稀疏化,并用作网络的输入。我们遵循[25,27]的评估协议,使用RMSE、REL(平均绝对相对误差)和完成深度的百分比作为误差指标,以及在阈值t下的相对误差和其倒数,其中t∈(1.25, 1.252, 1.253)。58250图6:稀疏不变性分析:稀疏深度输入进一步随机稀疏化,其值以%表示,位于每个重建输出的顶部。指示的MAE(毫米)值是1000次迭代的平均值。我们模型重建的所有图像都具有清晰的物体边界。为了方便观察,稀疏输入已经膨胀。0表3:我们的方法与引导方法在NYUv2测试集上的数值比较表明,我们的方法产生了有竞争力的结果。请注意,我们的模型仅进行了图1中的迁移学习步骤,该模型最初在辅助学习设置中在SYNTHIA数据集上进行了训练。↓表示数值越小越好0方法模式 RMSE(米)↓ REL(相对误差)↓ δ 1 . 25 ↑ δ 1 . 25 2 ↑ δ 1 . 25 3 ↑0双边[38] 引导 0.479 0.084 92.4 97.6 98.9 TGV [12] 引导 0.635 0.123 81.993.0 96.8 Zhang等人[51] 引导 0.228 0.042 97.1 99.3 99.7 Ma等人[27] 引导0.204 0.043 97.8 99.6 99.9 Nconv-CNN [10] 引导 0.129 0.018 99.0 99.8 100CSPN [4] 引导 0.117 0.016 99.2 99.9 100 DeepLiDAR [33] 引导 0.115 0.02299.3 99.9 100 DepthNormal [45] 引导 0.112 0.018 99.5 99.9 100 NLSPN[31] 引导 0.092 0.012 99.6 99.9 1000SIUNet(我们的方法)无导向 0.138 0.015 99.2 99.8 10005. 结论0在本文中,我们提出了一种基于稀疏不变U-net架构的无导向深度补全方法,在训练和推断过程中仅依赖目标域的LiDAR数据。它仅接受稀疏深度输入,并生成密集的深度图像以及残留深度轮廓。深度轮廓生成是我们网络的辅助任务(仅在源域上执行),它明确地强制我们的网络学习结构信息。由于主任务和辅助任务都在深度域中,我们的网络架构简单,便于特征的端到端共享,无需分支[50]。我们展示了我们的网络能够重建具有一致边界的密集深度图像。0即使对于极度稀疏的输入,我们通过对室内和室外数据集进行定性和定量比较,这些数据集是由不同的传感器系统捕获的,证明了我们的模型在其他无导向方法中具有竞争性能,并在深度不连续性周围产生更清晰的物体边界,尽管其架构简单。0致谢:本工作由德国弗劳恩霍夫学会资助。58260参考文献0[1] Jonathan T Barron和Ben Poole.快速双边求解器。在ECCV中,第617-632页,2016年。0[2] Yoshua Bengio,Aaron Courville和Pascal Vincent.表示学习:综述与新视角。IEEETPAMI,35(8):1798-1828,2013年。0[3] Xiaozhi Chen,Kaustav Kundu,Ziyu Zhang,HuiminMa,Sanja Fidler和Raquel Urtasun.用于自动驾驶的单目3D物体检测。在CVPR中,第2147-2156页,2016年。0[4] Xinjing Cheng,Peng Wang和Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在ECCV中,第103-119页,2018年。0[5] Nathaniel Chodosh,Chaoyang Wang和Simon Lucey.用于激光雷达深度补全的深度卷积压缩感知。在ACCV中,第499-513页,2018年。0[6] Sarah Cwalina,Christoph Kottke,VolkerJungnickel,Ronald Freund,Patrick Runge,PascalRustige,Thomas Knieling,Shanshan Gu-Stoppel,J¨orgAlbers,NormanLaske等。基于光纤的频率调制激光雷达具有长距离感测能力的MEMS扫描能力。在IEEE MetroAutomotive中,第48-53页,2021年。0[7] Alexey Dosovitskiy,German Ros,Felipe Codevilla,AntonioLopez和Vladlen Koltun.Carla:一个开放的城市驾驶模拟器。在CoRL中,第1-16页,2017年。0[8] Abdelrahman Eldesokey,Michael Felsberg,KarlHolmquist和Michael Persson.用于深度补全的不确定性感知CNN:从开始到结束的不确定性。在CVPR中,第12014-12023页,2020年。0[9] Abdelrahman Eldesokey,Michael Felsberg和Fahad ShahbazKhan.通过CNN传播置信度进行稀疏数据回归。arXiv:1805.11913,2018年。0[10] Abdelrahman Eldesokey,Mi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功