没有合适的资源?快使用搜索试试~ 我知道了~
5871稀疏不可知深度补全Andrea Conti Matteo Poggi Stefano Mattoccia意大利博洛尼亚大学计算机科学与工程项目页面:https://andreaconti.github.io/projects/sparsity_agnostic_depth_completion(a) RGB图像(b)500个输入点完成(c)5个输入点图1:稀疏不可知的深度完井。从左至右:(a)参考图像,(b)使用500个深度点的完整深度和点云,(c)仅使用5个深度点的完整深度和点云。我们的框架(上)在使用500点进行训练和测试时,显着优于NLSPN [29](下)。摘要我们提出了一种新的深度完成方法,不可知的深度点的稀疏性,这是很可能在许多实际应用中有所不同。最先进的方法只有在处理特定密度和输入点分布时才能得到准确的结果,即:在培训中观察到的一个,缩小了它们在实际用例中的部署。相反,我们的解决方案对不均匀分布和极低密度具有鲁棒性,在训练过程中从未标准室内和室外基准测试的实验结果突出了我们框架的鲁棒性,当密度和分布等于训练时,达到了与最先进方法相当的准确性我们的预训练模型和其他材料可在我们的项目页面中找到。1. 介绍深度感知对于机器人、场景理解等领域的各种应用至关重要,因此,几十年来一直在进行深入研究。在利用深度估计的流行系统中,值得一提的是自动驾驶[9],路径规划和aug。智能现实到目前为止,准确的深度感知需要多视图成像方法[44]或专门设计的传感器,如ToF(飞行时间)或LiDAR(光检测和测距)。虽然比标准相机更昂贵,但深度传感器通常允许更高精度的测量,即使在较低的空间分辨率下。一方面,ToF传感器便宜、小巧,最近已集成到移动消费设备中[16,23]。他们通过编码信号干扰现场,无法应付室外白天的环境。为了限制功耗,使用稀疏发射模式,仅针对以下情况产生有意义的深度测量场景中的几个点(500分)[16]。另一方面,LiDAR传感器采用移动的激光发射阵列扫描场景并输出点云[33],由于其高得多的分辨率,一旦投影到图像相机平面上,点云就会成为稀疏的深度图。然而,利用这种技术的设备昂贵且笨重,即使在日光室外环境中也适用,成为自动驾驶应用的标准[37]。由于所有这些深度传感器出于不同的原因仅提供不幸的是,在实际场景中,LiDAR和ToF传感器-SpAgNet(我们的)NLSPN [29]5872除稀疏性之外,Sor还受到其他问题的影响,这甚至可能容易导致通常不均匀分布的较稀疏的深度点例如,当来自不同场景点的多个反弹射线在同一像素上碰撞时,源自多径干扰此外,低反射率表面/材料吸收整个发射信号,而其他表面/材料大量反射信号,导致饱和。尽管有两种相反的行为,但在这两种情况下都不能可靠地测量深度,这可能导致大的未观察到的区域。最先进的深度补全技术是脆弱的,并且在重建场景的结构时失败,对于没有深度点可用的区域,或者当稀疏度与训练时使用的稀疏度相比显著变化时。事实上,无法处理稀疏深度点的不均匀空间分布-这将在本工作中揭示-威胁到而且这这种行为也会妨碍它们的无缝部署,使用根据与训练时使用的空间图案不同的空间图案推断深度的不同传感器(例如,从昂贵的Velodyne [38]LiDAR系统切换到更便宜的系统)。不幸的是,如本文所报告和图1所示,当输入可变稀疏性输入数据时,卷积层难以泛化因此,我们提出了一种与文献不同的设计策略,通过不直接向卷积层提供稀疏深度点来克服这个问题。有目的地,我们迭代地将稀疏输入点与网络预测的多个深度图合并。这种策略使我们能够处理高度可变的数据稀疏性,甚至像最先进的方法[29,3,7,11]那样使用恒定密度分布训练网络这样的成就使我们的完成解决方案SparsityAgnostic网络工作,被称为SpAgNet。我们的贡献可概括如下:• 我们提出了一种新的模块,旨在将稀疏数据的深度完成,但独立于他们的分布和密度。这样一个模块插入到一个经过毫不费力训练的竞争性神经网络架构中,可以有效地处理上述问题。• 我们使用KITTI深度完成(DC)和纽约大学深度V2(NYU)数据集评估了SpAgNet和最先进方法在一组极具挑战性的案例上的性能。我们强调了卓越的鲁棒性,我们的解决方案相比,国家的最先进的处理不均匀的输入模式。2. 相关工作深度预测除了通过非参数方法解决单目深度预测的一些尝试[17]之外,只有深度学习革命才能实现解决这个不适定问题的实际能力。首先,部署普通的卷积神经网络[6],然后通过更复杂的方法。具体来说,[8]将问题转换为分类任务,[1]利用双向注意机制,[19]引入新的局部平面引导层以更好地执行解码阶段,[32]联合计算全景分割以提高深度预测性能,[34]统一多个深度源以相干地训练神经网络以更好地泛化。以前的方法需要大量的训练数据才能在未知的环境中获得适当的例如,[10]依赖于从单目视频流中提取的超分辨率信号。深度完井。深度补全的目的是使由有源深度传感器获得的稀疏深度图致密化,从而根据技术提供通过比较雷达,[20]与LiDAR [9]传感器对比。这个任务已经通过利用额外的RGB图像或几乎不使用稀疏的深度数据来解决。虽然大多数方法依赖于基于学习的范例,[45]提出了一种非参数手工方法。关于深度学习方法,[25]是第一个通过联合向神经网络提供RGB帧和稀疏深度点来解决这个问题的人之一,以使后者变得致密。观察到操纵稀疏数据对于卷积来说是次优的,[37,4]提出了明确考虑稀疏性的自定义卷积层最终,引导空间传播技术已经展示出优越的性能。首先,[21]提出了一种能够学习局部亲和力的网络来指导深度扩展,这种策略最初由[3]改进,然后由[29]改进。基于类似的原理,[36]提出了用于多模态特征融合的内容相关和空间变化的内核。[7]执行深度补全,还对稀疏输入深度和加密输出的置信度进行建模。在一个平行的轨道上,一些作品专注于深度完成的无监督训练策略[24,41,40,42]。最后,[11]提出了一种处理深度完井和深度预测的方法。尽管这似乎与我们的研究相似,但它只是松散的相关。首先,它不能处理不同的稀疏性,而只能处理完全不存在稀疏深度点的情况。其次,为了实现他们的目标,他们需要一个特定的训练过程和一个额外的分支来处理稀疏深度数据的可用性。相反,我们独特的网络设计解决了这两个问题。不确定度估计评估估计值587324 8 1632图2:SpAgNet架构。该网络遵循编码器-解码器设计,具有从图像中提取特征的骨干和自定义解码器,以多个尺度迭代合并稀疏深度提示,而不直接将其作为稀疏深度图提供。最后,我们利用非本地传播[29]来进一步提高准确性。情况对于神经网络,已经广泛探索了贝叶斯框架的使用[26,39,2]或联合预测网络输出分布的均值和方差的策略对于深度完井,[7]提出联合计算稀疏输入深度和密集输出的置信度然而,对于单目深度预测,[31]已经深入研究了自监督方法的不确定性。3. 稀疏不可知框架为了解决深度完井,我们从我们的仔细观察开始。具体来说,正如[37,4]所指出的那样,2D卷积很难操纵稀疏信息。此外,我们进一步注意到,这种输入深度数据的密度及其空间分布--这可能高度不均匀-此外,我们认为这些网络主要依赖于稀疏深度输入,忽略了图像内容,基本上忽略了其中描述的几何结构。SpAgNet依赖于具有跳过连接的编码器-解码器结构,如图2所示。然而,不像当前的深度完成技术[29,3,11,7],出于先前概述的原因,相反,我们只从RGB帧中提取特征,以消除稀疏的输入数据,从而消除其密度。该策略允许我们约束网络以充分利用图像内容,并且如我们稍后将讨论的,强制网络从RGB提取场景的几何形状。解码步骤迭代地并在多个尺度上从RGB图像预测第一迭代步骤采用从RGB图像提取的输入特征,并生成较低尺度的深度图和置信度图。然后,接下来的迭代步骤处理相同的输入加上深度图及其置信度,两者都用在先前迭代中计算的稀疏输入点进行了增强而且由于每一个中间深度图都提供了一个比例因子的信息,我们在每一个增强步骤之前根据稀疏输入点对其进行缩放我们这样做是由于单目深度预测的不适定性。实验结果将证实我们的设计选择,特别是当处理一些稀疏的输入点。在迭代步骤结束时,我们应用[29]中提出的非局部空间传播模块来细化由网络推断的深度图图2描述了整个框架。3.1. 编码器架构由于我们的框架只对图像中的特征进行编码,因此我们可以利用任何预先训练的网络作为编码骨干。这样的主干在ImageNet上预先训练[35]。在多种选择中[12,14,43],我们选择ResNeXt50 [43],因为它在性能和速度之间具有良好的权衡具体来说,它将图像下采样到尺度1、1、1、1和1,并将解码步骤中使用的特征作为输入和跳过连接。3.2. 缩放和放置模块在我们的建议中,核心的缩放和位置(SP)模块负责推断密集和缩放的深度图及其置信度。它将骨干特征、不同尺度的先前SP模块的输出以及稀疏深度点作为输入,如图2所示。具体地,SP利用输入特征来联合生成初始的按比例深度图及其置信度,部署由两个卷积层和负责生成它们的两个头组成的主干块每个卷积层由一个2D卷积、一个批处理归一化[15]和一个Leaky ReLU组成。然后,在缩放步骤中,SP模块执行加权线性回归以根据可用稀疏输入点缩放深度图,通过置信度加权。加权线性回归的参数可以以封闭形式和可微的方式计算,如等式2中所述其中pi是预测的深度值,ci是置信度5874X+(a) RGB(b)密集深度(c)置信图(d)深度误差(e)深度缩放线性回归图3:置信度感知深度缩放。用于缩放深度的置信度示例。在左边,我们显示了(a)输入图像,(b)预测的深度图,(c)估计的置信度和(d)相对于地面实况的误差。在右边,我们绘制了缩放过程的结果(红色表示较低的置信度预测,绿色表示较高的置信度预测)。对应于可用的输入稀疏点Si。Σici(pi−p)(si−s)如图3所示,可以清楚地看到网络如何学习定位最可靠的深度值,因为这些深度值更接近地面实况深度。值得注意的是,信心在以下方面起着至关重要的作用:β=βc(p -p<$)2α=s< $−βp<$(一)iiiSP模块。首先,在缩放步骤中,它有助于定位p=icipiiciS=icisiici估计的深度图中的异常值使得能够在执行缩放过程时软化它们的影响。此外,在放置步骤中,将最高置信度分配给然后,在放置步骤中,对于那些有稀疏输入深度值的点,我们用它替换缩放深度图中的相应值。此外,我们还更新了置信度图中得分最高的同一点.后一步骤可概括如下.Ds[x,y],如果H[x,y]= 0稀疏的输入点使得网络能够有效地依赖于它们。尽管如此,SpAgNet还根据其估计的置信度利用其他预测深度点。由于S P模块需要多个尺度的稀疏数据,因此我们通过采用非参数化稀疏感知池:用步幅移动3×3窗口[x,y]=C[x,y]=H[x,y]如果 H[x,y]=0.Cs[x,y] ifH [x,y]= 0如果H[x,y]=0,则为1(二)(三)2,我们将其邻域中可用测度的均值分配给每个坐标,我们迭代地应用这个过程以达到较低的这种方法导致稀疏深度图的致密化,并有助于在所有尺度下包括大视场中可用的甚至很少的稀疏点。其中Ds是缩放的深度图,Cs是置信度图,并且H是包含零的稀疏深度图,其中输入稀疏深度点不可用。预测的置信度具有[0.1. 0.9]而我们将置信度1与H中的每个有效值相关联。我们&在尺度1,1和1上应用SP模块。的3.3. 非局域空间传播空间传播涉及到信息在局部位置向其邻域的扩散。这种策略代表了深度完井文献[21,3,29,13]中的常见做法,可以通过神经网络实现模块184 28计算初始深度和置信度图仅利用RGB特征。其他模块也接受来自先前模块的上采样的密集深度和置信度图的输入,以便迭代地校正预处理。负责学习邻里之间的亲和力令X=(xm,n)∈RM×N是要通过传播细化的2D深度图,在步骤t,其作用如下:根据预测深度和注入稀疏点因此,利用这种策略,解码器在其任何步骤中都不直接处理稀疏数据。不-tm,ncm,nΣt−1m,n(i,j)∈Nm,ni、jm,nt−1i,j(四)网络可以定位并有效地利用可靠的稀疏信息。这种机制的一个例子是其中,(m,n)是当前正在更新的参考像素,(i,j)∈N,m,n是其像素中的像素的坐标。X=wWX5875m,nm,n我我我邻区,wi,j亲和度权重和wc的640×480分辨率,采用单个NVIDIA RTX参考像素的亲和度权重:Σ3090 GPU。cm,n =1−(i,j)∈Nm,ni、jm,n(五)4.1.数据集纽约大学深度V2。纽约大学深度V2 [27]数据集是一个各种现有的方法不同的选择,邻域和亲和权重的归一化过程,后者是确保传播过程中稳定性所必需的[21,3,29]。在SpAgNet中,我们实现了非局部方法[29],让网络使用可变形卷积动态决定邻域[5]。形式上:Nm,n={xm+p,n+q|(p,q)∈fφ(I,H,n,m)}(6)p,q∈R其中,I和H是RGB图像和稀疏深度,fφ(·)是确定稀疏性的神经网络非局部传播模块在输入中需要通过两个卷积映射生成的初始深度图。块从最后的S P块输出,使用全分辨率稀疏深度点缩放然而,在这种情况下,我们不执行加权缩放以在整个帧上获得最佳结果。最后,像往常一样,稀疏深度点覆盖预测输出。然后将得到的深度图与特征一起馈送到两个卷积块,以生成传播模块所需的引导特征和置信度3.4. 损失函数在每个尺度上,我们通过监督在Place步骤之前由SP模块获得的深度来训练网络。置信度对每个深度预测的损失进行加权,正则化项(由η控制)强制网络保持尽可能高的置信度在[29]之后,我们计算L1和L2损失。我们的损失函数,在一个特定的规模,是由方程。其中Cs和Ds分别是特定尺度s下的置信度和深度。未计算全尺寸标度的置信度,因此室内数据集包含464个室内场景,Kinect传感器我们遵循官方的训练/测试分裂,因为以前的作品依赖于Ma等人的预处理子集。[25]使用249个场景进行训练(约50 K个样本)和215个场景(654个样本)进行测试。每幅图像都被下采样到320×240,然后进行中心裁剪304×228 作为此数据集的常见做法,500每个图像的随机点已经被提取以模拟稀疏的深度我们训练我们的网络15个epoch,从学习率10−3开始,每3个epoch减少0。1,设γ=0。4且η=0。1.一、 我们使用批量大小24(每个GPU 12);因此,由于整个训练占不到30 K步,因此网络收敛非常快。我们应用颜色和亮度抖动和水平翻转来限制过拟合。KITTI深度完井(DC)。KITTI DC [37]是一个室外数据集,包含超过90 K个样本,每个样本提供RGB信息和对齐的稀疏深度信息(密度约为5%),由高端Velodyne HDL-64 E LiDAR传感器检索。图像分辨率为1216×352 , 数 据 集 提 供 了 一 个 标 准 的分 割 来 训 练(86K样本),验证(7K样本)和测试(1K样品)。地面实况是通过时间累积多个LiDAR帧并过滤误差[37]获得的,最终密度约为20%。在这个数据集上,我们以批量大小8(每个GPU 4)训练10个epoch,从学习率10−3开始,每3个epoch减少0。1,我们设γ=0。4和η=20。0的情况。数据扩充遵循与纽约大学相同的方案。4.2. 评价在本节中,我们将评估部署数据集上面提到的。 Foll o wingstandar d.实践[29,3],我们0使用以下指标:RMSE=1 Σ |D −G|二、C =1时。 最后,值得一提的是,通过指数衰减因子γ加权较小。MAE= 1μ m |D尼岛一.-G |REL =1。Di−Gi .你我我尼岛Gi100米L=γsCs L12−ηlnCs(七)出于评估目的,除了在该领域部署的标准协议[29,3]外,我们还彻底评估了Niiis=0 iL12=|Ds−Gi|+的|Ds−Gi|24. 实验结果我们已经在PyTorch [30]训练中使用2个NVIDIARTX 3090并使用ADAM优化器实现了SpAgNet[18]其中β1=0。9和β2=0。999最终模型需要35毫秒来对图像执行预测在更具挑战性的场景中评估网络在两个数据集上的鲁棒性,但是总是使用标准过程进行训练(即,使用NYU上的500个点和KITTI上的64个LiDAR线)。由于KITTI DC被认为是用于自动驾驶任务,并且稀疏深度是用高端64线激光雷达获取的,该激光雷达在输出中始终提供相同的模式,因此我们模拟了切换到更便宜的设备,该设备在输出中提供更少的线,以评估SpAgNet在稀疏深度密度上进行概括的能力。对WW5876500p 5p移动网格Livox图4:稀疏深度模式。不同稀疏深度图案的示例,从左到右:500个随机点,5个随机点,移位三角形平铺点图案和Livox样图案(例如,Livox Mid-70)。纽约大学深度V2,稀疏深度点传统上是从几乎密集的地面实况中随机抽取的[25,29,3]。因此,我们测试i)只有5个随机点的极端情况,ii)具有大的空白区域的影响,以及iii)改变稀疏模式的影响。我们实现ii)从地面实况采样三角形平铺点图案,旨在模拟的输出商业VCSEL [23] ToF传感器,然后随机移动该图案以留下没有稀疏提示可用的大空白区域,同时iii)使用Livox Mid- 70的图案从地面实况中提取稀疏点[22]。图4显示了所有这些模式。我们考虑了NYU Depth V2或KITTI DC上提供的公开预训练的最先进模型,并且我们注意确保每个架构在评估时看到完全相同的关于NYU Depth v2的问题表1比较了使用不同输入配置的最新方法和我们对纽约大学数据集的建议:在上部通过改变样本的数量通过改变图案类型。从表中,我们可以注意到pNCNN [7]0.5191.922CSPN [3]移位栅极0.3671.547NLSPN[29](100)0.1750.796SpAgNet(我们的)0.1100.422pNCNN [7]0.0610.333CSPN [3]livox0.0660.376NLSPN [29](150)0.0370.233SpAgNet(我们的)0.0390.206表1:对NYU Depth v2的评价。与最先进的方法进行比较,使用500个随机点进行训练,从地面实况中提取,作为输入,并使用不同的密度和模式进行测试。粗体是最好的结果,下划线是第二个.在Livox类模式的情况下,SpAgNet和NL- SPN实现了类似的性能,而其他方法则下降了我 们 的 建 议 实 现 了 有 竞 争 力 的 结 果 , 非 常 接 近NLSPN,并且当使用的点数与训练阶段相同时优于其他方法(即,500)。类似的行为发生在200点。然而,当输入点的密度进一步降低时,SpAgNet的性能大大优于最先进的技术。当进一步降低密度时,与其他方法的性能差距会变得更大。例如,对于50个点,SpAgNet的RMSE为0.272 m,而第二个(NLSPN)为0.423 m。值得注意的是,只有5个点,相同的指标是0.467 m和1.033 m(NLSPN),进一步强调了我们的建议,即使处理微薄的输入点的能力,与我们的竞争对手相比。值得注意的是,我们的方法优于竞争对手与随机选择的输入点从100开始。表1的底部报告了具有不同空间分布的评估结果及其深度输入点的平均密度。具体来说,我们报告的结果与两个分布描绘在图4的最右边的图像.从表中我们可以观察到,当空间分布覆盖整个图像时,后面 然而,当输入点不覆盖sig时,场景的重要部分,并且密度进一步降低,就像在移动网格的情况下一样,我们的方法大大优于所有竞争者。图5定性地显示了SpAgNet在使用500个随机点、5个点和移动网格时如何在NYU样本上与CSPN和NLSPN进行比较。它强调了如何只有我们的方法产生有意义的和令人信服的结果与5点和移动网格,利用图像内容比竞争对手好得多,这要归功于提出的架构设计。同时,我们的网络达到了与竞争对手相当的结果,具有500个随机分布的点。这一事实进一步强调了SpAgNet的鲁棒性与完全利用稀疏深度信息的能力(当完全可用时)的交易。关于KITTI DC 一旦我们评估了室内NYU数据集的性能,我们在表2中报告了对KITTI DC的评价。从表中,我们可以注意到,SpAgNet的64行结果几乎可以与最好的NLSPN相媲美。然而,通过减少方法样品REL↓RMSE(m)↓pNCNN [7]0.0260.170CSPN [3]0.0160.118NLSPN [29]5000.0130.101PackNet-SAN [11]0.0190.120SpAgNet(我们的)0.0150.114pNCNN [7]0.0400.237CSPN [3]0.0270.177NLSPN [29]2000.0190.142PackNet-SAN [11]0.0270.155SpAgNet(我们的)0.0240.155pNCNN [7]0.0610.338CSPN [3]NLSPN [29]1000.0670.0380.3880.246SpAgNet(我们的)0.0380.209pNCNN [7]0.1080.568CSPN [3]NLSPN [29]500.1850.0810.8840.423SpAgNet(我们的)0.0580.272pNCNN [7]0.7222.4125877RGB稀疏深度(a)CSPN [3](b)NLSPN [29](c)SpAgNet图5:NYU-Depth v2的定性结果。CSPN和NLSPN在处理5个点或移动的网格模式时,表现出完全无法处理它们,而SpAgNet保持场景结构。方法线RMSE(mm)↓MAE↓NLSPN [29]778.00199.50pNCNN [7]1011.86255.93PackNet-SAN [11]641027.32356.04PENet [13]791.62242.25SpAgNet(我们的)844.79218.39NLSPN [29]1217.21367.49pNCNN [7]1766.84615.93PackNet-SAN [11]321836.84914.33PENet [13]1853.061025.42SpAgNet(我们的)1164.18339.22NLSPN [29]1988.52693.10pNCNN [7]3194.691321.74PackNet-SAN [11]162841.351570.05PENet [13]3538.022121.46SpAgNet(我们的)1863.25606.92NLSPN [29]3234.931491.28pNCNN [7]5921.942999.92PackNet-SAN [11]83231.031575.41PENet [13]6015.023812.45SpAgNet(我们的)2691.341087.21NLSPN [29]4834.222742.80pNCNN [7]9364.585362.45PackNet-SAN [11]44850.202255.08PENet [13]9318.865819.36SpAgNet(我们的)3533.741622.64表2:KITTI DC的评价。与最先进的方法进行比较,始终在64线Velo- dyne激光雷达上进行训练,并使用不同数量的线进行测试。粗体是最好的结果,下划线是第二个。从32到4行,我们的网络总是获得最好的性能,差距越来越大。有趣的是,PackNet-SAN [11]经过专门训练,在深度完成(64行)和深度预测(0行)方面表现良好,但无法处理更少的行。实际上,它在处理16、8或4行时实现的精度甚至低于在执行深度预测时实现的精度,即,RMSE等于2.233 mm。我们认为行为的事实,他们训练一个外部编码分支,从稀疏数据中提取特征,并通过求和运算将它们馈送到网络。即使这样的分支应用特殊且庞大的稀疏卷积算子[4],它似乎也不能推广到更少的点。相反,整个网络似乎遭受了完全卷积模型的相同问题,只有当输入64条LiDAR线或没有时才有效图6在KITTI DC数据集的图像上显示了NL- SPN、PENet和我们的网络的结果,其中有三种不同的行数与竞争对手相比,SpAgNet始终推断出有意义的深度图,即使线条数量减少。通过查看错误映射可以更好地感知这种行为。例如,这是特别明显的4条线,侧重于路面和远处和背景对象。其他定性结果在补充材料和我们的项目页面中4.3. 消融研究最后,我们对SpAgNet的主要组件进行了消融研究,以衡量它们的有效性。具体地,在表3中,我们分别进行两个主要研究,以评估(a)i)SP模块的缩放步骤(而放置步骤是严格必要的,因为它是输入执行完成所需的稀疏深度点的入口点),ii)置信度的使用和iii)非局部传播头的影响,以及(b)用不同主干实现的结果。从(a)中,我们可以注意到,在500个稀疏点的情况下,缩放并没有显著改善,因为网络已经学会生成几乎是规模的输出怎么-栅极偏移5分500点5878图6:KITTI DC的定性结果。我们报告的结果,从左到右,分别为64,8和4行。从上到下,[29],[13]和我们的预测深度和误差图。在500分的测试中,ResNeXt50取得了稍微好一点的结果。当测试只有5个点的相同网络时,准确性出现了显著的差距,ResNeXt50再次获得了最佳结果。5. 结论(一)(b)第(1)款本文提出了一个稀疏不可知的框架,深度完成依赖于一个新的规模和地点(SP)模块。注入稀疏深度指向它,而不是指向表3:NYU的消融研究(b) 不同的脊椎使用500点进行训练,在同一数据集上使用500点或5点进行测试。即使在只有5个点的情况下,应用全局缩放过程也有助于即使在缺乏深度测量的区域中检索正确的比例专注于信心,它被证明是有效的高密度和低密度的输入点。最后,非局部空间传播进一步提高了这两种情况下的性能。在(b)中,当卷积允许我们即使在面对输入深度点的不均匀和稀疏分布时也能提高该体系结构相比之下,现有的最先进的解决方案在这种情况下是不稳健的,并且通常不能推断出有意义的结果。实验结果表明,我们的网络的能力是竞争力与国家的最先进的面对标准的输入分布,而结果更好地处理不均匀的。谢 谢 。 我 们 非 常 感 谢 Sony Depthsensing SolutionsSA/NV对本研究的资助,感谢Valerio Cambareri对本项目的持续监督以及他对本手稿的反馈。SpAgNetPENet [13]NLSPN [29]线RGBNLSP置信度缩放样品RMSE(m)↓✗ ✗ ✗0.161✗✓ ✓0.127✓✗✓0.122✓ ✓✗0.115✓✗ ✗✗✓✗5000.1320.145✗ ✗✓0.135✓ ✓ ✓0.114✗ ✗ ✗0.770✗✓ ✓0.474✓✗✓0.479✓ ✓✗0.526✓✗ ✗✗✓✗50.5660.823✗ ✗✓0.484✓ ✓ ✓0.467主干尺寸样品RMSE(m)↓ResNet18 27M0.116ResNet34 37M0.121ResNet50 51M5000.117ResNeXt5051M0.114DenseNet121 30M0.118DenseNet161 61M0.115ResNet18 27M0.504ResNet34 37M0.474ResNet50 51M50.664ResNeXt5051M0.467DenseNet121 30M0.678DenseNet161 61M0.5645879引用[1] Shubhra Aich , Jean Marie Uwabeza Vianney , MdAmirul Is-lam,and Mannat Kaur Bingbing Liu.用于单目深度估计的双向在2021年IEEE机器人与自动化国际会议(ICRA)上,第11746-11752页[2] Tianqi Chen,Emily Fox,and Carlos Guestrin.随机梯度哈密顿蒙特卡罗。在Eric P. Xing和Tony Jebara的编辑,Proceedings of the 31 st International Conference onMachine Learning , 第 32 卷 Proceedings of MachineLearning Research,第1683-1691页,中国北京,2014年6月22-24日。PMLR。[3] Xinjing Cheng,Peng Wang,and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在欧洲计算机视觉会议(ECCV)中,第103-119页[4] Christopher Choy,JunYoung Gwak,Silvio Savarese. 4dspatio-temporalconvnets : Minkowskiconvolutionalneural networks.在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。[5] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在IEEE国际计算机视觉会议(ICCV)中,2017年10月。[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度 深 度 网 络 从 单 个 图 像 进 行 深 度 图 预 测 在 Z.Ghahramani , M. 威 灵 角 Cortes , N. 劳 伦 斯 和 K.Q.Weinberger,编者,《神经信息处理系统进展》,第27卷。Curran As-Sociates,Inc. 2014年[7] AbdelrahmanEldesokey , MichaelFelsberg , KarlHolmquist,and Michael Persson.用于深度完成的不确定性 感 知 cnn : 从 开 始 到 结 束 的 不 确 定 性 。 2020 年IEEE/CVF计算机视觉和模式识别会议(CVPR),第12011-12020页[8] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归在2018年IEEE/CVF计算机视觉和模式识别会议上,第2002-2011页[9] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在计算机视觉和模式识别会议中,2012年。[10] Clement Godard,Oisin Mac Aodha,Michael Firman,and Gabriel J.布罗斯托深入研究自我监督的monocular深度 估 计 。 在 2019 年 IEEE/CVF 计 算 机 视 觉 国 际 会 议(ICCV),第3827-3837页2020年。电气和电子工程师协会(IEEE)。2019年计算机视觉国际会议,ICCV2019 ;会议日期:2019年10月27日至2019年11月2日。[11] Vitor Guizilini,Rares Ambrus,Wolfram Burgard,andAdrien Gaidon.用于统一单目深度预测和完井的稀疏辅助网络。在IEEE计算机视觉与模式识别会议(CVPR),2021年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2016年6月。[13] 穆虎 、王 叔陵 、李 斌、 宁世玉 、李 凡、 公孝 津。Penet:实现精确和高效的图像引导深度完成。在2021年IEEE机器人与自 动化国际会议(ICRA)上,第13656- 13662页[14] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页[15] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在FrancisBach和David Blei,编辑,第32届机器学习国际会议的主席,机器学习研究会议记录的第37卷,第448-456页,法国里尔,2015年7月7日至9日。PMLR。[16] 姜晓雯,坎巴雷里,贾尼奥斯蒂,乌格武,西蒙内托,扎努蒂格,法比安.一个低内存占用的量化神经网络,用于 非常 稀疏 的飞 行时 间深度 图的 深度 完成 。在IEEE/CVF计算机视觉和模式识别会议(CVPR)研讨会,2022年6月。[17] Kevin Karsch,Ce Liu,and Sing Bing Kang.深度转移:使用非参数采样从视频中提取深度。IEEE Transactionson Pattern Analysis and Machine Intelligence , 36(11):2144[18] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2015。[19] Jin Han Lee,Myung-Kyu Han,Dong Wook Ko,and IlHong Suh.从大到小:用于单目深度估计的多尺度局部平面制导,2019年。[20] Juan-Ting Lin,Dengxin Dai,and Luc Van Gool.从单目图像和稀疏雷达数据进行深度估计。在智能机器人和系统国际会议(IROS),2020年。[21] Sifei Liu , Shalini De Mello , Jinwei Gu , GuangyuZhong,Ming-Hsuan Yang,and Jan Kautz.通过空间传播网络学习亲和力在重症盖永冯·卢克斯堡S. Bengio,H.瓦拉赫河Fergus,S. Vishwanathan和R.Garnett,编者,《神经信息处理系统进展》,第30卷。Curran Associates,Inc. 2017年。[22] 力沃科技有限公司网址://www.livoxtech.com/mid-70的网站。[23] Gregor Luetzenburg,Aart Kroon,and Anders Bjørk.苹果iphone12pro激光雷达在地球科学中的应用评估。科学报告,11,11 2021。[24] Fangchang Ma,Guilherme Venturelli Cavalheiro和SertacKaraman。自监督稀疏到密集:激光雷达和单目相机的自我监督深度完成。在ICRA,2019年。5880[25] Fangchang Ma和Sertac Karaman。稀疏到密集:从稀疏深度样本和单个图像进行深度预测。在ICRA,2018年。[26] 大卫·J·C麦凯反向传播网络的一个实用的基本框架。Neural Computation,4(3):448[27] Pushmeet Kohli Nathan Silberman ,Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推断。ECCV,2012年。[28] 尼克斯检察官和AS魏根德估计目标概率分布的均值和方差。在1994年IEEE神经网络国际会议(ICNN'94)[29] Jinsun Park,Kyungdon Joo,Zhe Hu,Chi-Kuei Liu,and In So Kweon.用于深度完井的非局部空间传播网络。欧洲计算机视觉会议,第120-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功