没有合适的资源?快使用搜索试试~ 我知道了~
10986神经RGB→D传感:来自摄像机的深度和不确定性Chao Liu1,2张Jinwei Gu1,3张Kihwan Kim1Srinivasa G.1月Kautz11NVIDIA2卡内基梅隆大学3商汤科技摘要深度传感对于三维重建和场景理解至关重要有源深度传感器提供密集度量测量,但通常受到诸如受限的操作范围、低空间分辨率、传感器干扰和高功耗的限制。在本文中,我们提出了一种深度学习(DL)方法,用于从单目视频流中连续估计每像素深度及其不确定性,目标是有效地将RGB相机转换为RGB-D相机。与先前的基于DL的方法不同,我们估计每个像素的深度概率分布而不是单个深度值,从而估计每个输入帧的3D深度概率量。这些深度概率量在贝叶斯过滤框架下随着时间的推移而累积,因为更多的输入帧被顺序地处理,这有效地降低了深度不确定性并提高了准确性、鲁棒性和时间稳定性。与现有的工作相比,该方法实现了更准确和稳定的结果,并更好地推广到新的数据集。实验结果还表明,我们的方法的输出可以直接输入到经典的RGB-D的三维扫描方法的三维场景重建。1. 介绍深度感测对于3D重建[31,32,52]和场景理解[43,18,34]至关重要。有源深度传感器(例如,飞行时间照相机[19,35],LiDAR [7])测量密集的度量深度,但是通常具有有限的操作范围(例如,室内)和空间分辨率[5],消耗更多的功率,并且遭受多径反射和传感器之间的干扰[29]。相比之下,直接从图像估计深度解决了这些问题,但面临其他长期存在的挑战,例如单目方法的尺度模糊性和漂移[37],以及立体[47]和多视图方法的对应问题和高计算成本[41]。受最近深度学习在3D视觉中的成功启发[13,56,50,17,20,51,53,6,55,4,46],在本文中,我们提出了一种基于DL的方法来估计深度及其作者在NVIDIA工作时为这项工作做出了贡献输入帧估计深度10Confidence3D Recon。使用30个视图图1.我们提出了一种基于DL的方法来连续估计单目视频流的深度及其不确定性(或置信度)它的输出可以直接输入到经典的基于RGB-D的3D扫描方法[31,32]中进行3D重建。它可以从单目视频流中连续地消除不确定性,目标是有效地将RGB相机转换为RGB-D相机。我们有两个关键的想法:1. 与先前的工作不同,对于每个像素,我们估计深度概率分布而不是单个深度值,从而导致对每个输入帧的深度概率体积(DPV)的估计。如图1,DPV提供深度图的最大似然估计(MLE)以及对应的每像素不确定性度量。2. 随着更多的传入帧被相继处理,这些跨越不同帧的DPV随时间累积。累积步骤源自贝叶斯滤波理论,并作为可学习的深度网络实现,有效地降低了深度不确定性,并随着时间的推移提高了准确性、鲁棒性和时间稳定性,如稍后在第2节中所示。4.第一章我们认为,所有基于DL的深度估计方法都不应该预测深度值,而是深度分布,并且应该随着时间的推移整合这种统计分布(例如,通过贝叶斯过滤)。这是因为来自图像的密集深度估计-10987如缺少纹理、镜面/透明材质、遮挡和比例漂移。虽然最近的一些工作开始关注某些计算机视觉任务的不确定性估计[15,23,24,21],但据我们所知,我们是第一个从图像中预测深度概率体积并将其随时间推移整合到统计框架中的人。我们在多个数据集上广泛评估了我们的方法,并与最近最先进的基于DL的深度估计方法进行了比较[13,17,50]。我们还执行所谓的“跨数据集”评估任务,该任务测试在不同数据集上训练的模型,而无需进行微调。我们相信这样的跨数据集任务对于评估鲁棒性和泛化能力是必不可少的[1]。实验结果表明,合理良好的相机姿态估计,我们的方法优于这些先前的深度估计方法具有更好的精度,鲁棒性和时间稳定性。此外,如图1,所提出的方法的输出可以直接馈送到基于RGB-D的3D扫描方法[31,32]中,用于3D场景重建。2. 相关工作来自有源传感器的深度感测有源深度传感器,例如深度相机[19,35]或LiDAR传感器[7],提供密集度量深度测量以及传感器特定的置信度测量[36]。尽管它们的广泛使用[31,52,18,34],它们有几个固有的缺点[33,49,29,5],例如有限的操作范围,低空间分辨率,传感器干扰和高功耗。我们在本文中的目标是模仿具有单目RGB相机的RGB-D传感器,该相机从视频流中连续预测深度(及其不确定性)。直接从图像中进行深度估计一直是计算机视觉领域的核心问题。Sion [38,41].经典的单视图方法[9,37]经常对场景结构做出强假设。立体和多视图方法[41]依赖于三角测量,并且难以找到无纹理区域、透明/镜面材质和遮挡的对应关系此外,由于全局光束法平差,这些方法对于实时应用通常在计算上是昂贵的。对于来自单目视频的深度估计,还存在尺度模糊和漂移[30]。由于这些挑战,许多计算机视觉系统[39,30]主要使用RGB图像进行相机姿态估计,但很少用于密集3D重建[40]。然而,从图像的深度感测具有很大的潜力,因为它解决了有源深度传感器的所有上述缺点。在本文中,我们使用基于学习的方法朝这个方向迈出了一步。基于学习的深度估计最近,研究人员已经显示出直接从图像进行深度感测的令人鼓舞的结果,包括单视图方法[56,13,17],基于视频的方法[28,54,51],深度和运动两个视图[50,6]和多视图立体[55,20,53]。一些工作还将这些基于DL的深度感测方法并入视觉SLAM系统中[4,46]。 然而,尽管这些基于DL的方法具有良好的性能,但它们离实际应用还很远,因为它们的鲁棒性和泛化能力尚未得到彻底的测试[1]。事实上,如SEC所示。4,我们发现许多最先进的方法即使对于简单的跨数据集任务也会显着降低这引起了越来越多的需求,为深度传感的不确定性和贝叶斯深度学习的系统研究,在我们的论文中执行。不确定性和贝叶斯深学习不确定性和贝叶斯建模在过去几十年中已经被长期研究,各种定义范围从低级视觉[45]和运动分析[25]的后验分布的变化到传感器输入模型的变化[22]。最近,贝叶斯深度学习的不确定性[15,23]被引入各种计算机视觉任务[24,21,8]。在我们的工作中,不确定性被定义为深度的后验概率,即,DPV从几个连续帧的局部窗口估计。因此,我们的网络估计的是我们还学习了一个广告网络模块,以贝叶斯过滤的方式整合这个深度概率分布随时间的推移,以便提高从视频流的深度估计的准确性和鲁棒性。3. 我们的方法图2示出了我们提出的用于从输入视频流进行深度感测的方法的概述,其由三个部分组成第一部分(SEC)3.1)是D-Net,它估计每个输入帧的深度概率体积(DPV)第二部分(Sec.3.2)是K-Net,它有助于随着时间的推移整合DPV。第三部分(二)3.3)是细化R-Net,它在输入图像的指导下提高了DPV的空间具体地,我们将深度概率体积(DPV)表示为p(d;u,v),其表示像素(u,v)具有深度值d的概率,其中d∈[dmin,dmax]。由于透视投影,定义的三维视锥连接到相机,如图所示。第3(a)段。dmin和dmax是3D平截头体的近平面和远平面,3D平截头体在深度的倒数上均匀地离散成N= 64个平面(即,差异)。DPV包含给定场景的深度的完整统计分布。 在本文中,我们直接使用非参数体积来表示DPV。也可以使用参数模型,例如高斯混合模型[3 如果有了DPV,我们可以计算出最大值-10988图2.概述了所提出的用于视频中不确定性深度估计的网络。我们的方法将视频中的本地时间窗口中的帧作为输入,并输出随时间更新的深度概率体积(DPV)。更新过程采用贝叶斯过滤器方式:我们首先取使用D-Net估计的局部DPV之间的差(第二节)。3.1)和来自先前帧的预测DPV以得到残差;然后残差由K-Net(第3.1节)修改3.2)并加回预测的DPV;最后DPV被R-Net细化和上采样(第3.2节)。3.3),其可用于计算深度图及其置信度。当前帧It并计算它们的差。因此,对于所有深度候选者,我们可以计算成本体积,它在softmax层之后产生DPVΣ(a) 深度概率体积(DPV)L(dt|It)=k∈Nt,k||、||,不图3. DPV的表示和更新。(a)DPV被定义在由针孔相机模型定义的3D平截头体上。(b)DPV随着相机移动而随时间更新深度的似然估计(MLE)及其置信度:d=最大值x深度:d(u,v)=p(d;(u,v))·d,(1)d=dmin置信度:C(u,v)=p(d,(u,v))。(二)为了使符号更简洁,我们将省略(u,v),并在本文的其余部分使用p(d)表示DPV。当处理视频流时,DPV可以被视为系统的隐藏状态。当摄像机移动时,如图3(b),DPV p(d)随着新观测的到来而更新,特别是对于重叠卷。同时,如果相机运动是已知的,则我们可以容易地从当前状态预测下一个状态p(d)。这种预测更新迭代自然意味着贝叶斯过滤方案随着时间的推移更新DPV以获得更好的准确性。3.1. D Net:估计DPV对于每个帧It,我们使用名为D-Net的CNN来估计条件DPV,p(dt|It),使用It及其节奏相邻帧。在本文中,我们考虑五帧的局部t,t+ 2(25fps/30fps)。对于给定的深度候选d,我们可以通过将所有相邻帧扭曲成估计深度概率(第第3.1节)随时间积分深度概率(秒)3.2)细化深度概率(第3.3)NtD-net深度信心预测DPV#(%t|I):t+))深度置信度深度信心共享K-NetR-netSoftmax-+实测DPV#(%t| It)残余剩余增益更新DPV#(%t|I):t)经纱精制DPV跳过从图像功能到R-Net的连接相机轨迹不t+1(b)更新DPV……10989p(dt|It)= softmax(L(dt|It)),(3)其中f(·)是特征提取r,δTkt是从帧Ik到帧It的相对相机姿态,warp(·)是将图像特征从帧Ik扭曲到参考的算子EnceFrameIt,其被实现为2D网格采样。在本文中,不失一般性,我们使用PSM-Net[6]中的特征提取器f(·),它输出输入图像1/4大小的特征在第3.3中,我们学习了一个细化R-Net,以将DPV上采样回输入图像的原始大小。图 4 示 出 了 从 来 自 输 入 图 像 的 深 度 概 率 体 积(DPV)导出的深度图d(u,v)及其置信度图C(u,v)(蓝色表示低置信度)的示例下图分别显示了三个选定点的深度概率分布p(d;u,v)。红色和绿色点具有尖锐的峰值,这表明其深度值具有高置信度。蓝点位于高亮区域中,因此它具有平坦的深度概率分布和其深度的低置信度。3.2. K Net:随时间积分DPV当处理视频流时,我们的目标是随着时间的推移整合DPV的局部估计以减少不确定性。如前所述,这种集成可以自然地实现为贝叶斯过滤。让我们定义dt为隐藏状态,它是深度(在相机坐标中)。nates)。“信念”卷p(dt|I1:t)是状态的条件分布,跳转一个简单的贝叶斯过滤可以在10990Dp(d).5输入帧深度置信度帧t帧t+10深度概率深度(米)图4.深度图d(u,v)及其置信度图C(u,v)(蓝色表示置信度低)的示例来自深度图d(u,v)。概率体积(DPV)。下图分别显示了三个选定点的深度概率分布p(d;u,v)。红色和绿色点具有尖锐的峰值,这表明其深度值具有高置信度。蓝点在高亮区域中,这导致平坦的深度概率分布和其深度值的低置信度。两个迭代步骤:预测:p(dt|I1:t)→p(dt+1|I1:t),更新:p(dt+1|I1:t)→ p(dt+1|I1:t +1),(4)其中预测步骤是将当前DPV从t处的相机坐标扭曲到t+1处的相机坐标:无过滤全局阻尼没有阻尼自适应减振p(dt+1|I1:t)= warp(p(dt|其中δ Tt,t+ 1是从时间t到时间t的相对相机姿态t+1,这里的warp(·)是一个warping运算符,作为3D网格采样。在时间t+ 1,我们可以计算局部DPV p(dt+1|It+1)从使用D-Net的新测量It+1得到。该局部估计因此被用于更新隐藏状态,即,p(dt+1|I1:t +1)=p(dt+1|I1:t)·p(dt+1|It+1)。(六)请注意,我们总是在上述等式中对DPV进行归一化,并确保dmaxp(d)= 1。图5是一个例子。min如第二行所示,使用上述贝叶斯过滤器-如果使用“无阻尼”(标记为然而,直接应用贝叶斯滤波的一个问题是,它在预测步骤中集成了正确和不正确的信息。例如,当存在遮挡或不遮挡时,遮挡边界附近的深度值突然改变。直接应用贝叶斯滤波将把错误的信息传播到这些区域的下一帧,如图中的红框所示。五、一个简单的解决方案是降低预测的权重,以防止不正确的信息随着时间被整合具体来说,通过定义E(d)=−logp(d),方程6可以重写为E(dt+1|I1:t +1)= E(dt+1|I1:t)+E(dt+1|It+1),GT深度置信度图5.不同方法对DPV随时间积分的比较。墙的一部分在第t帧处被椅子遮挡,在第t+ 1帧处未被遮挡。无过滤:不随时间积分DPV。无阻尼:直接将DPV与贝叶斯滤波集成。全局阻尼:使用等式2对所有体素的预测DPV进行下加权。7,λ=0。8. 自适应阻尼:使用K-Net自适应地降低预测DPV的权重(第二节)。3.2)。使用K-网,我们得到了最好的深度估计区域/无遮挡。其中第一项是预测,第二项是测量。为了减少预测的权重,我们将权重λ∈[0,1]与第一项相乘,E(dt+1|I1:t +1)=λ·E(dt+1|I1:t)+E(dt+1|It+1)。( 七)我们称之为如图5.全局阻尼有助于减小所讨论区域的误差。然而,全局阻尼也可能阻止一些正确的深度信息被集成到下一帧,因为它为DPV中的所有体素同等地降低权重。因此,我们提出了一种E(dt+1|I1:t +1)=E(dt+1|I1:t)+g(It+1,It+1),(8)其中,ΔEt+1是测量值与预测值之间的差值Et+1=E(dt+1|It+1)− E(dt+1|I1:t), (9)10991g(·)是一个CNN,名为K-Net,它学习将KNEt+1转换为预测的校正项。直觉上,对于具有正确深度概率估计的区域DPV重叠体积中的值是一致的。因此,Eq中的残差9是小的,DPV将不会在方程中更新8. 另一方面,对于具有不正确深度概率的区域,残差将很大,并且DPV将由g(ΔE,It+1)校正。这样,预测的权重将针对不同的DPV体素自适应地改变如图 5.自适应阻尼,即,K-Net,显著提高了深度估计的准确性。事实上,K-Net与卡尔曼滤波器的推导密切相关,其中详情请参阅补充资料3.3. R Net和训练细节最后,由于DPV p(dt|I1:t)估计为1/4输入的空间分辨率(宽度和高度)在图像中,我们采用名为R-Net的CNN来上采样并将DPV细化到原始图像分辨率。R-Net,h(·),本质上是一个具有跳跃连接的U-Net其从K-网络g(·)输入低分辨率DPV,并且从特征提取器f(·)中提取图像特征e,并输出高分辨率DPV。综上所述,如图所示。2、全网本地时间窗口Nt参考文献帧本地时间窗口N翘曲深度图t#$参考文献帧时间图6.在推理过程中滑动本地时间窗口中的摄像机姿态优化给定从Nt中的参考系到Nt+1中的参考系的相对相机姿态,我们可以预测Nt+1中的参考帧的深度图。然后,我们选择-使用等式(1)来计算Nt +1中的每个源帧和参考帧之间的相对相机姿态。10个。在本地时间窗口内的相机姿态,类似于本地光束法平差[48]。具体地说,如图 6,给定p(dt|I1:t),即本地时间窗口N t中的参考帧It 的 DPV,我们可以弯曲p(dt|I1:t)到NT+1中的参考相机视图,以预测DPVp(dt+1|I1:t)使用等式五、然后,我们得到新的深度图d和置信度图c,参考帧使用Eq.二、在本地时间窗口Nt+1内的相机姿态Σ具有三个模块,即,D-Net,f( ·;Θ1 ),K-Net,g(·;Θ2)和R-Net,h(·;Θ3)。补充材料中提供了详细的网络架构的分钟δTk,t+1k∈Nt+1,k=/t+1kC|It+1−warp(Ik;d;δTk,t+1)|第1、(10)条完整的网络是端到端训练的,仅具有深度上的负对数 似 然 ( NLL ) 损 失 , 损 失 =NLL ( p ( d ) ,dGT)。我们还尝试添加图像扭曲作为额外的损失项(即,最小化It和变形的相邻帧之间的差),但是我们发现它没有提高深度预测的质量在训练中,我们使用地面实况相机姿势。对于我们所有的实验,我们使用ADAM优化器[26],学习率为10−5,β1=。9和β2=。999整个框架,包括D-Net,K-Net和R-Net,以端到端的方式一起训练20个epoch。3.4. 推理过程中的摄像机姿势在推断期间,给定输入视频流,我们的方法需要连续帧之间的相对相机姿态δT在本文中,我们评估了几个选项来解决这个问题。在许多应用中,例如自动驾驶和AR,初始相机姿态可以由附加传感器提供,例如GPS、里程计或IMU。或者,我们也可以运行最先进的单眼视觉里程计方法,如DSO [12],以获得初始相机姿态。由于我们的方法输出连续的密集深度图和它们的不确定性图,我们实际上可以进一步优化初始深度图。其中δTk,t+1是帧k到帧t+1的相对相机姿态;Ik是帧k处的源图像;warp(·)是从源到参考视图的扭曲算子。4. 实验结果我们在多个室内和室外数据集上评估了我们的方法[42,44,14,16],重点是准确性和鲁棒性。对于准确性评估,我们认为广泛使用的统计度量[11,50]是不够的,因为它们只能提供整个深度图的总体估计。相反,我们将估计的深度图直接馈送到经典的基于RGB-D的3D扫描系统[31,32]中进行3D重建-这将显示度量精度,一致性和估计的有用性。对于鲁棒性评估,我们执行了上述跨数据集评估任务,即,在新数据集上进行测试,无需微调。新数据集上的性能退化将显示给定算法的泛化能力和鲁棒性。由于没有以前的工作在确切的设置作为我们的操作,这是很难选择的方法进行比较。我们仔细地选择了几种最近的基于DL的深度估计方法,并尽我们所能进行公平的比较。对于单视图方法,我们选择DORN[13],这是当前最先进的方法[1]。对于双视图方法,我们比较10992输入帧信心Est. 深度误差图7.我们在ScanNet上的方法的示例结果[10]。除了高质量的深度输出外,我们还获得了与深度误差相关的合理置信度图(如标记的遮挡和镜面反射区域所示此外,置信度图随着时间的推移随着更多的输入帧正确地累积。表1. 7场景数据集[42]上的深度估计与[ 11 ]中定义的度量的比较。σ<1。25块腹肌相对规模调查[50] 2019年01月08日星期一MVSNet [53] 54.87 0.3481 0.8305 0.3743[13] 2000年0.4591 0.2207我们的69.26 0.1758 0.4408 0.1899与DeMoN [50],它显示了高质量的深度预测从一对图像。对于多视图方法,我们与MVSNet进行了比较[53] 。 我 们 还 与 MonoDepth [17] 进 行 了 比 较 ,MonoDepth是一种来自立体图像的半监督学习方法。为了提高这些每帧估计的时间一致性,我们训练了一个后处理网络[27],但我们观察到它并没有提高性能。由于单目相机的深度总是存在尺度模糊性,为了公平比较,我们在计算统计度量之前对所有上述方法的输出尺度进行归一化[11]。在我们的方法中,处理一帧的推理时间是100。每帧7秒,无姿态优化和1001。在工作站上使用GTX1080 GPU和64 GB RAM内存进行姿态估计,时间为5秒,用Python实现的框架姿态估计部分可以用C++实现,以提高效率。室内场景的结果我们首先针对室内场景评估了我们的方法,在室内场景中,RGB-D传感器用于捕获密集度量深度以获得地面真实值。我们在ScanNet上训练了我们的网络[10]。图7显示了两个示例性结果。如图所示,除了深度图之外,我们的方法还输出合理的置信度图(例如,在被遮挡或镜面反射区域中的低置信度),其与深度误差相关。此外,随着更多的输入帧,置信度图随着时间正确地累积:书籍(顶行)的置信度增加,深度误差减小;玻璃区域(底行)的置信度减小,深度误差增加。为了进行比较,由于DORN,DeMoN和MVSNet提供的模型是在不同的数据集上训练的,因此我们在单独的室内数据集7Scenes上比较了这两种方法[42]。对于我们的方法,我们假设提供本地时间窗口内的相对相机旋转δR(例如,由IMU测量)。我们还通过将相机姿势输入固定为GT姿势来与给定相机姿势的DeMoN进行比较。但我们观察到,这并没有改善最终的深度估计。对于MVSNet,我们注意到,当视频包括未很好地包括在训练数据中的相机运动模式(诸如相机旋转和z轴平移)时,深度图估计结果严重降级。如表1所示,基于常用的统计指标,我们的方法在该数据集上显著优于DeMoN、DORN和MVSNet [11]。我们在补充材料中包含了完整的指标。对于定性比较,如图所示。8,我们的方法的深度图噪音更小,更清晰,时间上更一致(参见补充视频)。更重要的是,使用RGB-D 3D扫描方法[32],与其他方法相比,我们可以用我们估计的深度重建更高质量的3D网格。即使与使用真实RGB-D传感器的3D重建相比,我们的结果在某些区域(例如,显示器/光滑表面),其中有源深度传感器不能捕获。户外场景的结果我们在室外数据集- KITTI [16]和虚拟KITTI [14]上评估了我们的方法。使用虚拟KITTI数据集是因为它具有密集、准确的度量深度作为地面实况,而KITTI仅具有来自LiDAR的稀疏深度值作为地面实况。对于我们的方法,我们使用由IMU和GPS测量的相机姿态表2列出了与DORN [13],Eigen [11]和MonoDepth [17]的比较结果,这些结果也是在KITTI[16]上训练的。我们的方法与DORN [13]具有相似的性能,并且优于其他两种方法。我们还使用DSO [12]中的相机姿势测试了我们的方法,并获得了略差的性能(见补充资料)。图9显示了KITTI数据集中深度图的定性比较。如图所示,我们的方法生成更清晰且噪声更小的深度图。此外,我们的方法输出深度置信图(例如,车窗上的置信度较低)。我们的深度估计是时间上一致的,这导致了融合多个深度10993输入帧GT深度DORN深度DeMoN深度我们的深度我们的信心GT view 1 GT view 2DORN视图1DeMoN视图1我们的观点1我们的观点2输入帧GT深度DORN深度DeMoN深度我们的深度我们的信心GT view 1 GT view 2DORN视图1DeMoN视图1我们的观点1我们的观点2输入帧GT深度DORN深度DeMoN深度我们的深度我们的信心GT view 1 GT view 2DORN视图1DeMoN视图1我们的观点1我们的观点2图8.室内数据集上的深度和3D重建结果(放大后查看效果最佳)。我们将我们的方法与DORN [13]和DeMoN [50]进行了比较,在深度图和使用体素散列的3D重建方面[32],它累积了多帧的估计深度为了显示深度的时间一致性,我们使用不同数量的深度图进行体素散列:2个深度图用于第一个样本,30个深度图用于其他样本。来自DORN的深度图包含红色框中标记的块伪影。这表现为3D重建中的波纹形状DeMoN生成了清晰的深度边界,但未能忠实地恢复绿框中标记的区域的深度此外,DeMoN的深度在时间上并不一致。这导致在3D重建中严重的相比之下,我们的方法生成正确的和时间上一致的深度图,特别是在具有高置信度的区域,例如显示器,即使Kinect传感器由于低反射率也无法获得深度在户外使用体素散列[32]绘制大规模密集3D重建图,如图所示。9 .第九条。在表3中,我们执行了跨数据集任务。上图显示了KITTI [16]的训练结果和虚拟KITTI [14]上的下图显示了从室内数据集(DORN的NYUv 2和我们的Scan-Net)训练和在KITTI上测试的结果如图所示,我们的方法实现了更好的鲁棒性和泛化能力。消融研究我们的方法的性能依赖于相机姿态的准确估计,因此我们用不同的相机姿态估计方案来测试我们的方法,如表4所示:(1)从IMU传感器读取相对相机旋转δR(2)所有帧的δR为表2.KITTI上的深度估计比较[16]。σ<1。25ABS.relRMSE规模投资本征[11]67.800.19045.1140.2628单声道[17]86.430.12382.86840.1635DORN [13]92.620.08743.13750.1233我们93.150.09982.82940.1070(3)前五个帧的δR用DS0 [12]初始化(记我们观察到,当仅在第一时间窗口中的这10994输入帧MonoDepth DORN我们的深度我们的信心MonoDepth topview DORN topview我们的topview图9. KITTI的深度图和3D重建,与DORN [13],MonoDepth [50]相比(放大时最佳第一行:我们的深度图更清晰,包含更少的噪音。对于镜面反射区域(标记在粉红色框中),置信度较低。第二行,从左到右:使用MonoDepth,DORN和我们的方法估计的相同100帧的深度图进行重建所有网格均从上方查看。在100帧内,车辆在直线上行驶,没有转弯。表3.户外深度估计的交叉数据集测试KITTI(train)→虚拟KITTI(test)σ<1。25ABS. rel RMSE规模投资DORN [13]69.610.22569.6180.3986我们73.380.25376.4520.2548室内(列车)→KITTI(测试)输入帧置信度前深度后深度σ<1。25ABS. rel RMSE规模投资ngVO姿势60.630.19990.48160.2158Aski第一场胜利。62.080.19230.45910.2001Esh MGTR69.260.17580.44080.1899MGT姿势70.540.16190.39320.1586(b掩蔽前屏蔽后可能看起来违反直觉,但这是因为单目VO方法有时对于无纹理区域具有较大的误差,而深度优化可以克服这个问题。置信度图的可靠性估计的置信度图也可以用于进一步改进深度图。如图如图10(a)所示,给定深度图和相应的置信度,我们可以校正由于镜面反射而具有较低置信度的区域。此外,对于3D重建算法,给定深度置信度,我们可以屏蔽掉置信度较低的区域,以便更好地重建,如图所示。10(b).5. 结论和局限性在本文中,我们提出了一种基于DL的方法,从单目视频摄像机的连续深度传感。我们的方法估计从本地时间窗口的深度概率分布量,并将其整合在贝叶斯过滤框架下随时间实验结果表明图10.使用置信图。(a)使用正确的深度图快速双边求解器[2]。(b)在应用Voxel Hashing之前屏蔽低置信度的像素[32]。我们的方法对于深度感测,特别是对于跨数据集任务,实现了高精度、时间从我们的方法中估计的深度图可以直接馈送到RGB-D扫描系统中进行3D重建,并且实现与使用真实RGB-D传感器相比相当或有时更完整的有几个限制,我们计划在未来解决。首先,从一个单目视频的摄像机构成十遭受规模漂移,这可能会影响我们的深度估计的准确性。其次,在这项工作中,我们专注于从本地时间窗口进行深度感知,而不是使用所有帧在全局上下文中解决它。致谢Chao Liu得到了NSF资助CNS-1446601的支持。(a)深度校正10995引用[1] 鲁棒 视觉挑战工作坊。http://www.robustvision.net,2018年。二、五[2] J. T. Barron和B.浦耳快速双边求解器。2016年欧洲计算机视觉会议(ECCV)。8[3] C. M.主教混合密度网络1994. 2[4] M. Bloesch,J.恰尔诺夫斯基河克拉克,S。Leutenegger,以及A.戴维森CodeSLAM -学习密集视觉SLAM的紧凑,可优化 的表 示。在 IEEE计算 机视 觉和模 式识 别会议(CVPR),2018。一、二[5] D.陈,H。布伊斯曼角Theobalt和S. Thrun.用于实时深度上采样的噪声感知滤波器。2008年在法国马赛举行的多相机和多模态传感器融合算法和应用研讨会-M2 SFA 22008。安德里亚·卡瓦拉罗和哈米德·阿加詹。一、二[6] J. - R. Chang和Y. S.尘金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议(CVPR),第5410-5418页,2018年。一、二、三[7] J. A. Christian和S.克雷恩激光雷达技术及其在航天器相对导航中的应用综述AIAA指南,导航和控制(GNC)会议,2013年。一、二[8] R.克拉克,S。Wang,中国山核桃A. Markham,N.Trigoni和H.文VidLoc:用于6-DoF视频剪辑重新定位的深度 时空 模型在 IEEE计算 机视 觉和模 式识 别会议(CVPR),2017。2[9] A. 克里米尼西岛Reid和A.齐瑟曼。单视图测量。国际计算机视觉杂志(IJCV),2000年。2[10] A. Dai , A. X. 张 , M 。 Savva , M. Halber , T.Funkhouser和M.尼斯纳ScanNet:室内场景的丰富注释的 3D 再 现 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2017。6[11] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展(NIPS),2014年。五、六、七[12] J. Engel,V. Koltun和D.克莱姆斯直接稀疏odom-矩阵。IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),40:611-625,2018。五、六、七[13] H.傅,M。贡角,澳-地Wang,K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议,2018。一、二、五、六、七、八[14] A. 盖东,Q.Wang,Y.Cabon和E.维格虚拟世界作为多目标跟 踪分 析的在 IEEE计算 机视 觉和模 式识 别会议(CVPR),2016年。五、六、七[15] Y. Gal和Z. Ghahramani脱落作为贝叶斯近似:在深度学习中表示模型的不确定性。在2016年的国际机器学习会议(ICML)上。2[16] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?KITTI视觉基准测试套件。在IEEE计算机视觉和模式识别会议中,第3354-3361页,2012年。五、六、七[17] C. 戈达尔湖,澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议,2017年。一、二、六、七[18] S.古普塔河,巴西-地格希克山口Arbelaez和J.马利克从RGB-D图像中学习丰富的特征用于对象检测和分割。欧洲计算机视觉会议(ECCV),2014。一、二[19] R. Horaud ,M. Hansard ,G. E v angelaeus和C. 梅尼河。基于飞行时间技术的深度相机和距离扫描仪概述。Machine Vision and Applica- tions Journal,27(7):1005-1020,2016. 一、二[20] P. - H. Huang,K.Matzen,J.Kopf,N.Ahuja和J. -B. 煌DeepMVS:学习多视图立体视觉。在IEEE计算机视觉和模式识别会议(CVPR),2018年。一、二[21] E. 伊尔格岛 Ci cek,S. G a lesso,A. Klein,O. Makansi,F. Hutte r和T.布洛克斯光流的不确定性估计和多假设网络。在欧洲计算机视觉会议(ECCV),2018。2[22] G. Kamberova和R.巴伊奇立体重建中的传感器误差和不确定性。计算机视觉中的经验评估技术,第96-116页。IEEE Computer Society Press,1998. 2[23] A. Kendall和Y.加贝叶斯深度学习在计算机视觉中需要哪些不确定性?神经信息处理系统进展(NIPS),2017年。2[24] A. Kendall,Y.Gal和R.西波拉使用不确定性来权衡场景几何和语义损失的多任务学习在IEEE计算机视觉和模式识别会议(CVPR),2018。2[25] K. Kim,D.李,我。艾萨用于分析运动轨迹的高斯过程回归流程。2011年国际计算机视觉会议(ICCV)。2[26] D. P. Kingma和J. BA. Adam:随机最佳化的方法。2015年国际学习报告会议(ICLR)。5[27] W.- S. 赖 , J. - B. Huang 、 O. Wang , 中 国 山 核桃 E.Shechtman,E. Yumer和MH. 杨学习盲视频时间一致性。在欧洲计算机视觉会议(ECCV),2018。6[28] R. Mahjourian,M. Wicke和A.安杰洛娃使用3D几何约束从单目视频中进行深度和自我运动的无监督学习在IEEE计算机视觉和模式识别会议(CVPR),2018年。2[29] A. Maimone和H.福克斯使用运动减少多个结构光深度传感器之间的干扰。在IEEE虚拟现实研讨会(VRW)中,第51一、二[30] R. Mu r-Artal和J. D. 太晚了。ORB-SLAM 2:一个开源的SLAM系统,用于单目、立体和RGB-D相机。IEEETransactions on Robotics,33(5):12552[31]R. A. 纽科姆,S。 伊扎迪河 希利格斯,D。莫利诺D. Kim,A. J.戴维森,P. Kohli,J. Shotton,S.霍奇斯,A.菲茨吉本KinectFusion:实时密集表面映射和跟踪。 在IEEE和ACM International Symposium中,10996混合和增强现实(ISMAR),第127一、二、五[32] M. Nießne r,M. Zollh oüfer,S. Izadi和M. 斯塔明格河使用体素散列的实时3D重建。ACM Transactions onGraphics(TOG),2013年。一、二、五、六、七、八[33] F. 波默洛,A. 布莱滕莫泽,M. 刘先生,F. 可乐,R.西格沃特用于表面检测的深度传感器的噪声特性。在电力工业应用机器人国际会议(CARPI),第162[34] C. R.齐,W. Liu,C. Wu,H. Su和L.吉巴斯Frus- tumPointNets用于从RGB-D数据进行3D对象检测。在IEEE计算机视觉和模式识别会议,2017年。一、二[35] F. Remondino和D.停下TOF距离成像相机。Springer Publishing Company,Incorporated,2013. 一、二[36] M.雷诺兹,J。多博湖Peel,T. Weyrich和G.兄弟-托。充满信心地捕获飞行时间数据。在IEEE计算机视觉和模式识别会议(CVPR),2011年。2[37] A. Saxena,S. H. Chung和A. Y. Ng.从单个静止图像进行3D深度重建。国际计算机视觉杂志(IJCV),76(1):53-69,1月。2008. 一、二[38] A. Saxena,J. Schulte,and A. Y. Ng.使用单眼和立体提示的深度估计。在第20届国际人工智能联合会议上,IJ-CAI'07,第2197-2203页,2007年。2[39] J. L. Schonbe r ger和J. - M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功