NICE-SLAM：神经隐式可伸缩SLAM系统的高效重建与竞争力

124 浏览量更新于2023-10-25 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12786NICE-SLAM：用于SLAM的神经隐式可伸缩编码Zhu Zihan1，2朱松友彭2，4*Viktor Larsson3WeiweiXu1 Hujun Bao1 Zhaopeng Cui1† Martin R.Oswald奥斯瓦尔德2，5MarcPollefeys马克·波勒费斯2，61浙江大学CAD CG国家重点实验室2苏黎世联邦理工学院3隆德大学4MPIforIntelligentSystems，Tubingen5阿姆斯特丹大学6微软摘要神经内隐表征最近在多个领域显示出令人鼓舞的结果，包括同时定位和映射（SLAM）的进展。然而，现有的方法产生过平滑的场景重建，并且难以按比例放大到大场景。这些限制主要是由于它们的简单的全连接网络架构，不将本地信息纳入观察。在本文中，我们提出了NICE-SLAM，一个密集的SLAM系统，通过引入一个分层的场景表示，采用了多层次的本地信息。使用预先训练的几何先验优化这种表示，可以在大型室内场景上进行详细的重建。与最近的神经隐式SLAM系统相比，我们的方法是更可扩展的，高效的，和鲁棒的。在5个Chal-Challening数据集上的实验结果表明，NICE- SLAM在映射和跟踪质量上都具有竞争力.项目页面：https：pengsongyou.github.io/ nice-slam.1. 介绍稠密视觉同时定位与地图构建（SLAM）是三维计算机视觉中的一个基本问题，在自动驾驶、室内机器人、混合现实等领域有着广泛的应用。为了使SLAM系统对现实世界的应用真正有用，以下属性是必不可少的。首先，我们希望SLAM系统是实时的。其次，系统应该能够对没有观测的区域进行合理的预测。此外，该系统应该能够扩展到大型场景。最后但并非最不重要的是，对于噪声或缺失的观测值保持稳健性是至关重要的。在实时密集视觉SLAM系统的范围内，在过去的几年中，已经针对RGB-D相机引入了许多方法传统的密集视觉SLAM系统[29*同等贡献。†通讯作者。图1. 使用NICE-SLAM的多房间公寓3D重建。分层特征网格联合编码几何和颜色信息，并用于映射和跟踪。我们描绘了最终的网格和相机跟踪轨迹。41，58，59]满足实时要求，可以用于大规模的场景，但它们无法对未观察到的区域进行合理的几何估计。另一方面，基于学习的SLAM方法[3，12，47，67]达到了一定程度的预测能力，因为它们通常在特定于任务的数据集上进行训练。此外，基于学习的方法倾向于更好地处理噪声和离群值。然而，这些方法通常仅在具有多个对象的小场景中起作用。最近，Sugar etal.[46]在实时密集SLAM系统（称为iMAP）中应用了神经隐式表示，并且他们对房间大小的数据集显示了良好的跟踪和映射结果。然而，当按比例放大到更大的场景时，例如，在由多个房间组成的公寓中，在密集重建和摄像机跟踪精度方面都观察到显著的性能下降iMAP [46]的关键限制因素源于其使用单个多层感知器（MLP）来表示整个场景，该场景只能通过每个新的潜在部分RGB-D观察进行全局更新相反，最近的作品[37，48]表明，建立多-12787基于水平网格的特征可以帮助保留几何细节，并且能够重建复杂场景，但是这些是没有实时能力的离线方法。在这项工作中，我们试图结合的优势，archical场景表示与神经隐式表示的密集RGB-D SLAM的任务为此，我们引入了 NICE-SLAM ，一种密集的RGB-DSLAM系统，其可以应用于大规模场景，同时保留预测能力。我们的核心思想是用层次特征网格表示场景的几何形状和外观，并结合在不同空间分辨率下预训练的神经隐式解码器的归纳偏差。利用来自occu-100和颜色解码器输出的渲染深度和颜色图像，我们可以通过最小化重新渲染损失来优化仅在视锥体内的特征网格。我们对各种室内RGB-D序列进行了广泛的评估，并证明了我们的方法的可扩展性和预测能力。总的来说，我们做出了以下贡献：• 我们提出了NICE-SLAM，一种密集的RGB-D SLAM系统，该系统具有实时能力、可扩展性、预测性和对各种具有挑战性的场景的鲁棒性。• NICE-SLAM的核心是一种分层的、基于网格的神经隐式编码。与全局神经场景编码相比，这种表示允许局部更新，这是大规模方法的先决条件。• 我们对各种数据集进行了广泛的评估，这些数据集在映射和跟踪方面都表现出了竞争力该代码可在https://github.com/cvg/nice-slam上获得。2. 相关工作密集视觉SLAM。用于视觉SLAM的大多数现代方法遵循Klein等人在开创性工作中引入的整体架构。[19]将任务分解为映射和跟踪。地图表示通常可以分为两类：以观点为中心和以世界为中心。第一个将3D几何体锚定到特定的关键帧，通常在密集设置中表示为深度图。这一类别的早期例子之一是DTAM [29]。由于其简单性，DTAM已被广泛应用于许多最近的基于学习的SLAM系统。例如，[54，68]回归深度和姿态更新。DeepV2D [51]类似地在回归深度和姿态估计之间交替，但使用测试时间优化。 BA-Net [50] 和DeepFactors [12]通过使用一组基础深度图来简化优化问题。也有一些方法，例如， CodeSLAM [3] 、SceneCode [67]和NodeSLAM [47]，它们优化了解码为关键帧或对象深度图的潜在表示。DROID-SLAM [52]使用回归光流来定义其细化的几何残差。TANDEM [20]结合了多视图立体与DSO [15]，用于实时密集SLAM系统。另一方面，以世界为中心的地图表示将3D几何锚定在统一的世界坐标中，并且可以进一步划分为面元[42，58]和体素网格，通常存储占位符或TSDF值[11]。体素网格已广泛用于RGB-D SLAM中，例如，KinectFusion [28]，其他作品[5，14，18，33]。在我们建议的流水线中，我们还采用体素网格表示。与以前的SLAM方法相比，我们存储的几何隐式潜在代码，并在映射过程中直接优化它们这种更丰富的表示使我们能够在较低的网格分辨率下实现更准确的几何形状。神经内隐表示。最近，神经隐式表示展示了用于对象几何表示的有希望的结果[8，22，24，32，3460，63，64]，场景完成[6，17，37]，小说视图同步-论文[23，25，38，66]和生成建模[7，30，31、43]。最近的一些论文[1，4，9，27，48，57，61]试图用RGB-（D）输入预测场景级几何形状另一组工作[21，56，65]解决了摄像机姿态优化问题，但它们需要相当长的优化过程，这不适合实时应用。与我们的方法最相关的工作是iMAP [46]。给定一个RGB-D序列，他们引入了一个实时密集SLAM系统，该系统使用一个单一的多层叠加器（MLP）来复杂地表示整个场景。然而，由于单个MLP的模型容量有限，iMAP无法生成详细的场景几何和精确的相机跟踪，尤其是对于较大的场景。相比之下，我们提供了一个类似于iMAP的可扩展解决方案，它将可学习的潜在嵌入与预训练的连续隐式解码器相结合。通过这种方式，我们的方法可以重建复杂的几何形状和预测详细的纹理较大的室内场景，同时保持更少的计算和更快的收敛。值得注意的是，这些作品[17，37]还将传统的网格结构与学习的特征表示相结合，以实现可扩展性，但它们都不具备实时能力。此外，DI-Fusion[16]还优化了给定RGB-D序列的特征网格，但它们的重建包含孔，并且它们的相机跟踪对于纯表面渲染损失不鲁棒3. 方法我们提供了一个概述我们的方法图。二、我们使用四个特征网格及其相应的解码器来表示场景的几何形状和外观（第二节）。第3.1节）。我们使用估计的摄像机校准跟踪每个像素的视线。通过沿着观察光线采样点并查询网络，我们可以渲染该光线的深度和颜色值（第二节）。3.2）。通过最小化深度和颜色的重新渲染损失，我们能够优化12788θ∈联系我们pθθpθθ图2. 系统概述。我们的方法采取RGB-D图像流作为输入和输出的相机姿态以及学习的场景表示的形式的分层特征网格。从右到左，我们的流水线可以被解释为生成模型，该模型从给定的场景表示和相机姿态渲染深度和彩色图像在测试时，我们估计的场景表示和相机姿态通过反向传播图像和深度重建损失通过一个可微渲染器（从左到右）解决逆问题。两个实体在交替优化中被估计：映射：反向传播仅更新分层场景表示;跟踪：反向传播仅更新相机姿势。为了更好的可读性，我们将几何编码的精细尺度网格与大小相等的颜色网格结合起来，并将它们显示为具有两个属性（红色和橙色）的一个网格相机姿势和场景几何形状交替出现（第二节）。3.3）对于选定的关键帧（第第3.4段）。3.1. 分层场景表示我们现在介绍我们的分层场景表示，它将多级网格特征与预训练的解码器相结合，用于占用预测。几何形状被编码成三个特征网格f1和它们对应的MLP解码器f1，其中10，1，2 被称为粗、中和精细级场景细节。此外，我们还有一个单一的特征网格ω和解码器gω来对场景进行建模，低us以有效地优化网格特征以拟合观察。为了捕获场景几何中的较小高频细节，我们以残差的方式添加精细级别的特征。具体地，精细级别特征解码器将对应的中间级别特征和精细级别特征两者作为输入，并且输出与中间级别占用的偏移，即，1=f2 （ p ，1 （ p ），2 （ p ）），（2）其中点的最终占用率由下式给出：op=o1+ o1。（三）忍耐这里θ和ω表示可优化参数p p对于几何形状和颜色，即，网格中的特征和颜色解码器中的权重。注意，我们固定了预训练的解码器f1和f2，仅在整个过程中优化要素网格101和102θ θ中级精细几何表示。观察到的场景几何形状表示在中级和精细级特征网格中。在重建过程中，我们使用这两个网格在粗到细的方法，其中的几何首先重建优化的中级特征网格，然后使用精细级的细化。在实现中，我们分别使用边长为32 cm和16 cm的体素网格，除了TUM RGB- D [45]，我们使用16 cm和8 cm。对于中间级别，使用相关联的MLPf1将特征直接解码为占用值。对于任意点pR3，我们得到o1=f1 （ p ， f1 （ p ）），（1）其中，R1（p）表示特征网格在点p处被三次线性插值。相对低分辨率的整个优化过程。我们证明，这有助于稳定的优化和学习一致的几何。粗略级几何表示。粗略级特征网格旨在捕获场景的高级几何形状（例如，墙壁、地板等），并且从中间和精细级别独立地进行优化。粗网格的目标是能够预测观察到的几何形状（其在中间/精细级别中编码）之外的近似占用值，即使当每个粗体素仅被部分观察到时。出于这个原因，我们使用非常低的分辨率，在实现中边长为2m与中级网格类似，我们通过插值特征并通过MLP f0直接解码为占用值，即，o0=f0 （ p ， f0 （ p ）） .（四）pθ12789pi联系我们∈D=wd，iD=wd，iI=wc. （6）iθθn=w（D−d）in=w（D−d）。我MGL我±pij=1PJ我我 j=1J. Dm−D l。，l∈{c，f}.（八）Lp=M. 我是-我是。-是的（九）θGGQ−GLL LLMm=1在跟踪期间，粗略级占用值仅用于预测先前未观察到的场景部分这种预测的几何形状允许我们跟踪，即使当当前图像的大部分是以前看不见的。预训练特征解码器。在我们的框架中，我们使用三个不同的固定MLP解码网格功能到占用值。粗级和中级解码器作为 ConvONet 的一部分进行预训练，ConvONet由CNN编码器和MLP解码器组成。我们使用二进制交叉熵损失来训练编码器/解码器，预测值和地面真值，与[37]相同。接近深度1。我们总共采样N=Nstrat+Nimp每一条光线的点。更正式地说，令pi=o+dir，i表示给定相机原点o的射线r上的采样点，并且di对应于沿着该射线的深度值pi。对于每一个点pi，我们可以使用等式2来计算它们的粗级占用概率o0、细级占用概率opi和颜色值c pi。（4），Eq. （3）、Eq.（五）、与[34]类似，我们将点pi处的射线终止概率建模为w c=o0i−1（1 o0）对于粗级，w f=opQi−1（1−op）对于细级。在训练之后，我们只使用解码器MLP，因为我们将直接优化特征以适应我们的观察结果最后，对于每条射线，粗和细处的深度级别和颜色可以呈现为：重建管道。以这种方式，预先训练的解码器可以利用从训练集，当解码我们的优化特征时。N刚果民主共和国c我i=1Nff我i=1Nf我i=1同样的策略用于预训练精细级此外，我们还计算沿射线的深度方差解码器，不同之处在于我们在输入到解码器之前简单地将来自中间级的特征E1（p）与精细级特征E2（p）颜色表示。虽然我们主要感兴趣的是cvarNcc2我i=1fvarNff2我i=1（七）场景的几何形状，我们也编码的颜色信息，使我们能够渲染RGB图像提供额外的信号跟踪。为了对场景中的颜色进行编码，我们应用另一个特征网格Φω和解码器gω：cp=gω（p，nω（p）），（5）其中ω表示在优化期间可学习的参数。与具有强先验知识的几何结构不同，我们经验性地发现，联合优化颜色特征gω和解码器gω提高了跟踪性能（参见表5）。请注意，与iMAP [46]类似，这可能导致遗忘问题，并且颜色仅在局部一致。如果我们想把颜色形象化，3.3.映射和跟踪在本节中，我们提供了关于我们的分层场景表示的场景几何形状θ和外观ω参数以及相机姿势的优化的细节映射. 为了优化第3.1节中提到的场景表示，我们从当前帧和选定的关键帧中均匀采样总共M个像素。接下来，我们以分阶段的方式执行优化，以最小化几何和光度损失。几何损失只是粗略或精细水平下观测值与预测深度之间的L11Σ。.MM网络设计。对于所有MLP解码器，我们使用32和5个全连接块的隐藏特征维度。除了粗糙级几何表示之外，我们将可学习的高斯位置编码[46，49]应用于pbe。从而用作MLP解码器的输入。我们观察到，这允许发现两种几何结构光度损失也是M个采样像素的渲染和观察颜色值之间的L11Σ。.和外观。3.2.深度和色彩渲染在第一阶段，我们只优化中级特性使用方程1中的几何损失f，（八）、接下来，我们联合优化了中精细级的F11、F12特征θ θ受NeRF [25]中最近成功的体渲染的启发，我们建议也使用可微分渲染过程，该过程将第3.1节中的场景表示中的预测占用和颜色集成在一起。给定相机内部参数和当前相机姿态，我们可以计算像素坐标的观看方向r。我们首先沿着这条射线对N个起始点进行分层采样，然后对N个输入点进行具有相同的精细级深度损失F。最后，我们进行局部束调整（BA），以联合优化所有级别的特征网格、颜色解码器以及K个选定关键帧的相机外部参数{Ri，ti}：1000000（C+f+λpp），（10）θ，ω，{Ri，ti}1我们根据经验将采样间隔定义为0。其中D是当前光线的深度值。DDL整个场景，它可以作为后处理步骤被全局优化。Lg=m=112790--Σ1L=−. D-DM.D. D-DM简体中文×LL其中λp是损耗加权因子。这种多阶段优化方案导致更好的收敛，因为更高分辨率的外观和精细级特征可以依赖于来自中级特征网格的已经细化的几何结构请注意，我们将系统并行化为三个线程，以加快优化过程：一个线程用于粗略级映射，一个线程用于中等&精细级几何和颜色优化，另一个线程用于相机跟踪。摄像机跟踪。除了优化场景表示之外，我们还并行运行相机跟踪以优化当前帧的相机姿势，即，旋转和平移R，t。为此，我们在当前帧中对Mt像素进行采样，并在等式中应用相同的光度损失。（9）但使用修改的几何损失：当优化场景几何体时，与当前帧有视觉重叠。这是可能的，因为我们能够对基于网格的表示进行局部更新，并且我们不会遇到与[46]相同的遗忘问题该关键帧选择策略不仅确保当前视图外部的几何形状保持静态，而且还导致非常有效的优化问题，因为我们每次仅优化必要的参数。在实践中，我们首先随机采样像素，并使用优化的相机姿势对相应的深度进行反向投影。然后，我们将点云投影到全局关键帧列表中的每个关键帧。从这些关键帧有点投射到，我们随机选择K2帧.此外，我们还将最近的关键帧和当前帧包含在场景表示优化中，形成总共K个活动帧。请参阅第4.4Mtg varMm=1cM +cvarfM-是的fvar（十一）进行关键帧选择策略的消融研究4. 实验经修改的损失对重建的几何结构中的较少的某些区域进行降权[46，62]，例如，对象边。摄像机跟踪最终被公式化为以下最小化问题：1000000（gvar+λ ptp）。（十二）R， t粗特征网格能够执行场景几何形状的短程预测。当相机移动到先前未观察到的区域时，这种外推的使其对突然的帧丢失或快速的相机移动更加稳健。我们在补充材料中提供实验。动态对象的健壮性。为了在跟踪过程中使优化对动态对象更加鲁棒，我们过滤了具有较大深度/颜色重渲染损失的像素。特别是，我们从优化中删除任何像素，其中损失方程。（12）大于当前帧中所有像素的中值损失值10。图6示出了动态对象被忽略的示例，因为它不存在于渲染的RGB和深度图像中。请注意，对于此任务，我们仅在映射期间优化场景表示。在动态环境下联合优化相机参数和场景表示是不平凡的，我们认为这是一个有趣的未来发展方向。3.4.关键帧选择类似于其他SLAM系统，我们不断优化我们的分层场景表示与一组选定的关键帧。我们以与iMAP相同的精神维护全局关键帧列表[46]，其中我们基于信息增益递增地添加新的关键帧。然而，与iMAP [46]相反，我们只包括我们在各种各样的数据集上评估我们的SLAM框架，包括真实的和合成的，不同大小和复杂性的。我们还进行了一项全面的消融研究，以支持我们的设计选择。4.1. 实验装置数据集。我们考虑5个通用数据集：副本[44]，ScanNet[13] ， TUM RGB-D 数据集 [45] ， Co-Fusion 数据集[39]，以及一个具有多个房间的自捕获大型公寓。我们遵循与[53]中相同的用于TUM RGB-D的预处理步骤基线。我们与TSDF融合[11]进行了比较，我们的相机姿势具有2563的体素网格分辨率（更高分辨率的结果在supp.材料），DI-Fusion[16]使用他们的官方实现2，以及我们忠实的IMAP [46]重新实现：IMAP *。我们的重新实现具有与原来的iMAP相似的性能，在场景重建和相机跟踪。指标. 我们使用2D和3D度量来评估场景几何。对于2D度量，我们评估了1000个随机采样深度图的L1为了公平比较，我们将双侧求解器[2]应用于DI-Fusion [16]和TSDF- Fusion，以在计算平均L1损失之前填充深度孔。对于 3D 指标，我们遵循 [46] 并考虑 Accu-racy[cm]、Completion[cm]和Completion Ratio[5cm<%]，除了我们移除不在任何相机的视锥内的不可见区域。对于相机跟踪的评估，我们使用 ATE RMSE[45]。如果没有另外指定，默认情况下，我们报告5次运行的平均结果实施详情。我们运行我们的SLAM系统上的台式电脑与3.80GHz的英特尔i7- 10700 K CPU和2https://github.com/huangjh-pub/di-fusion不12791↓房间-2办公室-2图3. 副本数据集上的重建结果[44]。iMAP*指的是我们的iMAP重新实现。TSDF-融合[11][46]第四十六话美国[16]记忆（MB）↓ 67.101.043.78 12.02深度L1↓ 7.57 7.64 23.333.53Acc. 电话：+86-510 - 8888888传真：+86-510 -8888888Comp. 电话：+86-0510 - 8888888传真：+86-0510 - 8888888Comp. 比例↑ 86.08 66.60 72.9689.33表1. 副本数据集的重建结果[44]（8个场景的平均值）。iMAP* 表示我们重新实施 iMAP 。 TSDF-Fusion 使用来自NICE-SLAM的相机姿势。每个场景的详细度量可以在supp中找到材料NVIDIA RTX 3090 GPU。在我们所有的实验中，我们使用射线上的采样点数量Nstrat= 32和Nimp= 16，光度损失加权λ p= 0。2且λ pt= 0。五、对于小规模的合成数据集（CSTR和Co-Fusion），我们选择K= 5个关键帧，样本M= 1000和Mt= 200个像素。对于大规模真实数据集（ScanNet和我们自己捕获的场景），我们使用K= 10，M= 5000，Mt= 1000。对于 TUM RGB-D 数据集，我们使用 K= 10 ， M=5000，Mt= 5000。对于我们的重新实现iMAP，我们遵循[46]中提到的所有超参数，除了我们将采样像素的数量设置为5000，因为它在重建和跟踪方面都导致更好的性能。4.2. 测绘和跟踪对副本的评估[44]。为了评估副本[44]，我们使用iMAP作者提供的相同渲染RGB-D序列。该方法采用层次化的场景表示，能够在有限的迭代次数内精确地重建几何图形.如表1所示，NICE-SLAM在几乎所有指标上显著优于基线方法，同时保持合理的内存消耗。从定性上看，我们可以看到。我们的方法产生更清晰的几何形状和更少的伪影。对TUM RGB-D的评价[45]。我们也评估小规模TUM RGB-D数据集上的相机跟踪性能。如表2所示，我们的方法优于iMAP和DI-Fusion，尽管我们的设计更适合于大型场景。可以看出，国家-表2. TUM RGB-D上的摄像机跟踪结果[45]。ATE RMSE [cm]（）用作评估指标。NICE-SLAM缩小了具有神经隐式表示的SLAM方法与传统方法之间的差距我们报告了本表中所有方法的 5 次运行 iMAP 、 BAD-SLAM 、 Kintinuous 和 ORB-SLAM 2的编号取自[46]。场景ID0000 0059 0106 0169 0181 0207平均[46 ]第46话32.0617.5070.5132.1011.91三十六点六七[16]第十六话62.99128.0018.5075.8087.8878.89美元NICE-SLAM8.6412.258.0910.2812.935.59表3. ScanNet上的摄像机跟踪结果[13]。我们的方法在这个数据集上得到了更好的结果。ATE RMSE（↓）用作评估指标。用于跟踪的现有技术方法（例如，BAD-SLAM [42]，ORB-SLAM 2 [26]）仍然优于基于隐式场景表示的方法（iMAP [46]和我们的）。然而，我们的方法显着减少了这两个类别之间的差距，同时保留了隐式表示的代表性优势。在ScanNet上的评估[13]。我们从ScanNet [13]中选择多个大型场景，以基准测试不同方法的可扩展性。对于图1中所示的几何形状。4，我们可以清楚地注意到，NICE-SLAM产生更清晰，更详细的几何比TSDF融合，DI融合和IMAP*。在跟踪方面，可以观察到，iMAP融合和DI-Fusion要么完全失败，要么引入大量的漂移，而我们的方法成功地重建了整个场景。从定量上讲，我们的跟踪结果也比DI-Fusion和iMAP*更准确，如表3所示。在更大的场景中进行评估。为了评估我们方法的可扩展性，我们在一个有多个房间的大空间中捕获了一个序列。图1和图5、看《侦察》--使用NICE-SLAM，DI-Fusion [16]和iMAP [46]获得的结构作为参考，我们还显示了使用Open3D [69]中的离线工具Redwood [10]的3D我们可以看到，NICE-SLAM具有与离线方法相当的结果，而iMAP和DI-Fusion则无法重新计算。构建完整的序列。4.3. 性能分析除了对各种数据集上的场景重建和摄像机跟踪的评估之外，在下文中，我们还评估了所提出的流水线的其他特性。NICE-SLAM[46]第四十六话GTfr1/deskfr2/xyzfr 3/办公室iMAP [46]4.92.05.8[46]第四十六话7.22.19.0[16]第十六话4.42.315.6NICE-SLAM2.71.83.0[42]第四十二话1.71.11.7Kintinuous [59]3.72.93.0ORB-SLAM 2 [26]1.60.41.012792××[16]第二十六话：我的世界，我的世界图4.ScanNet上的3D重建和跟踪[13]。黑色轨迹来自ScanNet [13]，红色轨迹是方法我们尝试了iMAP*的各种超参数，并提出了最好的结果，但大多数是较差的。[10]第10届中国国际汽车工业展览会[编辑]图5. 多房间公寓的三维重建和跟踪。摄像机跟踪轨迹以红色显示。iMAP*和DI-Fusion未能重建整个序列。我们还展示了离线方法[10]的结果以供参考。计算复杂度。首先，我们比较了查询一个3D点的颜色和占用/体积密度所需的浮点运算（FLOPs）的数量，见表4。我们的方法只需要1/4 FLOPs的iMAP。值得一提的是，即使对于非常大的场景，我们的方法中的FLOP也保持不变。相反，由于在iMAP中使用单个MLP， MLP的容量限制可能需要导致更多FLOP的更多参数。运行时间。我们还在表4中比较了使用相同数量的像素样本（用于跟踪的Mt= 200，用于映射的M= 1000）进行跟踪和映射我们可以注意到，我们的方法在跟踪和映射方面比iMAP快2和3倍。这表明了使用具有浅MLP解码器的特征网格优于单个重MLP的优点。动态对象的健壮性。在这里，我们考虑包含动态移动对象的Co-Fusion数据集[39]。如示于图6、我们的方法正确地识别和忽略了落入动态的像素样本浮点数[×103]↓跟踪[ms] ↓标测[ms]↓iMAP [46] 443.91 101 448NICE-SLAM 104.16 47 130表4. 计算我们的场景表示不仅提高了重建和跟踪的质量，但也更快。iMAP的运行时取自[46]。对象，这将导致更好的场景表示建模（请参阅渲染的RGB和深度）。此外，我们还比较了iMAP跟踪在同一序列上的相机跟踪。ATERMSE评分分别为1.6cm和7.8cm，展示了我们对动态对象的鲁棒性。几何预测和孔洞填充。如示于图7，由于使用粗级场景先验，我们能够完成未观察到的场景区域。与此相反，由于在iMAP中没有编码场景先验知识，所以由iMAP重构的不可见区域是非常嘈杂的。12793仅分层高分辨率仅低分辨率精细级优化开始。L↓像素采样我们的RGB我们的深度是说37.7432.0212.109.63STD.30.9721.983.380.62图6.动态对象的健壮性。我们展示了覆盖在图像上的采样像素，其中动态对象位于中心（左），我们渲染的RGB（中）和渲染的深度（右），以说明处理动态环境的能力。在跟踪期间被掩蔽的像素样本以黑色着色，而使用的像素样本以红色示出。[46] NICE-SLAM w/o coarse NICE-SLAM图7. 几何预测和孔洞填充。白色区域是具有观测的区域，青色表示未观测但预测的区域。由于使用了粗级别场景先验，我们的方法具有更好的预测能力相比，iMAP的。这反过来也提高了我们的跟踪性能。4.4. 消融研究在本节中，我们将探讨层次结构的选择分层架构。图 8比较了我们的分层体系结构：a）一个具有与我们的精细级表示相同分辨率的特征网格（仅高分辨率）;b）一个具有中等分辨率的特征网格（仅低分辨率）。我们的分层架构可以快速添加几何细节时，精细级表示参与优化，这也导致更好的收敛。本地BA 我们验证了ScanNet上本地捆绑调整的有效性[13]。如果我们不联合优化K个关键帧的相机姿势以及场景表示（表5中的无局部BA），则相机跟踪不仅显著不准确，而且鲁棒性也较低。颜色表示。在表5中，我们比较了我们的方法，没有方程中的光度损失p。（九）、这表明，尽管由于有限的优化预算和缺乏采样点，我们估计的颜色并不完美，但学习这样的颜色表示仍然对准确的相机跟踪起着重要作用。关键帧选择。我们使用iMAP的关键帧选择策略（表5中的w/ iMAP关键帧）测试我们的方法这对于iMAP是必要的，以防止其简单的MLP忘记先前的几何体。然而，它也导致缓慢的收敛和不准确的跟踪。表5. 消融研究。我们调查的有用性，本地BA，颜色表示，以及我们的关键帧选择策略。我们运行每个场景5次，并计算其ATE RMSE（）的平均值和我们在ScanNet [13]中报告了6个场景的平均值。10864200 50 100 150 200迭代图8. 分层架构消融。在具有不同架构的GPU [44]上对单个深度图像进行几何优化。为了更好的可视化，曲线被平滑化。5. 结论我们提出了NICE-SLAM，这是一种密集的视觉SLAM方法，它结合了神经隐式表示的优点实验结果表明，与采用单个大MLP的场景表示相比，我们的表示（小MLP+多分辨率特征网格）不仅保证了精细的映射和高跟踪精度，而且由于局部场景更新的好处，速度更快，计算量更少此外，我们的网络能够填充小孔并将场景几何推断到未观察到的区域，这反过来又稳定了相机跟踪。局限性。我们的方法的预测能力被限制到粗糙表示的规模。此外，我们的方法不执行循环闭包，这是一个有趣的未来方向。最后，尽管传统方法缺乏一些功能，但与基于学习的方法相比，仍然存在需要弥补的性能差距。鸣谢。作者感谢 Max Planck ETH 学习系统中心（CLS）对彭松友的支持。我们还要感谢Edgar Sucar提供了有关IMAP的其他实现细节。特别感谢Chi Wang提供数据收集网站。这项工作得到了国家自然科学基金委员会的部分支持（编号：62102356），浙江实验室（2021PE0AC01）。徐炜炜获国家自然科学基金部分资助（No. 61732016）。ATERMSE（↓）无本地BA 不含Lp 带iMAP关键帧完整深度损失（cm）12794引用[1] DejanAzino vic'，RicardoMartin-Brualla，DanBGoldman，Matthias Nießner，and Justus Thies.神经rgb-d表面重建。在CVPR，2022年。2[2] 乔纳森·T·巴伦和本·普尔。快速双边求解器。欧洲计算机视觉会议，第617施普林格，2016年。5[3] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger和Andrew J Davison。Codeslam-learning一个紧凑的，可优化的表示密集的视觉冲击。在CVPR，2018年。一、二[4] AljazˇBozˇ icˇ ，PabloPalafox，JustusThies，AngelaDai，andMatthias Nießner.转化灌注：基于变换器的单目rgb场景重建。 Proc. 神经信息处理系统（NeurIPS ），2021。2[5] ErikBylow，JürgenSturm，ChristianKerl，FredrikKahl，andDaniel Cremers.使用符号距离函数的实时摄像机跟踪和3d重建。RSS，2013. 2[6] Rohan Chabra ， Jan E Lenssen ， Eddy Ilg ， TannerSchmidt，Julian Straub，Steven Lovegrove，and RichardNewcombe.深局部形状：学习局部sdf先验，用于详细的3d重建。在ECCV，2020年。2[7] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein. pi-gan：用于3d感知图像合成的周期性隐式生成对抗网络。在CVPR，2021年。2[8] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR，2019年。2[9] JaesungChoe ， SunghoonIm ， Franc oisRameau ，MinjunKang和In So Kweon。Volumefusion：三维场景重建中的深度融合。ICCV，2021。2[10] Sungjoon Choi，Qian-Yi Zhou，and Vladlen Koltun.室内场景的鲁棒重建。CVPR，2015。六、七[11] Brian Curless和Marc Levoy。从距离图像建立复杂模型第23届计算机图形和交互技术年会论文集，1996年。二、五、六[12] 简·查诺夫斯基，特里斯坦·莱德洛，罗纳德·克拉克，和安德鲁·J·戴维森.深层因素：实时概率密集单目猛击。IEEE Robotics and Automation Letters，2020。一、二[13] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在CVPR，2017年。五六七八[14] AngelaDai ， MatthiasNie ßner ， MichaelZoll höfer ，ShahramIzadi，and Christian Theobalt.Bundlefusion：使用动态表面重新整合的实时全局一致3d重建。ACMTransactions on Graphics（ToG），2017年。2[15] Jakob Engel，Vladlen Koltun，and Daniel Cremers.直接稀疏测距法。IEEE TPAMI，40（3）：611-625，2017年。2[16] 黄家辉，黄世胜，宋浩轩，胡世民。Di-fusion：具有深度先验的在线隐式3d重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第8932- 8941页，2021年。二五六七[17] Chiyu Jiang，Avneesh Sud，Ameesh Makadia，JingweiHuang，Matthias Nießner，Thomas Funkhouser，et al.三维场景的局部隐式网格表示。在CVPR，2020年。2[18] OlafK？ hle r，VictorAdrianPrisacariu，andD a vidW. 穆雷。闭环实时大规模密集三维重建在ECCV，2016年。2[19] Georg Klein和David Murray。在手机上同步追踪和定位。ISMAR，2009年。2[20] Lukas Koestler，Nan Yang，Niclas Zeller，and DanielCre- mers. Tandem：使用深度多视图立体实时跟踪和密集映射。在CoRL，2021年。2[21] 林振轩，马伟秋，安东尼奥·托拉尔巴，西蒙·露西。呕吐：束调节神经辐射场。ICCV，2021。2[22] Shaohui Liu，Yinda Zhang，Songyou Peng，Boxin Shi，Marc Pollefeys，and Zhaopeng Cui.Dist：使用可微球体跟踪渲染深度隐式符号距离函数在CVPR，2020年。2[23] Ricardo Martin-Brualla 、 Noha Radwan 、 Mehdi SMSajjadi、Jonathan T Barron、Alexey Dosovitskiy和DanielDuck-worth。Nerf在野外：神经辐射场用于非受控的照片收集。在CVPR，2021年。2[24] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Ge

下载后可阅读完整内容，剩余1页未读，立即下载