深度图像变RGB图像重建的神经网络模型

143 浏览量更新于2023-10-25 收藏 13.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

. . .. . .61660BNV-Fusion：使用双层神经体积融合进行密集三维重建0李科杰1，唐彦松1,2，Victor Adrian Prisacariu1，Philip H.S. Torr101. 牛津大学，2. 清华大学-伯克利深圳研究院，清华大学0RGB图像（仅供参考）0深度图（输入）0图1. 双层神经体积融合（BNV-Fusion）将嘈杂的深度图像逐步集成到全局几何模型中。0摘要0从一系列深度图像中进行密集三维重建是许多混合现实和机器人应用的关键。尽管基于截断有符号距离函数（TSDF）融合的方法多年来推动了该领域的发展，但TSDF体积表示面临着在噪声测量和细节保持之间取得平衡的挑战。我们提出了双层神经体积融合（BNV-Fusion），它利用了神经隐式表示和神经渲染在密集三维重建中的最新进展。为了将新的深度图逐步集成到全局神经隐式表示中，我们提出了一种新颖的双层融合策略，通过设计同时考虑效率和重建质量。我们在多个数据集上定量和定性地评估了所提出的方法，证明了与现有方法相比的显著改进。01. 引言0从图像中进行密集三维重建是计算机视觉领域中最久远的任务之一。虽然有大量的研究专注于此，但是0使用仅有RGB图像的重建[13,15]，深度传感器在商品设备中的普及（例如MicrosoftKinect [45]，AppleLiDAR扫描仪[1]）使得研究人员能够开发利用深度图的重建算法[9, 26,33]。然而，这些方法中使用的表示——截断有符号距离函数（TSDF）体积——已知在亚体素尺度（例如薄表面）上丢失细节[3,41]，因为它将场景几何离散化为预定义的分辨率。除了表示的限制之外，每个深度测量都独立地通过体素加权平均集成到体积中，没有任何局部上下文，这使得融合过程容易受到噪声深度测量的影响。相比之下，新兴的神经隐式表示在新视角合成[25]和形状建模[24, 29,31]方面显示出有希望的结果，有潜力成为在线设置中TSDF体积重建的更好选择。实质上，这些表示是将连续的3D坐标映射到任务相关的场景属性（例如颜色或最近表面的距离）的深度神经网络。因此，给定由网络表示的隐式函数，可以以任何分辨率提取出表面，而不会增加内存。• We propose BNV-Fusion, a novel and state-of-the-artdense 3D reconstruction pipeline that represents thegeometry of a scene by an implicit neural volume.• We design a novel bi-level fusion algorithm that efﬁ-ciently and effectively updates the neural volume givennew depth measurements.• We conduct extensive experiments, including an evalu-ation on 312 sequences of various indoor environmentsin ScanNet [8], to validate that BNV-Fusion improvesexisting approaches signiﬁcantly and is truly general-izable to arbitrary scenes.2. Related WorkNeural implicit representations can be categorized intoglobal and local representations. In Sec. 2.1, we provide anoverview of both categories with a focus on the latter one asthe neural implicit volume in this work is inspired by meth-ods in this category. We then, in Sec. 2.2, introduce pre-vious works in dense 3D reconstruction and describe howour method is different from existing approaches that alsoleverage neural implicit representations.2.1. Neural Implicit RepresentationsGlobal representations. DeepSDF [29], Occupancy Net-works [24], and IM-Net [5] are pioneering works in neu-ral implicit representations for object shapes. Follow-upworks [27, 37] remove the requirement of 3D ground-truthsupervision. They train their network by minimizing thediscrepancies between input images and color (and depth)images rendered from the implicit representation. Milden-hall et al. [25], a seminal work in novel view synthesis us-ing a neural implicit representation, takes a step further byrepresenting the geometry and appearance of a scene as aNeural Radiance Field (NeRF). It learns to map 3D coordi-nates and viewing directions to occupancy and RGB values.The idea of using neural rendering as a supervision signalto learn a neural implicit representation has inspired subse-quent works in 3D reconstruction [2,40], including ours.Local representations. Recent advances on implicit repre-sentations suggest that using an MLP to represent the ge-ometry of a scene or an object is not scalable, and the priorknowledge at the object level is not generalizable [3, 17].Therefore, they propose to learn neural implicit representa-tion for local geometry structures, which is easily general-izable to objects of novel categories. The geometry of anentire scene can be decomposed into a grid of local latentcodes, each of which represents the geometry in the localregion. Similarly, Genova et al. [11] propose a network topredict both a set of local implicit functions and their 3Dlocations when given a set of depth maps for object recon-struction. In the application of novel view synthesis, Liu etal. [21] also show that decomposing a scene into a set oflocal latent codes, arranged in an Octree volume, improvesrendering quality and speed. Our neural implicit volumeis inspired by the work of Jiang et al. [17] and Chabra etal. [3]. While they are designed to map a complete pointcloud of a scene to a set of latent codes, we can update thevolume when given new information. More importantly,their frameworks do not handle outliers explicitly as theytry to ﬁt all observed surfaces to local latent codes. We in-stead ﬁlter out outliers in the proposed global-level fusion.2.2. Dense 3D ReconstructionTraditional approaches. The seminal work by Curless andLevoy [7] presents the idea of “TSDF Fusion”, which fuses61670使用神经隐式表示的另一个优点是网络可以作为生成模型进行训练，以捕捉一类表面的先验知识。这些神经隐式表示的吸引人之处已经激发了最近的研究[2, 3,17]，以在离线设置中开发表面重建方法。然而，尽管基于TSDF体积的方法[26,33]已经证明体素加权平均是实时可行的，但如何使用神经隐式表示逐步集成新的深度测量仍然是一个悬而未决的问题。受传统体积融合方法的启发，我们在本文中提出了用于高质量和在线三维重建的双层神经体积融合（BNV-Fusion）。给定一系列深度图和相关的姿态，BNV-Fusion将深度测量逐步集成到全局神经体积中。BNV-Fusion的新颖之处在于将局部级别融合和全局级别融合相结合。在局部级别，新的深度图首先被映射到潜在编码，每个编码代表潜在空间中的局部几何。然后，它们通过加权平均的方式融合到全局神经体积中，这类似于传统体积融合方法中的高效更新。然而，局部级别融合容易受到深度异常值的影响，因为它只将测量的表面及其周围区域集成到体积中。此外，尽管一些关于形状建模的工作[12,43]表明潜在空间中的算术运算在一定程度上对应于实际几何变化，但使用加法方案在潜在空间中更新全局表示并不总是导致正确的几何。为此，我们提出使用神经渲染优化全局体积，其中我们惩罚从全局体积中提取的SDF与深度测量的SDF之间的差异。这种优化被称为全局级别融合，因为它在全局上鼓励一致的重建。总的来说，BNV-Fusion的关键认识是局部级别融合和全局级别融合是互补的。虽然局部级别融合高效地集成了新信息并初始化了全局级别融合，但全局级别融合显著提高了重建质量。总结起来，我们的贡献有三个方面：. . .. . .Global-level FusionDecoderInput Depth MapsSingle-view Neural VolumeGlobalNeural VolumeEncodingLocal-level Fusion1s𝑖 − ҧ𝑠𝑖𝑽𝑐0𝑠𝑽𝑐𝑛𝑠𝑾𝑐0𝑠𝑾𝑐𝑛𝑠𝐷0𝐷𝑛𝐷0𝐷𝑛𝑽𝑤61680图2.BNV-Fusion的架构。在帧t上，BNV-Fusion首先将深度图Dt映射到单视图神经体积Vsct，其中每个体素包含表示潜在几何的潜在代码（第3.2节）。然后，BNV-Fusion使用提出的双层融合将单视图神经体积集成到全局神经体积Vw中（第3.3节）。在局部层面上，Vsct通过由Wsct加权的滑动平均值集成到全局体积Vw中。在全局层面上，我们通过最小化从体积si解码的SDF与实际测量si沿相机光线的差异来迭代优化全局体积。0深度图通过平均值转换为TSDF体积。KinectFusion[26]重新审视并扩展了这个想法，开发了一个与微软Kinect[45]等低成本深度相机配套使用的实时稠密SLAM系统。后续的工作[9, 10, 18, 23, 28, 33, 35,38]在融合流程中改进了可扩展性、重建质量、闭环检测等各个方面。除了基于TSDF体积的方法外，还有一些方法[32,36, 39, 42,44]采用基于表面的表示来进行地图压缩，这些经典方法推动了过去几十年中3D重建的发展。使用神经隐式表示进行重建。Azinovi´c等人[2]使用MLP来表示场景的几何形状，并通过比较渲染的和输入的RGBD图像来训练MLP。Sucar等人提出了iMAP[40]，这是一个使用单个MLP作为映射和跟踪的唯一表示的稠密SLAM系统。尽管将训练时间从Azinovi´c等人[2]的几天缩短到几乎实时性能，但iMAP的局限性如下。首先，重建结果不能很好地适应场景的大小，并且往往丢失细节。这是因为，尽管MLP能够快速收敛到低频形状，但需要更长的时间来处理高频细节，正如iMAP的作者所指出的[40]。其次，他们为每个场景训练一个新的MLP，因此效率低下且容易受到深度测量噪声的影响。所提出的方法通过使用编码局部几何的潜在代码体积来解决这些问题。基于体积的表示可以提高重建的细节级别，因为仅在潜在代码的条件下进行的MLP只需要学习局部表面模式，而不需要学习整个场景的几何形状。0场景。此外，通过在全局级别融合中冻结MLP的参数，仅优化潜在代码，我们有效地利用了嵌入在MLP中的局部几何的先验知识。与我们的工作在表示方面更相关的是NeuralFusion [41]和DI-Fusion[16]，它们都依赖于潜在代码的网格。然而，我们的工作与这些方法在给定新测量时更新潜在代码的方式有很大的不同。我们不仅在潜在代码的域中集成新测量，还通过神经渲染优化潜在代码，从而实现更加全局一致的重建。总之，尽管有一些开创性的工作[16，0[40,41]试图将神经隐式表示应用于在线重建，它们在提高效率的同时牺牲了重建质量。相反，所提出的方法可以在几乎实时运行时重建细节，即使是传统的体积融合方法也容易忽略（在没有适当的代码优化的情况下，约2Hz）。03. 方法0给定一系列深度图 { D0，...，Dn } 和相关的外参参数 {Twc0，...，Twcn}（Twcn表示从相机cn到世界坐标的刚性变换），BNV-Fusion旨在重建由全局隐式神经体积Vw表示的场景的几何形状（在第3.1节中定义）。BNV-Fusion将每个深度图处理为三个主要步骤，如图2所示。编码步骤将深度图转换为包含一组潜在代码的单视图神经体积，这些潜在代码嵌入了局部形状（第3.2节）。单视图神经体积在s =N=7�i=0w(¯xi, pi)D(li, ¯xi),(1)L(θE, θD) = ∥DθD(EθE(p), x) − sgtx ∥1,(2). . .Given a single-view neural volume, the global volume isupdated sequentially by running the local- and global-levelfusions. The latent codes in the single-view neural volumeare ﬁrst integrated into the global volume by weighted av-eraging at the local level. After the local update, the globalvolume is optimized via neural rendering to ensure a glob-ally consistent reconstruction. We detail the bi-level fusionin the rest of this section.Local-level fusion. At frame t, the single-view neural vol-ume V sct is transformed to the world coordinate using thecamera extrinsic parameters: V sw = T wct V sct. The compu-tation ﬂow in the local-level fusion is similar to that of thetraditional volumetric Fusion [7] except we are averaginglatent codes rather than TSDF values, as shown below:61690使用提出的双层融合（第3.3节）将局部潜在编码整合到全局体积中。03.1. 隐式神经体积0隐式神经体积包含在网格结构中空间有序排列的一组局部潜在编码。具体而言，隐式神经体积采用以下形式：V = { v= ( p , l ) }，其中每个体素 v 包含其在空间中的3D位置p，以及隐式地表示局部形状嵌入中的局部几何的潜在编码l。为了从体积中恢复3D点 x的符号距离函数（SDF）值，我们首先从体积中检索到8个相邻的体素 v0...v7，并将 x转换为相对于每个相邻体素的局部坐标：¯ x i = x − pi。给定潜在编码和局部坐标，形状解码器 D ( ∙ , ∙ )预测如下的SDF值。0其中 w ( ∙ , ∙ )是三线性插值的权重。使用从体积解码的SDF，可以使用Marching Cubes算法[22]提取出描述场景几何的网格。03.2. 学习局部形状嵌入0隐式神经体积有效地表示几何的关键是数据驱动的局部形状嵌入，我们使用类似自动编码器的网络进行学习。技术上，深度编码器 E 是从PointNet[34]修改而来的，它以从深度图未投影的点云作为输入，并通过在局部区域内聚合信息来提取每个点的深度特征。然后，这些特征被映射到嵌入中的一组潜在编码。解码器 D是一个具有4个全连接层的多层感知机（MLP）。它以潜在编码和3D坐标作为输入，并预测输入坐标的SDF值。训练。我们以ShapeNet[4]中的物体CAD模型为训练样本，以监督方式联合训练编码器和解码器。给定一对训练样本 ( p , x )，损失函数为0其中 p 是具有局部表面补丁法线的局部点云，x是表面周围的采样点，具有其真实SDF值 s gtx。我们在第3.4节中进一步详细介绍训练过程。推理。在第t帧，深度图 D t首先使用已知的内参参数未投影为3D点云。然后，将点云分割为重叠的局部点云 { p 0 , p 1 , ..., p n }，每个点云都被编码器映射到一个潜在编码 l = E( p )，如图3所示。这些潜在编码被聚合成一个表示潜在空间中 D t的单视图隐式体积 V s c t。隐式体积伴随着一个权重体积 W s cn，其中的值设置为与一个体素关联的3D点的数量。0编码器0潜在编码0图3.将深度图编码为局部形状的嵌入。从深度图中未投影的3D点云被分割成局部点云（由3D立方体界定）。深度编码器以局部点云作为输入，并预测一个潜在编码。0给定单视图神经体积，通过运行局部级和全局级融合来顺序更新全局体积。单视图神经体积中的潜在编码首先通过局部级加权平均值集成到全局体积中。在局部更新之后，通过神经渲染优化全局体积，以确保全局一致的重建。我们在本节的其余部分详细介绍双层融合。局部级融合。在第t帧，将单视图神经体积 V s c t使用相机外参参数转换到世界坐标系：V s w = T w c t V s ct。局部级融合的计算流程与传统的体积融合[7]类似，只是我们对潜在编码进行平均而不是TSDF值，如下所示：03.3. 双层融合0Vtw=Wt−1Vt−1w+WsctVsw0Wt−1+Wsct，(3)0Wt=Wt−1+Wsct，(4)0其中Vw和W分别表示全局隐式体积及其权重。上标t−1和t表示先前更新和后续更新。全局级融合。尽管局部更新是高效的，但容易受到测量中的异常值的影响。此外，潜在空间中的算术运算与实际几何变化不完全对齐。为了解决这些问题，我们通过从全局体积渲染SDF值并将其与深度测量进行比较来强制实现几何的全局一致性。然后比较渲染值与实际观测值之间的差异。61700用作优化全局体积的监督信号。在每次迭代中，我们随机采样深度图中的一组像素。沿着从每个采样像素反投影的射线，我们使用受Mildenhall等人启发的分层采样策略[25]采样N个3D点{x0，x1，...，xn}，其中我们采样更多靠近测量表面的3D点。给定射线上的深度测量p，每个3D点的投影TSDF计算为：¯si=min(max(∥p−xi∥2，−δ)，δ)，其中δ是截断阈值。将3D点转换为世界坐标后，可以使用公式（1）提取这些点的SDF值。最后，优化目标变为：0arg min VwΣni=0∥si−¯si∥1，(5)0其中si是使用公式（1）从神经体积Vw解码得到的SDF值。03.4. 实现细节0隐式神经体积。体素分辨率为2cm（即一个潜在编码表示其位置周围2cm³的几何形状），潜在编码的维度设置为8。0网络训练。我们使用ShapeNet[4]中的两个类别（椅子和灯具）的物体CAD模型来训练深度编码器和形状解码器。为了为编码器生成输入点云，我们首先对每个CAD模型从随机视点渲染20个深度图。深度图反投影为3D点云。然后我们在每个点云中随机选择2000个种子点。通过在表面点上施加高斯噪声并扰动其法线方向来模拟深度测量中的噪声。我们还随机采样1000个训练点并计算它们在局部区域内的SDF以训练解码器。编码器包含4个全连接层，大小为[128，128，128，8]，除最后一层外，其间通过ReLu进行连接。我们使用平均池化层在局部区域内聚合信息。解码器是一个MLP，具有4个全连接层，大小为[128，128，128，1]。0全局级融合。我们在每次迭代中对每个图像采样5000个像素。对于从采样像素反投影的每个相机射线，我们在粗级采样时采样每米5个3D点，在细级采样时采样20个3D点。全局神经体积中的潜在编码通过Pytorch[30]中的Adam优化器[20]进行优化，每个图像进行5次迭代。04. 实验04.1. 数据集和度量0我们在三个数据集上对所提出的方法进行了广泛评估：3DScene Dataset [6]，ICL-NUIM RGBD benchmark[14]（根据Creative Commons3.0许可证），以及ScanNet[8]（根据MIT许可证）。这些数据集涵盖了具有地面真实3D模型的合成扫描和具有伪地面真实3D模型的真实世界扫描。为了评估重建质量，我们从地面真实网格和重建网格中均匀采样了100,000个点，然后报告以下度量指标。准确率（在表格中表示为Accu.）衡量了重建网格中的点与地面真实网格上的点之间小于阈值距离（设置为2.5cm）的比例。完整度（在表格中表示为Comp.）计算了地面真实网格上的点与重建网格上的点之间小于2.5cm距离的比例。F1分数（在表格中表示为F1）是准确率和完整度的调和平均值，用于量化整体重建质量。在ICL-NUIM [14]和3DScene数据集[6]上报告每个序列的定量结果时，我们使用不同帧运行实验5次，并独立采样表面点两次，以确保定量结果具有统计显著性。04.2. 基线0在接下来的实验中，我们通过与使用传统TSDF融合或基于现代神经隐式表示的强基线方法进行比较，展示了BNV-Fusion的有效性。本节中的“TSDF融合”表示基于KinectFusion [26]的Open3D库[46]中的TSDF融合的实现。“DI-Fusion”[16]是一种使用体积神经隐式表示的重建流程。我们在实验中使用了作者发布的代码。“iMAP”是我们重新实现的Sucar等人的论文iMAP[40]，因为我们在提交时没有获得官方实现。在评估中，我们使用数据集提供的相机姿态，并使用相同的图像作为输入，以隔离所有比较方法中的映射组件。04.3. 在3D场景数据集上的评估03D场景数据集是重建社区中的一个流行基准，包含几个真实世界的RGBD序列。与提供了地面真实3D模型的合成数据集（例如ICL-NUIM数据集）不同，为了提供定量比较，我们遵循先前的常见做法[3，41]。具体来说，61710我们对“休息室”场景的重建0参考图像 DI-Fusion iMAP TSDF-Fusion 我们的方法真实地面0我们对“市民”场景的重建0图4.在Scene3D数据集[6]上的定性比较。与以前的传统方法和基于学习的方法相比，我们提出的方法能够更准确地重建更多的细节。值得注意的是，在顶部的场景（“休息室”场景）中，我们的方法能够重建一些植物的叶子和树枝，而数据集提供的地面真实网格甚至无法重建（在参考RGB图像中用青色边界框突出显示）。与底部场景（“市民”场景）中的其他方法相比，我们的方法能够忠实地重建雕像的脸部。放大后差异更明显。0休息室复印室仙人掌花园石墙市民方法精度/复杂度/F1 精度/复杂度/F1 精度/复杂度/F1 精度/复杂度/F1 精度/复杂度/F10TSDF融合[46] 86.16/93.46/89.66 89.88/90.22/90.05 75.62/94.17/83.84 88.73/94.34/91.45 72.78/82.35/77.26 iMAP[40]85.76/87.98/86.85 83.94/80.22/82.04 73.04/85.01/78.57 85.82/85.83/85.82 70.23/71.71/70.96 DI-Fusion[16] 67.76/79.09/72.9885.24/78.22/81.58 58.00/68.70/62.90 82.36/89.97/85.90 63.10/65.90/64.47 BNV-Fusion（我们的方法） 87.53/94.77/91.0188.56/90.32/89.43 78.62/94.33/85.75 92.57/94.19/93.37 75.98/82.44/79.080表1. 在3D场景数据集[6]上的定量评估。我们的BNVF在性能上优于现有技术。0我们将数据集提供的重建视为地面真实。由于这些模型是通过在每个序列中的所有可用帧上运行TSDF融合方法并进行后处理创建的，因此在评估中运行比较方法时，我们仅采用每10帧作为输入图像。0表1 quanti�es3D场景数据集中5个场景的重建质量，从中可以清楚地看出我们的方法在所有序列中都优于其他方法。我们在图4中突出显示了不同方法产生的重建之间的差异。尽管DI-Fusion[16]能够在给定噪声深度测量的情况下重建平滑的表面，但它无法捕捉到任何细节。这表明0仅在潜在空间中集成深度测量并不能有效利用深度测量。尽管在DI-Fusion中减小体素大小似乎是促进准确重建的一种替代方法，但我们在第4.6节中对体素大小进行了消融研究，以显示减小体素大小存在问题的权衡。基于神经隐式表示的另一种方法iMAP[40]也无法关注细节，因为他们使用单个MLP来表示整个场景。从图4中也可以看出，与我们的方法和DI-Fusion相比，iMAP对深度图中的噪声更敏感。这是由于缺乏先验知识，因为他们为每个场景训练了一个新网络。与TSDF-Fusion方法相比，我们的方法61720Livingroom0 Livingroom1 Of�ce0 Of�ce1 方法准确率 / 完整度 / F1 准确率 / 完整度 / F1 准确率 / 完整度 / F1 准确率 / 完整度 /F1e0TSDF Fusion [46] 54.66 / 62.52 / 58.31 60.13 / 72.19 / 65.28 49.21 / 53.71 / 51.41 56.61 / 59.18 / 57.79 iMAP [40] 61.23 /62.31 / 61.76 65.12 / 65.40 / 62.25 47.26 / 47.18 / 47.22 64.96 / 59.91 / 57.33 DI-Fusion [16] 61.52 / 64.43 / 62.55 69.69 /67.81 / 68.00 50.06 / 48.99 / 49.79 54.53 / 50.41 / 52.36 BNVF（我们的方法） 71.26 / 73.86 / 72.54 80.01 / 81.94 / 81.0258.17 / 60.33 / 59.23 63.93 / 63.89 / 63.910表2. 在增强的ICL-NUIM数据集[6]上的准确率（Accu.）、完整度（Comp.）和F1分数（F1）的比较。除了“Of�ce1”序列的准确率外，我们提出的BNV-Fusion在所有指标上都明显优于其他方法。0方法阈值每 x 帧 @ 2.5 cm 估计的姿态01 cm 5 cm x = 1 x = 300TSDF [46] 33.63 90.87 85.26 79.81 55.20 iMAP [40] 28.43 89.72 82.07 74.1255.96 DI-Fusion [16] 23.53 88.83 74.40 73.81 58.33 我们的方法 35.34 93.2987.60 80.57 61.070表3. 在不同实验设置下的F1分数。0我们的方法能够更准确地重建具有挑战性的结构，例如细小的叶子、指尖和人脸。此外，通过参考RGB图像，我们的方法甚至可以重建细小的结构（在图4中用青色边界框突出显示），而这些结构在地面实况网格中被遗漏。请注意，生成地面实况网格使用了10倍于深度图像的数量。此外，表3评估了不同实验设置下的方法（例如使用SLAM跟踪相机、不同阈值、不同帧率）。04.4. 在ICL-NUIM数据集上的评估0ICL-NUIM数据集是一个带有地面实况3D模型的合成数据集。我们使用Choi等人[6]渲染的合成序列，因为他们的渲染考虑了更全面的噪声模型（例如基于视差的量化、真实高频噪声和基于真实深度相机的低频失真），以模拟真实深度图像中的噪声。我们的重建结果更准确和完整，这得到了表2中的高准确率和完整度的支持。与3D场景数据集中的结果类似，DI-Fusion [16]和iMAP[40]在几何细节的重建上遇到了困难。我们在ICL-NUIM数据集上的优势比在3D场景数据集上更大。我们认为这是因为ICL-NUIM数据集中的合成噪声对于大深度值来说比实际深度传感器中的实际噪声更高，这表明我们的方法对于更大的测量噪声具有鲁棒性。我们在补充材料中展示了所有比较方法的定性结果。04.5. 在ScanNet上的评估0ICL-NUIM和3D场景数据集只有少数几个序列，可能不足以测试基于学习的方法的泛化能力。因此，我们在ScanNet[8]的验证集上评估了我们的方法，该数据集包含了312个捕获于不同场景中的序列。0方法准确率完整度 F1值0TSDF Fusion [46] 73.83 85.85 78.84 iMAP 68.9682.12 74.96 DI-Fusion 66.34 79.65 72.97BNVF（我们的方法） 74.90 88.12 80.560表4. 在ScanNet[8]上我们提出的BNV-Fusion和TSDF-Fusion的比较。结果表明，我们的方法能够很好地适应各种场景。0方法准确率完整度 F1值0无全局级融合 30.29 39.64 34.31 无局部级融合 33.6138.50 36.55 我们的方法（局部 + 全局） 68.34 70.0169.170表5. 不同融合算法的定量比较。双层融合明显优于两个基准方法。0门环境，如客厅、会议室和办公室。由于ScanNet也没有场景的真实模型，我们再次使用每10帧作为输入，并将数据集提供的网格视为伪地面真值。定量比较总结在Tab.4中。在ScanNet中各种场景中胜过TSDFFusion证明了所提出方法的出色泛化能力。我们在补充材料中提供了一些示例重建结果。04.6. 割离研究0提出的方法与以前使用神经隐式表示的在线重建框架不同，这得益于局部级和全局级融合的组合。因此，我们在本节中对双层融合进行了更多分析，使用增强的ICL-NUIM数据集[6]中的序列。全局级融合。与仅在潜在空间中融合信息的先前方法[16，41]相比，我们使用神经渲染优化全局体积以实现一致的重建。除了在Tab. 1和Tab.2中报告的与先前方法的比较之外，我们还通过在我们的系统中禁用全局级融合来验证其必要性。定量比较在Tab.5中报告，并在图5中进行对比可视化。仅使用小体素大小的局部级融合会受到深度异常值的影响。61730我们的方法（局部级 + 全局级）0增加体素大小0仅局部级融合0图5.仅使用局部级融合和提出的方法之间的视觉比较。仅使用局部级融合的重建明显受到异常值和缺失结构的影响。如图所示，将隐式体素的大小从5cm增加到20cm，步长为5cm，可以减少异常值，但会丢失更多的细节。0图6.随着全局级融合的进行，完整性的改善。由局部级融合初始化的全局级融合（橙色线）在5次迭代中收敛。相比之下，随机初始化的全局级融合（蓝色线）需要更长的时间才能收敛，并且即使在20次迭代后仍然不如所提出的方法好。0因为它在潜在代码的域中独立地更新每个隐式体素。我们还测试了DI-Fusion[16]中使用的一种方法，即增加体素大小。然而，如图5所示，这也是不可取的，因为随着体素大小的增加，会丢失更多的细节。局部级融合。局部级融合的一个关键贡献是初始化全局级融合。我们将我们的方法与随机初始化全局级融合的基线进行比较。图6说明了基线需要更多的迭代才能收敛到我们的方法。我们还通过在Tab.5中运行相同数量的迭代来定量比较基线和我们方法的重建结果，清楚地显示了局部级融合对于在线稠密重建的重要性。04.7. 运行时间分析0我们将每个组件的运行时间分解如下。将深度图编码到潜在空间和局部级融合总共需要0.1秒，其中大部分时间用于编码步骤。全局级融合运行2次迭代需要0.5秒。网格提取不包括在内，因为它可以在单独的线程上运行。0总体而言，BNV-Fusion在1080TiGPU上以近2帧每秒（fps）的速度运行。DI-Fusion[16]在相同设备上以10fps的速度运行。iMAP[40]由于我们在原始论文中运行所有帧而不是选择的关键帧，所以无法实时运行。04.8. 限制0有两个需要考虑的限制。首先，所提出的方法仍然比传统的体积融合方法慢，传统方法经过了大量的工程优化。例如，In�niTAM v3[19]可以在移动设备上轻松达到30fps以上的速度。未来的研究需要开发一个基于神经隐式的重建流水线，能够像传统方法一样快速运行。其次，深度测量中的严重噪声有时会导致相邻隐式体素之间的不连续性，尽管我们尝试通过在相邻隐式体素之间使用三线性插值来改善边界一致性。05. 结论0我们提出了BNV-

下载后可阅读完整内容，剩余1页未读，立即下载