基于学习的高度场改进的AR场景重建方法

50 浏览量更新于2023-10-15 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5850用于增强现实场景重建的高度场Jamie Watson1，2 Sara Vicente1Oisin Mac Aodha3Cle′mentGodard4* GabrielBrost ow1，2 MichaelFirman11Niantic2 UCL 3爱丁堡大学4Googlehttps://github.com/nianticlabs/heightfields摘要从一系列姿态RGB图像重建3D场景是计算机视觉和增强现实（AR）的基础任务。虽然基于深度的融合是用于3D重建的大多数实时方法的基础，但是最近直接在RGB图像上操作的基于学习的方法可以实现更高质量的重建，但是以增加的运行时间和存储器需求为代价，使得它们不适合AR应用。我们提出了一种有效的基于学习的方法，改进了由传统融合方法获得的3D重建。通过利用自上而下的高度场表示，我们的方法保持实时性，同时接近其他基于学习的方法的质量。尽管是一个简化，我们的高度场是完全适当的机器人路径规划或增强现实字符放置。我们概述了几项创新，这些创新使性能超越了现有的自上而下的预测基线，并且我们提出了一个针对AR任务的评估框架0.80.70.6我们原始TSDFNeuralReconAtlasTransformerFusion1. 介绍用于相机跟踪的系统现在在若干增强现实（AR）框架中无处不在并且广泛可用，例如，苹果的ARKit [1]和谷歌的ARCore [13]。0.50.40实时几何学Mapnet100 200 300每次3D更新的时间（ms）然而，复杂的AR效果需要3D场景理解，超越相机姿势和稀疏点。一个关键的AR应用是在现实世界场景中放置和导航资产，如角色。为了很好地做到这一点，通常需要对3D几何形状进行估计。这种3D几何估计必须（a）计算便宜，因此它可以在嵌入式和移动设备上运行，以及（b）准确，使得AR资产看起来站在物体上，而不是在表面下方或上方。虽然准确，但深度传感器对于大多数移动设备来说不是标准的，这意味着典型的方法*在Niantic图1. 高地重建。通过仅使用2D卷积，我们的自上而下高度场预测系统明显快于全3D替代方案（底部），同时预测场景形状具有相当的准确性（顶部）。是将从构成的RGB图像估计的深度图融合到全局3D重建中[36]。这是快速的，但创建嘈杂和不完整的3D体积。最近的工作提出了替代的基于学习的方法，以高质量的3D重建。然而，这些往往依赖于昂贵的操作，如3D卷积[30，48，6]。在这项工作中，我们认为这些基于学习的3D重建Atlas神经重建海特菲尔德HeightRecon输入图像我们的3DF1分数5851对于诸如AR的许多应用是不必要的，并且提出我们的场景的21/2D高度场作为许多室内环境中的实际改变[14，32]。高度场是一个与地平面对齐的2D网格这表明了人造世界在地平面维度上的空间变化比在高度方向上的空间变化更大。我们介绍三个主要贡献：（1）用于自上而下高度估计的新颖框架，其接近基于学习的全3D重建方法的性能，同时在原始深度融合基线上进行改进。（2）一种新的混合方法，该方法学习何时信任原始融合几何以及何时将学习到的自上而下输出用于最终输出。(3)一种新的评估协议，通过将3D对象放置在场景中并测量它们如何重新投影到图像中来模拟AR应用程序我们表明，我们的方法比其他最近基于学习的全3D场景重建替代方案更快，内存密集度更低，同时在重建保真度方面仍然具有竞争力（图1）。①的人。我们对具有挑战性的ScanNetV2数据集[8]进行了评估，并表明与其他自上而下的重建基线相比，我们在自上而下的网格重建和重新投影的深度准确性方面取得了最先进的结果。我们的方法也是我们AR风格评估中表现最好的实时方法。2. 相关工作重建3D场景。从RGB图像重建三维几何形状是计算机视觉中一个长期存在的问题。运动恢复结构（SfM）管道（如COLMAP [43，44]）可用于生成稀疏重建，而对于密集重建，传统的SfM依赖于深度图作为中间表示，例如，[36，10，6，21]。每帧深度然后被融合成全局表示，例如，截断有符号距离函数（TSDF）[7，31]。类似的深度图融合策略被其他重建方法使用[31，36，42]。最近还提出了改进传统管道的深度传感器数据的基于学习的融合方法[53，54，56]。相比之下，最近的基于学习的方法试图直接从RGB图像执行端到端重建，例如，[30、48]。在这里，从每个图像提取的特征沿着相机射线被反向投影到3D特征体积中，随后在3D体积上进行昂贵的3D卷积输出是场景的3D几何体的隐式表示。与Atlas [30]不同的是，它保持了场景级3D特征体积，NeuralRecon [48]首先通过将输入场景切成片段来执行局部表面估计，这些片段随后融合到单个全局体积中。这大大加快了处理速度，但仍然需要3D卷积TransformerFusion [3]还提出了一种基于增量transformer的在线方法。我们的方法结合了这两种观点的最佳之处。我们首先预测每个图像的深度图，并使用TSDF融合它们。该原始TSDF用于将深度和特征聚合到自上而下的网格中。一个轻量级的网络（即无3D卷积）处理此网格并输出高度场，解决了端到端方法（如[30]）的速度和内存限制自上而下的语义推理自顶向下（或它们可以在诸如道路场景的语义分割[40，39，35]和俯视图合成[58]等应用中有效。已经提出了不同的策略来从2D图像观察转换（例如，由近似平行于地面的摄像机捕获）到自上而下的空间，其中深度为[5，16]和[27，35，40，39]。这些方法主要涉及自上而下的语义学。相反，我们表明，类似的2½D表示可以用于轻量级的3D重建。自上而下的几何推理自上而下的表示也被用于基于几何的推理。例如，从航空单目图像估计高度是遥感中的常见问题[47，28]。在深度学习之前，[11]将估计的深度图融合到2D网格中，从中可以提取高度场。在我们的实验中，我们证明了类似的仅深度融合基线不如我们的完整方法。在SLAM的上下文中，[59]通过基于网格的高度场表示执行密集重建他们的方法不包括学习组件，因此网格在推理时通过非线性优化进行拟合[9]使用高度图来提高效率，但不要试图改进作为输入的3D重建。Stixels [2]使用基于高度的表示对自由空间进行建模，但在以相机为中心的坐标中表示场景，这与我们基于融合一致性世界的表示不同。在基于学习的方法的背景下，[29]对室内场景中的室内步行轨迹和自由空间之间的关系进行建模，为地板网格上的每个2D位置估计少量离散的占用箱。这与[37]的神经SLAM方法中使用的二进制占用推理有关。[51]估计场景中的自由空间和对象“足迹”，但不估计几何体。[45]使用架空高度估计网络执行单视图3D场景重建。然而，所需的训练监督是不平凡的，因为它需要对象后面和下面的遮挡深度，因此使用合成数据[46]。最后，来自[33]的卷积单平面解码器与我们的高度场解码器相关，但我们直接预测高度而不是评估。5852×Ci=1Vi=1HFHV∈ C H ∈FHC为每个2D位置选择多个不同的3D位置，从而减少了我们方法的计算量。最后，还有大量的工作从单个图像[22，26]、序列[34]或3D数据[25，17，24]中估计室内环境的平面图。虽然相关，这些方法主要涉及估计房间的形状，忽略了家具.3. 问题设置我们的目标是将连续的彩色图像转换为基于高度的3D世界表示，同时最大限度地减少计算和内存占用。高度场在2D网格上定义，并为每个单元格c分配高度c[0，hmax]，该高度对应于场景中对象在单元格上的最大高度。在实践中，对于导航和增强现实，我们只关心高度到某个最大高度;我们将其设置为用户定义的参数Hmax（例如，在我们所有的实验中，我们设置hmax= 1。5米）。这确保我们在室内场景的训练和评估中忽略天花板和墙壁的顶部，但包括家具和其他“东西”。我们的2D网格被划分成大小为4厘米4厘米的细胞在所有的实验。在训练和测试时，我们假设访问RGB图像序列{Ii}N，每个图像的大小为（H，W），并且具有已知的相机姿态{Ii}N和内在函数，所有这些都在从图像I以及从附近的关键帧图像中提取低级特征在dmin和dmax之间的深度的成本体积[19]中计算参考图像和目标图像的特征之间的几何兼容性。然后通过网络对成本体积进行卷积以估计每图像深度D。深度估计架构。我们的架构基于[52]，但使用监督数据而不是自我监督进行训练。我们使用基于l1的损失和[38]中的梯度损失进行训练。更多关于架构、超参数以及如何选择关键帧的细节在补充材料中给出。特征图。另外，针对每个I计算特征图F。类似于[30]，我们将F计算为四个残差块的和，每个残差块被上采样为（H，W）。F的维数为K，在我们所有的实验中，K= 32。4.2.创建嘈杂且不完整的原始TSDFV作为我们最后一个高地的起点，我们要-将来自每个图像的估计的深度图集成到公共参考帧中，从而获得未细化的在传统的基于深度融合的方法（例如，[7，31]），我们使用每个图像的已知姿态将所有深度图集成到体素TSDF中。我们将此TSDF的边界设置为输入图像的相机中心周围的区域。在训练和测试时，该TSDF的中心是T101的相机中心。该TSDF将相对于粗略重力姿势可以被估计，例如。[55]第57话对于我们的ScanNetV2实验，我们遵循[30，48，3]使用ScanNet的预对齐姿势。在补充视频中，我们展示了使用HeightRecon对使用视觉惯性里程计技术（Apple的ARKit [1]）获得的姿势的场景进行定性结果在训练时，我们还可以访问每帧的地面实况深度图和场景的地面实况高度场。4. 方法我们分四步估计高度场：（1）估计每个RGB输入图像的深度和深度特征;（2）将估计的深度整合到有噪声的、不完整的3D体素网格中;（3）将深层特征集成到自顶向下的2D特征网格中;（4）通过训练的2DCNN创建最终输出。这些步骤的视觉概述如图所示二、4.1. 逐图像深度和特征估计我们引导我们的高度场的方法与一个未完善的估计场景几何。我们通过一个深度估计的管道，然后将这些深度图融合对于输入序列中的每个帧，我们估计大小为（H，W）的每帧深度图像Di。我们使用监督多视图立体（MVS）系统来估计这一点，其精神类似于[18，52]。通常是体素散列的，这使得它具有极高的存储效率。不过，为了便于实现，我们的实现使用了密集张量;这仍然比基于学习的基线要轻量级得多（见第二节）。5.6）。4.3. 创建自顶向下的特征图F如上所述，深度3D重建中的现有工作（例如，[30，48]）将深度图像特征投影到3D特征体积中。然而，构建和处理这样的体积是非常昂贵的。相反，我们创建一个自上而下的特征图，其中每个单元格包含与该网格位置对应的图像级特征。这提出了以下问题：（i）如何将来自从任意相机姿势捕获的图像的特征最佳地映射到地面的2D网格上，以及(ii)如何从多个这样的图像中积累特征以前的工作在语义推理提出了不同的方法，例如。[40，35]。这些方法更适合于汽车应用，其中相机相对于地平面的姿态表现得更好，即。与地平面成恒定的高度和角度。在我们的实验中，我们表明，这些方法是劣于我们的方法在室内场景重建的背景下。简单地说，我们可以使用我们的深度将图像空间的特征投影然而，这有它需要接地的关键限制5853...= 0= 1FVCPFT TPF THΩ1观察场景...Ω2图2.我们的HeightRecon模型概述。我们的方法预测一系列的构成图像的高度场它首先提取序列中所有图像的深度图和特征图。然后，深度图被融合到TSDF体积中，TSDF体积通过来自虚拟正交相机的光线投射被转换为原始高度场这个原始高度字段用于我们自上而下的特征聚合步骤，将每帧的特征映射转换为自上而下的聚合特征映射。聚合的特征图和原始高度场由我们的自顶向下网络进一步处理，以产生最终的高度场。真实深度，没有它，噪声深度估计将把特征放在错误的网格单元中。为了更好地应对深度估计的噪声，我们利用已经计算的原始TSDF体积，这使我们能够有效地和准确地抓住每个网格单元的适当的图像级特征首先，我们通过以下方式将原始TSDF转换为高度字段：使用虚拟全息照相机从上方对原始TSDFV进行光线投射。这给出了原始高度场Hraw。每个单元c处的高度Hraw被转换为3D点Pc。从单个图像中收集特征对于2D网格中的每个单元格c，我们希望用来自Fi的特征填充自上而下的特征图i，图像Ii的特征图。为了做到这一点，我们使用已知的相机extrinsics和intrinsics将每个c投影到相机xii中。我们确定点是否（a）示例输入图像（c）朴素回归：完全平滑但平滑的回归(b)原始TSDF高度图：尖锐但不完整的裂缝(d)我们的：完全无菌和锐菌通过将其坐标与估计的深度图进行比较而被遮挡对于未被遮挡的点，我们然后在重新投影的图像坐标处对输入图像特征图Fi进行采样，以获得Fi。我们还保留了一个能见度遮罩图4.朴素的TSDF卷给出了清晰但不完整的几何图形，而朴素的自上而下的网络输出是完整但模糊的。我们的新混合方法（第二节）。4.4)从两者中借用。从每个图像中提取真实地图，考虑到可见性，i，在哪里如果c直接可见且未被遮挡，则ic为1在摄像机101中，否则为0。这种基于深度的采样Fc=CiTic Fic中文（简体）.对于在线应用程序，我们来-与像[30]这样的方法相反，[30]将图像特征投影到沿着给定像素的射线的所有将一系列图像聚合到网格中。在从每个图像i获得Fi和可见性掩模Ti之后，最终的特征图F是特征图的平均值图3. 计算和。raw中的每个3D点都被投影到相机i中，因此可以对图像级特征进行采样。T记录每个点在相机中是可见（1）还是隐藏（0）。二维图像空间深度网原始TSDFRaw HeightfieldΩ ΩΩN...2D顶向下空间12相机姿势第4.2I1每图像深度I2顶向下聚集IN图像共享层第4.1节第4.3节特征网每图像特征自上而下第4.4聚合特征自顶向下网络最终海菲尔德共混光线投射TSDF融合ΩN摄像头Ωi隐藏点;可见点;原始TSDF由...5854FHFFH这是一个滚动平均值[31]。4.4. 自顶向下高度场回归下一步骤是从自上而下的特征图回归周围环境的高度场，自上而下的特征图从N个相机导出并且平均为每单元特征c。我们的自上而下的网络将2D特征图和原始TSDF的自上而下的渲染作为输入。这些堆叠在一起，形成（K+ 1）通道十元数，其中K是F中的特征通道数。我们的自上而下网络是一个2D卷积网络，放置一个单通道张量来表示高度场H。H是以米为单位的绝对标度预测的。学习混合以改进高度场。一个简单的高度场回归，给定和原始的输入，将使用一个类似于我们的深度回归网络的模型，即。标准回归CNN，包括编码器、解码器和跳过连接。我们发现，com-5855HHHHHHFHHM∇∇L×LCccL LLCCCCΣ与原始的高度场相比，这样一个简单的模型的最终预测会更完整，但也远没有那么准确。这样的网络学习做出明智的预测，但代价是平滑不连续性。因此，我们从渲染的原始数据和网络预测网络的混合中形成我们的最终预测。这种混合是在每个单元的基础上进行调整的，由混合映射Φ进行调制，该混合映射Φ被预测为我们自顶向下网络的第二个输出通道。在训练过程中，我们通过要求网络预测net比raw更接近地面真实的地方来监督Φ。在推理时，我们将Φ设为阈值以使Φ′和使单元格c的最终高度值为Hc=Φ<$cHnet+（1−Φ<$c）Hr aw。（一）特征图当捕获新的图像帧时，我们运行深度和特征提取网络。此新帧的深度原始TSDF体积将转换为原始高度场，该高度场用于收集此新帧的要素。聚合的特征图使用来自新帧的特征进行更新，并通过自顶向下网络与原始高度场一起处理，返回最终高度场。我们在实验中使用固定大小的网格，但对于非常大的网格，场景，V和F可以很容易地动态扩展5. 实验我们在具有挑战性的ScanNetv2数据集上进行训练和评估[8]，该数据集包括1，201个训练，312个有效数据集，c c ction和100个室内场景的测试扫描，我们的实验表明，混合的结果在定性和定量的改善，而不是使用只是原料或自己的网;见表2和图2。4.第一章自上而下的损失我们使用深度估计的标准损失来预测准确和尖锐的高度场。我们只对有效地面真实区域的凸包内的单元格应用自上而下的损失，以避免在训练数据不可靠的区域进行监督。我们的损失就是Mc| Hnet− Hgt|（二）一种手持式RGBD传感器。在测试时，HeightRecon无法访问深度通道，即。我们使用RGBD数据进行训练，使用RGB数据进行评估。5.1. 实现细节我们的深度网络基于[52]，它使用类似于[12，50]的ResNet-18 [15]骨干和解码器，并使用深度监督进行训练。成本体积中的深度在dmin= 0之间线性间隔。1m，dmax= 10m。见网络L高度场=、cMc细节。在训练时，我们使用TSDFV的dimen-尺寸为256×256×50。对于我们所有的实验，其中是二进制掩码，对于地面真实掩码的凸包内的单元，其为1，否则为0。我们还使用梯度匹配损失[23，38]，以提高自顶向下预测的清晰度，因此Lgrad= 0|x（Hnet − Hgt）|+的|Hgy（Hnet −Hgt）|、（3）c∈C其中x和y是2D梯度。我们的混合映射Φ是用二进制交叉熵损失来监督的，L共混物= ΔBCE（Φc，|Hnet − Hgt|<|Hraw −Hgt|）的情况。（四）尺寸为（4cm）3的体素，并且对于我们的TSDF，我们使用τ=20cm的截断参数。我们使用Adam优化器以10- 4RGB训练图像具有与[12]相同的增强远东航空公司的剩余块高度场损失使深度网络保持固定（因此也使特征网络共享的剩余层除非另有说明，我们的网络使用IM-c∈Cc c c c c c cageNet [41]预训练权重以加快收敛速度。我们用射线创建地面实况训练和测试高度场-我们用256 256crops训练，但在测试时，我们使用网络我们的最终损失是=heightfield+grad+blend，我们对四个输出尺度进行平均[12，38]。我们将我们的组合深度和高度场回归模型称为4.5.在线操作对于实时操作，HeightRecon可用于提供3D场景当前估计值的始终在线在联机处理期间，我们在内存中保留三个结构：一组用于深度估计的关键帧特征图、原始TSDF体积和自上而下的聚合使用正射摄影机从上方铸造地面真实网格在推理时，我们将混合映射Φ的阈值设置为0。六、5.2. 评价我们在三个不同的场景中评估HeightRecon，反映了我们对快速，准确重建的需求，适用于AR角色放置和导航：高度场网格质量。我们评估了HeightRecon的高度场衍生网格质量，并使用[30]中的3D指标将其与2D和3D基线进行比较。对于完整的3D方法（例如，[30，48]），我们首先通过从网格上方进行光线投射将其3D输出转换为高度场真实提取器与深度网络共享。为了更快的训练，我们对深度网络进行了预训练。优化时5856LLHH输入示例地面实况HeightRecon（Ours）Atlas NeuralRecon图5. 与完整3D重建的定性比较。我们的重建比NeuralRecon [48]更完整，并且在质量上与Atlas [30]相当，尽管我们只估计2D高度场。示例输入图像显示在左侧。从他们预测的TSDF中获得，或者直接从[3]提供的网格中进行光线投射对于所有方法，在推断时间，我们将删除最小预测高度以上超过1.5 m的任何几何图形。增强现实评估。为了评估HeightRecon在AR环境中的有效性，我们构建了一个评估协议，该协议测量AR的两个重要方面：（1）放置在预测高度场上的3D资产的重新投影误差，以及（2）估计和地面实况高度场导出的导航地图之间的IoU。这在第2节中进行了描述和评估。五点五完整的3D评估和深度重投影指标。在补充材料中，我们使用[3]的完整3D网格评估以及它们的深度重投影度量来评估我们的HeightRecon方法。5.3. 与2D和3D基线的我们比较了三种最新的3D推理方法：Atlas [30]、NeuralRecon [48]和Trans-formerFusion [3]。它们都使用3D卷积，而且不是实时的。我们还比较了像我们一样使用2D自顶向下表示的方法[35，40，5]。这些都是为语义分割而设计的，而不是高度场，所以我们使用他们的方法从相机空间投影到自上而下的空间，但使用我们的自上而下的网络预测高度，使用高度场+梯度训练。我们在补充材料中详细说明了我们如何实施这些基线。高度场网格质量预测结果见表1对比度↓加速度↓精确度↑召回率↑F1↑非实时方法电话：+86-056-060-767-735-750[48]2019- 05-28 00：00：00TransformerFusion [3].041.062.748.695.720实时方法原始TSDF（原始）HeightRecon（我们的）.0520.057点六八四点六七七.680口径表1. 高度场网格的重建评价。我们优于其他实时基线，并与非实时全3D方法的竞争力参见第5.3有关详细信息结果表明，我们的方法优于其他2D自顶向下的方法，并与更昂贵的方法，做全三维推理的竞争力。我们还将其与原始TSDF进行比较，在此评估中，TSDF被转换为高度字段，因此对应于原始TSDF，这是我们自顶向下网络的输入之一。HeightRecon在此基线上进行了改进，证明了我们自上而下的网络在细化嘈杂和不完整的原始TSDF 方面的价值。定性结果见图。5 显示HeightRecon产生类似的结果，有时甚至优于昂贵的3D基线。[35]第三十五话.137.193.243.232.237OFT单曲[40].111.183.357.340.348OFT multi [40].085.118.453.446.450Mapnet [5].091.105.478.471.474Mapnet [5] +H原始.093.065.106.066.481.604.475.592.478.59858570864iPhone 12iPhoneX2台iPhone70AtlasNeural ReconHeightRecon（Ours）FVVH 净1原对比↓加速度↓前↑召回↑F1↑058.072.637.622.629Ours w/oH065.071.611.606.6090 10 203040 50 60 70我们的w/o.070.084.531.520.526我们的w/o.069.079.544.539.541高度Recon.052.057.684.677.680DVMVS [10].051.062.680.657.668HeightRecon（DVMVS深度）.049.053.720.718.719表2. 我们的贡献带来了更好的结果，正如我们的“高度场网格质量”任务所评估的那样关闭我们的每一个贡献反过来又会降低性能;参见第二节。5.4有关详细信息在底部部分，我们表明，更好的深度（例如，这里从场景尺寸（m2）平均值（MB）最大（MB）最小值（MB）电话：+86-321 - 10900 896[48] 2077 4184 910HeightRecon（我们的）475 724 386图6. 我们的内存使用率明显低于全3D方法。（顶部）每个点代表一个ScanNetV2测试场景。x轴是场景的大小，单位为m2，由地面实况体积中的已占用2D单元测量。水平线表示某些流行移动设备的最大可用内存然而，内存分配是由操作系统决定的，一些内存也将保留给应用程序逻辑。（下图）ScanNetv2测试集上的内存使用情况（以MB为单位）。5.4. 消融我们通过在表2中打开和关闭它们来验证我们的贡献。我们注意到，我们的完整HeightRecon方法的性能优于以下所有变体：net：高度场直接由我们的网络回归，没有我们学习的混合。我们的w/oHraw：HeightRecon，但自上而下的网络只能访问F而不能访问Hraw。我们的w/oF：HeightRecon，但自上而下的网络只能访问Hraw，而不能访问F。我们的w/o：HeightRecon，没有原始TSDF步骤，其中原始高度场直接从投影到自上而下空间的深度计算。深度估计的效果。我们还在表2中报告了HeightRecon在使用通过计算成本更高的DVMVS [10]获得的深度图时的性能。在这个实验中，我们没有重新训练自上而下的模型，而是使用不同的深度图作为输入来评估我们的模型。当使用这些更高质量的深度图时，我们的性能得到了提高，但代价是增加了计算时间（图11）。（八）。更重要的是，我们的自顶向下网络仍然导致使用[10]计算的TSDF网格的改进有关使用单目网络深度和地面实况传感器深度的进一步评估，请参阅补充材料。5.5. 增强现实式评估HeightRecon能够在AR风格的应用程序中实时预测3D重建。我们分两步评估DVMVS）可以增加分数，即使没有重新训练我们的模型。的方式首先，我们模拟3D对象在我们重建的3D场景中的放置，并量化重新投影的可见对象掩模与在地面真实3D重建中放置相同对象所产生的掩模的匹配程度。该指标考虑了放置的质量以及遮挡。对于每第十帧，我们在地面实况网格上随机选择一个有效的自上而下的位置，在那里放置一个长方体，并在预测网格中的相同位置放置一个长方体。在图像空间中测量性能，使用来自估计重建的长方体的重新投影的视觉掩模与地面实况重新投影之间的2D IoU，考虑场景遮挡物。我们将此称为渲染IoU。其次，我们通过比较滑动窗口中附近单元格的高度，将预测的高度场转换为AR导航地图然后，我们计算地面实况导航地图和预测导航地图之间的2D IoU;我们称之为安置IoU。该方案的完整详细信息见补充材料。在图8中，我们观察到HeightRecon大大改善了原始TSDF，并且接近3D推理方法，同时仅需要一小部分计算资源。此外，图7显示HeightRecon的导航地图比原始TSDF更完整且无噪声，非常接近计算成本更高的Atlas的质量[30]。5.6. 运行时间效率图6显示了与全3D深度重建方法相比，我们的2½DHeightRe- con使用的内存少了多少Atlas [30]具有最高的峰值内存使用，因为它需要一个完整的3D特征网格跨越整个场景大小。NeuralRecon [48]计算片段中的体素重建，这节省了内存。然而，我们的2D特征图和轻量级2D卷积意味着我们的是三者中最高效的。请参阅补充资料了解我们如何计算内存。对于实时应用，我们需要在新帧进入时快速更新虽然一些3D基线花费几百毫秒来整合新的RGB帧并产生更新的3D重建，但在一些实施例中，内存使用（GB）H5858示例RGB地面实况原始TSDFX字符卡在隔离区域X 高度不准确AtlasY 准确的高度，但是X 更新慢HeightRecon（我们的）Y 角色可以探索整个空间Y准确、实时的高度图7. Heightfields允许可用的字符放置和导航。（顶部）蓝色的导航网格是从3D重建中计算出来的。原始的TSDF是嘈杂和不完整的，因此角色无法探索整个房间。Atlas [30]是高质量的，但不适合实时使用。我们的Heightfields可以实时预测，它们允许良好的导航和放置，包括恢复地面实况中缺失的可步行区域。（下）我们的预测使AR角色导航成为可能。非实时方法渲染放置IoU↑IoU↑时间↓1080Ti），并且因此可以以低存储器开销实时运行也参见图1表示更新时间与ac-阿特拉斯[30][48] 2016年12月28日TransformerFusion [3] 0.872 0.678304实时方法原始TSDF0.7990.62820DVMVS [10]0.8170.62140∗HeightRecon（我们的）0.8380.72733HeightRecon（DVMVS深度）0.8660.74053地面实况渲染我们的渲染图8. HeightRecon允许准确的AR对象放置和实时渲染我们评估增强对象渲染和放置的质量，在 2D IoU 方面，ScanNetv2。底部是一个示例评估渲染。参见第5.5有关详细信息我们还显示了在NVIDIA GTX 1080 Ti上运行的每次更新所花费的时间（以毫秒为单位）;标有 * 的时间估计取自原始论文。参见第5.6从图8中我们可以看出，HeightRecon的速度很快（在NVIDIA GTX上进行更新后的3D重建需要33毫秒，每秒30帧精确度，表明我们比竞争对手的实时方法更准确在补充材料中，我们包括一个视频，展示了使用我们的方法进行在线重建。6. 结论本文提出了一种新的从一系列彩色图像中预测高度场的方法HeightRecon。我们与多个基线进行了比较，结果表明，我们在自上而下空间中的预测优于所有基线，包括我们的AR角色放置和渲染的目标应用。我们产生的结果与全3D方法相当，但运行在内存和计算的一小部分，使实时交互式应用程序。局限性。根据定义，高度场无法重建物体（如桌子）或悬垂结构（如橱柜或壁灯）的底面。这可能会使用层表示（例如，[49，45]），但我们把这个留给未来的工作。我们还受到训练数据多样性的限制。Scan-Net [8]主要包括西式住宅，因此HeightRecon在其他环境中可能表现不佳。5859引用[1] Apple：ARKit，https://developer.apple.com/documentation/arkit ，访问日期：2022年7月12日[2] Badino，H.，弗兰克，美国，Pfeiffer，D.： stixel的世界- 一个紧凑的中等水平的三维世界的表现。在：联合模式识别研讨会（2009）[3] Bo zi c，A.， Palafox，P.，Thies，J. Dai，A.，Nießner，M.：Transformerfusion：单目RGB场景重建使用变压器。在：NeurIPS（2021）[4] Brahmbhatt ， S. ，顾， J. ， Kim K Hays ， J. ，Kautz，J.：用于相机局部化的地图的几何感知学习。来源：CVPR（2018）[5] Cartillier，V.，Ren，Z.，Jain，N. Lee，S.，埃萨岛Ba- tra，D.：语义地图网：从自我中心的观点构建以自我为中心的语义地图和表示在：AAAI（2021）[6] Choe ， J. ， Im ， S. ，拉莫， F. ， Kang ， M. ，Kweon，I.S.：VolumeFusion：用于3D场景重建的深度融合In：ICCV（2021）[7] Curless，B.，Levoy，M.：从距离图像建立复杂模型的体积法。计算机图形学和交互技术（1996年）[8] Dai，A.，Chang，A.X.，Savva，M.，Halber，M.，Funkhouser，T.，Nießner，M.：ScanNet：室内场景的丰富注释的 3D 重建。在： CVPR（2017）[9] De Gregorio，D.，Di Stefano，L.：SkiMap：一个用于机器人导航的高效地图框架。In：ICRA（2017）[10] Duzceker，A.，Galliani，S.，沃格尔角Speciale，P. ， Dusmanu ， M. ， Pollefeys ， M. ：DeepVideoMVS：视频上的多视图立体声，具有周期性时空融合。在：CVPR（2021）[11] Gallup ， D. ， Frahm ， J.M. ， Pollefeys ， M. ，Zuerich，E.：一个高度图模型，用于从街道级视频进行高效的3D重建03 The Dog（2010）[12] 戈达尔角 Mac Aodha ， O. ， Firman ， M. ，Brostow，G.J.：深入研究自我监督的单目深度估计。在：ICCV（2019）[13] Google ： ARCore ， https ： //developers.google.com/ar，访问日期：2022年7月12日5860[14] Han-ne ， C. ， Zach ， C. ， Lim ， J.Rang ganathan，A.，波勒-费斯，M.：机器人导航的立体深度图融合。03 The Dog（2011）[15] 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）[16] Henriques，J.F.，Vedaldi，A.：MapNet：一个用于地图环境的非中心空间存储器。来源：CVPR（2018）[17] Ikehata，S.，杨，H.，Furukawa，Y.：结构化室内建模。In：ICCV（2015）[18] Im，S.，Jeon，H.G.，林，S.，Kweon，I.S.：DPSNet：端到端深度平面扫描立体声。In：ICLR（2019）[19] Kendall，A.，Martirosyan，H.，Dasgupta，S.，Henry，P.肯尼迪河Bachrach，A.，Bry，A.：端到端学习几何和背景，用于深度立体回归。In：ICCV（2017）[20] 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。arXiv：1412.6980（2014）[21] 库斯特勒湖，Yang，N.，Zeller，N.，Cremers，D.：Tan- dem：使用深度多视图立体实时跟踪和密集映射。在：CoRL（2021）[22] 克鲁日洛夫岛罗曼诺夫，M.，Babichev，D.，Konushin，A.：房间布局估计的双精化网络。在：ACCV（2019）[23] Li，Z.，Snavely，N.：Megadepth：从互联网照片中学习单视图深度预测来源：CVPR（2018）[24] Lin，C. Li，C.，Wang，W.：平面图-拼图：联合估计场景布局和对齐部分扫描。在：ICCV（2019）[25] 刘，C.，吴，J.，Furukawa，Y.： FloorNet：一个统一的框架，用于从3D扫描重建平面图。In：ECCV（2018）[26] 刘，C.，Schwing，A.G.，Kundu，K.，Urtasun河菲德勒：Rent3D：用于单眼布局估计的平面图先验。参见：CVPR（2015）[27] Mani，K.，Daga，S.，Garg，S.，Narasimhan，S.S. ， Krishna ， M. ， Jatavallabhula ， K.M. ：MonoLayout：单个图像的非模态场景布局。在：WACV（2020）[28] Mou，L.，Zhu，X.X.： Im 2 height：通过完全残差卷积-解卷积网络从单目图像进行高度估计。1802.10249（2018）5861[29] 穆拉角，帕哈罗拉河辛德勒，K.，Mitra，N.：Walk2Map：从室内步行轨迹中提取楼层平面图。在：计算机图形论坛（2021）[30] Murez，Z.，van A，T.，Bartolozzi，J.，辛哈，A.，巴德里-纳拉亚南，五，Rabinovich，A.：Atlas：端到端3D场景重建。在：ECCV（2020）[31] Newcombe，R.A.，Izadi，S.，Hilliges，O.：运动融合：实时密集表面映射和跟踪。在：UIST（2011）[32] Oda，O.，Lister，L.J.，White，S.，Feiner，S.：开发一款增强现实赛车游戏。在：智能技术为互动娱乐（2008）[33] 彭，S. ，Niemeyer， M.，梅谢德湖 Pollefeys ，M.，Geiger，A.：卷积占有网络。在：ECCV（2020）[34] Phalak，A.，陈志，Yi，D.，古普塔，K.，巴德里-纳拉亚南，五，Rabinovich，A.：深度周长：基于单目序列的室内边界估计 . 1904.11595（2019）

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于学习的高度场改进的AR场景重建方法

非AR场景切换到AR场景

怎么运用GPS和虚幻引擎制作AR场景定位

为unity中hololens2的默认相机写一个脚本，对空旷房间地面进行识别，开启ar后自动将ar场景放置在地面上并将长宽拉伸至真实的20m，同时固定住ar场景，这样人就可以四处移动查看ar场景的每个部分

如何在ar场景中拖拽物体移动

利用ARFoundation制作AR项目教程

运用虚幻开发一个大场景的AR实现效果需要什么程序

具体描述AR社交平台聊天交友场景

AR模型怎么改进与推广

基于数字图像处理的AR技术

AR 阴影URP shader

具体描述数字化街区AR平台的AR安全服务功能

怎样通过电脑创建一个可在安卓上交互的ar程序

uniapp3d场景漫游

时间序列预测AR模型怎么改进

时间序列预测ar模型怎么改进

unity实现ar导览

aframe-ar-nft.js

unity arfoundation 点云

写一篇发明专利，一种基于AR虚拟人的智能座舱控制方法及系统

最新资源