神经辐射场扫描和渲染基准平台

103 浏览量更新于2023-10-16 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8161. 扫描对象（约5分钟）2. 火车（约1分钟）3. 渲染高质量的新颖视图ScanNeRF：一个可扩展的神经辐射场基准Luca De Luigi2米兰 Damiano Bolognini1米兰FedericoDomeniconi1米兰 Daniele De Gregorio1米兰 Matteo Poggi2米兰Luigi Di Stefano1，22博洛尼亚大学（University of BolognaEyecan.ai项目页面：https://eyecan-ai.github.io/scannerf/图1. ScanNeRF框架概述。我们的扫描站（左）可以在几分钟内收集数千张物体的图像。然后，现代NeRF变体[39，2，28]可以在几分钟内对其进行训练（中），产生对象本身的数字孪生模型，并允许高质量，新颖的视图合成（右）。摘要在本文中，我们提出了有史以来第一个真正的基准思想，用于评估神经辐射场（NeRFs）和神经渲染（NR）框架。我们设计并实现了一个有效的流水线扫描真实物体的数量和毫不费力。我们的扫描站的硬件预算不到500美元，可以在5分钟内收集大约4000张扫描对象的图像。这样的平台用于构建ScanNeRF，该数据集由几个训练/验证/测试分割表征，旨在对不同条件下现代NeRF方法的性能进行基准测试。因此，我们评估了三个尖端的NeRF变体，以突出它们的优点和缺点.该数据集可在我们的项目页面上找到，同时还有一个在线基准，以促进越来越好的NeRF的开发。1. 介绍什么是Metaverse？斯蒂芬森在他的小说《雪崩》中创造了这个组合词，假设在21世纪，由于护目镜，人类将沉浸在与真实世界混合的虚拟世界中。我们到了！在共同第一作者然而，当时实现虚拟宇宙的技术仍然是假设，但今天交叉现实（XR或扩展现实）是一个事实。 XR是由众多技术和变体，如虚拟现实和增强现实，但它们都有一个共同的范式：虚拟环境、数字对象和人之间的无缝交互。这就是元世界！但它还不存在，所有数字化的东西往往只是现实世界的虚拟表现。那么，将我们所有的现实世界转移到虚拟世界要花多少钱呢？对于计算机视觉和计算机图形学专家来说，将对象从现实世界传输到虚拟世界意味着什么是显而易见的：三维重建！但3D重建昂贵、缓慢，而且并非所有类型的物体都可以数字化。然而今天，由于深度学习，我们有了另一种将对象传送到元宇宙的方法：神经渲染[41]。基本思路很简单：如果我们必须将一个物体渲染回2D以让VR / AR观看者看到它，为什么要在3D中重建它呢？神经渲染（NR）允许我们要求神经网络“从这个视点渲染这个对象”，等等。更重要的是，一些最先进的NR方法神经辐射场（NeRFs）[26]在本文中，我们将重点关注一个关键方面：栅极817到超时空我们已经建立了一个有效的对象扫描站，称为ScanNeRF，它允许生成即用型数据来训练和评估最先进的神经辐射场技术。使用这种高效且简单的扫描系统，我们生成了第一个真实的数据集，其中包含高质量图像、像素掩蔽对象、受控和可重复的相机姿势，专门用于评估NeRF。首先，这使我们能够实现神经渲染领域研究的基准。其次，它能够正式描述哪些视图和多少视图最适合生成对象的虚拟表示，以及揭示未来的一些有趣的挑战– 例如，在一个实施例中，如何从任何视点完全渲染一个对象，给定的图像主要是从它的单面收集的。据我们所知，我们的工作是第一个表明，用一个简单的硬件，由乐高制成，和一个低预算我们的贡献如下：• 我们提出了一个简单而有效的平台，用于收集成千上万的图像来训练NeRFs，或者一般来说，NR框架。• 我们发布了一个新的基准，ScanNeRF，具有数千个图像描绘收集的真实对象，在面向内的设置。• 对于基准测试中的每个对象，我们定义了多个训练/验证/测试分割，以研究不同的属性并强调NeRF变体的性能。此外，我们还评估了三种现代NeRF在这些分裂上的表现，以突出它们在不同实验环境下的优势和劣势图1呈现了我们的ScanNeRF框架的概述。在扫描对象上安装NeRF会产生它的摘要，准备好被传送到Metaverse中。实际上，这种表示与经典的数字双胞胎非常不同，这确实是一个神经双胞胎。2. 相关工作我们回顾了神经辐射场1的文献，代表了我们工作中最相关的主题。神经辐射场。NeRF [26]代表了当今最流行的新颖视图合成范例，迅速征服了利用CNN的显式方法的主要阶段[51，10，25，38，19，43，22，36，14]。佩-NeRF是一种由多层感知器（MLP）编码的1NeRF论文的精选列表在github.com/yenchenlin/awesome-NeRF上不断更新与诸如体素网格的离散表示相反或多平面图像-这使得能够检索查询的3D点的颜色和密度，并通过可区分的光线投射来渲染图像。Vanilla NeRF已经迅速扩展到处理不同的设置，例如，重光[37，50，4]，变形剂[30，42，11，29，31]，dy-动态场景[23，32，18，46，12]，多分辨率图像[3]或实现生成模型[35，5，17]。尽管合成视图具有优雅的公式和令人印象深刻的质量，但原始NeRF仍存在一些明显的局限性，例如，特别是漫长的训练过程-在其第一次实现中只有几天[ 26 ]-以及要求对任何新场景从头开始执行独立训练和缓慢的更快的训练。加快训练过程是在实际应用中部署NeRF所要突破的主要障碍，因为它将软化要求特定场景训练的限制。文献中提出的主要方法依赖于预训练阶段[49，7，6，44]，部署通过多视图立体（MVS）方法估计的附加深度信息[21，9]，使用神经射线[21]，利用显式表示[2]或将它们与隐式表示[39，28]相结合。更快的渲染。实现实时渲染对于改善最终用户体验是非常期望的，这可能允许给定对象的新颖视点的交互式可视化最近的工作利用八叉树结构[20]来避免空空间中的冗余MLP查询，将单个MLP拆分为数千个小MLP [33]或利用显式体积表示[45，48，13，15]。下一代NeRF。在写这篇文章的时候，一些最近的作品在训练和推理速度方面都很突出。DirectVoxGo（DVGO）[39]结合了隐式和显式表示，使用体素网格与轻MLP。Plenoxels [2]摆脱了MLP，直接优化体素网格上的颜色。即时神经图形基元（Instant-NGP）[28]利用哈希表和优化的MLP实现。这些框架中的任何一个都可以在不到10分钟的时间内轻松训练，并且可以实现良好的渲染速度，而不会明显降低渲染质量。出于这些原因，我们将训练DirectVoxGo，Plenoxels和Instant-NGP作为我们新的ScanNeRF基准中评估的基线，因为我们认为该领域的未来发展将遵循这一方向。数据集。NeRF和后续实现通常在属于两种采集设置（即面向前和面向内）的几个已建立的基准上进行评估。最流行的基准是NeRF blender [26]，由8个合成面向内的场景组成，包含100个训练图像和200个测试图像，以及LLFF [25]，由8个面向前的场景组成，约30个图像。818在将x馈送到MLP（pos）之前，通过基于傅立叶特征的位置编码将3D坐标投影到高维空间中[40]，这使得能够学习更准确地表示基础函数的高频。表1. 数据集之间的比较。我们报告现有数据集和ScanNeRF基准的属性。年龄各最近， MVS 数据集，如 DTU [1] ， TanksTemples [16]和BlendedMVG [47]已用于此目的，还有一些数据集，如CO3D [34]和ScanNet [8]，通过非常耗时的搜索收集。γ（x）=（sin（20πx），cos（20πx），.，sin（2 L−1πx），cos（2L−1πx））。（三）为了渲染图像，即，为了得到n ypixelp的颜色C n（p），从照相机中心通过像素p的光线r被投射通过3D空间。然后，根据最佳的像素颜色，通过体绘制获得像素颜色C_（p）。Max的校准模型[24]：∫tf我们认为，上述基准限制了NeRF变体在不同方面的评估，因为C（p）=T（t）σ（r（t））c（r（t），t）dttn∫（四）i）其中一些[26，25，1]仅提供几百个图像，ii）它们都不允许无缝缩放.T（t）=exp−tΣσ（r（s））dstn训练图像的数量或它们在场景上的分布以及iii）没有明确定义测试集-即，评估是在研究人员可获得的图像上进行的，这可能导致有偏见的结果。本文在分析了现有文献的基础上，其中T（t）是沿着光线t从近平面tn到任何特定点t的累积透射率。这种积分的值是通过沿射线采样N相反，我们实现了一个框架，大量场景的数据采集。对于其中的每一个，我们明确定义了一个测试集，由只有相机姿势公开的帧组成，而IMC（r）=.ΣKi=1ΣTi αi ci +TK+1cbg，年龄被扣留，以避免不公平的评价。这为建立下一代神经辐射场和相关技术的研究基准铺平选项卡. 1显示了现有数据集之间的比较之前介绍的和建议的ScanNeRF标记。αi= alpha（σi，δi）= 1−exp（−σi δi），Y−1Ti=（1−αj），j=1（五）3. 神经辐射场的背景神经辐射场（NeRF）[26]将3D场景编码为隐式表示，即，- 将任何空间位置x和观看方向d对映射到密度σ和视图相关的颜色发射c的函数F0：其中αi是在点i处终止的概率，δi是到相邻采样点的距离，并且cbg是预定义的背景颜色。给定一组具有已知相机姿态的训练图像，通过最小化光度测量来训练NeRF模型训练图像中的像素颜色C（r）与渲染颜色C（r）之间的MSE：1Σ¨ ¨2F0：（x，d）→（c，σ）.（一）L=-C（r）-C（r）-、（6）这样的隐式映射是通过一个多层次的每-照片|R|¨ ¨r∈R2ceptron（MLP）。具体地，中间MLP（pos）在中间嵌入e旁边表示密度σ，由较浅的MLP（rgb）与观看方向d一起使用以预测颜色：数据集类型#场景总数每个场景的列车分流测试拆分保留图像[26]第二十六话Synth.830011没有[47]第四十七话Synth.508200-4 000NANA没有[25]第二十五话房83011没有[1]房12449-64NANA没有CO3D [34]房18 61910022是2ScanNet [8]房1613500-5 000NANA没有坦克圣殿[16]房144 000-20 000NANA没有ScanNeRF（我们的）房354 000129是的819（σ，e）= MLP（pos）（x），（二）c= MLP（rgb）（e，d）。2在数据集的第二个版本中增加了对保留图像进行评估的可能性，与我们的工作同时发布。R与一组射线在一个批次中。4. ScanNeRF基准测试在本节中，我们将介绍ScanNeRF框架的硬件和软件组件。我们首先介绍了我们的采集平台，然后我们描述了后处理步骤，以选择最终的图像和用于提取对象的掩蔽策略。最后，我们强调了生产数据集的整体组织。820图2. 扫描站。我们平台的正面和侧面视图，旋转角度用红色覆盖。4.1. 扫描站设置我们用于生成数据集的扫描站（见图2）已使用Lego Mindstorm工具包（代码51515）3构建，并安装OpenCV Oak-D Lite摄像头4以收集图像。该系统是由一个旋转的基础上，在扫描过程中放置的对象，和一个机器人手臂举行的基础上的相机。采集在灯箱内进行，以尽量减少阴影造成的影响。底座和臂固定在共享结构，后者相对于基座放置在更高的水平上，以便允许完全捕获高物体。手臂是用两个乐高马达（id：6299646）5串联连接到齿轮箱，齿轮箱保持臂。我们使用两个电机和一个变速箱来部署更多的机械扭矩，因为手臂和相机对于单个电机来说太重了。底座由一个单独的额外乐高电机驱动，上面固定有一个ChArUco板，用于计算每个采集图像的相机姿态。这是通过基于ChArUco标记和使用OpenCV库6提供的功能实现的标准算法校准相机的内在和外在参数来实现的。为了从均匀分布在要扫描的对象周围的半球上的姿态获取图像，臂从其垂直位于基座上方的初始位置（天顶角为1.20 °）下降到其最终位置，相对于底座水平（天顶角<75°），总共执行十六个步骤。每下降一步，臂电机停止以保持该位置，同时基座执行两个完整的旋转（720°），以确保3https://www.lego.com/product/机器人发明家-515154https://docs.luxonis.com/projects/hardware/en/latest/pages/DM9095.html5https://www.lego.com/en-us/product/中角电机-880186https://docs.opencv.org/3.4/da/d13/tutorial_aruco_calibration.html图3. 过滤步骤。对于任何收集的图像，我们显示相对于前一个（左）的方位角差异我们将收集到的图像分为过滤后的（蓝色）和剩余的（橙色）。密集的收购。在整个过程中，OAKD-Lite相机以30FPS的频率和1440×1080的分辨率记录图像。该扫描站已编程在Python中使用的API的乐高头脑风暴桌面应用程序，并通过蓝牙连接控制。结合臂和旋转台提供的两个自由度，能够以非常低的努力收集扫描对象周围的图像，以及以低于500美元的硬件预算实现我们的扫描站。4.2. 数据集过滤在一个完整的扫描周期后，我们获得了大约9000张图像。由于图像是在整个循环中获取的，因此其中一些图像是在臂下降期间捕获的，即，朝向下面的天顶角的步骤这导致扫描站的强烈的、不期望的振荡，从而采集模糊或偏离主轨迹的若干图像第一清洁步骤包括去除这样的图像，仅保留当臂不移动而基座旋转时获得的图像。我们观察到，可以通过计算每个图像中的相机姿态的方位角并检测随后的图像之间的角度增加的间隔来检测基座的旋转。因此，我们丢弃每个图像，其方位角与前一个相差小于固定阈值（设置为1.15°）。图3示出了在整个扫描周期中过滤（蓝色）和保留（橙色）的图像。我们可以注意到，选择具有较小方位角差异的采集（左）如何有效地移除在手臂下降期间收集的图像（右）。4.3. 背景遮罩在我们的流水线中，我们通过适当移动扫描站臂和旋转放置物体的底座来实现相机围绕物体的运动。这个过程有一个主要的副作用：背景是821渲染alpha原始图像计算掩模掩蔽图像火车1000火车500火车250火车100图 4. 掩蔽程序。我们通过将渲染边界框放置在ChArUco板上来训练Instant-NGP [28]，以便去除背景并获得要应用于真实图像的掩模与计算的照相机姿态不一致，因为它在图像获取期间保持静止。出于这个原因有目的地，我们利用神经渲染框架。首先，我们在获取的图像上训练Instant-NGP [28]，其中包括背景。然后，我们使用Instant-NGP从与原始图像相同的姿势渲染新图像，定义渲染体积以适应ChArUco标记尺寸，以便裁剪出不连贯的背景（图2）。4，左上）。特别是，将渲染体积放置在扫描站基座上方，在Z轴上有一个小的偏移，以便从渲染图像中删除ChArUco标记。这使我们能够获得在黑色背景上呈现对象的渲染图像。然后，我们基于alpha值（即，密度）的像素（图。 4，左下角），以产生所需的面具（图。4，右下角）。这些掩模应用于原始图像，以去除背景和扫描站底座，在我们的扫描站提供的最终图像中只留下物体（图中最右侧的图片）。4）.4.4. 数据集组织和拆分一旦不需要的帧已被删除，其余的已被适当地屏蔽，以消除背景和扫描站，我们首先将每个采集的序列分为三个宏分裂，即训练，Val和测试，使它们分别包含1000，500和500图像。我们将公开发布Train和Val拆分，同时我们将保持测试拆分的私密性，以便对其他研究人员愿意上传到我们将在接受本文的情况下推出对于每次分割，我们通过应用 Faradian PointSampling算法[27]从物体上方半球上均匀分散的位置获取图像，图5. 数据集拆分概述。在第一行上，均匀采样的分割具有不同的密度。在第二和第三行，八个子分裂密集本地化的收购。点根据Z坐标着色，以便更好地可视化其3D位置。拍摄图像的3D位置从训练宏分割的1000个图像中，我们采样了3个较小的训练分割，包含500、250和100个图像，从整个半球均匀捕获，如图5第一行所这些额外的训练分割旨在比较NeRF算法在不同图像数量的分割上训练时的性能。此外，每个训练/验证/测试宏分割用于获得八个额外的子分割，每个子分割包含在特定区域中更密集地获取的图像，并且仅包含从分散在整个半球的位置获取的图像的一小部分（图10）。5，第二和第三行）。具体来说，我们首先将半球分成八个子区域，通过将X 、 Y 和 Z 轴的每个范围一分为二。然后，从1000/500/500采样子分裂训练 / 验证 / 测试图像，通过保留从子区域（120/60/60，具有取决于所选区域的小波动）中的视点收集的所有图像，与从半球的剩余部分（180/40/40）随机采样的10%附加帧一起。我们设计了这些子分裂，以调查不同NeRF建议的性能，当训练集的特点是有利位置的空间分布不均匀时，从而促进未来在这个方向上的研究。4.5. 扫描时间和对象数量到目前为止，绘制的管道允许轻松扫描大量对象。具体而言，整个采集周期需要大约5分钟来采集大约9000张图像，在过滤步骤二进制化列车分段0列车分段1列车分段2列车分段3列车分段4列车分段5列车分段6列车分段78221000个训练图像500个训练图像250个训练图像100个训练图像场景DVGO*普莱诺塞尔即时NGPDVGO*普莱诺塞尔即时NGPDVGO*普莱诺塞尔即时NGPDVGO*普莱诺塞尔即时NGP飞机138.9034.5937.1438.9733.4936.4038.4127.4437.5736.6922.8137.30飞机239.8235.2137.8639.8533.6938.3839.4627.2137.6137.6023.3637.44雷龙41.5634.7439.9541.4630.1839.9940.7624.6739.9338.6220.4339.96推土机135.8432.0534.9935.9529.7834.7235.7023.6834.9034.0519.3434.72推土机239.1634.2138.1238.9634.3337.6537.9632.4538.3036.1226.4038.09猎豹37.8633.3535.6837.8732.4735.2437.6429.5421.8236.0923.4935.59垃圾车137.9333.9036.6137.9332.4136.7837.4427.1436.6035.6322.0136.65垃圾车241.3435.4539.9641.0134.1639.4440.0030.2038.8238.0125.5739.93大象38.6232.1136.4938.6525.1036.2138.2521.0434.6536.4218.0636.01挖掘机40.8735.2338.6540.6535.3339.5939.8233.7438.4837.8326.9039.77叉车37.9532.9937.8237.7133.0938.2236.6332.1337.6834.5925.8737.80长颈鹿36.6732.3834.4236.7231.2534.5436.4526.6134.6534.7821.9734.26直升机139.7735.5237.7139.7333.3536.8439.2927.5537.5737.5622.8136.98直升机238.0533.6836.4638.1132.3036.9337.6626.9636.6935.9721.6736.43乐高34.5230.4233.9234.5826.3233.7934.3322.1533.8832.7819.4433.79狮子39.1633.5038.2139.1626.4138.2438.7322.2037.4736.8919.3334.91工厂140.3134.4137.2140.3428.2937.2339.7222.7237.4237.4419.9937.03工厂242.1936.6138.8642.1834.0738.9841.4227.3838.3839.3523.0127.53工厂333.6329.3333.8133.5824.1734.0833.1120.4934.2130.4718.4633.18工厂438.0832.9436.4337.9729.1536.5537.7125.5136.9735.8622.1536.79工厂539.1034.3038.1139.0628.0236.6438.4824.0137.1836.2820.7937.99工厂636.7630.8734.2536.8425.3035.1936.4621.1235.1534.5119.1335.05工厂737.1531.8735.5737.1626.5535.4336.6420.6235.5034.8518.9835.36工厂839.0433.4736.6839.0428.1336.7438.4622.0636.6136.3619.9336.34工厂940.0533.7937.5240.0727.4437.3939.3622.0337.4437.4219.5737.51压路机39.9634.6639.1839.6234.5939.6638.8433.4638.9436.6127.2839.37鲨鱼39.9532.8838.3339.8825.3138.4439.2519.9838.1537.0017.7838.28棘龙40.8634.9639.3140.8832.7339.0940.4425.8139.3238.7121.7439.21剑龙39.0733.8938.6039.2529.3237.9638.8225.2238.3637.3722.4738.52老虎37.6732.8736.4137.2630.2036.3837.3624.6536.3935.4620.4435.95拖拉机34.0230.5533.5134.1028.6733.8833.8723.3433.3132.4219.3233.73Trex37.9732.9937.8238.1129.1237.9137.7422.4637.4935.7018.8838.03三角龙41.5635.8939.3141.5232.5040.0440.9725.9139.7439.1922.6939.80卡车37.7033.6736.3637.6832.8036.6437.3027.5336.6635.6722.4436.50斑马35.0630.3233.4935.1030.3233.3234.8429.7133.1233.6326.3933.12平均38.52 33.42 36.99 38.48 30.30 36.99 37.98 25.68 36.48 36.11 21.74 36.54表2. 均匀分布图像的结果。我们报告了35个扫描对象的测试分割的PSNR结果，当使用不同数量的图像（从左到右分别为1000，500，250和100）进行训练时。* 表示由于内存限制，DVGO已使用半分辨率图像进行了训练和测试。在第4.2节中描述。在撰写本文时，Scan-NeRF数据集统计了35个真实对象，我们评估了现代NeRF框架的性能，如下一节所述。此外，我们计划将我们的数据集扩展到数百（甚至数千！）并通过基准网站分发相关的Train/Val拆分，如果接受，该网站将上线。5. 实验在本节中，我们在我们的新ScanNeRF数据集上进行实验。具体来说，我们在我们设计的分割上运行了三个现代高效的NeRF框架[39，2，28]，以便研究它们在改变训练图像的密度和数量时的表现，以及它们在仅从扫描对象周围的特定区域密集采集图像时的表现。5.1. 评价的框架和背景本文简要介绍了实验所涉及的方法我们之所以选择这三个模型进行评估，是因为它们在训练和渲染时的速度都很在我们看来，这样的效率使得这些方法为该领域未来的发展做出突出贡献。DVGO [39]. 该框架混合了通过MLP学习的隐式表示与显式表示-即，体素网格-用于建模密度和外观。这允许在大约15分钟内训练NeRF。Plenoxels [2]. 该方法直接优化体素网格，不需要任何神经网络。球面谐波用于对视图相关RGB值进行建模。单个场景的训练时间大约需要10分钟。即时NGP [28]. 该框架部署了一个可训练特征向量的多分辨率哈希表，允许使用小得多的神经网络并实现更快的收敛。对于一次训练，大约1分钟就足以达到高质量的渲染。培训设置。对于每种方法，我们使用作者发布的官方代码运行实验，在训练期间保持源代码中定义的相同默认超参数，除了i）对于Instant-NGP，我们将训练步骤的量从100 K减少到10 K，而不会损失任何最终渲染质量，以及ii）对于DVGO，在这里，我们训练和渲染半分辨率图像，以满足内存限制。在我们的评估中，我们为每个模型训练了420个实例（140个用于均匀分布的AC）。823测试拆分列车拆分01234567039.0736.5436.4535.8136.5135.7636.6735.97137.1438.3636.0335.4936.0435.5736.2835.57236.7436.0138.9136.3736.2235.6436.8636.00336.3335.7536.9138.2635.8735.3136.4135.74436.7735.9536.1535.6538.7836.3436.8336.07536.2635.6835.7235.2336.9838.0936.4635.83636.5835.9636.4235.7236.5735.8539.2036.58736.2235.6136.0435.5636.1535.5637.2638.43DVGO*测试拆分列车拆分01234567031.0524.7424.6822.3724.9122.5524.4622.27127.9730.1024.6223.1524.8523.6024.3322.45225.1022.6231.3725.0124.0221.8625.4722.67324.8123.3228.0930.1723.5021.7224.8523.30425.1622.5624.0922.0031.1725.2225.4722.84524.8323.1723.6622.0628.1830.3025.1623.87624.2022.1524.9622.6424.7922.3531.3625.06723.9022.3124.7323.4524.7223.2128.0230.10普莱诺塞尔测试拆分列车拆分01234567036.9836.1036.4336.0436.3435.7536.3135.92136.2336.9936.1936.2436.1435.9336.0735.95236.5436.3137.4036.6436.5436.1736.6136.29336.1736.1836.5337.2636.1935.9436.2336.21436.3936.0036.4836.1237.1236.1036.4636.09536.0736.1436.2036.1636.4536.9436.2136.21636.4336.2536.6336.4236.5836.1537.2836.48736.1736.1136.3936.3636.3136.1536.5037.20即时NGP表3. 密集局部子分裂的结果。从上到下：DVGO（半分辨率），Plenoxels和Instant- NGP。我们显示了在35个扫描对象上平均的PSNR结果，用于在八个密集局部化子分裂（行）中的一个上训练并在八个子分裂（列）中的任何一个上测试的模型。quisitions，280用于密集局部分割）。每次训练都在单个NVIDIA 3090 RTX GPU上进行，总共需要约175小时/GPU进行训练。评估指标。为了评估渲染图像的质量，我们计算渲染图像（x）和真实测试图像（x）之间的峰值信噪比（PSNR）PSNR（x，x）=−10lo g1 0（x−x）2.（七）5.2. 均匀分布采集实验我们首先训练和评估这三种方法，处理从扫描对象的半球周围均匀分布的图像选项卡. 2收集了我们扫描站扫描的35个物体的实验。从左到右，我们分别报告了通过对1000、500、250和100个图像训练分割进行训练而获得的测试分割的均匀分布图像的结果。我们可以注意到所有三个NeRF变体都优于当在1000张图像上训练时，总是达到超过30的PSNR。一般来说，与Plenoxels相比，Instant-NGP会产生更高的渲染质量，而DVGO也会产生非常好的效果，尽管由于使用半分辨率图像的限制要求，无法与其他方法直接比较。当逐渐将训练图像的密度降低到500，250和100时，我们可以注意到三个框架的不同效果。即时NGP实现了几乎不变的渲染图像质量，DVGO在PSNR方面遭受了适度的下降（在最小训练集上训练时约为2点），而Plenoxels似乎遭受了渲染质量的最高下降，仅用100张图像根据这个基准测试，Instant-NGP似乎是撰写本文时的最佳选择，这要归功于其极快的训练和渲染速度、整体高质量以及对训练图像数量减少的鲁棒性图6显示了DVGO获得的一些效果图，Plenoxels和Instant-NGP在1000张图像上训练。5.3. 密集局部采集在对均匀分布的采集进行试验后，我们将重点放在密集的局部采集上。该实验的目的是强调NeRF算法在训练主要从空间的局部化区域捕获的图像之后，从整个半球的位置生成新视图的能力，其中只有少数样本均匀分布在半球上。我们采用以下协议：对于我们数据集的每个对象4.4）。然后，从每个训练开始，我们在所有八个测试子分割上测试三个算法，对每个对象执行总共64个评估。选项卡. 3报告了每个选定的NeRF方法的实验结果，并对我们的框架扫描的35个对象进行了平均。可以观察到，如所预期的，当在相同的子分割上训练和测试时，所有方法都获得良好的PSNR分数（>30）（即，在从半球上具有相同分布的位置获取的图像上）。然而，当对来自与训练不同的密集采集的子分裂进行测试时，它们的行为因情况而异Plenoxels明显受到这种设置的影响，PSNR下降到 8 点，导致结果不佳（ PSNR 为 1.22 ）。相反，DVGO似乎更稳健，PSNR下降低于到4点。最后，即时NGP似乎对所描述的压力测试更具弹性，在最坏的情况下PSNR仅下降1个点。我们推测，DVGO和Instant-NGP在Plenoxels上取得的优异性能可以解释为前两种方法依赖于MLP824GT DVGO* Plenoxels Instant-NGP图6. 通过训练1000张图像获得的定性结果。从左至右：地面实况、从DVGO（半分辨率）渲染的图像、从Plenoxels渲染的图像、从Instant-NGP渲染的图像。而后者并不存在该组件可以从少量均匀分布的样本中学习强偏差，这有助于DVGO和Instant-NGP推广到半球的（几乎）不可见区域。6. 结论在本文中，我们介绍了ScanNeRF，神经辐射场的可扩展基准，一般来说，神经渲染框架。ScanNeRF由简单而有效的硬件/软件管道组成，允许在几分钟内毫不费力地收集一个物体的数千张图像。我们的平台非常适合扫描多种不同的对象，这些对象共同构建了ScanNeRF基准，这是一个由35个场景组成的新颖数据集，每个场景包含数千张图像。在我们的实验中，我们强调了现代NeRF框架在不同设置下的潜力[39，2，28]，这要归功于Scan-NeRF提供的特殊训练/验证/测试分割，突出了社区面临的一些新挑战我们相信ScanNeRF将在促进神经辐射场框架的研究中发挥作用。825引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 International Journal ofComputer Vision，120（2）：153[2] Alex Yu 和 Sara Fridovich-Keil ， Matthew Tancik ，Qinhong Chen ， Benjamin Recht 和 Angjoo Kanazawa 。Plenoxels：没有神经网络的辐射场，2021年。[3] 乔纳森 ·T. 作者： Barron ， Ben Mildenhall ， MatthewTancik ， Peter Hedman ， Ricardo Martin-Brualla ， andPratul P.斯里尼瓦桑Mip-nerf：抗混叠神经辐射场的多尺度表示。ICCV，2021。[4] 作者： Mark Boss，Raphael Braun， Varun Jampani，Jonathan T.刘策，刘俊. A.伦施书呆子：神经反射分解从图像收集. ICCV，2021。[5] 埃里克河 Chan ， Marco Monteiro ， Petr Kellnhofer ，Jiajun Wu，and Gordon Wetzstein. Pi-gan：周期性隐式生成对抗网络，用于3D感知图像合成。在CVPR，2021年。[6] Anpei Chen ， Zexiang Xu ， Fuqiang Zhao ， XiaoshuaiZhang，Fanbo Xiang，Jingyi Yu，and Hao Su.Mvsnerf：Fast generalizable radiance field reconstruction from multi-view stereo.ICCV，2021。[7] Julian Chibane、Aayush Bansal、Verica Lazova和GerardPons-Moll。立体辐射场（SRF）：从新场景的稀疏视图学习视图合成。在IEEE计算机视觉与模式识别会议（CVPR）上。IEEE，2021年6月。[8] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在Proc.计算机视觉和模式识别（CVPR），IEEE，2017。[9] Kangle Deng，Andrew Liu，Jun-Yan Zhu，and Deva Ra-manan. 深度监督削弱：更少的视图和更快的训练-ING免费。arxiv CS.CV 2107.02791，2021。[10] 放大图片作者：John Flynn，Michael Broxton，Paul E.放大图片创作者： William W. Overbeck ， NoahSnavely，and Richard Tucker.Deepview：使用学习的梯度下降进行视图合成在CVPR，2019年。[11] GuyGafni、JustusThies、MichaelZollhoüfer 和MatthiasNießner。用于单目4d面部化身重建的动态神经辐射场。在CVPR，2021年。[12] Chen Gao ，Ayush Saraf ，Johannes Kopf，and Jia-BinHuang.从动态单目视频合成动态视图。ICCV

下载后可阅读完整内容，剩余1页未读，立即下载