大规模NeRF：面向虚拟飞行器的交互式3D环境构建与快速渲染

177 浏览量更新于2023-10-25 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12922Mega-NeRF：面向虚拟飞行器的大规模NeRF的可扩展构造Haithem Turki1 Deva Ramanan1，2 Mahadev Satyanarayanan11卡内基梅隆大学3Argo AI摘要我们使用神经辐射场（NeRFs）从无人机收集的跨越建筑物甚至多个城市街区的大规模视觉捕获中构建交互式3D环境与单对象场景（传统上在其上评估NeRF）相比，我们的规模带来了多个挑战，包括（1）需要对具有不同光照条件的数千个图像进行建模，每个图像仅捕获场景的一小部分，（2）过大的模型容量使得在单个GPU上训练不可行，以及（3）实现交互式飞行的快速渲染的重大挑战。为了解决这些挑战，我们首先分析大规模场景的可见性统计，激励稀疏网络结构，其中参数专用于场景的不同区域。我们介绍了一个简单的几何聚类算法的数据并行性，分区训练图像（或像素）到不同的NeRF子模块，可以并行训练我们评估了现有数据集（ Quad 6k 和UrbanScene3D）以及我们自己的无人机镜头，将训练速度提高了3倍，PSNR提高了12%。我们还评估了最近的NeRF快速渲染器上的Mega-NeRF，并介绍了一种新的方法，利用时间的连贯性。我们的技术实现了40倍的加速比传统的NeRF渲染，同时保持在0.8分贝的PSNR质量，超过现有的快速渲染器的保真度。1. 介绍神经渲染技术的最新进展已经导致了照片级逼真的新视图合成的重大进展，这是许多VR和AR应用的先决条件。特别是，神经辐射场（NeRFs）[24]引起了极大的关注，产生了广泛的后续工作，改进了原始方法的各个规模简而言之，我们的工作探索了NeRFs的可扩展性。绝大多数现有的方法探索单对象场景，通常在室内或从合成数据中捕获。据我们所知，坦克和寺庙[17]123培训：数据分区2推理：视图合成图1.我们将神经重建扩展到比先前工作大1000倍的大规模城市为此，Mega-NeRF将场景分解为一组空间单元（左），为每个单元学习单独的NeRF我们用几何感知的像素数据分区来训练每个子模块，只使用光线与空间单元相交的像素（右上角）。例如，来自图像2的像素被添加到单元格A、B和F的训练集，从而将每个训练集的大小减小10倍。为了生成虚拟飞行器的新视图，我们使用标准的光线投射和点采样，但是查询每个采样点的包围子模块（右下）。为了确保视图生成是接近交互式的，我们通过缓存来自附近先前视图的占用和颜色值来利用时间相干性（图1B）。4）.NeRF评估中使用的最大数据集，平均跨度为463m2在这项工作中，我们缩放NeRFs，以从无人机镜头中捕获和交互式可视化城市规模的环境，这些镜头的数量级大于迄今为止的任何数据集，每个场景从150，000到超过1，300，000平方米。搜索和救援。作为一个激励性的用例，考虑搜索和救援，其中无人机提供了一种快速调查区域并优先考虑有限的第一响应者资源（例如，用于地面小组部署）。由于电池寿命和带宽限制了实时捕获足够详细的镜头的能力[6]，因此收集的镜头通常被重建为支持事后分析的2D我们想象未来神经渲染将这种分析提升到3D，使响应团队能够像实时驾驶无人机一样检查现场，其细节水平远远超出了预期。1？一BCDEFGH我312923决议图像数量像素数/光线数拍摄的与场景/图片合成NeRF -椅子400 x 400400256,000,0000.271合成NeRF -鼓400 x 400400256,000,0000.302合成NeRF -榕树400 x 400400256,000,0000.582合成NeRF -热狗400 x 400400256,000,0000.375合成NeRF -乐高400 x 400400256,000,0000.205合成NeRF -材料400 x 400400256,000,0000.379合成NeRF -麦克风400 x 400400256,000,0000.518合成NeRF -运输400 x 400400256,000,0000.483T T -谷仓1920 x 1080384796,262,4000.135T T -卡特彼勒1920 x 1080368763,084,8000.216T T -家庭1920 x 1080152315,187,2000.284T T -伊格内修斯1920 x 1080263545,356,8000.476T T -卡车1920 x 1080250518,400,0000.22519号厂房4608 x 3456194030,894,981,1200.062磨坊19 -碎石4608 x 3456167826,722,566,1440.050Quad 6k1708 x 1329514711,574,265,6790.010UrbanScene 3D-住宅5472 x 3648258251,541,512,1920.059UrbanScene 3D-科学艺术4864 x 3648301953,568,749,5680.088UrbanScene 3D-校园5472 x 36485871117,196,056,5760.028表1.来自常用的合成NeRF和坦克和寺庙数据集（T T）的场景属性与我们的目标数据集（下图）进行了比较。我们的目标包含一个数量级更多的像素（因此射线）比以前的工作。此外，每个图像捕获明显更少的场景，激发了模块化方法，其中空间定位的子模块用一小部分相关图像数据进行训练。我们提供更多的细节和广告统计在第二节。H的补充。通过经典的运动结构（SfM）实现。挑战在这种情况下，我们遇到了多重挑战。首先，搜索和救援等应用程序具有时间敏感性。根据国家搜索和救援计划[1]，因此，在几个小时内训练出一个可用模型的能力将是非常有价值的。其次，由于我们的数据集比之前评估的数据集大几个数量级（表1），因此必须显著增加模型容量，以确保高视觉保真度，进一步增加训练时间。最后，尽管交互式渲染对于我们捕获的尺度上的飞越和探索是重要的，但是现有的实时NeRF渲染器要么依赖于将输出预先制表为有限分辨率结构，这会导致渲染性能下降，要么需要过多的预处理时间。超级NeRF 为了解决这些问题，我们提出了Mega-NeRF，一个用于训练大规模3D场景的框架，支持交互式人在环飞行训练。我们首先分析大规模场景的可见性统计数据，如表1所示。由于只有一小部分的训练图像是可见的，从任何特定的场景点，我们引入了一个稀疏的网络结构，其中参数是专门为不同地区的场景。我们引入了一个简单的几何聚类算法，它将训练图像（或者更确切地说是像素）划分为可以并行训练的不同NeRF子模块。我们进一步利用渲染时的空间局部性来实现-图2. Mill 19通过Mega-NeRF的可视化。顶部面板显示了我们的交互式可视化工具中Mill 19的高级3D渲染。左下角的面板包含我们的无人机拍摄的地面实况图像。以下两个面板说明模型重建以及相关联的深度图。一种即时的可视化技术，允许交互式飞行通过捕获的环境。我们使用“多个”NeRF子模块的方法受到DeRF [ 28 ]和KiloNeRF [ 29 ]的最近工作的密切启发，DeRF [ 28 ]和KiloNeRF [ 29 ]使用类似的见解来加速现有的、预先训练的然而，即使是为我们的场景规模获得预训练的NeRF，我们证明了模块化对于训练是至关重要的，特别是当与通过几何聚类将训练数据“分片”到适当模块的智能策略相结合捐款. 我们提出了一个重新制定的NeRF架构，稀疏层连接在空间感知的方式，促进效率的提高，在训练和渲染时间。然后，我们调整训练过程以利用空间局部性，并以完全并行的方式训练模型子权重，从而使训练速度提高3倍，同时超过现有方法的重建质量结合，我们评估现有的快速渲染方法对我们训练的Mega-NeRF模型，并提出了一种新的方法，利用时间的连贯性。我们的技术需要最少的预处理，避免了其他渲染器的有限分辨率不足，并保持了高水平的视觉保真度。我们还提出了一个新的大规模数据集，其中包含从工业综合体附近超过100，000m 2地形的无人机镜头中收集的数千张高清图像12924Pi-1T=exp（-σ6）和6是nijji之间的距离i=0时P2. 相关工作快速渲染。传统的NeRF渲染远低于交互阈值。Plenoctree [45]、SNeRG [13]和FastNeRF [12]通过将预计算的非视图相关模型输出存储到单独的数据结构（如稀疏体素八叉树）中来加速该过程然后，这些渲染器在渲染时完全绕过原始模型，通过一个单独的较小的多层感知器（MLP）或通过球面基计算来计算最终的视图相关辐射。虽然它们实现了交互活动，但它们受到缓存结构的有限容量的影响，并且在大规模上捕获低级别细节的能力很差。DeRF [28]通过空间Voronoi分割将场景分解成多个单元。每个单元都使用较小的MLP独立渲染，比NeRF加速3倍。KiloNeRF [29]将场景划分为数千个甚至更小的网络。虽然在精神上类似于Mega-NeRF，但这些方法使用空间分区来加速推理，而我们使用它来实现可扩展训练的数据并行性DeRF和KiloNERF都是用一个在所有数据上训练的大型网络初始化的，然后将其提炼成更小的网络以进行快速推理，使KiloNeRF的处理时间增加了2倍以上。在我们的规模上，对所有可用数据进行培训是禁止的。相反，我们的关键见解是将训练像素几何划分为与每个子模块相关的小数据碎片，这对于高效训练和高准确性至关重要。DONeRF [25]通过显著减少每条射线查询的样本数量来加速渲染。为了保持质量，这些样本被放置在光线相交的第一个表面周围更紧密，类似于我们在第二节中描述的引导采样方法。三点三与我们的方法相反，DONeRF使用一个单独的深度预言网络，针对地面实况深度数据进行训练。无限的场景。虽然大多数NeRF相关工作都针对室内区域，但NeRF++ [48]通过将空间划分为包含所有摄像机姿势的单位球体前景区域和覆盖倒置球体补充的背景区域来处理无界环境。一个单独的MLP模型代表每个区域，并在最终合成之前独立地执行射线投射Mega-NeRF采用了类似的前景/背景分割，尽管我们进一步限制了我们的前景和采样边界，如第12节所述。第3.1条NeRF in the Wild [21]通过额外的瞬态头部和学习的每图像嵌入来增强NeRF虽然它没有明确地针对无界场景，但它在Phototourism [15]数据集中的户外序列上取得了令人印象深刻的结果我们采用类似的外观嵌入兆NeRF和量化其影响在秒。四点二。与我们同期，城市辐射场[30]（URF），CityNeRF [43] 和 BlockNeRF [34] 针对城市规模的设施。URF使用激光雷达输入，而CityN-eRF使用多尺度数据建模。这两种方法都可以被视为对我们方法的补充，这意味着将它们与Mega-NeRF相结合是有希望的。与我们最相关的是BlockNeRF [34]，它将场景分解为固定城市街区的空间单元。Mega-NeRF利用几何可见性推理来分解训练像素集1）。训练速度。一些工作通过合并从相似数据集学习的先验来加速模型训练像素- NeRF [46]，IBRNet [40]和GRF [38]根据预测的图像特征调整NeRF，而Tancik等人。[35]使用Meta学习来找到快速收敛的好的初始权重参数。我们认为这些努力是对我们的努力的补充。Graphics-遗漏广西快乐我们注意到图形社区长期以来在交互式演练方面所做的努力。与我们的空间分割类似，Teller和Se'quin[36]将场景细分为单元格，以过滤掉不相关的几何形状并加快渲染速度。Funkhouser和Se'quin[9]分别描述了一种自适应显示算法，该算法迭代地调整图像质量，以在复杂的虚拟环境中实现交互式帧速率我们的渲染器从这种逐渐细化的方法中汲取灵感。大规模 SfM 。我们从基于经典运动恢复结构（SfM）的大量大规模重建工作中汲取灵感，特别是Agarwal等人3. 方法我们首先描述我们的模型架构在第二节。3.1，然后我们在3.2中的训练过程，最后在3.3中提出了一个利用时间相干性的新渲染器。3.1. 模型架构背景我们首先简要描述神经辐射场（NeRFs）[24]。NeRF表示捕获几何形状和视图相关外观的连续体积辐射场内的场景NeRF编码的场景内的多层多层卷积（MLP）的在渲染时，NeRF为每个图像像素投影相机光线r，对于给定的点样本pi，NeRF查询位置xi=（x，y，z）和光线可见方向d=（d1，d2，d3）处的MLP以获得不透明度和颜色值σi和ci=（r，g，b）。它然后使用以下公式合成光线的颜色预测C*（r）数值求积N-1Ti（1-exp（-σi6i））ci，其中j=0样本Pi和Pi+1。培训过程优化了模型通过对图像像素的批次R进行采样，12925ˆ2其中n-x（3）最小化损失函数PR2R-C（r）-C（r）-。NeRF通过两级分层SAM对相机光线进行采样，捕获过程，并使用位置编码来更好地捕获高频细节。我们建议读者参考NeRF论文[24]以获得更多信息。空间分割。Mega-NeRF将场景分解为具有质心n2N=（nx，ny，nz）的单元，并将其分解为相应的模型权重集合fn。每个权重子模块都是一系列与NeRF架构类似的全连接层类似于NeRF in the Wild [21]，我们为每个输入图像a关联一个附加的外观嵌入向量l（a），用于计算辐射率。这使得Mega-NeRF在解释照明差异方面具有额外的灵活性我们发现在我们所覆盖的场景的规模上，这些图像之间的推论是重要的在查询时，Mega- NeRF使用最接近查询点的模型权重fn为给定位置x、方向d和外观嵌入l（a）产生不透明度σ和颜色c=（r，g，b）fn（x）=σ（1）fn（x，d，l（a））=c（2）2= argminnn2N质心选择。虽然我们探索了几种方法，包括k均值聚类和基于不确定性的分区[44]，但我们最终发现将场景测试到自顶向下的2D网格中在实践中效果良好。该方法实现简单，需要最少的预处理，并能够在推理时高效地将点查询分配给质心由于场景中相机姿态之间的高度变化相对于纬度和经度的差异很小，因此我们将质心的高度固定为相同的值。前景和背景分解。类似于NeRF++ [48]，我们将场景进一步细分为包含所有相机姿势的前景体积和覆盖互补区域的背景。两个体积都用单独的Mega-NeRF建模。我们使用与NeRF++相同的4D外部体积参数化和光线投射公式，但通过使用更紧密地包围相机姿势和相关前景细节的椭球体来改进其单位球体分区。我们还利用相机的高度测量，以进一步完善的采样边界的场景终止射线近地面水平。Mega-NeRF因此避免了不必要地查询地下区域和更有效的样本。图3示出了两种方法之间的差异。3.2. 培训空间数据并行性。由于每个Mega-NeRF子模块都是自包含的MLP，因此我们可以并行训练每个子模块，而无需模块间通信。关键在于，每图3. 雷·邦兹NeRF++（左）在以所有相机姿势为中心并包围所有相机姿势的单位球体内采样以渲染其前景分量，并使用不同的方法用于外部体积补充以有效地渲染背景。Mega-NeRF（右）使用类似的背景参数化，但将前景建模为椭圆体，以实现感兴趣区域的更紧密它还使用相机高度测量来约束射线采样，而不是查询地下区域。如果图像仅捕获场景的一小部分（表1），我们将每个子模块的训练集的大小限制为仅那些潜在相关的像素。具体来说，我们沿着相机射线对每个训练图像的每个像素进行采样，并将该像素添加到仅与其相交的那些空间单元的训练集（图 12 ）。 1 ）。 In ourexperiments, this visibility partitioning reduces the size ofeach submod- ule’s trainset by 10x compared to the initialaggregate train- set.对于更大规模的场景，这种数据缩减应该更加极端;当为北匹兹堡训练NeRF时，不需要添加南匹兹堡的像素。我们在细胞之间加入了一个小的重叠因子（在我们的实验中为15%），以进一步减少边界附近的视觉伪影。空间数据修剪。注意，像素到空间单元的初始分配是基于相机位置的，而与场景几何形状无关（因为这在初始化时是未知的）。一旦NeRF获得对场景的粗略理解，则可以进一步修剪掉由于介入遮挡物而对特定NeRF没有贡献的例如图1，早期NeRF优化可能推断单元F中的壁，这意味着来自图像2的像素然后可以从单元A和B中修剪。我们的初步探索发现，这种额外的可见性将进一步减少2倍的车列尺寸。我们在SEC中提供了详细信息。A的补充。3.3. 交互式渲染我们提出了一种新的交互式渲染方法，除了现有的快速渲染器上的Mega-NeRF在第二节的经验评估。四点三。为了满足我们的搜索和救援用例，我们尝试：（a）保持视觉保真度，（b）最小化除了训练基本模型之外的任何附加处理时间，以及（c）加速渲染，其对于具有正常光线采样的720p帧花费超过2分钟，以达到更易于管理的效果。缓存大多数现有的快速NeRF渲染器使用缓存的预计算来加速渲染，这在我们的场景规模下可能不是有效的。例如，Plenoc树[45]预先计算不透明度和球形哈尔的缓存。12926⇥(a) 固定八叉树（b）动态扩展八叉树（c）重用八叉树（下一帧）图4. Mega-NeRF-Dynamic 当前的渲染器（如Plenoctree [45]）将预先计算的模型输出缓存到固定的八叉树中，限制了渲染图像的分辨率（a）。Mega-NeRF-Dynamic基于飞越的当前位置动态地扩展八叉树（b）。由于相机视图的时间相干性，下一帧渲染（c）可以重用大部分扩展的八叉树。将一元系数转换成稀疏体素八叉树。为我们的场景生成整个8级八叉树花费了一个小时的计算时间，并根据辐射格式使用了1到12 GB的内存添加一个额外的级别将处理时间增加到10小时，八叉树大小增加到55GB，超出了除最大GPU之外的所有GPU的容量。时间相干性。我们探索了一个正交方向，利用互动飞行的时间连贯性;一旦计算出渲染给定视图所需的信息，我们就将其中的大部分重新用于下一个视图。与Plenoctree类似，我们首先预计算不透明度和颜色的粗缓存。与Plenoctree相比，我们在整个交互式可视化过程中动态细分树。图4说明了我们的方法。当摄像机遍历场景时，我们的渲染器使用缓存的输出来快速生成初始视图，然后执行额外的模型采样以进一步细化图像，将这些新值存储到缓存中。由于每个后续帧都与其前一帧有显著的重叠，因此它受益于先前的细化，并且只需要执行少量的增量工作来保持质量。我们在SEC中提供了更多细节。C的补充。引导取样。我们在细化八叉树后执行最后一轮引导射线采样，以进一步提高渲染质量。我们渲染光线在一个单一的通道，对比NeRF由于我们的改进八叉树为我们提供了场景几何的高质量估计，因此我们只需要在感兴趣的表面附近放置少量样本。图5说明了两种方法之间的区别与其他快速渲染器类似，我们通过沿光线累积透射率并在某个阈值后结束采样来进一步加速该过程。4. 实验我们对Mega-NeRF的评估是基于以下两个问题。首先，在有限的培训预算下标准分层抽样引导抽样图5. 引导取样。标准NeRF（左）首先沿着射线以均匀的间隔粗略采样，随后执行由粗略权重引导的另一轮采样。Mega-NeRF-Dynamic（右）使用其缓存结构跳过空白空间，并在曲面附近采集少量样本。Mega-NeRF能多精确地捕捉到一个场景？此外，在训练之后，是否有可能在最小化延迟的同时精确地渲染？定性结果。我们提出了两套定性的结果。图6比较了Mega-NeRF在所有情况下，Mega- NeRF都能捕捉到高水平的细节，同时避免了其他方法中存在的众多伪影。图7然后示出了现有的快速渲染器的质量和我们的方法在相同的基础Mega-NeRF模型之上。我们的方法在几乎所有情况下都能生成最高质量的重建，避免了基于体素的渲染器的像素化和KiloNeRF的模糊。4.1. 评估协议数据集。我们针对多个不同的数据集评估Mega-NeRF。我们的Mill 19数据集包括我们在一个前工业综合体附近直接记录的两个场景。工厂19 -建设包括在一个网格模式捕获的画面跨越一个大的500 250平方米的区域周围的工业建筑。瓦砾覆盖了附近的一个建筑区域，那里到处都是瓦砾，我们在里面放置了伪装成幸存者的人体模型。我们还针对两个公开可用的集合测量Mega-NeRF-Quad 6 k数据集[4]，一个大规模的运动结构。12927⇥⇥Mega-NeRF（我们的）NeRF++ SVS MVS地面实况图6.可扩展的培训。 Mega-NeRF生成最佳重建，同时避免其他方法中存在的伪影。在康奈尔大学艺术广场内收集的数据集，以及UrbanScene3D [20]中的几个场景，其中包含大规模城市环境的高分辨率无人机图像我们使用PixSFM [19]在Mill 19和UrbanScene3D数据集中改进了初始GPS导出的相机姿势，并在Quad 6k数据集中提供了估计。我们使用预训练的语义分割模型[7]来生成Quad 6k数据集中常见可移动对象的掩码，并在训练期间忽略掩码像素。训练我们用8个子模块评估Mega-NeRF，每个子模块由8层256个隐藏单元组成，最后一个完全连接的ReLU层由128个通道组成。我们在训练过程中使用双曲型采样，前景区域中每条射线有256个粗样本和512个细样本，背景中每条射线有128/256个样本。与NeRF相比，我们使用相同的MLP来查询粗样本和细样本，这减小了我们的模型大小，并允许我们在第二渲染阶段重用粗网络输出，从而为每条光线节省25%的模型查询。我们采用混合精度训练来进一步加速这一过程。我们每批采样1024条射线，并使用Adam优化器[16]初始学习率为5 × 10-4，指数衰减到5 × 10-5。我们采用[21]中描述的过程来微调Mega-NeRF4.2. 可扩展培训基线。我们针对原始NeRF [24]架构和NeRF++[48]评估Mega-NeRF。我们还评估了我们的方法对稳定视图合成[31]，DeepView [8]的实现，以及来自COLMAP[33]的密集重建，传统的多视图立体方法，作为基于非神经辐射场的替代方案。我们在所有NeRF变体中使用相同的基于Pytorch的框架和数据加载基础设施，以将训练速度与实现细节分开。我们还使用混合精度训练和所有变体中每射线相同数量的样本。我们通过将MLP宽度设置为2048个单元，为每个实现提供与Mega-NeRF相同的模型容量。我们在第二节中提供了更多详细信息。D的补充。指标. 我们报告了基于PSNR，SSIM [41]和LPIPS[49]的VGG实现美国-校园美国-SciArt美国-住宅Quad 6K磨坊19 -碎石19号厂房12928“##“##“##“##“##“##NeRF工厂19-建筑工厂19-粗石四6 kPSNR SSIM LPIPS Time（h）PSNR SSIM LPIPS Time（h）PSNR SSIM LPIPSTime（h） 19.54 0.525 0.512 59：51 21.140.522 0.546 60：21 16.75 0.559 0.616 62：48电话：+86-10 - 8888888传真：+86-10 - 888888882019 - 05 - 19 00：00深空13.28 0.295 0.751 31：20 14.47 0.310 0.734 32：11 11.34 0.471 0.708 19：51最大值16.45 0.451 0.545 32：29 18.59 0.478 0.532 31：42 11.81 0.4250.594 18：552019 - 06 - 23 0.547 0.504 29：49 24.06 0.553 0.516 30：48 18.13 0.5680.602 39：43UrbanScene 3D-住宅UrbanScene 3D-艺术UrbanScene 3D-校园NeRFPSNR SSIM LPIPS Time（h）PSNR SSIM LPIPS Time（h）PSNR SSIM LPIPSTime（h） 19.01 0.593 0.488 62：40 20.700.727 0.418 60：15 21.83 0.521 0.630 61：56NeRF++18.990.5860.49390：4820.830.7550.393晚上九点21.810.5200.630九十三：五十SVS16.550.3880.70477：1515.050.4930.71659：5813.450.3560.773一百零五：零一DeepView13.070.3130.767三十点半12.220.4540.831三十一时二十九分13.770.3510.764三十三点零八分MVS17.180.5320.429六十九点零七分14.380.4990.672七十三分二十四秒16.510.3820.581九十六：零一Mega-NeRF22.080.6280.489二十七点二十分25.600.7700.390二十七点三十九分23.420.5370.618二十九点零三分表2.可扩展的培训。我们将Mega-NeRF与NeRF、NeRF++、稳定视图合成（SVS）、DeepView和多视图立体（MVS）进行了比较。Mega-NeRF始终优于基线，即使在允许其他方法训练超过24小时之后。我们还报告了在具有8个V100 GPU的单个机器上测量的训练时间。结果我们运行所有的方法，训练所有基于NeRF的方法500，000次迭代。我们在表2中显示了结果以及完成培训所需的时间。Mega-NeRF甚至在对其他方法进行更长时间的训练后也优于基线。诊断。我们将Mega-NeRF与几种消融进行比较。Mega-NeRF-no-embed从模型结构中删除外观嵌入。Mega-NeRF-embed- only相反地将Mega-NeRF的外观嵌入到基础 NeRF 架构中。 Mega-NeRF-no-bounds 使用NeRF++Mega-NeRF-dense使用完全连接的层，而不是空间感知的稀疏连接。Mega-NeRF-joint使用与Mega-NeRF相同的模型结构，但使用完整的数据集而不是使用特定于子模块的数据分区来联合训练所有子模块。为了方便起见我们把训练时间限制在24小时内。我们在表4中呈现了我们的结果。外观嵌入和前景/背景分解都对模型性能有显着影响。Mega- NeRF也优于 Mega-NeRF-dense 和 Mega-NeRF-joint ，尽管 Mega-NeRF-dense在几个场景中接近。然而，我们注意到，模型稀疏性相对于完全连接的MLP将渲染速度提高了10倍，因此对于可接受的性能至关重要。4.3. 互动探索基线。我们评估两个现有的快速渲染器，Plenoctree和KiloNeRF，除了我们的动态渲染器。除了Plenoc之外，我们所有的渲染器都基于在4.2树方法，它是在一个变量上训练的，卡尔谐波。因此，我们将我们的渲染变量分别标记为Mega-NeRF-Plenoctree、Mega-NeRF-KiloNeRF和Mega-NeRF-Dynamic。我们测量传统NeRF渲染作为额外的基线，我们将其称为 Mega-NeRF-Full ，以及Plenoxels [32]，其生成类似于Plenoctree的稀疏体素结构，但使用三线性而不是最近邻插值。指标. 我们报告了相同的感知指标，4.2以及渲染720p图像所需的时间。我们只评估前景区域，因为Plenoctree和KiloNeRF假设有界场景。我们还报告了在基本模型训练时间之外生成渲染所需的任何额外数据结构所需的任何额外时间，以便在一天内启用fly-speed由于我们的渲染器在渐进地细化图像之前呈现基于体素的初始粗略估计，因此我们呈现标记为Mega-NeRF-Initial的附加测量集，以量化初始重建的质量和延迟。结果我们将结果列于表 3 。虽然 Mega-NeRF-Plenoctree渲染最快，但体素化具有很大的视觉影响。Plenoxels提供了更好的渲染，但仍然遭受相同的有限分辨率不足，并且相对于基于NeRF的方法是模糊的Mega-NeRF- KiloNeRF在1.1 FPS下接近交互性，但仍然存在明显的视觉伪影。它的知识蒸馏和微调过程也需要一天以上的额外处理。相比之下，Mega-NeRF-Dynamic在正常NeRF渲染的PSNR中保持在0.8 dB以内，同时提供40倍的加速。Mega-NeRF-Plenoctree和Mega-NeRF-Dynamic都需要一个小时来构建类似的八叉树结构。5. 限制12929我们在补充材料中讨论了我们工作的局限性和社会影响。12930Mega-NeRF-Fast（我们的）Mega-NeRF-Plenoctree Mega-NeRF-KiloNeRF Mega-NeRF-Full Plenoxels图7. 交互式渲染。Plenoctree的方法导致显著的体素化，而Plenoxel的渲染是模糊的。KiloNeRF16.27 0.430 0.621 1：2613.88 0.589 0.4271：3316.41 0.498 0.5301：07表3. 交互式渲染。我们在我们的基础模型上评估了两个现有的快速渲染器，Mega-NeRF-Plenoctree和Mega-NeRF-KiloNeRF，相对于传统的渲染，标记为Mega-NeRF-Full，Plenoxels和我们的新渲染器（下面）。虽然PlenOctree实现了一致的高FPS，但其对有限分辨率体素结构的依赖导致性能显着降低我们的方法保持在0.8分贝的PSNR质量，同时加速40倍，相对于传统的光线采样渲染20.42 0.500 0.561 0.544 0.643Mega-NeRF-仅嵌入式21.48 0.494 0.566 17.91 0.559 0.638 22.79 0.611 0.537Mega-NeRF-no-bounds 22.14 0.534 0.522 18.02 0.565 0.616 23.42 0.636 0.511Mega-NeRF-dense 21.63 0.504 0.551 17.94 0.562 0.627 22.44 0.605 0.558Mega-NeRF-joint 21.10 0.490 0.574 17.43 0.560 0.616 21.45 0.595 0.56722.34 0.540 0.518 0.566 0.602 23.60 0.641 0.504表4. 诊断。我们在24小时培训后将Mega-NeRF与各种消融进行比较。每个单独的组件对整体模型性能都有很大的贡献。6. 结论我们提出了一种模块化的方法，用于在以前未开发的规模建设NeRFs。我们引入了一个稀疏和空间感知的网络结构，以及一个简单的几何聚类算法，该算法将训练像素划分为不同的NeRF子模块，可以并行训练这些修改将训练速度提高了3倍以上，同时显著提高了重建质量。我们对Mega-NeRF之上现有快速渲染器的经验评估表明，基于交互式NeRF的大规模渲染仍然是一个开放的研究问题。我们提倡杠杆化作为有价值的第一步，时间平滑性最小化视图之间的冗余计算。致谢这项研究得到了美国国家科学基金会（NSF）的支持其他支持来自于 Ca- bleLabs 、 Crown Castle 、 Deutsche Telekom 、 Intel 、InterDigital 、 Microsoft 、 Seagate 、 VMware 、 Vodafone 和 ConklinKisher家族基金。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映其雇主或上述资金来源的观点。美国-校园Quad 6K最佳次佳tMega-NeRF-Plenoctree厂19预处理“峰值信噪比“SSIMLPIPS数量时间（h）渲染时间0.031Quad 6k预处理“峰值信噪比“SSIMLPIPS数量时间（h）渲染时间0.010UrbanScene3D预处理“峰值信噪比“SSIMLPIPS数量时间（h）渲染时间0.025Mega-NeRF-KiloNeRF21.850.5210.512三十点零三分0.78420.610.6520.356二十七点三十三分1.02121.110.5420.453下午三点整0.824Mega-NeRF-Full22.960.5880.452-10121.520.6760.355-17424.920.7100.393-122普莱诺塞尔19.320.4760.592-0.48218.610.6450.411-0.19420.060.6080.503-0.531Mega-NeRF-初始17.410.4470.570一点零八分0.23514.300.5850.386一点三十一分0.21417.220.5270.5061：100.221磨坊19 -碎石厂19Quad 6kUrbanScene3DMega-NeRF-no-embed“PSNR“SSIM LPIPS数量“峰值信噪比“SSIM LPIPS数量“峰值信噪比“SSIM# LPIPS19.45 0.587 0.54512931引用[1] 3.6 搜索与救援https ： //www.联邦航空局。gov/air_traffic/publications/atpubs/aip_html/part1_gen_section_3.6.html 。访问时间：2021-10-15。2[2] Pix4dmapper。https://www.pix4d.com/product/pix4dmapper-摄影测量软件。完成日期：2021-11-01。11[3] 作者：陈文辉，陈文辉.Seitz和Richard Szeliski。一天建成罗马。Commun. ACM，54（10）：105-112，oct 2011.3[4] David Crandall ， Andrew Owens ， Noah Snavely ， andDaniel Huttenlocher.大型结构从运动出发的离散-连续优化。IEEE计算机视觉与模式识别会议（CVPR），2011年。五、十三、十四[5] 杜一伦，张一男，于红星，Joshua B. Tenen-baum和Jiajun Wu。用于4d视图合成和视频处理的神经辐射流。IEEE/CVF计算机视觉国际会议论文集，2021。12[6] J. Eyerman，G.Crispino，A.Zamarro，and R Durscher.无人机功效研究（DES）：评估无人机在搜索和救援活动中定位失踪人员的影响。比利时布鲁塞尔：DJI和欧洲紧急号码协会，2018年。1[7] L-CCGP Florian和Schroff Hartwig Adam。再思考无卷积在语义图像分割中的应用。计算机视觉和模式识别会议（CVPR）IEEE/CVF，2017年。6[8] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：查看合成与学习梯度下降。在2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）上，第2367-2376页，2019年。6[9] ThomasA. 放大图片作者：CarloH. 是的在复杂虚拟环境的可视化过程中，为交互式帧速率调整显示算法。在第20届计算机图形和交互技术年度会议，SIGGRAPH美国纽约，1993年。计算机协会3[10] 放大图片创作者： Brian Curless， Steven M. Seitz 和Richard Szeliski。走向互联网规模

下载后可阅读完整内容，剩余1页未读，立即下载