NPBG：高效神经点云图形合成

105 浏览量更新于2023-10-25 收藏 20.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

159690NPBG++：加速神经点云图形0Ruslan Rakhimov 1 � Andrei-Timotei Ardelean 1 � Victor Lempitsky 1 , 2 Evgeny Burnaev 1 , 301 俄罗斯斯科尔科沃科学技术学院 2 俄罗斯Yandex公司 3俄罗斯人工智能研究所0摘要0我们提出了一种新的系统（NPBG++）用于新颖视图合成（NVS）任务，它在低场景拟合时间下实现了高渲染逼真度。我们的方法有效地利用多视图观察和静态场景的点云来预测每个点的神经描述符，以几个重要的方式改进了神经点云图形[1]的流程。通过在源图像上进行单次预测描述符，我们消除了每个场景优化的要求，同时使神经描述符具有视图依赖性，更适用于具有强烈非Lambertian效果的场景。在我们的比较中，所提出的系统在拟合和渲染运行时间方面优于以前的NVS方法，同时产生类似质量的图像。项目页面：https://rakhimovv.github.io/npbgpp/。01. 引言0从少数观察中学习渲染场景的逼真视图的能力为虚拟/增强现实、电影制作、游戏行业以及几乎所有涉及计算机图形的领域打开了大门。虽然在创建这种新颖的视图合成（NVS）系统方面存在高度的兴趣，但这个问题被证明是具有挑战性的。早期基于视图插值的方法[4, 16,26]在现实世界的场景中效果不够好，这些场景涉及复杂的几何形状、输入图像的有限接近度、光照变化等。解决这个任务的不同工作通常试图改进的主要方向有：渲染图像质量、场景拟合时间和渲染速度。尽管深度学习方法在计算机视觉领域取得了近期的发展，但在NVS方面，当前的技术水平与理想模型之间仍存在明显差距。0� 相等贡献通信作者：ruslan.rakhimov@skoltech.ru0图1。时间比较。在NeRF合成数据集的“hotdog”场景上计算的几种方法的时间与图像质量（LPIPS）比较。时间轴表示渲染时间，即一个图像的拟合时间+渲染时间。对于标有�的方法，首次得分是在没有场景优化的情况下报告的。拟合时间包括IBRNet的特征提取、NPBG++的几何估计+3D建模阶段以及SVS的几何估计+网格化（顶部的渲染提供了这些配置之间的定性比较）。其余的得分是在微调过程的不同时间点计算的。圆的面积与渲染时间的对数成比例（越小越好），突出了方法的渲染速度。0为此，我们的工作提出了一个新的系统，实现了实时渲染，并能够快速适应新的场景。与神经点云图形（NPBG）[1]类似，我们的方法使用点云来建模场景的几何形状。这种表示方法有优势，因为通过使用廉价的RGBD相机或通过处理RGB流与经典的结构运动和多视图立体视觉流水线（如COLMAP [35,37]）可以获得点云。这些重建通常不够准确或完整，不能直接用于渲染，而进行表面估计可能会导致几何细节的丢失，并需要大量的额外处理。159700计算。相反，我们设计了一种直接处理原始点几何的方法，并使用神经渲染来解决小噪声和低点密度的问题。使用基于点的几何和神经渲染模型已经被证明可以产生良好的结果，如NVS系统[1,19-21]。然而，这些方法需要对每个点的描述符进行场景优化，以及可选的深度渲染网络，从而导致一个冗长的过程来实现高质量的渲染。为了加速这个过程，我们的方法从源图像中预测点的特征，实现了快速的场景表示，然后可以实时渲染。如果需要，可以进一步微调这些预测以提高结果的质量。该方法的挑战在于在考虑视图相关外观、遮挡和缺失信息的同时，正确地集成来自多个视图的数据。我们提出的系统是有效和快速的，如图1所示：对于每个输入图像和相关的相机参数，我们在其上运行特征提取器网络，得到表示每个像素局部外观的特征图。然后将点云投影到图像上，考虑遮挡以获取特征。我们设计了一种在线聚合方法，以有效地聚合每次从一个图像中获得的特征。在处理所有输入视图之后，我们得到每个点的最终视图相关神经描述符。然后，通过一个U-Net形状的网络将这个表示渲染出来，类似于NPBG[1]中点云的多尺度光栅化。为了进一步提高NPBG系统的质量，我们引入了两个重要的修改（也可以应用于类似的系统）。首先，我们展示了如何在不增加场景拟合时间的情况下高效地添加视图依赖性，同时提高了对于具有非Lambertian表面的场景的NPBG质量。其次，我们在流程中引入了两个轻量级的2D对齐阶段，以解决流水线的卷积部分对于平面旋转的非等变性。总之，我们的主要贡献是：0•一种新的NVS系统，能够快速生成神经场景表示，并以高分辨率以交互速率进行渲染。0•一种在线的、置换不变的聚合方法，可以将任意数量的源视图的特征以恒定的内存融合到神经描述符中，从而实现视图相关效果建模。0•一种使渲染过程对平面内旋转等变的对齐技术，适用于从图像估计的神经描述符的任何流水线。02. 相关工作0新颖视图合成。计算机视觉和图形学界长期以来一直对新颖视图合成问题感兴趣，特别是基于图像的渲染。已经开发了几种不同的方法，它们在如何利用和表示场景的底层几何形状上有所不同。从不依赖于显式几何代理并需要密集的图像样本集的光场渲染方法，到依赖于准确几何形状进行合成的方法。最近，围绕将深度学习模型应用于替代或增强经典流水线的部分的想法，引起了更多的兴趣。其中，神经网络被用于预测合成输入图像的混合权重，预测相机姿态，深度图，多平面图像和体素网格。此外，几种最近的方法利用神经场景表示来构建基于标准3D场景重建的不同代理几何形状，如点云或网格。引入神经辐射场（NeRF）带来了重要的突破，它提出使用完全连接的网络连续地对整个场景进行建模，并使用可微分体积渲染进行优化。该方法最近已经有了许多变体，解决了一些限制：所需视图的数量，观测间的差异，渲染速度和场景拟合时间。NVS系统通常可以分为两类：需要及时的场景优化的方法和可以通过学习有效地集成输入视图信息来快速推广到新场景的方法。第二类中的大多数系统还允许对特定场景进行微调，使其更加灵活和可取代第一组。我们提出的系统NPBG++属于后一类，因为它可以在单次遍历中从所有可用的观测中聚合信息。0基于点的图形。早期已经确定了使用点作为渲染基元，并因其简单性和效率而引起了兴趣。虽然它们速度快且冗余度小，但已经证明点云是一种适当的表示方法，可以实时渲染复杂对象。最近，将点云表示与深度学习方法相结合，即使在点云中存在噪声或稀疏性，也可以获得逼真的视图。还为使用surfels（定向平面盘）和球代替点的方法开发了使用生成性神经网络改进结果的方法。此外，深度学习与点云结合使用的发展也得到了促进。159710图2.NPBG++的概述：用于快速新颖视图合成的系统。我们将场景表示为一个点云，每个点都嵌入了视图相关的神经描述符。在3D建模阶段（第3.1节），我们逐个处理每个输入视图（输入图像对齐和特征提取），并应用在线聚合来更新每个点的神经描述符（无拟合）。在新颖视图合成阶段（第3.2节），我们对点云进行光栅化，将光栅化结果通过渲染网络，并进行后处理（输出图像对齐）以获得新颖视图。0可微分渲染模型的发展允许优化神经描述符[1]、点的不透明度[19]、它们的位置[49]和球体的半径[21]。我们的工作使用了基于点的几何模型，但是开发了一种通用的方法来集成图像特征，而不是针对每个点进行优化。这扩展了SynSin[49]中提出的新视图合成的单视图前馈点模型方法。0光场分解。为了处理镜面效果，必须使用一种视角相关的渲染系统。一种常用的方法是依靠球谐函数来表示球面函数[41]。球谐函数和球面高斯函数已被用于通过分解视角相关的外观来加速神经辐射场的推断[54]。在Wizadwongsa等人的工作中[50]，也使用了类似的思想，研究了几种基函数，如半球谐函数、傅里叶级数和雅可比球谐函数，通过可学习的基函数获得了最佳结果。更详细的信息，请参阅最近的综述[43]。03. 方法0给定一组多视图输入图像、相关的相机参数和静态场景的点云，我们的系统可以从新视角生成图像。为此，我们从输入视图中提取包含局部几何和光度属性的神经描述符，这些描述符是表示局部几何和光度属性的潜在向量。然后，使用几何点位置对潜在描述符进行光栅化，并将其转换为最终渲染结果，使用一个改进器（渲染器）卷积。0网络。与NPBG[1]不同，我们的系统是基于学习的：我们预测神经描述符，而不是为每个新场景优化它们（图2）。与基于图像的方法相比，后者从输入图像集中找到最近的视图以渲染新视图，我们的系统创建一个单一的场景模型。为了构建模型，我们以在线模式处理输入视图，一次处理一个，每次迭代更新点的中间状态。这些中间状态与处理的视图数量无关，允许我们在恒定内存中处理场景。在处理所有输入视图之后，我们使用中间状态计算最终描述符。我们在下面讨论建模阶段，以及之后的渲染过程和学习过程。03.1. 3D场景建模0特征提取。特征提取器是一个基于U-Net的网络[34]，它以图像作为输入，并输出一个密集的特征图（每个像素的描述符）。特征图的空间尺寸与输入图像相同。通道数等于神经描述符的大小（c=8）。我们将点投影到相机画布上，并进行双线性采样以获取描述符。我们使用这些描述符来更新点的中间状态。0输入图像对齐。双线性采样的特征描述符包含有关周围局部块的信息。如果旋转输入图像，描述符将发生变化，因为特征提取器网络默认情况下不具有旋转等变性。我们希望在不同视图获得的点的描述符之间更加一致。为此，我们可以考虑以下选项：y(v)1c1m mc1c(1)= 1(2)m×c =159720(i)设计系统以保持旋转不变性，尽管这会限制描述符的代表能力，(ii)使用旋转等变特征提取器[48]，尽管这必然会影响特征提取器的复杂性和/或降低其容量，(iii)在应用特征提取器之前将输入图像旋转到规范方向。我们采取的方法是最后一种选择，即将输入图像旋转到与规范方向对齐。我们定义这样的方向，使得世界上轴在图像平面上的投影在像素空间中具有垂直方向（指向顶部）（图2-左）。我们使用零填充并扩展图像大小以在旋转过程中保留所有图像内容（我们更改相机内参和外参以处理填充）。我们称此过程为输入图像对齐。0估计点的可见性。为了避免更新被遮挡点的描述符，我们近似估计每个点的可见性。我们通过构建Z缓冲区并将点云光栅化到尺寸减小的图像h2r×w上来实现这一点。02r。我们只考虑具有像素位置最小Z值的点可见。可见性减少因子设置为r =0，如果点云密集，否则增加。在这个过程中，我们应用“最近”光栅化方案（第3.2节）。虽然这个过程只是近似估计可见性，但与例如首先构建视觉外壳的方法（如[18]）相比，它速度快，并且不需要像更高级的光栅化方案[21,49]那样调整点的半径。0聚合。首先，对于当前处理的输入视角，给定一个新采样的描述符，我们希望设置或更新点的中间状态。在处理完所有输入视角之后，通过利用中间状态，我们得到点的最终神经描述符。这两个步骤完全定义了聚合过程。我们希望以在线模式处理来自新输入视角的传入描述符：一次处理一条新的信息，并且与输入视角的数量无关。因此，不适合考虑：（i）基于Transformer的[45]聚合，因为存在内存限制，（ii）LSTM [13]和GRU[6]循环网络，因为它们引入了对输入视角顺序的不希望的依赖。相反，我们设计我们的方法是置换不变的。一种可行的选择是平均或最大聚合。然而，这种方法的缺点是丢失了关于传入描述符的视角方向的信息，正如我们所示，这妨碍了对视角相关效应的建模能力。注意，视角相关效应也可以由考虑视角方向的细化器（渲染器）网络处理[21,44]。然而，这需要一个更复杂和更慢的细化器网络。相反，我们选择使每个点的神经描述符与视角相关。0图3. 视角相关的神经描述符。我们将视角相关的神经描述符 y: R3→ Rc 建模为球面上可学习基函数（H: R3 →Rm）的线性组合，其中系数βi ∈Rc（参见主文中的方程1）。对于一个新的场景，给定一组源图像，我们为每个点找到βi0更详细地说，我们将点的神经描述符y: R3 → Rc（c =8）建模为球面上可学习基函数的线性组合：0= H(v)0β0+ β00其中v是单位长度的视角方向，H: R3 →Rm表示一组m（我们使用m =6）基函数。H(v)可以表示球面谐波（SH）基函数，但我们将其建模为多层感知机（MLP），其权重在所有点之间共享。我们发现这种设置优于SH，详见第4节。系数β和β0需要找到，并且对于每个点都不同。参见图3中的图形说明。这种方法类似于NEX [50]，但NEX[50]模拟的是视角相关的RGB值而不是神经描述符。对于每个新场景，他们优化β0和一个MLP，该MLP以点的位置为输入并输出β。与NEX[50]不同的是，为了找到所有N个点的系数β和β0，我们解决了N个多元线性回归问题。对于每个点，我们有一组成对的{（vk，yk）}Kk =1，其中K是我们估计点可见的输入视角的数量（对于不同的点可能不同），vk∈R3是单位长度的视角方向，yk∈Rc是来自输入图像的采样描述符。在此基础上，我们如下找到描述符的参数：0β0 1× c0K0k=1 yk 1× c0m × c :=10K0k=1 H(vk)Tyk � �0m × c0−10K0k=1 H(vk)Tβ0 � �0m × c0β0�0�10K0k=1 H(vk)T H(vk) �� 0m × m0+0K Im0m × m0�0�0−10m ×c（3）0其中Im是单位矩阵，β0捕捉平均描述符，我们设置正则化器α=1。当一个新的描述符样本yk到达时，我们更新五个中间状态：K，�Kk=1yk，�Kk=1H(vk)T yk，�Kk=1H(vk)T。Rasterization step. Following NPBG [1], we construct aTL(I, Igt) = λ1Lvgg(I, Igt)+λ2L1(I ↓4, Igt ↓4)+λ3Lreg(Igt)159730� K k=1 H(vk)TH(vk)。请注意，中间状态的张量大小不包括输入视图的数量K。对于每个点，我们更新其中间状态，直到处理完所有输入视图。然后我们计算系数β和β0。我们排除在任何输入视图中都不可见的点。03.2.新视图合成0给定目标相机参数，将最终渲染到与之关联的画布上分为三个步骤：0描述符计算步骤。我们使用公式1计算描述符。02t−1�×(c+1)由于为每个像素分配通过深度测试的点的神经描述符，该点在相机全投影变换下投影到它，并且一个二进制标量，指示非空像素。此金字塔中分辨率最高的图像提供了细节，而分辨率最粗的图像最不容易出现表面出血，并引导了细化网络内部的隐式孔填充过程。我们用零填充没有点投影到的像素，而不是使用可学习的“空”描述符，正如最初在[1]中提出的那样。在我们的实验中，这种设置导致更好地推广到新视图。可以使用其他栅格化方案，例如软栅格化（SynSin [49]）和球追踪（Pulsar[21]），但由于其速度和缺乏额外可调参数，我们使用NPBG栅格化。0细化步骤。按照NPBG[1]的方法，我们使用具有门控卷积[56]的U-Net[34]架构的细化网络处理栅格化的原始图像S1，并将S2，...，ST附加到编码器网络的相应大小的中间层的输入中。这些中间输入指导网络以抵抗表面出血。细化器输出最终的RGB图像。0输出图像对齐。我们对栅格化和细化步骤进行了修改。由于细化网络是基于卷积的而不是旋转等变的，渲染的补丁会根据目标相机的y轴方向而有所不同。这在之前使用神经描述符的方法中被忽视了[1, 21,49]。因此，类似于输入图像对齐（第3.3节），我们首先将我们的最终图像栅格化和渲染到规范方向，然后将生成的图像旋转以与原始方向对齐（图2右）。03.3.训练0我们从不同场景中选择目标视图的批次，并在每次训练迭代中随机裁剪相同大小的补丁。我们在训练过程中使用补丁而不是整个图像，以减少内存负载。对于每个补丁，在训练过程中，我们仅选择三个相关视图，从中聚合描述符，然后渲染最终图像。视图选择。为了选择相关视图，我们遵循MVSNet[52]的方法：通过对目标补丁和输入视图中可见的点的分数求和，计算每个输入视图的得分。我们强调，视图选择仅用于改善训练，并且在训练后不再使用，即在场景拟合或新视图合成期间。点分数是基于角度的：连接两个相机中心和点的轨迹之间的角度越小，得分越高。关于确切的公式，我们将读者引用到[52]。输入视图得分定义了离散多项分布的概率，我们从中采样相关输入视图的索引。我们还按以下方式修改了原始过程。由于我们希望避免选择的所有图像都相似且不覆盖目标图像的某些部分的情况，我们不会一次性采样所有相关视图，而是按顺序进行。在选择第一个视图之后，我们删除在此图像中可见的点，并重新计算剩余视图的得分。我们重复选择和删除，直到获得所需数量的相关视图。裁剪。为了避免在原始大尺寸的选定图像上运行特征提取器网络，我们裁剪它们，使得裁剪包含尽可能多的目标补丁中的点。损失。我们使用以下训练损失：0其中 I 是渲染图像，I gt 是参考的真实图像。类似于[1,38]，L vgg 是VGG-19 [40]感知损失，L 1损失用于匹配图像的四倍双线性下采样版本，以防止高频细节平滑，同时鼓励颜色保持。此外，我们引入了自监督正则化损失Lreg，通过从真实图像中提取的高质量描述符来改善细化器网络R的学习信号（在测试时不可用）。L reg ( I gt )= L 1 (R ( pyr ( sg ( F ( I gt )))) , I gt )，其中 F是特征提取器，pyr ( ∙ ) 接收来自特征提取器 F的密集输出作为输入，并输出图像金字塔。金字塔中的第一张图像是 F ( I gt ) ∈ R h × w ×c。每个新级别的图像是通过对前一个图像进行2×2平均池化获得的。sg (stop-grad)是不可微分的身份函数的版本，用于避免捷径解决方案，例如通过直接将原始图像通过网络传递。我们设置 λ 1 =1，λ2 =2500，λ 3 =1000。Nerf-SyntheticScanNetDTUH3DS159740方法每个场景的优化 PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓0SVS [ 33 ] - 22.81 0.919 0.104 23.32 0.771 0.445 20.98 0.897 0.162 18.96 0.798 0.2100IBRNet [ 47 ] - 29.47 0.955 0.157 23.34 0.760 0.494 25.81 0.924 0.231 20.30 0.791 0.279 NPBG++ (我们的方法) - 26.06 0.936 0.071 23.11 0.766 0.502 23.23 0.9150.154 21.80 0.818 0.1770NPBG [ 1 ] - 28.62 0.946 0.058 25.09 0.737 0.459 26.00 0.913 0.125 24.68 0.827 0.1460NeRF [ 28 ] - 32.49 0.970 0.041 25.74 0.780 0.537 26.92 0.913 0.198 23.88 0.833 0.178 SVS ft [ 33 ] - 23.37 0.919 0.101 22.31 0.610 0.543 20.72 0.864 0.190 20.120.770 0.197 IBRNet ft [ 47 ] - 32.51 0.972 0.144 24.42 0.774 0.493 23.80 0.917 0.222 24.68 0.850 0.195 NPBG++ ft-system (我们的方法) - 26.24 0.940 0.064 23.480.768 0.490 24.05 0.919 0.147 23.79 0.836 0.155 NPBG++ ft (我们的方法) - 28.67 0.952 0.050 25.27 0.772 0.448 26.08 0.928 0.123 24.91 0.845 0.1370表1. 定量评估。对于每个数据集，我们计算保留帧上的指标[58]，并对保留场景进行平均。下标 ft 表示方法的微调版本。在NPBG++ ft的情况下，我们直接微调系数 ( β , β 0 ) 和细化器。在NPBG++ ft-system的情况下，我们微调特征提取器、聚合器（MLP：神经基函数）和细化器。04. 实验结果0数据集。我们在四个不同的数据集上验证了所提出方法的有效性：ScanNet [8]、NeRF-Synthetic [28]、H3DS[31]和DTU[14]。对于H3DS和DTU，我们对所有图像应用掩码，使背景变为白色。对于ScanNet，我们使用与NPBG[1]相同的方式使用深度数据获取点云几何。对于Nerf-synthetic、DTU和H3DS，我们使用多视图立体匹配方法PatchmatchNet[46]，它在速度和点云质量之间提供了良好的平衡。与其他MVS方法（如COLMAP[36]）相比，我们发现它更快，并且能够产生更多的表面覆盖。有关数据集的更多详细信息，请参阅补充材料。0训练细节。我们每个时期只考虑四个不同的场景，通过缓存输入点云来加速训练时间。每次迭代，我们采样八个大小为256x256的目标补丁。每个时期持续2000次迭代。为了避免过拟合，我们对目标补丁和输入视图补丁应用颜色增强。我们在ScanNet数据集上训练我们的系统（特征提取器、聚合器和细化器）。我们从ScanNet预训练开始，对于其他数据集，我们在该数据集的训练场景上微调系统。有关实现细节，请参阅补充材料。0比较方法。我们将我们的结果与几种最新的神经渲染算法进行比较。0• NPBG [1]:一种面向每个场景优化的神经点图形方法。我们以忠实的方式重新实现了原始网络，并在与我们的流程相同的场景集上预训练了细化网络，以进行公平比较。0• NeRF [28]:一种面向每个场景优化的体素渲染方法。我们使用稍快的PyTorch实现[53]。0方法 H3DS DTU Nerf-Synthetic0NPBG++ w/ H3DS ft 0.177 0.176 0.102 NPBG++w/ DTU ft 0.209 0.154 0.0930NPBG++ w/ Nerf ft 0.212 0.164 0.0710表2.跨数据集泛化。我们报告每个数据集的保留帧上的LPIPS↓的平均值。0• SVS [33]:稳定视图合成使用几何脚手架，其在其表面上聚合图像特征。该方法能够在没有优化的情况下渲染新场景；系统的进一步微调是可选的。0• IBRNet [47]:一种基于图像的渲染方法，学习适用于新场景的通用视图插值函数。0评估。表1显示了与几个标准指标（SSIM、PSNR和LPIPS[58]）的最新技术的定量比较。图4显示了定性比较。表2展示了我们方法的泛化能力。结果显示，我们的方法在没有场景优化的情况下可以产生优越的渲染效果，与SVS相比，通常与具有快速泛化能力的IBRNet相当。虽然在某些指标上，IBRNet在某些场景上更好，但NPBG++相对于IBRNet的渲染速度优势是巨大的（≈1000×）。细调案例的数值结果证实了我们的视角依赖建模是有效的，使我们能够在所有数据集上优于NPBG。所提出的方法在DTU和H3DS场景上获得了领先的分数，并在ScanNet和NeRF-Synthetic数据集上是一个有竞争力的方法。在后者中，我们的方法受到由MVS系统估计的较低质量几何的限制，可能会159750图4. 定性评估。在ScanNet [8]、NeRF-Synthetic [28]、DTU [14]、H3DS [31]场景上与基于优化的方法（NPBG [1]、NeRF[28]）和基于学习的方法（IBRNet [47]、SVS [33]）的比较。0可以通过使用可微分的光栅化方案来改进，该方案与点的位置有关[21, 49]。0定性比较显示，我们的方法可以生成略微模糊但全面且一致的场景视图。当图像的某些部分未包含在足够的源图像中时，IBRNet渲染的图像可能会引入伪影（例如，在ScanNet-0000上）。如果训练图像只有几张或者视图选择方法表现不佳，就可能发生这种情况。请注意，我们测试了所有官方实现的方法，并且报告的图像和分数是使用最佳性能的方法获得的。NPBG++不会遇到这个问题，因为它会从所有图像中聚合特征。SVS在表示细小结构（例如NeRFsynthetic）方面存在困难，并且在以物体为中心的场景中经常产生虚假伪影。NPBG通常产生高质量的结果；然而，由于设计上无法处理视角相关效果，因此对于光滑表面会产生平淡的结果。NeRF通常提供良好的结果，但拟合和渲染时间较长0使许多用例变得不切实际。0运行时分析。对于推理，我们比较了几种最新技术的速度的两个不同阶段。在第一阶段（拟合阶段），算法从源图像中获取信息。对于基于每个场景优化的方法，这通常意味着训练场景的神经表示。对于IBRNet，这意味着在选择的相邻视图上运行特征提取器。对于我们的方法，它指的是3D建模阶段（第3.1节）。使用几何代理（如SVS、NPBG和NPBG++）的方法需要在此阶段构建3D表示。为了进行公平比较，此过程所需的时间包含在时间测量中。这个第一步每个场景只执行一次，之后每个模型应该能够渲染任意数量的新视图，即第二阶段（渲染）。如图1所示，NeRF和IBRNet的渲染时间非常长。值得注意的是，使用IBRNet渲染新图像所需的时间大于整个0.2660.1880.1390.1370.51%4.64%25.37%31.6%LPIPS↓0.2190.2050.1780.1550.137LPIPS↓0.2210.1770.1620.1540.137LPIPS↓159760参考0图5.对点云稀疏性的鲁棒性。我们随机丢弃不同数量的点云。在每种情况下，我们展示了光栅化后填充像素的百分比。效果以DTU的scan118为例。020mm 10mm 5mm 3mm 0mm0参考0图6.对几何噪声的鲁棒性。我们沿着随机单位方向将每个点移动指定的值。我们报告了在保留帧上平均的LPIPS↓。效果以DTU的scan118为例。0我们的方法的整个拟合过程。NeRF、PlenOctrees和NPBG需要每个场景进行拟合，这导致获得良好质量结果的时间更长。在不需要优化的方法中，我们的模型具有最短的渲染时间（拟合+渲染时间）：SVS受到表面估计的减速，IBRNet的计时由渲染步骤主导。0消融实验。首先，我们展示了输入和输出图像对齐的影响。为了证明这一点，我们运行了我们系统和NPBG [1]的不同修改版本（表4）。将输出图像对齐添加到NPBG中可以改善度量。在NPBG++的情况下，仅使用输入或仅使用输出图像对齐会使度量变差。这可能是由于输入和输出图像中相机y轴方向分布的不对齐造成的。然而，同时启用输入和输出对齐可以解决这个问题并改善度量。其次，我们测试了我们的系统对几何缺陷的鲁棒性，例如点云的稀疏性（图5），噪声（图6）以及少量图像的情况（图7）。该方法在所有情况下都表现出优雅的退化。第三，我们比较了聚合过程的不同变体（表3）。我们观察到，视角相关的变体优于简单的平均聚合。在球谐函数（SH）的情况下，由于内存限制，我们仅比较了4个谐波设置。使用m=6个基函数的MLP获得了最佳结果。05. 总结和限制0在本文中，我们介绍了NPBG++，一种用于新视角合成的新系统，可以通过所有可用的源视角一次性快速获取场景的神经表示。我们通过在线线性回归解决方程来获得学习基函数的系数。0几何渲染0#视角=3 #视角=5 #视角=7 #视角=9 #视角=50 参考0图7.对输入视角数量的鲁棒性。我们报告了在保留帧上平均的LPIPS↓。效果以DTU的scan118为例。0PSNR ↑ SSIM ↑ LPIPS ↓0平均 21.41 0.749 0.525 球谐函数（m=4） 22.19 0.7530.513 MLP（m=3） 22.97 0.756 0.500MLP（m=6）（默认） 23.11 0.766 0.5010表3.聚合。我们测试了聚合过程的不同选项，如第3.1节所讨论的。我们报告了在三个保留的ScanNet {0,43,45}场景上平均的度量。0方法输入图像对齐输出图像对齐 PSNR ↑ SSIM ↑ LPIPS ↓0NPBG（原始）[1] n/a 26.00 0.913 0.125 NPBG n/a 26.16 0.920 0.1260NPBG++ n/a n/a 22.53 0.912 0.149 NPBG++ n/a n/a 21.87 0.876 0.201 NPBG++n/a n/a 22.47 0.879 0.203 NPBG++（默认） n/a n/a 23.23 0.915 0.1540表4.对齐的影响。我们提供了实证证据，说明输入和输出图像对齐（第3.1节，第3.2节，图1）如何改善神经点图形流水线的最终结果。我们报告了在三个保留的DTU场景{110,114,118}上平均的度量。在NPBG的情况下，为每个场景和每个对齐训练了一个单独的网络。0它允许我们建模视角相关的神经描述符。然后，这些描述符用于轻松地从任意相机姿势渲染新视角。我们展示了我们的系统可以以其他方法所需时间的一小部分产生高质量的结果，同时还实现了中等分辨率图像的实时渲染。NPBG++从NPBG继承了一些限制，因为它仍然需要一个明确的基础几何模型（点云）。在点云高度错误或不准确的相机对齐以及极端尺度变化的情况下，渲染可能会出现模糊。我们还在方程3中引入了一个α超参数，但是对所有点保持相同的值（α=1.0）可能会过度规范化解决方案并减弱视角相关效果。致谢。作者感谢Skoltech CDISE超级计算机Zhores[57]的计算资源，用于获得本文中呈现的结果。该工作得到了俄罗斯联邦政府分析中心的支持（补贴协议000000D730321P5Q0002，2021年11月2日授予号码70-2021-00145）。159770参考文献0[1] Kara-Ali Aliev, Artem Sevastopolsky, Maria Kolos, DmitryUlyanov, and Victor Lempitsky.神经点基图形。在计算机视觉-ECCV2020:第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，论文集，第XXII卷，第16页，第696-712页。Springer，2020年。1，2，3，5，6，7，80[2] Giang Bui, Truc Le, Brittany Morago, and Ye Duan.通过深度学习改进基于点的渲染。The VisualComputer，34(6):829–841，2018年。20[3] Anpei Chen, Zexiang Xu, Fuqiang Zhao, Xiaoshuai Zhang,Fanbo Xiang, Jingyi Yu, and Hao Su. Mvsnerf:从多视图立体重建中快速可推广的辐射场重建。arXiv预印本arXiv:2103.15595，2021年。20[4] Shenchang Eric Chen and Lance Williams.图像合成的视图插值。在第20届计算机图形学和交互技术年会上的论文集中，页279-288，1993年。10[5] Julian Chibane, Aayush Bansal, Verica Lazova, and GerardPons-Moll.立体辐射场（SRF）：学习稀疏视图的视图合成。在IEEE/CVF计算机视觉和模式识别会议论文集中，页7911-7920，2021年。20[6] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre,Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, andYoshua Bengio.使用RNN编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv:1406.1078，2014年。40[7] Charles Csuri, Ron Hackathorn, Richard Parent, WayneCarlson, and Marc Howard.朝着一个交互式高视觉复杂度的动画系统。Acm SiggraphComputer Graphics，13(2):289–299，1979年。20[8] Angela Dai, Angel X. Chang, Manolis Savva, MaciejHalber, Thomas Funkhouser, and Matthias Nießner. Scannet:室内场景的丰富注释的3D重建。在计算机视觉和模式识别（CVPR）的会议论文集中，IEEE，2017年。5，70[9] John Flynn, Ivan Neulander, James Philbin, and NoahSnavely. Deepstereo:从世界图像预测新视角。在IEEE计算机视觉和模式识别会议论文集中，页5515-5524，2016年。20[10] Stephan J Garbin, Marek Kowalski, Matthew Johnson,Jamie Shotton, and Julien Valentin. Fastnerf:200fps的高保真神经渲染。arXiv预印本arXiv:2103.10380，2021年。20[11] Jeffrey P Grossman and William J Dally.点采样渲染。在渲染技术的欧洲图形学研讨会上，页181-192。Springer，1998年。20[12] Peter Hedman, Julien Philip, True Price, Jan-MichaelFrahm, George Drettakis, and Gabriel Brostow.深度融合用于自由视点基于图像的渲染。ACM Transactions onGraphics (TOG)，37(6):1–15，2018年。20[13] Sepp Hochreiter和J¨urgenSchmidhuber。长短期记忆。神经计算，9（8）：1735-1780，1997年。40[14] Rasmus Jensen，Anders Dahl，George Vogiatzis，EnginTola和Henrik Aanæs。大规模多视图立体视觉评估0评估。在计算机视觉和模式识别的IEEE会议论文集中，页码为406-413，2014年。6，70[15] Nima Khademi Kalantari，Ting-Chun Wang和Ravi Ra-mamoorthi。基于学习的光场相机视图合成。ACM Transactionson Graphics（TOG），35（6）：1-10，2016年。20[16] Takeo Kanade，PJ Narayanan和Peter WRander。虚拟现实：概念和初步结果。在IEEE Workshop on Representation ofVisualScenes（与ICCV'95联合举办）的论文集中，页码为69-76。IEEE，1995年。10[17] Abhishek Kar，Christian H¨ane和JitendraMalik。学习多视图立体机器。在I. Guyon，U. V. Luxburg，S.Bengio，H. Wallach，R. Fergus，S. Vishwanathan和R.Garnett编辑的《神经信息处理系统进展》第30卷中。CurranAssociates，Inc.，2017年。20[18] Sagi Katz，Ayellet Tal和Ron

下载后可阅读完整内容，剩余1页未读，立即下载