RegNeRF：稀疏输入场景下的神经辐射场正则化视图合成

193 浏览量更新于2023-10-25 收藏 21.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

54800RegNeRF：对稀疏输入的神经辐射场进行正则化以进行视图合成0Michael Niemeyer 1 , 2 , 3 * Jonathan T. Barron 3 Ben Mildenhall 30Mehdi S. M. Sajjadi 3 Andreas Geiger 1 , 2 Noha Radwan 301 Max Planck Institute for Intelligent Systems, T¨ubingen 2 University ofT¨ubingen 3 Google Research0{ firstname.lastname } @tue.mpg.de { barron, bmild, msajjadi, noharadwan } @google.com0https://m-niemeyer.github.io/regnerf0摘要0神经辐射场（NeRF）由于其简单性和最先进的性能而成为新视图合成任务的强大表示。尽管当有许多输入视图可用时，NeRF可以生成逼真的渲染结果，但当输入视图数量减少时，其性能显著下降。我们观察到，在稀疏输入场景中，大部分伪影是由于估计的场景几何错误和训练开始时的发散行为引起的。我们通过对从未观察到的视点渲染的补丁的几何和外观进行正则化，并在训练过程中退火射线采样空间来解决这个问题。我们还使用归一化流模型对未观察到的视点的颜色进行正则化。我们的模型不仅优于仅优化单个场景的其他方法，而且在许多情况下还优于在大规模多视图数据集上进行广泛预训练的条件模型。01. 引言0基于坐标的神经表示[7, 34, 35,44]在3D视觉领域越来越受欢迎。特别是，神经辐射场（NeRF）[37]已成为新视图合成任务的强大表示，其目标是从给定的一组输入图像中渲染场景的未观察到的视点。尽管NeRF实现了最先进的性能，但它需要对场景进行密集覆盖。然而，在AR/VR、自动驾驶和机器人等实际应用中，输入通常更稀疏，每个场景的对象或区域只有少量视图可用。0* 本工作主要是在Google实习期间完成的。0（a）稀疏的3个输入图像0（b）mip-NeRF[2]合成的新视图0（c）我们方法合成的相同新视图0图1.从稀疏输入中合成视图。尽管神经辐射场（NeRF）在提供许多输入图像的情况下可以实现最先进的视图合成，但当只有少量视图可用时，结果会下降（1b）。相比之下，即使在稀疏输入的情况下，我们的新颖正则化和优化策略也可以产生3D一致的表示，从而呈现出逼真的新视图（1c）。0在这种稀疏的情况下，NeRF渲染的新视图质量显著下降（见图1）。一些研究提出了条件模型来克服这些限制[6, 8,30, 56, 58,62]。这些模型需要昂贵的预训练，即在大规模数据集上训练模型，其中包含许多场景的多视图图像和相机姿态注释，而不是针对给定的测试场景从头开始进行测试时优化。在测试时，可以通过摊销推理从仅有少量输入图像生成新视图，可选择与每个场景的测试时微调相结合。尽管这些模型取得了有希望的结果，但获取必要的54810？0图2.概述。NeRF通过对给定的一组输入图像（蓝色相机）进行重建损失进行优化。然而，在稀疏输入的情况下，这会导致退化的解决方案。在这项工作中，我们提出对未观察到的视点（红色相机）进行采样，并对从这些视点渲染的补丁的几何和外观进行正则化。更具体地说，我们通过场景中的射线并从未观察到的视点渲染补丁，给定辐射场fθ。然后，我们通过经过训练的归一化流模型ϕ将预测的RGB补丁输入，并最大化预测的对数似然。我们通过对渲染的深度补丁施加平滑损失来对几何进行正则化。我们的方法可以产生3D一致的表示，即使对于稀疏输入也可以呈现出逼真的新视图。0通过捕捉或渲染许多不同场景的预训练数据可能会非常昂贵。此外，这些技术在测试时可能无法很好地推广到新领域，并且可能由于稀疏输入数据的固有模糊性而产生模糊的伪影。另一种替代方法是针对每个新场景从头开始优化网络权重，并引入正则化以改善稀疏输入的性能，例如通过添加额外的监督[24]或学习代表输入视图的嵌入[19]。然而，现有的方法要么严重依赖于可能并不总是可用的外部监督信号，要么在提供仅提供高级信息的低分辨率渲染场景的情况下运行。贡献：在本文中，我们提出了一种名为RegNeRF的新方法，用于规范化稀疏输入场景下的NeRF模型。我们的主要贡献如下：0•用于从未观察到的视点渲染的深度图的基于补丁的正则化器，减少浮动伪影并改善场景几何。0•通过最大化渲染补丁的对数似然来规范化在未见视点上预测的颜色，从而避免不同视图之间的颜色偏移。0•一种沿射线采样点的退火策略，在训练初期首先在一个小范围内采样场景内容，然后扩展到整个场景边界，以防止训练过早发散。02. 相关工作0神经表示：在3D视觉中，基于坐标的神经表示[7, 34, 35,44]已成为各种任务的流行表示，例如3D重建[1, 7, 13, 14,34, 40, 43-45, 48, 51, 55, 57]，3D感知生成建模[5, 9, 15,16, 33, 38, 39, 42, 49, 64]和新视图合成[2, 3, 12, 22, 25,28, 32, 37, 41,0[52, 60,61]。与传统的点云、网格或体素等表示不同，这种范式将3D几何和颜色信息表示为神经网络的权重，从而实现了紧凑的表示。几个研究[29, 37, 41, 52,61]提出了不同的可微渲染方法，仅通过多视图图像监督学习神经表示。其中，神经辐射场（NeRF）[37]由于其简单性和最先进的性能，在新视图合成方面成为一种强大的方法。在mip-NeRF[2]中，使用锥追踪替代了基于点的光线追踪以对抗混叠。由于这是一种对于具有不同相机距离的场景更稳健的表示，并将NeRF的粗糙和细致的多层感知器网络减少到一个多尺度多层感知器网络，我们采用mip-NeRF作为我们的场景表示。然而，与之前的作品[2,37]相比，我们考虑了一个更稀疏的输入场景，在这种场景中，NeRF和mip-NeRF都无法产生逼真的新视图。通过规范化场景几何和外观，我们能够合成高质量的渲染图像，尽管只使用了3个宽基线输入图像。0稀疏输入新视图合成：一种避免密集输入要求的方法是通过预训练辐射场的条件模型来聚合先验知识[6, 8, 20, 27, 30,47, 56, 58, 62]。我们将以下讨论和实验比较限制在[6, 8,62]上，因为与其他作品不同，它们明确考虑了稀疏输入场景。PixelNeRF [62]和Stereo Radiance Fields[8]使用从输入图像中提取的局部CNN特征，而MVSNeRF[6]通过图像配准获得一个3D成本体，然后通过3DCNN进行处理。尽管它们取得了令人信服的结果，但这些方法需要许多不同场景的多视图图像数据集进行预训练，这并不总是容易获得并且可能很昂贵。此外，大多数方法在测试时需要对网络权重进行微调，尽管有长时间的预训练阶段，但质量不一定会得到提高。fθ : RLx × RLd → [0, 1]3 × [0, ∞)(γ(x), γ(d)) �→ (c, σ) .(1)ˆcθ(r) =tfT(t)σθ(r(t))cθ(r(t), d) dtσθ(r(s)) ds�,(2)LMSE(θ, Ri) =�r∈Ri∥ˆcθ(r) − cGT(r)∥2 ,(3)548203. 方法03. 方法0我们提出了一种针对稀疏输入的神经辐射场的新型优化方法。具体而言，我们的方法基于mip-NeRF[ 2]，它使用多尺度辐射场模型来表示场景（第3.1节）。对于稀疏视图，我们发现mip-NeRF的视图合成质量主要下降是由于场景几何形状不正确和训练发散引起的。为了克服这个问题，我们提出了一种基于补丁的方法来规范从未见过的视点的预测颜色和几何形状（第3.2节）。我们还提供了一种策略来退火场景采样边界，以避免训练开始时的发散（第3.3节）。最后，我们使用更高的学习率结合梯度剪裁来加速优化过程（第3.4节）。图2显示了我们方法的概述。03.1. 背景0神经辐射场辐射场是一个将3D位置 x ∈ R 3 和视角 d∈ S 2 映射到体积密度 σ ∈ [0 , ∞ ) 和颜色值 c ∈ [0, 1] 3 的连续函数 f 。Mildenhall等人[ 37]使用多层感知器（MLP）对这个函数进行参数化，MLP的权重被优化以重建特定场景的一组输入图像。0这里， θ 表示网络权重， γ 是预定义的位置编码[ 37 ,55]，应用于 x 和 d 。0体素渲染：给定神经辐射场 f θ ，通过从相机中心 o通过像素沿着方向 d 投射光线 r ( t ) = o + t d，来渲染像素。对于给定的近界和远界 t n 和 t f，使用alpha混合计算像素的预测颜色值 ˆ c θ ：0其中 T ( t ) = exp � − � t0并且 σ θ ( ∙ ) 和 c θ ( ∙ , ∙ ) 分别表示辐射场 f θ的密度和颜色预测。在实践中，这些积分使用求积法来近似计算[ 37]。神经辐射场通过最小化均方误差来优化一组输入图像及其相机姿态。0其中 R i 表示一组输入光线， c GT表示其GT颜色。mip-NeRF：NeRF每个像素只投射一条光线，而mip-NeRF[ 2]则投射一个锥体。位置编码从表示无穷小点变为表示锥形锥体覆盖的体积的积分。这对于具有不同相机距离的场景来说是更合适的表示，它允许NeRF的粗糙和细致的MLP组合成一个单一的多尺度MLP，从而提高训练速度并减小模型大小。我们在这项工作中采用了mip-NeRF表示。03.2. 基于补丁的正则化0如果输入视图的数量稀疏，NeRF的性能会显著下降。为什么会这样？通过分析其优化过程，我们发现模型仅通过（3）中的重建损失从这些稀疏视点进行监督。虽然它学会了完美地重建输入视图，但是由于在这种稀疏输入情况下模型没有偏向于学习一个3D一致的解决方案，因此新视图可能是退化的（见图1）。为了克服这个限制，我们对未观察到的视点进行正则化。具体而言，我们定义了一个未观察到但相关的视点空间，并从这些相机中随机采样小补丁。我们的关键思想是这些补丁可以被正则化以产生平滑的几何形状和高可能性的颜色。未观察到的视点选择：为了对未观察到的视点应用正则化技术，我们首先必须定义未观察到的相机姿态的样本空间。我们假设已知一组目标姿态�Pi target�0i，其中0Pi target = � Ri target | ti target � ∈ SE(3) . (4)0这些目标姿态可以被认为是限制了我们希望在其中渲染新视图的姿态集合的边界(5)ˆdθ(r) =� t�ˆdθ(rij) − ˆdθ(ri+1j)�2+�ˆdθ(rij) − ˆdθ(rij+1)�2,(9)(11)(13)54830测试时，我们将可能的相机位置空间定义为所有给定目标相机位置的边界框0St = � t ∈ R3 | tmin ≤ t ≤ tmax �0其中tmin和tmax是�ti target�的逐元素最小值和最大值0i，分别。为了获得相机旋转的样本空间，我们假设所有相机大致都聚焦在一个中心场景点上。我们通过计算所有目标姿态的上轴的归一化平均值来定义一个共同的“上”轴¯pu。接下来，我们通过求解最小二乘问题来计算平均焦点¯pf，以确定与所有目标姿态的光轴之间的最小平方距离的3D点。为了学习更健壮的表示，我们在计算相机旋转矩阵之前对焦点添加随机抖动。我们将所有可能的相机旋转（给定采样位置t）定义为：0SR|t = { R(¯pu, ¯pf + ϵ, t) | ϵ � N(0, 0.125) } (6)0其中，R(∙, ∙,∙)表示得到的“观察”相机旋转矩阵，ϵ是添加到焦点的小抖动。我们通过采样位置和旋转来获得随机相机姿态：0SP = { [R|t] | R � SR|t, t � St } (7)0几何正则化：众所周知，真实世界的几何形状往往是分段平滑的，即平坦的表面比高频结构更常见[18]。我们通过鼓励从未观察到的视点处的深度平滑来将这个先验知识融入到我们的模型中。类似于(2)中渲染像素的颜色，我们计算期望的深度为：0tnT(t)σθ(r(t))tdt . (8)0我们将深度平滑损失定义为0LDS(θ, Rr) = �0Spatch − 1 �0其中，Rr表示从相机姿态SP采样的一组光线，rij是通过位于r处的补丁上的像素(i,j)的光线，Spatch是渲染补丁的大小。颜色正则化：我们观察到，对于稀疏输入，大多数伪影是由于场景几何不正确造成的。然而，即使几何正确，优化NeRF模型仍可能导致颜色偏移或其他场景外观预测错误，这是由于输入的稀疏性引起的。0输入。为了避免退化的颜色并确保稳定的优化，我们还对颜色预测进行正则化。我们的关键思想是估计渲染补丁的可能性并在优化过程中最大化它们。为此，我们利用现成的非结构化2D图像数据集。请注意，尽管收集姿势多视图图像的数据集成本高昂，但非结构化自然图像的收集数量很大。我们对JFT-300M数据集[53]中的补丁训练了一个RealNVP[10]归一化流模型。通过这个训练好的流模型，我们估计了渲染补丁的对数似然（LL）并在优化过程中最大化它们。让0ϕ：[0, 1]Spatch × Spatch × 3 →0是将大小为Spatch =8的RGB补丁映射到Rd的学习双射，其中d = Spatch ∙Spatch ∙ 3。我们将颜色0L NLL(θ, Rr) = 0r ∈Rr - log pZ �ϕ�ˆPr��0其中ˆPr = {ˆcθ(rij) | 1 ≤ i, j ≤ Spatch}0而Rr表示从SP中采样的一组射线，ˆPr表示以r为中心的预测RGB颜色补丁，-logpZ表示具有高斯pZ的负对数似然（“NLL”）。总损失：我们在每次迭代中优化的总损失为0L MSE(θ, Ri) + λD L DS(θ, Rr) + λN L NLL(θ, Rr)（12）0其中Ri和Rr分别表示输入和随机姿势的射线，λN =10-6，并将λD退火到0.1。03.3.样本空间退火0对于非常稀疏的场景（例如3个或6个输入视图），我们观察到NeRF的另一种失败模式：在训练开始时出现发散行为。这导致射线起源处的高密度值。虽然输入视图被正确重建，但新视图退化，因为没有恢复3D一致的表示。我们发现，在优化过程的早期迭代中快速退火采样场景空间有助于避免这个问题。通过将场景采样空间限制在为所有输入图像定义的较小区域内，我们引入了一个归纳偏差，以在场景中心解释输入图像的几何结构。根据（2），tn，tf是相机的近平面和远平面，让tm是一个定义的中心点（通常是tn和tf的中点）。我们定义0tn(i) = tm + (tn - tm)η(i)0tf(i) = tm + (tf - tm)η(i)0η(i) = min(max(i/Nt, ps), 1)54840（a）稀疏的3个输入视图0（b）PixelNeRF（PSNR：17.37/16.89）0（c）我们的方法（PSNR：8.79/20.08）0（d）GT0图3.评估偏差。DTU中的许多场景由白色桌子上的物体和黑色背景组成，导致评估偏差偏向于正确的背景而不是感兴趣的对象。对于稀疏输入，背景可能只在输入视图中部分观察到，并且强烈地过拟合于桌子，尽管大多数实际应用程序都希望准确重建感兴趣的对象。这里我们展示了PixelNeRF的完整图像（第一张）和感兴趣对象（第二张）的PSNR（从17.37降至16.89），以及我们的方法（从8.79提高至20.08）。0其中i表示当前训练迭代次数，Nt表示多少次迭代达到全范围的超参数，ps表示开始范围的超参数（例如0.5）。这种退火策略适用于输入姿势和采样的未观察视点的渲染。我们发现这种退火策略可以确保在早期训练期间稳定，并避免退化解。03.4.训练细节0我们在官方JAX [4]mip-NeRF代码库的基础上构建了我们的代码。我们使用Adam[26]进行优化，学习率指数衰减从2∙10-3到2∙10-5。我们将梯度剪裁值设置为0.1，然后按范数剪裁为0.1。我们在DTU上进行了500个像素时代的训练，例如对于3/6/9个输入视图分别进行了44K、88K和132K次迭代（比mip-NeRF的默认250K步骤[37]少）。我们在一个具有8个核心的TPU上训练所有模型[23]。04.实验0数据集我们在真实世界的多视角数据集DTU [21]和LLFF[36]上报告了结果。DTU包含放置在桌子上的物体的图像，而LLFF由复杂的前向场景组成。对于DTU，我们观察到在具有白色桌子和黑色背景的场景中，无论渲染的感兴趣对象的质量如何，模型都会因为错误的背景预测而受到严重惩罚（见图3）。为了避免这种背景偏差，我们将所有方法都应用于渲染图像上的对象掩码进行评估（完整图像评估见补充材料）。我们遵循Yu等人的协议[62]，在他们报告的15个场景的测试集上进行评估。对于LLFF，我们遵循社区的做法0mip-NeRF [ 2 ] 我们的 mip-NeRF [ 2 ] 我们的0（a）3个输入视图0（b）6个输入视图0（c）9个输入视图0图4. 几何形状的重要性。我们在LLFF数据集上比较了mip-NeRF [ 2]和我们方法的期望深度图（左）和RGB渲染（右）。优化后的几何形状质量与视图合成性能相关：我们提出的场景空间退火和几何正则化策略消除了浮动伪影（见放大）并产生平滑的几何形状，从而提高了渲染新视图的质量。0标准[ 37]并使用每8张图像中的一张作为保留的测试集，并从剩余的图像中均匀选择输入视图。根据之前的工作[ 62]，我们报告了3个、6个和9个输入视图的结果。指标：我们报告PSNR的平均值、结构相似性指数（SSIM）[ 59]和LPIPS感知度量[ 63]。为了便于比较，我们还报告了MSE的几何平均值 = 10 −01 − SSIM和LPIPS [ 2]。基线：我们与最先进的条件模型PixelNeRF [ 62]，立体辐射场（SRF）[ 8 ]和MVSNeRF [ 6]进行比较。我们重新训练PixelNeRF以适应6 /9视图的情况，从而获得更好的结果，我们同样使用3 / 6 /9视图对SRF进行预训练。我们在大规模的DTU数据集上对所有方法进行预训练。LLFF数据集已被证明对于预训练来说太小[ 24]，因此作为条件模型的分布外测试。我们还报告了在不需要预训练的mip-NeRF [ 2 ]和DietNeRF [ 19]上的结果，与我们的方法一样。由于没有官方代码可用，我们在mip-NeRF代码库的基础上重新实现了DietNeRF（取得更好的结果），并且每个场景的训练两种方法均进行了250K次迭代，学习率从5 ∙ 10 − 4衰减到5 ∙ 10 − 5。04.1. 稀疏输入的视图合成0我们首先将我们的模型与基线的vanillamip-NeRF进行比较，分析我们的正则化器对场景几何形状、外观和数据效率的影响。3456714 15 16 17 1810121416182022242655%54850设置 PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓03个视图 6个视图 9个视图 3个视图 6个视图 9个视图 3个视图 6个视图 9个视图 3个视图 6个视图 9个视图015.32 17.54 18.35 0.671 0.730 0.752 0.304 0.250 0.232 0.171 0.132 0.120 PixelNeRF [ 62 ] 16.82 19.11 20.40 0.695 0.745 0.768 0.270 0.232 0.220 0.147 0.1150.100 MVSNeRF [ 6 ] 18.63 20.70 22.40 0.769 0.823 0.853 0.197 0.156 0.135 0.113 0.088 0.068015.68 18.87 20.75 0.698 0.757 0.785 0.281 0.225 0.205 0.162 0.114 0.093 PixelNeRF ft [ 62 ] 18.95 20.56 21.83 0.710 0.753 0.781 0.269 0.223 0.203 0.1250.104 0.090 MVSNeRF ft [ 6 ] 18.54 20.49 22.22 0.769 0.822 0.853 0.197 0.155 0.135 0.113 0.089 0.06908.68 16.54 23.58 0.571 0.741 0.879 0.353 0.198 0.092 0.323 0.148 0.056 DietNeRF [ 19 ] 11.85 20.63 23.83 0.633 0.778 0.823 0.314 0.201 0.173 0.243 0.1010.068 我们的 18.89 22.20 24.93 0.745 0.841 0.884 0.190 0.117 0.089 0.112 0.071 0.0470表1.DTU上的定量比较。对于3个输入视图，我们的模型在不需要昂贵的预训练阶段的情况下，实现了与条件模型（SRF，PixelNeRF，MVSNeRF）相当的定量结果，并且在与我们相同设置的其他基线（mip-NeRF，DietNeRF）上表现出色。对于6个和9个输入视图，我们的模型实现了最好的整体定量结果。0设置 PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓03视图 6视图 9视图 3视图 6视图 9视图 3视图 6视图 9视图 3视图 6视图 9视图012.34 13.10 13.00 0.250 0.293 0.297 0.591 0.594 0.605 0.313 0.293 0.296 PixelNeRF [62] 7.93 8.74 8.61 0.272 0.280 0.274 0.682 0.676 0.665 0.461 0.4330.432 MVSNeRF [6] 17.25 19.79 20.47 0.557 0.656 0.689 0.356 0.269 0.242 0.171 0.125 0.111017.07 16.75 17.39 0.436 0.438 0.465 0.529 0.521 0.503 0.203 0.207 0.193 PixelNeRF ft [62] 16.17 17.03 18.92 0.438 0.473 0.535 0.512 0.477 0.430 0.2170.196 0.163 MVSNeRF ft [6] 17.88 19.99 20.47 0.584 0.660 0.695 0.327 0.264 0.244 0.157 0.122 0.1110mip-NeRF [2]0表2.LLFF上的定量比较。一些条件模型（SRF，PixelNeRF）过度拟合训练数据（DTU），但在测试时都受益于额外的微调。两个无条件的基线mip-NeRF和DietNeRF在3个输入视图的情况下无法达到竞争性的结果，但在6/9个输入视图的情况下超过条件模型。我们的方法在所有情况下都取得了最好的结果。0几何预测：我们观察到新视图合成性能与场景几何预测的准确性直接相关：在图4中，我们展示了LLFF房间场景上mip-NeRF和我们方法的预期深度图和RGB渲染。我们发现对于3个输入视图，mip-NeRF产生了低质量的渲染和较差的几何。相反，我们的方法在输入数量较少的情况下产生了可接受的新视图和逼真的场景几何，当增加输入图像数量到6或9时，mip-NeRF的预测几何改善但仍然包含浮动伪影。我们的方法生成了平滑的场景几何，这在其更高质量的新视图中得到体现。0数据效率：为了评估我们在数据效率方面的提升，我们针对不同数量的输入视图训练mip-NeRF和我们的方法，并比较它们的性能。我们发现对于稀疏输入，我们的方法需要比mip-NeRF更少的输入视图才能达到相似的测试集PSNR，其中对于较少的输入视图，差异更大。对于18个输入视图，两种方法的性能相似（因为本工作侧重于稀疏输入，调整超参数以获得更多输入视图可能会改善这些情况的性能）。0输入视图数量0测试集上的PSNR0我们的mip-NeRF0图5. 数据效率。在稀疏设置中，我们的方法比mip-NeRF [2]需要更少的图像，才能在DTU数据集上达到类似的测试集性能。04.2. 基准比较0DTU数据集。对于3个输入视图，我们的方法在定量结果上与最佳条件模型（参见表1）相当，这些模型是在其他DTU场景上进行预训练的。与其他不需要预训练的方法相比，我们取得了最好的结果。对于6个和9个输入视图，我们的方法相比所有基线表现最好。正如图6所示，我们看到条件模型能够预测出良好的整体新视图，但在边缘周围变得模糊，并且显示出较少的01 结果与表1略有不同，因为必须使用较小的测试集。54860PixelNeRF [62] MVSNeRF [6] mip-NeRF [2] DietNeRF [19] Ours GT0(a) 3个输入视图0（b）6个输入视图0（c）9个输入视图0图6.在DTU上的视图合成。尽管基线模型存在模糊或不正确的场景几何，我们的方法可以产生清晰的新视图。对于3个输入视图，DietNeRF会导致错误的几何预测，并混合输入图像，而不是获得一致的3D表示，这是由于其语义一致性损失的全局性质所致。0PixelNeRF [62] PixelNeRF ft [62] MVSNeRF ft [6] mip-NeRF [2] DietNeRF [19] 我们的 GT0（a）3个输入视图0（b）6个输入视图0（c）9个输入视图0图7.在LLFF上的视图合成。条件模型过度拟合训练数据，因此在来自新领域的测试数据上表现不佳。此外，即使进行了额外的微调（“ft”），新视图仍然稍微模糊。虽然DietNeRF不需要像我们的方法那样昂贵的预训练，但我们的方法可以获得更准确的场景几何，从而产生更清晰和更真实的渲染结果。0对于远离输入视图的新视图，mip-NeRF和DietNeRF（与我们的方法一样）不需要预训练，几何预测和因此合成的新视图在非常稀疏的情况下会退化。即使有6个或9个输入视图，结果仍然包含浮动伪影和不正确的几何。相比之下，我们的方法在所有情况下表现良好，产生具有更准确场景几何的清晰结果。0LLFF数据集：对于条件模型，LLFF数据集作为一个超出分布范围的场景，因为模型-0在DTU上训练的模型。我们观察到SRF和PixelNeRF似乎过度拟合训练数据，导致低的定量结果（见表2）。MVSNeRF对新数据的泛化能力更好，这三个模型都受益于额外的微调。对于3个输入视图，mip-NeRF和DietNeRF无法生成有竞争力的新视图。然而，有6个或9个输入视图时，它们的表现优于最好的条件模型。尽管我们的方法需要的优化步骤比mip-NeRF和DietNeRF少，并且根本不需要预训练，但在所有场景中我们的方法都取得了最佳结果。(c) GT54870PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓0无场景空间退火 10.17 0.613 0.332 0.291 无几何正则化 14.340.689 0.246 0.188 无外观正则化 18.34 0.742 0.191 0.117 我们的18.89 0.745 0.190 0.1120表3.消融研究。对于非常稀疏的场景，我们发现场景空间退火对于避免退化解是至关重要的。此外，正则化场景几何对性能的影响比外观正则化更大。将所有组件结合起来可以获得最佳性能。0-退火 -几何正则化 -外观正则化我们的 GT0图8.定性消融研究。场景空间退火（-退火）和几何正则化（-几何正则化）对于避免浮动伪影至关重要，而外观正则化（-外观正则化）确保了稳定的颜色预测。0PSNR ↑ SSIM ↑ LPIPS ↓ 平均 ↓0不透明度正则化[31] 11.07 0.617 0.309 0.268 射线密度熵正则化 13.930.680 0.254 0.198 法线平滑正则化[41] 14.22 0.683 0.251 0.193密度表面正则化 14.71 0.687 0.247 0.184 稀疏性正则化[17] 16.77 0.7110.221 0.145 深度平滑正则化（我们的方法） 18.89 0.745 0.190 0.1120表4.几何正则化。我们在DTU（3个输入视图）上比较了不同的几何正则化策略，并发现我们的深度平滑先验效果最好。0ios。从图7中我们可以观察到，条件模型的预测对于远离输入的视角往往模糊不清，并且测试时优化的基线在预测的场景几何中存在错误。我们的方法实现了更好的几何预测和更真实的新视角。04.3. 剔除研究0在表3和图8中，我们剔除了我们方法的一些组件。我们发现所提出的场景空间退火策略避免了稀疏输入的退化解。此外，规范几何比外观更重要，将它们结合起来可以得到最好的结果。几何规范化的剔除：在表4中，我们研究了其他几何规范化技术的性能。我们发现基于不透明度的规范化器（例如，使渲染的不透明度值接近0或1）和密度或法线平滑先验（例如，最小化3D中相邻法线向量之间的距离），这两种策略通常用于强制实心和平滑表面，不能产生准确的场景几何。采用Hedman等人的稀疏先验[17]可以得到更好的定量结果，但新视角仍然包含浮动的人工物体。0(a) 稀疏的3个输入视图0(b) 预测0图9.失败分析。由于本文不尝试在几何细节上进行幻觉，我们的模型可能会导致未观察区域中存在细几何结构的预测模糊（9b）。我们认为将不确定性预测或生成组件纳入我们的模型是有趣的未来工作。0事实上，优化的几何结构存在缺陷。相比之下，我们的几何规范化策略实现了最佳性能。我们假设类似于基于坐标的方法中的基于密度[37]与单个表面优化[41，52]之间的差异，提供沿整个光线而不是单个点的梯度信息提供了更稳定和更有信息量的学习信号。05. 结论0我们提出了RegNeRF，一种在数据有限情况下优化神经辐射场（NeRF）的新方法。我们的关键见解是，在稀疏输入场景中，NeRF的性能会显著下降，原因是场景几何错误优化和优化开始时的发散行为。为了克服这个限制，我们提出了一种规范化渲染补丁的几何和外观的技术，以及一种新颖的样本空间退火策略，我们的方法能够学习一致的3D表示，从中可以合成高质量的新视角。我们的实验评估表明，我们的模型不仅优于只优化单个场景的方法，而且在许多情况下还优于在大规模多视图数据集上进行广泛预训练的条件模型。局限性和未来工作：在这项工作中，我们不尝试产生几何细节。因此，我们的模型可能会导致未观察到的区域中存在细几何结构的预测模糊（见图9）。我们认为将不确定性预测机制[50]或生成组件[5，15，39，49]纳入模型是有前途的未来工作。潜在的负面影响：我们认为误导性内容创作、重建敏感数据以及基于深度学习系统的高能耗可能对社会和环境产生负面影响。[23] Norman P. Jouppi, Cliff Young, Nishant Patil, David A.Patterson, Gaurav Agrawal, Raminder Bajwa, Sarah Bates,Suresh Bhatia, Nan Boden, Al Borchers, Rick Boyle, Pierre-luc Cantin, Clifford Chao, Chris Clark, Jeremy Coriell, MikeDaley, Matt Dau, Jeffrey Dean, Ben Gelb, Tara Vazir Ghaem-maghami, Rajendra Gottipati, William Gulland, Robert Hag-mann, C. Richard Ho, Doug Hogberg, John Hu, RobertHundt, Dan Hurt, Julian Ibarz, Aaron Jaffey, Alek Ja-worski, Alexander Kaplan, Harshit Khaitan, Daniel Kille-brew, Andy Koch, Naveen Kumar, Steve Lacy, JamesLaudon, James Law, Diemthu Le, Chris Leary, ZhuyuanLiu, Kyle Lucke, Alan Lundin, Gordon MacKean, AdrianaMaggiore, Maire Mahony, Kieran Miller, Rahul Nagarajan,Ravi Narayanaswami, Ray Ni, Kathy Nix, Thomas Nor-rie, Mark Omernick, Narayana Penukonda, Andy Phelps,Jonathan Ross, Matt Ross, Amir Salek, Emad Samadi-ani, Chris Severn, Gregory Sizikov, Matthew Snelham, Jed54880参考文献0[1] Matan Atzmon, Niv Haim, Lior Yariv, Ofer Israelov,Haggai Maron, and Yaron Lipman. Controlling neural levelsets. In Advances in Neural Information Processing Systems(NIPS), 2019. 20[2] Jonathan T. Barron, Ben Mildenhall, Matthew Tancik, PeterHedman, Ricardo Martin-Brualla, and Pratul P. Srinivasan.Mip-nerf: A multiscale representation for anti-aliasing neuralradiance fields. In Proc. of the IEEE International Conf. onComputer Vision (ICCV) , 2021. 1 , 2 , 3 , 5 , 6 , 70[3] Alexander W. Bergman, Petr Kellnhofer, and GordonWet- zstein. Fast training of neural lumigraphrepresentations using meta learning. In Advances in NeuralInformation Processing Systems (NeurIPS), 2021. 20[4] James Bradbury，Roy Frostig，Peter Hawkins，MatthewJames Johnson，Chris Leary，Dougal Maclau- rin，GeorgeNecula，Adam Paszke，Jake VanderPlas，SkyeWanderman-Milne和QiaoZhang。JAX:可组合的Python+NumPy程序转换，2018年。50[5] Eric Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu和GordonWetzstein。pi-gan:用于3D感知图像合成的周期性隐式生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，2021年。2，80[6] Anpei Chen，Zexiang Xu，Fuqiang Zhao，XiaoshuaiZhang，Fanbo Xiang，Jingyi Yu和HaoSu。Mvsnerf:来自多视图立体的快速通用辐射场重建。在IEEE国际计算机视觉会议（ICCV

下载后可阅读完整内容，剩余1页未读，立即下载