MVSNeRF:快速通用的多视图立体辐射场重建

190 浏览量更新于2023-10-15 收藏 18.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

141240MVSNeRF: 快速通用的多视图立体辐射场重建0Anpei Chen � 1 Zexiang Xu � 2 Fuqiang Zhao 1 Xiaoshuai Zhang 3 Fanbo Xiang 30Jingyi Yu 1 Hao Su 301 上海科技大学 2 Adobe研究 3 加利福尼亚大学圣地亚哥分校0{ chenap,zhaofq,yujingyi } @shanghaitech.edu.cn zexu@adobe.com { xiz040,fxiang,haosu } @eng.ucsd.edu0b) MVS-NeRF无微调 c) MVS-NeRF 6分钟微调 d) NeRF 5.1小时优化 a) 源视图0SSIM:0.766 SSIM: 0.923 SSIM:0.9240图1.我们使用DTU数据集[20]中的对象场景训练了MVSNeRF。我们的网络可以有效地泛化到不同的场景；即使对于复杂的室内场景，我们的网络也可以仅从三个输入图像中重建出神经辐射场（a），并从新视点合成逼真的图像（b）。虽然这个结果包含一些伪影，但通过在更多图像上仅进行6分钟（4k次迭代）的重建微调，可以大大改善它，使其与NeRF[34]的结果（d）在5.1小时的场景优化（100k次迭代）中达到可比较的质量（c）。0摘要0我们提出了MVSNeRF，一种新颖的神经渲染方法，可以高效地重建视图合成的神经辐射场。与以往关于神经辐射场的研究不同，它们考虑了在密集捕获的图像上进行场景优化，我们提出了一种通用的深度神经网络，可以通过快速网络推断仅从三个附近的输入视图重建辐射场。我们的方法利用了平面扫描代价体积（在多视图立体中广泛使用）进行几何感知的场景推理，并将其与基于物理的体积渲染相结合，用于神经辐射场重建。我们在DTU数据集中的真实对象上训练网络，并在三个不同的数据集上进行测试，以评估其有效性和泛化能力。我们的方法可以泛化到不同的场景（甚至是与我们的对象训练场景完全不同的室内场景），并且仅使用三个输入图像生成逼真的视图合成结果，明显优于同时进行的工作。0� 相等贡献。Anpei Chen在UCSD进行远程实习期间完成的研究。0可泛化的辐射场重建。此外，如果捕获了密集图像，我们估计的辐射场表示可以很容易地进行微调；这导致了具有更高渲染质量和比NeRF更少优化时间的快速场景重建。01. 引言0新视图合成是计算机视觉和图形学中一个长期存在的问题。最近，神经渲染方法在这个领域取得了显著的进展。神经辐射场（NeRF）及其后续工作[34，31，27]已经能够产生逼真的新视图合成结果。然而，这些先前工作的一个显著缺点是它们需要非常长的场景优化过程才能获得高质量的辐射场，这是昂贵的，并且极大地限制了实用性。我们的目标是通过实现高效的辐射场估计，使神经场景重建和渲染更加实用。我们提出了MVSNeRF，一种新颖的方法，可以在任务中很好地泛化到不同的场景。141250通过仅使用几个（仅三个）非结构化的多视图输入图像，我们可以重建辐射场。具有很强的泛化能力，我们避免了繁琐的场景优化，并且可以通过快速网络推断直接回归新视点的逼真图像。如果在更多图像上进行进一步优化，仅需短时间（5-15分钟），我们重建的辐射场甚至可以超越NeRFs[34]的优化时间（见图1）。0我们利用最近在深度多视图立体（MVS）[50，18，10]上取得的成功。这一系列工作可以通过在代价体积上应用三维卷积来训练通用的神经网络，用于3D重建。与[50]类似，我们通过将附近输入视图的二维图像特征（由2DCNN推断）从参考视图上的扫描平面上的位置变换到参考视图的视锥体中，构建了一个代价体积。与MVS方法[50，10]不同，这些方法仅在这样的代价体积上进行深度推断，我们的网络同时推理场景几何和外观，并输出神经辐射场（见图2），实现视图合成。具体而言，我们利用三维卷积从代价体积中重建（从代价体积中）一个神经场编码体积，该体积由每个体素的神经特征组成，这些特征编码有关局部场景几何和外观的信息。然后，我们利用多层感知机（MLP）使用编码体积内插值的神经特征来解码任意连续位置处的体积密度和辐射，实现了最终渲染。本质上，编码体积是辐射场的局部神经表示；一旦估计出这个体积，它可以直接用于最终渲染（去除3D CNN）通过可微分的光线行进（如[34]）。0我们的方法结合了两个世界的优点，学习型MVS和神经渲染。与现有的MVS方法相比，我们实现了可微分的神经渲染，可以在没有3D监督的情况下进行训练，并在推理时进行优化以进一步提高质量。与现有的神经渲染方法相比，我们的类似MVS的架构自然地进行跨视图对应推理，有助于泛化到未见过的测试场景，并且还可以实现更好的神经场景重建和渲染。因此，我们的方法可以显著优于最近的通用NeRF工作[54,46]，该工作主要考虑2D图像特征而没有明确的几何感知的3D结构（见表1和图4）。我们证明，仅使用三个输入图像，我们从DTU数据集训练的网络可以在测试DTU场景上合成逼真的图像，甚至可以在具有非常不同场景分布的其他数据集上生成合理的结果。此外，我们估计的三图辐射场（神经编码体积）可以在新的测试场景上进一步进行优化，以改善神经重建，如果有更多的图像被捕获，可以得到与每个场景过度拟合的NeRF相当甚至更好的逼真结果，尽管我们的优化时间远远少于NeRF（见图1）。这些实验证明了我们的技术可以作为一个强大的重建器，可以为实际的视图合成重建辐射场，即使只有少量图像被捕获，也可以作为一个强大的初始化器，极大地促进了每个场景辐射场的优化，当有密集图像可用时。我们的方法是朝着实现逼真的神经渲染的重要一步。我们已经在mvsnerf.github.io上发布了代码。0多视图立体。多视图立体（MVS）是一个经典的计算机视觉问题，旨在使用从多个视点捕获的图像实现密集几何重建，并已经通过各种传统方法进行了广泛探索[12, 24, 23, 14, 39, 16,38]。最近，深度学习技术已经被引入到解决MVS问题中[50,19]。MVSNet [50]在参考视图上的平面扫描成本体上应用了3DCNN进行深度估计，实现了优质的3D重建，优于传统的经典方法[16,38]。随后的工作通过循环平面扫描[51]，基于点的密集化[8]，基于置信度的聚合[30]和多个成本体[10,18]扩展了这种技术，提高了重建质量。我们提出将基于成本体的深度MVS技术与可微分体积渲染相结合，实现了用于神经渲染的辐射场的高效重建。与使用直接深度监督的MVS方法不同，我们仅使用图像损失训练网络进行新视图合成。这确保了网络满足多视图一致性，自然地允许高质量的几何重建。作为一个附带产品，我们的MVSNeRF可以实现准确的深度重建（尽管没有直接的深度监督），与MVSNet[50]相当。这可能会激发未来开发无监督几何重建方法的工作。02. 相关工作0多视图立体。多视图立体（MVS）是一个经典的计算机视觉问题，旨在使用从多个视点捕获的图像实现密集几何重建，并已经通过各种传统方法进行了广泛探索[12, 24, 23, 14,39, 16,38]。最近，深度学习技术已经被引入到解决MVS问题中[50, 19]。MVSNet[50]在参考视图上的平面扫描成本体上应用了3DCNN进行深度估计，实现了优质的3D重建，优于传统的经典方法[16,38]。随后的工作通过循环平面扫描[51]，基于点的密集化[8]，基于置信度的聚合[30]和多个成本体[10,18]扩展了这种技术，提高了重建质量。我们提出将基于成本体的深度MVS技术与可微分体积渲染相结合，实现了用于神经渲染的辐射场的高效重建。与使用直接深度监督的MVS方法不同，我们仅使用图像损失训练网络进行新视图合成。这确保了网络满足多视图一致性，自然地允许高质量的几何重建。作为一个附带产品，我们的MVSNeRF可以实现准确的深度重建（尽管没有直接的深度监督），与MVSNet[50]相当。这可能会激发未来开发无监督几何重建方法的工作。0视图合成。视图合成已经研究了几十年，采用了各种方法，包括光场[17, 25, 47, 21, 42, 7]，基于图像的渲染[13, 3,40, 5, 4]，以及其他最近的基于深度学习的方法[56, 55, 49,15]。平面扫描体也被用于视图合成[35, 55, 15, 33,49]。在深度学习中，基于MPI的方法[55, 11, 33,41]在参考视图上构建平面扫描体，而其他方法[15,49]在新视点上构建平面扫描体；这些先前的工作通常预测离散扫描平面上的颜色，并使用alpha混合或学习的权重来聚合每个平面的颜色。141260图2. MVSNeRF的概述。我们的框架首先通过将2D图像特征映射到平面扫描上来构建成本体积（a）。然后，我们应用3DCNN来重建具有每体素神经特征的神经编码体积（b）。我们使用MLP来回归体积密度和RGB辐射，使用从编码体积中插值的特征（c）。这些体积属性由可微分的光线行进用于最终渲染（d）。0与直接的每平面颜色预测不同，我们的方法在平面扫描中推断出每体素的神经特征作为场景编码体积，并可以从中回归任意3D位置的体积渲染属性。这样建模了一个连续的神经辐射场，实现了基于物理的体积渲染，以实现逼真的视图合成。0神经渲染。最近，已经提出了各种神经场景表示方法，以实现视图合成和几何重建任务[55，45，28，2，34]。特别是，NeRF[34]将MLP与可微分体积渲染相结合，实现了逼真的视图合成。后续的工作尝试提高其在视图合成方面的性能[31，27]；其他相关工作将其扩展到支持其他神经渲染任务，如动态视图合成[26，36，43]，挑战场景[29，52]，姿态估计[32]，实时渲染[53]，重照[37，1，9]和编辑[48，6]。我们将读者引用到[44]中对神经渲染的综述。然而，大多数先前的工作仍然遵循原始的NeRF，并需要昂贵的每场景优化过程。相反，我们利用深度MVS技术，仅使用少量图像作为输入，实现跨场景的神经辐射场估计以进行视图合成。我们的方法利用平面扫描的3D成本体积进行几何感知的场景理解，实现了比仅考虑2D图像特征的辐射场重建的并发工作[54，46]更好的性能。03. MVSNeRF0现在我们介绍我们的MVSNeRF。与通过每场景的“网络记忆”重建辐射场的NeRF[34]不同，我们的MVSNeRF学习了一个通用的辐射场重建网络。给定M个输入捕获的图像0给定真实场景的M个图像Ii（i=1，..，M）和它们已知的相机参数Φi，我们提出了一种新的网络，可以将辐射场重建为神经编码体积，并使用它在任意场景位置回归体积渲染属性（密度和视角相关辐射）以进行视图合成。总的来说，我们整个网络可以看作是辐射场的一个函数，表示为：0σ，r = MVSNeRF(x，d；Ii，Φi)（1）0其中，x表示3D位置，d表示视线方向，σ表示x处的体密度，r表示x处的输出辐射（RGB颜色），取决于视线方向d。我们网络的输出体属性可以直接用于通过可微分的光线行进合成新的图像It，位于新的目标视点Φt。在本文中，我们考虑了一组稀疏的附近输入视图，以实现高效的辐射场重建。在实践中，我们使用M=3个视图进行实验，而我们的方法可以处理非结构化视图，并且可以轻松支持其他数量的输入。我们的MVSNeRF的概述如图2所示。我们首先在参考视图上构建成本体积（我们将视图i=1称为参考视图），通过将2D神经特征映射到多个扫描平面上（第3.1节）。然后，我们利用3DCNN重建神经编码体积，并使用MLP回归体积渲染属性，表达辐射场（第3.2节）。我们利用可微分的光线行进，使用我们网络建模的辐射场回归新视点的图像；这使得我们整个框架可以进行端到端的训练，使用渲染损失（第3.3节）。我们的框架可以从少量图像中重建辐射场。另一方面，当捕获到密集图像时，可以独立地快速微调重建的编码体积和MLP解码器，以进一步提高渲染质量（第3.4节）。1412703.1. 成本体积构建。0受最近的深度MVS方法[50]的启发，我们在参考视图（i =1）上构建了一个成本体积P，以实现几何感知的场景理解。这是通过将m个输入图像的2D图像特征从参考视图的视锥体上的平面扫描体积中扭曲而实现的。0提取图像特征。我们使用深度2D CNNT从各个输入视图中提取2D图像特征，以有效提取代表局部图像外观的2D神经特征。该子网络由下采样卷积层组成，将输入图像Ii∈RHixWi×3转换为2D特征图Fi∈RHixWi/4×C，0Fi = T(Ii), (2)0其中H和W分别是图像的高度和宽度，C是生成的特征通道数。0特征图扭曲。给定相机的内参和外参参数Φ = [K, R,t]，我们考虑同态扭曲0Hi(z) = Ki ∙ (Ri ∙ RT1 + (t1 − ti) ∙ nT10z) ∙ K−11 (3)0其中Hi(z)是从视图i到参考视图在深度z处的矩阵扭曲，K是内参矩阵，R和t是相机的旋转和平移。每个特征图Fi可以通过以下方式扭曲到参考视图：0Fi,z(u, v) = Fi(Hi(z)[u, v, 1]T), (4)0其中Fi,z是深度z处的扭曲特征图，(u,v)表示参考视图中的像素位置。在这项工作中，我们使用参考视图上的归一化设备坐标（NDC）来参数化(u, v, z)。0成本体积。成本体积P是从D个扫描平面上的扭曲特征图构建的。我们利用基于方差的度量来计算成本，这在MVS [50,10]中被广泛用于几何重建。特别地，对于P中以(u, v,z)为中心的每个体素，其成本特征向量通过以下方式计算：0P(u, v, z) = Var(Fi,z(u, v)), (5)0其中Var计算M个视图之间的方差。这种基于方差的成本体积编码了不同输入视图之间的图像外观变化；这解释了由场景几何和视角相关的着色效果引起的外观变化。虽然MVS工作仅使用这样的体积进行几何重建，但我们证明它也可以用于推断完整的场景外观并实现逼真的神经渲染。03.2. 辐射场重建。0我们提出使用深度神经网络将构建的成本体积有效地转换为逼真的视图合成辐射场的重建。我们利用3D CNNB从原始2D图像特征成本的成本体积P中重建神经编码体积S；S由编码局部场景几何和外观的每体素特征组成。我们使用MLP解码器A从这个编码体积中回归体积渲染属性。0神经编码体积。以前的MVS工作[50, 18,10]通常直接从成本体积中预测深度概率，仅表达场景几何。我们的目标是实现高质量的渲染，这需要从成本体积中推断出更多的外观感知信息。因此，我们训练一个深度3DCNNB，将构建的图像特征成本体积转换为一个新的C通道神经特征体积S，其中特征空间由网络自身学习和发现，用于以下体积属性回归。这个过程可以表示为：0S = B(P). (6)03D CNNB是一个带有下采样和上采样卷积层和跳跃连接的3DUNet，可以有效地推断和传播场景外观信息，从而得到有意义的场景编码体积S。注意，这个编码体积是以无监督的方式预测的，并在端到端训练中与体积渲染一起推断（见第3.3节）。我们的网络可以学习将有意义的场景几何和外观编码到每个体素的神经特征中；这些特征随后被连续插值并转换为体积密度和视角相关的辐射。由于2D特征提取的下采样，场景编码体积的分辨率相对较低；仅凭此信息回归高频外观是具有挑战性的。因此，我们还将原始图像像素数据纳入以下体积回归阶段，尽管后来我们证明这种高频率也可以通过快速的场景微调优化（第3.4节）在增强的体积中恢复。0回归体积属性。给定任意的3D位置x和观察方向d，我们使用MLPA从神经编码体积S中回归相应的体积密度σ和视角相关辐射r。如前所述，我们还将原始图像Ii中的像素颜色c = [I(ui,vi)]作为附加输入；这里(ui,vi)是将3D点x投影到视图i上的像素位置，c将所有视图的颜色I(ui, vi)连接为一个3M通道的向量。MLP表示为：0σ, r = A(x, d, f, c), f = S(x), (7)(8)141280其中f =S(x)是从体积S中在位置x处三线性插值的神经特征。特别地，x在参考视图的NDC空间中进行参数化，d由参考视图坐标处的单位向量表示。使用NDC空间可以有效地对不同数据源的场景尺度进行归一化，有助于我们方法的良好泛化性。此外，受到NeRF[34]的启发，我们还对位置和方向向量（x和d）应用位置编码，进一步增强了结果中的高频细节。0辐射场。因此，我们的整个框架模拟了一个神经辐射场，从少量（三个）输入图像中回归出场景中的体积密度和视角相关辐射。此外，一旦重建了场景编码体积S，该体积与MLP解码器A结合使用时可以独立使用，无需前置2D和3DCNNs。它们可以被视为辐射场的独立神经表示，输出体积属性，从而支持体积渲染。03.3. 体积渲染和端到端训练。0我们的MVSNeRF在场景中重建了神经编码体积，并在任意点回归了体积密度和视角相关辐射。这使得可以应用可微分的体积渲染来回归图像颜色。0体积渲染。基于物理的体积渲染方程可以通过可微分的射线行进（如NeRF[34]中所示）进行数值计算，用于视图合成。特别地，像素的辐射值（颜色）通过在射线上的采样着色点上行进射线并累积辐射来计算，给定为：0c t = 0k τ k (1 - exp(-σ k)) r k,0τ k = exp(-0j=1 σj),0其中 c t是最终的像素颜色输出，τ代表体积透射率。我们的MVSNeRF作为一个辐射场函数，本质上为射线行进提供了体积渲染属性σk和rk。0端到端训练。这种射线行进渲染是完全可微分的；因此，我们的框架可以使用来自端到端的三个输入视图回归新视点的最终像素颜色。我们使用基准像素颜色作为监督来监督整个框架，使用L2渲染损失：0L = ∥ c t - ˜ c t ∥ 2 2, (9)0其中˜ct是从目标图像It在新视点采样的基准像素颜色。这是0只有损失我们用来监督整个系统。由于基于物理的体积渲染和端到端训练，渲染监督可以通过每个网络组件传播场景外观和对应信息，并对其进行规范化，以使其对最终视图合成有意义。与之前主要关注每个场景训练的NeRF作品[34, 31,27]不同，我们在DTU数据集上训练我们的整个网络跨不同场景。我们的MVSNeRF通过成本体积处理中的几何感知场景推理，可以有效地学习一个通用函数，可以在新的测试场景上将辐射场重建为神经编码体积，实现高质量的视图合成。03.4. 优化神经编码体积。0当跨场景训练时，我们的MVSNeRF已经可以学习到一个强大的通用函数，仅从三个输入图像中重建辐射场跨场景。然而，由于输入有限和不同场景和数据集之间的高度多样性，使用这样的通用解决方案在不同场景上实现完美结果是非常具有挑战性的。另一方面，NeRF通过对密集输入图像进行每个场景的优化来避免这个困难的泛化问题；这导致了照片般逼真的结果，但非常昂贵。相比之下，我们建议微调我们的神经编码体积 -仅通过少量图像即可由我们的网络快速重建 -以实现在捕获到密集图像时的快速每个场景优化。0附加颜色。如前所述，我们的神经编码体积在发送到MLP解码器时与像素颜色相结合（方程7）。保留这种设计进行微调仍然有效，但会导致重建始终依赖于三个输入。相反，我们通过将体素中心的每个视角颜色作为附加通道附加到编码体积中来实现独立的神经重建；这些颜色作为特征也可以在每个场景的优化中进行训练。这种简单的附加最初会导致渲染中的模糊，但在微调过程中很快得到解决。0优化。在附加颜色后，具有MLP的神经编码体积是一个不错的初始辐射场，已经可以合成合理的图像。我们建议在有密集图像可用时，进一步微调体素特征和MLP解码器，以执行快速的每个场景优化。请注意，我们仅优化编码体积和MLP，而不是整个网络。这使得神经优化可以更灵活地在优化过程中独立地调整每个体素的局部神经特征；这比尝试在体素之间优化共享的卷积操作要容易得多。此外，这种微调避免了昂贵的29.0136.5937.0638.4230.4735.4236.8537.361412900分钟 18分钟 36分钟 Ours 72分钟0NeRF 30分钟 215分钟 400分钟 Ours ft-1.25小时 610分钟0图3. 优化进展。我们展示了我们的微调结果（顶部）和优化NeRF[34]的结果（底部）在不同时间段的情况。我们的0分钟结果是指我们的网络推理的初始输出。请注意，我们的18分钟结果已经比215分钟的NeRF结果要好得多。图中显示了图像裁剪的PSNR。02D CNN的网络处理、平面扫描变形和3DCNN。因此，我们的优化速度非常快，比从头开始优化NeRF所需的时间要少得多，如图3所示。我们的每个场景优化导致了一个干净的神经重建，独立于任何输入图像数据（由于附加颜色通道），类似于[34,27]；密集的输入图像在优化后可以被丢弃。相比之下，同时进行的工作[54,46]需要保留输入图像进行渲染。我们的编码体积也类似于稀疏体素场[27]；然而，我们的编码体积是通过快速推理由我们的网络预测的，而不是[27]中的纯场景优化。另一方面，我们可以（作为未来的工作）在微调中将体素网格细分以获得更好的性能，就像[27]中所做的那样。04. 实现细节0数据集。我们在DTU[20]数据集上训练我们的框架，以学习一个通用的网络。我们按照PixelNeRF[54]的方法将数据分为88个训练场景和16个测试场景，并使用512×640的图像分辨率。我们还在Realistic SyntheticNeRF数据[34]和Forward-Facing数据[33]上测试了我们的模型（仅在DTU上训练），这些数据与我们的训练集具有不同的场景和视角分布。对于每个测试场景，我们选择20个附近的视角；然后选择3个中心视角作为输入，13个作为每个场景微调的额外输入，并将剩下的4个作为测试视角。网络细节。我们使用32个通道进行特征提取，这也是成本体积和神经编码体积（在附加颜色通道之前）中的特征通道数。我们采用从近到远均匀采样的128个深度假设来指定平面扫描体积。我们的MLP解码器类似于NeRF[34]的MLP，但更紧凑，由6层组成。与NeRF重建两个（粗糙和精细）不同0我们不是将辐射场作为单独的网络进行重建，而是只重建一个单一的辐射场就能取得良好的结果；通过使用相同的初始化优化两个单独的编码体积，可以在精细调整时潜在地实现粗到细的辐射场。对于光线行进，我们在每条行进光线上采样128个着色点。我们在补充材料中展示了详细的网络结构。我们使用一块RTX 2080 TiGPU训练我们的网络。对于在DTU上的跨场景训练，我们从一个新视点随机采样1024个像素作为一个批次，并使用Adam [ 22 ]优化器，初始学习率为5e-4。05. 实验0现在我们评估我们的方法并展示我们的结果。0使用三张图像输入进行结果比较。我们与两个最近的并发作品PixelNeRF [ 54 ]和IBRNet [ 46]进行比较，这两个作品也旨在实现辐射场重建的泛化。我们使用PixelNeRF的发布代码和训练模型，并在DTU数据上重新训练IBRNet（参见第4节）；我们使用与我们论文中相同的三个输入视图来训练和测试这些方法。我们在三个数据集[34 , 20 , 33]上使用相同的输入视图比较所有方法，并使用4个额外的图像来测试每个场景。我们在表1中显示定量结果，并在图4中显示视觉比较。如图4所示，我们的方法可以在只使用三个图像作为输入的情况下，在不同的数据集上实现逼真的视图合成结果。虽然我们的模型只在DTU上进行了训练，但它在具有高度不同的场景和视图分布的其他两个数据集上也能很好地泛化。相比之下，PixelNeRF [ 54]倾向于过度拟合DTU的训练设置。虽然它在DTU的测试场景上表现得还不错，但在逼真的合成场景上存在明显的伪影，甚至在正面场景上完全失败。IBRNet [ 46 ]可以做得更好141300方法设置合成数据（NeRF [ 31 ]）真实数据（DTU [ 20 ] / 正面 [ 33 ]）07.39 0.658 0.411 19.31/11.24 0.789/0.486 0.382/0.671 IBRNet [ 46 ] 22.44 0.874 0.195 26.04/21.790.917/0.786 0.190/0.279 我们的 23.62 0.897 0.176 26.63 / 21.93 0.931 / 0.795 0.168 / 0.252030.63 0.962 0.093 27.01/ 25.97 0.902/0.870 0.263/ 0.236 IBRNet ft − 1 . 0 h [ 46 ] 25.62 0.939 0.110 31.35/24.88 0.956 /0.861 0.131 / 0.189 我们的 ft − 15 分钟 27.07 0.931 0.168 28.50/25.45 0.933/ 0.8770.179/0.1920表1.新视图合成的定量结果。我们在三个不同的数据集上显示了PSNR、SSIM和LPIS的平均结果。在顶部，我们将我们的方法与直接网络推断的并发神经渲染方法[ 54 , 46 ]进行比较。在底部，我们展示了我们的微调结果，只使用15分钟的优化（10k次迭代），IBRNet1.0h的优化（10k次迭代），并与NeRF [ 34 ]的10.2h优化（200k次迭代）进行比较。0方法绝对误差 ↓ 精度 (0.01) ↑ 精度 (0.05) ↑0MVSNet 0.018 / - 0.603 / - 0.955 / - PixelNeRF0.245 / 0.239 0.037 / 0.039 0.176 / 0.187 IBRNet 1.69/ 1.62 0.000 / 0.000 0.000 / 0.001 Ours 0.023 / 0.0350.746 / 0.717 0.913 / 0.8660表2.深度重建。我们在DTU测试集上评估了我们的无监督深度重建，并与其他两种神经渲染方法（也没有深度监督）PixelNeRF [ 54]和IBRNet [ 46 ]以及基于学习的MVS方法MVSNet [ 50]进行了比较，该方法是使用地面真实深度进行训练的。我们的方法明显优于其他神经渲染方法（PixelNeRF和IBRNet），并且达到了与MVSNet相当的高深度准确度。每个项目的两个数字分别指的是参考/新视图的深度；当一个没有参考/新视图时，我们用“-”标记。0与PixelNeRF相比，我们的方法在其他数据集上的测试中可以获得更好的结果，但仍然可以观察到闪烁伪影，而且比我们的方法更明显，如附录视频所示。这些视觉结果清楚地反映了表1中显示的定量结果。这三种方法在DTU测试集上都可以获得合理的PSNR、SSIM和LPIPs。然而，我们的方法在这三个指标上始终优于PixelNeRF和IBRNet，使用相同的输入。更令人印象深刻的是，我们在其他两个测试数据集上的结果比比较方法显著更好，清楚地证明了我们技术的良好泛化能力。总的来说，两种比较方法都直接聚合行进光线上的跨视角2D图像特征进行辐射场推断。我们的方法则利用多视图立体重建技术进行几何感知的场景推理，并通过显式的3D结构重建了局部辐射场表示作为神经编码体积。这导致了我们在不同测试场景上结果的最佳泛化能力和最高渲染质量。0DTU 逼真合成 LLFF0深度重建。我们的方法重建了一个代表场景几何形状的辐射场，以体密度的加权和来生成从行进光线上采样点的深度值生成的深度重建结果（与[34]中所做的相同）。我们将我们的方法与两种比较辐射场方法[54,46]以及经典的深度多视图立体重建方法MVSNet[50]在DTU测试集上进行比较。由于我们基于代价体积的重建，我们的方法在深度方面比其他神经渲染方法[54,46]更准确。请注意，尽管我们的网络只接受渲染监督而没有深度监督进行训练，但我们的方法可以实现与直接具有深度监督的MVS方法[50]相当的高重建精度。这证明了我们的方法的高重建精度。DTURealistic SyntheticLLFF141310参考我们的 ft-15min NeRF 10.2h 我们的无微调 IBRNet PixelNeRF0IBRNet ft-1.0h0图4. 渲染质量比较。左侧显示我们的方法和同时进行神经渲染的方法[54,46]直接运行网络的渲染结果。右侧显示我们15分钟微调的结果和NeRF[34]经过10.2小时优化的结果。0我们几何重建的高质量是导致我们逼真渲染的一个关键因素。06. 结论0我们提出了一种新颖的通用方法，用于高质量的辐射场重建和逼真的神经渲染.我们的方法结合了深度多视图结构和神经渲染的主要优势，成功地将基于代价体积的场景推理融入基于物理的神经体积渲染.我们的方法仅从三个输入视图中实现了高质量的辐射场重建，并可以从重建中实现逼真的视角合成结果.我们的方法在不同的测试数据集上具有很好的泛化能力，并且在可推广的辐射场上明显优于其他工作[54, 46].0重建.当有密集的输入图像时，我们的神经重建也可以轻松进行每个场景的优化，使我们能够在使用更少的优化时间的情况下实现比NeRF更好的照片逼真渲染.我们的工作提供了使用少量或密集图像作为输入的实用神经渲染技术.07. 致谢0本工作得到了国家自然科学基金委员会项目（61976138，61977047）；国家重点研发计划（2018YFB2100500）；上海市科学技术委员会（2015F0203-000-06）和上海市教育委员会（2019-01-07-00-01-E00003）的支持；NSF项目IIS-1764078和VIVO的赞助.141320参考文献0[1] Sai Bi, Zexiang Xu, Pratul Srinivasan, Ben Mildenhall,Kalyan Sunkavalli, Miloˇs Haˇsan, Yannick Hold-Geoffroy,David Kriegman, and Ravi Ramamoorthi.用于外观获取的神经反射场.arXiv预印本arXiv:2008.03824，2020年. 30[2] Sai Bi, Zexiang Xu, Kalyan Sunkavalli, Miloˇs Haˇsan,Yannick Hold-Geoffroy, David Kriegman, and RaviRamamoorthi. 深度反射体积：可重照重建的多视图光度图像.arXiv预印本arXiv:2007.09892，2020年. 30[3] Chris Buehler, Michael Bosse, Leonard McMillan, StevenGortler, and Michael Cohen. 无结构光场渲染.在第28届计算机图形学与交互技术年会论文集中，页码425-432.ACM，2001年. 20[4] Gaurav Chaurasia, Sylvain Duchene, Olga Sorkine-Hornung, and George Drettakis.用于可信基于图像导航的深度合成和局部变形. ACMTransactions on Graphics (TOG)，32(3):30，2013年. 20[5] Gaurav Chaurasia, Olga Sorkine, and George Drettakis.用于基于图像的渲染的轮廓感知变形.计算机图形学论坛，卷30，页码1223-1232. Wiley OnlineLibrary，2011年. 20[6] Anpei Chen, Ruiyang Liu, Ling Xie, Zhang Chen, Hao Su,and Jingyi Yu. Sofgan:具有动态风格的肖像图像生成器，2021年. 30[7] Anpei Chen, Minye Wu, Yingliang Zhang, Nianyi Li, Jie Lu,Shenghua Gao, and Jingyi Yu. 深度表面光场.ACM计算机图形学与交互技术会议论文集，1(1):14:1-14:17，2018年7月. 20[8] Rui Chen, Songfang Han, Jing Xu, and Hao Su.基于点的多视图立体网络.在ICCV会议论文集中，页码1538-1547，2019年. 20[9] Zhang Chen, Anpei Chen, Guli Zhang, Chengyuan Wang,Yu Ji, Kiriakos N Kutulakos, and Jingyi Yu.自由视点重照的神经渲染框架.在CVPR会议论文集中，页码5599-5610，2020年. 30[10] Shuo Cheng, Zexiang Xu, Shilin Zhu, Zhuwen Li, Li ErranLi, Ravi Ramamoorthi, and Hao Su.使用自适应薄体积表示和不确定性感知的深度立体.在CVPR会议论文集中，页码2524-2534，2020年. 2 , 40[11] Inchang Choi, Orazio Gallo, Alejandro Troccoli, Min HKim, and Jan Kautz. 极限视角合成.在ICCV会议论文集中，页码7781-7790，2019年. 20[12] Jeremy S De Bonet and Paul Viola. Poxels:概率体素化体积重建.在ICCV会议论文集中，页码418-425，1999年. 20[13] Paul E Debevec，Camillo J Taylor和Jitendra Malik.从照片建模和渲染建筑物：一种混合几何和基于图像的方法。在第23届计算机图形学和交互技术年会论文集上，第11-20页。ACM，1996年2月0[14] Carlos Hern´andez Esteban和Francis Schmitt.Silhouette和立体融合用于3D物体建模。计算机视觉与图像理解，96（3）：367-392，2004年2月0[15] John Flynn，Ivan Neulander，James Philbin和NoahSnavely.DeepStereo：从世界图像中学习预测新视图。在CVPR会议论文集上，第5515-5524页，2016年2月0[16] Yasutaka Furukawa和Jean Ponce.准确、密集和鲁棒的多视图立体视觉。IEEE模式分析与机器智能交易，32（8）：1362-1376，2010年2月0[17] Steven J Gortler，Radek Grzeszczuk，RichardSzeliski和Michael F Cohen.光场。在第23届计算机图形学和交互技术年会论文集上，第43-54页。ACM，1996年2月0[18] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，ZuozhuoDai，Feitong Tan和Ping Tan.级联成本体积用于高分辨率多视图立体视觉和立体匹配。在CVPR会议论文集上，第2495-2504页，2020年2月4月0[19] Sunghoon Im，Hae-Gon Jeon，Stephen Lin和In-SoKweon.DPSNet：端到端的深度平面扫描立体视觉。在第7届国际学习表示会议（ICLR 2019）上。国际学习表示会议，ICLR，2019年2月0[20] Rasmus Jensen，Anders Dahl，George Vogiatzis，EngilTola和Henrik Aanæs.大规模多视图立体视觉评估。在2014年CVPR上，第406-413页。IEEE，2014年1月6日，7日0[21] Nima Khademi Kalantari，Ting-Chun Wang和RaviRamamoorthi.基于学习的光场相机视图合成。ACM图形学交易（TOG），35（6）：193，2016年2月0[22] Diederik P Kingma和J

下载后可阅读完整内容，剩余1页未读，立即下载