立体辐射场（SRF）：新场景稀疏视图的神经合成

65 浏览量更新于2024-01-22 收藏 2.6MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7911立体辐射场（SRF）：新场景稀疏视图的学习视图合成Julian Chibane1，2 Aayush Bansal3 Verica Lazova1，2 Gerard Pons-Moll1，21德国图宾根大学，2德国马克斯·普朗克信息学研究所3Carne gieMellonUniv ersity，美国{jchibane，vlazova，gpons}@ mpi-inf.mpg.de，aayushb@cs.cmu.edu图1.我们的方法可以合成新的意见与一个单一的网络前向通过从10个稀疏和分散的意见，一个新的场景。在这里，我们用（a）NeRF[34]合成一个新视图，它需要2天的场景特定训练;用我们的方法（b）即时产生结果，（c）在10个视图上微调我们的预训练模型15分钟后，我们改进的结果摘要最近的神经视图合成方法已经实现了令人印象深刻的质量和现实主义，超越了依赖于多视图重建的经典最先进的方法，如NeRF [34]，旨在通过神经网络学习单个场景，并需要密集的多视图输入。在一个新的场景上进行测试需要从头开始重新训练，这需要2-3天的时间。在这项工作中，我们介绍了立体辐射场（SRF），神经视图合成方法，是训练端到端，推广到新的场景，并在测试时只需要稀疏的意见其核心思想是一种受经典多视图立体方法启发的神经架构在SRF中，我们预测每个3D点的颜色和密度，给出输入图像中立体对应的编码。编码是隐式学习的合奏成对的相似性实验表明，SRF学习结构，而不是过拟合的场景。我们在DTU数据集的多个场景上进行训练，并生成新的场景，而无需重新训练，仅需要10个稀疏和展开的视图作为输入。我们发现10-15分钟的微调进一步改善了结果，实现了比场景特定模型明显更清晰、更详细的结果。代码，模型和视频可用https://virtualhumans.mpi-inf.mpg.de/–1. 介绍我们引入了一种神经多视图视图合成方法，该方法是端到端训练的，推广到新场景，并且在测试时只需要稀疏视图（图1-（b））。这与NeRF [34]等最先进的（SOTA）视图合成方法形成鲜明对比，后者针对特定场景进行训练，需要密集的多视图来产生清晰的结果。在方法的视图合成谱的一端，我们有纯数据驱动的方法，如NeRF [34]，它们已经显示出令人印象深刻的结果。NeRF采用了一种激进的数据驱动方法，通过学习从位置和方向到发射辐射的映射。这种映射是专门为场景训练的（图2-（a））。推广到一个新的场景需要重新训练2天，结果是模糊的，当训练稀疏和分散的意见（图1-（a））。在光谱的另一端，流行的经典的基于图像的渲染技术[46]使用几何模型[8，29，44，45]。这些方法通过对应关系[39，41，49]或多视图3D重建[42，43]将像素扭曲到期望的目标视图因此，这些方法依赖于高质量的3D重建或密集的每像素对应，这需要密集的多视图。最近的工作[5，38]通过学习纠正经典方法的扭曲观点，将经典方法与数据驱动方法相结合。这些方法[5，38]中的顺序流水线不允许端到端学习。7912小说观稀疏输入图像对SRF小说观（一）推理，场景记忆循环（时间密集型）（b）第（1）款推理，单向前传球图2. 纯数据驱动的视图合成和SRF（我们的）。现有的方法实现了显著的真实感，神经网络的专门针对场景训练模型，以合成高质量的新颖视图。然而，这需要密集的视图和每个场景2天的培训在这项工作中，我们解决了更具挑战性的任务，即从稀疏和分散的视图中合成新视图，使用单个前向通过网络，立即获得结果。我们从经典和纯数据驱动的方法中获得灵感。像NeRF一样，我们也学习神经网络来预测辐射（特别是颜色和密度）。然而，我们使用基于图像的特征编码，而不是记忆3D位置处的场景辐射，这允许网络推理场景几何形状（图1）。2-（b））。在经典的立体重建[41，49]中，通过计算相似性得分来发现视图之间的对应性。我们设计了一个架构，称为立体辐射场（SRF），它模仿经典的方法，不计算明确的对应关系，但可以训练端到端。将3D点投影到每个可用视图以提取逐点视图特征。然后，视图特征由一组滤波器成对处理，这些滤波器模拟经典方法中的对应发现（图11）。3）。使用卷积神经网络[21]（CNN）进一步处理成对分数的结果矩阵，该卷积神经网络聚集来自可用视图的信息以预测该点处的期望辐射率。我们的实验表明，将多视图重建的想法在架构显着提高泛化能力。当在单个场景上训练并在新场景上测试时，SRF可以产生合理的结果。这表明网络并没有记住场景，而是学会了对结构进行推理。当在多个场景（100个或更多）上训练时，SRF可以推广到新的场景，即使只有10个稀疏和分散的视图可作为输入。进一步的改进可以通过微调10视图（图1-（c）），通常需要大约15分钟，这比从头开始重新训练的方法所需的2-3天要少得多[34，47]。SRF结果更清晰，验证多视图重构结构不仅有助于概括，而且还限制了学习问题。我们鼓励读者在我们的项目页面上以视频的形式查看我们的结果。概括起来，我们的贡献是：• 我们介绍了立体辐射场（SRF），一个端到端的，自我监督的架构多视图合成。我们汇集了来自经典的多视图重建流水线和神经绘制方法。• 实验表明，SRF推广到新的场景稀疏和扩展的意见作为输入。此外，在测试分布上微调预训练的SRF几分钟可以改善结果。• 我们将展示如何将最近的范式结合成一个模型，通常在新的视图合成中孤立对待，SRF建立在经典的多视图3D再现和从多个场景中学习的• 在稀疏和扩展视图设置中，SRF产生的结果比SOTA基线（如NeRF [34].与NeRF在10个测试视图上训练了2天相比，我们只微调了15分钟就取得了更好的结果。2. 多视图合成给定N个摄像机视图，我们的目标是为新的虚拟摄像机合成一个视图。这是一个长期存在的问题[17，50]。历史上[46]，根据所使用的几何信息，在三个可能的方向下研究了该问题：（1）通过对全光函数进行建模以计算给定相机在每个可能角度处的光线强度，在没有几何的情况下进行渲染[2，16，22，30，35];（2）使用对应关系[8，44]进行渲染，这需要跨多视图的位置对应关系的知识;以及（3）使用显式几何渲染[29，45]进行渲染，这需要深度或点云形式的显式3D信息。在这项工作中，我们带来了从神经渲染与经典的重构管道的见解。我们鼓励我们的网络通过计算来密集输入场景表现7913网络内成对分数的集合。虽然我们从来没有明确计算对应，这种几何推理，让我们推广到新的场景。跨多视图的对应：经典多视图立体中的方法[8，13，17，44，51]依赖于跨视图的对应性。在这项工作中，我们带来了来自经典多视图立体[17，46]和当代基于学习的方法[10，34，40]的见解我们使用一个编码器网络，输入10个多视图并提取多尺度特征[4，40]。我们取代经典的块或特征匹配与多层感知器（MLP）输出的相似性分数的合奏像我们一样，最近的工作可以从稀疏视图[5]中进行视图合成，然而，由于照明、缩放、比例和遮挡的差异，显式计算对应性是困难的训练场景特定模型以校正伪影。在我们的方法中，网络的原因是由视图合成损失驱动的对应关系，但它们从来没有显式计算。重要的是，我们的模型不是特定于场景的。神经渲染和全光建模：最先进的神经渲染[52]方法已经能够使用深度神经网络[21]创建照片级逼真的视觉内容多视图视图合成有三个流行的方向：（1）使用平面扫描立体[13，15]或多平面图像（MPI）表示[61]。基于MPI的方法[7，14，15，20，33，48]已经显示出对于小基线偏移的连续视图合成的显著结果，但是对于大基线偏移失败，因为它假设准确的多平面成像;（2）使用SfM [42，43]或多视图立体[19]明确地结合3D重建用于视图合成[3，12，18，32，38]。这些方法作为一个合理的密集的三维点云结合使用的神经网络视图合成。的作用是为了修正3D重建。然而，当视图稀疏且重叠较小时，这些方法会因显式3D重建失败而挣扎;以及（3）最近的方法[23，24，27，34，37，47，57，58]学习可以与微分射线行进操作组合以合成新视图的3D这些设计方法需要场景特定的建模。这限制了：(1)新捕获的即时和在线可视化-因为它需要2-3天来训练模型;以及（2）利用大量不同的视觉数据，这已经成为视觉的其它领域（例如识别、语义分割和检测）进步的驱动力。我们的工作深受最近的神经渲染方法的启发。像NeRF [34]一样，我们预测连续位置的辐射，并使用体绘制来生成目标图像。我们不是基于点坐标和辐射度进行预测，而是基于点图像特征和一组相似性函数进行预测，≈≠图3. 我们的方法的直觉：我们通过几何观察来构建我们的模型：当从不同的角度（蓝色）观看时，表面上场景中的3D点将投影到相似的区域。我们称之为照片一致点。但是，自由空间中的点不会与照片一致（红色）。这适用于不透明、未被遮挡的曲面点。经典立体匹配因此，我们的工作将现代神经渲染与经典计算机视觉结合在一起，形成了一个端到端的架构。SRF在精神上类似于先前关于3D隐式形状重建、隐式特征网络（ IF-Nets ） [6 ， 10] 和神经距离场（NDF）[11]的工作，其中我们基于从输入计算的体积深度特征而不是最初提出的点坐标[9，31，36]来解码占用或无符号距离。我们的工作也与当代方法[55，56，59]分享见解。最后，我们的工作受到终身学习的启发[53，54]，旨在学习一种通用的表示，可以很容易地适应一些例子的新任务。我们学习一个通用的视图合成网络，很容易概括到新的场景。当我们通过对测试示例进行简单的微调使其适应新场景时，我们的结果进一步改善。3. 方法在本节中，我们介绍了我们的方法立体辐射场（SRF），用于在训练期间看不到的对象的稀疏和分散的输入视图的新视图合成。我们首先在3.1节中介绍背景，然后在3.2节中根据这些见解构建SRF。3.1. 背景3.1.1广义神经辐射场（NeRF）为了在目标视图的像素处产生颜色，我们从相机位置通过像素向场景中发射我们将射线二值化为等长的仓，7914I1（p）I2（p）I3（p）CNN特征CNN特征CNN特征…（p投影图像编码器网络无监督立体声模块多视图特征提取（结合立体特征）通信编码…K相似函数的逼近（立体声功能（S×K）（辐射场解码器i=1图像1图片3图片4配对图像特征S（RGB，σ）（d）其他事项图4.我们的方法：对于目标视图（左摄像头），我们预测每个像素的RGB颜色对于一个像素，我们将光线投射到场景中，并沿着它采样点。对于一个点，p∈R3，我们的目标是估计它的颜色c和密度σ，其中密度编码表面区域。（a）首先，为了编码点p的位置，我们将其投影到每个参考视图Ii中，并提取由投影位置处的2D CNN生成的特征I i（p）。(b)如果p在一个表面上并且是光致一致的，则I1（p），. . .，IN（p）将匹配（参见图3）。我们通过对所有可能的组合应用学习的相似性函数sk（·，·）来模拟寻找照片一致性c y的过程。我们学习相似度K函数的集合，并获得立体特征矩阵。（c）为了聚合超出对的多视图信息，我们应用2D卷积CNN以获得多视图特征矩阵。矩阵被最大池化以获得对应性和颜色的紧凑编码通过密度加权，沿目标摄像机光线的颜色值被融合成最终的像素颜色的体绘制。我们仅使用图像监控来端到端地训练模型。在每个仓内采样一个3D点。在每个点p∈R 3我们预测颜色c ∈ {0，. . . ，255}3和密度σ ∈R. 密度对表面区域进行编码（在有低，其他地方）。按照NeRF [34]，通过密度加权，沿射线的NeRF通过学习在给定空间位置p和观看方向d的情况下输出（c，σ）来记忆具有神经函数f的场景fNeRF：（p，d）<$→（c，σ）.（一）这适用于具有密集视图的单个场景。然而，由于点坐标不携带场景特定的信息，它无法推广到新场景。神经网络本身成为场景表示（图2-（a））。相反，我们的目标是学习一个神经模型，它内部模拟多视图立体重建和合成，并在测试时以场景本身为条件（图2-（b））。为此，我们使用了一个完全不同的点编码架构，它不是特定于场景的f：（I，p）<$→（c，σ），（2）由古典立体声，并解释在第二节。3.2.请注意，我们不考虑视图相关效应，并将其留给未来的工作。这使我们能够专注于对新场景和稀疏输入的泛化。3.1.2经典多视图立体经典立体成像方法（运动恢复结构，多视图立体）和我们的方法的关键是以下观察结果：在没有遮挡的情况下，物体的表面3D点投影到多视图中对应的光测量一致的图像区域，而非表面3D点落在非对应的不同区域上（图3）。我们可以反转这个观察结果，从图像中找到表面：我们可以在视图中找到相应的区域，并对它们进行三角测量，以找到3D表面点。在经典作品中，这是在不可微的多步工程管道中完成的。首先，发现信息丰富、独特的感兴趣区域随后，从局部图像特征创建感兴趣点处的特征描述符，SIFT [26].基于相似性度量匹配来自多个图像的描述符。SRF在内部模拟端到端非超高速通信中的对应匹配其中I={Ii}N是N个参考图像的集合，Ii，（仅基于渲染损失）。我们的观点已知的相机参数。f的设计灵感来自于通过2D CNN图像编码器学习的特征描述符………最大池化7915i=10网络经典的对应发现是模仿SRF处理点描述符成对。3.2. 立体辐射场（SRF）SRF预测3D空间中的点p处的颜色和密度，给定I={Ii}N，具有已知相机参数的一组N个参考图像Ii。我们构造SRF，f，在肛门-（1）为了对点p的位置进行编码，我们将其投影到每个参考视图Ii中，并建立局部特征描述符Ii（p），（2 ）若p在曲面上且光致一致，则 I1（p），. . . ，IN（p）应该匹配（图11）。3）;特征匹配-虽然我们的公式是基于成对处理，类似于相似性计算，但对应性不是可扩展计算的。我们用一个神经元来表示网络中的每个映射。实际上，每一对可能的（Ii（p），Ij（p）），其中i，j ∈ 1，. . . ，N，i/= j被输入到具有ReLU非线性的neu-ron，以确保非负输出（图4-（b））。这就产生了一个大小为S=N2−N的向量x，每对有一个条目。我们不依赖于单个神经元，而是应用一组神经元，sk（·， ·），k=1。 . . K以同样的方式。每个神经元可能会学习不同的模拟-ilarities，or specialized专门in propagating传播color颜色.我们将库中每个神经元的输出向量xk连接成一个Stereoing是用一个学习函数g来模拟的立体声，编码特征矩阵X=[X1. . . xK] ∈ RS× K，其高度为所有参考视图中的特征（第（3）编码由学习的解码器dec解码成NeRF [34]表示（第3.2.2节）。3.2.3）。从形式上讲，这将战略成果框架分解为：f（I，p）= dec（g 立体声（I ，1（p），. . . ，IN（p）<$→（c，σ）. （ 3）图4给出了我们方法的概述。3.2.1图像编码器网络与NeRF相反，其中输入是没有场景特定信息的点坐标，我们根据参考图像进行预测我们通过将p投影到每个参考视图Ii中并构建局部特征描述符Ii（p）来实现这一点。为此，我们首先使用共享的2DCNN对每个完整的参考图像进行我们通过在点p投影的位置处从每个CNN层提取深度特征来构建Ii（p）。这使得Ii（p）成为多尺度特征描述符，因为2D CNN自然地将其第一层中的局部信息编码为具有高感受野的后续层中的全局信息（图11）。4-（a）由于点投影是在连续空间中，而特征是在离散网格中，我们使用双线性插值进行提取。当p投影到图像之外时，我们使用零填充。详情见附录。3.2.2无监督立体声模块我们建立在多视图立体的直觉上：当3D点p被投影到摄影测量一致的区域时，p可能位于表面上，因此应该预测高密度σ。为了处理任意数量的视图，立体模块成对地处理视图的特征描述符。具体来说，我们的目标是学习特征对Ii（p），Ij（p）的映射：s：（Ii（p），Ij（p））<$→x∈R+，（4）其允许网络学习对对应发现有用的图像分数或传播图像颜色。注意，al-数，则是数。ronsK使用（图4-（b）“立体特征”）。立体特征矩阵可以通过在矩阵中排列特征对并将其与神经元库卷积来有效地计算然而，成对光一致性不是识别表面点的充分条件。当参考视图在附近而不是在第三视图上被捕获时，3D点可能投影到立体对中的照片一致的图像区域我们聚合信息从多个视图卷积- ING立体特征矩阵沿方向的意见。具体地，我们在高度方向上聚合4对，并且沿着宽度方向聚合所有相似性度量（图4-（c）将视图对信息合并到单个向量y∈RK，我们在视图方向上运行最大池注意通过设计，完整的立体声模块在训练和测试期间对于不同数量的输入视图是灵活的：最大池化步骤是在给定不同数量的输入视图的情况下计算固定尺寸K的向量y。这构成了无监督立体声模块，表示为g立体声：（I1（p），. . . ，IN（p））<$→ y∈ RK.（五）3.2.3辐射场解码器我们的网络的最后一个阶段是解码立体声编码y = g立体声（I1（p），. . . ，IN（p））转换为最终颜色c和密度σ。为此，我们依赖于一个简单的MLP网络，dec：y <$→（c，σ）。（六）沿着射线采样的颜色基于它们在体绘制之后的密度被融合[28，34]。网络的训练是完全端到端完成的，只使用多视图图像，而不使用3D数据或立体模块上的监督（图1）4-（d））。我们使用L2损失来比较渲染预测与目标图像。请参考附件了解更多的建筑细节。7916图5. 比较：我们比较我们的方法在DTU场景的测试视图。在测试时，给定10个新场景的参考视图图像。我们的方法在外观和几何形状上都推断出尖锐而详细的对象，例如鸟类的羽毛和眼睛，建筑物中的字母和小长椅，兔子的纹理以及洗涤剂的标志。兔子和清洁剂场景从微调中受益最大。NeRF找到近似的，平滑的几何体，并为鸟类，建筑物和兔子产生模糊的纹理。对于洗涤剂场景，它努力生成一致的几何形状或外观。LLFF在建筑物的字母和兔子的纹理处创建了一些清晰的图像区域，但结果通常被强烈的混合和重影效果覆盖。4. 实验首先，我们研究了SRF在各种通用对象和场景上训练时的泛化能力。在秒4.1，我们观察到我们的模型确实学习了适用于新场景的generalizing结构，仅给出一个任意展开的稀疏视图。此外，我们发现我们的模型可以从10个视图中生成3D彩色网格，尽管已经过视图合成任务的训练，4.2.这些观察结果表明，将几何和数据有助于generalization。最后，在第4.3，我们表明，多视图7917PSNR↑鸟类SSIM↑LPIPS↓PSNR↑建筑SSIM↑LPIPS↓PSNR↑兔SSIM↑LPIPS↓PSNR↑洗涤剂SSIM↑LPIPS↓LLFF18.650.510.4415.130.390.4017.590.410.4914.730.490.48NeRF15.090.290.7117.680.510.3318.240.400.599.730.320.64我们23.360.650.3517.220.570.2918.790.480.4916.750.480.48Ours（ft）24.970.720.2719.710.700.1818.060.550.4016.970.600.37表1. 定量结果：DTU数据集上的定量结果，以PSNR、SSIM（越高越好）和LPIPS [60]（越低越好）报告。我们的（ft）表示微调。我们的表现始终优于所有基准。没有微调的SRF已经优于基线，微调的SRF产生更清晰的几何形状，外观和更少的伪影比所有基线。图6. Meshing预测给定一个场景的10张图像，SRF可以从生成的密度生成彩色网格。我们证明，SRF隐式学习三维重建和视图合成，即使在训练过程中没有提供3D监督，也只有10个视图。SRF的结构自然地概括，即使在有限的时间内对单个对象进行学习。数据我们在公开可用的DTU多视图立体视觉数据集[1]上进行实验。它由124个不同的场景组成，包括非常多样化的对象（例如，建筑物、雕像、杂货、水果、砖块等）。我们将场景分为测试、验证和训练部分（更多细节请参见附录）。我们随机抽取10个场景图像作为SRF的输入。为了评估和训练的目的，我们采样不同的视图作为目标视图。基线我们将我们的方法与NeRF进行对比[34]。 NeRF需要特定场景的优化。我们使用公开的代码来训练NeRF模型，每个场景使用10个输入图像。训练一个特定场景的模型花了两天时间。一旦经过训练，就可以合成新的视图。我们还比较了现成的公开可用的LLFF[33]模型。像我们的一样，LLFF允许泛化到测试场景1。代替连续的3D表示，参考图像被切片成多个深度层。对于顺-1我们无法访问LLFF的培训代码因此，我们使用作者提供的现成模型。通过对DTU数据集上的LLFF模型进行微调，可能会改善结果。在目标视图中，相邻参考图像被扭曲到目标视图中并混合在一起。4.1. 无约束推广在这个实验中，我们的目标是学习一个能够在任何看不见的测试场景上执行新视图合成的模型。为此，我们对完整DTU数据集的随机训练（109个场景），测试（10个场景）和验证（5个场景）进行了采样（见附录）。我们在一台NVIDIA Quadro RTX 8000上训练我们的方法，直到在测试时只给出一个新场景的10个视图，我们的方法能够在渲染的新视图中创建尖锐的对象，并且优于基线。我们在图5中显示了定性分析，在表1中显示了定量分析。我们的方法可以立即推广到新的场景，并且可以在稀疏和任意扩展的多视图上操作。每个NeRF模型需要2天的时间进行特定场景的优化。相反，我们的SRF可以从许多场景中学习，这要归功于模拟几何立体匹配的架构。我们发现这是从稀疏数据合成新视图的关键。此外，我们可以丰富的几何和学习的概念，通过优化的场景表示的想法。为此，我们在短时间内对模型进行微调。与基线相比，这不仅可以获得更清晰的结果，而且优化时间也从几天减少到几分钟。我们在图7（b）-（d）和图5中显示了微调我们的方法的效果。我们观察到，在稀疏和扩展视图上训练的NeRF模型也可能导致退化结果，如图7-（f）所示。我们建议读者参阅附录以了解更多细节。最后，我们发现，具有挑战性的BRDF和反射区域可以构成问题，我们的方法的基础上立体匹配。我们观察到微调有助于缓解一些问题（图9）。将视图相关建模引入SRF，我们在Eq.2、可能会解决这个问题，是一个有趣的未来工作方向。4.2. 网格预测为了使预测网格化，我们在包围对象的密集点网格中对10幅图像进行SRF条件评估。SRF预测每个点的颜色和密度。然后，我们在网格处设置密度阈值，并运行Marching7918图7. 微调我们的方法的效果。我们的方法可以在具有挑战性的场景中重建几何形状和外观，因为它建立在经典的立体结构上，并且在许多场景中学习。当纯NeRF在这里挣扎时（f），SRF产生合理的结果（e）。我们通过对测试图像进行微调来进一步改善结果。我们观察到，大约15分钟是质量和速度之间的一个很好的权衡。与基线相比，它不仅可以获得更清晰的结果，而且还可以将优化时间从2天减少到1分钟。图8. 自然的泛化能力。我们只在一个单一的物体上训练SRF，一辆拖拉机，时间只有30分钟，并且在没有微调的情况下将其应用到麦克风上。很明显，即使在这种极端的设置中，几何形状和一些颜色也是通用的，尽管拖拉机和麦克风之间的几何形状和外观有很大的差异。我们将此归因于通过设计将经典立体声[25]第二十五话，一个人的幸福。对于我们在网格上找到的每个顶点结果见图64.3. 自然泛化能力以前，我们发现合并几何和数据有助于泛化。接下来，我们验证了我们的体系结构自然地通过设计进行推广。我们为此采取了一个激进的设置：我们在单个对象（合成拖拉机[34]）上训练了30分钟，并检查了一个非常不同的对象（来自NeRF数据的麦克风）的新视图合成尽管在外观和几何形状上有很大的差异，我们还是观察到了泛化，8 .第八条。5. 讨论和结论我们介绍了立体辐射场，一个神经视图合成模型，旨在模拟经典的多视图立体的组件。我们不是基于点方向坐标预测辐射和颜色，而是将每个3D点投影到多个视图，提取特征，并成对处理它们。这学习了仅由自我监督的渲染损失驱动的分数的集合，其允许计算隐式对应。该过程在端到端学习中模拟经典立体声中的特征匹配图9. 限制我们的SRF的神经架构受到经典立体匹配的强烈启发。对反射和无纹理区域进行建模具有挑战性。微调SRF改善了这个问题，但并没有完全克服它。能够进行视图合成。实验表明，SRF学习跨多个场景的共同结构。我们在DTU数据集的多个场景上训练SRF模型，并证明SRF泛化，产生逼真的图像。此外，与需要密集视图的先前工作相比，我们使用任意稀疏的扩展10视图作为输入。我们发现，在对这些目标10个视图进行10-15分钟的微调后，结果进一步改善。值得注意的是，在稀疏视图设置（10个视图）中，我们的方法显着优于SOTA方法，即使我们在新场景上训练它们2天。最后，我们表明，SRF implantable计算一个可解释的三维表示允许-ING彩色网格总之，SRF建立在经典的多视图立体和最近的神经渲染思想的基础上，但将它们结合在一个统一的端到端的可学习架构中。我们认为，经典几何计算机视觉与神经绘制的相互作用是一条令人兴奋的途径，值得进一步探索。未来的工作可能会将其扩展到建模的BRDF，和4D时空视图合成的动态场景从野生样本，本质上是稀疏的。致谢。我们感谢RVH集团的反馈。这项工作由德国研究基金会（DFG）资助- 409792180（Emmy Noether Programme，项目：RealVirtual Humans）。7919引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视立体视觉的大规模数据IJCV，2016年。[2] Edward H Adelson，James R Bergen，et al.全光功能和早期视觉的要素，第2卷。麻省理工学院媒体实验室视觉与建模组。. . ，1991年。[3] Kara-Ali Aliev ， Artem Sevastopolsky ， Maria Kolos ，Dmitry Ulyanov，and Victor Lempitsky.基于神经点的图形学。arXiv预印本arXiv：1906.08240，2019。[4] Aayush Bansal，Xinlei Chen，Bryan Russell，AbhinavGupta，and Deva Ramanan.像素网：用像素来表示像素，用像素来表示像素 . arXiv 预印本 arXiv ：1702.06506，2017。[5] Aayush Bansal 、 Minh Vo 、 Yaser Sheikh 、 DevaRamanan和Srinivasa Narasimhan。来自无约束多视图视频的动态事件的4D可视化。在CVPR，2020年。[6] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll.结合内隐函数学习和参数模型进行三维人体重建。在ECCV。施普林格，2020年。[7] 迈克尔·布罗克斯顿、约翰·弗林、瑞安·奥弗贝克、丹尼尔·埃里克森、彼得·海德曼、马修·杜瓦尔、杰森·杜尔加里安、杰伊·布施、马特·惠伦和保罗·德贝维克。具有分层网格表示的沉浸式光场视频。ACM事务处理图表，2020年。[8] 申昌埃里克陈和兰斯威廉姆斯。视图插值，灰图像合成。计算机图形学与交互技术会议，1993年。[9] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR，2019年。[10] Julian Chibane，Thiemo Alldieck，and Gerard Pons-Moll.特征空间中用于三维形状再现和完成的隐式函数。在CVPR，2020年。[11] Julian Chibane，Aymen Mir，and Gerard Pons-Moll.用于隐函数学习的神经无符号距离场。2020年，在NeurIPS[12] Inchang Choi，Orazio Gallo，Alejandro Troccoli，Min HKim，and Jan Kautz.极限视角合成。在CVPR，2019年。[13] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。在CVPR，1996年。[14] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费夫，瑞安·奥弗贝克，诺亚·斯纳夫利，理查德·塔克.Deepview：视图合成与学习梯度下降。在CVPR，2019年。[15] 约翰·弗林，伊万·纽兰德，詹姆斯·菲尔宾，还有诺亚·斯内弗利。Deepstereo：学习从世界图像中预测新视图。在CVPR，2016年。[16] Steven J Gortler，Radek Grzeszczuk，Richard Szeliski，and Michael F Cohen. 光感仪。在 ACM Trans. Graph中。，1996年。[17] 理查德·哈特利和安德鲁·齐瑟曼计算机视觉中的多视图几何学。剑桥大学出版社，2003年。[18] Peter Hedman，Julien Philip，True Price，Jan-MichaelFrahm，George Drettakis，and Gabriel Brostow.自由视点图像渲染的深度混合。ACM Trans. Graph. ，2018年。[19] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视角立体视觉。在CVPR，2018年。[20] Nima Khademi Kalantari ， Ting-Chun Wang ， and RaviRa- mamoorthi.基于学习的光场相机视图合成。ACM事务处理图表，2016年。[21] Yann LeCun，Yooney Bengio，and Geoffrey Hinton.深度学习Nature，2015.[22] Marc Levoy和Pat Hanrahan。光场渲染。在计算机图形学和交互技术年会上。ACM，1996年。[23] Zhengqi Li，Simon Niklaus，Noah Snavely，and OliverWang.动态场景时空视图合成的神经场景流场。在CVPR，2021年。[24] Stephen Lombardi ， Tomas Simon ， Jason Saragih ，Gabriel Schwartz ， Andreas Lehrmann ， and YaserSheikh.NeuralVolume-umes ： LearningDynamicRenderable Volumes from Images.ACM事务处理图表，2019年。[25] William E. Lorensen和Harvey E.克莱恩Marching Cubes：一个高分辨率的3D表面构造算法。计算机图形学和交互技术，1987年。[26] 大卫·G·洛从尺度不变的关键点中提取独特的图像特征。IJCV，2004年。[27] 里卡多·马丁-布鲁阿拉、诺哈·拉德万、迈赫迪·SM·萨贾迪、乔纳森·T·巴伦、阿列克谢·多索维茨基和丹尼尔·达克沃斯。野外的神经辐射场：用于非受控照片采集的神经辐射场.在CVPR，2021年。[28] N.最大直接体绘制的光学模型。 IEEE可视化与计算机图形学汇刊，1995年。[29] 莱纳德·麦克米兰一种基于图像的三维计算机图形学方法。博士论文，北卡罗来纳大学教堂山分校，1997年。[30] 莱纳德·麦克米兰和加里·毕晓普Plenoptic modeling：一种基于图像的渲染系统。计算机图形学与交互技术会议，1995年。[31] 拉尔斯 ·M Mescheder ， Michael Oechsle ， MichaelNiemeyer，Sebastian Nowozin，and Andreas Geiger.职业网络：学习函数空间中的三维重建。在CVPR，2019年。[32] Moustafa Meshry，Dan B.戈德曼、萨迈赫·哈米斯、雨果·霍普、罗希特·潘迪、诺亚·斯纳夫利和里卡多·马丁-布鲁阿拉。在野外进行神经再生。在CVPR，2019年。[33] Ben Mildenhall ， Pratul P Srinivasan ， Rodrigo Ortiz-Cayon，Nima Khademi Kalantari，Ravi Ramamoorthi，Ren Ng，and Abhishek Kar.局部光场融合：具有规定采样指南的实用视图合成。ACM事务处理图表，2019年。[34] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。在7920ECCV，2020年。7921[35] 吴仁手持全光照相机。斯坦福大学博士论文，2005年。[36] 放大图片作者：Peter Florence，Julian Straub，RichardA. Newcombe和Steven Lovegrove。Deepsdf：学习连续符号距离函数的形状表示。在CVPR，2019年。[37] Albert Pumarola，Enric Corona，Gerard Pons-Moll，andFrancesc Moreno-Noguer.D-NeRF：动态场景的神经辐射在CVPR，2021年。[38] Gernot Riegler和Vladlen Koltun。自由视图合成。在ECCV，2020年。[39] Rocco，MirceaCimpoi，ReljaArandjelovic'，AkihikoTorii，Tomas Pajdla，and Josef Sivic.社区共识网络。在NeurIPS，2018年。[40] Shunsuke Saito，Zeng Huang，Ryota Natalism，ShigeoMor-ishima ， Angjoo Kanazawa ， and Hao Li. Pifu ：Pixel-aligned implicit function for high-resolution clothedhuman digitiza- tion.在ICCV，2019年。[41] 丹尼尔·沙尔斯坦和理查德·塞利斯基。密集两帧立体对应算法的分类与评价。IJCV，2002年。[42] JohannesLutzSchoünber ger和Jan-Micha e lFrahm。结构从运动重新审视。在CVPR，2016年。[43] JohannesLutzSchoénber ger，EnliangZheng，MarcPollefeys，and Jan-Michael Frahm.用于非结构化多视图立体的逐像素视图选择。在ECCV，2016年。[44] Steven M Seitz和Charles R Dyer。视图变形。计算机图形学与交互技术会议，1996年。[45] Jonathan Shade，Steven Gortler，Li-wei He，and RichardSzeliski. 分层深度图像。计算机图形与交互技术会议，1998年。[46] 沈海瑞和姜星兵基于图像的渲染技术综述。视觉通信和图像处理，2000年。[47] 文森特·西

下载后可阅读完整内容，剩余1页未读，立即下载