Worldsheet：单图像视图合成及其在高分辨率野外图像中的应用

53 浏览量更新于2023-10-14 收藏 21.08MB PDF 举报

视图合成

RGB图像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1125280Worldsheet：将世界包裹在3D薄膜中，从单个图像进行视图合成0Ronghang Hu 1 Nikhila Ravi 1 Alexander C. Berg 1 Deepak Pathak 201 Facebook AI Research（FAIR）2 Carnegie Mellon University0输入视图新视图1新视图2输入视图新视图1新视图20（a）输入视图（b）场景网格薄膜（c）新视图1（d）新视图2（e）新视图30输入视图新视图1新视图2输入视图新视图1新视图20图1：我们通过将网格薄膜（如b所示）包裹在图像上，并从新视角（如c、d、e所示）渲染它，从单个输入RGB图像（如a所示）合成大视角变化的新视图。为户外场景、户外物体、室内场景、室内物体甚至具有高分辨率（960×960）输入的绘画生成了可信的新视图。请在worldsheet.github.io上查看连续合成的视图（图像来源：[49, 13, 25, 28]）。0摘要0我们提出了Worldsheet，一种仅使用单个RGB图像作为输入的新视图合成方法。主要的见解是，将一个平面网格薄膜简单地包裹在与学习到的中间深度一致的输入图像上，可以捕捉到足够的底层几何结构，以生成具有大视角变化的逼真未见视图。为了实现这一点，我们提出了一种新颖的可微纹理采样器，使我们的包裹网格薄膜能够以目标视角可微地被纹理化和渲染到图像中。我们的方法是类别无关的，端到端可训练的，不需要使用任何3D监督，并且在测试时只需要一张图像。我们还探索了一种简单的扩展，通过堆叠多层Worldsheets来更好地处理遮挡。Worldsheet在多个数据集上始终优于先前最先进的单图像视图合成方法。此外，这种简单的想法在广泛的高分辨率野外图像上出人意料地捕捉到了新视图，将它们转化为可导航的3D弹出窗口。视频结果和代码可在https://worldsheet.github.io上找到。0这个想法在各种高分辨率野外图像上出人意料地捕捉到了新视图，将它们转化为可导航的3D弹出窗口。视频结果和代码可在https://worldsheet.github.io上找到。01. 引言02D图像是底层3D世界的投影，但作为人类，我们没有困难地理解这个结构，并想象出从其他视角看图像的样子。考虑图1中显示的火车，我们可以根据我们从过去看到的几辆火车或类似形状的物体的经验所学到的抽象知识，无缝地预测出单个图像的其他视图。使机器具备这种从单个图像推理出3D的能力，将使数万亿张静止照片栩栩如生，广泛应用于虚拟现实、动画、图像编辑和机器人技术。In this paper, we present an end-to-end approach fornovel view synthesis from a single image of a scene via anintermediate mesh representation. Unlike mesh reconstruc-tion for objects of speciﬁc categories, generating meshesfor a scene is challenging as there is no notion of meanor canonical shape to start from, or silhouette from seg-mentation for supervision.We circumvent this problemby wrapping a deformable mesh sheet over the 3D world– much like wrapping a 2D tinfoil onto a 3D pan beforebaking! We name this shrink-wrapped mesh Worldsheet, aterm borrowed from physics for the 2D manifold of high-dimensional strings. After generating this Worldsheet for agiven view, novel views are obtained by moving the camerain 3D space (Figure 2), which allows us to train from justtwo views of a scene using only rendering losses withoutany 3D or depth supervision.To train our model end-to-end, both reconstruction of themesh texture from input view and rendering from a novelcamera view need to be differentiable. The latter is easilyhandled thanks to recent differentiable mesh renderers [16,27, 33]. To address the former, we propose a differentiabletexture sampler over projected 2D views, enabling gradientcomputation of the reconstructed texture map over the 3Dmesh geometry. Furthermore, to better handle occlusionsand depth discontinuities, we propose a simple extensionby stacking multiple layers of Worldsheets onto the scene.In summary, Worldsheet generates novel views by learn-ing to predict scene geometry from a single image. Al-though 3D mesh reconstruction via differentiable renderingis common for objects, to our best knowledge, this is theﬁrst work to show mesh recovery for scenes just from multi-view supervision. Our model consistently outperforms priorstate-of-the-art by a signiﬁcant margin on three benchmarkdatasets (Matterport [3], Replica [46], and RealEstate10K[59]), and is applicable to very high-resolution images in-the-wild as shown in Figure 1.2. Related workNovel view synthesis from multiple images. Traditionalnovel view synthesis methods use multiple input views attest time [4, 22, 11], and are often based on different repre-sentations. Among recent works, Waechter et al. [50] buildscene meshes with diffuse appearance. StereoMag [59] pro-poses multiplane images (MPIs) from a stereo image pairas a layered scene representation. NPBG [1] captures thescene as a point cloud with neural descriptors. NeRF [30]proposes a neural radiance ﬁeld representation for scene ap-pearance, and is followed by many extensions (see [8] for asummary). NSVF [26] adopts sparse voxel octrees as scenerepresentations.FVS [34] and SVS [35] blend multiplesource images based on a geometric scaffold. Yoon et al.[56] combine depth from both single and multiple views togenerate novel views of dynamic scenes. Access to mul-tiple input views greatly simpliﬁes the task, allowing thescene geometry to be recovered via multi-view stereo [38].Novel view synthesis from a single image. In early works,Debevec et al. [7] recover 3D scene models and Horryet al. [14] ﬁt a regular mesh to generate novel views.Liebowitz et al. [24] and Criminsi et al. [6] generate meshesvia projective geometry constraints but these methods cameat the expense of manual editing. Hoiem et al. [13] gen-erate automatic 3D pop-up by ﬁtting vertical and groundplanes onto the 2D image, unlike our mesh representa-tion. More recently in [31, 18, 40], layered depth imagesare used for single image view synthesis based on a pre-trained depth estimator. In [48], online videos are used totrain a scale-invariant MPI representation for view synthe-125290合成新视图的目标已经追求了几十年，从最早完全依赖多视角几何[7, 61, 38]的努力，到更近期的基于学习的方法[59,43, 45, 1, 9, 30, 26, 35, 23, 51,54]。多年来，在这个方向上取得了显著进展。然而，尽管有令人印象深刻的逼真输出渲染，但这些先前的方法大多需要在测试时使用多个图像或地面真实深度，这严重阻碍了它们的实用性。为了弥补测试时缺乏多个视角或3D模型的不足，单图像3D的方法依赖于从数据中进行统计学习。这一工作可以追溯到Hoiem等人的经典作品[13]，随后是Saxena等人的作品[37]，他们通过将一系列平面拟合到图像上获得了“定性3D”。0通用视图合成的理想方法不仅应该依赖于测试时的单个图像，还应该从训练过程中收集到易于获取的监督信号进行学习。在深度学习时代，对于通过多个图像进行监督的中间3D表示的端到端方法越来越受到关注，并且在训练过程中不需要明确的3D信息。然而，它们大多应用于对象[20, 47, 55, 15,43]，并且要么是类别特定的，要么限于合成场景，或者两者都有。最近的研究[5, 53,48]通过使用真实场景的多个视图进行训练，依赖于点云或多平面图像作为中间表示来解决这些问题。然而，多平面图像只能在相对小的视角变化下表现良好，因为每个平面都在一个恒定的深度上；对于点云，需要单独表示场景中的每个点，这使得在高分辨率数据或大视角变化下扩展效率低下。相比之下，网格可以提供更稀疏的场景表示，例如，两个三角形网格面理论上可以表示整个墙壁的平面表面，这使其非常适合单图像视图合成。然而，从单个图像中恢复网格主要是针对对象图像进行研究的，并且以类别特定的方式进行[2,15, 19]，而不是针对场景。novel view 𝐼!"#𝑉 =𝒛 ⋅ %𝑥 + Δ)𝒙 ⋅ tan 𝜃!/2𝒛 ⋅ %𝑦 + Δ)𝒚 ⋅ tan 𝜃!/2𝒛(4)125300场景网格 �0可微纹理采样0输入视图 � $%0深度 � 网格偏移量 Δ%� , Δ%�0网格变形0目标相机0姿态 � #�带纹理的网格 �0图2：我们 Worldsheet 方法的概述。给定输入视图Iin，我们通过将一个Wm×Hm的网格变形到场景几何中，使用网格偏移量（∆ˆx，∆ˆy）和深度z（第3.1节）来构建场景网格。然后，我们可微地采样场景网格的UV纹理映射ˆT（第3.2节），并从目标相机姿态渲染出一个新视图Iout。我们的网格变形是通过在新视图上的损失进行端到端学习的（第3.3节）。我们还在Iout上应用一个修复网络（上图未显示；请参见第3.4节）来修复不可见区域并改善图像细节，输出一个经过改进的新视图Ipaint。我们在没有任何3D或深度监督的情况下，使用两个视图进行训练，并且在测试时只需要一个RGB图像。0SynSin[53]通过特征点云从单个图像中合成新视角。相比之下，我们学习构建场景网格而不是点云，并直接映射图像纹理而不是特征向量，以生成从大视角变化中的新视角。0可微网格渲染。最近的可微网格渲染工作[16, 27,33]通过合成允许通过渲染学习3D结构。NMR[16]和SoftRas[27]通过渲染将3D物体形状重建为网格，并将其与输入图像进行比较，并通过反向传播损失来改善网格几何。CMR[15]、CSM [19]和U-CMR[10]通过从平均或模板类别形状通过轮廓（和[15]中的关键点）监督来变形，构建类别特定的物体网格。我们的方法与上述的分析合成范式一致。然而，与大多数先前的将可微网格渲染应用于物体的工作不同，我们通过对新视图的渲染损失学习场景的3D几何。此外，与[15,10]中预测纹理流不同，我们提出使用可微纹理采样器从输入视图中进行解析采样网格纹理。与[32]不同，我们的可微纹理采样器在z缓冲区中考虑多个网格面（软光栅化，而不仅仅是最近的一个），并假设透视（而不是正交）相机投影。03. Worldsheet：在一个网格中渲染世界0在这项工作中，我们提出了 Worldsheet方法，从单个图像中合成新视角，如图2所示。我们的模型通过将一个网格（即“sheet”）变形到场景几何中来构建一个3D场景网格M，并且仅使用2D渲染损失进行训练，而没有任何3D或深度监督。03.1. 通过变形网格生成场景网格0从尺寸为Wim×Him的输入视图图像Iin开始，我们通过将一个Wm×Hm的网格（即“sheet”）变形到场景几何中来构建一个场景网格。0在场景中通过将一个网格（即“sheet”）进行变形，如图2所示。我们首先使用卷积神经网络从输入图像I中提取一个Wm×Hm的视觉特征图{qw,h}。每个qw,h是网络输出的空间位置（w,h）上的特征向量。在我们的实现中，我们使用在ImageNet上预训练的ResNet-50[12]（带有扩张[57]）输出特征{qw,h}。对于特征图上的每个qw,h，我们预测网格偏移量∆ˆxw,h和∆ˆyw,h，以决定网格上的顶点（w,h）在图像平面内应该移动多远离其锚点位置（我们在NDC空间[41]中输出∆ˆxw,h和∆ˆyw,h，取值范围为-1到1）。我们还预测每个顶点距离相机的距离，即它的深度zw,h。这些值是使用学习的映射预测的。0∆ˆ x w,h = tanh ( W 1 q w,h + b 1 ) / ( W m - 1) (1)0∆ˆ y w,h = tanh ( W 2 q w,h + b 2 ) / ( H m - 1) (2)0z w,h = g ( W 3 q w,h + b 3 ) (3)0其中除以 ( W m - 1) 和 ( H m - 1)确保顶点只能在一定范围内移动。g(∙)是一个标量非线性函数，将网络预测缩放到深度值。我们在实现中使用 g(ψ) = α g / (σ(ψ) + ϵ g) + β g，其中 σ(∙)是sigmoid函数，α g ，β g 和 ϵ g是固定的超参数。构建3D场景网格。我们首先从网格偏移和深度构建网格顶点 { V w,h }0V w,h =0� z w,h ∙ (ˆ x w,h + ∆ˆ x w,h ) ∙ tan( θ F / 2) z w,h ∙ (ˆ yw,h + ∆ˆ y w,h ) ∙ tan( θ F / 2) z w,h0对于 w = 1, ∙ ∙ ∙ , W m 和 h = 1, ∙ ∙ ∙ , H m。这里 θ F是相机的视场角，ˆ x w,h 和 ˆ y w,h是网格上等距离的锚点位置从 -1 到1。然后，我们将网格上的网格顶点 { V w,h }沿着边连接起来形成网格面 { F}，如图2所示，并获得一个3D网格 M = ( { V w,h } , { F })。网格中的一个顶点与其在网格上的4个或8个邻居相连。tion term Lg =ˆT k = splat(Ikin, f k)(5)125310为了使网格表面光滑，除非需要弯曲以适应场景几何形状，0( ¯ w, ¯ h ) ∈ N ( w,h ) � V ¯ w, ¯ h - V w,h � � �� 1，其中 N (w, h ) 是与 ( w, h )相邻的顶点。此外，我们还对网格偏移应用了一个L2正则化项0w,h � ∆ˆ x 2 w,h + ∆ˆ y 2 w,h �。03.2. 可微纹理采样器0为了在新视角合成中将输入场景渲染到另一个相机姿势中，我们需要以可微的方式将输入视图中的图像纹理投影到目标视图中。虽然现有的渲染器 [ 16 , 27 , 33 ]可以基于纹理映射来渲染场景网格的图像，但它们不能直接在屏幕空间中转换两个不同相机姿势之间的图像像素。在我们的模型中，我们通过首先从输入视图中重建场景网格的纹理映射（以可微的方式反转纹理映射到图像的透视变换）来实现两个视图之间的可微投影，以便后续使用现有的网格渲染器在新视角中与场景网格一起渲染。虽然一些方法 [ 15 ,10 ]在对象上使用了学习的纹理流构建网格纹理映射，但很难将其应用于场景，因为场景没有规范形状。在这里，我们采取了另一种方法，提出了一种可微纹理采样器。我们以解析的方式从输入视图 I in 中采样网格纹理ˆ T 作为UV纹理映射 [41]，其中可以计算出顶点坐标和输入图像分别关于顶点坐标和输入图像的梯度 ∂ ˆ T/∂V 和 ∂ ˆ T/∂I in。为了实现这个纹理采样器，我们将网格面投影到图像平面上构建一个缓冲区（按升序排列），该缓冲区包含与图像像素 p i,j 重叠投影的最接近的 K 个网格面的 z值和2D欧几里得距离，就像在PyTorch3D [ 33]中一样。然后，我们将来自图像 I in的RGB像素弹射到UV纹理映射ˆ T上。具体来说，我们首先计算权重 w k i,j，表示第 k个面颜色对像素 p i,j 的贡献，基于 [ 33 , 27 ]中的softmax混合公式。然后，我们将输入图像 I in 分解为K 个图像 I k in，其中 I k in ( i, j ) = I in ∙ w k i,j，并将每个I k in 的RGB像素弹射到纹理映射层ˆ T k 上0其中流(u, v) = f k(i, j)将图像坐标(i,j)映射到第k个网格面上的UV坐标(u,v)。这里的splat是从图像空间I k in到纹理空间ˆTk的可微分splatting操作。最后，将所有的K个纹理映射相0kˆTk。更多细节请参见补充材料。总之，通过每个光栅化的网格面将图像像素投射到纹理空间中，并进行混合，得到最终的纹理映射。0(a) 输入视图2D图像�!"0(b) 网格输出目标视图�#$%0(c) 目标视图修复� &'!"%0(d) 真实目标视图� %(%0图3：目标视图的部分区域（b中的灰色区域）通常从输入视图中是不可见的，必须根据先验知识进行想象。我们使用修复网络在不可见区域进行合理的预测（c）。然而，这个任务本质上是不确定的（例如，在d中无法确定最右边的柜子）。0将所有的纹理图像叠加在一起得到最终的纹理映射。整个过程对Iin和网格顶点坐标{V}都是可微的，因为可以通过解析地计算∂ˆT k/∂I k in，∂ˆT k/∂f k，∂f k/∂V和∂w k i,j/∂V来得到。03.3.通过视图合成学习场景几何0为了合成新的视图，我们将网格顶点坐标{V}从输入相机姿态θ in投影到目标视点θtgt的相机坐标空间中。然后，我们在目标相机姿态下渲染网格M tgt = ({V tgt},{F})以及其纹理映射ˆT，输出大小为W im×H im的2D图像Iout作为目标视图：0I out = render mesh({V tgt}, {F}, ˆT). (6)0我们使用[33]中的可微分网格渲染器，以便我们可以计算∂Iout/∂V tgt和∂Iout/∂ˆT的梯度。通过网格渲染，我们还获得了与Iout大小相同的前景掩码F out，指示渲染图像Iout中哪些像素被网格覆盖，哪些像素来自背景颜色，如图3(b)中的灰色区域所示。我们的模型通过场景的配对输入和目标视图（以及它们的相机姿态）进行监督。我们使用像素L1损失L rgb out = ∥I out − I tgt∥1/(W im∙Him)和感知损失[52, 53]L pc out = P(I out, I tgt)，其中Itgt是真实的目标视图图像。模型在测试时只需要一张图像。03.4.修复和图像细化0目标视图图像由两部分组成：可以直接从输入视图Iin中看到的东西，以及需要根据我们对视觉世界的先验知识进行想象的东西，如图3所示。由于我们在第3.1节、3.2节和3.3节中的网格变形和渲染过程在输入视图和目标视图之间建立了像素对像素的对应关系，它只渲染从输入视图可见的像素。为了获得对不可见图像区域的合理想象，我们在渲染的网格Iout上应用一个修复网络G来填充缺失的区域，并输出一个新的图像I paint = G(I out)作为最终的目标视图。125320Matterport [3] Replica [46]0PSNR ↑ SSIM ↑ Perc Sim ↓ PSNR ↑ SSIM ↑ Perc Sim ↓ # 方法 Both InVis Vis Both InVis Vis Both InVis Vis01 Im2Im [60] 15.87 16.20 15.97 0.53 0.60 0.48 2.99 0.58 2.05 17.42 0.66 2.29 2 Tatarchenko et al. [47] 14.79 14.83 15.05 0.57 0.62 0.533.73 0.74 2.50 14.36 0.68 3.36 3 Vox [42] w/ UNet 18.52 17.85 19.05 0.57 0.57 0.57 2.98 0.77 1.96 18.69 0.71 2.68 4 Vox [42] w/ ResNet20.62 19.64 21.22 0.70 0.69 0.68 1.97 0.47 1.19 19.77 0.75 2.24 5 SynSin [53] 20.91 19.80 21.62 0.71 0.71 0.70 1.68 0.43 0.99 21.94 0.811.5506 我们的（无修复）- 25.42 - 0.80 - 0.68 - - 7 我们的 24.67 22.90 26.00 0.82 0.77 0.82 1.05 0.35 0.54 23.51 0.85 1.320表1：新视角合成：我们和之前方法在Matterport数据集和Replica数据集上的性能。所有模型都在Matterport上进行训练，并在两个数据集上进行评估。详见第4.1节。0我们基于pix2pixHD[52]中的生成器构建我们的修复网络，该生成器将4通道输入（渲染图像Iout及其前景掩码Fout）转换为3通道输出图像Ipaint。我们的修复网络输出整个图像-它不仅填充不可见区域，还在可见区域中细化图像细节。我们在修复输出Ipaint上应用与第3.3节中相同的RGB像素L1损失Lrgbpaint和感知损失Lpcpaint。0训练。我们使用Adam优化器[17]训练我们的模型，使用以下损失的加权组合作为L = λ1Lrgbout + λ2Lpcout +λ3Lrgbpaint + λ4Lpcpaint + λ5Lg + λ6Lm，其中λ1 =λ3 = 8，λ2 = λ4 = 2，λ5 = 0.2，λ6 =10^-4。我们的模型总共训练50000次迭代，批量大小为64，学习率为10^-4。我们使用大小为Wm×Hm =33×33（在第4.2节中也使用65×65）的网格。与SynSin[53]一样，我们使用Wim×Him =256×256作为输入和输出图像尺寸。我们的网格实现基于PyTorch3D [33]。03.5. 扩展：多层次Worldsheets0尽管将单个网格sheet套入图像中适用于各种场景，但其局限性之一是它假设前景对象通过网格面与背景相连，这有时会在物体边界或深度不连续处引起伪影。我们提出了一个扩展来解决这个问题：在场景上预测和变形多层次的Worldsheet，其中每个sheet在其纹理映射中具有一个透明度通道，受分层深度图像[39]的启发。这允许一些层适应前景对象，而其他层捕捉背景。具体而言，我们根据特征图{qw,h}使用方程1到3分别预测每个网格sheet的网格偏移和深度。我们还使用在{qw,h}上的反卷积层预测每个sheet的Him×Wimalpha图，然后将其投影到相关sheet的UV纹理映射中的透明度通道。最后，使用alpha合成[44]在新视角中渲染多个网格sheet。整个模型可以在相同的监督下进行端到端训练。在第4.4节中，我们发现，从定性上讲，这个扩展可以更好地处理遮挡和视差效应。0比单个网格sheet更好。04. 实验0我们在三个数据集上评估我们的模型：Matterport[3]、Replica[46]和RealEstate10K[59]，按照[53]中的实验设置和细节进行评估。然后我们对野外图像和多层次sheet进行分析。04.1. 在Matterport和Replica上的评估0我们首先在Matterport数据集[3]上训练和评估我们的方法，该数据集包含家庭的3D扫描。我们在Habitat模拟器[36]中加载Matterport数据集，遵循与SynSin[53]相同的训练、验证和测试划分。在训练过程中，我们使用输入和目标视图的配对2D图像对模型进行监督。我们经验性地发现，首先训练场景网格预测器（第3.1节），然后冻结场景网格以进一步训练修复网络（第3.4节），比从头开始同时训练两个组件效果稍好。0指标。按照SynSin[53]的方法，我们使用峰值信噪比（PSNR；值越高越好）、结构相似性（SSIM；值越高越好）和感知相似性距离（PercSim；值越低越好）来评估预测的新视角图像Ipaint。PercSim指标基于预测和真实图像之间的卷积特征距离，已被证明与人类判断高度相关[58,53]。由于从输入图像中只能看到目标视图图像的一部分，如图3所示，我们分别在可见区域（Vis，可以从输入视图看到的区域）、不可见区域（InVis，无法看到且必须想象的区域）和整个图像（Both）上评估这些指标。注意，可见区域掩码是从地面真实场景几何和相机视锥（可从Habitat模拟器获取）中获取的，而不是由我们的网格预测的，并且与SynSin的评估中的相同。0基线。我们将我们的方法与几种以前的方法进行比较：Im2Im是一种图像到图像的转换方法，它预测外观流以根据输入相机变换将输入视图变形为目标视图。125330输0输0输入视图 GT目标视图 SynSin 我们的方法我们的方法（无修复）网格 Im2Im0图4：Matterport数据集上我们和以前方法的新视图（场景网格显示在最后一列）。第一行与[53]中的视点变化相同，而第二行的相机角度变化是2倍。0Matterport [3]（2倍相机变化） Replica [46]（2倍相机变化）0PSNR ↑ SSIM ↑ Perc Sim ↓ PSNR ↑ SSIM ↑ Perc Sim ↓ # 方法可见区域不可见区域可见和不可见区域可见区域不可见区域可见和不可见区域可见区域不可见区域可见和不可见区域01 Im2Im [60] 14.93 15.16 15.28 0.51 0.56 0.46 3.26 0.93 1.91 15.91 0.63 2.63 2 Tatarchenko等人[47] 14.71 14.77 15.08 0.56 0.61 0.52 3.741.04 2.14 14.19 0.68 3.37 3 SynSin [53] 19.15 17.76 20.69 0.67 0.66 0.66 2.06 0.78 0.96 19.63 0.77 1.9404 我们的方法（无修复）- - 24.20 - - 0.76 - - 0.69 - - - 5 我们的方法 22.62 20.89 24.76 0.77 0.72 0.77 1.41 0.63 0.56 21.12 0.81 1.700表2：新视图合成：我们模型相对于Matterport数据集和Replica数据集上以前方法在更大视点变化下的泛化性能。所有模型都在Matterport数据集上进行训练，并在两个数据集上进行评估，其相机角度变化是训练数据的2倍。详见第4.1节。0Tatarchenko等人的方法与Im2Im相似，但直接预测目标视图图像，而不是外观流。Vox w/ UNet和Vox w/ResNet是基于UNet或ResNet的不同编码器-解码器架构的深度体素表示的两个变体。SynSin将密集特征点云（从每个图像像素提取）投影到目标相机姿态，并在点云投影上应用细化网络以输出目标视图图像。0我们还评估了我们模型在修复之前的预测（即直接使用网格渲染输出Iout作为目标视图）以分析我们的方法仅使用纹理采样和网格渲染的性能。0结果。结果如表1所示。即使没有修复，我们方法的网格渲染输出Iout在可见区域的三个指标下都优于以前的方法。借助修复网络，我们的最终输出Ipaint在可见和不可见区域都比以前的工作具有显著更高的性能，在该数据集上实现了新的最先进性能。图4显示了我们方法和以前的工作在Matterport数据集上的视图合成示例，我们的方法可以在更精确的位置上绘制门框或沙发等物体。0输入视图 GT目标视图预测 pred. w/ o修复0图5：我们模型（在Matterport上训练）在不重新训练的情况下将其推广到Replica数据集（第4.1节）。0对Replica数据集的推广。按照[53]的方法，我们还评估了我们的模型在另一个场景数据集Replica[46]上的泛化能力，该数据集包含家庭和办公室的高质量激光扫描。我们采用在Matterport数据集上训练的模型，并在不重新训练的情况下直接在Replica数据集上进行评估。结果如表1所示，所有方法都在相同的设置下进行训练和评估。可以看出，我们的方法在这个数据集上实现了明显更好的泛化能力，并且比以前的方法表现出更大的优势。图5显示了在Replica数据集上的视图合成示例。0对更大视角变化的泛化能力。我们进一步分析我们和先前方法在超出其训练数据范围的更大相机姿态变化上的泛化能力。在这个分析中，我们在测试场景上采样新的输入-目标视角对，其相机角度变化是训练数据的2倍。125340输0输0输入视角 GT 目标视角 SynSin 我们我们无修复网格 Im2Im0图6：RealEstate10K数据集上我们和先前方法的新视角（场景网格显示在最后一列）。0# 方法 PSNR ↑ SSIM ↑ Perc Sim ↓01 Im2Im [60] 17.05 0.56 2.19 2 Tatarchenko et al. [47] 11.350.33 3.95 3 Vox [42] w/ UNet 17.31 0.53 2.30 4 Vox [42] w/ResNet 21.88 0.71 1.30 5 3DView（类似于[29]） 21.88 0.661.52 6 SynSin [53] 22.83 0.75 1.13 7 Single-View MPI [48]24.03 0.78 1.18 8 StereoMag [59] 25.34 0.82 1.1909 我们（33×33网格） 26.24 0.82 0.83 10 我们（65×65网格）26.74 0.82 0.800表3：我们的模型与RealEstate10K数据集[59]上的先前工作的比较。详见第4.2节。0在训练数据中，直接在这些新视角上评估所有方法而无需重新训练。结果如表2所示，我们的方法在所有指标下都明显优于其他方法。图4（第二行）展示了一个相机角度变化为2倍的示例。04.2. 在RealEstate10K上的评估0RealEstate10K数据集[59]包含从房屋的YouTube视频中提取的室内和室外场景。输入视角和目标视角是在时间范围内的不同视频帧，使用结构光法估计相机姿态。在这个数据集上，我们遵循SynSin[53]中的实验设置，并使用相同的训练、验证和测试数据。除了使用33×33网格外，我们还使用更高分辨率的65×65网格训练我们的模型，该模型从一个经过训练的33×33网格模型初始化，并使用新的转置卷积层将Sec.3.1中的特征图{qw,h}上采样到65×65空间维度。我们将我们的方法与几种先前方法进行比较。除了第4.1节中的基准方法，我们还比较了其他三种方法。3DView是类似于Facebook 3D Photo[29]的系统，基于分层深度图像，也是[53]中的一个基准。Single-View MPI [48]和StereoMag[59]都使用多平面图像（MPI），其中0# 消融设置 PSNR ↑ SSIM ↑ Perc Sim ↓01 默认（33×33网格 26.24 0.82 0.83 正则化权重：10^(-4)）02 正则化权重：0 25.78 0.81 0.86 3 正则化权重：10^(-5) 26.180.82 0.83 4 正则化权重：10^(-3) 24.83 0.78 0.9605 5×5网格 24.39 0.79 0.99 6 9×9网格 25.10 0.80 0.92 717×17网格 25.91 0.81 0.84 8 65×65网格† 26.74 0.82 0.800表4：在RealEstate10K数据集[59]上的消融实验。详见第4.2节。（†：从默认模型初始化）0Single-Vie

下载后可阅读完整内容，剩余1页未读，立即下载