PixelSynth：一致的3D场景合成

127 浏览量更新于2023-10-16 收藏 14.79MB PDF 举报

图像合成

视角变化

身份认证购VIP最低享 7 折!

30元优惠券

141040PixelSynth：从单个图像生成一致的3D体验0Chris Rockwell David F. Fouhey 密歇根大学 Justin Johnson0摘要0不同iable渲染和3D推理的最新进展为从单个图像中合成新视图提供了令人兴奋的结果。尽管结果逼真，但这些方法仅限于相对较小的视角变化。为了合成沉浸式场景，模型还必须能够进行外推。我们提出了一种将3D推理与自回归建模相结合的方法，以一种3D一致的方式进行大视角变化的外部绘制，从而实现场景合成。我们在模拟和真实数据集上展示了与各种方法和可能的变体相比的单图像大角度视图合成结果的显著改进。此外，我们展示了与其他累积方法相比的增加的3D一致性。01. 引言0想象一下，你走进图1所示的办公室。如果你向右转，你会看到什么？有通向露台的门吗？如果你向后退然后向左看呢？虽然图像本身不包含这些信息，但由于你对其他房间的经验，你可以想象出图像背后的丰富世界。这个单图像场景合成的任务承诺将任意照片变得生动起来，但需要解决几个关键挑战。首先，处理大视角变化涉及到远超输入像素的外推。其次，从相同的输入生成多个输出需要一致性：左转10°或20°应该逐渐揭示一个单一的基础世界。最后，建模视角变化需要具备3D意识以正确捕捉透视变化。以前的视图合成方法未能达到这些目标。在单个场景的许多输入视图之间进行插值已经取得了很大的进展[29, 28, 43, 44, 48,50]；虽然这些具备3D意识的方法生成了一致的输出，但它们并不尝试对超出其输入视图的部分进行外推。以前的单图像视图合成方法[15, 47,53]可以对小的旋转和平移进行外推，但无法模拟这种尺度上的视角变化。例如，我们展示了简单地重新训练SynSin[53]以进行更大角度的旋转会导致崩溃。同时，自回归模型在图像生成和补全方面取得了令人印象深刻的结果[4, 30, 35, 40,49]。这些方法在远超输入图像边界的地方取得了很大的外推成功；然而，它们没有试图明确建模其生成图像背后的一致的3D世界。在本文中，我们提出了一种单图像场景合成的方法，通过融合3D推理和自回归建模的互补优势来解决这些挑战。我们使用自回归模型在面临大视角变化时完成图像来实现外推。独立生成所有输出视图会导致不一致的输出。相反，我们在要生成的视图的极限位置上确定一个支持集（在图1的边界上显示）。然后，将支持集的生成图像提升到3D并添加到一致的场景表示中。然后，可以从场景表示中重新渲染中间视图，而不是从头开始生成，确保所有输出之间的一致性。产生一个既能进行极端视角合成的系统，又能进行大视角外推的系统是具有挑战性的。0输入图像0合成的场景0图1：单图像场景合成。我们的框架将3D推理和自回归建模的互补优势融合在一起，从单个图像中创建出沉浸式场景。0对于更大的角度，重新训练会导致崩溃。同时，自回归模型在图像生成和补全方面取得了令人印象深刻的结果[4, 30,35, 40,49]。这些方法在远超输入图像边界的地方取得了很大的外推成功；然而，它们没有试图明确建模其生成图像背后的一致的3D世界。在本文中，我们提出了一种单图像场景合成的方法，通过融合3D推理和自回归建模的互补优势来解决这些挑战。我们使用自回归模型在面临大视角变化时完成图像来实现外推。独立生成所有输出视图会导致不一致的输出。相反，我们在要生成的视图的极限位置上确定一个支持集（在图1的边界上显示）。然后，将支持集的生成图像提升到3D并添加到一致的场景表示中。然后，可以从场景表示中重新渲染中间视图，而不是从头开始生成，确保所有输出之间的一致性。产生一个既能进行极端视角合成的系统，又能进行大视角外推的系统是具有挑战性的。141050提出了一种在不需要辅助数据姿势的情况下将论文和结果提升到3D的方法是一项挑战。我们的方法在第3节中描述，借鉴了视图合成和自回归建模社区的见解。每个图像和新视点都会产生一个大而定制的区域需要填充，我们通过调整VQVAE2[35]和扩展局部掩蔽卷积[18]来学习图像特定的顺序进行外部绘制。填充完成后，我们使用SynSin[53]的技术获得3D。该系统可以外部绘制大而多样的区域，累积3D外部绘制，并且可以在除图像和6DOF相对姿势之外没有任何监督的情况下进行训练。我们在标准数据集Matterport 3D+Habitat [3, 41]和RealEstate10K[63]上评估了我们的方法以及各种替代方法和竞争方法，使用了大幅度的角度变化（比[53]大6倍）。在第4节的实验中，我们使用人类判断、PSNR、感知相似度和FID等标准指标进行评估。我们的实验结果表明：（1）与在我们更大的视点上训练现有方法相比，我们提出的方法产生了更好的结果。特别是，用户选择我们的方法的时间比多个SynSin变体的最佳变体多73%。（2）我们重新渲染支持集的方法优于其他迭代方法，平均72%的图像更一致。02. 相关工作0最近，新视角合成和图像补全都取得了快速的进展。虽然新视角合成工作已经处理了大视角变化，但通常需要多个输入图像。在只有单个输入图像的情况下，补全对于外推非常重要。新视角合成。如果有多个视角作为输入，可以推断出3D信息来合成新的视角。经典方法通常使用多视图几何[6, 9,11, 22, 42,65]。深度网络使用了一种学习方法，并且在较少的输入视图和较少的附加信息下展示了令人印象深刻的结果。它们用各种方式表示3D，包括深度图像[1, 28, 37,56]，多平面图像[47, 63]，点云[53]，体素[25,44]，网格[15, 20, 26]，多层网格[13, 43]和辐射场[29, 50,60]。我们使用点云表示。在只有单个输入图像的情况下，CNNs也取得了成功[8, 23, 48,57]，这主要归功于生成建模的进展[2, 5, 17, 19, 21, 32, 51,59]。然而，单图像工作仅限于小角度变化[45, 47,64]。像SynSin[53]这样的方法将外推视为修复，但在较大角度上存在困难。我们的目标是从图像中合成场景，这需要大范围的外推。因此，我们明确地使用基于补全的方法进行外推。0同时进行的工作涉及类似但不同的问题。Liu等人[23]在自然场景中沿着相机轨迹前进。相比之下，我们的重点是室内场景，并且我们处理外推。我们在这个设置中展示了一种基于补全的方法比[23]类似的方法产生了更好的结果。Hu和Pathak[15]使用了一个网格表示，它承担了SynSin两倍的旋转，但仍然将外推视为插值。相比之下，我们的基于补全的方法明确地进行外推，我们展示了它在大角度上击败了基于修复的方法。Rombach等人[38]处理图像的大角度变化，但没有学习3D表示。在场景中，我们展示了我们在视角之间累积3D信息的方法对于一致性至关重要。0图像补全和外推。最近的修复工作采用对抗性方法[16, 24,54, 58]，并已被用于新视角合成的改进[23, 44, 47,53]。然而，修复不适用于合成大角度变化，这会导致大面积缺失区域。针对外推的方法[46, 52,55]改进了外推，但对于可能出现在视角合成中的任意缺失区域不够灵活。我们的工作采用了深度自回归模型的技术。这些工作使用了RNNs [30]，CNNs [27, 30, 36, 40,49]和Transformers[4]等方法来预测单个像素。虽然顺序生成比前向传递方法慢，但它能够实现灵活的排序和最先进的性能[4, 7, 27, 31,35]。然而，自回归方法本身并不能实现3D一致的外推。因此，我们结合3D视角合成和这些文献中的方法来生成一组3D一致的视角。使这种3D融合工作需要建立在几个最近的发展之上：我们改编了Jain等人的掩蔽卷积方法[18]，以处理自定义的、每个图像的区域进行外推；此外，像VQVAE2[35]和Dall-E[33]一样，我们发现从一组补全中进行选择有助于增加逼真度。03. 方法0我们的目标是输入一张图像并合成一组显示周围场景的一致图像。这需要在大尺度变换下生成高质量的图像，并确保结果的3D一致性。我们提出了一种方法来完成这个任务，它使用深度自回归建模来促进高质量的外推，并结合3D建模来确保一致性。该方法的两个关键见解是图像数据生成的顺序和方法的3D性质。如图2所示，我们的系统首先在极限支持视图上生成数据，并在点云上操作。我们使用自回归外推模块来完成这些支持视图的外推，该模块处理了大部分的生成工作。1141060输入0外部绘制大变化0渲染中间视图0添加到点云02N0添加到点云0图2：一致的场景合成。模型首先生成极端支持视图，然后可以生成中间视图。这使得模型可以进行一次外部绘制和多次重新渲染，从而提高3D一致性。0重新投影中间视图时，我们使用细化模块对结果进行修饰。在整个过程中，我们使用自监督深度模块将图像转换为点云，并使用可微分渲染器将其转换回来。03.1. 3D和合成模块0我们首先介绍我们的系统使用的每个模块，这些模块如图3右侧所示。我们首先描述映射到和从点云的两个模块，然后是生成和细化像素的模型。除了投影模块外，所有模块都是可学习的函数，由深度神经网络表示。每个模块的完整描述在补充材料中。0深度模块D：给定一幅图像I，我们可以使用学习的深度预测系统将其转换为彩色点云C =D(I)。具体而言，通过使用U-Net[39]推断每个像素的深度，并使用已知的内参将像素映射到3D。在我们的工作中，我们通过重投影损失的端到端训练来学习D。0投影器π：给定一个彩色点云C和6自由度姿态p，我们可以使用Pytorch3D[34]的可微分渲染器将其投影到图像I =π(C, p)。该渲染器使用软z缓冲区，可以混合附近的点。0外部绘制模块O：当视点发生剧烈变化时，视野中会出现大量缺失区域，必须进行外部绘制。具体的区域取决于视点的变化和图像内容。我们在VQ-VAE[31,35]的潜空间上执行每个图像的外部绘制。我们的特定模型通过一个离散的32×32×1维嵌入空间{Z}将256×256×3的输入自动编码，其中Zi,j,1∈Z5121。使用离散值鼓励模型选择更多差异化的完成。我们使用自回归模型[31, 33,10]在这个32×32的潜空间中进行外部绘制。在我们的特定情况下，我们使用PixelCNN++[40]架构预测像素嵌入，使用512路分类头来预测一个分布。0嵌入分布。我们使用局部掩膜卷积[18]块来实现图像特定的自定义像素排序。我们在图4中展示了使用的排序示例，它们将像素从可见区域附近开始外部绘制，然后是更远的像素。0细化模块R：外部绘制返回的图像通常是合理的，但往往缺乏细节或存在不完美深度引起的不一致性。因此，我们使用对抗训练的细化模块来纠正局部错误。该模块将原始像素和外部绘制像素的重投影进行混合，并预测其输入的残差。我们的生成器架构类似于[53]，使用包含注入噪声的BatchNormalization的8个ResNet[12]块。我们采用[51]中的鉴别器。03.2. 推理0在推理时，我们将模块组合起来生成完整的图像集，分为两个阶段：支持视图外部绘制，然后是中间视图渲染。过程概述如图3左侧所示，并可重复用于合成多个视角。0支持视图外部绘制和细化：给定单个输入图像和支持视图p1，我们的目标是创建一个更新的点云，其中包括可能在视图p1中看到的一组像素。我们通过在支持视图中进行外部绘制来实现这一目标：首先，我们通过投影从输入推断出的点云或I' = π(D(I),p1)来估计在支持视图中可以看到什么。这种投影通常具有较大且与图像特定的间隙（图4）。我们的第二步是组合外部绘制和细化模块，或者I1 =R(O(I'))。最后，通过应用D将产生的大视图合成到一个点云中，即C1 = D(I1)。0中间视图渲染和细化：一旦输入和外扩支持视图转换为点云，我们可以通过应用投影和细化模块快速渲染任何中间视图pi。具体来说，如果C =D（I）是输入点云，C1是支持视图点云，我们只需将它们的组合投影应用于它们的投影，即R（π（[C，C1]，pi））。03.3.训练和实现细节0模型的端到端训练很困难，因为外扩器需要真实的输入和输出，这会破坏梯度流。因此，我们分别对深度和细化模块、外扩器VQ-VAE和外扩器自回归模型进行训练。在所有情况下，批量大小选择以最大化GPU空间，并在验证损失停滞时停止训练。我们首先训练外扩器O的潜在VQ-VAE空间，然后将其冻结并在训练期间由其他模块使用。训练进行了约30k次迭代，批量大小为141070D π R O0支持视图外扩0中间视图渲染0ws0Altern0ate Vi0深度模块D0投影仪π0外扩器O0细化模块R0深度图像0重投影0图像0输出图像0输入图像0点云，p0重投影0图像/重投影0自定义顺序PixelCNN++0VQVAE编码器0VQVAE解码器0UNet0PyTorch3D渲染器0ResNet0输入图像0输出视图10点云0组合点云0输出视图i 输出视图N0输出视图20πR0图3：方法概述。在推断过程中，模型首先对一个极端的支持视图进行外扩，然后渲染中间视图（左）。这两个步骤都依赖于深度模块将图像提升到点云，投影器在新视图中进行渲染，细化模块对输出进行平滑处理（右）。在外扩期间，外扩器填充目标视图中的缺失信息。0外扩输入输出0图4：自回归外扩。我们使用图像特定的顺序进行外扩，该顺序从可见区域相邻的像素开始，向外移动。我们的模型在一个矢量量化的嵌入空间中进行外扩。0共120个，并使用[35]的损失：L2重投影损失和嵌入约束损失。接下来，我们联合训练深度和细化模块。为了避免在训练期间从外扩器中采样，我们使用真实值代替要外扩的缺失像素。深度和细化的组合使用L1像素损失、内容损失[61]和多尺度鉴别器损失[51]进行训练。细化模块中的鉴别器使用特征匹配损失在多个尺度上进行训练。在此过程中，深度模块被隐式学习。我们进行了125k次迭代的训练（Matterport为200k），批量大小为12。最后，训练O中的自回归模型。它使用学习的VQ-VAE潜在空间，使用自定义的外扩顺序进行训练。顺序从重投影向外移动（图4）；重投影是深度的一个函数0由深度模块预测。训练使用批量大小为60和交叉熵损失，进行约75k次迭代。课程学习。深度和细化模块通过课程进行训练。它们首先学习合成小的视角变化，然后推广到更大的角度。在前25k次迭代中，我们以与[53]相同的旋转进行训练。对于Matterport，这是每个欧几里德方向20°，对于RealEstate10K，这是总共5°。接下来，我们增加最大旋转量，并在每25k次迭代中重复此增加，直到达到目标旋转。外扩推断细节：外扩产生多样的补全，这是一把双刃剑：有些好，但很多与输入不一致。因此，我们生成多个样本并选择最佳的样本。选择使用分类器熵和鉴别器损失的互补信号 -与输入一致的样本通常在模型类别上具有较低的熵（我们使用Places[62]分类器），而详细图像通常具有较高的鉴别器损失。详细信息请参见补充材料。计算减少。我们对聚合模型进行了积极而高效的修剪，否则会变得很重。外扩器对速度最关键。我们将自回归模型的深度减少了60％，宽度减少了50％，并使用32×32的补全，而VQVAE2的补全是32×32和64×64。我们发现，可以通过将32×32的补全与细化模块配对来生成64×64的补全。总体而言，我们的改进使得使用50个补全的推断速度提高了10倍（使用一个补全的速度提高了500倍），而不是使用完整的VQVAE2和PixelCNN++设置。使用50个样本完成需要约1分钟，使用1个样本则需要约1秒。训练在4个2080 Ti GPU上大约需要5天。141080← 左输入右 → 左0右左0图5：一致、高质量的场景。给定一张单独的图像，所提出的方法可以在大视角变化下生成图像。它既延续了内容（例如墙壁，右下角），又创造了一致的内容（例如门，左上角）。结果显示在RealEstate10K上。04. 实验0我们的实验目标是确定我们的提出方法从单个图像中合成新场景的效果如何。我们在标准数据集上进行，并与现有技术进行比较（第4.1节）。我们的任务不仅需要创建合理的新内容，还需要确保所创建的内容是3D一致的。我们分别评估这两个目标。我们通过独立评估每个生成的视图（第4.2节）来测试生成的视图的质量；我们通过评估一组重叠视图的一致性（第4.3节）来衡量一致性。04.1. 实验设置0我们使用标准数据集和标准度量指标进行全面评估。我们将我们的方法与现有技术的基线以及测试替代场景生成或视图合成策略的消融进行比较。0数据集。按照[53]的方法，我们在Matterport3D[3]和RealEstate10K[63]上进行评估。这些数据集可以用于训练和评估视图对的生成。为了与过去的工作保持一致，我们遵循与[53]类似的选择设置，只是我们增加了旋转；对采样进行相应的更改。详细信息请参见补充材料。0Matterport：图像选择是由一个在Habitat[41]中进行随机导航的实体代理完成的。我们将[53]角度选择的限制从每个方向的20°增加到120°。0RealEstate10K：RealEstate10K是一个由视频和图像集合组成的集合，由剪辑中的帧进行选择。SynSin选择角度变化≥5°，最大帧差异为30。增加角度变化并不简单，因为≥30°的变化很少见，可能对应于不同房间的远离帧。0因此，我们选择相距20°至60°之间且距离≤1米的一对图像。平均角度约为30°，大约是SynSin的8倍，因为SynSin有时会重新采样；有关详细信息，请参阅[53]。0评估指标。我们使用人类判断以及一组自动化指标来评估内容质量和一致性。0人类A/B判断：我们通过要求注释者比较生成的图像来评估图像质量，通过要求注释者比较图像对来评估一致性。在这两种情况下，我们要求人类进行成对比较，并报告与所提出方法相比的平均偏好率：如果某种方法低于50％，则表示该方法比所提出的方法差。合成的自动评估被认为是困难的，我们发现人类判断与我们自己的判断更相关于自动系统。0Fréchet InceptionDistance（FID）[14]：我们使用FID来评估生成图像在分布水平上的匹配程度，该指标通过比较来自Inception网络的激活分布来衡量相似性。已经证明它与人类判断的相关性很好[14]，我们发现它是图像质量的最佳自动化度量指标。0PSNR和感知相似度[61]：PSNR和PercSim是比较图像的标准度量指标。它们是衡量一致性的优秀指标，这是一个单峰任务。之前的研究[46，52，54]表明，它们对于条件图像生成来说是不准确的度量指标，因为输出有许多模式。我们仅报告它们是为了与过去的工作保持一致。0基线。我们与在合成房间未见部分领域的现有工作进行比较，以及测试我们系统的组件的消融（在使用时引入）。我们的主要比较对象是SynSin[53]，因为它是最先进的，尽管我们还评估了其他标准141090RealEstate10KMatterport0输入SynSin SynSin - 6X 重0SynSin - 6X Seq. 外观流0图6：视图合成消融。以往的工作无法合成大角度变化的图像，即使进行了额外的训练和顺序生成，通常会导致崩溃。而显式外扩方法则可以创建逼真且一致的内容。0标准基线[45, 47,64]。除了标准的SynSin，我们还评估了许多方法来扩展SynSin以处理我们数据集中的大旋转。0SynSin [53]:SynSin是一种主要的基线方法，如[53]所述，没有针对极端视角变化的适应。我们还评估了以下扩展方法：(SynSin -Sequential)将转换分解为6个较小的转换，累积3D信息的自回归SynSin；(SynSin -6X)在更大的视角变化上训练的SynSin模型；(SynSin - 6X,Sequential)在更大的视角变化上训练并按顺序评估的SynSin模型。0其他基线：我们与许多其他视图合成方法进行比较，以测试是否有任何困难是特定于SynSin的。特别地，我们使用了：外观流[64]；Tatarchenko等人的（从单一图像中获取多视图3D）[45]；以及单视图MPI[47]，该方法仅适用于RealEstate10K。04.2. 评估质量0我们首先衡量生成图像的质量。能够合成超出输入范围的逼真图像对于生成沉浸式场景至关重要。0定性结果。图5显示，所提出的方法可以在大角度变化下生成高质量、3D一致的图像。这些图像表明该方法能够真实地延续可见的场景信息，包括与原始图像内容一致的全新门在左上方和纹理墙壁的延续在右下方。与之前的工作在图6中的比较表明，基线方法在大角度变化下表现困难。直接的解决方案，如顺序生成或在大角度变化上进行训练，都无法成功。虽然SynSin -6X生成了一些结果，但主要是重复可见像素。我们的方法可以在适当的情况下扩展可见信息，还可以创建新的对象，如桌子、窗户和桌子。0表1：图像质量，通过A/B测试（与我们的方法相比选择更符合图像重投影的合成图像的偏好频率）和FID进行测量。在A/B测试中，工作者从替代方法和我们的方法中选择更符合真实分布的合成图像。所有基线方法都不如我们的方法受欢迎，并且我们的方法与真实分布的匹配程度更好，这是通过FID进行测量的。单视图MPI[47]在Matterport上不可用。0方法Matterport房地产A/B↑FID↓A/B↑FID↓0Tatarchenko等人[45] 0.0% 427.0 0.0% 256.6外观流[64] 19.8% 95.8 1.9% 248.3 单视图MPI[47] - -2.7% 74.8 SynSin[53] 14.8% 72.0 5.8% 34.7 SynSin -Sequential 19.5% 77.8 11.5% 34.9 SynSin - 6X 27.3%70.4 22.0% 27.9 SynSin - 6X, Sequential 21.2% 79.314.4% 33.10我们的方法-56.4-25.50定量结果。表1中的定量结果0与图6的定性结果基本一致。在Matterport数据集上，我们的显式外扩方法在各项指标上相比包括SynSin在内的基线方法表现更好。与SynSin相比，其他替代基线方法表现更差，这表明这不是SynSin特定的问题。在更大的旋转训练和应用顺序生成到SynSin上可以提高性能，但不能弥补与我们方法之间的差距。在RealEstate10K数据集上，人类判断的差距更大。有趣的是，尽管SynSin -6X经常产生重复和平均颜色，但在RealEstate10K上的FID表现良好。这部分是因为RealEstate10K中包含大量通过门口看向室内的图像。在这些情况下，目标视图通常包括门旁边的墙壁，这通常由单调和重复的颜色组成。因此，即使对人类来说差异很明显，重复的颜色在分布水平上也是合理的。为了遵循过去的工作，我们报告PSNR和感知。141100表2：传统度量，如PSNR，对于外推任务来说是不准确的度量，但作为参考进行报告。0方法 Matterport RealEstate10K PSNR ↑ Perc Sim ↓ PSNR ↑Perc Sim ↓0Tatarchenko等人[45] 13.72 3.82 10.63 3.98 AppearanceFlow [64] 13.16 3.68 11.95 3.95 Single-View MPI [47] - -12.73 3.45 SynSin - 6X，顺序 15.61 3.17 14.21 2.730我们 14.60 3.17 13.10 2.880输入向下向左0向下向左0我们0顺序无3D累积。0图7：一致性消融。提出的方法在视图之间生成一致的场景。没有3D累积，外部绘制区域完全不一致。顺序外部绘制会产生伪影，因为在多个视图中使用自回归补全。0表2中最佳表现方法的相似性度量（请参阅补充材料以获取全部内容）。这些自动化度量，特别是PSNR，对于外推任务来说是不准确的度量，因此A/B测试是主要的成功度量。图6中AppearanceFlow的结果证明了这一现象。这种方法在RealEstate10K中经常产生完全灰色的图像，并且在A/B测试中输给我们的方法的比例为98.1%。然而，它的PSNR与其他方法相媲美。04.3. 评估一致性0在评估了单个图像的质量之后，我们接下来评估一致性。我们注意到，只有当结果具有高质量时，一致性才重要-产生恒定的值是一致的。因此，我们只关注我们的方法和我们方法的替代累积策略的一致性。我们评估一对生成结果之间的一致性，一个是极端视图，一个是中间视图。设置遵循视图合成，有两个例外：我们0表3：场景一致性。一致性的A/B比较。工作者选择最一致的重叠合成图像对（例如图7中的右两个完整图像）。所有低于50的分数表示提出的方法在平均水平上击败了所有消融方法。没有3D累积时一致性最低。由于重复外部绘制，顺序生成的一致性不如我们的方法。0A/B vs. 我们 ↑ 方法 Matterport RealEstate10K0没有3D累积 22.6% 7.5% 顺序生成 44.0%36.2%0我们- -0选择一个大的视角变化（约35°水平，约17.5°垂直），以确保有足够的变化来检查一致性，我们只使用水平和垂直旋转，因为相机滚动使判断一致性变得困难。详细信息请参见补充材料。0场景合成的替代策略。在整个过程中，我们使用我们的基本模型，但与场景合成的替代策略进行比较。具体来说，我们尝试：0我们的-没有3D累积：我们应用了该方法，而不是在生成的图像之间累积点云。这意味着每个合成视图都会进行外部绘制，并且外部绘制在视图之间是独立的。0我们的-顺序生成：我们应用了提出的3D累积，使用相反的顺序：这样可以为最近的图像补充缺失区域，然后向外重复。与我们的方法相比，这导致在每个新视图中进行外部绘制，而我们的方法仅在一个极端视图中进行外部绘制。0定性结果。我们在图7中展示了一张图像的两个输出。没有累积，每个视图都会得到两个完全不同的结果（顶行）。添加累积有助于解决这个问题，但是在两个阶段顺序进行（中间行）会产生可见的伪影。通过首先生成一个大的变化，我们的方法（底行）产生更一致的结果。0定量结果。在表3中显示的A/B测试支持定性结果：在RealEstate10K上，独立生成仅选择7.5%的时间。顺序生成累积了3D表示，并且比天真方法表现更好，但比提出的方法不一致。我们在受控环境中使用PSNR和感知相似度定量验证这些结果。我们使用相同的设置，但对图像应用纯旋转，这意味着生成的图像通过单应性相关。我们将其应用于RealEstate10K，并使用单应性将极端视图变形为中间视图，并将中间视图变形为极端视图。然后，我们使用一致性计算。141110重投影分类器0判别器两者（我们的）0图8：改进样本选择。选择至关重要，因为Outpainter创建了多种完成。使用分类器熵可以得到与输入一致的完成，而经过训练的判别器提供更多细节。综合选择产生了既一致又详细的生成结果。0在重叠区域上的峰值信噪比（PSNR）和在非重叠区域上的变形图像上的感知相似度（PercSim），其中非重叠区域被屏蔽。没有3D累积的效果很差，PercSim/PSNR为0.606/13.6；使用3D累积的顺序生成大大改善了结果，达到了0.456/17.9。完整的方法进一步提高到了0.419/18.6。04.4. 消融实验0最后，我们报告了一些方法的消融实验。这些实验测试了我们的潜在空间的贡献，多个样本的使用以及用于选择样本的机制。0消融实验。我们将所提出的Outpainting模块和采样与其他方法进行了比较。我们的 -RGB自回归：我们与使用RGB空间进行比较，以测试我们潜在空间的价值。与之前的工作[40]类似，我们只考虑了一个RGB完成。与基于VQ-VAE的模型不同，多个完成在经验上没有太大帮助。我们的 -1完成：我们评估了仅使用一个完成的方法的有效性，这更加高效但通常效果较差。我们的 -分类器选择：我们应用了我们提出的方法，但没有使用判别器进行选择。我们的 -判别器选择：我们应用了我们提出的方法，但没有包括分类器进行选择。0定性结果。仅仅采用自回归方法并不能完全解释我们的成功。如图8所示，自回归完成的多样性意味着样本选择至关重要。虽然分类器熵[35]选择了合理的完成，但它们往往缺乏细节纹理（左图）。相比之下，判别器选择具有逼真纹理的完成，但它们可能与整个场景不协调（中图）。我们发现这两种选择方法是互补的。它们结合起来选择了合理的完成并具有逼真的细节（右图）。0定量结果。表4证实了定性结果。在RealEstate10K上，基线分类器和经过训练的判别器的表现与单个完成相当好甚至更好。0表4：综合消融。自回归模型和选择标准的比较。我们的方法在RealEstate10K上击败了所有消融实验。在Matterport上，相同的选择趋势也是正确的。然而，Matterport的扫描环境呈现出均匀的光照，因此单个完成足以最大化自回归性能。0方法 Matterport RealEstate10K A/B vs. FID ↓ A/B vs. FID ↓我们 ↑ 我们 ↑0RGB自回归 41.3% 60.73 29.6% 31.90 1 完成 52.3% 55.4638.4% 28.04 分类器选择 47.7% 59.78 44.9% 28.71判别器选择 47.9% 56.49 47.7% 26.300我们 - 56.36 - 25.530RealEstate10K0Matterport0输入1重新投影0输入2 我们0图9：双输入综合。由于建立在点云上，所以所提出的方法可以很容易地推广到两个输入图像。0完成。再次强调，结合判别器和分类器可以得到最佳选择。在Matterport上，结合也是有帮助的。然而，与真实图像中的光线反射效果相比，其扫描环境往往呈现出更均匀的光照。因此，通常一个完成就足以最大化自回归性能。最后，在表中，我们证实了在VQ-VAE空间中的外扩优于使用RGB。05. 讨论0我们认为从单个图像中合成一个丰富、完整的世界是一个新的挑战。仅需要一个输入打开了新的体验，但即使只有一个图像，我们也认为3D意识对于良好的结果和通用性至关重要。例如，我们的模型的3D意识使得我们的系统可以应用于两个视图，如图9所示，通过输入两个点云。0致谢。我们感谢Angel Chang，Richard Tucker和NoahSnavely允许我们共享他们数据集中的帧，并感谢OliviaWiles和Ajay Jain提供的易于扩展的代码。感谢ShengyiQian，Linyi Jin，Karan Desai和NileshKulkarni的有益讨论。141120参考文献0[1] Kara-Ali Aliev，Artem Sevastopolsky，Maria Kolos，DmitryUlyanov和VictorLempitsky。神经点图形。arXiv预印本arXiv:1906.08240v3，2020年。20[2] Andrew Brock，Jeff Donahue和KarenSimonyan。大规模GAN训练用于高保真度的自然图像合成。在ICLR，2019年。2，30[3] Angel Chang，Angela Dai，Thomas Funkhouser，MaciejHalber，Matthias Niessner，Manolis Savva，Shuran Song，AndyZeng和YindaZhang。Matterport3d：从室内环境的RGB-D数据中学习。3DV，2017年。2，50[4] Mark Chen，Alec Radford，Rewon Child，JeffreyWu，Hee-woo Jun，David Luan和IlyaSutskever。从像素开始的生成预训练。在ICML，页1691-1703，2020年。1，20[5] Qifeng Chen和VladlenKoltun。使用级联细化网络进行摄影图像合成。在ICCV，页1511-1520，2017年。20[6] Shenchang Eric Chen和LanceWilliams。用于图像合成的视图插值。在SIGGRAPH，页279-288，1993年。20[7] Xi Chen，Nikhil Mishra，Mostafa Rohaninejad和PieterAbbeel。Pixelsnail：一种改进的自回归生成模型。在ICML，页864-872，2018年。20[8] Xu Chen，Jie Song和OtmarHilliges。具有连续视图控制的单眼神经图像渲染。在ICCV，页4090-4100，2019年。20[9] Paul E Debevec，Camillo J Taylor和JitendraMalik。从照片建模和渲染建筑：一种混合几何和基于图像的方法。在SIGGRAPH，页11-20，1996年。20[10] Patrick Esser，Robin Rombach和Bj¨ornOmmer。驯服变压器进行高分辨率图像合成。arXiv预印本arXiv:2012.09841，2020年。30[11] Steven J Gortler，Radek Grzeszczuk，RichardSzeliski和Michael FCohen。Lumigraph。在SIGGRAPH，页43-54，1996年。20[12] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在CVPR，页770-778，2016年。30[13] Peter Hedman和JohannesKopf。即时三维摄影。TOG，37（4）：1-12，2018年。20[14] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NeurIPS，页6626-6637，2017年。50[15] Ronghang Hu和DeepakPathak。Worldsheet：用于从单个图像进行视图合成的三维表面。arXiv预印本arXiv:2012.09854，2020年。1，20[16] Satoshi Iizuka，Edgar Simo-Serra和HiroshiIshikawa。全局和局部一致的图像补全。TOG，36（4）：1-14，2017年。20[17] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou和Alexei AEfros。带有条件对抗网络的图像到图像的转换。在CVPR，页1125-1134，2017年。20[18] Ajay Jain，Pieter Abbeel和DeepakPathak。用于自回归模型的局部掩膜卷积。在UAI，页1358-1367，2020年。2，30[19] Tero Karras，Samuli Laine，Miika Aittala，JanneHellsten，Jaakko Lehtinen和TimoAila。分析和改进StyleGAN的图像质量。在CVPR，页8110-8119，2020年。20[20] Hiroharu Kato，Yoshitaka Ushiku和TatsuyaHarada。神经三维网格渲染器。在CVPR，页3907-3916，2018年。20[21] C. Ledig, L. Theis, F. Husz´ar, J. Caballero, A. Cunningham,A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi.使用生成对抗网络进行逼真的单图像超分辨率。在CVPR，页105-114，2017年。20[22] Marc Levoy 和 Pat Hanrahan. 光场渲染. 在 SIGGRAPH 上,页码 31–42, 1996.

下载后可阅读完整内容，剩余1页未读，立即下载