GANcraft：无监督神经渲染的逼真3D方块世界生成

144 浏览量更新于2023-10-15 收藏 13.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

140720GANcraft：Minecraft世界的无监督3D神经渲染0Zekun Hao ˚：，Arun Mallya ˚，Serge Belongie：，Ming-Yu Liu ˚0˚ NVIDIA，：康奈尔大学0{hz472，sjb344}@cornell.edu，{amallya，mingyul}@nvidia.com0图1：给定一个语义标记的方块世界作为输入（插图），GANcraft生成高分辨率、视图一致的逼真输出。在这两个世界之间没有配对的训练数据的情况下，它无监督地学习将输入世界转换为逼真的世界。点击图像在Web浏览器中播放视频。0摘要0我们提出了GANcraft，这是一个无监督的神经渲染框架，用于生成类似于Minecraft中创建的大型3D方块世界的逼真图像。我们的方法以语义方块世界作为输入，其中每个方块都被赋予了诸如泥土、草地或水等语义标签。我们将世界表示为连续的体积函数，并训练我们的模型为用户控制的摄像机渲染视图一致的逼真图像。在没有配对的真实图像作为参考的情况下，我们设计了一种基于伪真实图像和对抗训练的训练技术。这与以往关于视图合成的神经渲染工作形成了鲜明对比，后者需要真实图像来估计场景几何和视角相关的外观。除了相机轨迹，GANcraft还允许用户控制场景语义和输出风格。与强基线方法进行比较的实验结果显示了GANcraft在这一新颖的逼真3D方块世界合成任务上的有效性。项目网站可在https://nvlabs.github.io/GANcraft/上找到。01. 引言0想象一个世界，每个Minecraft玩家都是一位3D画家！2D图像到图像的转换的进展[3,22,49]使用户能够通过绘制类似于MicrosoftPaint中创建的简单草图来绘制逼真的图像。尽管有这些创新，创建逼真的3D场景仍然是一项艰巨的任务。0场景的创建仍然是一项费时费力的任务，大多数人无法达到。它需要多年的专业知识、专业软件、一系列数字资产和大量的开发时间。相比之下，使用方块构建3D世界，比如物理乐高或其数字对应物，是如此简单和直观，以至于即使是幼儿也能做到。如果我们能够构建一个由代表各种材料的方块组成的简单3D世界（如图1（插图）所示），将其输入算法，并获得一个具有高大的绿树、冰雪覆盖的山脉和蓝色海洋的逼真3D世界（如图1所示），那将是多么美妙啊！有了这样的方法，我们可以执行世界到世界的转换，将我们的想象世界变为现实。不用说，这种能力将有很多应用，从娱乐和教育，到艺术家的快速原型设计。0在本文中，我们提出了GANcraft，这是一种能够生成具有语义标签的3D方块世界的逼真渲染方法，例如Minecraft（www.minecraft.net）。Minecraft是有史以来销量最高的视频游戏，已售出超过2亿份，每月用户超过1.2亿人[2]。Minecraft是一个沙盒视频游戏，用户可以在由方块组成的规则网格上探索经过程序生成的3D世界，并使用方块进行修改和建造结构。Minecraft提供了代表各种建筑材料的方块-草地、泥土、水、沙子、雪等。每个方块都被赋予了简单的纹理，这款游戏以其独特的卡通风格而闻名。尽管有人可能认为Minecraft是一个简单的游戏，具有简单的机制，但事实上，Minecraft是一个非常受欢迎的3D内容CycleGAN [71], MUNIT [21]pix2pix [22], SPADE [49]wc-vid2vid [36]NeRF [39], NSVF [31]GANcraft (ours)140730代表性3D视图 Across W/o配对方法一致的世界数据？0表1：给定一个Minecraft世界，我们的目标是在测试时将Minecraft世界中的任何相机轨迹转换为一系列视角一致的真实世界图像。训练需要在没有配对的Minecraft-真实数据的情况下完成，因为这样的数据不存在。在先前的工作中，只有无监督的图像到图像转换方法，如CycleGAN [71]和MUNIT[21]，可以在这种情况下工作。然而，它们不能生成3D视角一致的输出。基于神经辐射场的方法，如NeRF [39]和NSVF[31]，适用于新颖视角合成，但无法处理Minecraft-真实领域差异。所有其他先前的工作都需要在我们的设置中无法获得的配对训练数据。我们提出的GANcraft方法可以在没有配对的Minecraft-真实训练数据的情况下生成3D视角一致的Minecraft到真实合成结果。0创造工具。Minecraft玩家已经忠实地重新创建了大城市和著名地标，包括埃菲尔铁塔！块世界的表现直观易操控，这使得它非常适合我们的世界到世界的转换任务。我们专注于生成自然景观，这也是在几个先前的图像到图像转换研究中进行过研究的[3,49]。乍一看，从语义块世界生成3D逼真的世界似乎是将3D块世界的投影2D分割图序列进行转换的任务，并且是图像到图像转换的直接应用。然而，这种方法立即遇到了几个严重的问题。首先，获取配对的3D块世界、分割标签和相应真实图像的训练数据非常昂贵，甚至是不可能的。其次，现有的图像到图像转换模型[21, 49, 61,71]不能生成一致的视角[36]。每个图像都是独立转换的。虽然最近的一致性世界vid2vid工作[36]解决了视角一致性的问题，但它需要配对的真实3D训练数据。即使是基于神经辐射场的最新神经渲染方法，如NeRF [39]、NSVF[31]和NeRF-W[37]，也需要场景的真实图像和相关的相机参数，并且最适合于视角插值。由于没有配对的3D和真实图像数据，如表1所总结的，现有的技术都无法用于解决这个新任务。这要求我们采用临时的自适应方法，使我们的问题设置尽可能接近这些方法的要求，例如在真实分割上训练它们。0而不是Minecraft的分割。在没有真实数据的情况下，我们提出了一个框架，使用预训练的图像合成模型生成采样相机视角的伪真实图像来训练我们的模型。我们的框架借鉴了图像到图像转换的思想，并改进了3D视角合成的工作，以产生输入Minecraft世界的视角一致的逼真渲染，如图1所示。虽然我们使用Minecraft演示了我们的结果，但我们的方法也适用于其他3D块世界表示，如体素。我们选择Minecraft是因为它是一个广受欢迎的平台，面向广大受众。我们的主要贡献包括：0•创造性地生成用户创建的3D语义块世界的视角一致的逼真渲染，或者称为世界到世界的转换，这是图像到图像转换0•在没有真实数据的情况下训练神经渲染器的框架。这是通过使用预训练的图像合成模型生成的伪真实图像来实现的0•使用对抗性损失训练的新的神经渲染网络架构（第3.2节），扩展了2D和3D神经渲染的最新工作[20, 31, 37, 39,44]，以产生可以根据风格图像进行条件约束的最先进结果（第4节）。02. 相关工作02D图像到图像的转换。GAN框架[16]使得多种方法能够成功地将一个域中的图像映射到另一个域中，实现高保真度，例如从输入分割图到逼真图像的映射。这个任务可以在监督设置[22，26，35，49，61，72]下完成，其中有对应图像的示例对可用，也可以在无监督设置[14，21，32，33，35，53，71]下完成，其中只有两组图像可用。在监督设置中使用更强的损失，如L1或感知损失[23]，与对抗损失结合。由于无监督设置中缺少配对数据，因此通常依赖于共享潜变量空间假设[32]或循环一致性损失[71]。有关图像到图像转换方法的全面概述，请参阅Liu等人的调查[34]。我们的问题设置自然属于无监督设置，因为我们没有与Minecraft3D世界相对应的真实世界图像。为了便于学习视图一致的映射，我们在训练过程中使用伪地面真值，这些真值是由预训练的监督图像到图像转换方法预测得到的。0参见https://ruder.io/semi-supervised/的概述。domain adaptation works [13, 27, 55, 60, 64, 69, 73]. Theyuse a deep learning model trained on the ‘source’ domainto obtain predictions on the new ‘target’ domain, treat thesepredictions as ground truth labels, or pseudo labels, andﬁnetune the deep learning model on such self-labeled data.In our problem setting, we have segmentation maps ob-tained from the Minecraft world but do not possess the cor-responding real image. We use SPADE [49], a conditionalGAN model, trained for generating landscape images frominput segmentation maps to generate pseudo ground truthimages. This yields the pseudo pair: input Minecraft seg-mentation mask and the corresponding pseudo ground truthimage. The pseudo pairs enable us to use stronger super-vision such as L1, L2, and perceptual [23] losses in ourworld-to-world translation framework, resulting in improvedoutput image quality. This idea of using pretrained GANmodels for generating training data has also been explored inthe very recent works of Pan et al. [47] and Zhang et al. [70],which use a pretrained StyleGAN [24, 25] as a multi-viewdata generator to train an inverse graphics model.1407403D神经渲染。许多研究已经探索了将传统图形管线（如3D感知投影）的优势与神经网络的合成能力相结合，以产生视图一致的输出。通过引入可微分的3D投影，并使用在3D和2D特征空间中操作的可训练层，最近的几种方法[4，18，42，43，56，62]能够从2D图像中建模3D场景的几何和外观。一些研究成功地将神经渲染与对抗训练相结合[18，42，43，44，54]，从而消除了训练图像必须被放置在同一场景中的约束。然而，问题的不完全约束性限制了这些方法在单个对象、合成数据或小规模简单场景中的应用。正如后面在第4节中所示，我们发现仅仅通过对抗训练无法在我们的设置中产生良好的结果。这是因为我们的输入场景更大更复杂，可用的训练数据高度多样化，并且在块世界和真实图像之间的场景组成和相机姿态分布存在相当大的差距。最近，NeRF[39]通过在神经网络的权重中编码场景，从而在新视图合成方面展示了最先进的结果，该网络在每个空间位置产生体密度和视角相关辐射度。后续的研究试图改进输出质量[31，68]，使其更快地训练和评估[30，31，41，51，59]，将其扩展到可变形对象[15，28，48，50，63]，考虑光照[9，6，37，57]和组合性[17，44，46，67]，以及添加生成能力[11，54，44]。与我们的工作最相关的是NSVF[31]，NeRF-W [37]和GIRAFFE [44]。NSVF[31]通过将场景表示为一组体素来减少NeRF的计算成本。0边界隐式场组织在稀疏体素八叉树中，该八叉树通过修剪由体素构成的初始密集长方体获得。NeRF-W[37]学习了与图像相关的外观嵌入，使其能够从非结构化的照片集合中学习，并产生样式条件的输出。这些关于新视角合成的工作学习了给定真实图像的场景的几何和外观。在我们的设置中，问题是反转的-我们以粗糙的体素几何和分割标签作为输入，没有任何相应的真实图像。与NSVF[31]类似，我们为每个体素的每个角分配可学习的特征，以编码几何和外观。相比之下，我们不是从头开始学习场景的3D体素结构，而是在训练过程中隐式地改进提供的粗糙输入几何（例如，由块状体素表示的树的形状和不透明度）。Riegler等人的先前工作[52]也使用由多视图立体成像获得的网格作为粗糙输入几何。与NeRF-W[37]类似，我们使用样式条件的网络。这使我们能够学习一致的几何，同时考虑到SPADE[49]的视角不一致性。像神经点图形[4]和GIRAFFE[44]一样，我们使用可微投影来获取图像像素的特征，然后使用CNN将2D特征网格转换为图像。像GIRAFFE[44]一样，我们在训练中使用对抗性损失。然而，我们在大型复杂场景上进行学习，并产生更高分辨率的输出（图1中的1024×2048原始图像大小，而GIRAFFE中为64×64或256×256像素），在这种情况下，仅仅使用对抗性损失无法产生良好的结果。03. Minecraft世界的神经渲染0我们的目标是将由语义标记的块（或体素）表示的场景（例如Minecraft中的地图）转换为可以从任意视点一致渲染的逼真3D场景（如图1所示）。在本文中，我们专注于比训练和评估先前神经渲染作品中使用的单个对象或场景大几个数量级的景观场景。在我们的所有实验中，我们使用512×512×256个块的体素网格（水平方向上为512×512个块，垂直方向上为256个块）。鉴于每个Minecraft块被认为具有1立方米的大小[1]，每个场景在现实生活中覆盖了262,144平方米（65英亩，相当于32个足球场的大小）。同时，我们的模型需要学习比单个块更细的细节，例如树叶、花朵和草，而无需监督。由于输入的体素及其标签已经定义了场景的粗略几何和语义排列，因此有必要尊重并将这些先验信息纳入模型。我们首先描述了如何通过使用伪地面真实性来克服缺乏配对训练数据的问题。然后，我们介绍了我们的新颖的基于稀疏体素的神经渲染器。Fpp, zq “#Fipp, zq,if p P Vi, i P t1, ¨ ¨ ¨ , Kup0, 0q,otherwise, (1)Fipp, zq “ Gθpgippq, li, zq “ pcpp, lppq, zq, σpp, lppqqq ,140750体素世界0投影分割0伪地面真实性0投影分割0伪地面真实性0im2im0翻译0im2im0翻译0图2：伪地面真实性生成。左：我们使用预训练的图像到图像翻译模型（SPADE[49]）将投影分割图转换为图像。右：显示不同标签（草地、树木、水、沙子、天空）和不同样式代码的输入分割图和SPADE输出的样本。请注意，由于块状分割和采样的相机姿势之间的域差异以及用于训练SPADE的真实图像数据，一些生成的输出可能看起来不真实。我们的方法设计成对这些生成的伪地面真实性图像中存在的噪声、不同样式和不一致性具有鲁棒性。03.1. 生成伪地面真实训练数据0训练神经渲染模型最直接的方法是利用具有已知摄像机姿势的真实图像。在这种情况下，简单的 L2重建损失就足以产生良好的结果。然而，在我们的设置中，对于来自 Minecraft的用户生成的方块世界，真实的地面真实图像是不可用的。另一种方法是像 CycleGAN 或 MUNIT这样以无配对、无监督的方式训练我们的模型。这将使用对抗性损失和正则化项将 Minecraft分割转换为真实图像。然而，如第 4节中的消融研究所示，这种设置对于先前的方法和神经渲染器都不能产生良好的结果。这可以归因于像 Minecraft这样的方块化世界与真实世界之间的巨大领域差距，以及两个世界之间的标签分布差异。为了弥合体素世界和我们世界之间的领域差距，我们通过实时生成伪地面真实数据来补充训练数据。对于每个训练迭代，我们随机从上半球采样摄像机姿势，并随机选择焦距。然后，我们将体素的语义标签投影到摄像机视图中，以获得二维语义分割掩模。将分割掩模以及随机采样的样式代码输入到预训练的图像到图像转换网络SPADE（在我们的情况下）中，以获得具有与摄像机视图相同语义布局的照片般逼真的伪地面真实图像，如图 2左侧所示。这使我们能够在伪地面真实图像与相同摄像机视图的渲染输出之间应用重建损失（如L2）和感知损失（如第 23节所述），除了对抗损失。这显著改善了结果。在大规模数据集上训练的 SPADE模型的普适性，以及其逼真的生成能力有助于减小领域差距和标签分布不匹配。图 2右侧显示了示例伪配对。虽然这提供了有效的监督，但并不完美。这在特别是在0Minecraft的方块化可能会产生具有尖锐几何的不真实图像。某些摄像机姿势和样式代码的组合也可能会产生带有伪影的图像。因此，我们必须谨慎平衡重建和对抗损失，以确保神经渲染器的成功训练。03.2. 稀疏体素基于体素的神经渲染器0有界体素神经辐射场。假设 K 是 Minecraft世界中占据的方块数，也可以用 K个非空体素组成的稀疏体素网格表示，其中 V = {V1, ...,VK}。每个体素被赋予一个语义标签 tl1, ...,tlK。我们为每个体素学习一个神经辐射场。Minecraft世界由所有有界体素神经辐射场的并集组成。0其中 F 是整个场景的辐射场，Fi是由Vi限定的辐射场。在神经辐射场中查询一个位置会返回一个特征向量（或在先前的工作中是颜色）和一个密度值。在不存在方块的位置，我们有空特征向量0和零密度0。为了模拟同一场景的多样化外观，例如白天和夜晚，辐射场是以样式代码z为条件的。体素限定的神经辐射场Fi由下式给出：0其中gippq是p处的位置代码，li表示p所属的体素的标签。多层感知机（MLP）Gθ用于预测位置p处的特征c和体素密度σ。我们注意到Gθ在所有体素之间是共享的。受NeRF-W的启发，c还取决于样式代码，而密度σ则不取决于样式代码。为了获得位置代码，我们首先为体素Vi的八个顶点中的每一个分配一个可学习的特征向量。然后通过以下方式推导出位置p处的位置代码gippq：GANGAN, VGG, L1 , L2Cpr, zq “ż `80Tptqσ`rptq, lprptqq˘c`rptq, lprptqq, z˘dtv, zq,(2)σprpsqqds˙.(3)140760样式编码器0CNN0渲染器0图像像素特征0伪地面真实图像0每个体素角的特征0N 10分割地图0SPADE0图3：GANcraft概述。给定带有分割标签的输入体素世界，我们首先为每个体素角分配特征。对于任意采样的相机视点，我们在射线-体素交点处获取三线性插值的体素特征，使用MLP进行处理，并混合输出特征以获得图像像素特征。这些特征被馈送到图像空间的CNN渲染器。MLP和CNN都以所选相机视图的伪地面真实性的样式代码为条件。我们的方法通过真实图像的对抗损失以及伪地面真实性上的对抗、像素和VGG感知损失的组合进行训练。训练后，我们可以以逼真的方式渲染世界，通过对输入的样式代码或图像进行条件控制输出图像的风格。0三线性插值。在这里，我们假设每个体素的形状为1ˆ1ˆ1，并且坐标轴与体素网格轴对齐。相邻体素共享顶点及其特征向量。这样在穿越体素边界时可以实现特征的平滑过渡，防止输出中的不连续性。我们从g i p pq计算傅里叶特征，类似于NSVF[31]，并附加体素类别标签。我们的方法可以解释为NSVF[31]的推广，以使用样式和语义标签条件。0神经天空穹。天空是逼真景观场景中不可或缺的一部分。然而，由于它与其他物体的物理位置相距较远，用一层体素来表示它是低效的。在GANcraft中，我们假设天空位于无限远处（没有视差）。因此，它的外观仅取决于观察方向。相同的假设通常在计算机图形技术中使用，例如环境映射[8]。我们使用MLP Hφ，将射线方向v映射到天空颜色或特征c sky”Hφ(pv,zq)，在样式代码z的条件下。这种表示可以看作是用一个无限大的天空穹覆盖整个场景。0体积渲染。在这里，我们描述了如何通过体积渲染将由上述神经辐射场和天空穹表示的场景转换为2D特征图。在透视相机模型下，图像中的每个像素对应于一个相机射线r(t) = o +tv，起源于投影中心o并沿着方向v前进。射线在辐射场中传播，同时累积特征和透射率。0其中 T p t q “ exp ˆ ´ ż t0C p r , z q表示射线r的累积特征，T p tq表示射线行进距离为t时的累积透射率。由于辐射场由有限数量的体素限定，射线最终将离开体素并击中天空穹。因此，我们将天空穹视为射线上的最后一个数据点，它是完全不透明的。这通过方程式2中的最后一项实现。上述积分可以使用离散样本和求积法则进行近似，这是NeRF[39]普及的一种技术。请参考NeRF[39]或我们的补充材料获取完整的方程式。我们使用NSVF[31]的分层采样技术沿着射线随机采样有效（体素限定）点。为了提高效率，我们截断射线，使其在达到一定的累积距离后停止穿过有效区域。我们规范化截断射线，以鼓励它们的累积不透明度在达到最大距离之前饱和。我们采用修改后的Bresenham方法[5]对有效点进行采样，其复杂度非常低，为O(N)，其中N是体素网格的最长维度。详细信息请参考补充材料。0混合神经渲染架构。之前的工作[31, 37,39]直接使用累积颜色的体积渲染方案来生成图像，而不是累积特征。与它们不同的是，我们将渲染分为两个部分：1）我们使用MLP进行体积渲染，以生成每个像素的特征向量，而不是RGB图像；2）我们使用CNN将每个像素的特征图转换为相同大小的最终RGB图像。整体框架如图3所示。我们对MLP和CNN都进行了激活调制[20,49]，并以输入的样式代码为条件。各个网络的详细描述见补充材料。除了如第4节所示改善输出图像质量外，这种两阶段设计还有助于减少渲染的计算和内存占用。在我们的情况下，对3D辐射场进行建模的MLP是基于每个样本的基础进行评估，而图像空间的CNN仅在将光线上的多个样本合并为单个像素后进行评估。MLP的样本数量与输出高度、宽度和每条光线采样的点数（我们的情况下为24）成线性比例，而特征图的大小仅取决于输出高度和宽度。然而，与预混合操作的MLP不同，图像空间的CNN在本质上不具备视角一致性。因此，我们使用一个只有9×9像素感受野的浅层CNN来限制其范围在局部操作。GIRAFFE[44]中也使用了类似的将体积渲染和图像空间渲染结合的思想。与我们不同的是，他们还依赖CNN将低分辨率的16×16特征图上采样。140770r P R trunc T out p r q .这样做可以避免光线达到截断距离后仍有透射率。0损失和正则化。我们使用重建损失和对抗损失训练我们的模型。重建损失应用于预测图像和相应的伪地面真实图像之间。我们使用感知[23]、L1和L2损失的组合。对于GAN损失，我们将预测图像视为“假”，将真实图像和伪地面真实图像视为“真”。我们使用基于语义分割图的鉴别器，基于Liu等人[35]和Schönfeld等人[53]的方法。我们使用铰链损失[29]作为GAN训练目标。根据多模态图像合成的先前工作[3, 21,72]，我们还包括一个样式编码器，该编码器根据伪地面真实图像预测样式代码的后验分布。重建损失与样式编码器结合使用，可以控制输出图像的外观与样式图像。如前所述，我们在体积渲染过程中截断光线。为了避免截断引起的伪影，我们在截断光线上应用不透明度正则化项，L opacity “ř04. 实验0前一节描述了在缺乏配对的Minecraft-真实训练数据的情况下如何获得伪地面真实图像以及我们神经渲染器的架构。在这里，我们通过与先前的工作在多个不同的大型Minecraft世界上进行比较来验证我们的框架。数据集。我们从互联网上收集了„1M张至少边长为512像素的景观图像。对于每个图像，我们使用DeepLabV2[12,40]获取了182类COCO-Stuff[10]分割标签。这形成了我们的训练集，包括配对的真实分割图和图像。我们将5000张图像作为测试集。我们生成了5个不同的Minecraft世界，每个世界由512×512×256个方块组成。我们对水、沙子、森林和雪的组合进行了采样，以展示我们的方法在显著的标签分布转移下能够正确工作。0基线。我们与以下方法进行比较，这些方法是代表性的-0代表性方法在不同的数据可用性情况下进行比较。•MUNIT[21]。这是一种可在非配对或无监督设置下进行训练的图像到图像转换方法。与CycleGAN[71]和UNIT[32]不同，MUNIT可以学习多模态转换。我们学习将Minecraft分割图转换为真实图像。0• SPADE [ 49]。这是一种图像到图像的转换方法，它在配对的真实地面真实性或监督设置中进行训练。我们通过将真实分割图转换为相应的图像进行训练，并在Minecraft分割上进行测试。0• wc-vid2vid [ 36]。与上述两种方法不同，它可以生成一系列视角一致的图像。wc-vid2vid将前一帧的像素投影到下一帧以生成引导图。这充当了先前生成帧的一种记忆形式。该方法还需要成对的真实地面真实性数据，以及每个输出帧的3D点云。我们将其训练为将真实分割图转换为真实图像，同时使用方块世界体素表面作为3D几何。0• NSVF-W [ 31 , 37]。我们结合了最近两项关于神经渲染的研究成果NSVF [ 31]和NeRF-W [ 37]的优点，创建了一个强大的基准。NSVF将世界表示为有界辐射场，并且可以修改为接受像素世界输入，就像我们的方法一样。NeRF-W能够从具有颜色、光照和遮挡变化的非结构化图像集合中学习，这使其非常适合从我们的伪地面真实性中学习。将NeRF-W的风格条件MLP生成器与NSVF的基于体素的输入表示相结合，我们得到NSVF-W。这类似于我们使用的神经渲染器，但省略了图像空间CNN。由于这些方法也需要成对的真实地面真实性，我们使用预训练的SPADE模型生成的伪地面真实性来训练NSVF-W。MUNIT、SPADE和wc-vid2vid在训练过程中使用感知和对抗性损失，而NSVF、NeRF-W和NSVF-W使用L 2损失。详细信息请参见补充材料。0实施细节。我们以256×256像素的输出分辨率训练我们的模型。每个模型在8个NVIDIA V100GPU上进行训练，每个GPU具有32GB的内存。这使我们能够使用批量大小为8，每个相机光线采样24个点。每个模型训练250k次迭代，大约需要4天。所有基准模型也进行了相同时间的训练。其他详细信息请参见补充材料。0评估指标。我们使用定量和定性指标来衡量输出的质量。•Fr ´ echet Inception Distance [ 19 ]（FID）和KernelIncep- tion Distance [ 7]（KID）。我们使用FID和KID来衡量生成图像和真实图像之间的分布距离，使用Inception-v3 [ 58 ]。我们生成140780方法 FID Ó KID Ó0MUNIT [ 21 ] 78.42 0.047 NSVF-W [31 , 37 ] 84.53 0.052GANcraft（我们的方法）61.33 0.0330表2：自动图像质量度量。我们在所有5个方块世界上将基线与GANcraft进行比较。尽管SPADE不具备视角一致性，但它是一个强大的照片逼真图像生成器，因此它为FID和KID设置了下限。我们的视角一致方法实现了接近SPADE的值，超过了MUNIT和NSVF-W。0从不同的样式代码和任意采样的相机视角点对每个5个世界生成1000张图像，总共5000张图像。然后，我们为同一对视角点和样式代码使用每种方法生成输出，以进行公平比较。我们使用5000张真实景观图像的保留集来计算指标。对于这两个指标，较低的值表示更好的图像质量。0•人类偏好评分。使用亚马逊机械土耳其人（AMT），我们进行了一项主观视觉测试，以衡量生成视频的相对质量与顶级土耳其人的关系。我们要求土耳其人选择1）更具时间一致性的视频，以及2）整体上更好的真实性视频。对于这两个问题，土耳其人会看到由两种不同方法合成的两个视频，并根据标准选择优秀的视频。我们为每个世界生成64个视频，每种方法总共320个视频，每个比较由3名工人评估。0主要结果。图4显示了不同方法生成的输出视频。每一行是一个独特的世界，使用相同的风格条件图像为所有方法生成。我们可以观察到，与基线相比，我们的输出更加逼真和视角一致。MUNIT [21]和SPADE[49]在一次生成一张图像时会出现很多闪烁，没有任何过去输出的记忆。此外，MUNIT还无法学习正确的分割标签到纹理的映射，因为它不使用成对监督。虽然wc-vid2vid[36]在视角一致性方面更好，但对于大运动来说会失败，因为它逐步修复新探索的世界部分。NSVF-W [31,37]和GANcraft由于使用体积渲染而本质上是视角一致的。然而，由于缺乏CNN渲染器和使用L2损失，NSVF-W会产生暗淡和不逼真的带有伪影的输出。使用对抗性损失是确保生动和逼真结果的关键，这在下面的消融实验中进一步得到了证实。我们的方法还能够生成更高分辨率的输出，如图1所示，通过采样更多的光线。我们从每个世界中采样新的相机视角，并根据一组保留的真实图像计算FID和KID。0比较人类偏好一致性 Ò 逼真度 Ò0MUNIT [21] / GANcraft 30.1/ 69.9 37.5/ 62.5 SPADE [49]/ GANcraft 29.7/ 70.3 37.2/ 62.8 wc-vid2vid [36] /GANcraft 47.0/ 53.0 16.2/ 83.8 NSVF-W [31, 37] /GANcraft 46.6/ 53.4 31.4/ 68.60表3：人类偏好分数。我们在所有5个方块世界上比较了不同方法生成的视频。用户选择GANcraft更具时间一致性和逼真度。0图2中所示，我们的方法实现了与SPADE接近的FID和KID，SPADE是一种非常强大的图像到图像转换方法，同时击败了其他基线。请注意，wc-vid2vid使用SPADE生成序列中第一个相机视角的输出，因此在此比较中被忽略。此外，如表3所总结的，用户一致地偏好我们的方法，并选择其预测作为更具视角一致性和逼真度的视频。更多高分辨率结果和比较以及一些失败案例可在补充材料中找到。消融实验。由于计算限制，我们在一个Minecraft世界上训练了我们完整模型的消融版本。我们在图5中展示了它们的示例输出。完全不使用伪地面真实性和仅使用GAN损失进行训练会产生不逼真的输出，类似于MUNIT[21]。直接从体积渲染中生成图像而不使用CNN会导致缺乏细节。与完整模型相比，跳过对真实图像的GAN损失会产生更暗淡的图像，而完全跳过GAN损失会产生更暗淡、更模糊的类似NSVF-W输出的图像。定性分析可在补充材料中找到。05. 讨论0我们引入了新颖的世界到世界的转换任务，并提出了GANcraft，一种将方块世界转换为逼真世界的方法。我们展示了在缺乏真实配对数据的情况下，由2D图像到图像转换网络生成的伪地面真实性提供了有效的监督手段。我们的混合神经渲染器通过真实景观图像和伪地面真实性以及对抗性损失的训练，优于强基线。尽管目前我们的方法是在每个世界上进行训练的，但我们希望未来的工作能够实现对新世界的前向生成。致谢。我们感谢RevLebaredian提出这个有趣的问题。我们感谢JanKautz，Sanja Fidler，Ting-Chun Wang，XunHuang，Xihui Liu，Guandao Yang和EricHaines在开发该方法过程中提供的反馈。140790MUNIT [ 21 ] SPADE [ 49 ] wc-vid2vid [ 36 ] NSVF-W [ 31 , 37 ] GANcraft (我们的)0图4: 输出视频比较. 每行是一个独特的世界，每列是不同的方法. 对于给定的世界，所有方法都使用相同的风格条件图像.与所有基线相比，GANcraft产生更具视角一致性和更逼真的输出. 单击任何行以在Web浏览器中播放视频.0完整模型无伪基准图像无CNN 无真实图像无GAN损失0图5: 剥离模型的输出. 仅使用GAN损失而没有伪基准图像会产生不真实的图像. 不使用CNN会产生缺乏细节并包含伪影的输出.排除真实图像上的GAN损失会导致颜色暗淡，而完全没有GAN损失则会产生暗淡和模糊的输出，与完整模型相比.[19] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bern-hard Nessler, and Sepp Hochreiter. GANs trained by a twotime-scale update rule converge to a local Nash equilibrium.In NeurIPS, 2017. 6[20] Xun Huang and Serge Belongie. Arbitrary style transfer inreal-time with adaptive instance normalization. In ICCV,2017. 2, 5[21] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz.Multimodal unsupervised image-to-image translation. ECCV,2018. 2, 4, 6, 7, 8[22] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros.Image-to-image translation with conditional adversarial net-works. In CVPR, 2017. 1, 2[23] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptuallosses for real-time style transfer and super-resolution. InECCV, 2016. 2, 3, 4, 6[24] Tero Karras, Samuli Laine, and Timo Aila. A style-basedgenerator architecture for generative adversarial networks. InCVPR, 2019. 3[25] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improvingthe image quality of StyleGAN. In CVPR, 2020. 3[26] Cheng-Han Lee, Ziwei Liu, Lingyun Wu, and Ping Luo.MaskGAN: Towards diverse and interactive facial image ma-nipulation. In CVPR, 2020. 2[27] Dong-Hyun Lee. Pseudo-label: The simple and efﬁcientsemi-supervised learning meth

下载后可阅读完整内容，剩余1页未读，立即下载