三维可控图像合成模型的无监督学习

29 浏览量更新于2023-10-20 收藏 1.33MB PDF 举报

无监督学习

生成对抗网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1三维可控图像合成生成模型的无监督学习Yiyi Liao1，2，Katja Schwarz1，2，Lars Mescheder1，2，3，† Andreas Geiger1，21马克斯·普朗克智能系统研究所，图宾根2图宾根大学3亚马逊，图宾根{firstname.lastname}@ tue.mpg.de摘要近年来，生成对抗网络在真实感图像合成方面取得了令人瞩目的成果。这一进展孕育了希望，有一天经典的渲染管道可以被直接从图像中学习的高效模型所取代。然而，当前的图像合成模型在2D域中操作，其中解开诸如相机视点或对象姿态的3D属性是具有挑战性的。此外，它们缺乏可解释和可控制的表征。我们的主要假设是，图像生成过程应该在3D空间中建模，因为我们周围的物理世界本质上是三维的。我们定义了一个新的任务，3D可控图像合成，并提出了一种解决它的方法，通过推理在3D空间和2D图像域。我们证明，我们的模型是能够解开潜在的3D因素简单的多对象场景在一个无监督的方式从原始图像。与纯2D基线相比，它允许合成wrt一致的场景视点或对象姿势的改变我们进一步评估各种3D表示在这一具有挑战性的任务的有用性。1. 介绍真实感图像合成是计算机视觉和图形学中的一项基本任务，在游戏、仿真、虚拟现实和数据增强等领域有着广泛的应用。在所有这些应用中，重要的是图像合成算法允许控制3D内容并在改变相机位置和对象位置时产生相干图像。想象一下，探索一个虚拟现实的房间。当在房间里走动和操纵物体时，观察连贯的图像是必不可少的。操纵一个对象的姿态不应改变场景中任何其他对象的属性（例如颜色）*共同第一作者，同等贡献。†这项工作在加入亚马逊之前完成。图1：动机。虽然经典的渲染算法需要整体场景表示，但基于图像的生成神经网络能够从潜在代码合成图像，因此可以直接从图像进行训练。我们建议考虑在3D和2D空间中的生成过程，产生一个3D可控的图像合成模型，该模型学习3D内容创建过程以及从原始图像的渲染过程。目前，这些应用中的图像合成是使用渲染引擎（例如，OpenGL）如图所示。1（顶部）。这种方法提供了对3D内容的完全控制，因为渲染算法的输入是3D场景的整体描述。然而，为电影或视频游戏创建逼真的内容和3D资产是极其昂贵且耗时的过程，并且需要许多3D艺术家的共同努力因此，在本文中，我们提出以下问题：是否有可能从原始2D图像观察中学习包括3D内容创建的模拟流水线？最近，生成对抗网络（GAN）在真实感图像合成方面取得了令人印象深刻的结果[21，22，29]，因此成为经典渲染算法的一种有前途的替代方案，参见图。1（中间）。然而，基于图像的GAN的主要缺点是学习的潜在表示通常是5871经典渲染流水线3D设计渲染2D生成模型样品2D发生器我们的方法示例3D生成器渲染2D生成器58722. 相关工作图2：3D可控图像合成。我们提出了一个模型，三维可控的图像合成，允许操纵的观点和3D姿态的个人ob-beverage。在这里，我们说明一致的平移在3D空间，对象旋转和视点变化。gled”。也就是说，潜在维度不会自动暴露物理上有意义的3D属性，诸如相机视点、对象姿势或对象实体。因此，与经典渲染算法相比，2D GAN在可控性方面有所不足。这限制了它们在许多应用中的实用性，包括虚拟现实、数据扩充和仿真。出资额：在这项工作中，我们提出了一个新的任务，三维可控图像合成。我们将此任务定义为无监督学习问题，其中在没有3D监督的情况下学习允许操纵3D场景属性的3D可控生成图像合成模型3D可控属性包括多个对象的3D姿态、形状和外观以及相机的视点。仅从2D监督学习这样的模型是非常具有挑战性的，因为模型必须推理场景的模块化组成以及世界的物理3D属性，例如光传输。为了解决这个问题，我们提出了一种新的配方，结合了深度生成模型的优势与传统的渲染管道。我们的方法在合成新内容时实现了3D可控性，同时仅从图像中学习有意义的表示。我们的主要思想是通过将3D生成器与可微分渲染器相结合，一个二维图像合成模型，如图所示。1（底部）。这使得我们的模型能够学习符合物理图像形成过程的抽象3D表示，从而保持可解释性和可解释性。我们证明，我们的模型是能够解开由多个对象组成的简单场景的潜在的3D因素改变视点或物体姿态，如图所示。二、我们的代码和数据在https：//github上提供。com/campaignsvision/controlledimagesynthesis.图像分解：一些作品已经考虑了分解场景的问题，条件是输入图像[4，9，11- 13，24，39，43 ]。有一种工作RNN顺序分解场景[4，9，24，39]，而其他方法迭代地细化图像分割[11虽然早期的作品考虑非常简单的场景[9，24]或二值化图像[12，13，43]，但最近的作品[4，11]也处理有遮挡的场景。与学习可控生成模型的问题相反，上述方法是纯粹有区别的，并且不能合成新的场景。此外，它们纯粹在2D图像域中操作，因此缺乏对物理3D世界的理解。图像合成：无条件生成对抗网络（GANs）[10，30，34]通过学习能够从自然图像流形中采样的深度网络，极大地提高了照片真实感图像合成。更多的近期研究将这些模型置于额外的输入信息（例如，语义分割）以指导图像生成过程[2，6，19，20，26，36，42，46，50]。另一条工作线直接从输入数据中学习可解释的、解纠缠的特征，用于操纵生成的图像[7，22，35，49]。最近的工作旨在控制对象级别的图像生成过程[8，40，48]。关键的见解是，这将复杂的图像生成任务分解为更容易的子问题，这有利于生成图像的质量。然而，所有这些方法都基于对场景的2D虽然这些作品中的一些能够解开潜在表示中的3D姿态[7]，但在对象平移和旋转以及新颖视点方面的完整3D控制仍然是一项具有挑战性的任务。在这项工作中，我们研究的问题，学习一个inter-pretable中间表示在对象级别，能够提供完整的3D控制场景中的所有对象。我们还表明，在3D推理提高一致性wrt。姿势和视点改变。3D感知图像合成：几项工作集中在3D可控图像合成与3D监督[45，52]或使用3D信息作为输入[1]。在这项工作中，我们专注于从2D图像中学习。从2D图像学习有区别的3D模型的问题是使用可微分渲染解决的[15，23，25，27]。我们的工作是相关的，这些作品中，我们还利用了可区分的渲染器。然而，与上述方法不同的是，我们在3D和2D空间中将可微分绘制与生成模型相结合。我们学习了一个抽象的3D表示，可以通过神经网络转换成照片般逼真的图像以前在这个方向上的作品可以分为隐式或显式两类，X5873我我这取决于所学习的特征是否具有物理意义。隐式方法[37，47]将旋转应用于3D潜在特征向量以通过多层感知器生成变换图像。该特征向量是全局表示，因为它影响整个图像。相比之下，显式方法[15，32，38]利用可以被可微分地投影到2D图像空间中的特征体积。DeepVoxels[38]提出了一种新的视图合成方法，该方法将多个图像解投影到3D体积中，随后通过将3D特征体积投影到新的视点来生成新的图像。虽然生成高质量的图像，但它们的模型不是生成性的，需要来自同一对象的数百张图像进行训练。相比之下， HoloGAN [32] 和PLATONICGAN [15]是生成模型，能够通过基于可微映射生成体积3D表示来合成单个对象的3D然而，所有这些方法只能学习单个对象或静态场景的模型。因此，它们的可控性仅限于以物体为中心的旋转或摄像机视点的改变。相比之下，我们提出了一个模型，用于学习解开的3D表示，允许单独操纵场景中的多个对象。3. 方法我们的目标是学习一个可控的生成模型的图像合成从原始图像数据。我们主张图像合成应受益于可解释的3D表示，因为这允许明确考虑图像形成过程（即，透视投影，遮挡，光传输），而不是试图直接学习作为将3D图元投影到图像平面中的2D特征图的渲染步骤。最后，我们描述的2D生成器合成和合成的图像，以及损失函数，我们用来训练我们的模型在端到端的方式从未标记的图像。3.1. 3D表示我们的目标是一个解开的3D对象表示，适合端到端的学习，同时允许完全控制每个单独的场景元素的几何属性，包括对象的规模和姿态。我们在下文中使用术语“原语”来指代该抽象对象表示此外，我们使用术语我们用一组3D基元O ={obg，o1，. - 是的- 是的..每个前景对象由表示每个对象实例的属性的一组属性oi=（si，Ri，ti，φi）来描述这里，si∈R3表示3D对象比例，Ri∈SO（3）和ti∈R3是基元参数，并且φi是确定其出现的特征向量。为了对场景背景进行建模，我们引入了相应定义的广告背景图元obg由于目前还不清楚哪种3D表示最适合我们的任务，因此我们在实验评估中比较并讨论了以下特征表示：点云：点云是表示3D信息的最简单形式之一。我们用一组稀疏的3D点来表示每个图元。更具体地说，每个φ=（φl，φf）表示位置φl∈RM×3，2D图像的分布因此，我们对图像syn- ii i i进行建模通过首先生成抽象的3D表示，随后将其投影到2D图像域并在2D图像域中进行细化，在3D和2D空间中联合进行论文处理我们的模型如图所示3 .第三章。我们首先采样一个潜在的代码，它代表了生成的场景的所有属性。潜在代码被传递到3D生成模型，该模型以3D基元的形式生成一组3D抽象对象表示以及背景表示。3D表示被投影到图像平面上，其中2D生成器将它们转换为对象表观并将它们合成为相干图像。由于原始层的监督很难获得，我们提出了一种基于对抗训练的方法，该方法不需要3D监督。现在我们详细指定模型组件。我们的论文的一个贡献是分析和比较各种3D表示对这项任务的适用性。因此，我们首先定义的3D原始表示，我们考虑在这项工作。在下一节中，我们还将描述用于生成基元参数的模型特征向量φf∈RM×K。我们对点位置φ l应用缩放si、旋转Ri和平移ti。立方体和球体：我们进一步考虑长方体和球体作为表示，它们与计算机图形学中使用的经典基于网格的模型更紧密地对齐。在这种情况下，特征向量φi表示分别附着到长方体或球体的表面的纹理贴图几何形状是通过缩放、旋转和平移基元通过si、Ri和ti来确定的。背景：为了允许相机视点的变化，我们不使用普通2D GAN来生成背景图像。相反，我们使用球形环境贴图来表示更具体地说，我们将背景特征图φbg作为纹理图附加到位于原点的球体内部，即，Rbg=I和tbg=0。背景球体的比例sbg固定为一个值，该值足够大，可以包含整个场景（包括摄影机）。5874BGθ真实图像房背景图像3D生成器微分投影2D生成器图3：方法概述。我们的模型包括三个主要部分：3D生成器，其将从高斯分布绘制的潜码z映射到一组抽象3D基元{oi};可微分投影层，其将每个3D基元oi作为输入并输出特征图Xi、阿尔法图Ai和深度图Di;以及2D生成器，其细化它们并产生最终的合成图像Vi。我们将整个模型称为gθ：z<$→gθI，并通过最小化紧凑性损失Lcom、几何一致性损失Lgeo和对抗性损失Ladv来训练它从训练集中的图像I。最后一个primitiv eobg生成图像背景X′.标志c确定对抗性损失将全合成图像（c=1）或仅背景（c=0）与训练集进行比较。3.2. 3D生成器我们的神经网络的第一部分是一个隐式生成3D模型，它生成一组潜在的3D模型{obg，o1，. - 是的- 是的...我们使用一个完全连接的模型架构，固定数量的N+1头来生成N个前景基元和背景的属性注意，早期层共享权重，使得所有图元被联合生成并共享信息。更正式地说，我们有：g3D：z<$→{obg，o1，. -是的-是的，0N}（1）其中θ表示3D生成层的参数。图3（左）示出了我们的3D生成器。的详细信息网格，我们利用一个微分网格渲染投影到图像域。更具体地，我们使用Liu等人的软光栅化器[27]并使它适应我们的目的。除了投影特征Xi之外，我们还通过使用高斯核平滑投影对象的轮廓来获得alpha映射Ai 我们进一步输出投影网格的深度图Di。点云：对于点云，我们遵循先前的工作[18]，并使用各向同性高斯以平滑的方式表示它们。更具体地说，我们将所有特征投影到初始空特征映射Xi上，并使用高斯模糊内核对结果进行平滑。这允许我们学习位置φl以及特征φf，同时还可以返回-我我网络架构可以在补充资料中找到3.3. 可微投影可微投影层将生成的每个基元i∈O作为输入，并将它们分别转换为特征映射 Xi∈RW×H×F ，其中W×H是输出图像的维度，F表示特征通道的数量此外，它为每个图元生成粗略的alpha图Ai∈RW×H和初始深度图Di∈RW×H，这些图元由下一节中描述的2D生成器进一步细化第我们如下实现可微投影层，假设（不失一般性）具有固有函数K ∈R3×3的固定校准相机。长方体、球体和背景：作为长方体，球体和背景用表面表示将梯度传播到第i个图元的姿态参数{si，Ri，ti}。由于点云是稀疏的，我们阻止-如上所述，通过将具有相同比例、旋转和平移的长方体附加地投影到图像平面上来挖掘初始阿尔法图Ai和深度图Di3.4. 二维生成器学习每个对象的3D原语避免显式地重建其精确的3D模型，而投影的特征是抽象的。我们学习使用2D生成模型将这种抽象表示转换为逼真的图像。更具体地说，对于每个图元，我们使用完全卷积网络，该网络将特征、初始alpha图和初始深度图作为输入并对其进行细化，从而产生颜色渲染、细化的alpha图和渲染渲染n渲染渲染背景阿尔法合成5875我对应对象g2D：Xi，Ai，Di→X′，A′，D′（二）dd ∈（I，c），其确定所生成/观察到的图像是否是全合成的图像（c=1）或背景图像（c=0）。这个骗局-θi i i其中θ表示跨对象和背景1共享的网络的参数。我们使用基于ResNet [14]的标准编码器-解码器结构作为我们的2D生成器。详见补充资料。重要的是要注意，我们执行非模态对象预测，即，在不考虑遮挡的情况下单独预测所有图元。因此，我们的2D生成器可以学习为每个图元生成整个对象，即使它在一些图像中被部分遮挡。我们的实验证明，该版本有助于从背景中分离前景对象。为了训练我们的模型，我们收集了两个数据集：一个包括前景对象，一个具有空背景场景。压实度损失：为了使解决方案偏向于紧凑的表示，并鼓励3D图元紧密地包围对象，我们最小化每个对象的投影形状。我们将该约束公式化为对每个对象的alpha映射Ai的l1范数的惩罚我们的2D生成层的最后一步是将各个预测组合成合成图像。为了实现这一目标，我们融合了所有的预测使用阿尔法compo- sition在升序的深度在每个像素。实施-Lcom（θ）=Ep（z）ΣΣNi=1MaxΣΣτ，τ Aiτ1高×宽（五）补充资料中提供了站点详细信息3.5. 损失函数我们使用对抗训练对整个模型进行端到端训练。重要的是，我们不依赖于标记的3D图元、实例分割或姿势注释形式的监督。我们的方法的唯一输入是具有不同姿势的各种数量的对象的场景的图像，来自不同的视点和具有不同的背景。在没有监督的情况下学习这样一个模型是一个具有许多模糊性的挑战性任务。例如，该模型可以学习用单个基元解释两个对象这里，τ = 0。1是避免收缩到固定最小尺寸以下的截断阈值，并且Ai取决于模型参数θ和潜在码z。几何一致性损失：为了支持跨相机视点和3D对象姿态一致的解决方案，我们遵循[33]并鼓励学习的生成模型符合多视图几何约束。例如，姿态参数（Ri，ti）的变化应改变对象的姿态，但不应改变其颜色或身份。我们将该约束公式化如下：或者甚至生成所有前景对象的背面-地面模型，将所有alpha贴图A′设置为零。我们在那里-Lgeo（θ）=EΣ ΣΣN A′我在此之前，引入多个损失函数，鼓励分散-纠缠和可解释的3D表示，而在p（z）我i=1ΣΣN我我1Σ（6）同时从训练数据DIS合成图像+Ep（z）A′报应我们的损失L由三项组成：我i=1我我1这里，（X′，D′）是用于潜在的2D生成器的输出。L（θ，θ）=Ladv（θ，θ，c）+Lcom（θ）+Lgeo（θ）（3）i i代码z（X′，D′）对应于使用i∈{0，1}i对抗性损失：我们使用标准的对抗性损失[10]来鼓励我们的模型生成的图像遵循数据分布。设I表示从数据分布pD（I）中采样的图像，并且设gθ：z<$→I表示整个生成模型。设d（I）表示鉴别器我们的对抗性损失公式如下Ladv（θ，c）=Ep（z）[f（d（gθ（z，c），c））]相同的潜在代码z，但是向每个图元的姿态参数添加随机噪声确定了翘曲函数通过预测深度和两个视图之间的相对变换。运算符表示逐元素乘法，并确保几何一致性仅在前景区域内实施，即，其中A′=1。直观地说，几何一致性损失鼓励具有相同外观但+EpD（I|c）、[f（−d）（一、c））]（4）从不同的角度观察，在外观和深度方面都一致。同时，它也是一种非...其中f（t）=−log（1+exp（−t））。注意，我们同时调节生成元gθ（z，c）和.5876用于训练深度预测模型的监督损失关于整经过程的详细信息，请读者参考补充材料。1我们稍微滥用符号，并使用相同的符号θ来描述二维和三维生成模型[2]为了清楚起见，这里省略了这个依赖关系。5877汽车，不带BG带有BG室内水果的汽车图4：数据集。每个数据集的随机样本。3.6. 培训我们使用RMSprop [41]和10-4的学习率来训练我们的模型。为了稳定GAN训练，我们使用梯度惩罚[29]和谱归一化[31]用于识别器。在[22]之后，我们对2D生成器使用自适应实例归一化[17] 我们在训练过程中从原点周围的上半球随机采样相机视点。4. 实验在本节中，我们首先将我们的方法与3D可控图像生成任务的几个基线进行比较，无论是在合成数据还是真实数据上。接下来，我们进行了深入的消融研究，以更好地了解不同的表示和建筑组件的影响。数据集：我们使用ShapeNet [5]中的对象渲染合成数据集，考虑具有不同差异的三个数据集。两个数据集包含汽车，一个有背景，另一个没有背景。对于这两个数据集，我们从总共10个不同的汽车模型中随机抽取1到3辆汽车。我们的第三个数据集是这三个数据集中最具挑战性的。它包括室内场景，包含不同类别的对象，包括椅子，桌子和沙发。作为背景，我们使用来自Structured3D [51]的空房间图像，这是一个具有照片般逼真的2D图像的合成数据集。对于每个数据集，我们渲染48k个真实图像I和32k个未配对的背景图像Ibg用于训练，以及9.6k个图像用于训练。验证和测试。所有数据集的图像分辨率为64×64。除了合成数据集外，我们还应用我们的方法，以一个真实世界的数据集包含800图像的5种水果与5种不同的背景。为了训练我们的模型，我们还收集了一组不成对的背景图像。来自我们数据集的样本图像如图所示。4.第一章基线：我们首先将我们的方法与汽车数据集和室内数据集的几条基线进行比较：Vanilla GAN [29]：具有梯度刑罚的最先进的2D GAN。Layout2Im[50]：一种生成2D模型，它生成以2D边界框为条件的图像。2D基线：为了研究我们的3D表示的优点，我们通过用2D特征生成器替换3D生成器来实现我们的方法的2D版本，即学习一组2D特征图而不是3D图元。Ours w/oc：我们在没有背景图像的情况下训练我们的方法。如果该方法能够在没有额外监督的情况下解开前景和背景，请进行测试。补充资料中提供了所有实施细节：我们使用Fre'chetInceptionDistance（FID）[1 6]测量生成图像的质量。更具体地，我们计算真实图像I的分布与生成图像I的分布之间的FID分数，生成图像I的分布不包括背景图像Ibg。在我们的消融研究中，我们还报告了FIDi来量化对象实例的分离。FIDi测量渲染的单对象图像与Alpha合成之前每个图元的图像之间的距离。除了对生成的样本进行评估外，我们还对3D图元应用了额外的随机旋转和平移，并报告了这些转换样本的FID分数（FIDt，FIDR）。类似地，我们将随机转换应用于Layout2Im和2D基线。我们调查如何以及我们的模型capture- tures的基础3D分布的补充。4.1. 可控图像生成现在，我们报告我们的结果，具有挑战性的任务，合成和真实数据的三维可控图像生成。合成数据：表1比较了Car和Indoor数据集的FID得分。比较定量结果，我们看到，我们的方法相比Layout2Im可以实现有竞争力的FID分数。然而，Layout2Im需要2D边界框作为监督，而我们的方法以无监督的方式操作。为了测试我们的假设，如果3D表示有助于可控的图像合成，我们测量FID分数FIDt和FIDR的转换样本。我们的研究结果表明，FID分数是相对稳定的wrt。随机旋转和平移，表明扰动图像遵循相同的分布。在没有背景超视（w/oc）的情况下，如果背景外观简单（例如，汽车数据集）。然而，在更复杂的背景外观的情况下（例如，室内数据集），前地基元消失，而背景生成整个图像，导致更高的FID分数。与此相反，不成对的背景图像作为监督，我们的方法是能够从背景中分离出的前景，即使在复杂的背景存在。在图5和图6中，我们展示了变换对象时的定性结果。通过平移2D边界框，Layout2Im实现了甚至可以处理遮挡的2D可控性然而，图像缺乏一致性：移动一个对象改变了它的身份，这表明模型无法解开潜在因素。此外，Lay-out 2 Im将对象与递归模块融合在一起。因此，操纵一个对象也会影响场景中的其他对象以及背景。例如注意如何5878θ我zX图5：汽车数据集。我们为所有方法翻译一个对象。此外，我们用我们的方法旋转一个对象，这是用基线无法实现的。车室内FID FID检测器FIDRFID FID检测器FIDR[29]第二十九话43––89––[50]第五十话4356–8493–2D基线8079–107102–Ours（w/o c）657175120120120我们4454668890100表1：FID on Car数据集和Indoor数据集。图中最左边的黑色汽车。图5在翻译过程中变成黄色或背景如何在两个图。图5和图6不同。我们的2D基线能够更好地分解对象，同时努力学习正确的遮挡关系。相比之下，我们的模型能够正确地解开潜在因素，并产生一致的图像。物体旋转和平移。真实数据：我们的方法在真实世界数据集上的定性结果如图所示. 7.第一次会议。我们看到，我们的方法甚至能够从真实数据中合成看似合理的图像。利用我们解开的3D表示，我们能够改变水果的排列，同时我们的模型正确处理遮挡和阴影。4.2. 消融研究我们现在比较不同的表示，并在消融研究中分析我们的框架的多种变体由于我们在本研究中关注前景对象，因此我们使用没有背景的Car数据集进行所有实验。点云，球体还是长方体？我们首先比较了不同的三维表示的性能，为三维可控图像合成的任务。表2比较了图6：室内数据集。我们为所有方法翻译一个对象。此外，我们用我们的方法旋转一个对象，这是用基线无法实现的。图7：水果数据集。我们在每行中平移一个水果。（一）（b）第（1）款（c）（d）（e）图8：消融研究。（a）点云，（b）长方体，（c）球体，（d）二维可变形球体，（e）单基元。前两行显示了投影的基元和合成的A′（颜色表示实例）。请注意，我们在一个图像中可视化所有基元，而在训练期间，它们被渲染并单独输入2D生成器在它们的3D可控性（FIDt和FIDR）和解缠结能力（FIDi）方面，我们观察到，不同的表示达到非常相似的FID分数，这表明3D表示的精确形式与联合3D-2D表示的一般概念相比相关性较低这也可以从图中看出。图8示出了不同的表示和相应的生成图像。球体表示法总体表现最好。我们假设，它是优于长方体表示，因为它不会遭受尽可能多的表面不连续性在3D空间。我们的（R）我们的（t）二维（t）[50]（吨我们的（R）我们的（t）二维（t）[50]（吨5879X图9：旋转一致性评价。从相机旋转180度顶行：单个基元表示。物体的数量随时间而变化。摄像机旋转中间和底部行：多基元模型w/o和几何一致性损失。我们可以直接学习3D模型吗？灵感来自于前-在判别模型中直接从2D图像学习3D网格的工作[23，27换句话说，我们调查2D生成器是否有帮助。为了回答这个问题，我们将2D生成器从流水线中移除，并直接将对抗损失添加到渲染图像Xi上。这使得生成3D模型能够预测准确和纹理化的3D重建。为了允许生成器修改形状，我们学习变形球体，类似于最近的基于网格的重建技术[44]。图8（d）表明，确实可以通过这种方式学习合理的形状。然而，与我们的2D发生器生成的图像相比，图像保真度较差，如表2所示。解缠的好处是什么？要investi-门的优势，我们的对象明智的生成管道，我们创建一个变体，我们的方法只使用一个单一的代理，代表整个场景。这示于图8（e），并在表2中定量评价。更具体地说，我们渲染了一个具有N×M个点的点云，以确保模型具有与我们的多点云相同的容量原始模型我们不评估FIDi，因为模型无法生成单个对象图像。毫不奇怪，单基元模型也能够生成具有低FID分数的图像。然而，该技术不允许对各个3D对象的完全控制此外，当相机视点改变时，物体的数量也会改变，如图所示.9（顶行）。学习的表示在3D中是否一致？我们的目标是一个模型，可以产生一致的场景，跨相机时代的观点和三维物体构成。为了测试这种能力，我们旋转相机并生成新的样本，如图所示。9.第九条。我们的方法产生局部相干图像，由于其架构设计。相比之下，单个基元基线不能保持对象身份。此外，我们评估是否添加几何一致性损失可以θ表2：消融研究。没有背景wrt的汽车数据集上的FID。不同的原始表示和建筑组件。图10：失败案例。在第一个示例中，从同一个基本体（alpha贴图中的红色）生成两个水果。在第二个示例中，对象标识发生更改。进一步提高性能图。9 .第九条。虽然我们没有观察到显着的性能增益，几何一致性线索允许学习与对象外观一起合成深度定性结果见补充资料。4.3. 失败案例我们在图中展示了我们的方法的几个失败案例。10个。有时候，一个基本体会生成多个对象（上图），或者当视点变化非常大时，对象的身份会发生变化（下图）。我们认为，要解决这些问题，需要更强的归纳偏见。5. 结论我们认为这篇论文是迈向3D可控图像合成的无监督学习的第一步。我们证明了在3D和2D空间中建模对于准确和视图一致的结果至关重要。此外，我们表明，我们的方法是能够成功地解开多个对象的场景，同时提供conciliability- ity方面的相机的观点和对象的姿态。我们相信，结合更强的归纳偏见的物体形状或场景几何将是解决更具挑战性的情况下的关键。我们希望我们在这项新任务上的结果能激发这一令人兴奋的领域的进一步研究。致谢我们感谢 BMBF 通过 TubingenAI 中心（ FKZ ：01IS18039B）提供的支持。Lgeo不含Lgeo单个.FIDFID检测器FIDR FIDi[29]第二十九话50––41点云38434466长方体38454560球体334545532个D可变形基元（不带g）69717469单个基元303844–5880引用[1] H. Alhaija，S. Mustikovela，A. Geiger和C.罗瑟几何图像合成。在亚洲会议上。计算机视觉（ACCV），2018年。2[2] O. Ashual和L.狼在交互式场景生成中指定对象属性和关系。在IEEE国际会议上。计算机视觉（ICCV），2019年。2[3] Y. Bengio，A. C. Courville和P。文森特表征学习：回顾与新的视角。 IEEE Trans.模式分析和机器智能（PAMI），35（8）：1798-1828，2013。3[4] C.伯吉斯湖Matthey，N.沃特斯河卡布拉岛希金斯，M。M. Botvinick和A. Lerchner莫奈：未监督的场景分解与表现.arXiv.org，1901.11390，2019. 2[5]A. X. 张氏T.A. 芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. Shapenet：一个信息丰富的3D模型存储库。arXiv.org，1512.03012，2015. 6[6] Q. Chen和V. Koltun.使用级联细化网络的摄影图像合成。在 procIEEE International Conf. 计算机视觉（ICCV），2017年。2[7] X. Chen，X. Chen，Y.段河，巴西-地Houthooft，J.舒尔曼I. Sutskever和P.阿比尔Infogan：通过信息最大化生成式对抗网络进行可解释的表示学习神经信息处理系统进展，2016年。2[8] M. Engelcke，A. R.科西奥雷克岛琼斯和我。波斯纳GENESIS：以对象为中心的潜在表征生成场景推理和采样。arXiv.org，1907.13052，2019.2[9] S. M. A. Eslami，N. Heess，T. Weber，Y. Tassa、D.Szepes- vari，K. Kavukcuoglu和G. E.辛顿注意，推断，重复：使用生成模型快速理解场景。神经信息处理系统进展（NIPS），2016年。2[10] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D.沃德-法利，S。奥扎尔A. C. Courville和Y.本吉奥。生成性对抗网。神经信息处理系统进展，2014年。二、五[11] K. 格雷夫河L. 考夫曼河Kabra，N.沃特斯角伯吉斯D. 佐兰湖Matthey，M.Botvinick和A.Lerchner 基于迭代变分推理的多目标表示学习在国际会议上。机器学习（ICML），2019年。2[12] K. Greff，A.拉斯穆斯Berglund，T. H. Hao，H. Valpola和J.施密特胡博标签：深度无监督感知分组。神经信息处理系统进展（NIPS），2016年。2[13] K. Greff，S. van Steenkiste和J.施密特胡博神经期望最大化。神经信息处理系统进展（NIPS），2017年。2[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。5[15] P. Henzler，N. J. Mitra和T. Ritschel逃离柏拉图在proc的IEEE国际会议计算机视觉（ICCV），2019年。二、三[16] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，2017年。6[17] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在 IEEE 国际会议上。计算机视觉（ICCV），2017年。6[18] E. Insafutdinov和A.多索维茨基使用可微分点云进行形状和姿态的无监督学习。神经信息处理系统（NIPS）的优势，2018年。4[19] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。正在进行IEEE会议计算机视觉和模式识别（CVPR），2017年。2[20] J. Johnson，A.Gupta和L.飞飞从场景图生成图像正在进行IEEE会议计算机视觉和模式识别（CVPR），2018。2[21] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁GAN的逐步增长，以提高质量、稳定性和多样性。在国际会议上。关于学习表征（ICLR），2018年。1[22] T. Karras ， S. Laine 和 T. 艾拉 A style-based generatorarchitecture for generative adversarial networks. 在IEEE计算机视觉和模式识别会议上，2019年。一、二、六[23] H.卡托湾Ushiku和T.原田。神经三维网格渲染器。正在进行IEEE会议计算机视觉和模式识别（CVPR），2018。二、八[24] A. R. Kosiorek，H.金，Y。W.德，和我。波斯纳按顺序参加，推断，重复：移动物体的生成建模。神经信息处理系统进展（NIPS），2018年。2[25] N. K. L. ，P. Mandikal，V. Jampani和R.维·巴布DIF-FER：超越3D重建，具有可区分的特征渲染。正在进行IEEE会议计算机视觉和模式识别（CVPR）研讨会，2019年。2[26] J. Li，J. Yang，A. Hertzmann，J. Zhang和T.徐布局-根：用线框判别器生成图形布局。 arXiv.org ，1901.06767，2019. 2[27] S. Liu，T.Li，W.Chen和H.李Soft rasterizer：一个可扩展的渲染器，用于基于图像的3D推理。在proc IEEEInternational Conf. 计算机视觉（ICCV），2019年。二四八[28] F. Locatello，S. Baue r，M. Lucic，G. Ratsch，S. 你好，B. Sch oülk opf和O. 巴赫姆在解纠缠表示的无监督学习中挑战常见假设在国际会议上。机器学习（ICML），2019年。3[29] L. Mescheder，A. Geiger和S.诺沃津gans的哪些训练方法实际上是趋同的？在国际会议的程序。机器学习（ICML），2018年。一、六、七、八5881[30] L. Mescheder，S. Nowozin和A.盖革 GAN的数字。神经信息处理系统进展（NIPS），2017年。2[31] T.宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的频谱归一化。在proc 国际会议。关于学习表征（ICLR），2018年。6[32] T. Nguyen-Phuoc角利湖，澳-地泰斯角Richardt和Y.- L.杨Hologan：从自然图像中进行3D表示的无监督学习。在proc IEEE International Conf.计算机视觉（ICCV），2019年。3[33] A. Noguchi和T.原田。RGBD-GAN：无监督通过RGBD 图像合成从自然图像数据集学习 3D 表示。arXiv.org，1909.12573，2019. 5[34] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习 arXiv.org ，1511.06434，2015. 2[35] S.里德，K. Sohn，Y. Zhang和H.李你学习分解多种相互作用的变化因素在国际会议上。机器学习（ICML），2014年。2[36] S. E. Reed，Z.Akata、S.莫汉，S.滕卡湾schiele和H.李你学习在哪里画什么。神经信息处理系统进展（NIPS），2016年。2[37] H. Rhodin，M. Salzmann和P.呸用于三维人体姿态估计的无监督几何感知表示。在欧洲会议上。计算机视觉（ECCV），2018年。3[38] V. Sitzmann，J. Thies，F.海德M.尼斯纳湾Wetzstein和M.佐尔霍夫Deepvoxels：学习持久的3D特征嵌入。正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。3[39] A. Stanic和J.施密特胡博R-SQAIR：关系序列参与，推断，重复。在神经信息处理系统（NIPS）研讨会的进展，2019年。2[40] T. D. Tamar Rott Shaham和T.Michae

下载后可阅读完整内容，剩余1页未读，立即下载