GI-RAFFEHD：高分辨率3D感知生成模型

110 浏览量更新于2023-10-25 收藏 28.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

184400GIRAFFE HD：一种高分辨率的3D感知生成模型0Yang Xue 1 Yuheng Li 2 Krishna Kumar Singh 3 Yong Jae Lee 201 UC Davis 2 UW–Madison 3 Adobe Research0GIRAFFE0GIRAFFE HD0（我们的）0图1. 我们的模型GIRAFFE HD继承了GIRAFFE [ 38]的所有3D可控性，包括相机视角的变化、对象的平移、缩放、旋转、外观、形状和背景，同时生成更高质量、更高分辨率的图像。此外，它实现了更好的前景-背景解耦；例如，当改变汽车的形状时（第四和第五列），注意在GIRAFFE的图像中道路和建筑的部分会发生变化，而在我们的图像中它们保持不变。0摘要03D感知生成模型已经表明引入3D信息可以实现更可控的图像生成。特别是目前最先进的模型GIRAFFE [ 38]可以在没有相应监督的情况下控制每个对象的旋转、平移、缩放和场景相机姿态。然而，GIRAFFE只在图像分辨率较低时运行良好。我们提出了GI-RAFFEHD，一种高分辨率的3D感知生成模型，它继承了GIRAFFE的所有可控特性，同时生成高质量、高分辨率的图像（512x512分辨率及以上）。关键思想是利用基于风格的神经渲染器，独立生成前景和背景，强制它们解耦，并通过施加一致性约束将它们拼接在一起，形成一个连贯的最终图像。我们在多个自然图像数据集上展示了最先进的3D可控高分辨率图像生成效果。01. 引言0在图像生成中，图像逼真度和可控性是最重要的目标之一。基于风格的GAN（例如StyleGAN [ 25 ]及其变种[ 24 , 27]）可以生成高分辨率、逼真的图像。然而，尽管它们的潜在风格代码设计提供了一定程度的2D空间上的解耦，但由于缺乏明确的3D信息，很难对生成的图像内容进行3D级别的控制。与此同时，最近基于NeRF [ 35 ]的GANs [ 5 , 38 , 43]表明，基于相机姿态对3D空间中的场景进行明确建模可以实现有效的3D级别控制。然而，当前3D感知生成模型直接学习和渲染高分辨率图像的计算开销限制了它们的应用。0解耦和控制在2D空间中的纠缠（例如颜色和形状的变化），它们缺乏明确的3D信息，使得在生成的图像内容上实现3D级别的控制变得困难。与此同时，最近基于NeRF [ 35]的GANs [ 5 , 38 , 43]表明，基于相机姿态对3D空间中的场景进行明确建模可以实现有效的3D级别控制。然而，当前3D感知生成模型直接学习和渲染高分辨率图像的计算开销限制了它们的应用。0GIRAFFE [ 38]是目前最先进的3D感知生成模型，既具有图像逼真度又具有可控性。它将前景和背景建模为两个独立的3D对象，使用体积渲染将合并的3D特征渲染为低分辨率的2D特征图，最后使用神经渲染器将特征图进一步渲染为高分辨率图像。这些设计选择使得GIRAFFE能够独立改变背景的外观，以3D方式平移或旋转前景对象，并改变前景对象的形状和颜色。然而，神经渲染器专门设计为仅提供空间上的小幅改进，以避免纠缠全局场景属性并丧失可控性。因此，它的功能明显不如基于风格的渲染器强大，因此GIRAFFE能够生成的最高图像分辨率是256x256。184410在这项工作中，我们提出了一个两阶段的基于风格的3D感知生成模型，它继承了GIRAFFE的所有可控性，同时生成高质量、高分辨率的图像（最高可达1024x1024分辨率）；见图1。我们的设计基于以下三个关键观察结果，当用基于StyleGAN2 [ 27]的基于风格的神经渲染器替换GIRAFFE的神经渲染器时：1）使用风格渲染器将体积渲染的低分辨率2D特征图上采样可以实现高质量、高分辨率的图像生成，同时仍然保持对前景对象的3D属性（平移、旋转）的可控性。然而，由于其高容量，风格渲染器现在不仅可以完全控制颜色，还可以在一定程度上控制形状；2）它纠缠并失去了对前景和背景特征的可控性（即改变前景的颜色/形状也会改变背景的颜色/形状）。为了恢复对前景和背景的可控性，我们使用两个不同的基于风格的渲染器独立生成它们，并通过施加几何和光度兼容性约束将它们组合成一个连贯的图像，消除不可思议的组合。此外，为了解耦颜色和形状，我们利用了StyleGAN的众所周知的新兴特性，即早期层控制粗糙形状，中间层控制细粒度形状，后期层控制颜色。具体而言，我们将形状代码注入3D特征生成器以及风格渲染器的早期层，以控制形状，将外观代码注入风格渲染器的后期层，以控制颜色。0贡献。我们的方法GIRAFFEHD保留了GIRAFFE的3D可控性，包括对前景和背景的独立控制，同时生成更高分辨率和更高质量的图像（最高1024x1024 vs.GIRAFFE的256x256）。我们在多个自然图像数据集（CompCar [51]，FFHQ [26]，AFHQ Cat [12]，CelebA-HQ[23]，LSUN Church[52]）上验证了我们的方法，并与GIRAFFE在更高分辨率领域的前景-背景解耦和图像真实性方面进行了比较。最后，我们进行了消融研究，以证明我们模型的不同设计选择的合理性。02. 相关工作03D感知图像合成。近年来，使用隐式神经表示来表示3D场景并将其体素渲染成2D图像显示出巨大的潜力[9-11, 14,22, 34, 42, 46]。例如，NeRF[35]可以有效地使用来自不同视角的多个场景图像学习3D几何，并从新的视角生成新的图像。基于NeRF的3D感知GANs [5, 6, 38,43]将神经表示条件化为样本噪声或外观/形状代码，以使用单个网络表示不同的3D场景。这种改进也0使这些模型能够在非结构化的图像集合上进行训练，而不是来自单个场景的图像。我们的GIRAFFEHD在这一工作基础上进行了扩展；特别是在保留所有3D理解能力的同时，将GIRAFFE[38]扩展到更高分辨率的图像领域。0高分辨率图像合成。生成对抗网络（GANs）[4, 15,41]可以生成逼真的图像，而高分辨率图像合成的最新技术是基于风格的GANs [24, 25,27]。通过向网络注入风格代码[21]，这些模型不仅可以输出高分辨率图像，还可以实现一定程度的特征解耦（例如姿势、形状、光照）。一些最近的工作[29,30]表明，使用StyleGAN2作为神经渲染器可以有效地将另一个网络生成的低分辨率特征图上采样为高分辨率图像。我们利用StyleGAN2架构作为我们模型的神经渲染器生成高分辨率的2D图像（512x512分辨率及更高）。0解耦和可控性。学习解耦表示的生成模型[2, 8, 13, 18-20,25, 28, 32,40]在生成过程中提供了额外的控制能力，例如能够控制场景中的不同因素（例如物体姿势、形状、外观）。然而，大多数方法只在2D领域操作，而不考虑物体/场景的3D结构。在学习3D解耦的生成模型中，GIRAFFE[38]是目前的最新技术。它将3D场景表示为前景和背景3D对象的组合，使其能够在图像合成过程中解耦物体的形状、外观、位置、相机视角以及前景和背景。然而，我们观察到这种解耦是以图像质量为代价的-用风格为基础的渲染器替换GIRAFFE的低容量神经渲染器可以实现高分辨率合成，但会损失前景-背景解耦。一些监督方法利用StyleGAN的基于风格的解耦特性来控制生成过程[1, 39,49]。然而，它们尚未展示出准确的前景-背景解耦，这表明普通的StyleGAN架构在前景-背景解耦方面存在局限性。最直观和可靠的前景-背景解耦方法是两阶段图像生成器，它们独立地生成前景和背景，并使用2D组合形成最终的输出图像[3, 31, 45,50]。然而，这些方法在图像质量方面存在不足，可能是由于缺乏显式的前景和背景信息共享和兼容性约束。我们的方法也将前景和背景分别生成，但它施加了显式的几何和光度兼容性####,�κ(x) = R · sE · x + t(2)(σj, fj) = Fθ(γLx(κ−1(xj)), γLd(d), z).(3)f =Nsj=1τjαjfj(4)1844203D特征生成器02D0! 3D特征生成器02D0特征图16x16体积渲染02D神经渲染器02D神经渲染器体积渲染02D0特征图0512x5120细化0渲染器0⊕0前景生成0背景生成0前景细化和最终合成0� !"#$%0�0!+ � ,$(-0� !+0� .+0� "#"/"$%0"# � $0%# � $0� $0� $0� !0�0� "#0T %#0� &0图2. GIRAFFE HD架构。我们的模型独立生成前景和背景，并使用生成的掩码合成最终图像。相机姿态 ξ 和前景物体的z平移 tfgz在前景和背景的3D特征生成器之间共享，以确保几何兼容性。为了确保光度学兼容性，细化渲染器注入了以背景外观 zbga为条件的环境信息，生成前景残差图像 Ifgresidual，将其添加到前景2D神经渲染器的初始输出图像 Ifginitial 中，形成最终的前景图像Ifg。在评估过程中，潜在代码被策略性地注入到2D神经渲染器中，以确保外观和细粒度形状的解耦。0这导致了高分辨率图像领域中准确的前景-背景解耦。03.方法0给定一个包含单个对象类别（例如汽车）的图像集合，我们的目标是学习一个具有3D感知的图像生成模型，能够生成逼真的高分辨率图像，并在没有人工监督的情况下提供3D级别的控制。为此，我们的架构基于GIRAFFE[38]，但用StyleGAN2[27]的渲染器替换了其低容量的神经渲染器，并且有两个独立的并行流来生成独立的前景和背景图像以强制它们的解耦。我们通过将前景和背景组合在一起，并施加兼容性约束来创建最终的输出；参见图2。03.1. GIRAFFE背景知识0生成性神经特征场。GIRAFFE [38]用神经特征场[35,38]表示一个3D场景，它是一个连续函数 F，将3D位置 x ∈ R30将2D相机视角 d ∈ S2 映射到密度 σ ∈ R+ 和外观特征 f∈ RMf。它使用一个MLP学习 F，并在 z � N(0, I)的条件下对其进行调整，以使每个 z对应于不同的3D场景：0Fθ: (γLx(x), γLd(d), z) → (σ, f) (1)0其中 θ 表示网络参数，γ 是位置编码[47]，将5D输入 (x, d)映射到更高维度的空间，Lx 和 Ld 分别是 x 和 d的位置编码维度。03D对象表示。GIRAFFE使用两个分别与不同仿射变换Tfg和Tbg相关联的独立MLP来表示前景和背景对象，这些仿射变换从数据集相关的分布T = {s, t, R}中采样，其中s, t ∈R3是缩放和平移参数，R ∈SO(3)是旋转矩阵。仿射变换T将场景的世界位置转换为每个对象的局部位置：0其中 E 是 3 × 3的单位矩阵。这种表示方式使得可以对3D对象进行控制。0体素渲染。对于给定的相机姿态 ξ ，设 { x j } N s j =1为沿相机射线 d 的 N s 个采样点，那么0令 δ j = ∥ x j + 1 − x j ∥ 2表示相邻采样点之间的距离， α j = 1 − e − σ j δ j 表示x j 的 alpha 值， τ j = � j − 1 i =1 1 − α j表示沿射线的透射率。像素特征向量 f可以通过数值积分计算得到：0为了提高效率，渲染的特征图像的分辨率为 16 2。然后，体素渲染的特征图 f vol可以通过神经渲染器（即卷积神经网络）处理，输出最终的RGB图像。需要注意的是，在GIRAFFE中，前景和背景的3D对象表示被组合成一个单独的3D场景表示。ψθ :z �→ w(5)πrenderθ:(fvol, w) �→ I(6)�184430场景表示并被体素渲染为单个2D特征表示。然而，在我们的方法中，我们将独立地对前景和背景的3D表示进行体素渲染，下面将详细解释。03.2. 神经样式渲染0在GIRAFFE中，神经渲染器被特意设计为简单，并且仅对体素渲染的特征图进行局部小的细化，以避免纠缠全局场景属性和失去可控性。使用其默认渲染器，它能够生成的最高分辨率为 256 2 。为了生成更高分辨率（ ≥ 512 2）的输出，我们首先用基于StyleGAN2的渲染器替换GIRAFFE的默认神经渲染器[27]。具体而言，我们采用从 16 2分辨率开始的所有StyleGAN2块，将体素渲染的 16 2分辨率的2D特征图 f vol 转换为更高分辨率的图像 I。与StyleGAN2一样，我们还使用一个映射网络将 z � N (0, I ) 映射到潜在编码 w ：0尽管我们的样式渲染器可以产生更高分辨率的输出，但与GIRAFFE的默认渲染器相比，我们观察到几个行为上的差异。首先，模型现在失去了独立控制前景和背景的能力。其次，3D表示不再完全控制对象的形状。尽管它仍然确定整体粗略的形状，但样式渲染器的早期阶段在形状上获得了更精细的控制，因为3D表示以比最终图像低得多的分辨率被体素渲染为2D特征图。第三，3D表示几乎不控制颜色。相反，颜色的控制被转移到样式渲染器的后期阶段。这些行为类似于普通的StyleGAN2。为了重新获得对前景和背景的独立控制，并更好地解耦对象的颜色和形状，我们做出以下设计选择。首先，我们不再在3D级别合成场景，然后将其渲染为单个最终的2D图像，而是首先将前景和背景分别渲染为两个2D图像，然后进行2D合成以获得最终的图像。其次，与GIRAFFE不同，GIRAFFE将3D表示条件化为对象的形状编码 z s以及外观编码 z a ，我们去除了每个点特征 f 对 z a的依赖。相反，在训练过程中，我们在样式渲染器中执行样式混合（如StyleGAN2中所述），其中 w s = ψ θ ( z s )和 w a = ψ θ ( z a ) 。在评估过程中，我们将 w s注入到较早阶段，将 w a注入到样式渲染器的后期阶段（根据最终图像的分辨率变化注入索引）。通过这种注入编码的方式，我们的模型能够精细地解耦颜色和形状。0为了将分别生成的前景和背景图像合并为一致的最终图像，我们需要在前景和背景对象之间强加几何和光度一致性。几何一致性要求前景和背景对象遵守物理世界的规则；例如，同一图像中的对象必须共享相同的视角，或者汽车不能悬浮在空中。光度一致性要求前景和背景对象通过共享相同的光照、色调或饱和度等方式，看起来处于同一环境中。为此，我们设计了两种机制来满足这两个一致性要求：位置共享和环境共享。0π refine θ：（f fg out，w bg a）→（I fg residual，Imask）（7）0环境共享。除了在前景和背景对象之间强制执行几何一致性之外，我们还需要确保光度一致性；即，前景对象应该自然地融入背景所创建的环境中。为此，我们指定背景外观潜在代码w bga来编码场景环境配置。我们的细化网络由几层基于样式的卷积组成。它以前景特征图f fgout作为输入，这些特征图也用于渲染初始前景图像，并以w bg a作为样式代码，输出前景图像残差I fgresidual和前景对象掩码I mask：0I fg = I fg initial + I fg residual（8）0我们将前景图像残差添加到初始前景图像中，得到最终的前景图像：0图3. 强制光度一致性。第一列：初始前景图像I fg initial和掩码Imask。第一行：前景残差I fg residual；第二行：最终图像。请注意，I fgresidual根据背景的变化而变化，使得细化的前景I fg与之更加兼容。0我们观察到初始前景图像已经决定了前景物体的真实外观。Figure 3. Enforcing Photometric Consistency. First column:initial foreground image Ifginitial and mask Imask. First row: fore-ground residuals Ifgresidual; second row: final images. Notice howIfgresidual changes based on the background so that the refined fore-ground Ifg becomes more compatible with it.��184440细化操作仅调整前景的光照/光泽，而不改变其真实外观；参见图3。03.4. 合成最终图像0最后，我们使用由细化网络生成的前景对象掩码Imask对前景图像和背景图像进行alpha合成：0I final = (1 - I mask) ∙ I bg + I mask ∙ I fg（9）0在这里，我们的模型最终生成的图像是最终的输出。与GIRAFFE一样，我们的模型可以推广到生成多个前景物体。为了实现这一点，我们首先按照之前描述的方法渲染背景和前景。然后，我们计算前景物体之间的遮挡关系（通过根据它们的深度即x-平移进行排序）。最后，我们从最远的前景物体到最近的前景物体递归地执行2D合成（方程9），其中在每次递归迭代中，2D合成结果成为新的背景图像。03.5. 训练0判别器。我们使用与StyleGAN2 [27]相同的残差判别器。0训练。在训练过程中，我们遵循[38]，对潜变量代码zk_a，zk_s�N，Tk�pT和ξ�pξ进行采样，其中k∈{fg，bg}，pξ和pT是在数据集相关的相机高度角和有效物体变换上的均匀分布。0目标。我们的总体目标函数是：0L = LGAN + λ02LR1 + β1Lbbox + β2Lcvg + β3Lbin (10)0其中λ =10，β1，β2，β3是数据集特定的。为了确保图像的真实性，我们使用非饱和GAN目标LGAN [15]和R1正则化LR1[33]。此外，我们使用三个辅助损失来指导2D前景-背景解耦：边界框0包含损失Lbbox、前景覆盖损失Lcvg和掩码二值化损失Lbin。Lcvg和Lbin是从[3]中改编的。由于风格神经渲染器本身非常强大，这三个辅助损失是必要的，以防止前景或背景渲染器单独生成整个图像。请参阅补充材料以获取损失函数的完整表达式，包括如何使用采样的外观、形状和相机/变换潜变量代码。0边界框包含损失。每个随机采样的前景仿射变换T确定一个3D边界框，在该边界框内前景物体应该存在。在将3D前景物体和3D边界框投影到2D之后，2D前景物体仍应位于2D边界框内。我们的边界框包含损失最小化了落在2D边界框外的前景物体掩码值的均值：0Lbbox = 10|S|0i∈SIMask[i] ∙ (1 - I2Dbbox[i]) (11)0其中S是最终图像中的所有像素的集合。这个损失防止前景渲染器生成背景特征。0前景覆盖损失。这是一个基于平均掩码值的铰链损失，以确保前景不为空：0Lcvg = max(0, η - 10|S|0i∈SIMask[i]) (12)0其中η是最小覆盖阈值。这可以防止背景渲染器生成整个图像。0掩码二值化损失。该损失鼓励掩码的二值化（即0或1的值）：0Lbin = 10|S|0i∈Smin(IMask[i] - 0, 1 - IMask[i]). (13)04. 实验0我们评估GIRAFFEHD的3D可控性，重点关注前景和背景的解耦和它们的几何/光度一致性。我们还评估其生成高质量、高分辨率图像的能力。最后，我们进行消融研究，评估其不同组件和损失的效果。0重要细节。前景和背景的生成神经辐射场是具有ReLU激活函数的多层感知机(MLP)。我们使用8层，隐藏维度为256/64(前景/背景)，密度为1，特征头的维度为Mf =256，用于MLP。我们沿着每条射线采样Ns =64个点，并在16×16像素上渲染2D特征图。前景和背景的形状和外观代码都是256维。我们使用4个184450(a) 物体外观0(c) 相机高度0(d) 物体深度和水平平移 (e) 垂直平移0(b) 物体形状0(f) 旋转0(g) 多个物体0图4. 3D可控性。GIRAFFEHD在生成质量和分辨率显著提高的同时，保留了GIRAFFE的所有3D可控特性。重要的是，与GIRAFFE相比，我们的背景在前景变化时更加一致。0使用多层感知机将噪声向量映射到风格渲染器的潜在编码。精细渲染器具有4个基于风格的卷积层。我们使用最小覆盖阈值为0.2。在2D合成之前，前景和背景图像经过tanh激活。在2D合成之前，前景掩码经过sigmoid激活。我们使用学习率为0.0005和批量大小为16的Adam优化器。0基线。我们与GIRAFFE [38]，pi-GAN [6]，GRAF [44]，HoloGAN[36]和HoloGAN w/o 3DConv进行比较，后者是[44]中提出的用于更高分辨率的HoloGAN变体。0数据集。我们在GIRAFFE[38]中使用的五个高分辨率单物体真实世界数据集上进行评估：CompCar [51]，FFHQ [26]，AFHQ Cat[12]，CelebA-HQ [23]，LSUN Church [52]。0评估指标。我们使用FID[17]来量化图像质量。我们使用20000个真实样本和假样本来计算FID分数，以便与[38]进行直接比较。为了量化前景-背景分离，我们提出了相互背景相似度（MBS）度量。它衡量了图像对之间背景的一致性。##184460Cat CelebA-HQ FFHQ CompCar Church0HoloGAN [36]† - 61 192 34 58 w/o 3D Conv [44]† - 33 70 49 66 GRAF[44]† - 49 59 95 87 GIRAFFE [38]† 33.39 21 32 26 30 pi-GAN [6] 38.9236.27 43.19 64.01 56.80 我们的方法 12.36 8.09 11.93 7.22 10.280表1.256^2分辨率图像质量。我们报告所有方法的FID分数（↓）。†分数（除Cat外）取自[38]。0CompCar 512^2 FFHQ 1024^20GIRAFFE [38] 40.81 70.08 我们的方法 8.3610.130表2. 512^2和1024^2分辨率图像质量。我们报告GIRAFFE和GIRAFFEHD的FID分数（↓）。0图5. GIRAFFE[38]图像生成。我们展示这些以进行直接比较。（更多比较见补充材料）0两个生成的图像应该共享相同的背景。低的MBS表示图像对之间的背景更一致。对于每个生成的图像，我们随机采样一个应该改变其前景的操作（即，改变尺度、x、y平移、旋转、形状和外观的组合），而不改变背景，然后执行该操作生成新的图像。然后，我们使用预训练的DeepLabV3ResNet101[7]语义分割模型计算每个图像的背景掩码，并将两个掩码相乘得到单个的相互背景掩码。图像对的MBS被计算为背景内像素值发生变化的像素的比例。我们计算最终的MBS作为10,000个图像对的MBS的均值×10^2。详细信息请参考补充材料。04.1. 图像生成质量0我们首先评估GIRAFFEHD生成图像的质量。由于在[38]中已经证明GIRAFFE能够可靠地在256^2分辨率下运行，我们从256^2开始与所有基线进行比较（表1）。然后，我们在CompCar数据集的512^2分辨率和FFHQ数据集的1024^2分辨率上与GIRAFFE进行比较（表2）。我们的方法在图像质量方面大幅优于基线。这主要归因于我们的基于风格的神经渲染器，它能够建模比GIRAFFE的低容量神经渲染器更细节的内容。0FFHQ CompCar0GIRAFFE [38] 99.15 88.89我们的方法 15.02 22.880表3.前景-背景分离。我们在FFHQ和CompCar上报告所有方法的MBS分数（↓）为256^2。0CompCar 256x2560不共享位置 10.89 不共享环境 11.55完整 7.220表4.消融实验：去除位置/环境共享。'完整'表示完整的GIRAFFEHD模型。我们报告FID（↓）。0改变 � !0改变 � $0图6.消融实验：单一基于风格的渲染器基准。注意前景和背景是纠缠在一起的。04.2.可控场景生成0在图4中，我们定性地展示了我们的方法保留了GIRAFFE的所有可控特性。对于垂直平移，注意我们的位置共享使得地面随着汽车的移动而上升。此外，与GIRAFFE相比，我们的背景在前景变化时保持更加一致，如表3中我们较低的MBS所示（定性比较见图1、图5和supp）。这是由于我们明确地分离了前景和背景的生成。对于靠在地面上的物体（如汽车），我们的模型还会将物体的阴影作为前景的一部分（见图8中的示例），这是理想的行为。然而，用于计算MBS的DeepLabV3模型[7]没有将阴影分割为物体的一部分，这就是为什么我们在CompCar上的MBS比在FFHQ上更高的原因。在图8中，我们展示了全面的中间和最终图像生成结果。04.3.消融实验0两阶段的重要性。改善GIRAFFE图像质量的最简单方法是将GIRAFFE的神经渲染器替换为单个基于风格的渲染器。在这个基准方法中，训练过程中我们使用 z fg s 和 z fg a的风格混合作为渲染器的潜在编码。在评估过程中，我们仍然将 z fg s 注入到较早的层级中，将 z fg a注入到较后的层级中，以确保细粒度形状和外观的解耦。然而，我们观察到这个单一渲染器基准方法失去了前景-背景的解耦（图6）。尽管汽车的形状保持不变，但𝐼𝐼!"#$𝐼%&𝐼'&𝐼!"#$𝐼%&𝐼'&𝐼()#*+,"-%&𝐼*.*/*"-%&184470没有边界框0边界框约束损失0没有前景0覆盖损失0完整0图7.消融实验：去除辅助损失。即使只经过4000次训练迭代，缺乏边界框约束或前景覆盖损失的基准方法生成的所有掩码都是1或0。0当改变物体的形状时，颜色保持不变，但背景的形状也会改变。同样，当改变物体的颜色时，形状保持不变，但背景的颜色也会改变。尽管前景和背景在3D特征级别上解耦，但由于单个基于风格的渲染器无法分别控制前景和背景，前景-背景的解耦在最终的2D图像中丢失了。0前景-背景一致性强制的重要性。表4显示，去除位置或环境共享会损害模型的FID，因为会生成几何/光度不兼容的最终图像的前景-背景组合。0辅助损失的重要性。在图7中，我们展示了我们模型在经过4000次训练迭代后在FFHQ上的64x64渲染结果，共有三种配置。没有边界框约束损失时，前景分支生成整个图像；没有前景覆盖损失时，背景生成整个图像。因此，这两个损失对于前景-背景解耦至关重要。05.讨论和结论0我们提出了GIRAFFEHD，这是一个高分辨率的3D感知生成模型，它继承了GIRAFFE的所有3D可控特性，同时生成高质量、高分辨率的图像。0限制. 首先，我们注意到我们的模型有时缺乏3D一致性.例如，当从头开始在CompCar数据集上训练时，我们的模型在执行完整的360度旋转时遇到困难.相反，一些形状代码对应于面向前方的汽车，而其他代码对应于面向后方的汽车，每个代码只能执行180度旋转，即使底层的3D模型已经旋转了360度.但是，当我们使用预训练的GIRAFFE3D特征生成器的权重初始化3D特征生成器并继续训练时，模型就能够执行完整的360度旋转.其次，我们当前的模型（以及GIRAFFE）无法处理跨域前景-背景相关性.0�0LSUN Church CelebA-HQ AFHQ Cat0CompCar0图8. 全面输出. 我们展示了不同数据集的GIRAFFEHD的所有中间和最终输出图像.0当在多个类别（例如猫、狗、野生动物）上训练单个模型时，会出现一些限制.尽管生成的图像仍然具有高质量，但前景和背景的组合可能不兼容.在多个数据集上训练一个良好工作的单个模型将是未来工作的一个有趣方向.第三，我们当前的架构无法处理“交织”对象关系，即沿着某些光线，一个对象出现在另一个对象的前面，也有一些光线在其后面.我们的模型通过组合具有2D层的图像来工作，组合的层蒙版（对象蒙版）仅考虑对象本身而不考虑场景中的其他对象来生成. 这通常适用于大多数现实世界的领域.但是，当对象“交织”时，对象的蒙版需要考虑其他对象的3D几何.我们认为，基于3D遮挡推理渲染对象蒙版的模块可能是解决这个问题的一个可能扩展.0更广泛的影响.可控图像生成有许多可能的应用，包括娱乐和设计行业.例如，它可以通过允许设计师在创建新的视觉内容时独立控制场景中的每个对象来提高设计师的生产力.由于我们的方法除了拥有相同对象的图像集合外不需要监督，因此可以轻松扩展到许多不同的类别.但是，也可能存在潜在的滥用，例如创建虚假内容来愚弄执法部门或在社交媒体上传播错误信息.最近关于可以检测伪造图像的模型的研究（例如[48]）可能有助于防止这种不道德的应用.0致谢. 本工作部分得到了索尼专项研究奖和NSF CAREERIIS-2150012的支持. 我们感谢匿名评审人员的建设性评论.184480参考文献0[1] Rameen Abdal, Peihao Zhu, Niloy Mitra和Peter Wonka.Styleflow:使用条件连续归一化流对StyleGAN生成的图像进行属性条件探索.ACM Transactions on Graphics (TOG), 40, 2021. 20[2] Y. Bengio, A. Courville, and P. Vincent. 表示学习:一项综述和新的观点. TPAMI, 2013. 20[3] Adam Bielski和Paolo Favaro.扰动生成模型中的目标分割的出现. 在NeurIPS, 2019. 2, 50[4] Andrew Brock, Jeff Donahue和Karen Simonyan.用于高保真度自然图像合成的大规模GAN训练. 在ICLR, 2019. 20[5] Eric Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu,and Gordon Wetzstein. pi-gan:周期性隐式生成对抗网络用于3D感知图像合成. 在CVPR, 2021. 1,20[6] Eric R Chan, Marco Monteiro, Petr Kellnhofer, JiajunWu和Gordon Wetzstein. pi-gan:周期性隐式生成对抗网络用于3D感知图像合成.在IEEE/CVF计算机视觉和模式识别会议论文集中, 2021. 2, 6, 70[7] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam.重新思考用于语义图像分割的空洞卷积。2017年。 70[8] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, IlyaSutskever, and Pieter Abbeel. Infogan:通过最大化信息的生成对抗网络进行可解释的表示学习。在NeurIPS ，2016年。 20[9] Yinbo Chen, Sifei Liu, and Xiaolong Wang.用本地隐式图像函数学习连续图像表示。在 CVPR ，2021年。 20[10] Zhiqin Chen and Hao Zhang.学习用于生成形状建模的隐式场。在 CVPR ，2019年。 20[11] Julian Chibane, Aymen Mir, and Gerard Pons-Moll.用于隐式函数学习的神经无符号距离场。在 NeurIPS ，2020年。20[12] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. Stargan v2: 用于多个领域的多样化图像合成。在 CVPR，2020年。 2 , 60[13] Emily L Denton and vighnesh Birodkar.从视频中无监督学习解缠表示。在 NeurIPS ，2017年。 20[14] Kyle Genova, Forrester Cole, Daniel Vlasic, Aaron Sarna,William T Freeman, and Thomas Funkhouser.用结构化隐式函数学习形状模板。在 ICCV ，2019年。 20[15] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络。在 NeurIPS ，2014年。 2 , 50[16] Philipp Henzler, Niloy J Mitra, and Tobias Ritschel.从对抗渲染中逃离柏拉图的洞穴：3D形状。在 CVPR ，2019年。20[17] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, andSepp Hochreiter. 由两个时间尺度更新规则收敛到局部纳什均衡。2017年。 60两个时间尺度更新规则收敛到局部纳什均衡。2017年。 60[18] Irina Higgins, Loic Matthey, Arka Pal, ChristopherBurgess, Xavier Glorot, Matthew Botvinick, Shakir Mohamed,and Alexander Lerchner. beta-vae:用约束变分框架学习基本视觉概念。在 ICLR ，2017年。 20[19] Geoffrey E. Hinton, Alex Krizhevsky, and Sida D. Wang.变换自动编码器。在 ICANN ，2011年。 20[20] Qiyang Hu, Attila Szab´o, Tiziano Portenier, Paolo Favaro,and Matthias Zwicker. 通过混合来解缠变化因素。在 CVPR，2018年。 20[21] Xun Huang and Serge Belongie.实时的任意风格转换与自适应实例归一化。在 ICCV ，2017年。 20[22] Chiyu Max Jiang, Avneesh Sud, Ameesh Makadia, JingweiHuang, Matthias Niessner, and Thomas A. Funkhouser.用于3D场景的本地隐式网格表示。在 CVPR ，2020年。 20[23] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.渐进增长的生成对抗网络以提高质量、稳定性和变化性。在 ICLR，2018年。 2 , 60[24] Tero Karras, Miika Aittala, Samuli Laine, Erik H¨ark¨onen,Janne Hellsten, Jaakko Lehtinen, and Timo Aila.无别名的生成对抗网络。在 NeurIPS ，2021年。 1 , 20[25] Tero Karras, Samuli Laine, and Timo Aila.一种基于风格的生成对抗网络生成器架构。在 CVPR ，2018年。 1, 20[26] Tero Karras, Samuli Laine, and Timo Aila.一种基于风格的生成对抗网络生成器架构。在 CVPR ，2019年。 2, 60[27] Tero Karras, Samuli Laine, Miika Aittala, Janne He

下载后可阅读完整内容，剩余1页未读，立即下载