3D生成对抗网络的高效几何感知

98 浏览量更新于2023-10-26 收藏 2.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16123高效的几何感知3D生成对抗网络埃里克河Chan*† 1，2，Connor Z. Lin*1，Matthew A. Chan*1、Koki Nagano*2、Boxiao Pan1、Shalini De Mello2、Orazio Gallo2、Leonidas Guibas1、Jonathan Tremblay2、Sameh Khamis2、Tero Karras2和Gordon Wetzstein11斯坦福大学2NVIDIA摘要仅使用单视图2D照片的集合来无监督地生成高质量的多视图一致的图像和3D形状一直是一个长期的挑战。现有的3D GAN要么是计算密集型的，要么是不具有3D一致性的近似;前者限制了所生成图像的质量和分辨率，后者对多视图一致性和形状质量产生不利影响。在这项工作中，我们提高了3D GAN的计算效率和图像质量，而不过度依赖这些近似。我们介绍了一种表达的混合显式-隐式网络架构，与其他设计选择，合成不仅高分辨率的多视图一致的图像实时，但也产生高品质的3D几何。通过解耦特征生成和神经渲染，我们的框架能够利用最先进的 2D CNN 生成器，如StyleGAN2，并继承它们的效率和表现力。我们展示了最先进的3D感知合成与FFHQ和AFHQ猫，以及其他实验。1. 介绍生成对抗网络（GAN）已经取得了巨大的进展，最近的模型能够生成与真实照片无法区分的高分辨率、照片级图像[27然而，目前最先进的GAN仅在2D中操作，并且不显式地对底层3D场景进行建模。最近关于3D感知GAN的工作已经开始解决多视图一致性图像合成的问题，并且在较小程度上，在不监督几何或多视图图像集合的情况下提取3D形状。怎么-*同等贡献。†部分工作是在NVIDIA实习期间完成的。项目页面：https://github.com/NVlabs/eg3d图1.我们的3D GAN可以合成场景，生成高质量的多视图一致性渲染和详细的几何图形。我们的方法训练从2D图像的集合没有目标特定的形状先验，地面实况3D扫描，或多视图监督。请参阅随附视频了解更多结果。现有的3D GAN的图像质量和分辨率此外，到目前为止，它们的3D重建质量还有很多需要改进的地方。这种差距的主要原因之一是以前采用的3D生成器和神经渲染架构的计算效率低下。与2D GAN相比，3D GAN依赖于生成器网络架构中的3D结构感知感应偏置和旨在提供视图一致结果的神经渲染引擎的可以使用显式体素网格[14，21，47，48，68，74]对感应偏置进行建模。或神经隐式表征[4，47，49，58]。虽然在单场景“过拟合”场景中是成功的，但是这些表示都不适合训练高分辨率3D GAN，因为它们只是太低的存储效率或太慢。训练3D GAN需要渲染数千万张图像，但是使用这些表示以高分辨率进行最先进的神经体积渲染[45]在计算上是不可行的。基于CNN的图像上传-16124已经提出了采样网络来补救这一点[49]，但这种方法牺牲了视图一致性并损害了学习的3D几何的质量。我们引入了一种新的生成器架构，用于从单视图2D照片集合中进行无监督3D表示学习，该架构旨在提高渲染的计算效率，同时保持对3D接地神经渲染的真实性。我们通过双管齐下的方法来实现这一目标首先，我们提高了计算效率的3D接地渲染与混合显式-隐式的3D表示，提供显着的速度和内存的好处，完全隐式或显式的方法，而不影响表现力。这些优点使我们的方法能够绕过限制先前方法的渲染分辨率和质量的计算约束[4，58]，并迫使过度依赖图像空间卷积上采样[49]。其次，虽然我们使用了一些偏离3D接地渲染的图像空间近似，但我们引入了一种双重区分策略，该策略保持了神经渲染和我们的最终输出之间的一致性，以规范它们不受欢迎的视图不一致趋势。此外，我们将基于姿势的条件作用引入到我们的生成器中，其将姿势相关的属性（例如，面部表情）以在推断期间获得多视图一致输出，同时忠实地对训练数据中固有的姿势相关属性的联合分布进行作为一个额外的好处，我们的框架从神经渲染中提取特征生成，使其能够直接利用最先进的基于2D CNN的特征生成器，如StyleGAN2，在3D场景空间上进行泛化，同时还受益于3D多视图一致性神经体渲染。我们的方法不仅实现了视图一致的3D感知图像合成的最先进的定性和定量结果1）。我们的贡献如下：• 我们引入了一个基于三平面的三维GAN框架，这是高效和富有表现力的，使高分辨率的几何感知图像合成。• 我们开发了一种3D GAN训练策略，该策略通过双重判别和生成器姿态调节来促进多视图一致性，同时忠实地对姿态相关属性分布（例如，例如）存在于真实世界的数据集中。• 我们展示了FFHQ和AFHQ Cats数据集上的无条件3D感知图像合成的最新结果，以及完全从2D野外图像中学习的高质量3D几何学。图2.神经隐式表示使用具有位置编码（PE）的全连接层（FC）来表示场景，这对于查询（a）可能是缓慢的。使用小隐式解码器的显式体素网格或混合变体查询速度快，但随分辨率缩放较差（b）。我们的混合2. 相关工作神经场景表示和渲染。新兴的神经场景表示使用可区分的3D感知表示[1，3，6，8，13，17，43，44，52，65]，其可以通过神经渲染使用2D多视图图像进行优化[15，20，24，30，3472]。显式表示，如离散体素网格（图2b），可以快速评估，但通常会产生沉重的计算开销，使其难以扩展到高分辨率或复杂场景[38，61]。隐式表示或坐标网络（图2a）通过将场景表示为连续函数（例如，[43、45、52、60、66]）。在实践中，这些隐式架构使用大型的完全连接的网络，由于每个查询都需要完全通过网络，因此评估速度很慢因此，完全明确的和不明确的表示提供互补的好处。局部隐式表示[3，5，23，56]和混合受这些想法的启发，我们设计了一种新的混合2c）。我们的表示与以前的基于平面的混合体系结构[11，53]有一些相似之处，但它在其特定的设计中是独特的。我们的表示是实现高3D GAN图像质量的关键，我们通过与现代2D GAN相当的有效训练（在时间尺度上）证明了这一点。生成式3D感知图像合成。生成式对抗网络[16]最近实现了照片真实性-16125×∈××2D图像合成的tic图像质量[25，28，29，55]。将这些功能扩展到3D设置也开始获得动力。基于网格的方法建立在计算机图形学中使用的最流行的基元上，但缺乏高保真图像生成所需的表现力[33，64]。基于体素的GAN直接将2D设置中使用的CNN生成器扩展到3D[14，21，47，48，68，74]。然而，体素网格的高存储器要求和3D卷积的计算负担使得高分辨率3D GAN训练变得困难。低分辨率的3D体积生成可以通过基于2D CNN的图像上采样层进行补救[49]，但如果没有感应3D偏差，结果通常缺乏视图一致性。基于块的稀疏体表示克服了其中的一些缺点，但适用于大多数空场景[19，35]并且难以跨场景进行概括作为替代方案，图3.多视图家庭场景的合成视图，比较全隐式Mip-NeRF表示（左），密集体素网格（中）和我们的三平面表示（右）。尽管体素和三平面都不对视图相关效果进行建模，但它们可以实现高质量。已经提出了用于3D的隐式表示网络场景生成[4，58]，但这些架构查询速度很慢，这使得GAN训练效率低下，限制了生成图像的质量和分辨率。我们工作的主要见解之一是，具有3D接地电感偏置的高效3D GAN架构对于成功生成高分辨率视图一致性图像和高质量3D形状至关重要。我们的框架通过几种方式实现了这一点。首先，与大多数现有的3D GAN不同，我们直接利用基于2D CNN的特征生成器，即StyleGAN2 [29]，消除了对显式体素网格的低效3D卷积其次，我们的三平面表示允许我们利用神经体绘制作为归纳偏差，但比全隐式3D网络更有效的计算方式[4，45，58]。与[49]类似，我们还在神经渲染后采用基于2D CNN的上采样，但我们的方法引入了双重区分，以避免上采样层引入的视图不一致与基于前StyleGAN2的2.5D GAN不同，它生成图像和深度图[59]，我们的方法在陡峭的相机角度和360°的观看条件下自然工作。同时开发的3D感知GAN StyleN-eRF [18]和CIPS-3D[73]展示了令人印象深刻的图像质量。这些方法和我们的方法之间的主要区别在于，虽然StyleNeRF和CIPS-3D主要在图像空间中操作，但对3D表示的重视程度较低，但我们的方法主要在3D中操作我们的方法展示了更大的视图一致性，并能够生成高质量的3D形状。此外，我们的实验报告了FFHQ和AFHQ的优越FID图像分数。3. 三平面混合3D表示训练高分辨率GAN需要一个高效且富有表现力的3D表示。在本节中，我们将介绍一种新的混合我们引入MLPRel. 速度↑Rel.记忆↓Mip-NeRF [2]8×256 1×1×体素（混合）4× 1283. 5×0。33×三平面（SSO）4 × 1282. 9×0。32×三平面（GAN）1 × 647. 8×0。06×表1.与Mip-NeRF相比，相对加速和内存消耗所提出的三平面表示比全隐式Mip-NeRF网络快3-8倍，并且仅需要其存储器的一部分。在该示例中，体素网格和三平面表示都使用基于MLP的解码器，如所指示的。体素的在SSO实验中（图3），我们使用了比第2节中讨论的GAN实验更大的解码器用于三平面表示。4以优化该实验的表达速度。在下一节中讨论如何将其集成到我们的GAN框架之前，先介绍本节中用于单场景过拟合（SSO）实验的表示。在三平面公式中，我们沿着三个轴对齐的正交特征平面对齐我们的显式特征，每个平面的分辨率为N NC（图1）。2 C）N空间分辨率，C是通道数。我们通过将其投影到三个特征平面中的每一个上来查询任何3D位置xR3，通过双线性插值来检索相应的特征向量（Fxy，Fxz，Fyz），并且通过求和来聚合三个特征向量。实现为小MLP的附加轻量解码器网络将聚合的3D特征F解释为颜色和密度。这些量使用（神经）体积渲染渲染[41，45]渲染成RGB这种混合表示的主要优点是效率-通过保持解码器较小并将大部分表达能力转移到显式特征中，与全隐式MLP架构[2，45]相比，我们降低了神经渲染的计算成本，而不会损失16126图4.我们的3D GAN框架包括几个部分：基于姿态调节的StyleGAN2特征生成器和映射网络，具有轻量级特征解码器的三平面3D表示，神经体积渲染器，超分辨率模块，以及具有双重鉴别的姿态调节的StyleGAN2模型这种架构优雅地融合了特征生成和神经渲染，允许使用强大的StyleGAN2生成器进行3D场景泛化。此外，轻量级3D三平面表示在实时实现高质量的3D感知视图合成方面既有表现力又有效率。表现力为了验证三平面表示是紧凑的，但有足够的表现力，我们评估它与一个共同的新颖的视图合成设置。为此，我们直接优化平面的特征和解码器的权重，以适应来自Tanks Temples数据集[31]的场景的360个视图（图3）。在这个实验中，我们使用分辨率N=512和通道C=48的特征平面，与每个128个隐藏单元的四层MLP和傅立叶特征编码配对[66]。我们将结果与等容量的密集特征体积进行比较。作为参考，我们包括与最先进的全隐式3D表示的比较[2]。图3和Tab. 1证明了三平面表示能够表示这种复杂场景，尽管没有视图相关效果，但在PSNR和SSIM方面优于密集特征体积表示[38，61]和全隐式表示[45]，同时在计算和存储效率方面具有相当大的优势。对于N个特征的边长，三平面以O（N2）而不是O（N3）作为密集体素进行缩放，这意味着对于相等的容量和存储器，三平面表示可以使用更高分辨率的特征并捕获更大的细节。最后，我们的三平面表示与这些替代方案相比还有另一个关键优势：可以使用现成的基于2D CNN的生成器生成特征平面，从而使用接下来讨论的GAN框架实现3D表示的泛化4. 3D GAN框架有了一个高效和富有表现力的3D表示，我们训练了一个3D GAN，用于从2D照片中进行几何感知图像合成，而无需任何显式的3D或多视图监督。我们使用现成的姿势检测器将每个训练图像与一组相机内部和外部相关联[10，32];有关详细信息，请参阅补充。图4概述了我们的网络架构。我们使用上一秒介绍的三平面表示法通过神经体积渲染来有效地渲染图像与SSO实验不同，在SSO实验中，平面的特征直接从多个输入视图中优化，对于GAN设置，我们在2D卷积StyleGAN2主干的帮助下生成三平面特征，每个包含32个通道（第二节）。4.1）。在GAN设置中，我们的神经渲染器不是生成RGB图像，而是聚合来自32通道三平面中的每一个的特征，并从给定的相机姿势预测32通道特征图像。接下来是一个“超分辨率”模块，用于对这些原始神经渲染图像进行上采样和细化（第二节）。4.2）。生成的图像由稍微修改的StyleGAN2脚本（第二节）进行评论。4.3）。整个管道从随机初始化开始进行端到端训练，使用具有R1正则化[42]的非饱和GAN损失函数[16]，遵循StyleGAN 2 [29]中的训练方案为了加快训练速度，我们使用两阶段训练策略，在该策略中，我们使用降低的（642）神经渲染分辨率进行训练，然后在全（1282）神经渲染分辨率下进行短暂的微调。额外的实验发现，正则化以鼓励密度场的平滑度有助于减少3D形状中的伪影。以下部分详细讨论了我们框架的主要组件。有关其他描述、实现细节和超参数，请参见补充。4.1. CNN生成器主干和渲染当在我们的GAN设置中使用时，三平面表示的特征由StyleGAN2 CNN生成器生成。随机潜码和相机参数首先由映射网络处理以产生中间潜码，该中间潜码然后调制单独的合成网络的卷积核。我们改变了StyleGAN2主干的输出形状，这样我们就不会生成三通道 RGB 图像，而是生成一个256×256×96的特征图像。这16127RGBRGBRGBRGB图5.双重歧视确保原始神经渲染IRGB 和超分辨输出I+ 保持一致性，4.3.双重歧视与标准的2D GAN训练一样，生成的渲染结果由2D卷积神经网络进行评判我们使用StyleGAN2插件，经过两处修改。首先，我们引入双重判别作为避免在先前工作中观察到的多视图不一致问题的方法[47，49]。为此，我们解释了神经渲染特征图像IF的前三个特征通道从而实现高分辨率和多视图一致的渲染。特征图像被按通道分割并重新整形以形成三个32通道平面（参见图4）。我们选择Style-GAN 2来预测三平面特征，因为它是一种易于理解且高效的架构，可实现2D图像合成的最新结果。此外，我们的模型继承了Style- GAN的许多理想属性：一个行为良好的潜在空间，可以实现样式混合和潜在空间插值（参见第二节）。5、补充）。我们从三平面中采样特征，通过求和进行聚合，并使用轻量级解码器处理聚合特征，如第2节所述。3 .第三章。我们的解码器是一个多层感知器，具有64个单元的单个隐藏层和softplus激活函数。MLP不使用位置编码、坐标输入或视图方向输入。该混合表示可以被查询连续坐标并输出标量密度σ以及32通道特征，这两者然后由神经体积渲染器处理以将3D特征体积投影到2D特征图像中。体绘制[41]使用如[45]中的两遍重要性采样来实现在[49]之后，我们的GAN框架中的体渲染生成特征图像，而不是RGB图像，因为特征图像包含更多的信息，可以有效地用于接下来描述的图像空间细化。对于大多数的实验报告在这份手稿中，我们呈现32通道的特征图像IF在128- 2的分辨率，96总深度样本每射线。4.2.超分辨率虽然三平面表示比以前的方法在计算效率上要高得多，但它仍然太慢，无法在保持交互式帧速率的同时以高分辨率进行本地训练或渲染因此，我们以中等分辨率执行体绘制（例如，1282），并依赖于图像空间卷积来将神经渲染上采样到2562或5122的最终图像大小。我们的超分辨率模块由两块StyleGAN2调制卷积层组成，它们将32通道特征图像I F上采样并细化为最终的RGB图像I+。我们禁用每像素噪声输入以减少纹理粘连[27]，并重用主干的映射网络来调制这些层。作为低分辨率RGB图像IRGB。直观的双重鉴别则确保I RGB和超分辨率图像I+之间的一致性。这是通过对I RGB进行双通道上采样到与I+相同的分辨率，并将结果连接以形成六通道图像来实现的（见图11）。4）. 输入图像处理器的真实图像也通过将它们中的每一个与其自身的适当模糊副本连接来我们区分这些六通道图像，而不是传统上在GAN鉴别器中看到的三通道图像。双重辨别不仅鼓励最终输出与真实图像的分布相匹配，而且还提供了额外的效果：它鼓励神经渲染与下采样真实图像的分布相匹配;并且它鼓励超分辨率图像与神经渲染一致（参见图5）。第二点重要的是，它允许我们利用有效的图像空间超分辨率层，而不会引入视图不一致的伪影。第二，我们使摄像机意识到从生成的图像被渲染的相机姿态。具体来说，根据条件策略，在GAN 2-ADA [26]中，我们将渲染相机内、外矩阵（统称为P）作为条件标签传递给判别器。我们发现这个骗局-分区引入了引导生成器学习正确的3D先验的附加信息。我们在补充中提供了额外的研究，显示了这种判别器调节的效果以及我们的框架对输入相机姿势中高水平噪声的鲁棒性。4.4.姿态相关属性建模像FFHQ这样的大多数真实世界数据集包括将相机姿势与其他属性（例如，面部表情），并且天真地处理它们会导致查看不一致的结果。例如，相机相对于人脸的角度与微笑相关（参见补充）。虽然忠实地建模数据集中固有的这样的属性描述对于再现最佳图像质量是重要的，但是这样的不想要的属性需要在多视图一致性合成的推断期间被解耦。相关工作在视图一致性[4，58，59]或建模姿势-外观相关性[47，49]方面取得了成功，但无法同时实现两者我们引入发电机姿态调节作为一种手段来建模和解耦姿态和其他16128图6.在5122处策划的示例，由使用FFHQ [28]和AFHQv2 Cats [7]图7. GIRAFFE，π-GAN，Lifting StyleGAN，our，与FFHQ在2562.等值面是使用行进立方体从密度场提取的等值面。我们检查了GIRAFFE的底层3D表示，发现它对图像空间近似的过度依赖严重损害了3D几何的学习。在训练图像中观察到的属性。为此，我们提供的骨干映射网络不仅是一个潜在的代码向量z，而且相机参数P作为输入，遵循[26]中的条件生成策略。通过给出绘制照相机位置的主干知识，我们允许目标视图影响场景合成。在训练过程中，姿势调节允许生成器对数据集隐含的姿势相关偏差进行建模，从而使我们的模型能够忠实地再现数据集中的图像分布。为了防止场景在推理过程中随着相机姿态的变化而变化，我们在从移动相机轨迹渲染时将gener- ator设置我们注意到，总是调节发电机与渲染相机的姿态可能会导致退化，erate解决方案，其中GAN产生2D广告牌成角度对相机（见补充）。为了防止这种情况我们在训练期间以50%的概率将P中的条件姿势与另一个随机姿势随机5. 实验和结果数据集。我们将无条件3D感知生成任务的方法与真实世界人脸数据集FFHQ [28]和小型真实世界猫脸数据集AFHQv2 Cats [7，27]进行了我们使用hori-zyngeal翻转来增强这两个数据集，并使用现成的姿态估计器[10，32]来提取近似的相机外参数。对于AFHQv 2上的所有方法，我们从相应的FFHQ检查点应用迁移学习[26];对于我们在AFHQv 25122上的方法，我们还使用自适应数据增强[26]。有关更多结果，请参阅随附的视频。16129FFHQ猫FID↓ID↑Depth↓Pose↓FID↓GIRAFFE256231.5 0.64 0.94.089 16.1表2.使用FID、身份一致性（ID）、深度精度和姿势精度对FFHQ和AFHQ猫进行定量评估。标记的是图像分辨率的训练和评估。†接受自适应数据增强训练[26]。5.1. 比较基线。我们将我们的方法与用于3D感知图像合成的三种最先进的方法进行比较：π- GAN [4]，GIRAFFE [49]和Lifting StyleGAN [59]。定性结果。图6呈现了由我们的模型以5122的分辨率用FFHQ和AFHQ合成的选定示例，突出显示了由我们的方法产生的图像质量、视图一致性和输出多样性。图7提供了与基线的定性比较。虽然GIRAFFE合成高质量的图像，但依赖于视图不一致的卷积会产生低质量的形状和身份偏移-注意渲染视图之间的不一致性。π-GAN和Lifting StyleGAN生成了足够的形状和图像，但都难以捕捉到真实感和细节形状。我们的方法不仅合成了更高质量和更一致的图像，而且还合成了更高保真的3D几何形状，如在详细的眼镜和头发中看到的。定量评价。表2提供了将拟议办法与基线进行比较的我们使用Fre'chetInceptionDistance（FID）[22]在50k生成图像和所有可用的真实图像之间测量图像质量我们通过根据[10]从合成图像中估计的伪地面真实深度图（深度）和姿态（姿态）计算MSE来评估形状质量;[59]引入了类似的评估我们通过计算从随机相机姿势渲染的相同合成面部的成对视图之间的平均Arcface [9]余弦相似性得分来评估多视图面部身份一致性（ID）补充中提供了其他评价详细信息我们的模型在两个数据集上都证明了 FID 的显着改进，使 3D GAN 接近与StyleGAN25122相同的水平（FFHQ为2.97[29]，2.99猫[26]），同时保持最先进的视图一致性、几何体质量和姿势精度。运行时间。表3比较了在单个NVIDIA RTX 3090 GPU上运行推理时的渲染速度。我们的端到端方法实现了5122最终分辨率的实时帧速率，神经渲染分辨率为1282，Res.长颈鹿π-GAN米.到SG我们我们的+TC2562181551273651221611-2635表3.在不同的渲染分辨率下，以每秒帧数计算。我们比较了我们的方法的变体，有和没有三平面缓存（TC）。在单个RTX 3090 GPU上运行。FID↓FACS微笑标准品↓朴素模型5.50.069+ DD6.50.054+ DD、GPC（我们的）4.70.031表4.双鉴别（DD）提高了多视图表达的一致性，但损害了模型添加发电机姿态条件（GPC）允许模型在这两个方面进行改进。报告在5122，与FFHQ。每条射线96个总深度样本，适用于实时可视化等应用。当渲染静态场景的连续帧时，我们不需要在每帧中重新生成三平面特征;缓存生成的特征是一个简单的调整，可以提高渲染速度。所提出的方法明显快于完全隐式方法，如 π-GAN [4] 。虽然它不如 Lift- ingStyleGAN [59]和GIRAFFE [49]那么快，但我们相信图像质量、几何质量和视图一致性方面的重大改进超过了增加的计算成本。5.2. 消融研究在没有双重鉴别的情况下，生成的图像可能由于不受约束的图像空间超分辨率层而包括多视图不一致。我们通过使用专有的面部跟踪器，从具有和不具有双重辨别力的模型产生的视频中提取与微笑相关的面部动作编码系统（FACS）[12我们测量的微笑系数的标准偏差为同一场景跨视频帧。一个视图一致的场景应该表现出轻微的表情变化，从而产生微笑系数的变化很小这在表4中得到验证，表4显示引入双重辨别（第二行）相对于朴素模型（第一行）减少了微笑系数变异，表明表达一致性得到改善。然而，双重辨别也降低了图像质量，如通过稍微更差的FID分数所看到的，这可能是因为模型被限制在FFHQ数据集中再现姿势相关的属性偏差。通过添加生成器姿势条件（第三行），我们允许生成器忠实地对姿势相关属性进行建模，同时在推断时将它们解耦，从而产生最佳FID分数和视图一致的结果。π-GAN128229.90.670.44.02116.0米.到秘书长256229.80.580.40.023-我们的25624.80.760.31.0053.88我们的51224.70.770.39.0052.77†16130图8. [275.3. 应用风格混合。由于我们的 3D 表示是从头开始使用StyleGAN2主干设计的，因此它继承了StyleGAN2潜在空间的充分研究属性，使我们能够进行语义图像操作。图8显示了我们的方法单视图三维重建。图9示出了我们学习的潜在空间用于单视图 3D 重建的应用。我们使用枢轴调谐反演（PTI）[57]来拟合测试图像。在FFHQ上学习的3D先验能够实现令人惊讶的高质量单视图几何恢复。对少镜头三维重建和新视点合成的进一步探索可能为今后的工作提供一条富有成效的途径6. 讨论局限性和今后的工作。虽然我们的形状比以前的3D感知GAN生成的形状有了显着的改进，但它们仍然可能包含伪影，并且缺乏更精细的细节，例如单个牙齿。为了进一步提高学习的形状的质量，我们可以按照[51，67，69]提出的方法灌输更强的几何先验或正则化辐射场我们的模型需要数据集的相机姿态分布的知识。尽管先前的工作已经提出了动态学习姿势分布[49]，但其他人已经注意到这种方法可能会出现分歧[18]，因此进一步探索这个方向将是姿势调节有助于生成器将外观与姿势分离，但仍然不能完全将两者分开。此外，可以用几何学解释的模糊性仍然没有得到解决。例如，通过创建凹眼窝，生成器创建了眼睛“跟随”相机的错觉我们使用StyleGAN 2，但其他2D主干可能会在我们的框架中获得成功。替代的主链，例如图9.我们使用PTI [57]来拟合目标图像并恢复底层的3D形状。目标（左）;重建图像（中）;重建形状（右）。从一个在FFHQ5122上训练的模型。如图像到图像转换或基于转换器的模型，可以在条件合成中实现新的应用。道德考量。单视图3D再现或样式混合应用程序可能被滥用于生成真实人物的编辑图像这种滥用图像合成技术的行为构成了社会威胁，我们不会宽恕利用我们的工作传播错误信息或玷污声誉的行为我们还认识到，由于我们处理的数据集的隐含偏见，我们的面部结果可能缺乏多样性结论通过将高效的显式-隐式神经表示与表达性姿态感知卷积生成器和双卷积器相结合这可以实现3D模型的快速原型化、更可控的图像合成以及用于从时间数据重建形状的新颖技术确认我们感谢David Luebke、Jan Kautz、Jaewoo Seo、Jonathan Granskog 、 Simon Yuen 、 Alex Evans 、 StanBirch-field、Alexander Bergman和Joy Hsu对草稿的反馈，感谢Alex Chan、Giap Nguyen和Trevor Chan对图表的帮助，感谢Colette Kress和Bryan Catan-zaro允许使用他们的照片。该项目得到了斯坦福大学HAI和三星GRO 的部分支持。 Koki Nagano 和 Eric Chan 得到了DARPA语义取证（SemaFor）合同（HR 0011 -20-3-0005）的部分支持本文件中包含的观点和结论是作者的观点和结论，不应被解释为代表美国官方政策，无论是明示还是暗示。政府的分发声明“A”（批准公开发布，无限制分发）。16131引用[1] Matan Atzmon和Yaron Lipman。SAL：从原始数据中学习形状的符号不可知论。IEEE计算机视觉和模式识别会议（CVPR），2020。2[2] 乔纳森·T. Barron，Ben Mildenhall，Matthew Tancik，Peter Hedman ， Ricardo Martin-Brualla ， and Pratul P.Srinivasan.Mip-nerf：抗混叠神经辐射场的多尺度表示。ICCV，2021。三、四[3] Rohan Chabra ， Jan Eric Lenssen ， Eddy Ilg ， TannerSchmidt，Julian Straub，Steven Lovegrove，and RichardNewcombe.深度局部形状：学习局部SDF先验以进行详细的3D重建。欧洲计算机视觉会议（ECCV），2020年。2[4] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein.pi-GAN：用于3D感知图像合成的周期性隐式生成对抗网络IEEE计算机视觉和模式识别会议（CVPR），2021。一二三五七[5] Yinbo Chen，Sifei Liu，and Xiaolong Wang.用局部隐式图像函数学习连续图像表示IEEE计算机视觉和模式识别会议（CVPR），2021。2[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议（CVPR），2019。2[7] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE计算机视觉和模式识别会议论文集，2020年。6[8] Thomas Davies ， Derek Nowrouzezahrai ，和 AlecJacobson.作为紧凑形状表示的过拟合神经网络。arXiv预印本arXiv：2009.09808，2020。2[9] Jia Guo ， Xue Niannan ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失。在CVPR，2019年。7[10] Yu Deng，Jiaolong Yang，Sicheng Xu，Dong Chen，Yunde Jia，and Xin Tong.基于弱监督学习的精确3D人脸重建：从单张图像到图像集。在IEEE计算机视觉和模式识别研讨会，2019年。四、六、七[11] 放大图片创作者：Robert W.Taylor和Joshua M.苏斯金利用局部条件辐射场的无约束场景生成。arXiv预印本arXiv：2104.00670，2021。2[12] 保罗·埃克曼和华莱士·弗里森。面部动作编码系统：一种面部运动测量技术。咨询心理学家出版社，1978年。7[13] SM Ali Eslami ， Danilo Jimenez Rezelka ， FredericBesse ，Fabio Viola，Ari S Morcos ，Marta Garnelo，Avraham Rud- erman，Andrei A Rusu，Ivo Danihelka，Karol Gregor，et al.神经场景表示和渲染。科学，2018。2[14] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的2D视图进行3D形状归纳在2017年的3D视觉国际第1、3条[15] Stephan J Garbin，Marek Kowalski，Matthew Johnson，Jamie Shotton，and Julien Valentin.FastNeRF：高保真神经网络以200fps的速度渲染arXiv预印本arXiv：2103.10380，2021。2[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。二、四[17] Amos Gropp、Lior Yariv、Niv Haim、Matan Atzmon和Yaron Lipman。用于学习形状的隐式几何正则化2020年，国际机器学习会议（ICML）2[18] Jiatao Gu ， Lingjie Liu ， Peng Wang ， and ChristianTheobalt. StyleNeRF：一个基于样式的3D感知生成器，用于高分辨率图像合成。 arXiv 预印本 arXiv ：2110.08985，2021。三、八[19] Zekun Hao，Arun Mallya，Serge Belongie，and Ming-Yu Liu.GANcraft：Minecraft世界的无监督3D神经渲染。 IEEEInternational Conference on ComputerVision（ICCV），2021年。3[20] 放大图片作者：Peter Hedman，Pratul P. Srinivasan，Ben Mildenhall，Jonathan T. Barron和Paul Debevec。烘烤实时视图合成的神经辐射场。IEEEInternationalConference on Computer Vision（ICCV），2021年。2[21] Philipp Henzler，Niloy J Mitra，and Tobias Ritschel.逃离柏拉图的洞穴：来自对抗渲染的 3D 形状。IEEEInternationalConferenceonComputerVision（ICCV），2019年。第1、3条[22] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，BernhardNessle r，GunterKlambaue r，andSeppHochreiter. 通过两个时间尺度更新规则训练的GAN收敛到纳什均衡。神经信息处理系统进展（NeurIPS），2017年。7[23] Chiyu Jiang，Avneesh Sud，Ameesh Makadia，JingweiHuang，Matthias Nießner，and Thomas Funkhouser.三维场景的局部隐式网格表示。IEEE计算机视觉和模式识别会议（CVPR），2020。2[24] Yue Jiang ， Dantong Ji ， Zhizhong Han ， and MatthiasZwicker.SDFDiff：用于3D形状优化的有符号距离场的可微分渲染。 IEEE 计算机视觉和模式识别会议（CVPR），2020。2[25] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的逐步增长，以提高质量，稳定性和变化。在国际会议上学习表示（ICLR），2018年。3[26] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式神经信息处理系统进展（NeurIPS），2020年。五、六、七[27] 泰罗·卡拉斯、米卡·艾塔拉、萨穆里·莱恩、埃尔·里克·奥嫩、珍妮·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无干扰生成对抗网络。神经信息处理系统进展（NeurIPS），2021年。一、二、五、六、八[28] Tero Karras Samuli Laine和Timo Aila 一个基于风格的生成器架构的生成对抗网-16132工程. 在IEEE计算机视觉和模式识别会议（CVPR），2019。一、三、六、八[29] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。IEEE计算机视觉和模式识别会议（CVPR），2020。一二三四七八[30] Petr Kellnhofer ， Lars Jebe ， Andrew Jones ， RyanSpicer，Kari Pulli和Gordon Wetzstein。神经光成像。IEEE计算机视觉和模式识别会议（CVPR），

下载后可阅读完整内容，剩余1页未读，立即下载