三维感知图像生成的生成辐射流流形方法

196 浏览量更新于2023-10-25 收藏 19.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

106730GRAM：用于三维感知图像生成的生成辐射流流形0Yu Deng * 1, 2 Jiaolong Yang 2 Jianfeng Xiang � 3, 2 Xin Tong 201清华大学2微软亚洲研究院3中国科学技术大学0{t-yudeng,jiaoyan,v-jxiang,xtong}@microsoft.com0图1.我们方法随机生成的图像样本（256×256分辨率）。在非结构化图像集合（本图中的FFHQ [25]和Cats[67]）上进行训练，我们的方法可以生成具有高质量（例如，细节）和强烈的三维一致性（例如，视角变化时的正确视差）的可控视图图像。（动画，更多结果和代码可以在项目页面上找到）0摘要三维感知图像生成建模旨在生成具有明确可控的相机姿态的三维一致图像。最近的研究通过在非结构化的二维图像上训练神经辐射场（NeRF）生成器取得了有希望的结果，但仍无法生成具有精细细节的高度逼真的图像。一个关键原因是体积表示学习的高内存和计算成本极大地限制了辐射积分过程中的点采样数量。不足的采样不仅限制了生成器处理细节的表达能力，还由于不稳定的蒙特卡罗采样引起的噪声影响了有效的GAN训练。我们提出了一种新方法，该方法在二维流形上调节点采样和辐射场学习，以一组在三维体积中学习到的隐式表面的形式体现。对于每条视线，我们计算射线与表面的交点，并累积网络生成的辐射。通过训练和渲染这样的辐射流流形，我们的生成器可以产生具有逼真细节和强烈的视觉三维一致性的高质量图像。0*YD和JX在MSRA实习期间完成的工作。1项目页面：https://yudeng.github.io/GRAM/01.引言0使用生成对抗网络（GAN）进行三维感知图像生成[17]近年来引起了广泛关注[10-12, 21, 31, 41, 42, 44,55]。给定一个非结构化的二维图像集合，GAN被训练以合成几何一致的新实例的多视角图像。特别是，使用体积渲染范式[15, 24]来合成输出图像的方法[10, 21,55]通过显式的基于物理的渲染过程展示了更加“严格”的三维一致性的令人印象深刻的结果。尽管这些方法展示了有希望的结果，但图像质量仍远远落后于传统的二维图像合成，对于这一点，最先进的GAN模型[25,26]可以生成高分辨率和逼真的图像。一个显著的障碍是训练体积表示所需的高计算和内存需求。使用神经辐射场（NeRF）[39]生成器的方法[10,55]可以大大减少基于体素的方法[21]的复杂性，但是沿着视线采样点近似的体积积分对于训练和推断来说仍然是昂贵的。这个问题在GAN中变得更加突出。Neural scene representation and rendering.For scenerepresentation and synthesis, a large volume of works [5,8, 14, 16, 23, 27, 29, 33, 40, 50, 59, 60, 62, 63, 71, 72] adoptneural networks as a new type of rendering tool due to theirability to synthesize high-quality images without requiringexcessive human labor. Among them, earlier works em-ploy convolutional networks for a variety of applicationssuch as novel view synthesis [20,38,58,64], image-to-imagetranslation [7,49,50,65], and controllable image manipula-tion [1,4,53,68].More recently, plenty of works [9, 37, 39, 45, 47, 54, 57,106740训练中需要渲染整个图像（而不是稀疏像素）。一种解决方法是在训练过程中渲染补丁[55]，但使用补丁鉴别器可能会导致较差的图像生成质量。使用图像鉴别器，最先进的方法[10]只能承受较小的图像分辨率，并且每条射线的采样点数量显著减少（通常只有几十个），与标准的NeRF[39]相比。然而，我们观察到，使用蒙特卡罗采样进行辐射积分会因样本不足而变得不稳定。相邻像素之间的积分颜色受到难以处理的噪声模式的影响，这对GAN训练有害（例如，见图11）。更糟糕的是，优化完整的辐射体积需要采样覆盖低频区域和高频细节，从而为后者提供更少的样本预算。因此，生成细节非常困难，因为它们可能会被采样遗漏。本文提出了一种名为生成辐射流流形（GRAM）的新方法。与以前的方法不同，我们将点采样和辐射场学习限制在二维流形上，体现为一组隐式表面。这些隐式表面在训练的对象类别中共享，与GAN训练一起进行联合学习，并在推断时固定。为了生成图像，我们沿着每条射线累积辐射，使用射线-表面交点作为点采样。我们的GRAM方法有几个优点。首先，通过将采样和辐射学习限制在一个减小的空间中，而不是在整个体积中的任何地方，它极大地促进了细节学习。网络可以轻松学习在表面流形上生成细小结构和纹理细节，这些结构保证在图像上有投影，并在GAN训练过程中接受监督。此外，我们生成的图像不受由于不充分的蒙特卡罗采样引起的噪声模式的影响，因为射线-表面交点是确定性计算的，并且在射线之间平滑变化。即使只有很少的点采样（即学习很少的表面），我们的方法仍然可以学习生成高质量的结果。作为副产品，推断时我们可以通过预提取带有其辐射的表面来实时渲染生成的实例。我们的隐式表面定义为轻量级MLP网络预测的标量场中的一组等值面。我们还使用类似于[10]的结构进行辐射生成的MLP。我们以可微分的方式提取射线-表面交点，并使用对抗学习的端到端方法进行整个框架的训练。除了我们的新颖辐射流流形设计之外，我们还探索了网络架构和训练方法的改进。特别是，我们修改了[10]的网络结构，受到[26]的启发，并删除了其中使用的渐进增长策略。渐进增长不仅增加了0引入了额外的超参数进行调整，但可能会导致图像质量下降，如传统的2D GAN[26]所示。我们还凭经验发现，通过去除它，我们的方法可以生成更好的结果。我们的方法在包括FFHQ [25]，Cats[67]和CARLA[13，55]在内的多个数据集上进行评估。我们展示了我们的三维感知生成方法明显优于现有技术。它可以合成具有几何一致的细节的高度逼真的图像，这在以前的结果中是看不到的。我们相信我们的方法在减小三维感知生成和传统二维图像生成之间的质量差距方面迈出了重要的一步。02. 相关工作059，66]利用隐式神经表示来模拟3D场景，使用多层感知机（MLP）。MLP的连续表示使它们在与传统基于CNN的方法相比，具有更好的3D级别的图像合成控制能力。在这些方法中，NeRF[3，39]在捕捉复杂的场景结构和合成具有细节的3D一致图像方面显示出有希望的结果。大多数基于NeRF的方法[32，35，46，48，52]专注于特定场景学习任务，其中网络被训练以适应某个特定场景的一组姿态图像。只有少数最近的方法[10，19，44，55]使用无约束的2D图像进行监督的图像生成任务。本文提出了一种新的生成模型，以提高图像生成质量，同时保持生成内容的3D一致性。0三维感知图像生成。给定不受控制的二维图像集合，三维感知图像生成方法旨在学习一个生成模型，可以明确控制生成内容的相机视点。为了实现这个目标，文献主要遵循两个方向。第一类方法[18，31，41，44，69]利用三维感知特征来表示场景，并在其上应用神经渲染器，通常是CNN，进行逼真的图像合成。例如，HoloGAN [41]和BlockGAN[42]学习对象的低分辨率体素特征，将其投影到二维图像平面，并应用类似StyleGAN[25]的CNN来生成更高分辨率的图像。Liao等人[31]首次生成real/fakeDDiscriminatorRadianceIntegrationθGenerator (RGBα)RealSamplesRayCastingxsMzxi�,�dΦ��{Si}106750真/假 D0鉴别器0辐射积分0θ0生成器0( RGBα )0真实样本0光线投射0x s M z0x i ，d Φ0�� {S i }0图2.GRAM方法概述。生成器G由流形预测器M和辐射生成器Φ组成。M预测定义Φ输入域的多个等值面。相机射线与等值面的交点被发送到Φ进行颜色和占据预测。然后通过合成沿射线的点的颜色来生成图像。0使用3D生成器生成3D基元，然后在投影特征上应用具有编码器-解码器结构的2D生成器。Giraffe [44]和GANcraft[19]使用3D体积渲染来生成用于后续图像生成的2D特征图。与我们同时进行的一些工作[18，69]专注于设计更好的渲染网络，以实现非常高分辨率的三维感知图像生成。然而，这些方法不可避免地存在学习黑盒渲染导致精确多视图一致性的问题。另一组工作[10，12，43，55，56，61]试图学习场景的直接三维表示，并在基于物理的渲染过程下合成图像，以实现更严格的3D一致性。[61]和[56]采用基于网格的表示，并通过光栅化生成图像。然而，它们不能很好地处理具有非兰伯特反射的复杂结构，如头发和毛发。最近的方法[10，12，43，55]使用NeRF表示来合成具有高3D一致性的图像。然而，体积表示学习的昂贵计算成本阻止了它们生成具有足够细节的图像。在这项工作中，我们提出了一种在二维流形上学习生成辐射场的新方法，并且我们通过更细的细节实现了更逼真的图像生成，明显优于以前的方法。03. 方法0给定一组真实图像，我们学习一个3D感知的图像生成器 G，它以随机噪声 z ∈ Rd � pz 和相机姿态 θ ∈ R3 � pθ作为输入，并输出在姿态 θ 下的合成实例的图像 I ：0G : (z, θ) ∈ Rd+3 → I ∈ RH×W×3. (1)0图2显示了 G 的整体结构，包括流形预测器 M和辐射生成器 Φ 。流形预测器 M定义了一个标量场，推导出一个0辐射生成的减少域，由多个隐式等值面组成（第3.1节）。给定潜在代码 z ，辐射生成器 Φ生成流形上点的占据和颜色（第3.2节）。通过沿每条视线积分流形点的颜色，生成图像（第3.3节）。整个方法在对抗学习框架中进行端到端训练（第3.4节）。训练完成后，GRAM可以从不同视角渲染出高质量且具有3D一致性的图像。03.1. 流形预测器0我们的流形预测器 M预测了用于点采样和辐射场学习的减少空间，该空间在所有生成的实例之间共享。我们将其实现为一个标量场函数，用于确定一组等值面。具体而言，M是一个轻量级的多层感知机（MLP），它以点 x作为输入并预测一个标量值 s ：0M : x ∈ R3 → s ∈ R. (2)0给定预测的标量场，我们获得 N 个等值面 {S i }，具有不同的水平值 { l i } ：0S i = { x |M(x) = l i }. (3)0这些水平值是预定义的常数值。请注意，尽管标量场在要渲染的场景的三维体积中定义，但标量值本身没有物理意义，水平值 { l i }可以被轻松选择。我们将辐射生成器的输入域定义为这些表面上的点。设 { x i } 为相机射线 r = { o + t d , t ∈ [ t n , tf ] } 与 {S i } 的 N 个交点：0{ x i } = { x | x = o + t d , x ∈ {S i } , t ∈ [ t n , t f ] }, (4)0其中 o 和 d 是射线的起点和方向，t n 和 t f是近平面和远平面的参数。我们只将 { x i } 传递给辐射生成器Φ 进行辐射生成和最终渲染，如图2所示。由于没有先验知识，oM(x)�=�lixa�xi� xbΦ : (z, x, d) ∈ Rd+6 → (c, α) ∈ R4.(6)to RGBto RGBto RGBMappingNetworkwFiLM SIRENFiLM SIRENFiLM SIREN…FiLM SIRENFiLM SIREN……αRGB…to αto αto αto αto RGBxzdC(r) =N=N(7)106760图3.我们的可微射线-等值面交点计算，通过在一个小区间的两个端点之间进行线性插值实现。0为了获得最佳等值面的知识，我们在生成对抗训练过程中同时学习它们。使用GAN训练流形预测器 M需要一种可微的射线-表面交点计算方案，以便反向传播对抗损失。为此，我们采用Niemeyer等人的策略来计算交点。如图3所示，我们沿近平面和远平面之间的射线均匀采样点，并将它们输入到 M 中以获得它们的值 s。然后我们搜索第一个区间，使得某个标量水平 l i落在其中，并使用线性插值计算交点，该插值在区间的两个端点之间进行：0x i = l i -0s b - s a x b + s b0s b - s a x a . (5)0我们将 M实现为一个轻量级的多层感知机（MLP），具有3个隐藏层，因此可以采样密集点（我们的实现中有64个点）使用方程（5）准确地获取交点。M的随机初始化可能会导致高度不规则的等值面，这对训练过程是不利的。在这项工作中，我们采用了Atzmon等人提出的几何初始化策略，初始等值面接近于球体。03.2. 辐射度生成器0给定一个潜在编码 z ，我们的辐射度生成器 Φ为位于学习流形上的点生成辐射度。具体而言， Φ由一个多层感知机参数化，该多层感知机为点 x ∈ R 3生成占据率 α 和颜色 c = ( R, G, B ) ，其中视线方向为d ：0由于我们的方法中辐射度是定义在表面流形上而不是整个体积上的，因此我们生成的是占据率 α 而不是体积密度 σ，这与NeRF中的方法相同，参考文献[46, 70]。 Φ的网络结构是根据FiLMSIREN的骨干结构[10]进行调整的，如图4所示。受到StyleGAN2的启发[26]，我们在不同层级的输出层之间使用跳跃连接，而不仅仅在最后一层预测占据率和颜色，这是以前的方法[10,39]所做的。通过这种方式，不同层次的细节现在由不同的输出层预测并组合在一起形成最终结果。这种改变不仅消除了以前方法中使用的渐进增长策略的必要性，而且在实验中也产生了更好的结果。0到 RGB0到 RGB0到 RGB 映射网络0到 RGB0图4. 辐射度生成器 Φ 的网络结构。03.3. 流形渲染0对于相机射线 r ，它在表面流形上与点 { x i } 相交，按照Eq. ( 4 ) 从近到远排序，渲染方程可以写成[46, 70]：0i =1 T ( x i ) α ( x i ) c ( xi , d )0i =10j

下载后可阅读完整内容，剩余1页未读，立即下载