基于位姿优化的3DGAN反演

145 浏览量更新于2023-10-15 收藏 3.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于位姿优化的3D GAN反演Jaehoon Ko*Kyusun Cho*Daewon Choi Kwangrok Ryoo Seungryong Kim<$ KoreaUniversity，韩国{kjh9604，kyustorm7，daeone0920，kwangrok21，seungryong kim}@ korea.ac.kr摘要随着基于NeRF的3D感知GAN质量的最新进展，将图像投影到这些3D感知GAN的潜在空间中比2D GAN反演具有天然优势：它不仅允许投影图像的多视图一致编辑，而且当仅给出单个图像时，它还允许3D重建和新颖的视图合成。然而，显式视点控制是3D GAN反演过程中的主要障碍，因为摄像机姿态和潜在代码必须同时优化以重建给定图像。大多数探索3D感知GAN潜在空间的工作都依赖于地面实况相机视点或可变形3D模型，从而限制了它们的适用性。在这项工作中，我们引入了一个可推广的3D GAN反演方法，同时推断相机的观点和潜在的代码，使多视图一致的语义图像编辑。我们方法的关键是利用预先训练的估计器进行更好的初始化，并利用从NeRF参数计算的像素深度来更好地重建给定图像。我们进行广泛的实验对图像重建和编辑进行定量和定性的研究，并进一步将我们的结果与基于2D GAN的编辑进行比较，以证明利用3D GAN潜在空间的优势。其他结果和可视化可在3dgan-inversion.github.io/上获得。1. 介绍最近的生成对抗网络（GAN）[14]架构在合成具有各种属性的无条件图像方面表现出令人难以置信的结果。特别是，StyleGAN[23，24]在高分辨率图像上实现了逼真的视觉质量此外，一些工作已经探索了潜在空间W，并发现了它的解纠缠特性，这使得能够控制某些*同等贡献。†通讯作者。图像特征和语义属性，例如性别或头发颜色。然而，它的现实世界的应用是唯一可能的GAN反演通过桥接生成的图像空间与真实的图像域。GAN反演将真实图像反演回预训练GAN的潜在空间，将模型的操作能力扩展到真实图像。然而，通过将图像投影到2D GAN的潜在空间来编辑图像，使得该任务容易受到2D GAN的相同问题的影响。由于2D GAN的训练方法不考虑对象的底层几何形状，因此它们对生成图像的几何方面提供有限的控制因此，使用2D GAN的潜在空间操纵图像视点总是遇到多视图不一致的问题。另一方面，3D感知图像合成通过将显式3D表示集成到生成器架构中并实现对相机姿态的显式控制来随着神经辐射场（NeRF）[31]在新视图合成中的成功，最近的3D感知生成模型采用了基于NeRF的生成器，该生成器根据样本噪声或解纠缠的外观和形状代码来调节神经表示，以便表示不同的3D场景或对象。最近的尝试通过采用基于2D CNN的上采样器或有效的点采样策略来解决3D GAN和2D GAN之间的质量差距，这使得能够生成与2D GAN相当的高分辨率和逼真图像将2D图像投影到这些3D GAN的学习流形上，它不仅可以从获取的潜码生成多视图此外，最近的3D GAN采用了基于样式的生成器模块来学习3D几何形状和外观的分解表示。类似于2D GAN的基于潜在的图像编辑任务，通过操纵基于样式的3D感知生成器的潜在代码，我们可以操纵重建的3D模型的语义属性。尽管它很有用，296729683D GAN反演由于3D感知GAN最初需要随机矢量和相机姿态来生成图像，因此重新获取给定图像的潜在代码的反演过程需要图像的相机姿态，而现实图像通常缺乏这些信息。大多数现有的方法需要地面实况摄像机信息，或者必须依赖于来自3D变形模型的现成几何形状和摄像机姿态，这将它们的应用限制在单个类别。在这项工作中，我们提出了一种3D-GAN反演方法，该方法同时迭代优化给定图像的潜在代码和3D相机姿态。我们建立在最近提出的2D GAN反演方法的基础上，该方法首先将给定的图像反演为枢轴代码，然后基于固定的枢轴代码（即，枢轴调谐[38]），这在重建和可编辑性方面都表现出突出的结果。类似地，我们同时获取潜在代码和相机姿态，枢轴和微调预训练的3D-GAN，以将发电机歧管更改为枢轴。请注意，这是不平凡的，因为形状和相机方向在优化期间相互妥协。认识到潜在代码和相机参数之间的相互依赖性，我们使用一种基于学习和优化的混合方法，首先使用编码器来推断相机姿态和潜在代码的粗略估计，并进一步将其细化到最佳目的地。从我们的实验中可以看出，为优化枢轴提供一个好的初始点，更不会落入局部最小值。为了进一步加强相机视点的接近度，我们引入了利用传统的基于深度的图像扭曲的正则化损失[51]。我们证明了我们的方法可以在保持多视图一致性的同时实现高质量的重建和编辑，并表明我们的结果适用于多种不同的类别。虽然我们在EG3D [7]上评估了我们提出的方法， EG3D 是目前最先进的 3D 感知GAN，但我们的方法也与利用NeRF进行3D表示的其他3D感知GAN相关。2. 相关工作生成式3D感知图像合成.3D感知GAN旨在从2D图像集合中生成3D感知图像。第一种方法利用基于体素的表示[32]，由于其3D表示的内存效率低下，因此在图像生成中缺乏精细细节。从[39]开始，一些作品通过采用基于NeRF的表示实现了更好的质量，尽管由于体积渲染的昂贵计算成本，它们难以生成高分辨率图像。一些方法提出了一种有效的点采样策略[39，11，46]，而其他方法则采用2D CNN层来有效地对渲染的体积进行上采样特征图[34，15，50]。最近，其他方法提出了混合表示，以减少MLP层的计算负担，同时实现高分辨率图像生成[7，47，40，42]。特别是，我们的工作是在EG3D[7]上实现的，它在保持3D一致性的同时实现了最先进的图像质量。2D GAN反演。在现实世界的图像上应用基于潜像的图像编辑的第一步是将图像投影到预先训练的GAN的潜空间。现有的2D GAN反演方法可以分为基于优化的方法、基于学习的方法和混合方法。优化方法[1，9]直接优化单个图像的潜在代码。该方法重建质量高，但推理速度慢。与逐图像优化不同，基于学习的方法[37，43，3]使用学习的编码器来投影图像。这些方法推理时间短，但重建精度不混合方法是上述两种方法的适当混合。[16，53]使用编码器和直接优化的合作学习策略。PTI[38]在获得初始潜在代码后微调每个图像的StyleGAN参数，解决重建和可编辑性之间的权衡[43]3D GANs反演。3D GAN反演方法与2D GAN反演具有相同的目标，但额外需要外部相机参数。在3D GAN中解决逆问题的现有方法很少提出自己的有效训练解决方案。[10]提出了正则化损失项，以避免通过利用流行的CLIP[36]模型生成不切实际的几何形状。[27]可以对单个源图像进行动画处理，以类似于目标视频帧，但仅限于人脸，因为它需要现成的模型[13]来提取表情，姿势和形状。[6]提出了一种用于训练编码器的联合蒸馏策略，这对于包含映射函数的3D GAN来说是不够的。图像操作。图像处理可以通过改变从GAN反演得到的潜在代码来进行。许多作品已经在预训练的GAN的潜在空间中检查了语义方向，然后将其用于编辑。虽然一些作品[41，2]以现成的属性分类器或注释图像预测的语义标签的形式使用监督因此，其他研究人员采用无监督方法[17]或基于对比学习的方法[48，35]来寻找有意义的方向。在这项工作中，我们利用GANSpace[17]，它在潜在空间中执行主成分分析，以展示基于潜在的3D形状操作。2969E3. 预赛2D GANs反演和参数调整。给定由权重θ参数化的预训练的2D生成器G2D（·;θ），2D GANs反演旨在找到可以传递给生成器以重建给定的图像x：此外，每射线深度d（r）也可以近似为：ΣMd（r）= T i（1 − exp（−σ i δ i））t i.（五）i=1虽然NeRF在单个场景的多个姿势图像上训练单个MLP，但基于NeRF的生成模型[15，7]w= argminL（x，G2DW（w;θ）），（1）MLP通常以潜在风格代码w为条件，该代码表示从未设定图像集合。这些基于样式的3D GAN已经被其中，损失函数L（·，·）通常被定义为像素。给定图像x和重建图像G2D（w; θ）之间的明智重建损失或感知损失[49]。为了提高性能，其他一些方法旨在用参数θE优化编码器E（x;θE），该参数θE将图像映射到它们的潜在表示，使得：θE= argmin L（x，G2D（E（x; θE）;θ））.（二）通常用于3D感知图像生成[15，7，50]，并且我们用给定的潜在代码w表示该生成器G3D（w，π;θ），其可以形式上表示为条件函数：{c，d}=G3D（w，π;θ），其中c是渲染的RGB图像，d是深度图。4. 方法θE一些最近的方法[53，5，52]采用混合方法，利用具有学习参数θE的编码潜在表示θE（x;θE）作为（1）的后续优化过程的初始化，从而实现更快和更准确的重建。此外，最近已经很好地研究了现有的GANs反演方法[43，54，2]在重建和可编辑性之间的权衡上的斗争。为了克服这个问题，[38]提出了一个关键的调整阶段，在找到最佳的潜在表示之后，在称为主元代码的情况下，生成器权重θ被微调，使得主元代码可以更准确地重构给定图像，同时保持其可编辑性：θθ= argminL（x，G2D（wθ; θ））.（三）θ通过使用主元码w和调整后的权值θ，最终的重建结果为y= G2D（w; θ）.NeRF和3D感知GAN。神经辐射场（NeRF）[31]通过采用完全连接的网络来表示将位置和方向（x，d）映射到颜色的隐式辐射场，密度（c，σ）。具体地，随着每个投影光线r对于给定像素，M个点被采样为{t}M，并且其中4.1. 概述我们的目标，我们称之为3D GAN反演，是将真实照片投影到GAN模型的学习流形中。然而，对于给定的图像x，找到w和π的精确匹配是一项重要的任务，因为人们很难如果另一个非常不准确，则进行优化。为了克服这一点，我们遵循[53，5，52]，首先构造两个编码器，其通过w=E（x;θE）和π=P（x;θP）（第二节）4.2），并进一步解决优化问题（Sec. 4.3）。特别地，我们引入损失函数（Sec.4.3），并进一步讨论使用这些损失函数的效果和目的4.4）。我们的方法的概述如图所示。1.一、4.2. 潜在编码器E和姿态估计P为了更好地进行3D GANs反演，应该考虑使用经过良好训练的估计器进行初始化[19，44]，但这是一种限于单一类别的解决方案。为了获得类别不可知估计，我们首先生成一个伪数据集及其注释对{（wps，πps），xps}来预训练我们的编码器，其中xps=G3D（wps，πps;θ）。由于3D感知GAN的生成能力，我们可以生成几乎无限数量的对在发电机的歧管内。更具体地，对于给定的潜在编码器E，令△w=E（xps;θE）表示编码器r的输出，其中ii=1每个采样点的估计颜色和密度（ci，σi）点，每条射线的RGB值c（r）可以通过体积渲染计算为：ΣMc（r）= Ti（1−exp（−σi δi））ci，（4）i=12970w∈R1×512。遵循[43]的训练策略，我们使用生成器G3D及其配对的G3 D来指导编码器找到x ps的最佳复制w<$+△w，其中w<$是G 3D的平均嵌入。我们提供了更详细的实施程序，训练附录中的每个网络。其中Ti=exp.Σ-i−1σjδjΣ，δi是距离4.3. 优化在预训练步骤之后，给定图像x，在相邻采样点之间，使得δi=ti+1−ti。首先初始化可学习的特征向量和相机姿态j=129713D3D和枢转调谐步骤。如（6）中所述，损失用于训练潜在代码w和相机姿态π。额外的均方误差仅在关键的调整步骤中给出，这通常用于正则化LPIPS对对抗性示例的敏感性。从形式上讲，我们的定义如下：Llpips=Llpips（x，Gc （w，π，n;θ）），（8）LL2=LL2（x，Gc（w，π，n; θ））.（九）：e4e编码器姿态估计器20：摄图1：总体架构。该图显示了我们使用基于深度的扭曲来同时优化潜在代码和相机姿势的方法4.3.从训练的估计为 winit=w<$+E （ x;θE ）和 πinit=P（x;θP）。随后，它们被进一步细化以进行更准确的重建。在这个阶段，我们重新制定将（1）中的优化步骤转换为3D GAN反演任务，以便从每个初始化{winit，πinit}开始优化潜在代码和相机视点，使得：w∈，π∈，n∈=argminLopt（x，G3D（w，π，n;θ）），（6）W，π，n其中，n表示生成器的每层噪声输入，Lopt包含优化步骤中采用的损失函数。注意，遵循[38]中的潜在代码优化方法，我们使用提供最佳可编辑性的本机潜在空间W此外，在自动调整步骤中，使用优化的潜在代码w**和优化的相机姿态π**，我们通过用以下公式（3）稍微调整G 3D来增强生成器θ=argminLpt（x，G3D（w∈，π∈，n∈;θ））.（七）θ在这个优化中，在[38]之后，我们解冻生成器并调整它以重建输入图像x，给定w和π，它们都是常数。我们还在[38]中实现了相同的局部正则化。同样，Lpt表示关键调谐步骤上的损失函数的组合。4.4. 损失函数LPIPS和MSE损失。为了重建给定的图像x，我们采用常用的LPIPS损失进行优化，3D GAN生成的三平面目标Canonical重投影反向传播29723D基于深度的翘曲损失。与[51]类似，目标图像上的每个点都可以扭曲到其他视点。我们认为W潜在代码的形状表示给定一个典型的视点πcan，我们生成一对图像和深度图{ycan ， Dcan}=G3D （ w ，πcan;θ）. 令ycan（r）表示像素γ在图像中的齐次坐标使用（4）生成的正则vie wπcan的图像。同样，对于每个ycan（r），我们通过使用（5）获得深度值Dcan（r）。然后，我们可以通过下式获得ycan（r）y<$x（r）<$Kπ<$can→xDcan（r）K−1ycan（r），（10）其中，K是摄像机内禀矩阵，πcan→x是从规范到源的预测相对摄像机姿态由于每个像素的x∈ r（r）都是连续值，因此根据[51]，我们利用[21]中提出的可微双线性采样机制来获得投影的2D坐标。为了简化标记，从生成的图像ycann=Gc（w，πcann;θ ），我们将投影图像表示为ycann→x=ycann<$proj （ Dcann ， πcann→x ， K ）<$p，其中proj（·）是使用深度图Dcan得到的2D图像，并且表示双线性采样运算符，并定义objectiv e函数来计算πcan→x：Lwarp=Llpips（x， ycanproj （Dcan ， π ，K ）n），（11）再次使用LPIPS损失来比较两个图像。深度正则化损失。神经辐射场在只有一个输入视图时表现不佳。虽然调整2D GAN的参数似乎保留了其潜在的编辑功能，但我们发现NeRF参数要微妙得多，并且将它们调整到单个视图会在达到所需的表现力之前降低3D结构，从而导致新视图的低质量渲染。为了缓解这个问题，我们利用了[33]中使用的几何正则化，并鼓励生成的深度平滑，即使从未观察到的角度来看。正则化是基于真实世界的2973SG2 SG2W+PTI SG2<$SG2<$W+ PTI<$图2：域外样本的非平面视图合成的比较。给出了优化的相机姿态和潜在的代码w 通过每种方法获得，我们明确控制生成的面部场景的视点，通过不同的π，不同的相机视角。我们比较我们的三维GAN反演方法，标准的二维GAN反演方法，通过应用对潜在代码和摄像机姿态进行基于梯度的优化我们还仅在具有给定地面实况相机姿态的潜在代码上利用相同的方法，并显示标记为†的结果。实际几何形状或深度往往是平滑的，并且更可能是平坦的，并且公式化为使得每个像素的深度不应与相邻像素的深度相差太大。对于每个像素r，我们使用深度正则化损失来强制生成的深度D（r）H−1，W− 1。5. 实验结果5.1. 实验设置数据集。我们对两种3D对象类型进行了实验，人脸和猫脸，因为它们是GAN反演中最受欢迎的两个任务。对于所有实验，我们使用预训练的EG3D[7]生成器。人类LDR（D）=i，j=1（D（ri，j）−D（ri+1，j））2Σ2（十二）面，我们使用在裁剪的FFHQ数据集[23]，我们用CelebA-HQ验证数据集[22，29]评估我们的方法。我们还使用预先训练+（（D（ri，j）−D（ri，j+1）），其中H和W是所生成的深度图的高度和宽度，并且指示穿过像素的光线（i，j）。请注意，虽然[33]通过比较重叠的补丁来实现几何正则化，但我们利用完整生成的深度图D来实现。整体损失函数。最终，我们用生成的图像和深度定义整个优化步骤{y，D}=G3D（w，π，n;θ）：在 AFHQ 数据集 [8] 上对猫脸进行权重，并在AnimalFace10数据集[28]上进行评估。基线。由于目前的作品[10，27]没有提供公共源代码用于复制和比较他们的工作，我们主要将我们的方法与流行的2D GAN反演方法进行比较：[25]提出的直接优化方案将真实图像反转为W，表示为SG2，类似的方法但扩展到W+空间[1]，表示为SG2 W+，以及[38]的PTI方法。我们Lopt=L利皮普斯（x，y）（十三）采用这些方法来处理需要姿势的3D，感知GAN，或者通过提供地面实况摄像机，+λwarpLwarp（x，ycan，D）+λnLn（n），并且关键调谐过程由以下定义Lpt= Llpips（x，y）+λL2LL2（x，y）+λDRLDR（D），2974（十四）在优化过程中或使用相同的梯度下降摄像机姿态优化方法。5.2. 重建定量评价为定量评价，其中Ln表示提出在[25]中，其防止噪声包含目标图像的关键信号。我们重建了2,000张CelebA-HQ并利用2D GAN反演文献中使用的相同标准度量：使用MSE的逐像素L2距离，2975SG2 SG2W+PTI SG2<$SG2<$W+ PTI<$图3：域外样本的2D和3D重建。我们比较了每种方法的图像重建和3D重建能力，其中3D形状是使用行进立方体从密度场提取的等值面。标记有†的方法使用地面实况相机姿势。方法MSE↓LPIPS↓MS-SSIM↑IDSim.↑FID↓SG20.02770.31090.58890.095736.0291SG2W+0.01630.23980.68330.290632.3971PTI0.00360.07890.82210.667132.7366SG2†0.02320.28980.61510.112534.7612SG2†W+0.01170.20290.73490.397231.1732PTI†0.00330.07220.83090.673728.5911我们0.00350.07770.82800.701330.1192表1：CelebA-HQ测试集上测量的定性重建结果。最佳和亚军值分别用粗体和下划线标记。标记有†的方法使用地面实况相机姿势。使用LPIPS [49]的感知相似性度量和使用MS-SSIM [45]的结构相似性度量。此外，对于面部重建，我们遵循最近的 2D GAN 反演工作 [12 ， 4] ，并使用CurricularFace [20]的预训练面部识别网络来测量身份相似性。此外，我们测量了我们的方法的3D重建能力，因为3D GAN反演相对于2D GAN反演的明显优势在于，前者允许在给定单个输入图像的情况下进行新颖的视图合成。换句话说，通过成功的反演过程获得的潜码应该能够产生逼真且似真的图像在随机视图中。为了测量图像质量，我们计算原始图像和从随机采样的视点生成的 2 ， 000 个图像之间的 FrechetInception Distance（FID）[18]结果示于表1中。可以看出，与对相机姿态使用相同的基于梯度的优化的2D GAN反演方法相比，使用基于深度的扭曲方法更好地将相机视点引导到期望的角度，示出了更高的重建度量。此外，虽然设计的方法为高表现力等作为 SG2W+和PTI实现可比的逐像素重建能力，我们的方法占了上风，当它来到3D重建，产生更高质量的图像输入图4：AnimalFace10数据集上的重建和新视图合成。我们的方法不仅限于人脸，可以应用到其他领域。对于同一张脸的新观点。即使与使用地面实况相机姿态的反演方法相比，我们的方法在没有外部数据的情况下也能获得有竞争力的结果，并可靠地预测相机姿态，每个指标的重建分数相似。定性评价。我们将重建和新视图合成的结果可视化在图中。二、虽然我们的方法在生成图像方面表现得更好，在新颖的观点，我们的方法也取得了可比的结果，甚至使用地面实况相机姿态的方法。我们不仅提供了反转图像的视觉质量的定性比较，而且还使用MarchingCubes算法[30]将给定图像的重建3D形状显示为网格，如图所示2. 与2D GAN反演不同，我们还通过比较不同相机姿态的渲染视图来比较每个人脸的3D几何质量。此外，我们评估重建和新的视图合成的猫脸图。4虽然SG2W+和PTI在同一视点下显示出合理的重建结果，但当我们操纵3D模型2976SG2 SG2W+ PTI SG2<$SG2<$W+PTI<$图5：编辑质量比较。我们对每种方法获得的潜在代码和相机姿态进行各种编辑[17]。受益于3D感知GAN的功能，我们还比较了从编辑的潜在代码生成的编辑的3D形状。我们的方法实现了逼真和准确的操作，也更能够保持原始输入的身份和几何形状。标记有†的方法使用地面实况相机姿势。对于不同的视点，渲染是不完整的，并且显示具有退化的3D一致性的视觉伪影。相比之下，我们可以看到，通过使用我们的方法，我们可以合成新的视图，其质量与需要地面实况视点的方法相当5.3. 编辑质量我们采用GANSpace[17]方法来定量评估所获取的潜在代码的操作能力。在图5中，我们将基于延迟的编辑结果与直接用于3D感知GAN的2D GAN反演方法进行了比较。与2D GAN一致，在W+空间中发现的潜在代码产生更准确的重建，但无法执行重要的编辑，而潜在代码在W空间中显示出低于标准重建能力。使用枢轴调谐[38]在保持W空间的操纵能力的同时保持了同一性通过我们更可靠的姿态估计和正则化几何来加强[38]我们还在补充材料中提供了定量评价。5.4. 与2D GAN的我们通过比较使用EG3D和潜在空间的显式相机姿态控制的视点操作来证明3D感知GAN反演的有效性和意义。尽管[26]指出3D GAN缺乏操纵语义图6：2D和3D GAN的同步属性编辑和视点移动比较。我们比较了在StyleGAN2 [25]上通过PTI [38]获取的潜在代码和通过我们的方法在EG3D [7]上获取的潜在代码上同时应用属性编辑（微笑）和视点插值的编辑结果。基于NeRF的生成架构的最新进展已经实现了与2DGAN相似的表达能力和可编辑性水平由于最近的3D感知GAN（如EG3D）可以生成具有可控语义属性的高保真图像，同时保持可靠的几何结构，因此使用3DGAN进行图像编辑可以提供一致的多视图结果，这更有用。在图6中，我们比较了2D和3D感知GAN的同时操作能力。虽然2D GAN的姿势操作仅允许通过编辑幅度进行隐式控制，但3D感知GAN可以实现显式控制。+微笑−年龄3D2D2977EPMSE↓LPIPS ↓MS-SSIM ↑内径模拟值↑θφ输入0 iter 150 iter 300 iter调谐E...P...EP...&输入λ DR= 0λ DR= 1λDR= 50L2：0.1233L2：0.1255L2：0.1257图7：初始化的重要性。我们选择性地采用潜在编码器E和姿态估计器P，并比较它们的优化过程。✗ ✓0.00360.07820.82630.69583.192.90✓✗0.00380.07900.82190.68105.735.93✓✓0.00350.07770.82800.70133.162.70表第二章：重要性的初始化。我们说明使用预先培训的网络作为优化的初始化，通过比较从网络输出开始的优化结果（RNN）和从随机初始化开始的优化结果（RNN）。观点的控制。此外，2D GAN中的编辑图像不是视图一致的，并且较大的编辑因素会导致身份和编辑质量的不期望的转换。相比之下，3D GAN的姿势操纵总是多视图一致的，因此即使对于编辑的场景也会产生一致的姿势插值。5.5. 消融研究初始化的重要性。我们通过比较我们的全混合方法和单编码器方法来测试我们设计的有效性，并在图中显示结果 7和表2。我们表明，使用由学习的编码器E和基于梯度的优化组成的混合方法是获得潜在代码的理想方法。类似地，利用姿态估计器P用于姿态细化的初始化也缩短了优化时间。几何正则化的有效性。我们通过改变权重λ DR来研究深度平滑正则化在关键调整步骤中的作用。我们在图中显示了微调生成器后生成的几何形状及其像素MSE值。8. 虽然单独使用重建损失导致更好的定量结果，但新视图仍然包含浮动伪影，并且生成的几何结构具有孔和裂缝。相比之下，包括深度平滑正则化，其权重为λ DR=1在生产过程中，图8：在关键调整阶段，深度平滑度损失的不同权重的比较。尽管排除深度平滑度显示了最佳的重建结果（第一行），但重建的几何结构是失真的（第三行），并为新视图提供了畸形的渲染（第二行）。最好用zoom观看。精确的场景几何。应该注意的是，深度平滑度的高权重会模糊生成的几何体的精细片段，例如头发。6. 结论我们提出了一种几何方法来推断单个给定图像的3DGAN的潜在表示和相机姿态。该方法具有广泛的应用前景到3D感知生成器，通过利用混合优化方法与手动构建的伪数据集训练的附加编码器。从本质上讲，这个预训练会话有助于编码器获得3D GAN的表示能力和几何感知，从而找到稳定的优化路径。此外，我们利用几个损失函数，并表现出显着改善的重建和图像保真度的定量和定性的结果应该注意的是，虽然以前的方法使用2D GAN进行编辑，但我们的工作表明可以使用3D GAN作为编辑工具。我们希望我们的方法将鼓励进一步的研究三维GAN反演，这将进一步利用单视图三维重建和语义属性编辑。鸣谢。这研究是由韩国MSIT（No.2021-0-00155，基于情境和活动分析的安全育儿解决方案，No.2021-0-02068，人工智能创新中心）和韩国国家研究基金会（NRF-2021 R1 C1 C1006897）支持。2978引用[1] Rameen Abdal ， Yipeng Qin ， and Peter Wonka.Image2stylegan ：如何将图像嵌入到潜空间中？在ICCV，2019年。[2] 放大图片作者：Rameen Abdal，Peihao Zhu，Niloy J.米特拉和彼得·旺卡。Styleflow：使用条件连续规范化流对stylegan生成的图像进行属性条件化探索。ACM事务处理图表，2021年。[3] Yuval Alaluf ， Or Patashnik ， and Daniel Cohen-Or.Restyle：一个基于残差的stylegan编码器，通过迭代细化。IEEE/CVF计算机视觉国际会议论文集，第6711-6720页，2021年[4] Yuval Alaluf，Omer Tov，Ron Mokady，Rinon Gal，and Amit Bermano. Hyperstyle：使用超网络进行风格反转，用于真实图像编辑。在CVPR，2022年。[5] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。看看一个帮派不能创造什么。在ICCV，2019年。[6] Shengqu Cai，Anton Obukhov，Dengxin Dai，and LucVan Gool. Pix 2nerf：用于单个图像到神经辐射场转换的无监督条件p-gan。在CVPR，2022年。[7] 埃里克河Chan，Connor Z.作者：Matthew A. Chan，Koki Nagano，Boxiao Pan，Shalini De Mello，OrazioGallo ， Leonidas Guibas ， Jonathan Tremblay ， SamehKhamis，Tero Karras，and Gordon Wetzstein.高效的几何感知3D生成对抗网络。在CVPR，2022年。[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。[9] Antonia Creswell和Anil Anthony Bharath。反相生成对抗网络的生成器IEEE Transactions on Neural Networksand Learning Systems，2019。[10] Giannis Daras ， Wen-Sheng Chu ， Abhishek Kumar ，Dmitry Lagun，and Alexandros G Dimakis.用nerfgans解决逆问题。arXiv预印本arXiv：2112.09061，2021。[11] 邓宇，杨蛟龙，向剑锋，童欣。Gram：用于3d感知图像生成的生成辐射流形。在CVPR，2022年。[12] 谭丁英俊陈阮阮平孙华. Hyperinverter：用超网络改进Stylegan反演。在CVPR，2022年。[13] 放大图片作者：Yao Feng，Haiwen Feng，Michael J.布莱克和蒂莫·博尔卡特。从野外图像中学习可动画化的详细3D人脸模型。SIGGRAPH，2021.[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014.[15] Jiatao Gu ， Lingjie Liu ， Peng Wang ， and ChristianTheobalt. Stylenerf：一个基于样式的3D感知生成器，用于高分辨率图像合成。在ICLR，2022年。[16] Shanyan Guan 、Ying Tai、Bingbing Ni、Feida Zhu、Feiyue Huang和Xiaokang Yang。协作学习更快的风格嵌入。arXiv预印本arXiv：2007.01758，2020。[17] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：发现可解释的Gan控件。在NeurIPS，2020年。[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。[19] Heng-Wei Hsu，Tung-Yu Wu，Sheng Wan，Wing HungWong，and Chen-Yi Lee. Quatnet：基于四元数的头部姿态估计，具有多元回归损失。IEEE Transactions onMultimedia，2019。[20] Yuge Huang，Yuhan Wang，Ying Tai，Xiaoming Liu，Pengcheng Shen ， Shaoxin Li ， Jilin Li ， and FeiyueHuang.课程内容：深度人脸识别的自适应课程学习损失。在CVPR，2020年。[21] Max Jaderberg，Karen Simonyan，Andrew Zisserman，and koraykavukcuoglu. 空间 Transformer 网络。InNeurIPS，2015.[22] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。[24] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量。在CVPR，2020年。[25] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。在CVPR，2020年。[26] Jeong-gi Kwak ， Yuanming Li ， Dongsik Yoon ，Donghyeon Kim，David Han，and Hanseok Ko.将可控nerf-gan的3d感知注入stylegan，用于可编辑的肖像图像合成。arXiv预印本arXiv：2207.10257，2022。[27] Connor Z Lin，David B Lindell，Eric R Chan和GordonWetzstein。用于可控肖像图像动画的3D GaN反转。arXiv预印本arXiv：2203.13441，2022。[28] Ming-Yu Liu，Xun Huang，Arun Mallya，Tero Karras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.少量无监督图像到图像翻译。在ICCV，2019年。[29] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang. 在野外深度学习人脸属性。在ICCV，2015年。[30] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体：一种高分辨率三维表面构造算法。SIGGRAPH，1987.[31] 作者：Ben Mildenhall，放大图片作者： Jonathan T.Barron，Ravi Ramamoorthi和Ren Ng. Nerf：将场景表示为用于视图合成的神经辐射场。在ECCV，2020年。[32] Thu Nguyen-Phuoc，Chuan Li，Lucas Theis，ChristianRichardt，and Yong-Liang Yang. Hologan：从自然图像中进行3D表示的在ICCV，2019年。[33] 放大图片作者：Michael Niemeyer，Jonathan T.放大图片作者：Ben Mildenhall，Mehdi S. M. Sajjadi，AndreasGeiger，and Noha Radwan. Regnerf：正则化神经辐射2979场，用于从稀疏输入进行视图合成。在CVPR，2022年。2980[34] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。在CVPR，2021年。[35] 或者 Patashnik ， Zongze Wu ， Eli Shechtman ， DanielCohen-Or，and Dani Lischinski.Styleclip：文本驱动的风格图像处理。ICCV，2021。[36] Alec Radford，Jong Wook Kim，Chris

下载后可阅读完整内容，剩余1页未读，立即下载