LOLNeRF：基于神经辐射场学习的单视图3D模型生成方法

24 浏览量更新于2023-10-25 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1558LOLNeRF：从一个眼神Daniel Rebain1，3 Mark Matthews3 Kwang Moo Yi1 Dmitry Lagun3 AndreaTagliasacchi2，31英属哥伦比亚大学2西蒙弗雷泽大学3谷歌搜索图1. Teaser-这允许从图像中提取体积3D模型，并从新的视点（右）渲染。https://lolnerf.github.io摘要我们提出了一种基于神经辐射场学习生成3D模型的方法，该方法仅从每个对象的单个视图的虽然生成现实主义图像不再是困难的任务，但是产生对应的3D结构使得它们可以从不同的视图渲染是不平凡的。我们表明，不像ex-spiral方法，不需要多视图数据来实现这一目标。具体来说，我们表明，通过重建许多图像对齐到一个近似的规范姿势与一个单一的网络条件下共享的潜在空间，你可以学习辐射场的空间，模型的形状和外观的一类对象。我们证明这一点通过训练模型来使用仅包含每个对象的一个视图而没有深度或几何信息的数据集来重建对象类别。我们的实验表明，我们在新颖的视图合成和高质量的单目深度预测结果中取得了最先进的结果https://lolnerf.github.io1. 介绍计算机视觉中的一个长期挑战是从现实世界的图像中提取3D几何信息[37]。了解3D几何结构对于了解但是，实现它仍然是一个非常具有挑战性的问题。这一领域的工作主要集中在从多个视图[1，25，62]获得几何理解，或者通过使用已知几何来监督从单个视图[10，14，18，43]学习几何。在这里，我们采取了一种更雄心勃勃的方法，旨在仅从对象的单个视图中获得生成模型中的等效3D理解，而不依赖于深度或点云等显式几何信息。然而，推导出这样的3D理解并非微不足道。虽然基于神经辐射场（NeRF）的方法[13，44]在基于几何的渲染中表现出很大的前景，但它们专注于从多个视图中学习单个场景。现有的NeRF作品[16，44，52]都需要从多个视点进行监督，因为如果没有它，NeRF方法很容易崩溃为场景的平面表示，因为它们没有创建体积表示的动机;见图2（左）。这是一个主要的瓶颈，因为多视图数据很难获得。因此，已经设计了结合NeRF和生成对抗网络（GAN）[9，47，57]的架构来解决这个问题，其中通过区分器来实施多视图一致性，以避免对多视图训练数据的需要。在这项工作中，我们表明-令人粗略位姿估计调节NeRF模型条件化NeRF模型固定调节NeRF模型固定列车试1559只要训练了共享的生成模型，并且提供了近似的相机姿势，一类对象的单个视图就足以在没有对抗性监督的情况下训练NeRF模型。简而言之，不再需要强制执行前摄作品的多视图约束，并且相机不必精确以实现引人注目的结果;参见图2（右）。具体来说，我们使用预测的2D地标将数据集中的所有图像粗略地对齐到规范姿势，然后使用该规范姿势来确定应该从哪个视图渲染辐射场以再现原始图像。对于生成模型，我们采用自动解码器框架[51]。为了提高泛化能力，我们进一步训练了两个模型，一个用于前景-数据集的常见对象类-另一个用于背景，因为背景在整个数据中通常是不一致的，因此不太可能受到3D一致性偏差的我们还鼓励我们的模型将形状建模为固体表面（即，急剧的从外到内的过渡），这进一步提高了预测形状的质量;参见从图2（中间）到图2（右）的改进。我们方法的一个值得注意的方面是，我们在训练时不需要渲染整个图像，甚至不需要渲染补丁。在自动解码器框架中-图3. 几何恢复-3D变形模型（3DMM）。建立形状空间的经典方法集中在参数化的3D网格表示上，其中许多工作致力于人脸[5，19，54]，如Egger等人所调查的那样[15 ]第10段。这些模型通常由几何信息源（如3D扫描或深度传感器）构建，这些几何信息源高度精确，但需要大量投资（例如，专有的Disney Medusa捕获装置[20，55]或市售工作，我们训练我们的模型来重建图像，（左）（中）（右）图2由3DMD提供的解决方案[66]）。使用mesh repre-句子也限制了这些模型的应用，如小说数据集，并同时找到每个图像因此，我们的方法可以用任意大小的图像进行训练，而不会增加训练过程中相比之下，利用GAN [9，47，57]的现有方法通过其鉴别器监督像素间关系，极大地限制或完全阻止它们能够相对于训练图像分辨率进行缩放总之，我们：提出了一种从单视图图像学习物体类别的3D重建的方法，该方法将训练复杂度与图像分辨率相结合;显示单个视图足以学习高质量的几何预测（例如，深度），无需任何几何监督（图3）;表明我们的方法在通过重建保持的图像和新颖的视图来表示来自学习的类别的对象的外观方面超过了对抗方法2. 相关工作本课题的研究内容主要有三个方面：1经典三维数字显微镜，2神经内隐形状表征，3单视图形状估计。我们还回顾了NeRF和自动解码器，我们的研究基于这些查看像头发这样的现象不能很好地再现的合成duced。相比之下，我们的方法是相对不受约束的，因为它直接从不受控制的环境中拍摄的图像中获得灵活的体积表示神经内隐表示。将场景表示为3D隐式字段已被证明对于许多任务是成功的。这些模型可以采取多种形式，包括距离[51]，占用[11，43]，学习场景特征[62]和光场[61]的表示。特别是一种神经辐射场模型，称为NeRFs [44]，使用密度和辐射场，并且在仅从图像学习3D场景结构NeRF的大量扩展已经被提出[13]，一些值得注意的例子是：每视图外观代码[39]，多分辨率训练[3]，相机协同优化[35，47，69]，硬表面先验[49]，可变形场景[52]、可变拓扑[53]和前景-背景分解[74]。NeRF的单场景公式也已扩展到一般对象类[25，71]，并与GAN方法混合，如GNeRF [42]，GIRAFFE [48]和StyleNeRF[22]。单视图的形状。计算机视觉的一个长期目标是理解3D结构测火Wu等人[70我们的方法电子邮件：···1560Σ∈NN||∈wi=（1−exp（−σ（xi）δi））·exp<$−σ（xj）δj（2）（C（p|zk）−C k（p））2美元（KGT场景和物体的组合。许多作品已经通过使用结构的先验知识作为监督来编码外观和结构之间的关系来解决这个问题[14，18，23，43]。然而，直到最近，从单视图观测中导出这样一个模型的问题仍然非常困难。Wu等人[70]演示如何推断近似对称的对象类别的形状然而，与我们的工作最相关的是基于GAN的方法的开发，这些方法学习形状空间，当渲染时产生的图像分布与训练分布无法区分[9，47，50，57]。这种方法在产生具有合理结构的模型时是有效的不幸的是，这需要使用三维网络，当与使用体积中心表示的3D表示相为了避免这种限制，我们重建图像直接与一个更有效和可扩展的随机采样过程。神经辐射场（NeRF）。神经辐射场[44]使用经典体绘制[28]从沿相关射线在点x处采集的样本中计算每个像素p的辐射值这些样本是使用学习的辐射场来计算的，该辐射场将X以及射线方向d映射到辐射值c和密度值σ。体绘制方程采用每个采样点xi处的辐射值的加权和的形式：N图4. 新颖的视图合成- 对于由于在更高分辨率的图像上进行训练，我们的方法对于通过两种方法重建的相同图像的新视图的比较，参见图8。训练数据集中的每个不同元素。这些代码与作为可学习变量的其余模型参数共同优化3. 方法我们在图5中可视化我们的架构。我们通过最小化三个损失的加权和来训练我们的网络参数和潜在代码ZCNeRF（p）=wi·c（xi，d）（1）Ltotal=Lrgb+λmaskLmask+λhardLhard（四）的所述权重i=1wi是从以下各项的积累中得出的第3.1节x第三节。2x沿视线x的透射率为：i−1其中第一项是标准L2光度重建，来自训练图像Ik的像素p上的结构损失：其中δi是第i个点处的样本间距。注意，这里我们将累积透射率和样本不透明度的乘积表示为w，因为该值决定了单个样本与最终像素值的一致性。这些权重还可以用于计算其他值，例如表面深度（通过用样本深度d（x，i）替换每个样本辐射值）或整体像素不透明度：我们扩展了过拟合/记忆）公式化，以通过结合自动解码器架构来支持学习形状的潜在空间。在这种修改后的架构中，主要NeRF骨干网络以每个对象的潜在代码z为条件研发，以及如[44]中的L维位置编码γL（x）。从数学上讲，密度和辐射函数D（p）=Σi=1 wi·d（xi） α（p）=Σi=1 第一章（三）则具有σ（x z）和c（x z）的形式;注意，我们考虑其中辐射不是视角方向d的函数的公式。这些潜在代码是来自潜在自动解码器自动解码器[51，60，64]，也称为生成潜在优化（GLO）[2，6，39，51，59]是一系列生成模型，它们在不使用编码器或解码器。该方法的工作原理类似于自动编码器，因为解码器网络将潜在代码映射到最终输出。然而，该方法的不同之处在于如何找到这些潜在代码：自动解码器通过分配一个代码表来直接学习代码，该代码表具有一行用于表ZRK×D，我们将其初始化为0K×D，其中K是图像的数量。这种架构可以准确地重建训练样本，而无需编码器模型的大量额外计算和内存，并避免需要卷积网络从训练图像中提取3D信息[67，72]。训练这个模型遵循与单场景NeRF相同的过程，但是从所有K个图像中提取随机射线，电子邮件：我们的方法j=1L rgb = Ek∈{1.. K}，p∈I1561【K×H×W×3】【长×2】地标最小二乘拟合分段器3D采样前景模型潜在表zK【K×D】{ci，σi}【高×宽×1】L型掩模L硬背景模型CLrgb训练图像|·Ik图5. 架构-我们的方法学习了潜在代码的每图像表以及前景和背景NeRF。体绘制输出受到针对每个训练像素的每射线RGB损失以及针对图像分割器的alpha值的影响摄像机对齐是从2D地标输出到类特定的典型3D关键点的最小二乘拟合中导出的。图例：输入数据学习数据集，并将每条射线与对应于从中采样的图像中的对象的潜在代码相3.1. 前景-背景分解与[17，47，74]类似，我们使用单独的模型来处理背景细节的生成。我们使用较低容量的模型Cbg（d z）的背景，预测辐射的每射线的基础上。然后，我们通过使用从NeRF密度函数导出的透明度值组合背景和前景色来渲染：输入图像和充分纹理化的表面，多视图一致性将有利于创建从空到实空间的硬过渡。不幸的是，这个属性在单视图情况下不成立。由于对应于每个潜在代码的场函数仅从一个视点进行监督，因此这通常会导致沿视图方向的表面模糊;参见图2。为了解决这个问题，我们对权重w作为拉普拉斯分布的混合分布的概率施加先验，一个具有权重为零的众数，一个具有权重为一的众数：C（p|z）= α（p|z）·CNeRF （p）|z）（6）IP（w）e−|W|+e−|1−w|（八）+（1 −α（p|z））·Cbg（d p|z）在实践中，监督前景/背景分离并不总是必要的;参见图10中的SRN Cars [62]结果，该结果从纯色背景色和360°摄像机分布中自然地学习前景分解当预训练模块可用于预测训练图像的前景分割时，我们还应用额外的损失来鼓励NeRF体积的透明度与此预测一致：注意，分布是峰值的，并且将鼓励稀疏解决方案，其中不鼓励开放区间（0，1）中的任何w值我们通过以下方式将此先验转换为损失：Lhard=−log（IP（w））（9）满足这一约束的σ（x）的大小取决于采样密度。等式（9）鼓励密度产生阶跃函数，该阶跃函数在至少一个采样间隔上饱和采样权重，通过构造，该阶跃函数适合于被调制的场景的尺度L掩码= Ek∈{1.. K}，p∈Ikα（p|zk）−SI（p））2<$（7）elled. 我们采用λhard= 0。1在我们的实验中其中S1（）是应用于图像Ik并在像素p处采样的预训练图像分割器。当在人脸数据集上训练时，我们使用MediaPipe Selfie Segmentation [41]用于（7）中的预训练模块，λmask=1。0的情况。3.2. 硬表面NeRF没有明确地强制学习的体积函数严格地对硬表面进行建模。有足够固定功能体绘制15623.3. 相机参数体绘制需要将每个像素与用于计算样本位置的射线相在经典的NeRF中，相机是通过输入图像数据集上的运动恢复结构来估计的。对于我们的单视图用例，由于深度模糊性，这是不可能的。为了使我们的方法与单视图图像兼容，我们使用MediaPipeFace Mesh[40]预训练网络1563ZZ方法PSNR↑SSIM↑LPIPS↓Res.π-GAN [9]（CelebA）23.50.8580.226我们的（FFHQ）29.00.9130.1991282我们的（CelebA-29.10.9140.197图6. Landmarker和Segmenter蓝色圆圈（·）表示已识别的标志。模块，用于提取出现在所考虑的对象类的一致位置中的2D地标。图6示出了用于人脸的五个地标的示例网络输出。然后，这些标志位置通过“形状匹配”最小二乘优化与标准3D标志位置的投影对齐，3.4. 条件生成给定一个预训练的模型，我们可以找到一个潜在代码z，它重建了一个在训练集中不存在的图像。由于潜在表是与NeRF模型参数并行学习的，因此我们可以将此过程视为对潜在表中的附加行的该行被初始化为潜在表现有行的平均µZ该拟合方法的结果见第4节。3.5. 无条件生成为了从我们的模型学习的空间中采样新对象，我们从由潜在表Z的行定义的经验分布中采样潜在代码。我们建模为多元高斯模型，通过对Z的行执行主成分分析找到均值μZ和协方差χZ。与其他在潜变量上使用高斯先验的生成模型类似，我们观察到当采样远离分布均值时，因此，我们采用GAN文献中常用的4. 结果我们可视化了在CelebA-HQ [29]，FFHQ [30]，AFHQ [12]和SRN图10中的汽车[62]数据集。我们在补充材料中包括这些数据集的其他为了提供我们的方法的定量评价和与现有技术的比较，我们进行了许多实验，在以下小节中描述。表1.训练图像的重建-我们的模型实现了更高的重建质量，无论它是在（FFHQ）还是（CelebA-HQ）上训练的。方法PSNR↑SSIM↑LPIPS↓Res.π-GAN [9]（CelebA）21.80.7960.4122562我们的（CelebA-HQ）26.20.8560.363π-GAN [9]（CelebA）20.90.7950.522我们的（CelebA-HQ）25.10.8310.5015122我们的（FFHQ）25.30.8360.491表2.测试图像的重建-4.1. 图像重建由于LOLNeRF是用图像重建度量进行训练的，我们首先进行实验来评估训练数据集的图像重建效果。在表1中，我们显示了我们的方法和π-GAN [9]对于π-GAN [9]训练集（CelebA [36]）的200个图像子集的平均图像重建质量，如通过峰值信噪比（PSNR），结构相似性指数度量（SSIM）和学习的感知图像块相似性（LPIPS）测量的。为了与π-GAN [9]进行比较，π-GAN [ 9 ]不学习与训练图像对应的潜在代码，我们使用原始π-GAN [9]实现中包含的过程通过测试时潜在优化来拟合图像。因为这假设了完美的前向姿势，为了使比较公平，我们用我们的相机拟合方法来增强它，以改善其在轮廓视图图像上的结果我们还通过对一组在训练过程中网络看不到的图像进行测试，对图像拟合进行了更直接的比较为此，我们从FFHQ数据集中采样了一组200张图像，并使用第3.4节中描述的潜在优化过程，使用在CelebA图像上训练的模型进行重建。我们在表2中显示了使用LOLNeRF和π-GAN [9]的这些图像的重建度量，并在图7中显示了重建图像的示例。4.2. 新颖视图合成为了评估学习的3D结构的准确性，我们对合成1564图7. 条件生成-我们的方法产生了更清晰的重建，特别是对于在训练集中没有很好表现的非正面视图和外观。π-GAN [9]（CelebA）24.5 0.9180.102我们的（CelebA-HQ）0.9300.0989我们的（FFHQ）0.9310.0975表3. 新颖的视图合成查询图像用于优化主体面部的潜在表示，然后从目标视图渲染该潜在表示为了评估模型学习面部3D结构的程度，我们在应用从面部地标计算的掩模后，评估预测图像和目标图像的面部像素图8. 新颖的视图比较-我们的方法可以捕捉到更精细的细节，并在大角度下产生更清晰的结果。新颖的观点。我们通过对来自同步多视图人脸数据集的单帧进行图像拟合来呈现这些新颖的视图，人类多视图行为成像（HUMBI）[73]，并使用来自其他地面真实视图的相机参数重建图像。同一个人LOLNeRF和π-GAN [9]的实验结果见表3。我们发现，我们的模型从新视图中实现了更好的重建，这表明我们的方法确实比π-GAN [9]学习了更好的3D形状空间我们还在图4和图8中示出了由LOL-NeRF和π-GAN [9]呈现的新颖视图的定性示例。4.3. 深度预测我们还通过预测地面真实深度可用的图像的深度值来评估我们的我们方法PSNR↑SSIM↑Mask-LPIPS↓LOLNeRF拟合π-GAN拟合FFHQ目标我们的方法电子邮件：1565××方法地面实况深度相关性↑66美国（公告牌百强单曲榜）[68]50.81DeepthNetGAN（监督）[45]58.68MOFA [65]15.97深度网[45]35.77UnSup3D [70]54.65我们的（CelebA-HQ）50.18表4. 深度预测我们比较了[70]和[45]中报道的监督和非监督方法的结果使用3DFAW数据集[21，26，27，34，75]，该数据集提供地面真实3D关键点位置。对于这项任务，我们将模型中的潜在代码拟合到3DFAW图像上，并对每个图像空间地标位置的预测深度值进行采样。我们使用与[70]相同的过程来计算预测和地面实况深度值的相关性，记录在表4中。虽然我们的得分不如表现最好的无监督方法（[70]）高，但它优于几种专门为深度预测设计的监督和无监督方法。4.4. 高分辨率图像合成为了证明能够直接在高分辨率图像上训练的好处，我们定量和定性地比较了在256 256 FFHQ和CelebA-HQ图像上训练的LOLNeRF的高分辨率渲染与在128128 CelebA图像上训练的π-GAN [9]的高分辨率渲染（由于计算限制而使用的最大可行大小这些结果见表2和补充材料。我们发现，对于这项任务，我们的模型在再现高分辨率细节方面做得更好，尽管这两种方法在理论上都能够产生“无限分辨率”的5. 讨论5.1. 局限性和未来工作虽然我们的方法通过对野外数据的训练产生了非常高质量的结果如图9所示，这种依赖性可能导致对象的失败情况，其中估计的姿势或分割不正确。找到一种方法来实现对齐没有任何先验知识仍然是一个开放的研究问题。此外，虽然我们的自动解码器框架在GAN上有许多优势，但它没有提供相同的能力来最大化未来工作的一个可能方向是用对抗性的方法来增强我们的方法图9. 失败案例我们的相机拟合有时也会产生不合理的相机估计，焦距太短，或角度远远不正确，导致训练期间该主题的失真重建（底部）。这两种故障模式都发生在我们数据的一小部分中，但模型仍然学习了3D形状和外观的空间，在结构敏感的任务中表现良好，这一点从我们的新视图合成（表3）和深度预测（表4）结果中可以看出训练以进一步提高从新的潜在代码呈现的图像的感知质量5.2. 伦理考虑我们对图像生成的研究重点是对社会有益的用例和应用。当正确开发时，生成模型可以通过多种方式做到这一点，包括模拟不同的用户群体（公平性），并放大个人数据的有效性，从而减少对大规模数据收集的需求（隐私）。然而，我们承认滥用的可能性和负责任地采取行动的重要性为此，我们将仅出于可重复性目的发布代码，但不会发布任何经过训练的生成模型。5.3. 结论我们已经提出了LOLNeRF，一种从单视图图像数据集学习3D形状和外观空间的方法。我们的实验表明，这种方法能够有效地从非结构化的“野外”数据中学习确认我们感谢Matthew Brown 、 Kevin Swersky 、DavidFleet和Viral Carpenter提供的有用的技术见解和反馈。还有Danica Matthews，感谢她协助收集猫科动物数据。这项工作得到了加拿大自然科学和工程研究委员会（NSERC）和加拿大计算机的部分支持。1566图10.定性渲染[29]第一章第二节第三节第三节第四节第五节第五节第六节第七节第八节第七节第七节第八节第九节第九节1567引用[1] 亚历克斯·安德鲁计算机视觉中的多视图几何凯伯网，2001年。1[2] Idan Azuri和Daphna Weinshall小样本学习时的生成隐式条件优化2020年，《国际公法》3[3] Jonathan Barron 、 Ben Mildenhall 、 Matthew Tancik 、 PeterHedman 、 Ricardo Martin-Brualla 和 Pratul Srinivasan 。 Mip-NeRF：抗混叠神经辐射场的多尺度表示。在ICCV，2021年10月。2[4] 我的儿子 Bin'ko wski ， DanicaJSutherland ， MmichaelArbel 和ArthurGretton。揭秘mmd甘斯。在2018年国际学习代表会议上。1[5] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型InSiggraph，1999. 2[6] Piotr Bojanowski，Armand Joulin，David Lopez-Pas，and ArthurSzlam.优化生成网络的潜在空间。第35届国际机器学习会议论文集，第600-609页。PMLR，2018年7月。ISSN：2640-3498。3[7] 阿里·博尔吉评估方法的利弊计算机视觉和图像理解，179：41-65，2019。1[8] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模在2019年国际学习代表会议上。5[9] Eric Chan，Marco Monteiro，Peter Kellnhofer，Jiajun Wu，andGordon Wetzstein.pi-GAN：用于3D感知图像合成的周期性隐式生成对抗网络。在CVPR，2021年。一、二、三、五、六、七[10] Zhiqin Chen，Andrea Tagliasacchi，and Hao Zhang.BSP-Net：通过二进制空间划分生成紧凑网格在CVPR，2020年。1[11] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR中，第5939-5948页，2019年。2[12] Yunjey Choi ， Youngjung Uh ， Jaejun Yoo ， Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR中，第8188-8197页，2020年。五、八[13] Frank Dellaert和Yen-Chen Lin。Neural Volume Rendering：Nerfand Beyond （神经体积渲染： Nerf 和超越） CoRR ，abs/2101.05204，2021。一、二[14] 博扬·邓，凯尔·热那亚，索菲安·布阿齐兹，杰弗里·辛顿，安德里亚·塔利亚萨奇和索鲁什·亚兹达尼.CvxNet：可学习的凸分解。在CVPR，2020年。第1、3条[15] Bernhard Egger ， William AP Smith ， Ayush Tewari ， StefanieWuhrer，Michael Zollhoefer，Thabo Beeler，Florian Bernard，Timo Bolkart ， Adam Kortylewski ，Sami Romdhani ， et al. 3dmorphablefacemodels-past ， present ， andfuture.ACMTransactions on Graphics（TOG），39（5）：1-38，2020。2[16] GuyGafni，JustusThies，MichaelZollhoüfer，andMatthiasNießner. 用于单目4D面部化身重建的动态神经辐射场。在CVPR，2021年。1[17] Chen Gao，Ayush Saraf，Johannes Kopf，and Jia-Bin Huang.从动态单目视频合成动态视图。在ICCV，2021年10月。4[18] Kyle Genova ，Forrester Cole ，Daniel Vlasic ，Aaron Sarna ，William Freeman，and Thomas Funkhouser.用结构化隐函数学习形状模板。在ICCV，2019年。第1、3条[19] Thomas Gerig ， Andreas Morel-Forster ， Clemens Blumer ，BernhardEgger ， MarcelLuthi ， SandroScho'nborn ，andThomasVette r. 可变形人脸模型--一个开放的框架。在2018年第13届IEEE国际自动人脸手势识别会议（FG 2018）上，第75-82页。IEEE，2018年。2[20] PauloGotardo，Je're' myRi viere，DerekBradley，AbhijeetGhosh和Thabo Beeler。实用的动态人脸外观建模与获取。2018年在Siggraph Asia。2[21] Ralph Gross 、Iain Matthews 、 Jeffrey Cohn 、Takeo Kanade 和Simon Baker。多派Image and vision computing，28（5）：8077[22] JiataoGu ， LingjieLiu ， PengWang ， andChristianTheobalt.Stylenerf：一个基于样式的3d感知生成器，用于高分辨率图像合成。2022年，在国际学术会议上发表。2[23] 菲利普·亨茨勒从野外视频中无监督学习3D对象类别。在CVPR，2021年。3[24] Martin Heusel 、 Hubert Ramsauer 、 Thomas Unterthiner 、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。1[25] 张旺峰和卢尔德·阿加皮托CodeNeRF：对象类别的非纠缠神经辐射场。在ICCV，2021年10月。一、二[26] L a'szl o'A。杰尼，我会的。科恩和Ta k eoKanade。从2D视频进行密集的3D面图像和视觉计算，58：13-24，2016。doi：10.1016/j.imavis.2016.05.009。7[27] L a'szl o'A。Jeni，Se r g e yTulya kov，LijunYin，NicuSebe，andJef fr e yF. 科恩第一个3D人脸对齐在野外（3DFAW）挑战。在ECCVW，2016年。7[28] James T. 作者： Brian P. 冯·赫尔岑。光线跟踪体积密度。InSiggraph，1984. 3[29] TeroKarras ， TimoAila ， SamuliLaine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量、稳定性和变化。在ICLR，2018年。五、八[30] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。五、八[31] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR（Poster），2015年。2[32] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。NeurIPS，2018。5[33] 肯尼斯·莱文伯格用最小二乘法求解某些非线性问题的一种方法Quarterly of Applied Mathematics，2（2）：1641[34] Lijun Yin，Xiaochen Chen，Yi Sun，Tony Worm，and MichaelReale.高分辨率三维动态人脸表情数据库。2008年，在荷兰阿姆斯特丹举行的第八届自动人脸和手势识别国际会议上7[35] 林振轩，马维秋，安东尼奥·托拉尔巴，西蒙·露西。BARF：束调节神经辐射场。在ICCV，2021年10月。2[36] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。CVPR，2015。5[37] JitendraMalik，PabloArbela'ez，JoaBagioCarreira，KaterinaFragkiadaki，Ross Girshick，Georgia Gkioxari，SaurabhGupta ， Bharath Hariha- ran ， Abhishek Kar ， and ShubhamTulsiani.计算机视觉的三个RPattern Recognition Letters，72：4-14，2016。1[38] 马可·马切西使用生成对抗网络创建百万像素图像。arXiv预印本arXiv：1706.00082，2017年。5[39] 放大图片作者：Noha Radwan，Mehdi S.M. Sajjadi，JonathanBarron，Alexey Dosovitskiy，and Daniel Duckworth.NeRF in theWild：Neural Radiance Fields for Unconstrained Photo Collections.在CVPR，2021年。二、三[40] MediaPipe Face Mesh 。 ht t p s ： //google.GitHub.io/mediapipe/solutions/face_mesh.html 。访问时间：2021- 10-20。4[41] MediaPipe 自拍分割。 https://google.github 的网站。io/mediapipe/solutions/selfie_segmentation.HTML.访问时间：2021-10-20。4[42] 泉梦。GNeRF：基于GAN的神经辐射场，无需设置摄像头。在ICCV，2021年10月。2[43] Lars Mescheder ， Michael Oechsle ， Michael Niemeyer ，SebastianNowozin ， andAndreasGeiger.OccupationalNetworks ： Learning 3D Reconstruction in Function Space （英语： Occupational Networks ： Learning 3D Reconstruction inFunction Space）在CVPR，2019年。一、二、三[44] Ben Mildenhall，Pratul Srinivasan，Matthew Tancik，Jonathan1568Barron，Ravi Ramamoorthi，and Ren Ng.NeRF：将场景表示为用于视图合成的神经辐射场见ECCV，第405Springer，2020年。一、二、三1569[45] Joel Ruben Antony Moniz 、 Christopher Beckham 、 SimonRajotte、Sina Honari和Chris Pal。无监督深度估计，3D人脸旋转和替换。NeurIPS，2018。7[46] Thu Nguyen-Phuoc ， Chuan Li ， Lucas Theis ， ChristianRichardt，and Yong-Liang Yang. Hologan：从自然图像中进行3D表示的无监督学习。在IEEE/CVF国际计算机视觉会议论文集，第7588-7597页，2019年。1[47] Michael Niemeyer和Andreas Geiger。CAMPARI：摄像头感知分解生成神经辐射场。在3D视觉国际会议（3DV），2021年。一、二、三、四[48] Michael Niemeyer和Andreas Geiger。GIRAFFE：将场景表示为合成生成神经特征场。在CVPR，2021年。2[49] MichaelOechsle ， SongyouPeng ， andAndreasGeiger.UNISURF：统一神经隐式曲面和辐射场用于多视图重建。在ICCV，2021年10月。2[50] Xingang Pan ， Xudong Xu ， Chen Change Loy ， ChristianTheobalt，and Bo Dai.用于形状精确的3d感知图像合成的阴影引导生成隐式模型。神经信息处理系统进展（NeurIPS），2021年。3[51] Jeong Joon Park ， Pete Florence ， Julian Straub ， RichardNewcombe和Steven Lovegrove。DeepSDF：Learning ContinuousSigned Distance Functions for Shape Representation. 在 CVPR ，2019年。二、三[52] Keunhong Park ， Utkarsh Sinha ， Jonathan Barron ， SofienBouaziz，Dan Goldman，Steven Seitz和Ricardo Martin-Brualla。奈菲：可变形神经辐射场。在ICCV，2021年10月。一、二[53] 放大图片作者：Peter Hedman，Jonathan T. Bar-ron，SofienBouaziz，Dan B Goldman，Ricardo Martin-Brualla，and StevenM.塞茨Hypernerf：拓扑变化神经辐射场的高维表示。 ACMTrans. Graph. ，2021年。2[54] Pascal Paysan 、 Reinhard Knothe 、 Brian Amberg 、 SamiRomdhani和Thomas Vetter。一种用于姿态和光照不变人脸识别的三维人脸模型。IEEEInternational Conference on AdvancedVideo and Signal Based Surveillance，2009。2[55] 我是我的里维尔，保罗·戈塔尔多，德里克·布拉德雷，阿比吉特·戈什和塔博·比勒。单次拍摄高质量的面部几何形状和皮肤外观捕捉。InSiggraph，2020. 2[56] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、 VickiCheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展，29：2234-2242，2016。1[57] Katja Schwarz ， Yiyi Liao ， Michael Niemeyer ， and AndreasGeiger. GRAF：用于3D感知图像合成的生成辐射场。在高级神经信息。过程系统，2020年。一、二、三[58] Katja Schwarz ， Yiyi Liao ， Michael Niemeyer ， and AndreasGeiger. Graf ：用于3D感知图像合成的生成辐射场。 In H.Lar

下载后可阅读完整内容，剩余1页未读，立即下载