Pix2NeRF：无监督神经辐射场转换

147 浏览量更新于2023-10-25 收藏 987KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3981火车Pix 2NeRF：用于单图像到神经辐射场转换的无监督条件π盛曲彩ETHZürich安东·奥布霍夫Dengxin Dai信息学苏黎世联邦理工学院Luc VanGoolETHZürich KULeuven火车Pix2NeRFPix2NeRF图1. Pix2NeRF概述：我们提出了一种对场景的神经表示进行无监督学习的方法，共享一个共同的姿势先验。在测试时，Pix2NeRF从输入图像中解开姿势和内容，并呈现内容的新视图顶部：π-GAN在没有姿势监督的数据集上训练下图：一个训练好的模型以单个图像为条件，以获得姿态相关的视图。摘要我们提出了一个管道来生成神经辐射场（NeRF）的对象或场景的一个特定的类，条件是一个单一的输入图像。这是一项具有挑战性的任务，因为训练NeRF需要同一场景的多个视图，再加上相应的姿势，这是很难获得的。我们的方法是基于π-GAN，生成模型无条件的3D感知图像合成，映射随机潜码的一类对象的辐射场。我们共同优化（1）π-GAN目标，以使用其高保真3D感知生成和（2）精心设计的重建目标。后者包括与π-GAN发生器耦合以形成自动编码器的编码器。与以前的几次拍摄NeRF方法不同，我们的管道是无监督的，能够在没有3D，多视图或姿势监督的情况下使用独立的图像进行训练。我们的流水线应用包括3d化身生成，以单个输入图像为中心的新颖视图合成，以及3d感知超分辨率，仅举几例。1. 介绍以下的成功的神经辐射场（NeRF）[23]，将场景编码为多层感知器（MLP）的权重已成为一个有前途的研究方向。新颖视图合成是一个重要的应用：给定场景的稀疏样本视图，任务是从看不见的相机姿态合成新颖的视图。NeRF通过将3D场景中每个点的颜色和体积密度编码到神经网络中来解决这个问题，并使用传统的体积渲染来组成2D视图。虽然NeRF能够以高保真度合成新颖的视图一些后续工作试图通过使NeRF推广到新的场景来解决这些限制通讯作者：蔡胜渠（shecai@ethz.ch）代码：https://github.com/HexagonPrime/Pix2NeRF3982在训练一个通用NeRF方面取得了重大进展，该NeRF能够对仅给出一个或少数视图的场景进行编码[5，7，16，40，41，46]。然而，这些作品被设计成在训练期间或训练和推断期间仅与多视图图像一起良好地工作。单次NeRF或一般单次新颖视图合成具有挑战性的一个原因是单个图像内的不完整内容信息。例如，给定汽车的正面图像，几乎没有信息可以直接从后面推断出新颖的视图。回到传统的逆图形和3D重建管道，[44]通过对场景的对称性进行额外的假设来解决这个问题，以在单个图像内插入可能丢失的几何信息然而，这种技术仅限于可以引入对称性的场景，并且不能解决一般情况。因此，一个自然的后续问题是人类大脑如何解决这样一个具有挑战性的任务？我们无意识地使用的方法之一是学习对象类别的先验隐式模型，并将我们观察到的映射到学习的模型。这种思路已经在以前的作品中探索[40，46]。这些作品中缺少的一个重要部分是确保新颖的观点也符合我们对对象类的期望，由于缺乏来自单一图像的监督，这通常是通过想象来完成的。机器学习社区开发的最接近想象力的形式之一是生成对抗网络[13]。GAN在图像合成和转换方面非常成功。除了2D，研究表明GAN这提出了另一种经由3DGAN反演在没有多视图图像的情况下解决3D重建的方法。这样的策略绕过了由于GAN的对抗性训练而导致的在一个单独的图像中丢失信息的问题。现有的作品[31，47]利用基于HoloGAN [24]，StyleGAN [47]等的这种方法，但是这些3D感知生成模型的缺点之一是它们相对较弱的3D一致性。随着NeRF [23]的迅速普及，相应的生成模型也受到了关注。GRAF [35]和π-GAN [2]通过将潜在代码映射到类别特定的辐射场来遵循传统的GAN由于内置的体积渲染设计，这些生成模型通常具有高3D这一观察结果表明，使用对抗训练和辐射场进行少量3D重建的可能性在本文中，我们将将给定类别的输入图像转换为NeRF的任务制定为称为Pix2NeRF的端到端管道（图1）。该方法可以在给定单个图像的情况下执行新颖的视图合成，而不需要预训练、注释或微调。Pix 2NeRF可以使用自然图像进行受先前作品的启发[31，40，46]，我们引入将给定图像映射到潜在空间的编码器。我们共同优化多个目标。首先，我们训练π-GAN和添加的编码器将生成的图像映射回潜在空间。其次，我们调整编码器与π-GAN我们表明，仅仅进行π-GAN反演是具有挑战性的，不足以完成我们的目标，并且适应对于校准编码器和生成器的学习表示是我们的框架能够实例化NeRF，一个单一的拍摄方式，同时自然地保留了高保真度合成新视图的能力，可与最先进的生成NeRF模型相媲美。捐款.– 我们提出了Pix2NeRF，第一个无监督的单镜头NeRF模型，可以从图像中学习场景辐射场，而无需3D，多视图或姿势监督。– 我们的管道是第一个基于条件GAN的NeRF，或者一般来说，基于NeRF的GAN反演。我们希望我们的管道成为未来朝着这些研究方向工作的强大基线– 我们证明了我们的方法与朴素GAN反演方法相比的优越性，并进行了广泛的消融研究，以证明我们的设计选择。2. 相关作品我们的工作可以归类为类别特定的3D感知神经新视图合成方法，其强烈基于NeRF [23]和π-GAN [2]。神经场景表征。将场景编码这包括但不限于：通过带符号的距离函数或占用率参数化场景的几何形状[6，22，28，36]，对几何形状和几何形状进行编码。外观 [18 ， 26 ， 33 ， 38] 等。最近，神经辐射场（NeRF）[23]的令人印象深刻的性能引起了人们对该领域的广泛关注。它将场景编码为多变量向量值函数f（x，y，z，θ，σ）=（r，g，b，σ）近似为MLP，其中（x，y，z）表示空间协方差。纵坐标，（θ，θ）表示观察方向，（r，g，b，σ）对应于颜色和体积密度。此函数然后由任何体绘制技术重复调用以产生新视图。NeRF的出色表现激发了后续工作，将其扩展到替代设置，例如从未调整的图像进行训练[20]，无姿势训练[21，43]等。基于NeRF的GAN随着GAN和NeRF的发展，一些研究试图将它们结合起来，形成产生NeRF的生成模型。早期尝试3983∼在这个方向上是GRAF [35];它通过调节NeRF的形状和外观代码来执行遵循NeRF管道，生成器可以合成给定随机代码和视图方向的图像所生成的图像与真实图像一起被传递到网络中，从而实现GAN。GRAF是一种无监督模型，因为它不需要地面实况相机姿态;因此，它可以使用“野外”图像进行训练。这是通过引入相对于标准视图参考系的姿态先验来完成的，例如，高斯分布来描述相对于正面视图的头部俯仰和偏航。π-GAN [2]类似于GRAF，但条件是单个潜在代码，并利用薄膜[10，30] SIREN [37]层，而不是简单的sarial网络，以及编码器E与G一起形成自动编码器。生成器以输出视图姿态d和潜在代码z为条件，广泛地描述内容变化，诸如颜色或形状。它采用三维体绘制技术，并输出一个单一的参数化的场景视图作为RGB图像I。鉴别器D是CNN，其同时经由logitl（真实的-“在野外”，或假的-由G生成）和对应的场景姿态d来预测输入RGB图像的分布原点编码器E是CNN，其任务是将输入图像映射到由G学习的潜在流形上，并同时预测输入G：z，d→IMLP。最近，一些作品提高了合成质量，具有高分辨率[14]，更好的3D形状[45]，D：I→l，dE：I→z，d。（一）精确控制[25，48]。NeRF的小镜头NeRF的主要属性是能够在3D场景中烘焙到MLP权重中。但这也是一个限制，因为它必须为每个新场景重新训练，这需要大量的时间和金钱。为了解除这种约束，PixelNeRF [46]和GRF [40]在CNN编码器提取的像素对齐特征上调节MLP。在新视图绘制阶段，沿着射线的3D点被投影到提取的特征网格上以获得对齐的特征，然后与点一起被馈送到MLP中。最近，CodeNeRF [16]建议使用可学习的潜在代码训练NeRF，并利用测试时优化来找到给定图像的最佳潜在代码（和相机姿势）。然而，这些方法在训练过程中仍然需要多视图监督，这限制了它们在现实环境中的使用，其中多视图数据集的收集具有挑战性。因此，单次NeRF无需额外的监督（例如，3D对象、多视图图像集合）仍然是未充分探索的研究方向。在本文中，我们通过将自动编码器架构并入现有的π-GAN NeRF框架来弥合这一差距，以获得条件单次NeRF模型，保留所有组件的最佳属性。我们注意到，同时进行的工作[31]也有类似的想法。关键的区别是不同的骨干网络（HoloGAN [24]）及其缺乏3D一致性，作者指出。相反，我们利用了新提出的基于NeRF的GAN方法，称为π-GAN [2]，它通过设计自然地提供了更强的3D一致性。我们证明，仅仅应用[31]的方法不足以获得从图像到以π-GAN为骨干的潜在空间的准确映射3. 方法Pix2NeRF由三个神经网络组成，一个GeneratorG，鉴别器D，一起形成生成Adver-在功能上，Pix 2NeRF扩展了π-GAN [2]，其中编码器E与GAN联合训练，以允许将图像映射回潜在流形。因为编码器E将输入I的内容z和姿态d解纠缠，所以内容可以进一步用于调节π-GAN生成器G并且通过改变渲染姿态d来获得新颖视图。在定义了网络模块之后，我们开始指定模块的输入和输出。潜在的密码z来自一个简单的先验分布pz（在我们的例子中是多变量均匀分布）任何输入图像I到某个zpred中，pz。根据现有技术[2，35]，假设我们可以访问用于训练的真实图像Irealpreal的姿态Pd的先验分布。根据数据集和姿势坐标的选择，它可以是具有对角协方差的多变量高斯（对于面部图像）或在（半）球体上均匀（对于图像汽车）。该分布的参数必须是已知的，以允许容易地对生成器的随机姿态d_rand进行采样，并且p_d表示真实图像I_real的姿态。简单地训练编码器E以将图像I映射到GAN潜在空间（如[31]的第1阶段）与训练GAN同时进行这是因为编码器需要将来自不同视图的相同场景的图像正确地映射到单个潜在代码。当这些视图由于遮挡而包含精细细节的变化时，这尤其困难。从Eq. 1和设计图2，我们的方法将编码器和生成器输入映射的图像的潜在表示分解为内容z和姿态d，进行单独治疗。给定输入图像，Pix2NeRF将姿态和内容解纠缠，并产生内容的辐射场，该辐射场（1）在解纠缠姿态下与输入一致，并且（2）在与pd不同的姿态下一致且逼真。为了实现这些属性，我们为（1）生成器，（2）训练器，（3）GAN设计了几个训练目标-3984∼∼∼∼2德兰德兹zp2GAN发生器zrand2~pz真/假目的GANdrand~pdIgen真/假重建目标条件-我侦察2我真的很鉴别器z~p对抗性真/假目的&兰德zD~p目的GAN反演兰德D目的Igenzpred-Dzrand 2个d我真的我相信pred兰德 2图2.Pix2NeRF中使用的构建块和目标概述 GAN目标遵循π-GAN [2]，并确保NeRF输出在潜在先验pz和姿态pr i或pd 下匹配真实图像 preal 的分布。重构和GAN转换对象iv确保校准的潜在表示，使得E和G可以作为自动编码器操作，类似于[31]。条件对抗目标使得能够在没有显式姿势监督的情况下学习更好的表示图例：绿色-训练模块，蓝色-冻结，梯度-预热。版本，（4）重建，和（5）条件对抗训练。这些目标用于在单个优化过程中计算G、D和E参数的梯度然而，某些部分在优化器更新期间保持G）和蓝色的图。二、我们根据经验发现，训练编码器从一开始就对整个流水线有不利影响，并采用预热策略（用绿-蓝过渡表示），这将进一步解释。3.1. GAN生成器物镜发电机被训练来3.2. GAN目标鉴别器被训练以区分所生成的假样本和从数据集采样的真实数据。Pix 2NeRF遵循了在π-GAN中训练递归的确切过程：它对潜在代码zrand进行采样pz和随机姿态drandpd成对，然后通过冻结生成器获得假生成图像：Igen= G（zrand，drand）.（五）然后，使用这些生成的图像Igen和真实图像Irealpreal来训练器：为它提供逐渐逼真的图像。Pix 2NeRF遵循与π-GAN相同的训练生成器的过程：它l实数，d实数=D（I实数），lgen，dgen = D（Igen）。（六）样本潜在代码zrandpz和随机姿势drandpd成对，然后通过发生器，获取伪造的生成图像：Igen=G（zrand，drand），（2）经修改以考虑对已知姿态的MSE监督的可重构目标然后可以被公式化如下：其被进一步进料到冷冻箱中：LGAN（D）=IE雷亚尔 softplus（−lreal）lgen，dgen=D（Igen）.（3）继[2]之后，另一个有助于GAN训练稳定性和性能的组件是MSE监督，预测姿势dGen. 它由D生成的图像兰德Erandzhrandzhsoftplus（lgen）+λposdrand-dgend，（七）如果由生成器恢复的图像姿态采样不对应于采样姿态，因此设定了学习“规范”3D空间的目标如果真实数据的姿态分布是嘈杂的，这是特别有用的，例如在CelebA [19]中看到的。其中λpos是调谐的加权因子。3.3. GAN反演目标编码器E与判别器D联合优化，并重用为GAN编码计算的IgenLGAN（G）=zEp兰特softplus（−lgen）+λposdrand-dgen2，（四）GDDGEGGDEzpredDpred我真EzpredD~p兰德DD3985目标方程（五）：zpred，dpred= E（Igen）。（八）2其中λpos是调谐的加权因子。该目标旨在确保采样内容和姿态与从生成的39862LI2L图像由编码器。这是使用MSE损失来完成的3.6.编码器预热L−1（E）=EΣ∥zpred−zrand∥2+正如[31]中所指出的，重建损失可能很容易GANzrandpzdrandpd22002年，他获得了2000万英镑的奖金。（九）主导并导致模型向输入视图过度拟合，同时失去其表示3D的能力。因此，我们引入一个简单的“热身”策略来应对这个问题。对于训练协议的前半迭代，我们到目前为止，目标只能确保生成地图-从潜在空间到辐射场和一些基本形式的一致性来学习自动编码器。然而，我们的实验表明，仅优化这三个对象并不能产生合理的映射。因此，Pix2NeRF增加了两个目标，以解决无监督设置中的再现质量和3D一致性。3.4.重建目标虽然GAN反演目标促进了潜在空间的一致性，但到目前为止还没有直接促进图像空间的一致性。为此，我们通过使用编码器提取其潜在代码和姿势预测来在真实图像上调节生成器G，然后使用预测的姿势渲染其视图冻结编码器，同时优化重构和一致性对抗损失，并且针对这两个目标仅优化生成器这用作生成器的预热，以粗略地学习编码器输出和编码图像之间的对应关系然后，编码器被解冻，使得能够进一步提取其学习的表示。在预热阶段之后，编码器和生成器直接形成一个预先训练的自动编码器，能够产生接近地面实况的3D表示，绕过繁琐的早期重建目标，这是非常难以平衡的GAN目标。我们显示了这种策略的必要性，并与消融研究中仅为重建损失分配较小权重进行了比较。3.7.训练和推理zpred，d pred=E（I real）I recon = G（z pred，dpred）。（十）上面提到的目标可以联合训练;但是，由于GPU内存限制，我们在交替迭代中对其进行优化。在这里，你和GAN-理想情况下，我们希望恢复原始图像。然而，已知在图像空间中单独使用MSE损失会促进结构不一致和模糊。根据[31]，我们采用具有加权因子λslim的结构相似性指数度量损失（SSIM [42]）和具有加权因子λvgg的感知损失（VGG [44]）。因此，我们可以如下合计重建损失：在每次迭代时优化版本目标;在偶数迭代时优化GAN生成器目标;在奇数迭代期间使用加权因子λrecon联合优化重建和条件对抗目标：L odd =L cond + λ recon L recon。（十三）recon（G，E）=E雷亚尔Σ∥Irecon−Ireal∥2+在推理阶段，Pix2NeRF仅需要单个输入图像，其可以被馈送到编码器E中，并且λssim ssim（Irecon，Ireal）+λ vgg L vgg（I recon，Ireal）.3.5.条件对抗目标（十一）然后生成器G，与任意选择的姿势耦合，新颖的视图合成。与此同时，不是从编码器获得潜在代码z，而是可以从先验分布pz中对其进行采样，以使模型像π-GAN一样合成新的样本。重建目标促进了对于由编码器E提取的仅一个视图的良好的再现质量。这可能会推动网络的组合，以预测微不足道的姿态或不切实际的重建其他姿态从pd。为了缓解这种情况，我们进一步应用了一个对抗性目标，同时在从随机姿势渲染的图像Ireal上调节生成器重复使用Eq. （10），4. 实验4.1. 评价数据集。我们在下面列出的几个3D数据集上训练和评估我们的管道。CelebA [19]是一个包含超过20万张名人面孔图像的数据集。我们使用它的我们持有升孔，dcond=D（G（z3987LIpred，d兰特））8k图像作为测试集。 [8]第108话：年龄的16汽车模型呈现与卡拉驾驶模拟器cond（G，E）=E雷亚尔d兰特softplus（−lcond）（十二）with random随机textures纹理. ShapeNet-SRN是由SRN[38]的作者托管的数据集，我们使用其中的3988∼−输入重建新观点图3.对CARLA [8]、CelebA [19]和ShapeNet-SRN [4，38]椅子的重建和新观点更多结果见附录用于与先前的多视图方法进行比较该数据集包含来自ShapeNet [4]的50个渲染视图，每个视图具有6591个实例的阿基米德螺旋相机姿势。由于ShapeNet-SRN数据集在其验证和测试集中不包括下半球，因此我们过滤训练集以仅包含上半球。评估指标。Pix 2NeRF以两种模式进行评估：无条件模式，其假设直接从pz和pd采样;以及条件模式，其对应于使用z=E（Ireal），Irealpreal，同时仍然从pd采样。对于缩放因子×100，遵循先前工作的步骤[2，35]使用方法[27]。为了与Shapenet-SRN上基于多视图的新视图合成方法进行比较，我们遵循pixelNeRF和CodeN-eRF中的评估协议，并报告PSNR（峰值信噪比）和SSIM（结构相似性指数测量）[42]。技术细节。我们选择潜码先验分布pz作为[1，1]上的多元均匀分布。我们在PyTorch [29]中的π-GAN实现之上构建我们的我们还使用了tanh架构作为编码器的主干，在潜在代码头的末尾添加了一个tanh。所有模型都使用Adam [17]优化器进行了30万次迭代优化，这与获得π-GAN模型的计算成本大致相同。CelebA [19]模型使用批量大小483989↓KID ↓ ↑ ↓KID↓↑↓KID ↓ ↑ ↓KID↓↑××××××方法FID64 ×64ISFID128 × 128是[24]第二十四话-2.87-39.72.911.89[35]第三十五话---41.12.292.34π-GaN [2]5.150.092.2814.70.392.62Pix2NeRF无条件6.250.162.2914.820.912.47Pix2NeRF条件24.641.932.2430.982.292.20表1.关于CelebA的定量结果[19]。方法FID64 ×64ISFID128 × 128是和Shapenet-SRN [4，38]。定量结果。我们分别在表1和表2中显示了对CelebA[19]和 CARLA [8] 我们还在表 3 （底部）中显示了在ShapeNet-SRN上使用相同生成指标的评估我们观察到，即使我们的模型由于我们没有明确地对来自p real的编码样本E（Ireal）强制执行先验分布p z，因此由编码器映射产生的p real的图像可以占据p z中的一小部分。因此，对preal的调节自然导致样本与pz的较小变化，并且因此导致NeRF输出的较小多样性。出于这个原因，直接山姆-从pz（无条件地）随机抽取可以实现更好的表2.关于CARLA的定量结果[8]。方法PSNR↑ SSIM↑总资源费 *[40]总拥有成本 *[39] 21.27 0.88dGQN*[12]ENR*[11] 22.83-SRN**[38][46]23.72 0.91[16] 22.39 0.87Pix2NeRF条件18.14 0.84方法[24]第二十四话FID↓-KID↓1.54IS↑-π-GaN [2]15.470.554.62Pix2NeRF无条件14.310.514.62Pix2NeRF条件17.550.594.36表3.ShapeNet-SRN椅子上的定量结果[4，38]顶部：重建度量（128 128）。底部：生成指标（64 64）。图例：* -需要多视图训练数据分辨率为64 64，每条射线采样24个点。我们使用2e-4，6 e-5和2 e-4的学习率分别用于对于所有其他模型，我们使用了π-GAN [2]我们增加到分辨率64 64与学习率2 e-5，2 e-4和2 e-4的发生器，解码器，和编码器，分别，和采样72点每射线后50 k迭代。我们根据经验为所有数据集设置λrecon=5，λssim=1 和λvgg=1。对于CelebA [19]，我们遵循[2]并设置λpos=15。对于CARLA [8]和ShapeNet-SRN [4，38]，我们设置λpos= 0，因为我们没有观察到显著差异。我们使用|z|= 512对于CelebA [19]和|z|= 256对于卡拉[8]性能由生成指标衡量。此外，我们的生成器在CARLA[8]和ShapeNet-SRN [4，38]的大多数指标上优于π-GAN。CelebA [19]上的结果由于数据集噪声（背景、几何结构、姿势噪声、伪影等）而不太一致，鼓励GAN向均值收敛，作为对变量的权衡。这些观察结果可以与流形学习[9]相关，在流形学习中，我们强制训练集中的每个真实图像都存在潜在代码。我们将我们的方法与表3中的其他单图像3D推断方法在128 128分辨率下在ShapeNet-SRN [4，38由于我们的模型假设严格的球形相机参数化模型，这与ShapeNet-SRN [4，38]的地面真实姿势不太对应，因此我们使用编码器从图像中提取姿势。尽管是生成的，无监督的，并且与所有其他方法相比不考虑到其他模型是在128上训练的，虽然我们的模型在64× 64上训练，但在128× 128分辨率下渲染，我们观察到超分辨率效果。定性结果。我们在图中显示了我们的模型3 .第三章。我们可以看到，我们的模型可以合成具有良好质量的新视图，而现有的少数NeRF方法[16，40，46]由于缺乏多视图监督而无法在这些“野外”数据集上进行训练我们的模型也可以产生体面的3D表示，即使在极端的姿势和文物（见第5行）。4.2. 消融研究我们进行了彻底的消融研究，通过逐个删除关键组件并在与完整模型相同的设置下训练模型来验证我们的以下消融的定性结果见图4;相应的定量结果参见附录[24]第二十四话1349.70-67.53.953.52[35]第三十五话300.91-41.72.433.70π-GaN [2]13.590.343.8529.21.364.27Pix2NeRF无条件10.540.373.9527.231.434.38Pix2NeRF条件12.060.443.8138.512.373.893990方法天然GaN反转自动编码器没有GAN反演无条件对抗目标输入Recon 小说观方法没有热身总是热身较低的重量用于侦察(no预热）完整模型输入Recon小说观的热身。如果没有预热策略，模型往往过拟合输入视图，并且不能从新颖的姿势产生如果我们只使用预热策略，而从不解冻编码器，则提取相对较弱，这导致很少的细节。使用较低的重建权重而不是预热，重建和对抗目标之间的平衡丢失，导致新视图合成的模式崩溃。5. 结论在本文中，我们介绍了Pix2NeRF，一种新的无监督单镜头框架，能够将场景的输入图像转换为神经辐射场（NeRF），从而执行单镜头新视图合成。关键的想法图4. 消融研究的定性结果，来自CelebA的测试分裂的图像[19]。对于较低的重建权重，λ recon设置为1，而不是预热消融。使用其他λrecon值获得的结果见附录。朴素GAN反转。我们将Pix2NeRF与朴素GAN反转进行比较：有一个预训练的GAN，我们冻结它的权重并训练编码器将图像映射到它们相应的潜在代码。结果表明，编码器可以学习一个近似的映射从图像到潜在的代码。然而，由于缺乏联合蒸馏，重建是从输入图像。自动编码器。另一种潜在的方法是利用π- GAN在此设置下，虽然重建达到了良好的质量，但我们可以观察到可见的3D不一致性，这表明难以对剩余目标进行优化。无GAN反转。我们通过从管道中移除GAN反转步骤来进行消融。与完整设置相比，视觉效果变得模糊和不可思议。一种可能的解释是，这一步是π-GAN训练和重建之间的联系，这会显著影响整体性能。无条件对抗目标。我们进一步停用条件对抗损失并重新训练模型。因此，渲染变得不完整，并具有清晰的视觉伪影。此外，3D一致性显著降低，这在给定设置中证明了该目标的合理性热身为了验证预热策略的效果，我们训练了三个单独的模型并比较了它们的性能：没有预热，没有解冻编码器（总是预热），以及为重建分配较低的权重Pix2NeRF的核心技术是利用生成NeRF模型来内插缺失的几何信息。这是通过联合训练编码器来实现的，该编码器将图像映射到潜在空间，该潜在空间将内容和姿态以及生成NeRF模型分开，同时保持这两个部分相互依赖。Pix2NeRF可以超越自动编码器设置，通过采样随机内容和姿势并通过生成器来执行新的场景生成。我们的框架展示了高重建质量和3D一致性，与以前的作品不相上下。局限性和今后的工作。当前的设置仅限于每个数据集的一个类别，并且不能直接推广到所选类别之外。替代研究方向包括类似于PixelNeRF [46]和GRF [40]的局部条件字段，其可以推广到未看到的类别，多实例甚至真实世界场景。作为一个通用框架，Pix 2NeRF并不局限于使用π-GAN作为其骨干。更新的生成NeRF模型，例如EG3D [3]可能会实现更好的视觉质量。此外，架构搜索，特别是关于编码器仍然是一个具有挑战性的问题。利用来自2D GAN前馈反演文献的更成熟的编码器架构，例如pixel2style2pixel [32]，可以显著提高Pix2NeRF的性能道德考虑。与大多数现代条件生成模型一样，Pix2NeRF可能会被滥用，通过生成内容来传播错误信息或执行有针对性的攻击。Deepfake名人账户在社交媒体上的日益普及表明，新的用例、市场和将此类数据货币化的新方法将随之而来。谢谢。感谢Eric R。感谢Chan慷慨地分享π-GAN的实现，在整个项目中提供了有益的建议和澄清。安东·奥布霍夫是由丰田汽车欧洲公司通过TRACE Z ürich资助的。3991引用[1] 作者：DanicaJ. 萨瑟兰，迈克尔·阿贝尔，阿瑟·格雷顿。揭秘mmd甘斯，2021年。6[2] Eric Chan ， Marco Monteiro ， Petr Kellnhofer ， JiajunWu，and Gordon Wetzstein.pi-gan：用于3d感知图像合成的周期性隐式生成对抗网络在arXiv，2020年。二三四六七[3] 埃里克河Chan，Connor Z.作者：Matthew A.Chan，KokiNagano，Boxiao Pan，Shalini De Mello，Orazio Gallo，Leonidas Guibas，Jonathan Tremblay，Sameh Khamis，Tero Karras，and Gordon Wetzstein.高效的几何感知3D生成对抗网络。在arXiv，2021年。8[4] 天使X作者：Thomas A.作者：Leonidas J.Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva、Shuran Song、Hao Su、Jianxiong Xiao、Li Yi和Fisher Yu。Shapenet：一个信息丰富的3D模型存储库。CoRR，abs/1512.03012，2015。六、七[5] Anpei Chen ， Zexiang Xu ， Fuqiang Zhao ， XiaoshuaiZhang，Fanbo Xiang，Jingyi Yu，and Hao Su.Mvsnerf：多视图立体的快速2[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。IEEE计算机视觉与模式识别会议论文集，2019年。2[7] Julian Chibane、Aayush Bansal、Verica Lazova和GerardPons-Moll。立体辐射场（srf）：学习新场景稀疏视图的视图合成。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第7911-7920页，2021年6月。2[8] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集，第1-16页，2017年。五、六、七[9] 作者：Katherine M.作者：Collins，Joshua B. Tenenbaum和Vincent Sitzmann。学习神经场的信号不可知流形，2021年。7[10] Vincent Dumoulin，Ethan Perez，Nathan Schucher，Flo-rian Strub ， Harm de Vries ， Aaron Courville ， andYoonneBengio. 智能转型。蒸馏， 2018 。https://distill.pub/2018/feature-wise-transformations. 3[11] EmilienDupont 、 MiguelBautistaMartin 、 AlexColburn、Aditya Sankar、Josh Susskind和Qi Shan。等变神经渲染。国际机器学习会议，第 2761-2770 页。PMLR，2020年。7[12] SMA Eslami ， DJ Rezaldine ， F Besse ， F Viola ， ASMorcos ， M Garnelo ， A Ruderman ， AA Rusu ， IDanihelka，K Gregor，et al. Neural scene representationand rendering. Science，360（6394）：1204-+，2018. 7[13] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Y.本吉奥。生成对抗网络。神经信息处理系统的进展，3，06 2014。2[14] Jiatao Gu ， Lingjie Liu ， Peng Wang ， and ChristianTheobalt. Stylenerf：一个基于样式的3d感知生成器，用于高分辨率图像合成，2021年。3[15] MartinHeusel，Hubert Ramsauer，Thomas Unterthiner，Bern-hardNessle r，GunterKaue r，andSeppHochreite r. 两个时间尺度更新规则训练的甘斯收敛到纳什均衡。CoRR，abs/1706.08500，2017。6[16] 张元峰和卢尔德·阿加皮托。Codenerf：对象类别的解纠缠神经辐射场，2021。二、三、七[17] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。国际会议上学习- ING代表，12 2014年。6[18] Chen-Hsuan Lin ， Chaoyang Wang ， and Simon Lucey.Sdf- srn：学习从静态图像中重建有符号距离3d对象。神经信息处理系统进展，2020年。2[19] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议（ICCV）的会议记录中。四五六七八[20] 放大图片作者：Noha Radwan，Mehdi S. M.放大图片作者：Jonathan T. Barron，Alexey Dosovitskiy，and DanielDuckworth. NeRF in the Wild：Neural Radiance Fields forUnconstrained Photo Collections.在CVPR，2021年。2[21] Quan Meng，Anpei Chen，Haimin Luo，Minye Wu，Hao Su，Lan Xu，Xuming He，and Jingyi Yu. Gnerf：基于Gan的神经辐射场，无需设置摄像头。arXiv预印本arXiv：2103.15606，2021。2[22] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks ： Learning3dreconstructioninfunctionspace.IEEE Conf. 计算机视觉和模式识别（CVPR），2019年。2[23] 放大图片作者：Ben Mildenhall，Pratul P. Srinivasan，Matthew Tancik，Jonathan T. Barron，Ravi Ramamoorthi和Ren Ng. Nerf：将场景表示为用于视图合成的神经辐射场在ECCV，2020年。一、二[24] Thu Nguyen-Phuoc，Chuan Li，Lucas Theis，ChristianRichardt，and Yong-Liang Yang. Hologan：从自然图像中进行3D表示的无监督学习。在IEEE国际计算机视觉会议（ICCV）上，2019年11月。二、三、七[25] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。在proc IEEE会议计算机视觉和模式识别（CVPR），2021年。3[26] Michael Niemeyer、Lars Mescheder、Michael Oechsle和Andreas Geiger。差分体绘制：学习隐式3D表示没有3D监督。在 Proc. IEEE Conf. 计算机视觉和模式识别（CVPR），2020年。2[27] Anton Obukhov ， Maximilian Seitzer ， Po-Wei Wu ，Semen Zhydenko ， Jonathan Kyl ， and Elvis Yu-JingLin.pytorch中生成模型的高保真性能指标，2020年。版本：0.3.0，DOI：10.528

下载后可阅读完整内容，剩余1页未读，立即下载