AR-NeRF：无监督地学习自然图像的深度和散焦效果

100 浏览量更新于2023-10-26 收藏 920KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18387AR-NeRF：使用孔径渲染神经辐射场对自然图像金子拓弘NTT通信科学实验室，NTT Corporation非结构化单图像散焦强度焦距深度弱强远近（a）训练图像（b）生成的图像和深度图1. 非结构化（和视图受限）自然图像的深度和散焦效果的无监督学习。（a）在训练期间，我们仅使用非结构化的单个自然图像的集合，并且不使用任何监督（例如，地面实况深度、多视图图像对、散焦监督或预训练模型）。(b)经过训练后，AR-NeRF可以生成图像和深度集。特别是在生成图像时，AR-NeRF可以使用测光约束直观且连续地调整散焦强度和焦距。项目页面可在https：www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/ar-nerf/上找到。摘要完全无监督的3D表示学习由于其在数据收集方面的优势而受到关注。一种成功的方法涉及基于生成模型（例如，生成对抗网络（GAN））同时基于3D感知模型（例如，神经辐射场（NeRF））。然而，它们需要具有各种视图的图像进行训练，因此，它们在具有很少或有限视点的数据集上的应用仍然是一个挑战。作为一种补充方法，提出了一种采用散焦提示然而，AR-GAN是一种基于CNN的模型，尽管具有高相关性，但它独立于视点变化表示散焦，这是其性能的原因之一。作为AR-GAN的替代方案，我们提出了一种孔径渲染NeRF（AR-NeRF），它可以通过在一个共同的光线跟踪框架中表示这两个因素，以统一的方式利用视点和散焦线索。此外，为了以分解的方式学习散焦感知和散焦独立的表示，我们提出了孔径随机化训练，为此我们学习生成图像，同时独立地随机化孔径大小和潜在代码。期间在我们的实验中，我们将AR-NeRF应用于各种自然图像数据集，包括花卉，鸟类和人脸图像，其结果证明了AR-NeRF用于深度和散焦效果的无监督学习的实用性1. 介绍自然图像是3D世界的2D投影。求解逆问题，即，从自然图像中理解3D世界是计算机视觉和图形学中的主要挑战，并且由于其不同的应用而在各个领域中被积极地研究，例如机器人中的智能理解、广告中的内容创建以及艺术中的照片编辑。在收集成对的2D和3D数据或多视图图像集之后，成功的方法是使用直接或光度驱动的监督来学习3D预测器。这种方法在保真度方面显示出有希望的结果。然而，这种数据的收集通常是困难的或不切实际的。为了降低收集成本，从单个图像（即，来自每个训练实例包括单个图像的数据集）已经被积极地研究。为了在这种设置下获得线索，一些研究[19，32，75，77，93]引入了对象特定的形状模型，包括3DMM[5]和SMPL [51]，并搜索18388在形状模型约束内的解决方案。其他研究利用辅助信息，如2D关键点[33，87]或2D轮廓[10，22，27，44]，通过对齐对象部分或将目标对象与背景分离来简化问题。这些研究也展示了显著的结果;然而，形状模型的构建并不总是容易的，并且缩小了可应用的对象，并且辅助信息在数据收集方面产生了额外的成本为了减轻这种限制，一种完全无监督的方法，它从单个图像中学习3D表示，而不需要任何额外的监督（包括辅助信息和预训练模型），已经得到了关注。在这种设置下，视点是主要线索，典型方法通过使用生成模型（例如，生成对抗网络（GAN）[23]），同时基于视点感知3D模型（如体素[27，58，59]，图元[46]和神经辐射）场（NeRFs）[9，24，56，60，61，76]。这允许学习视点感知3D表示;然而，由于所需的不同视点，在不使用预处理的情况下，应用于其中视点线索有限或不可用自然的花或鸟图像，如图1所示）仍然是一个挑战。作为视点提示的补充，提出了一种孔径渲染GAN（AR-GAN）[34]，通过在CNN GAN之上配备孔径渲染[83该约束允许以无监督的方式学习然而，作为限制，AR-GAN独立于视点线索而采用散焦线索，并且不能联合利用这两个因素，尽管这两个因素与彼此帮助的能力高度相关。因此，当使用AR-GAN时，深度预测的质量仍然有限。因此，我们的目标是构建一个统一的模型，该模型可以通过考虑从自然的非结构化（和视图受限）图像（图1）中应用3D表示（特别是深度和散焦效果）的为了实现这一点，我们提出了一个新的扩展NeRF称为光圈渲染NeRF（AR NeRF），它可以表示散焦效果和视点的变化，在一个统一的方式表示这两个因素通过一个共同的光线跟踪框架工作。更确切地说，与标准NeRF相比，标准NeRF在针孔相机假设下使用单个射线表示每个像素，AR-NeRF采用孔径相机[79]，其使用会聚在焦平面的射线集合表示每个像素，并且其比例是de-1更确切地说，在[34]中，的组合的一个 AR-GAN和视点感知GAN（特别是HoloGAN [58]和RGBD-根据孔径大小进行终止通过这种建模，我们可以通过简单地改变输入和隐函数（多层感知器（MLP））的积分来表示视点变化和散焦效果，该隐函数将点位置和视图方向转换为RGB颜色和体积密度。因此，通过训练，我们可以优化MLP，同时反映这两个因素。此外，为了以无监督的方式解开散焦感知和散焦独立的表示，我们引入了孔径随机训练，其中我们学习在GAN框架中生成图像，同时随机和独立地改变类似的技术通常用于视点感知表示学习[9，24，27，46，56，58- 61，76 ]，并且这种训练对于从潜在代码中解开相应因素的影响是有用的我们将AR-NeRF应用于自然图像数据集，包括视图受限的（Oxford Flowers [64]（花）和CUB- 200-2011[90]（鸟））数据集和具有各种视图的数据集（FFHQ[39]（脸）），并证明AR-NeRF优于或相当于基线模型，包括最先进的完全无监督深度学习模型（即，AR-GAN [34]）和生成NeRF（特别是pi-GAN [9]）。我们还证明了AR-NeRF可以操纵离焦效应（即，散焦强度和焦距），同时保持图像质量，而AR-GAN很难做到这一点。总的来说，我们的贡献可以总结如下：为了实现深度和散焦效果的无监督学习，我们提出了一种称为AR-NeRF的NeRF的新扩展，它可以通过在一个共同的光线跟踪框架中表示这两个因素，以统一的方式使用视点和为了在无监督条件下理清散焦感知和散焦独立的表示，我们引入了孔径随机训练，通过该训练，我们学习在随机和独立地改变孔径大小和潜在代码的同时生成图像。我们经验性地证明了AR-NeRF在使用各种自然图像数据集（包括视图受限（花鸟）数据集和各种视图（人脸）数据集）进行深度和散焦效果的我们在补充材料中提供了详细的分析22. 相关工作内隐神经表征。由于其3D感知、连续和记忆效率的性质，隐式神经表征在两个领域都受到了关注[65]《易经》中有“道”。这些模型可以学习散焦，视点感知表示同时地但单独地进行;因此，这样的模型不能利用对一个表示的学习来学习另一个表示。2补充材料见https://www.kecl。ntt.有限人民报/金子。takuhiro/projects/ar-nerf/.···18389R基于学习的3D [2，11，12，20，54，55，62，66，68，74]和场景[8，13，31，69]重建。典型的表示使用3D数据进行监督;然而，为了消除对3D监督的需要，还提出了可微分渲染的合并[49，50，63，82，100]。最相关的模型是NeRF [56]，它将隐式神经表示与体绘制相结合，用于新颖的视图合成。我们的AR-NeRF是基于NeRF和获得一个视点感知的功能，通过继承它。然而，为了获得散焦感知功能，AR-NeRF采用孔径相机模型而不是通常在NeRF中使用的针孔相机模型此外，所描述的研究旨在使用一组多视图图像来学习每个场景的单个网络，而我们的目标是从非结构化单个图像的集合中构建生成模型由于这种差异，我们不打算在这项研究中比较AR-NeRF与NeRF;然而，重新导入我们的想法（即，孔径照相机的使用）对原始任务的影响仍有待于未来的研究。生成对抗网络。 GAN [23]通过一系列进步（例如，[7，37GAN的一个强大特性是它们能够通过随机采样来学习数据分布，而无需直接定义分布。这个属性允许GAN通过测量来学习数据分布[6，35，36，43，67]和架构限制[88，94，95，99，105]。同样的逻辑，不...pervised 3D感知GAN [9，24，27，34，46，56，5884]已经成功地通过结合3D-2D投影模块和/或3D感知约束来学习3D感知表示。更具体地说，大多数研究都使用基于体素[27，58，59]，图元[46]和NeRFs [9，24，56，60，61，76]和一些研究[34]已经解决了离焦感知表征的学习。在这里，我们介绍了一个统一的模型，可以共同杠杆年龄散焦和观点线索，以加强后者的我们在5.3节描述的实验中证明了它们联合使用的效用。从单个图像学习3D表示如第1节所述，为了消除收集3D数据或多视图图像的成本，从单个图像学习3D表示已经引起了关注。预测方法涉及使用形状模型[19，32，75，77，93]以及结合辅助信息，如2D关键点[33，87]或2D轮廓[10，22，27，44]。虽然这些方法已经取得了显着的成果，形状模型或辅助信息的要求仍然是一个瓶颈。为了消除这一瓶颈，基于生成模型的完全无监督学习方法得到了积极的研究。学习目标根据所应用的研究而不同，迄今为止，观点的无监督学习[9，24，27，46，56，58[96]，纹理[96]，光[96]，3D网格[73，84]，[34，65，96]和散焦效果[34]一直是亲。摆姿势。在这些方法中，AR-NeRF与AR-GAN [34]共享动机，目的是学习深度和散焦效果。然而，作为主要区别，AR-GAN表示离散化CNN中的孔径渲染器，并且特定于深度和散焦效果的学习，而我们的AR-NeRF表示具有连续辐射场的孔径渲染器，并且可以解释和利用其他光线跟踪相关现象（例如，观点）以统一的方式。我们将在5.2节中以经验证明这些优点。深度和散焦效果的学习。有大量关于深度学习的研究。代表性方法涉及使用数据对或数据集训练深度预测器，诸如图像和深度对[15，16，41，42，48，98]、多视图图像对[ 18，21，97 ]和多视图图像对[ 18，21，97]。连续帧集[91，101，104]。散焦合成也引起了人们对计算机视觉和图形学的兴趣，基于模型的[3，26，30，78，89]和学习-已经提出了基于[29，70，83，92]的散焦合成器。基于深度和散焦强度之间的高度相关性，一些研究[25，83]已经提出在假设成对的聚焦图像和全聚焦图像可用于训练的情况下，在从全聚焦图像重建聚焦图像的同时学习深度虽然我们的研究是由这些研究的成功所激励的，但主要的区别在于，我们解决了一个具有挑战性但实际上很重要的情况，其中除了自然的非结构化（和视图受限）图像之外，没有可用的训练解决这个问题的最新模型是AR- GAN [34]。如前所述，我们在第5.2节中研究了定量和定性差异。3. 预赛3.1. GAN我们首先描述了我们的模型建立的两个先前的工作。第一个是GAN [23]，它通过两个玩家的最小-最大游戏隐式地学习数据分布，使用以下目标：LGAN=EIrpr（I）[logD（I）]+Ez<$pg（z）[log（1−D（G（z）]，（1）其中，给定潜码z，生成器G生成图像Ig，该图像Ig通过最小化该目标来欺骗CIDD，而D通过最大化该目标来将Ig与真实图像Ir这里，上标r和g分别表示真实数据和生成数据。通过对抗训练，pg（I）接近pr（I）。3.2. NeRFNeRF [56]（特别是，我们认为生成变量[9，76]与我们的研究相关）使用MLP表示场景，该MLP采用3D位置x∈R3和视图方向d∈S2作为输入，并预测RGB颜色c（x，d）∈R318390∈∈∈∫| | ∈| | ∈和体密度σ（x）R+。更确切地说，在[9，76]中，在应用MLP之前或期间使用位置编码[56，86]和正弦非线性[80]来编码位置信息;然而，我们省略了它们，以用于一般表示.此外，在生成变体中，MLP还将潜在代码zRLz作为输入以表示各种数据。然而，为了简单起见，这被省略。NeRF采用针孔相机（图2（a）），并预测每个像素C（r）的颜色和相应的颜色。针孔摄像头DO孔径摄影机D'奥udSoF焦距孔使用体绘制方程[53]，通过在距离t [tn，tf]内的单个相机射线r（t）=o+td（其中o和d分别是相机原点和方向）上积分来计算深度Z（r）：∫tf（a）基于针孔照相机的射线追踪 (b)基于孔径相机的光线追踪on NeRF on AR-NeRF（我们的）图2.NeRF和AR-NeRF的射线追踪比较。因此，在本研究中，只提出假设13注意，我们假设双曲正切定义的存在性。C（r）=Z（r）=T（t）σ（r（t））c（r（t），d）dt，tntfT（t）σ（r（t））tdt，tncused图像，但不假设它们的对/集合的存在。我们观察到这个假设在一个典型的自然图像数据集中得到了满足，如图1所示。4.2.使用NeRF进行其中T（t）=exp.−不σ（r（s））dstn.（二）如第3.2节所述，NeRF是一种强3D感知模型，可以联合表示图像和深度在实践中，积分是难以处理的;因此，使用分层和分层采样的离散化形式[56]。4. 光圈渲染NeRF：AR-NeRF4.1. 问题陈述我们首先澄清问题陈述。我们解决了深度和散焦效果的完全无监督学习，其中没有监督或预训练模型可用，并且在训练期间只能访问非结构化的单个图像的集合。由于缺乏明确的监督，很难学习一个条件模型，可以直接预测的深度和散焦效果从输入的图像。作为替代方案，我们的目标是构建一个无条件生成器G（z），其可以在改变散焦效果的同时将图像和深度生成为一个集合。类似于视点感知表示学习，其需要包括各种视图图像的数据集来获取视点提示，我们的散焦感知表示学习需要包括各种散焦图像的数据集来获得散焦提示。更正式地说，我们对数据集施加以下假设：假设1使用不同孔径大小的相机捕获训练图像，并且数据集包括不同的散焦图像。影响散焦效应的两个因素（如第4.2节所述）是光圈大小和焦距（光线原点与所有物体聚焦的平面之间的因此，代替假设1或除了假设1之外，我们还可以强加焦距的多样性的假设。然而，在实际场景下，当场景被确定时，聚焦目标往往是固定的在设计水平（公式2）。为了在我们的问题（第4.1节）中利用这个强属性，我们考虑在光线跟踪框架中表示孔径渲染，这是NeRF的基础。这是通过将标准NeRF中使用的基于针孔相机的光线跟踪（图2（a））替换为基于孔径相机的光线跟踪[79]（图2（b））来实现的。对于基于针孔相机的光线跟踪，我们从单个点o投射所有光线。相比之下，使用基于孔径相机的光线跟踪，我们从半径为s的孔径投射光线。更正式地说，来自孔径（o′）的射线的起源被写为：o′=o+u，（3）其中u[0，s]，u的方向与o正交。从光圈发出的一束光线会聚到平面上焦距为f的点。基于该定义，来自孔径的光线的方向（d′）计算如下：d′=（o+fd−o′）/f，（4）基于等式3和4，我们可以计算从原点o′开始的光线，即r′（t）= o′+ td′，并使用体绘制（等式2）绘制相应的颜色C（r′）和深度Z（r′）。最终的颜色和深度是通过对u[0，s]中所有光线的C（r′）和Z（r′）进行积分来计算的。4然而，与体绘制类似，积分在实践∫Σ18391中是难以处理的;因此，使用离散化形式3在AR-GAN中也引入了类似的假设（DoF设置的多样性）[34]。然而，它没有区分这两个因素的影响，为了更严格的假设，我们在这里重新定义它。[4]深度不需要积分，但我们使用此公式来解释由散焦模糊产生的模糊性。然而，我们根据经验发现，对深度精度的影响是微妙的。18392R| | ∈×更准确地说，我们从采样的u[0，s]生成有限束射线，并通过取相应的C（r′）和Z（r′）的平均值来计算最终输出。4.3. 孔径随机训练为了以一种解脱的方式学习散焦感知和散焦无关的表示，我们引入了孔径随机化训练，在这种训练中，我们学习通过随机和独立地改变孔径大小和潜在代码更正式地说，我们将GAN对象（等式1）重写如下：LAR-NeRF=EIrpr（I）[logD（I）]+Ez<$pg（z），s<$pg（s）[log（1−D（G（z，s）]，（5）其中潜码Z和孔径尺寸S被随机且独立地采样在实际应用中，我们用半正态分布表示pg（s），并以其标准偏差σs为参数，以数据驱动的方式确定孔径尺寸的范围。作为旁注，我们表示焦距f，光圈渲染中的另一个变量，使用MLP，在f根据渲染目标确定的假设下将z如第4.2节所述，我们的光圈渲染具有基于光线跟踪的强3D约束，因此当我们使用公式5训练模型时，z必须捕获独立于s波动驱动的散焦变化且鲁棒的表示。4.4. 先进的实践据我们所知，深度和散焦效果的无监督学习是一项相对较新的任务（例如，第一次尝试是在CVPR 2021[34]），而实际技术（特别是NeRF特有的技术）尚未得到充分开发。为了推进这一研究方向，我们讨论了考虑这项任务的实用技术。使用NeRF++表示无界背景。一个典型的生成NeRF[9，76]在一个紧密约束的3D空间中渲染整个场景，以有效地对前景进行建模。然而，当训练具有无界背景的图像（例如，图1中的鸟类图片）。特别地，这个问题在学习散焦效果方面是关键的，因为其强度是根据深度确定的。当使用紧密限定的3D空间时，我们不能在设计级别上表现出强烈的散焦效果。为了解决这个问题，我们使用NeRF++ [103]实现了一个合成网络，它由单位球体中的前景NeRF和使用倒置球体建模的背景NeRF5相关的训练方案是DoF混合学习[34]，其中在生成各种散焦图像的同时学习图像生成。与我们的方法的主要区别在于，他们的方法操纵深度尺度而不是孔径大小，因为他们不能直接缩放孔径，这是由于离散化的公式。因此，他们学习的深度是相对的，因此他们必须在通过添加偏移来更改焦距时仔细调整该值。参数化该实现允许在远背景中表示强散焦效果。为了公平地描述，我们注意到并发方法 [24 ， 60] 还将NeRF++用于图像生成以表示无界背景。视角变化对学习深度和散焦的影响。深度和散焦效果的完全无监督学习是一个具有挑战性和不适定的问题，尽管我们的孔径随机训练解决了这个难题。为了从另一个来源获得提示，我们通过在训练过程中随机采样相机姿势来共同学习视点感知和视点无关表示[9，76]。为了防止采样相机参数超出真实分布，我们限制其范围（实际上使用0.1弧度的标准我们发现，这种设置对于两个数据集都相当有效，包括有限和宽视角（第5.3节）。孔径射线采样方案。在计算机图形学[79]中使用的典型光线跟踪中，大量光线（例如，100）在孔径渲染中每像素采样（第4.2节）以提高合成保真度。然而，这增加了处理时间和内存。为了使用有限光线有效地表示孔径，我们使用分层采样[56]。更具体地说，我们使用了五条射线;一条射线的原点放在孔径的中心，其他射线的原点沿着孔径的圆周等间隔放置。我们在补充材料中考察了这种近似的效果。25. 实验5.1. 实验设置我们进行了两项实验，从多个角度验证AR-NeRF的有效性：一项比较研究（第5.2节），我们将AR-NeRF与AR-GAN [34]进行了比较，AR-GAN是一种具有相似目标的开创性模型，另一项消融研究（第5.3节），我们在其中研究了我们的想法的重要性在本节中，我们将介绍常用设置，并在下一节中讨论每个设置的详细信息数据集。在AR-GAN研究[34]之后，我们使用三个自然图像数据集评估了AR-NeRF：两个视图受限数据集，即，Oxford Flowers [64]（8，189张花图像，102个类别）和CUB-200-2011 [90]（11，788张鸟图像，200个类别），以及一个视图-各种数据集，即FFHQ [39]（70，000张人脸图像）。为了有效地检查各种情况下，我们调整图像的像素分辨率为64 - 64。该策略也用于AR-GAN研究[34]。因此，我们可以在公平的条件下比较AR-NeRF和AR-GAN。我们在文档材料中提供了有关数据集的详细信息。2评估指标。我们使用AR-GAN研究[34]中使用的相同两个指标定量评估了AR-NeRF 的有效性，以进行直接比较。一是18393↓ × ↓ ×内核初始距离（KID）[4]，它测量初始模型[85]中真实图像和生成图像之间的最大平均差异。我们使用KID来评估生成图像的视觉保真度。我们使用20，000张生成的图像和所有真实图像计算了这个分数。根据我们的目标（即，在非结构化自然图像上训练在[34]之后，作为替代方案，我们通过（1）使用通过GAN生成的图像和深度对训练深度预测器来计算深度精度，（2）使用训练的深度预测器预测真实图像的深度，以及（3）将预测的深度与使用立体对训练的高度通用的单目深度估计器[976为了测量深度的差异，我们使用了尺度不变深度误差（SIDE）[15]，它以尺度不变的方式测量深度之间的差异，并用于比较不同表示系统预测的深度。对于这两个指标，值越小，性能越好。实施. 我们基于pi-GAN [9]，7实现了AR-NeRF，这是NeRF的最先进的生成变体。因为原始的pi-GAN没有应用于我们实验中使用的数据集，所以我们仔细调整了配置和超参数，使得基线pi-GAN可以相当好地生成图像。接下来，我们基于NeRF++ [103]8（第4.4节）将背景合成网络并入pi-GAN。在下文中，我们将该模型称为pi-GAN++。随后，我们将孔径渲染（第4.2节）和孔径随机化训练（第4.3节）纳入pi-GAN++。这是下面用AR-NeRF表示的模型。我们在补充材料中提供了实施细节。25.2. 比较研究为了确定AR-NeRF对于深度和散焦效应的无监督学习的有效性，我们首先研究了AR-NeRF和AR-GAN之间的比较性能[34]，这是针对该问题的最先进模型。AR-NeRF和AR-GAN之间的主要区别是架构差异，其中AR-NeRF是基于连续辐射场构建的，而AR-GAN是基于离散CNN构建的。另一个小但显著的差异是AR-NeRF表示散焦分布（即，孔径尺寸分布），而AR-GAN表示它（即，在这种情况下，深度尺度分布）使用二项分布（[34]中的等式6）。为了证实这种差异的影响，我们还评估了 AR-GAN 的变体（称为 AR-GAN++），其中6我们使用了官方的预训练模型： https://github.com/KexianHust/Structure-Guided-Ranking-Loss。7 我们基于官方代码 https ： //github 实现。com/marcoamonteiro/pi-GAN。8我们在参考官方代码时实现了这一点：https：//github.com/Kai-46/nerfplusplus网站。牛津花CUB-200-2011 FFHQKID ↓侧面↓KID ↓侧面↓KID ↓侧面 ↓AR-GAN 11.23 4.46 14.30 3.58 5.75 4.21AR-GAN++10.18 4.42 13.91 3.61 5.43 4.88RGBD-GAN 12.04 7.01 14.92 7.06 6.73 5.81AR-NeRF（我们的）7.86 3.94 6.81 3.63 3.67 2.61表1. 基线GANs和AR-NeRF（我们的）之间的KID（103）和SIDE（102）比较。散焦分布用半正态分布表示，类似于AR-NeRF。此外，作为参考，我们报告了RGBD-GAN的得分[65]，它使用视点线索学习深度信息。9定量比较。我们在表1中总结了定量比较结果。AR-NeRF在KID和SIDE方面优于基线GAN，但CUB-200-2011的SIDE除外，其中AR-GAN/AR-GAN++与AR-NeRF相当。这些结果验证了AR-NeRF在深度无监督学习中的实用性。我们认为，AR-NeRF的优势，即，视点和散焦提示以及基于隐函数的连续表示的联合使用我们在补充材料中提出了预测深度的定性比较。2定性比较。我们进行了定性比较，以验证散焦效应的无监督学习的有效性。我们在图3中展示了生成的图像和深度的示例。在AR-NeRF中，我们通过改变s和f来操纵散焦强度和焦距（图2（b））。如上所述，原始AR-GAN离散地表示散焦分布。因此，与AR-NeRF不同，它不适合进行连续操作。或者，我们检查AR-GAN++的性能，其表示连续散焦分布。在AR-GAN++中，我们分别通过改变深度的比例和偏移量来控制散焦强度和聚焦距离。结果表明，AR-NeRF可以操纵散焦强度和焦距，而不会产生明显的伪影。特别地，在焦距的操纵中，AR-NeRF成功地重新聚焦在前景和背景两者上，前景和背景的外观与全聚焦图像（在最左列中）中的外观相同。相比之下，AR-GAN++通常会生成9在我们的初步实验中，我们还检查了AR-HoloGAN/AR-RGBD-GAN（AR-GAN 和Holo-GAN [58]/RGBD-GAN [65]的我们发现，AR-HoloGAN和AR-RGBD-GAN的SIDE评分分别为4.79和4.40该结果表明，在AR-HoloGAN/AR-RGBD-GAN中同时但单独地使用视点和散焦线索并没有改善深度学习。10SIDE的局限性在于它可以忽略某些类型的退化，因为它基于l2测量差异，导致统计平均。这可能是为什么SIDE在CUB-200-2011上具有可比性，尽管存在定性差异（图3）。为了验证这一假设，我们分析了地面实况和预测深度之间的差异梯度[14]，并发现AR-NeRF在该指标上优于我们在补充材料中讨论细节。218394×↓ × ↓ ×散焦强度焦距深度弱强远近AR-GAN++AR-NeRF（我们的）AR-GAN++AR-NeRF（我们的）AR-GAN++AR-NeRF（我们的）图3. AR-GAN++和AR-NeRF（我们的）之间生成的图像和深度的比较。为了操纵散焦强度，我们在[0，σs，2σs，3σs]内改变强度，其中σs表示半正态分布的标准差，其用于表示训练期间的散焦分布为了控制焦距，我们使用了一个前景和背景聚焦的范围意想不到的文物，特别是当它试图重新-牛津花卉CUB-200-2011 FFHQ背景上的cus（倒数第二列）。作为这种现象的可能原因是：（1）AR-GAN++离散地表示2D空间中的光场;因此，当对大的操作进行计数时，离散化误差变得至关重要出现在对象中的孔），这在基于深度渲染图像时会导致错误。AR-NeRF的特性，即（1）3D空间中的连续表示和（2）散焦和视点线索的联合使用，作为AR-NeRF的另一个优点，由于隐函数的性质，它可以通过增加输入点的密度来增加生成图像的分辨率[9]。我们在图1中展示了这种优势，其中使用与图3中使用的相同模型生成了128 128张图像。5.3. 消融研究我们进行了消融研究，以检查AR-NeRF作为NeRF的生成变体的效用。我们将AR-NeRF合并到五个基线：pi-GAN[9]，其中背景合成网络和孔径渲染被消融;pi-GAN++，其中孔径渲染被消融;AR-NeRF-0，其中在训练期间不应用视点变化（第4.4节）;AR-NeRF-F，其中使用针对面部数据集（FFHQ）优化的全视点变化;以及pi-GAN++-F，其中孔径渲染从AR-NeRF-F消融。我们在FFHQ上测试了最后两个模型，只是因为视点线索在FFHQ上受到限制。（B）（D）（V）KID ↓侧面↓KID ↓侧面↓KID ↓ 侧面↓皮甘L 3.69 5.23 5.04 4.87 4.29 3.03pi-GAN++GAN 8.30 4.83 9.84 3.88 4.43 2.69AR-NeRF-0 澳门币06.814.038.673.743.833.61AR-NeRF-F 电话：+86-21 -5555555pi-GAN++-F F-AR-NeRF澳门币7.86 3.94 6.81 3.63 3.67 2.61表2. AR-NeRF与消融模型的KID（103）和SIDE（102）比较。复选标记（B）和（D）分别指示背景合成网络和散焦提示的使用。在列（V）中，L、F和0分别指示使用局部、完全和无视点改变。其他数据集。对于pi-GAN++，我们通过孔径大小为s=0的多条射线的集合将射线的数量设置为与AR-NeRF中的射线数量相同。我们使用这种实现来研究具有和不具有光圈渲染的模型之间的纯性能差异。结果我们在表2中列出了定量结果，并在补充材料中提供了预测深度的定性比较2我们的调查结果如下：(1) 背景合成网络的影响（pi-GAN与pi-GAN++）。我们发现pi-GAN在KID方面优于pi-GAN ++。我们认为pi-GAN的紧凑表示有利于有效地学习2D图像分布。然而，pi-GAN在SIDE方面优于pi-GAN++该结果表明pi-GAN不适合我们的目标（即，深度信息的无监督学习），尽管其能力-Cub-200-2011FFHQ牛津花18395以生成高保真图像。(2) 孔径渲染的效果（pi-GAN++与AR- NeRF）。我们发现，AR-NeRF在两个指标上都优于pi-GAN++，除了FFHQ上的SIDE，其中pi-GAN ++与AR-NeRF相当。相同的趋势适用于AR-NeRF-F和pi-GAN ++-F之间的比较。这是因为FFHQ包括足够的视点变化来利用视点线索。相比之下，牛津花卉和CUB-200-2011不包含它们。在这种情况下，AR-NeRF中使用的散焦提示有助于改进。(3) 视点和散焦线索之间的比较（pi-GAN ++与AR-NeRF-0）。利用这些模型，消除了散焦和视点操作。因此，我们可以通过比较来分析每种效果。我们发现，在FFHQ中，pi-GAN++在SIDE方面优于AR-NeRF-0，而在其他数据集中，AR-NeRF-0优于pi-GAN++。这可以通过视点线索的可用性的差异来解释，如（2）中所讨论的。(4) 局部和全视点变化之间的比较（AR-NeRF与AR-NeRF-F）。我们发现AR-NeRF在这两个指标上都优于AR-NeRF-F。这一结果表明，我们不需要仔细调整相机参数进行无监督深度学习。在 pi-GAN++ 和 pi-GAN++-F之间的比较中观察到相同的趋势。注意，AR-NeRF-F在视点操纵能力方面具有优势，因为它可以学习全视图变化，而AR-NeRF只能学习局部视图变化。详细分析。为了进一步分析，我们检查了（1）从图像中学习散焦效应的重要性，（2）孔径光线采样方案的影响，（3）视点和散焦的同时控制，（4）更高分辨率图像的生成，（5）散焦渲染器的应用，（6）Fre′chet起始距离（FID）[28]，以及(7)深度差的梯度[14]。详见补充资料2。6. 讨论6.1. 局限性和今后的工作AR-NeRF有两个局限性，来自辐射场表示和完全无监督学习。辐射场表示法引起的限制。在辐射场表示中，计算复杂度不仅随着图像大小而增加，而且随着沿每条射线的深度而增加。因此，计算成本高于CNN GAN的计算成本（例如，AR-GAN [34]）;因此，难以应用于高分辨率图像。AR-NeRF要求每个像素有多条射线来表示孔径渲染。因此，它招致了比标准NeRF更大的计算成本，标准NeRF使用单个射线表示每个像素。通过我们的实验，我们发现AR-NeRF优于具有类似计算成本的基线NeRF（特别是pi-GAN++）。焦距深度远近图4. 失败案例。这证明了我们研究方向的正确性。然而，提高计算成本仍然是未来研究的重要课题。最近的并行研究[17，24，47，71，81，102]已经解决了降低NeRF的计算成本，并且这些方法的结合也是一个有前途的研究领域。完全无监督学习造成的限制深度和散焦效果的完全无监督学习极具挑战性，并且仍然存在一些限制。在我们的实验中，我们发现我们的模型优于或相当于在相同条件下训练的模型。然而，它的性能低于监督模型。特别是，复杂图像的应用将是困难的，因为AR-NeRF是一种生成方法，假设它可以很好地学习图像生成。此外，基于NeRF++ [103]的无界背景的使用允许表示在远平面中发生的强散焦效应。然而，当散焦模糊极强时（例如，见图4）。解决这些问题是未来研究的一个可能方向。6.2. 潜在的负面社会影响本文提出的方法，使逼真的图像的创建。这对产生误导性内容（例如，deepfake）。特别是，我们的模型可以在3D一致性方面增加虚假内容的可信度，并可能欺骗依赖于3D结构的系统，如人脸识别系统。因此，我们认为，社区必须开发技术来区分假图像和真实图像，并仔细监测相应研究领域的进展[1，45，52，57，72]。7. 结论为了推进深度和散焦效果的完全无监督学习的研究，我们引入了AR-NeRF是值得注意的，因为它可以采用散焦和视点线索在一个统一的方式表示这两个因素通过一个共同的光线跟踪框架。我们实证证明了AR-NeRF用于深度和散焦效果的无监督学习的有效性。尽管我们在这项研究中关注的是NeRF的生成变体，但我们的想法，即在NeRF中引入孔径渲染，是通用的，我们期望它的使用将拓宽NeRF在实际场景中的应用18396引用[1] Shruti Agarwal，Hany Farid，Yuming Gu，MingmingHe，Koki Nagano，and Hao Li.保护世界领导人免受深度造假。在CVPR研讨会，2019年。8[2] Matan Atzmon和Yaron Lipman。SAL：从原始数据中学习形状的符号不可知论。在CVPR，2020年。3[3] 乔纳森·T. Barron，Andrew Adams，YiChang Shih和CarlosHer nández。合成散焦的最后双边空间立体声CVPR，2015。3[4] 我知道你在想什么。萨瑟兰，迈克尔·阿贝尔，阿瑟·格雷顿。揭秘MMD GANs。在ICLR，2018年。6[5] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模型。SIGGRAPH，1999年。1[6] Ashish Bora，Eric Price和Alexandros G.迪马基斯Am-bientGAN：从有损测量生成模型。在ICLR，2018年。3[7] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。2019年，在ICLR。3[8] 作者： Rohan Chabra Lenssen ， Eddy Ilg ， TannerSchmidt ， Julian Straub ， Steven Lovegrove ， andRichard Newcombe.深度局部形状：学习局部SDF先验以进行详细的3D重建。在ECCV，2020年。3[9] 埃里克河Chan ，Marco Monteiro ，Petr Kellnhofer ，Jiajun Wu，and Gordon Wetzstein.pi-GAN：用于3D感知图像合成的周期性隐式生成对抗网络。在CVPR，2021年。二三四五六七[10] Wenzheng Chen ， Huan Ling ， Jun Gao ， EdwardSmith ， Jaakko Lehtinen ， Alec Jacobson ， and SanjaFidler.学习使用基于插值的差分渲染器预测3D对象NeurIPS，2019。二、三[11] Zhiqin Chen ， Kangxue Yin ， Matthew Fisher ，Siddhartha Chaudhuri，and Hao Zhang. BAE-NET：用于形状共分割的分支自动编码器。在ICCV，2019年。3[12] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR，2019年。3[13] Julian Chibane、Aymen Mir和Gerard Pons-Moll。用于隐函数学习的神经无符号距离场。在NeurIPS，2020年。3[14] David Eigen和Rob F

下载后可阅读完整内容，剩余1页未读，立即下载