ConditionalGenerationof3DPerceptionImagesusingCG-NeRF

152 浏览量更新于2023-10-16 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

724CG-NeRF：用于3D感知图像合成的Kyungmin Jo<$Gyumin Shim<$Sanghun Jung Soyoung YangJaegul Choo韩国科学技术高等研究院（KAIST），韩国大田{bttkm，shimgyumin，shjung13，sy yang，jchoo}@ kaist.ac.kr条件输入输出1“The person isattractive andhas archedeyebrows, andblack不同噪声码Output2水平旋转水平旋转图1：我们的方法产生了不同的3D感知输出图像，反映了各种条件输入（第一列）。对于每个条件输入，用不同噪声码生成的两个不同输出图像被示出为具有水平旋转。摘要最近基于神经辐射场（NeRF）的生成模型实现了各种3D感知图像的生成。尽管取得了成功，但其适用性可以通过结合各种类型的用户特定条件（如文本和图像）进一步扩展。在本文中，我们提出了一种称为条件生成神经辐射场（CG-NeRF）的新方法，该方法生成反映图像或文本等多模态输入条件的多视图图像。然而，从多模态条件生成3D感知图像面临若干挑战。首先，每个条件类型具有不同的信息量-例如，文本和彩色图像中的信息量是显著不同的。此外，委员会认为，[2]两位作者对这项研究的贡献相当当根据输入条件使所生成的图像多样化时，常常违反姿态一致性。为了应对这些挑战，我们提出了1）一个统一的架构，有效地处理多种类型的条件，以及2）姿态一致的多样性损失，用于生成各种图像，同时保持视图一致性。实验结果表明，该方法在各种多模态条件下均能保持一致的图像质量，与基于NeRF的生成模型相比，具有更好的保真度和多样性.1. 介绍神经辐射场（NeRF）[18]成功地解决了看不见的视图合成，这是计算机视觉中一个长期存在的问题，通过学习从文本低分辨率草图灰度彩色图像725通过可区分的绘制技术从多个视点拍摄的一组图像。因为NeRF将目标场景的3D坐标和视点作为输入，所以它能够合成视图一致的图像（即，对应于输入视点的图像）。由于NeRF的成功，这种方法已被广泛扩展到各个领域，例如视图感知视频合成[13，39]，姿势估计[34]，场景标记和理解[48]以及从单一类别图像集合中进行3D对象建模[40]。虽然这些技术仅将NeRF用于合成图像的不可见视图，但最近出现了基于生成对抗网络（GAN）[30，23，2，25，1]生成逼真多视图图像的研究。与现有的基于2D的生成模型相比，这些研究通过为给定的相机姿态生成视图一致的图像来生成3D感知图像。然而，由于生成模型在没有任何用户指定条件的情况下合成图像，因此这些研究需要测试时间优化[2]，以生成包含所需条件特征的图像，如图所示。1.克服这一点并扩展能力在现有的无条件生成NeRF模型中，我们执行3D感知图像合成，该合成反映给定的多模态条件。提出的任务，条件生成NeRF（CG-NeRF），旨在通过反射条件的特性来创建视图一致的和多样的图像。据我们所知，我们的工作是第一个解决这一任务的工作在本文中，我们提出了一种统一的方法，自适应地适用于各种条件类型，包括彩色图像，灰度图像，草图，低分辨率图像和文本，如图中的条件输入所示。1. 因为不同- 由于各种类型的条件具有不同的信息量，因此从具有统一架构的各种类型的条件生成图像是具有挑战性的。为了解决这个问题，我们为模型提供了从语义多模态编码器提取的输入条件的粗糙特征，以及额外的噪声代码来填充粗糙特征中缺失的精细细节。我们表明，我们的方法始终产生不同的照片般逼真的图像，年龄，无论条件类型在秒。4.第一章对于生成的图像的多样性，我们设计了一个模型，能够创建精细的细节，同时反映输入条件的粗糙特征。然而，与以往的无条件模型不同，输入条件可能会过度降低合成图像的多样性。虽然多样性敏感损失有助于在基于2D的条件生成模型中生成各种图像[43，3]，但在基于3D的条件生成模型中生成模型如图所示。6.为了解决这些困难，我们提出了一种新的姿势一致多样性（PD）损失，它会导致模型生成不同的图像，但明确惩罚视图不一致。概括而言，我们的贡献如下：• 我们提出了一个统一的架构，称为一致性神经辐射场（CG-NeRF），它通过反射多模态条件输入并有效地将形状和外观与输入条件分离来生成多样化和照片般逼真的图像。• 为了提高输出图像的多样性，我们提出了姿态一致的多样性（PD）损失，这有助于产生各种图像，同时保持视图的一致性。• 我们进行了大量的实验，并证明我们的统一模型生成了不同的图像，反映了各种类型的输入条件。2. 相关工作神经辐射场新视图合成领域的最新进展[18，5，9，33，45，14]这是通过使用NeRF实现的。开创性的工作[18]已经证明了NeRF体绘制的有效性，后来的研究[5，38，46]提出了对原始NeRF的进一步改进。虽然一些NeRF研究在质量和效率方面增强了原始NeRF，但我们的工作更多地与最近引起关注的生成NeRF方法有关。随着NeRF本身的改进，生成NeRF模型[30，23，2，21]也出现了。GRAF [30]提出了一种用于新场景生成的隐式辐射场生成模型。此外，GIRAFFE [23]通过以可控的方式分离对象实例来改进GRAF，这让用户获得更多的能力来构建新的场景。另一项研究pi-GAN [2]与我们的工作更密切相关，它采用SIREN [32]激活函数以及多层感知器（MLP），这在用于新场景生成时是有效的。此外，一些方法已经尝试在生成时添加条件或用户约束。少镜头新视图合成[45，20]的目标是重建从新视图观察到的图像，条件是稀疏输入图像。然而，它们在生成不同图像方面具有限制，并且它们需要地面实况多视图图像用于训练。 Edit-NeRF [15] 提出了可编辑的NeRF，它可以编辑形状和纹理通过改变潜在代码来改变输出图像。一些研究[37，4]建议基于优化的方法，可以使用真实图像或文本满足用户的约束。Dream-fields [8]是一个并发的工作，它将文本作为输入，726××联系我们∈{···}∈I^真实或虚假的姿势xpjdp图2：我们的主要架构的图示。表1中总结了符号合成图像。然而，这些方法需要测试时优化或仅处理有限类型的条件数据。因此，在这项工作中，我们提出了一种新的模型，CG-NeRF，它可以显着提高NeRF方法的适用性，并允许用户根据不同的条件生成各种场景。CLIP我们想要生成图像的条件可以以各种形式存在，通常以图像或文本的形式存在。为了同时解决这两种情况，需要一个可以采用多模态输入的模型。在这些模型中[42，35，27]，CLIP [27]显示了将文本和图像信息嵌入到同一语义空间中的令人印象深刻的能力。我们采用CLIP作为我们在各种情况下的全局特征提取器，使我们的模型广泛适用于图像和文本。3. 该方法3.1. 概述我们提出了一种新的方法称为条件生成NeRF（CG-NeRF），它可以生成相机姿态依赖的图像条件上的各种类型的输入数据。与最近从未标记的2D图像中学习神经辐射场的无条件生成模型不同，我们将生成模型扩展到利用额外信息作为输入的条件模型，例如文本，草图，灰度，低分辨率图像，甚至彩色图像。我们设计了一个模型，它可以生成具有不同细节的不同图像，共享条件输入的粗糙特征。如图在图2中，来自输入条件的全局特征向量c与从标准高斯分布p z随机采样的噪声码zs和z a一起被馈送到网络。噪声代码详细说明了给定全局中不包含的细节符号名称输入x∈R33D坐标d∈R2观看方向c ∈ R L c全局特征向量zs∈RLs形状噪声码za∈RLa外观噪声码输出γs，γa∈RLγ我我频率βs，βa∈RLβ我我相移σpj∈R密度fpj∈RLf特征向量Fp∈RLf渲染特征I，I∈RH×W×3真实/生成图像功能gθ：RLc+Ls+La+5→›R2Lf特征场生成器SM s：RLc+Ls→›RN×（Lγ+Lβ）形状映射网络一M a：RLc+La→›R（N+1）×（Lγ+Lβ）外观映射网络Φs：R3→›RLf型块Φa：RLf+2<$→R2Lf外观块表1：总结符号。 p1，，HVWV，j1，，J.J表示每条射线的采样点数。 H W和HVWV分别是图像和特征功能 . 在所提出的模型中，生成元 G θ （图 2 中的（2））。2）学习辐射场表示并合成对应于全局特征向量c和噪声码zs和za的图像，即，I=Gθ（x和观察方向d[30]。下面，我们详细描述为CG-NeRF设计的模型结构。3.2. CG-NeRF的模型架构如示于图2、主体架构由三部分组成：（1）特征提取器E，其从给定条件提取全局特征向量，（2）生成器，其通过反射条件来创建图像，以及(2)G(2-2)解码器Fp[条件]彩色图像灰度草图低分辨率文本⁝σpj线性fpj线性zhi = Na +1是个(1)Eya，我我i ∈ 1，电影警报线性× Nays，我我i ∈ 1，电影警报线性×N SzhMszsC个zla伊什电影警报线性拉瓜(2-1)g特征提取器体绘制(3)D2Dconv图像特征条件特征2Dconv2Dconv我或我^ZA C ZS空间复制…线性ReLU线性ReLU线性ReLU线性线性ReLU线性ReLU线性ReLU线性727∈∈∈aaaaΣ-其中透射率T=（1-α）。阿尔-普杰峰−∈我∈我NN1PJpNa+1Na1PJ.Σp(3)基于条件输入区分真实图像与伪图像并且针对PD损失预测伪图像的相机姿态的相机姿态估计器，这将在后面详细描述。由于CG-NeRF旨在合成条件3D感知图像，因此通过全局特征提取器E（图1中的（1））将条件输入编码为全局特征向量。2）的情况。在我们的案例中，为了从给定的条件输入中提取全局语义特征，我们采用CLIP[26]，适应各种类型的输入条件，如图像和文本，作为最先进的多模态编码器。我们通过结合两种最近有前途的技术来设计我们的生成器网络，这些技术被证明可以为生成神经辐射场任务生成高质量的图像：基于SIREN的主干[2]和特征级卷渲染方法[23]。[32]第32话网络3.3. 基于条件的解缠网络我们提出了一种新的方法，旨在解开包含在一个给定的全局特征向量的形状和外观。对于文本条件示例“round bird with a red body”，“round”和“bird”是形状，“red”是指示外观的属性。两个映射网络Ms和Ma分别用于从全局特征向量c和噪声码ZS和ZA生成形状和外观的样式。全局特征向量cRLc包含了条件的显著属性。在广播中，噪声代码zsRLs和zaRLa负责全局特征向量不包括的细节。映射网络由线性层和ReLU对组成，并产生频率γ和相移β，ssss工作架构提高了NeRF的视觉质量基于生成模型，但需要大量的数据-M（c，z）=cat{（γi，βi）}i=1···N sM（c，z）=cat{（γ，β）}i=1.N a+1，（四）由于在全图像分辨率下的颜色级体积渲染，因此用于训练的理论[2]。为了解决这个问题，我们利用最近提出的方法[23]启发的特征级体绘制。特征级体绘制过程基本上缓解了该问题，因为体绘制在特征向量f的级别，具有比图像分辨率更小的尺度。给定全局特征向量c，zs和外观za，特征场生成器gθ（图2-1）。2）在对应的x和d中产生密度σ和特征向量f，gθ（xpj，dp，c，zs，za）=（σpj，fpj），（2）其中Ns和Na表示每个块中的MLP的数量。cat表示信道级级联。预测的频率和相移被馈送到特征场生成器中的两个块Φs和Φa将这些与3D坐标x和方向d一起作为输入，两个连续块使用线性层和特征线性调制（FiLM）SIREN的激活函数对特征进行编码。由所获得的频率和相移调制的薄膜SIREN层的正弦函数作为激活函数应用于线性层的输出;也就是说，φi（yi）= sin（γi（Wiyi+bi）+βi），（5）其中σpj和fpj表示密度和特征向量。其中φi：RMi<$→RNi是每个Φs和Φa的第i个MLP。W∈RNi×Mi和b∈RNi分别是权和偏置在对应的3D坐标处分别为Fur-i iM其他细节将在下一节中描述。应用于输入yi∈Ri。功能中的两个块一旦密度σ和特征向量f由特征场生成器g θ（图2中的（2-1 ））估计，2 ）在每个3D坐标处，最终特征Fp∈RLf通过下式计算：场发生器具有以下公式：Φs（xpj）=φssφss−1（· · ·φs（xp j）），Φa（Φs（x），d）=Φa（ca t（Φa（· · ·Φa（Φs（x），d））。（六）特征级体绘制过程，JFp=Tpj αpjfpj，（3）j=1J1k=1xpj的phav值计算为α pj = 1 e − σpjδpj，δpj是沿射线方向相邻样本点之间的距离然后，通过矢量渲染过程渲染的2D特征图FRHV×WV×Lf被上采样为更高分辨率的RGB图像。第一RH×W×3使用2D卷积神经网络（CNN）解码器网络（图2-2）。2）的情况。解码器网络由具有泄漏ReLU激活函数的CNN层[41]和最近邻上采样层组成728受现有方法[30]的启发，我们将反射形状的角色分配给第一个块，靠近输入，将外观分配给第二个块，靠近输出。形状块利用3D坐标作为输入来生成形状编码特征，而外观块将前一个块的输出作为输入并生成形状和外观的编码特征。通过利用这些特征和观看方向作为输入，从外观块的最后一层生成反映观看方向的特征。3.4. 姿态一致性多样性损失由于我们的方法生成的图像条件额外的输入，输出图像的变化受到限制，特别是当一个彩色图像作为条件输入。到729ψ∈L−−∈∈ −ξ- -RzξRψz r[1 cos（D（I）D（I））]，使生成器网络能够生成语义上的双-其中，D（I）=pred=（κr，κe）。D表示助动词ψ ψ基于条件输入的反向图像，我们用多样性敏感损失正则化生成器网络[43]。它被定义为Ld iv（θ）=Ezs，zapz，p，cpr[I1−I21]，（7）其中I1是Gθ（，c，zs1，za1），I2是Gθ（，c，zs2，za2）。然而，我们根据经验发现，简单地应用多样性敏感损失会导致不期望的效果，这些效果不仅试图改变输出图像的风格，而且还试图改变输出图像的姿态（图11）。（六）。因为输出图像的姿态应该仅由输入相机姿态确定然而，输出图像中的姿势变化是一个显著的副作用。我们对这种不良现象分析如下：从发生器网络的角度来看，该模型通过两种不同的方法最大化像素差异：（1）根据需要改变输出图像的风格，或者（2）改变利用相同相机姿态生成的两个输出图像之间的姿态，这是非常不希望的。为了明确地解决这样的问题，我们提出了适用于原始多样性敏感损失的姿势正则化项，其明确地惩罚从不同噪声代码zs和za但从相同相机姿势生成的图像之间的姿势差异。所提出的正则化背后的直觉是，该模型生成两个图像以仅具有被约束为具有相同姿势的风格差异，这可以通过辅助网络额外地学习。我们建议添加正则化项L对多样性敏感损失Ldiv的影响，定义为pose（θ）=Ezs，zap，p，cp12（八）其中，D是辅助姿态估计器网络，我们另外与判别器一起训练姿态惩罚损失。该方法通过训练姿态估计器网络同时学习输出图像我们姿态估计器，并且姿态gt是用于生成姿态I的随机采样的相机姿态值。因为角度可以表示为作为周期函数，我们用余弦函数来设计姿态重建损失，以补偿角度差，解决其在2π处的不连续性。3.5.培养目标为了合成条件输出，我们通过训练一个学习匹配图像和条件特征向量的训练器来采用条件GAN [7]。如图2、通过一系列二维卷积层提取图像特征，并将图像特征与匹配条件e连接，预测条件-图像语义一致性。匹配条件eRLc+Ls+La 是与细节码z s和z a连接的全局特征向量c。特征提取层数由训练图像的分辨率决定神经网络学习给定图像是真还是假，同时匹配其条件特征向量。在训练时，我们使用具有匹配感知梯度惩罚的非饱和GAN损失[17，35]。代替R1梯度惩罚[17]，我们采用了匹配感知梯度惩罚损失，已知其可以促进生成器将更真实和语义一致的图像合成为条件图像对。我们定义了三种不同类型的数据项：具有匹配条件的合成图像、具有匹配条件的真实图像和具有失配条件的真实图像。应用梯度惩罚的目标数据点可以通过具有匹配条件特征向量的真实图像来定义。条件GAN损失的整个公式，即，Ladv（I，e）=EIpr[f（D（I，e））]+（1/2）EIpmis[f（−D（I，e））]修改我们的网络以包含辅助+（1/2）Ep，ep，p[f（−D<$（Gθ（<$，c，zs，za），e））]姿态估计器，通过调整最后一层以估计输出图像的相机姿态值。是-+kEIipr[（ID（I，e）+eD（I，e））p]，S一因为我们从先验分布p_n中随机采样相机姿态p_n以生成视图一致的图像，所以当训练姿态估计器时，采样的相机姿态被用作地面真实姿态。我们用半径r cam、旋转角κ r[[10]，而[11]。方向角κe[0，π]。假设我们使用rcam=1的固定值，姿态估计器预测旋转角和仰角，将Sigmoid函数应用于分别乘以2π和π的输出值。相机姿态重建损失定义为Lpose（）=Ezs，zap，p，cp[1−cos（D（I）−gt）]，（9）adv（θ）=E<$p<$，e<$pr，pz[f（D<$（Gθ（c，z，z），e））]（十）其中f（u）=log（1+exp（u））。PR和PMIS分别表示真实数据分布和失配数据k和p是平衡梯度惩罚效应的两个超参数我们的发电机网络Gθ的完整训练目标函数总结为L total =L adv −λ div L div + λ pose L pose，Lz730（11）其中λdiv和λpose是每个损失项的权重。731×第一名第十一名第二十一名第三十一名第四十一名第二十六名第三十二名表2：FID、精确度和召回率方面的定量比较。低FID分数意味着生成图像的分布在平均值和标准偏差方面接近真实图像的分布。高精确度分数意味着生成的图像是真实的，并且高召回分数指示生成的图像捕获真实图像的更大变化4. 实验数据集设置我们在各种数据集上评估我们的CG-NeRF，在这种情况下，CelebA [16]，CelebA-HQ [10]，FFHQ [11]，CUB-200 [36]和Cats [47]。对于条件输入，我们选择了五种不同的数据形式来考虑输入条件的不同属性，形状和外观，例如，彩色图像、灰度、草图、低分辨率图像和文本。为了从草图条件生成3D感知图像，首先我们应用Sobel滤波器从图像中提取伪草图信息[28]，然后我们应用草图简化方法[31]。对于低分辨率图像条件，我们以1/16的比率对图像应用双线性下采样。训练图像的大小调整为128 128的分辨率。为了只提取对象的全局特征，我们去除了CelebA-HQ和CUB-200数据集的背景。4.1. 实验结果据我们所知，有一个没有可比的以前的工作执行条件生成NeRF任务已公布。因此，我们将我们的模型与现有的基于NeRF的生成模型[30，23，2，4]进行定量和定性比较，以证明所提出方法的竞争性能。4.1.1定量比较为了定量评估我们的方法，我们测量三个指标：Frechet起始距离（FID）[6]，精度和召回使用公共可用的库12[24，19]。FID是评估GAN质量的最常用指标，因为它揭示了真实图像和虚假另一方面，精确度和重新-1https：//github.com/toshas/torch-fidelity2https://github.com/clovaai/generative-evaluation-prdc接近真实分布接近真实分布第1次21次41次61次81次101次121次141次接近真实分布图3：定性结果与先前关于CelebA、猫和FFHQ的研究的比较。对于每个数据集，生成的图像和真实图像之间的距离从左到右增加。为了显示不同的图像，我们根据数据集使用不同的排序间隔对结果进行采样。CelebA-HQFID↓IS↑猫FID↓IS↑彩色图像7.012.14彩色图像13.862.06灰度7.232.12灰度12.512.02草图7.012.16低分辨率19.402.13低分辨率7.912.05Cub-200FID↓IS↑文本7.312.13文本26.533.52表3：CelebA-HQ、Cats和CUB-200数据集在图像质量方面的定量比较（FID/IS），条件类型不同。call分别从保真度和多样性方面衡量GAN的质量。如表2所示，为了保证先前方法的最可靠性能，我们使用公开可用的预训练模型及其相应的实验设置来评估计算结果。基于我们测量的性能，所提出的方法在FID，精度和召回率方面表现出更好的分数相比，现有的方法的大部分。对于CelebA数据集，我们的方法在精确度上仍然具有竞争力，在FID和召回率上也具有最佳性能。4.1.2定性比较图3显示了我们的方法与其他基于NeRF的生成模型在视觉质量方面的比较。为了进行公平的比较，根据精度的定义[12]，我们按照真实图像流形中存在的假图像中与真实图像最近距离的顺序选择图像。由于图像的高维性和语义的缺乏，我们我们的风格NeRF皮甘长颈鹿格拉夫数据集策勒BACAts方法图像决议FID↓ 精密度↑回忆↑图像决议FID↓ 精密度↑回忆↑格拉夫12866.370.710.006413.730.860.20长颈鹿6424.110.880.086416.050.740.37皮甘12821.380.720.4512822.570.610.25我们647.810.870.5012813.860.910.521289.320.860.47数据集FFHQCub-200方法图像决议FID↓精密度↑回忆↑图像决议FID↓ 精密度↑回忆↑格拉夫----6441.650.800.09StyleNeRF25622.0540.5010.470----我们25610.0200.8660.49812826.530.820.22732输入平均随机形状/外观图4：各种条件输入的定性结果。对于每种条件类型，用零值噪声代码生成的平均输出图像和从五个不同形状噪声代码（在行1中）和外观噪声代码（在行2中）生成的输出图像被可视化。RGB空间中的控制点。为了在所有方法中显示不同的图像，图像以距离等级间隔进行采样。我们的方法显示了竞争力的视觉质量无关的数据集（图。（3）第三章。4.1.3各种条件类型在本节中，我们执行实验来分析我们的方法的训练行为，这取决于输入条件类型。我们将结果与五种不同类型的条件输入进行比较，以验证我们的方法产生一致的生成性能。如图4.由于彩色图像在五种不同的条件类型中具有最大量的条件信息，因此限制了随机噪声码生成的输出图像的风格变化范围。相比之下，弱条件（如文本或低分辨率图像）在其结果中显示随机形状或外观的动态变化。为了从条件类型的角度定量评估我们的方法，我们测量了FID [6]和初始评分（IS）[29]，如表3所示。对于每个数据集，我们的方法在所有类型的输入条件下始终保持高视觉质量。(a) 在没有PD损失的情况下训练（b）在有PD损失的情况下训练图5：PD损失的定性分析。连同用红色矩形可视化的条件输入（行1中的灰度，行2中的草图），用不同的噪声代码生成的11个输出图像被可视化。无PDloss关于PDloss条件类型精密度↑回忆↑精密度↑回忆↑彩色图像0.8990.5200.9000.550灰度0.8970.5320.9000.536草图0.9040.5470.8920.567低分辨率0.9100.4970.8960.514文本0.8980.4890.8910.510平均0.9020.5170.8950.535表4：在CelebA-HQ数据集上，PD损失对分别用于测量保真度和多样性的精确度和召回率的影响。4.2. 实验分析4.2.1增强多样性由于本文提出的PD损失可以提高生成的图像的多样性，我们分析了PD损失的效果，采取召回率和精度测量。如表4所示，作为应用PD损失的结果，召回值提高了约3.5%，并且精确度显示出平均约0.77%的下降，显示出视觉质量的最小退化。此外，在所有条件下，召回率都有所提高;特别地，对于颜色和灰度条件设置，提高了查准率和查全率。从这个结果来看，应用PD损失可以增加多样性，同时保持相似的保真度结果。图5可视化了具有和不具有PD损失的情况的定性比较的结果。PD损失鼓励模型生成与没有这种损失的图像更多样化的图像，不仅在头发和皮肤颜色上，而且在照明上。“The person issmiling and hasgray733左视图Canonical view右视图左视图规范视图右视图“This“This colorful bird has a long, flat beak and羽毛”没有姿势惩罚的训练图7：CUB-200数据集中的多视图输出图像（第二行）。相应的输入文本位于第一行。接受姿势惩罚训练1614121086420(a) 在没有和有姿势惩罚的情况下训练不带姿势惩罚带姿势惩罚旋转角度仰角角度(b) 头部姿势的标准偏差相同视图图像的角度偏差。注意，旋转角的标准偏差的差异大于仰角的差异，因为先前相机姿态分布具有更宽的旋转角范围4.2.3CUB-200的结果图7示出了针对文本输入条件的CUB-200数据集的定性结果。我们所提出的模型成功地利用上下文信息在给定的文本输入，以生成有条件的多视图图像。然而，对于大多数基于Example NeRF的生成模型，我们根据经验发现，CUB-200数据集的视觉质量在某些视角范围内会下降。我们假设性能下降来自先验相机姿态分布与真实相机姿态分布之间的较大差异，如[22]所述。我们计划在今后的工作中处理这一问题。图6：当附加多样性时，姿势惩罚的效果-训练时的敏感损失如（a）中所示，对于在没有姿势惩罚的情况下训练的结果，规范视图随着不同形状噪声码被采样而变化。相比之下，使用姿势惩罚训练的结果保持了具有不同形状噪声代码的规范视图（b）示出了随机生成的规范视图图像的头部姿态的标准偏差4.2.2姿势惩罚为了验证我们的方法中与多样性敏感损失相关的姿势惩罚的重要性[43]，我们进行了一项消融研究，以确认在训练时附加多样性敏感损失时姿势惩罚的效果。如图如图6（a）所示，仅多样性敏感损失就阻止了网络正确学习对象的规范视图。这意味着该模型最大化像素级差异，从而导致输出图像的姿态差异，这是不期望的效果。在PD损失的情况下，网络正确地学习最大化风格差异，同时保持姿势。为了进行定量验证，我们使用预先训练的头部姿势估计器测量随机生成的标准视图图像的头部姿势[44]。如图6（b），通过显示较低的标准，与没有姿势罚分的结果相比，具有姿势罚分的视图一致性保持了很大的幅度5. 结论在本文中，我们提出了一种新的条件生成模型称为CG-NeRF，它采取了现有的生成NeRF到一个新的水平。CG-NeRF创建反映多模态条件输入（如草图或文本）的照片真实感视图一致图像。我们的框架还有效地从条件中提取形状和外观，并通过噪声代码添加细节来生成不同的图像。此外，我们提出了PD损失，以提高各种生成的图像，同时保持视图的一致性。实验结果表明，我们的方法实现了国家的最先进的性能定性和定量的基础上的质量指标FID，精确度和召回。此外，所提出的方法生成各种图像，反映的条件类型的形状和外观方面的属性。致谢本研究得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（No.2019-0-00075，人工智能研究生院计划（KAIST））、韩国国家研究基金会（No.2019-0-00075，人工智能研究生院计划（KAIST））和韩国国家研究基金会（No.2019 - 00075，人工智能研究生院计划（ KAIST ））的支持。 2022 R1 A2 B5 B0200191311），以及KAIST-NAVER hypercre-人工智能中心。13.986.435.183.61不同的zs不同的zs标准差（度）734引用[1] 埃里克河Chan，Connor Z.作者：Matthew A. Chan，Koki Nagano，Boxiao Pan，Shalini De Mello，OrazioGallo ， Leonidas Guibas ， Jonathan Tremblay ， SamehKhamis，Tero Karras，and Gordon Wetzstein.高效的几何感知3D生成对抗网络。在proc IEEE计算机视觉和模式识别会议（CVPR），2022年。[2] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein.pi-gan：周期性隐式生成对抗网络用于3D感知图像合成。在IEEE计算机视觉和模式识别会议论文集，第5799-5809页[3] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2 ：多领域的多样化图像合成。在procIEEE计算机视觉和模式识别会议（CVPR），2020年。[4] Jiatao Gu ， Lingjie Liu ， Peng Wang ， and ChristianTheobalt. Stylenerf：一个基于样式的3D感知生成器，用于高分辨率图像合成。 arXiv 预印本 arXiv ：2110.08985，2021。[5] Peter Hedman，Pratul P.放大图片创作者：Jonathan T.Barron和Paul Debevec。烘焙神经辐射场用于实时视图合成，2021年。[6] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。 Proc. 神经信息处理系统（NeurIPS）的进展，2017年30日。[7] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。IEEE计算机视觉和模式识别会议（CVPR），第1125-1134页，2017年。[8] Ajay Jain，Ben Mildenhall，Jonathan T Barron，PieterAbbeel，and Ben Poole.零射击文本引导对象生成与梦想领域。arXiv预印本arXiv：2112.01455，2021。[9] Ajay Jain Matthew Tancik 和 Pieter Abbeel 。让 nerf 节食：语义一致的少数镜头视图合成，2021年。[10] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长arXiv预印本arXiv：1710.10196，2017。[11] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。IEEE计算机视觉和模式识别会议（CVPR），第4401-4410页[12] Tumas K yn kaéaénniemi、Tero Karras 、Samuli Laine 、Jaak k oLehtinen和Timo Aila。改进了用于评估生成模型的精度和召回度量。 arXiv 预印本 arXiv ： 1904.06991 ，2019。[13] Zhengqi Li，Simon Niklaus，Noah Snavely，and OliverWang.神经场景流场用于动态场景的时空视图合成IEEE计算机视觉和模式识别会议（CVPR），第6498-6508页，2021年。[14] David B Lindell，Julien NP Martel，Gordon Wetzstein.Autoint：自动集成快速神经体积渲染。在proc 的IEEE计算机视觉和模式识别会议（CVPR），第14556-14565页，2021。[15] Steven Liu，Xiuming Zhang，Zhoutong Zhang，RichardZhang，Jun-Yan Zhu，and Bryan Russell.编辑条件辐射场。在proc IEEE国际计算机视觉会议（ICCV），第5773-5783页，2021年。[16] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性在proc IEEE国际计算机视觉会议（ICCV），2015年12月。[17] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？在proc 国际机器学习会议（ICML），第3481-3490页。PMLR，2018。[18] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议（ ECCV ），第 405-421 页。Springer，2020年。[19] Muhammad Ferjad Naeem、Seong Joon Oh、YoungjungUh、Yunjey Choi和Jaejun Yoo。用于生成模型的可靠的保真度和2020年。[20] MichaelNiemeyer ， JonathanTBarron ， BenMildenhall ，Mehdi SM Sajjadi ，Andreas Geiger，andNoha Radwan.Reg- nerf：正则化神经辐射场，用于从稀疏输入进行视图合成。在Proc. of IEEE conference oncomputer vision and pattern recognition（CVPR），第5480- 5490页[21] Michael Niemeyer和Andreas Geiger。坎帕里酒：摄像头感知分解生成神经辐射场，2021年.[22] Michael Niemeyer和Andreas Geiger。坎帕里酒：摄像头感知的分解生成神经辐射场.arXiv预印本arXiv：2103.17269，2021。[23] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。在proc 的IEEE计算机视觉和模式识别会议（ CVPR），第11453-11464 页，2021。[24] Anton Obukhov ， Maximilian Seitzer ， Po-Wei Wu ，Semen Zhydenko，Jonathan Kyl，and Elvis Yu-Jing Lin.Py-torch中生成模型的高精度性能指标，2020年。版本：0.3.0，DOI：10.5281/zenodo.4957738。[25] Roy Or-El，Xuan Luo，Mengyi Shan，Eli Shechtman，Jeong Joon Park ， and Ira Kemelmacher-Shlizerman.Stylesdf：高分辨率三维一致性图像和几何图形生成。在 proc的 IEEE 计算机视觉和模式识别会议（CVPR），第13503-13513页，2022。[26] Alec Radford，Jong Wook Kim，Chris Hallacy，AdityaRamesh ， Gabriel Goh ， Sandhini Agarwal ， GirishSastry，Amanda Askell，Pamela Mishkin，Jack Clark，et al.从自然语言监督

下载后可阅读完整内容，剩余1页未读，立即下载