CLIP-NeRF：基于文本和图像操作的神经辐射场编辑

88 浏览量更新于2023-10-25 收藏 16.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

*138350CLIP-NeRF：基于文本和图像的神经辐射场操作0Can Wang 1, Menglei Chai 2, Mingming He 3, Dongdong Chen 4, Jing Liao 1, †01 香港城市大学 2 Snap Inc. 3 USC创意技术研究所 4 微软云AI0cwang355-c@my.cityu.edu.hk, cmlatsim@gmail.com, hmm.lillian@gmail.com0cddlyf@gmail.com, jingliao@cityu.edu.hk0摘要0我们提出了CLIP-NeRF，一种用于神经辐射场（NeRF）的多模态3D物体操作方法。通过利用最近的对比语言-图像预训练（CLIP）模型的联合语言-图像嵌入空间，我们提出了一个统一的框架，可以以用户友好的方式操纵NeRF，使用短文本提示或示例图像。具体而言，为了结合NeRF的新视角合成能力和生成模型中潜在表示的可控制操作能力，我们引入了一个分解条件NeRF架构，允许对形状和外观进行个别控制。这通过将学习到的变形场应用于位置编码来实现形状条件，将颜色条件推迟到体积渲染阶段来实现。为了将这种分解的潜在表示与CLIP嵌入相连接，我们设计了两个代码映射器，它们将CLIP嵌入作为输入，并更新潜在代码以反映目标编辑。这些映射器通过基于CLIP的匹配损失进行训练，以确保操作的准确性。此外，我们提出了一种逆优化方法，可以将输入图像准确投影到潜在代码上，以实现对真实图像的编辑。我们通过对各种文本提示和示例图像进行广泛实验来评估我们的方法，并提供了一个直观的界面进行交互式编辑。01. 引言0随着3D资源的爆炸式增长，对于通过操纵3D内容实现多功能再创作的需求正在迅速增长。虽然大多数现有的3D编辑方法是基于显式3D表示[7, 15,45]进行操作的，但最近隐式体积表示在捕捉方面取得了进展。0* † 通讯作者：JingLiao。我们的项目页面是https://cassiepython.github.io/clipnerf/0渲染专用的3D结构[9, 14, 16, 23, 27,34]激发了对从这些表示中获得操作的研究的兴趣。在这些工作中，神经辐射场（NeRF）[23]利用体积渲染技术为高质量的新视角合成渲染神经隐式表示，为3D内容提供了理想的表示。0然而，编辑NeRF（例如，改变形状或改变外观颜色）是一项极具挑战性的任务。首先，由于NeRF是针对每个场景优化的隐式函数，我们无法使用直观的工具直接编辑形状，这些工具适用于显式表示[35,40-42]。其次，与图像操作不同，图像操作只需单视图信息即可指导编辑[20, 43,44]，NeRF的多视图依赖性使得操纵更加难以控制，没有多视图信息。最近的一些工作提出了条件NeRF[36]，它在一类形状上训练NeRF，并通过潜在空间插值实现操纵。基于条件NeRF，Edit-NeRF[21]首次尝试通过用户涂鸦来编辑NeRF的形状和颜色。然而，由于其在形状操纵方面的能力有限，只允许添加或删除对象的局部部分。除了实现更引人注目和复杂的操作外，我们还希望以更直观的方式编辑NeRF，例如使用文本提示或单个参考图像。0在本文中，我们探索了如何在统一的框架中根据文本提示或参考图像单独操纵NeRF的形状和外观。我们的框架建立在一种新颖的解缠条件NeRF架构上，该架构由一个形状代码和一个外观代码组成的潜在空间控制。形状代码指导学习变形场，将体积变形为新的几何形状，而外观代码允许控制体积渲染的发射颜色。基于我们的解缠NeRF模型，我们利用最近提出的对比语言-图像预训练（CLIP）模型[33]来学习两个代码映射器，将CLIP特征映射到潜在空间以进行形状或外观代码的操作。具体而言，给定文本提示或示例图像作为条件，我们使用预训练的CLIP模型提取特征，将特征输入代码映射器，并产生潜在空间中的局部位移以编辑形状和外观代码以反映编辑结果。我们设计了基于CLIP的损失函数，以强制输入约束和输出渲染之间的CLIP空间一致性，从而支持高分辨率的NeRF操作。此外，我们提出了一种基于优化的方法，通过反向优化形状和外观代码来编辑真实图像。总之，我们的工作有以下贡献：• We propose an inversion method to infer the shape andappearance codes from a real image, allowing editingthe shape and appearance of the existing data.238360•我们通过引入形状代码来设计了一种解缠条件NeRF架构，用于变形体积场，并引入外观代码来控制发射颜色。0•我们提出了第一个基于文本和图像驱动的NeRF操作方法，使用统一的框架，通过文本提示或示例图像为用户提供对3D内容的灵活控制。0•我们提出了一种反演方法，从真实图像中推断出形状和外观代码，允许编辑现有数据的形状和外观。0•我们的前馈代码映射器相对于基于优化的编辑方法[21]，可以快速推理出对同一类别中不同对象的编辑。02. 相关工作0NeRF和NeRF编辑。过去几年中，使用神经网络对3D模型进行隐式表示取得了巨大进展[9，14，16，23，27，34]。其中，NeRF[23]是其中的代表之一，它通过MLP网络的权重对形状和视角相关的外观进行连续体积表示。由于其在捕捉高分辨率几何形状和渲染逼真新视图方面的强大能力，NeRF越来越受欢迎。NeRF的成功也启发了许多后续工作，将NeRF扩展到动态场景[8，29，32，39]、重新照明[3，38]、生成模型[4，13，24，36]等。此外，DietNeRF[12]设计了一个CLIP语义一致性损失来改进少样本NeRF，并呈现出令人印象深刻的结果，GRAF[36]首次采用形状和外观代码有条件地合成NeRF，这激发了我们的对抗训练。尽管取得了上述成果，使用NeRF表示的3D模型非常不直观且难以编辑，因为它由数百万个网络参数表示。为了解决这个问题，开创性的工作EditNeRF[21]定义了一个0条件性NeRF，其中由NeRF编码的3D对象受到形状代码和外观代码的约束。通过优化这两个潜在代码的调整，可以实现对形状和外观颜色的用户编辑。然而，这种方法在形状操作方面的能力有限，因为它只支持添加或删除对象的局部部分。此外，EditNeRF[21]的编辑过程由于其迭代优化的性质而较慢。与EditNeRF[21]相比，我们的方法在三个方面不同。首先，我们的方法在形状操作方面提供了更多的自由度，并支持全局变形。其次，通过学习两个前馈网络将用户编辑映射到潜在代码，我们的方法允许快速推理进行交互式编辑。此外，与EditNeRF[21]中使用的用户涂鸦不同，我们引入了两种直观的NeRF编辑方式：使用简短的文本提示或示例图像，这对初学者更友好。CLIP驱动的图像生成和操作。我们工作的一个重要组成部分是CLIP[33]，它通过在共享潜在空间中将文本和图像联系在一起，以对比学习的方式将它们靠近。在CLIP模型的推动下，提出了一些基于文本驱动的图像生成和操作方法。Perez[31]将CLIP和StyleGAN[17，18]结合起来，通过优化预训练的StyleGAN的潜在代码，根据在CLIP空间中定义的文本条件合成图像。Style-CLIP[30]引入了一个基于文本的界面，用于允许使用文本提示对真实图像进行操作。除了将CLIP应用于GAN模型外，DiffusionCLIP[19]将扩散模型[37]与CLIP结合起来进行基于文本驱动的图像操作。它在模式覆盖和训练稳定性方面具有与基于GAN的图像操作方法相当的性能。然而，所有这些方法只探索了CLIP的文本引导能力，而我们的方法通过充分利用CLIP的能力，将文本和图像驱动的操作统一到一个模型中。此外，这些方法仅限于图像操作，并且由于缺乏3D信息而无法鼓励多视角一致性。相比之下，我们的模型将NeRF与CLIP相结合，从而以一致的方式编辑3D模型。03. 方法0在本节中，我们从条件NeRF（§3.1）的一般公式开始，作为一个由形状和外观代码条件控制的3D生成模型。然后，我们介绍我们的解耦条件NeRF模型（§3.2），它能够单独控制形状和外观的操作。接下来，我们介绍了利用CLIP的多模态能力驱动NeRF操纵的框架（§3.3），包括使用文本提示或图像示例以及训练策略（§3.4）。最后，我们提出了一种反演方法（§3.5），通过新颖的潜在优化方法对形状和外观代码进行实际图像的编辑。1/0γ∗(p, Δp)k = γ(p)k + tanh(Δpk),(3)338370变形网络0位置编码0外观代码0密度0实图像0CLIP图像/文本编码器0相似性0形状映射器外观映射器0�一辆绿色SUV�0解耦条件NeRF0判别器0CLIP驱动的操纵0训练策略0或0输入0R0输出0形状代码形状代码0视角方向视角方向0CLIP图像/文本编码器0D0图1.所提方法的框架。我们的模型首先学习一个解耦的条件NeRF，它将位置编码、视角方向、形状代码和外观代码作为输入，并输出渲染图像，而形状代码旨在通过变形网络对体积场进行变形。这个解耦的条件NeRF是通过对抗训练方式进行训练的。然后，给定参考图像或文本提示，CLIP图像或文本编码器提取相应的形状和外观映射器的特征嵌入，以在形状和外观操纵的潜在空间中学习局部步骤。这两个映射器使用我们预训练的解耦条件NeRF进行CLIP相似性损失训练。0方法（§3.5）允许通过对形状和外观代码进行新颖的潜在优化方法来编辑真实图像。03.1. 条件NeRF0基于原始的场景NeRF，条件NeRF作为一个生成模型用于特定对象类别，以形状和外观的潜在向量为条件。具体而言，条件NeRF表示为一个连续的体积函数Fθ，它将一个5D坐标（空间位置x（x，y，z）和视角方向v（φ，θ）），以及一个形状代码zs和一个外观代码za，映射到一个体积密度σ和一个视角相关的辐射c（r，g，b），由多层感知机（MLP）参数化。条件NeRF的一个简单公式F'θ（∙）可以表示为：0F'θ（x，v，zs，za）：�Γ（x）⊕zs，Γ（v）⊕za�→（c，σ），（1）0其中⊕是连接运算符。这里Γ（p）=�γ（p）|p∈p�是将向量p的每个坐标p分别投影到高维空间的正弦位置编码。编码函数γ（∙）：R→R2m的每个输出维度定义为：0γ（p）k =0�sin（2kπp），如果k是偶数，cos（2kπp），如果k是奇数，（2）0其中k∈{0，...，2m-1}，m是控制频带总数的超参数。03.2. 解耦条件NeRF0前述的条件NeRF确实为NeRF架构引入了条件生成能力。然而，这种简单的公式F'θ（Eq.1）在形状和外观条件之间存在相互干扰，例如，操纵形状代码也可能导致颜色变化。鉴于这个问题，我们提出了我们的解耦条件NeRF架构，通过适当解耦条件机制来实现对形状和外观的个体控制。条件形状变形。我们提出通过对输入位置进行显式体积变形来表达形状条件，而不是直接将潜在形状代码与编码位置特征进行连接。这种条件形状变形不仅提高了操纵的鲁棒性，并通过将输出形状规范化为基本形状的平滑变形，尽可能地保留了原始形状细节，更重要的是完全隔离了形状条件对外观的影响。为此，我们设计了一个形状变形网络T：（x，zs）→Δx，它将位置x和输入zs投影到与位置编码Γ（x）的每个频带对应的位移向量Δx∈R3×2m。因此，定义了变形的位置编码Γ�（p，zs）={γ�（p，Δp）|p∈p，Δp∈T（p，zs）}：0其中标量 p 和向量 Δ p ∈ R 2 m 属于 p 和 Δ p的相同轴。双曲正切函数. . .. . .0.0720.069Fθ(x, v, zs, za) : Γ ∗(x, zs), Γ(v) ⊕ za → (c, σ). (4)438380对象内的余弦距离0对象间的余弦距离0图2.CLIP的多视角一致性评估。我们随机选择两辆汽车，并测量它们在相同视角下的配对CLIP余弦距离，以及在不同随机视角下的相同汽车。尽管相机姿态变化很大，但相同对象的不同视角具有更高的相似性（较小的距离）。但不同对象的相似性较低（较大的距离），即使在相同的视角下也是如此。0tanh( ∙ ) 用于将位移限制在 [ − 1 , 1]的范围内，这有助于避免由于大运动引起的较差的局部最小值，并增加训练的鲁棒性。延迟外观调整。在NeRF中，首先根据位置预测密度函数，然后根据位置和视角预测辐射度。与Graf [36]和EditNeRF[21]类似，我们还推迟外观调整，将外观代码与视角方向连接起来作为输入传递给辐射度预测网络，这允许在不触及形状信息（即密度）的情况下操纵外观。总体而言，如图1所示，我们的解耦条件NeRF F θ ( ∙ ) 定义如下：0为了简化表示，我们使用 F θ ( v , z s , z a ) = � F θ ( x , v , z s , z a ) | x ∈ R � 表示具有视口 R 的整个图像的渲染。03.3. CLIP驱动的操作0通过使用我们的解耦条件NeRF（Eq.4）作为生成器，我们现在介绍如何将CLIP模型整合到流程中，以实现对形状和外观的文本驱动操作。为了避免为每个目标样本优化形状和外观代码，这往往是多功能和耗时的，我们采用前馈方法直接从输入文本提示更新条件代码。具体而言，给定输入文本提示 t 和初始形状/外观代码 z ′ s / z ′a，我们训练一个形状映射器 M s 和一个外观映射器 M a来更新代码，如下所示：0z s = M s � ˆ E t ( t ) �0z a = M a � ˆ E t ( t ) � + z ′ a, (5)0其中 ˆ E t ( ∙ )是预训练的CLIP文本编码器，将文本投影到CLIP嵌入特征空间，两个映射器将此CLIP嵌入映射到更新原始形状和外观代码的位移向量。此外，鉴于CLIP包括映射到联合嵌入空间的图像编码器和文本编码器，我们定义了一个跨模态的CLIP距离函数 D CLIP ( ∙ , ∙ )来衡量输入文本和渲染图像块之间的嵌入相似性：0D CLIP ( I , t ) = 1 − � ˆ E i ( I ) , ˆ E t ( t ) �,(6)0其中 ˆ E i ( ∙ ) 和 ˆ E t ( ∙ )是预训练的CLIP图像和文本编码器，I 和 t是输入图像块和文本，�∙ , ∙�是余弦相似性运算符。不失一般性，这里我们假设操纵控制来自文本提示t。然而，我们的距离也可以扩展到衡量两个图像或两个文本提示之间的相似性。因此，我们的框架自然支持使用图像示例进行编辑，只需在上述方程中将文本提示替换为该示例即可。讨论。使用基于图像的CLIP模型进行NeRF操作的一个自然问题是，CLIP特征在不同视角下是否稳定，并且它能否区分对象差异。为了评估这一点，我们随机选择两个对象（例如SUV和吉普车），并测量相同对象的不同视角之间的CLIP空间余弦距离，以及相同视角下不同对象之间的距离。如图2所示，我们发现该距离对小的对象差异更敏感，而对大的视角变化不敏感。这表明预训练的CLIP模型具有支持三维感知应用的视角一致性表示的能力。DietNeRF[12]也发现了类似的观察结果，并应用于三维重建。03.4. 训练策略0我们的流程分为两个阶段进行训练：首先训练解耦的条件NeRF，包括条件NeRF生成器和变形网络；然后固定生成器的权重，训练CLIP操作部分，包括形状和外观映射器。解耦的条件NeRF。我们的条件NeRF生成器Fθ与变形网络一起使用非饱和GAN目标[22]和鉴别器D进行训练，其中f(x) =-log(1 +exp(-x))，λr是正则化权重。假设真实图像I形成了d的训练数据分布，我们随机从Zs、Za和Zv中分别采样形状代码zs、外观代码za和相机姿态，其中Zs和Za是正态分布，Zv是上半球。Yellow carOrange carPurple carBlue carSourceSource(a) Color editing of EditNeRF(b) Color editing of oursDining chair(d) Shape editing of oursWood chairSourceSource(c) Shape removal of EditNeRF538390相机坐标系。0LGAN = E zs�Zs, za�Za, v�Zv � f � D(Fθ(v, zs, za))��0+ EI � d � f � - D(I) + λr∥�D(I)∥2��. (7)0CLIP操作映射器。我们使用预训练的NeRF生成器Fθ、CLIP编码器{ˆEt,ˆEi}和鉴别器D来训练CLIP形状映射器Ms和外观映射器Ma。除了映射器之外，所有网络权重都被固定，表示为{ˆ∙}。与第一阶段类似，我们随机从各自的分布中采样形状代码zs、外观代码za和相机姿态v。此外，我们从预定义的文本库T中采样文本提示t。通过使用我们的CLIP距离DCLIP（Eq.6）和权重λc，我们使用以下损失函数训练映射器：0L shape = f � ˆ D � ˆ F θ � v, Ms(ˆ Et(t)) + zs, za��+0λcDCLIP � ˆFθ�v, Ms(ˆEt(t)) + zs, za�, t�, (8)0L appear = f � ˆ D � ˆ F θ � v, zs, Ma(ˆ Et(t)) + za��+0λcDCLIP � ˆFθ�v, zs, Ma(ˆEt(t)) + za�, t�. (9)03.5. 逆向操作0到目前为止，我们介绍的操作流程适用于具有已知条件的初始样本，包括形状和外观代码。要将操作应用于属于相同训练类别的输入图像Ir，关键是首先优化所有生成条件，以逆向投影图像到生成流形，类似于潜在图像操作方法[1, 2, 10,26]。根据EM算法[5]，我们设计了一种迭代方法来交替优化形状代码zs、外观代码za和相机v。具体而言，在每次迭代中，我们首先通过以下损失函数在保持zs和za不变的情况下优化v：0L v = 通过最小化�� ˆ F θ (v, ˆ zs,ˆ 0λvDCLIP � ˆFθ(v, ˆzs, ˆza), Ir�. (10)0然后通过最小化来更新形状代码：0Ls = 通过最小化�� ˆFθ(ˆv, zs + λnzn,ˆz0λs D CLIP � ˆ F θ (ˆ v, zs + λnzn, ˆ za), Ir�, (11)0其中za和v是固定的，zn是在每个步骤中随机采样的随机标准高斯噪声向量，以提高优化的鲁棒性，λn通过整个优化迭代线性衰减从1到0。外观代码以类似的方式更新：0L a = 通过最小化�� ˆ F θ (ˆ v, ˆ z s, za +λ0λaDCLIP � ˆFθ(ˆv, ˆzs, za + λnzn), Ir�, (12)0图3. 与EditNeRF相比。0椅子汽车0形状外观形状外观0EditNeRF 30.0 15.9 33.2 16.8 我们的 0.58 0.51 2.121.980表1. 在20张图像上对比EditNeRF[21]的编辑时间（平均值）。我们只包括椅子（128×128像素）和汽车（256×256像素）的推理/优化时间和单视图渲染时间。04. 实验0数据集。我们在两个公共数据集上评估我们的方法：Photoshapes [28,36]和Carla。Photoshapes数据集包含150K个128×128像素的椅子，遵循[25]的渲染协议，Carla数据集包含10K辆256×256像素的汽车，使用驾驶模拟器[6,36]进行渲染。每个对象在没有提供任何相机姿态参数的情况下以随机视角进行渲染。实现细节。我们的条件NeRF是一个8层MLP，每层包含256个隐藏单元，输入维度为64。按照NeRF的默认架构[23]，我们还使用ReLU激活函数。变形网络是一个4层MLP，使用ReLU激活函数和每层256个隐藏单元。它以128维形状代码zs作为输入，zs∈R128。我们还使用128维的外观代码za，za∈R128。形状和外观映射器都是具有ReLU激活函数的2层MLP。每个映射器的通道大小分别为128、256和128。鉴别器的实现遵循PatchGAN[11]。我们使用Adam优化器和初始学习率为10^-4来训练网络。学习率每50K步衰减0.5倍。在反演中，我们还使用Adam优化器，学习率从10^-3开始，每100步减少0.75倍。此外，λr = 0.5，λv = 0.1，λs = λa =0.2。所有模型都在NVIDIA V100 GPU平台上进行训练。SourceSUVSourceSofa chairOursw/o disentanglementw/o disentanglementOurs638400图4.解耦实验。我们展示了使用我们的解耦技术和不使用我们的基线方法的文本和示例驱动的形状编辑结果。在编辑形状时，后者可以改变外观，而我们的方法保持外观不变。04.1. 与EditNeRF相比0我们与NeRF编辑的开创性工作EditNeRF[21]在形状和外观颜色的编辑上进行比较，结果如图3所示。对于Photoshapes数据集，EditNeRF使用600个实例进行训练，每个实例有40个视图，而我们只使用一个视图。对于Carla数据集，EditNeRF使用10K辆汽车，每个实例只有一个视图，与我们的情况相同。此外，EditNeRF在训练过程中需要相机姿态参数，而我们不知道。我们首先比较EditNeRF和我们的方法的能力和性能。对于颜色编辑（图3-(a)），EditNeRF要求用户选择目标颜色，并在局部区域上绘制粗略的涂鸦。通过粗略涂鸦创建的前景和背景掩码，EditNeRF通过优化外观代码和条件NeRF来实现目标颜色的外观编辑。我们观察到EditNeRF的编辑结果上出现了不自然的颜色效果（例如，车门上的不连续性），生成的颜色与目标颜色并不完全一致。相比之下，我们允许用户通过提供文本提示更简单地改变颜色，我们的方法产生了更自然的编辑结果（图3-(b)）。对于形状编辑（图3-(c)），EditNeRF只能支持局部形状编辑，例如删除形状的一部分。给定用户的编辑涂鸦，例如指示删除椅子的一条腿（在红色矩形中），EditNeRF优化网络中的几层以适应输入视图中的形状，但无法确保成功传播到未见视图（在蓝色矩形中）并保持其他部分的结构完整（在绿色矩形中）。相比之下，我们的方法支持大范围的形状变形，并且在未见视图上具有良好的泛化能力（图3-(d)）。此外，EditNeRF作为0没有CLIP EditNeRF的真实图像0图5. 我们的反演方法的消融研究和与EditNeRF的比较。0基于优化的方法需要大量时间进行优化，而我们的前馈代码映射器可以更快地推断目标形状和外观（表1）。为了定量评估编辑后图像质量的保留程度，我们计算了2K个测试图像在编辑前后的FID分数。由于每个实例训练了40个视图，EditNeRF在椅子数据集上在编辑前的重建效果更好，但其编辑明显降低了图像质量，而我们的方法确保了编辑前后的质量可比。在汽车数据集上，EditNeRF的性能显著下降，因为训练中每个实例只使用了一个视图。在相同的设置下，我们的模型大幅提高了重建质量，并在编辑过程中保持了质量。由于EditNeRF需要用户的形状编辑涂鸦，并且很难生成具有随机条件的大量结果，我们在形状编辑的比较中将其排除在外，而我们的方法无论编辑形状还是颜色都表现出色。我们还与EditNeRF在反演结果上进行了比较（图5）。EditNeRF通过对标准NeRF进行微调来推断形状和外观编码，使用了NeRF光度损失。我们的基于优化的反演方法通过利用CLIP提供的多视角一致性表示效果更好（第3.3节和4.2节中有更多讨论）。04.2. 消融研究0我们评估了我们的模型带有和不带有解耦设计（第3.2节）。在图4中，训练没有条件形状变形网络（即w/odisen.）的模型在进行形状编辑时经常引入颜色变化。相比之下，我们的解耦条件NeRF能够实现个体形状控制，因为条件形状变形网络能够隔离形状控制。SourceLong carMini carSUVJeepRed carYellow carGreen carPurple carBlue carOrange carSourceSofa chairThrone chairSmall chairSolid back chairWood chairRed chairYellow chairPink chairPurple chairBlue chairOrange chairSports carShape editingShape editingAppearance editingAppearance editing738410图6. 文本驱动的编辑结果。0椅子汽车0编辑前编辑后差异编辑前编辑后差异0（a）EditNeRF 36.8 40.2 3.4 102.8 118.7 15.9 w/o disen. 52.5 54.31.8 69.2 69.9 0.7 Ours 47.8 49.0 1.2 66.7 67.2 0.50（b）w/o disen. 52.5 53.2 0.7 69.2 71.1 1.9 Ours 47.8 48.4 0.6 66.767.8 1.10表2.用于评估重建视图在颜色和形状上编辑前后图像质量的Fr´echetinception距离（FID）：（a）颜色和（b）形状（较低的值表示质量更好）。我们使用从潜在空间随机绘制的各种视图的2K张图像来计算重建图像的FID，然后对这些图像进行各种编辑以重新计算编辑结果的FID。由于EditNeRF需要用户的形状编辑涂鸦，因此我们在形状操作的比较中将其排除在外。w/odisen.是我们的模型的一种变体，没有用于解开形状和外观控制的形状变形网络。0通过从外观控制中解耦形状控制并变形基础体积场来生成新对象而不影响外观，我们实现了形状编辑（表4.2）。我们在图5中进行了另一项消融研究，评估了我们的反演优化方法。基线方法（w/oCLIP）仅在输出和单个图像之间计算标准NeRF光度损失。由于从单个视图推断完整的3DNeRF模型的困难，其结果质量有限。如第3.3节所讨论的，CLIP具有产生鲁棒的姿态不变特征的能力。因此，我们的反演方法在优化过程中引入了CLIP约束，并由于CLIP先验而实现了更好的反演结果。04.3. 基于CLIP的操作0我们的方法支持使用文本编辑对象的形状或外观。在操作形状时，我们保持外观代码不变，反之亦然。0外观代码保持不变，对外观进行编辑也是如此。图6展示了多样化的编辑结果。请注意，当颜色浅的汽车变形为跑车时，其颜色可能会变暗。但这不是一个失败的案例，因为Carla数据集中所有跑车的颜色本来就更加浓烈。此外，我们发现，当改变外观颜色时，我们的方法自然地保留了阴影。在编辑椅子形状时，如果用户的输入文本与源形状高度相关-例如，源椅子是木椅，用户也想要一个“木椅”-结果将与源略有不同。在颜色编辑期间，我们的方法确保形状完全保持不变。我们的方法还通过提供真实的目标图像而不是文本提示来支持示例驱动的操作。我们在图7中展示了各种示例驱动的形状和外观编辑结果。我们的方法实现了对形状和外观的语义精确和个体控制，参考示例图像。04.4. 实际图像操作0为了评估我们的模型在处理单个不在我们的训练集中的真实图像时的泛化能力，我们通过将其反转为形状代码和外观代码并应用它们进行编辑来对真实图像进行实验。我们在图8中展示了反转和编辑后的结果。我们观察到，与汽车相比，反转椅子要困难得多，因为椅子的结构比较精细，例如办公椅的轮子。然而，即使办公椅没有完全重建，我们的方法的编辑能力也不受影响。我们的方法仍然确保形状和外观的准确编辑。04.5. 用户研究0我们进行了一项用户研究，以评估编辑结果的感知质量和准确性。我们包括20个问题。SourceSourceShape editingShape editingAppearance editingAppearance editingReal imageInverted imageSUVYellow carAppearance editingShape editingSofa chairOrange chairReal imageInverted image0.8210.8770.8490.8140.8590.837SourceSourceA car with red front wheels and green rear wheelsFormula racing car(a)(b)An office chair with two arms and a hollow back(a)An office chair with two arms and a hollow back(a)A red and blue chair(b)838420图7. 示例驱动的编辑结果。0图8. 实际图像上的编辑结果。0椅子汽车0文本示例平均值。文本示例平均值。0表3.用户研究结果。我们通过计算编辑结果是否与用户的正确文本/示例指导匹配来报告正确匹配率。0研究中的问题，每个问题都有5个由5个随机选择的文本提示或5个随机选择的示例生成的汽车或椅子的结果。我们随机洗牌结果，并给用户无限时间将每个结果与正确的文本或图像匹配。我们收集了23个参与者的答案，并在表3中报告了匹配准确率。在超过80%的情况下，我们的方法成功地编辑了与文本或示例给出的描述完全对应的对象。0图9.限制。我们的方法无法处理细粒度编辑（a）和领域外编辑（b）。05. 结论0我们提出了第一个基于文本和图像驱动的NeRF操作方法，通过设计一个统一的框架，为用户提供使用文本提示或示例图像对3D内容进行灵活控制。我们设计了一个解耦的条件NeRF架构，允许在编辑对象时解耦形状和外观，并且两个前馈代码映射器可以快速推断不同对象的编辑。此外，我们提出了一种反转方法，可以从真实图像中推断出形状和外观代码，从而允许编辑现有数据。限制。我们通过对各种文本提示和示例图像进行广泛实验来评估我们的方法，并为交互式编辑提供了直观的编辑界面。然而，由于潜在空间和预训练CLIP的表达能力有限，我们的方法无法处理细粒度和领域外的形状和外观编辑，如图9所示。通过添加更多各种各样的训练数据可以缓解这个问题。致谢本工作得到香港创新及科技局（ITC）创新及科技基金（项目编号MHP/109/19）的支持。938430参考文献0[1] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2StyleGAN：如何将图像嵌入StyleGAN潜空间？在IEEE/CVF国际计算机视觉会议论文集中，第4432-4441页，2019年。50[2] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2StyleGAN++：如何编辑嵌入图像？在IEEE/CVF计算机视觉与模式识别会议论文集中，第8296-8305页，2020年。50[3] Mark Boss, Raphael Braun, Varun Jampani, Jonathan TBarron, Ce Liu, and Hendrik Lensch.NERD：从图像集合中进行神经反射分解。在IEEE/CVF国际计算机视觉会议论文集中，第12684-12694页，2021年。20[4] Eric R Chan, Marco Monteiro, Petr Kellnhofer, Jiajun Wu,and Gordon Wetzstein. pi-gan:周期性隐式生成对抗网络用于3D感知图像合成。在IEEE/CVF计算机视觉与模式识别会议论文集中，第5799-5809页，2021年。20[5] Arthur P Dempster, Nan M Laird, and Donald B Rubin.通过EM算法从不完整数据中获得最大似然估计。《皇家统计学会：B系列（方法学）》杂志，39(1):1–22，1977年。50[6] Alexey Dosovitskiy, German Ros, Felipe Codevilla,Antonio Lopez, and Vladlen Koltun. Carla:一个开放的城市驾驶模拟器。在机器人学习会议上，第1-16页。PMLR，2017年。50[7] Ohad Fried, Ayush Tewari, Michael Zollh¨ofer, AdamFinkelstein, Eli Shechtman, Dan B Goldman, Kyle Genova,Zeyu Jin, Christian Theobalt, and Maneesh Agrawala.基于文本的编辑说话头视频。ACM Transactions on Graphics(TOG)，38(4):1–14，2019年。10[8] Guy Gafni, Justus Thies, Michael Zollhofer, and MatthiasNießner.动态神经辐射场用于单目4D面部化身重建。在IEEE/CVF计算机视觉与模式识别会议论文集中，第8649-8658页，2021年。20[9] Kyle Genova, Forrester Cole, Avneesh Sud, Aaron Sarna,and Thomas Funkhouser.用于3D形状的局部深度隐式函数。在IEEE/CVF计算机视觉与模式识别会议论文集中，第4857-4866页，2020年。1，20[10]顾金金，沈宇军，周博磊。使用多码GAN先验进行图像处理。在IEEE/CVF计算机视觉与模式识别会议论文集中，第3012-3021页，2020年。50[11] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros.条件对抗网络的图像到图像翻译。在IEEE计算机视觉与模式识别会议论文集中，第1125-1134页，2017年。50[12] Ajay Jain, Matthew Tancik, and Pieter Abbeel.将NERF放在节食中：语义一致的少样本视图合成。在IEEE/CVF国际计算机视觉会议论文集中，第5885-5894页，2021年。2，40[13] Wonbong Jang and Lourdes Agapito.Codenerf：用于对象类别的解缠神经辐射场。在Proceed-0IEEE/CVF国际计算机视觉会议论文集，第12949-12958页，2021年。20[14] Chiyu Jiang, Avneesh Sud, Ameesh Makadia, JingweiHuang, Matthias Nießner, Thomas Funkhouser, et al.用于3D场景的局部隐式网格表示。在IEEE/CVF计算机视觉与模式识别会议论文集中，第6001-6010页，2020年。1，20[15]陶菊，周千一，胡世民。通过草图编辑3D模型的拓扑结构。ACMTransactions on Graphics (TOG)，26(3):42–es，2007年。10[16] Abhishek Kar, Christian H¨ane, and Jitendra Malik.学习多视角立体机器。在第31届国际神经信息处理系统会议论文集中，第364-375页，2017年。1，20[17] Tero Karras, Samuli Laine和Timo Aila.用于生成对抗网络的基于样式的生成器架构。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码为4401-4410，2019年。20[18] Tero Karras, Samuli La

下载后可阅读完整内容，剩余1页未读，立即下载