操纵3D模型形状和纹理的文本和图像引导方法

66 浏览量更新于2023-10-16 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1文本和图像引导的3D化身生成和操作* M. Furkan Atasoy* Alara Dirik* Pinar YanardagBogkazazic iUniversity土耳其伊斯坦布尔{zehranaz.canfes.2022，muhammed.atasoy.2022} @ alumni.boun.edu.tr{alaradirik，yanardag.pinar} @ gmail.com摘要潜在空间的操作最近成为生成模型领域的一个有趣的话题。最近的研究表明，潜在方向可以用来操纵图像的某些属性。然而，控制3D生成模型的生成过程仍然是一个挑战。在这项工作中，我们提出了一种新的3D manipulation方法，可以操纵的形状和纹理的模型使用文本或基于图像的提示，如“一个年轻的脸”或“一个惊喜的我们利用对比度图像预训练（CLIP）模型和预训练的3D GAN模型的功能，该模型旨在生成面部化身并创建完全可区分的渲染管道来操纵网格。更具体地说，我们的方法采用输入的潜在代码并对其进行修改，使得由文本或图像提示指定的目标属性存在或增强，同时使其他属性基本上不受影响。我们的方法只需要5分钟，每个manipulation，我们证明了我们的approach与广泛的结果和比较的有效性。1. 介绍用于2D视觉的生成对抗网络（GAN）已经取得了几项突破，例如 Progressive GAN[30] ， BigGAN[5] 和StyleGAN[32，33]，它们可以在各个领域生成高分辨率和高质量的图像。3D视觉和3D生成领域也取得了类似的显著进展，隐式表面和体积表示的定义[39，7，37]使编码、重建和生成防水表面的详细模型成为可能，而不会受到使用3D网格或固定拓扑网格的限制。虽然这些基于隐式表示的方法导致可学习的表面参数化，但其分辨率不受限制，但它们通常需要协调。*表示平等缴款。用于不可微点云和网格生成的Nate采样，这也是耗时的。其他作品，如 UV-GAN[9] ，GANFit[15] 和TBGAN[14]将3D生成问题限制在2D域，旨在通过直接在形状，法线和纹理的UV映射上训练GAN来生成3D形状。尽管在3D生成方面取得了进展，但如何控制3D生成模型的结果仍然是一个活跃的研究课题。3D操作的问题在可变形模型中特别重要，例如人脸和身体，其中这项工作的自然结果是启用动画。以前的工作，称为3D变形模型（3DMM）[3，6]，将3D面部表示为几何，表情和纹理的分解PCA模型，并通过单独编辑每个模态来操纵面部。然而，PCA的线性性质使得很难生成新的人脸和高质量的重建。此外，许多以前的工作使用3DMM作为骨干模型，并试图从2D图像或部分面部扫描重建3D面部[58，26，27，28]，因此受到其基本限制。相比之下，近年来在刚性3D对象的操纵方面有了显著的进步已经提出了几种方法来使用文本[38，56，46]和草图[18]操作隐式3D形状表示。然而，这些方法每次操作都需要数小时的优化，并且仅限于刚性和简单的形状，如椅子，而我们试图操纵铰接，多样和复杂的形状，如人脸。在这项工作中，我们提出了一种快速，高效的文本和图像驱动的3D操作的面部化身的方法。我们的方法使用预训练的生成3D模型TBGAN作为基础GAN模型，并利用对比图像预训练（CLIP）[42]的联合图像-文本表示功能，以基于用户提供的文本或图像提示优化潜在代码（参见图1示例操作）。与以前的作品[38，56，46]不同，这需要大量的时间，我们的方法每次操作只需要5分钟，并且可以进行文本和图像驱动的编辑，从而允许精确，精细的编辑。44214422原始老年轻化妆快乐惊喜碧昂斯图1. 给定3D网格的输入向量（表示为原始），我们的方法修改潜在代码，使得由文本提示指定的目标属性（例如“Young”或“Surprised”）存在或增强，同时使其他属性基本上不受颗粒化和复杂的操作，例如修改性别和年龄属性，而不影响原始网格的不相关属性或身份。我们所提出的方法直接优化的形状，正常和纹理图像，并执行解开操作。此外，我们提出了一个基线方法，使用PCA来检测人脸头像上的无监督潜在方向。我们的实验表明，我们的方法是能够优于基于PCA的基线和TBGAN各种简单和复杂的操作。2. 相关工作2.1. 3D形状表示与RGB图像几乎成为标准数据格式的2D视觉问题不同，如何最好地表示3D数据仍然是一个活跃的研究问题。因此，在3D视觉问题的工作中使用了各种表示，例如点云，体素，网格，以及最近的神经隐式表示。最流行的3D数据格式之一是点云，点云是由（x，y，z）格式的坐标值组成的轻量级3D表示。它们广泛用于3D学习问题，如3D形状重建[13，41，50，36]，3D对象分类[13，41]和分割[41]。然而，点云提供的有关点如何连接的信息有限，并会引起视图依赖性问题.另一种3D格式，三角形网格，将每个形状描述为一组三角形面和连接的顶点。网格虽然更适合描述对象的拓扑结构，但通常需要高级预处理步骤，以确保所有输入数据具有相同数量的顶点和面。体素格式将对象描述为体积占用矩阵，其中矩阵的大小是固定的虽然体素格式非常适合基于CNN的方法，但它需要高分辨率来描述细粒度的细节。最后，近年来提出了许多神经隐式表示来克服经典表示的缺点。这些方法将3D形状表示为将3D坐标映射到带符号距离函数（SDF）的深度网络[39]或占用字段[7，37]创建一个轻量级的，连续的形状表示。然而，隐式表示的一个主要缺点是，它们需要积极的采样和查询3D坐标来构造表面。最后，UV-GAN[9]， GANFit[15]和TB-GAN[14]等作品将形状和纹理表示为可以投影回3D空间的2D位置图，并利用2D成像[30]的最新进展来联合生成新的面部形状和纹理。在我们的工作中，我们使用TBGAN作为我们的基础生成模型，因为它的速度和生成能力。2.2. 潜在空间操纵用于图像编辑的潜在空间操作方法可以分为有监督和无监督方法。监督方法通常利用预先训练的属性分类器或使用标记数据训练新的分类器来优化潜在向量并增强目标属性在生成的图像中的存在[16，48]。另一方面，已经提出了几种无监督的方法来表明，在不使用分类器或标记数据的情况下，可以在大规模GAN的潜在空间中找到有意义的方向[55，24]。例如，GANSpace[22]主成分分析（PCA）[57]在从BigGAN和StyleGAN的中间层提取的一组随机采样的潜在向量上。SeFA[49]提出了一种类似的方法，直接优化封闭形式的GAN模型的中间权重矩阵。最近的一项工作，Latentleman[60]，提出了一种对比学习方法，以找到可转移到不同类的无监督方向。此外，StyleCLIP[40]和StyleMC[34]都建议使用CLIP来使用StyleGAN2对随机生成和编码的图像进行文本引导操作这些方法表明，它是可能的，使用CLIP的细粒度和解除纠缠的图像操作。2.3. 3D形状生成和操作近年来，在3D形状生成方面取得了巨大的进步。虽然其中一些工作包括传统的3D表示，如点云4423.ΣNG∈ CG∈ R[13，41，1，23，51]、体素[29，8]和网格[20，17，21]，已经提出了几种方法来使用隐式表面和体积表示以获得高质量和可缩放的表示（参见[39，7，37]）。然而，这项工作的大部分集中在生成刚性对象，一个相对简单的任务相比，生成关节，变形的形状，如人脸和身体。与刚性对象生成相反，大多数关于人脸生成和重建的工作使用称为3DMM[3]的线性统计模型，其使用PCA在配准的人脸网格数据集上训练单独的线性统计模型，用于人脸形状、表情和纹理，其中对应的关键点可用。然而，PCA的线性一些关于人脸生成的工作解决了这个问题，并提出了各种成功有限的方法（见[4，54，11，53]）。此外，3DMM被广泛用作各种应用的骨干，例如从多个图像[45，52，2，43]或单个图像[47，25，59]进行面部3D重建。尽管在3D生成方面取得了进展，但是关于3D形状操纵的工作要有限得多，并且分别集中于形状或纹理的监督或无监督操纵。无监督3D操作方法通常会在训练过程中引入额外的约束，以实现更好的可控性[35，12]。此外，最近已经提出了几种有监督的3D操作方法。Text2Mesh[38]提出了一种神经样式模型，该模型对单个网格的样式进行编码，并使用基于CLIP的方法进行纹理操作。然而，这种方法需要为每个待操纵的形状训练单独的模型，并且限于纹理操纵。另一项工作[56]提出了一种基于CLIP的方法，用于基于文本和图像的NeRF操作。然而，该方法需要训练每个文本的多个模型，以将输入图像或文本的CLIP嵌入映射到所提出的变形网络的潜在空间上类似地，CLIP-Forge[46]训练自动编码占用网络和归一化流模型，以连接简单3D形状（如椅子或桌子）的2D渲染的CLIP编码和潜在形状编码。我们注意到，该方法仅限于简单刚性物体的形状操作此外，该方法每次操作需要2小时以上。与其他基于CLIP的3D操作方法不同，我们的方法可以同时操作形状和纹理，并且只需要5分钟就可以对关节脸化身进行复杂而准确的操作。3. 方法在本节中，我们首先简要介绍TBGAN，然后介绍我们的文本和图像驱动操纵器的方法，图2. 我们框架的概述（使用文本提示符'happy human'作为示例）。通过最小化基于CLIP的损失LCLIP、同一性损失LID和L2损失LL2来优化与文本提示相对应的操纵方向Uc。3D物体的作用。3.1. 关于TBGAN在我们的工作中，我们使用TBGAN作为操作的生成基础模型，GAN模型的架构与PG-GAN非常相似[31]。更具体地，TB-GAN提出了一种渐进增长的架构，其采用编码7种通用表情中性、快乐、愤怒、悲伤、害怕、厌恶和惊讶的独热编码面部表情向量e和随机噪声向量z作为输入。然后，它逐步生成称为模态相关层的更高维中间层向量，并分支到模态特定层，以联合生成高质量的形状、形状法线和纹理图像。该模型在具有WGAN-GP损失的预处理网格的大规模高分辨率UV图上进行训练[19]。在模态相关层内，所谓的主干网络保留模态对应，而模态特定层的单独分支与3DMM不同，3DMM通常通过将PCA应用于来自数百或数千名受试者的3D扫描数据集来构建[3]，TBGAN不受线性可分性约束的约束，并提供连续的潜在空间。3.2. 文本和图像引导操作给定预先训练的TBGAN生成器，令Zd表示从高斯分布0采样的d维随机输入向量，σ2和e表示初始化为零以获得中性表情的独热编码面部表情向量。令c表示通过z和e通过生成器的部分前向传播获得的中间层向量。我们的方法首先生成一个纹理网格，通过使用生成的形状，法线和纹理UV映射通过圆柱投影。然后给出一个文本提示t，如4424G×LLLLL LL⟨··⟩我IL我我MIM−我我我我LL=i=1夹子N梯度下降，以找到一个方向，其中（c+c）产生一个被操纵的纹理网格，其中由t指定的目标属性存在或增强，而其他属性基本上保持不受影响。在我们的工作中，我们使用梯度下降优化原始中间潜在向量c，并在TBGAN发生器的4 4/密集层中工作（参见附录A.1中关于用于操作的层选择的消融研究优化的潜在向量c++vec然后可以被馈送到TBGAN中以生成形状、法线和纹理UV贴图，最后生成具有目标属性的操纵网格。图2显示了我们方法的示意图。为了在不创建伪影或更改不相关属性的情况下执行有意义的网格操作，我们使用基于CLIP的损失，身份损失和L2损失的组合，如下所示：arg minCLIP+λIDID+λL2L2（1）c∈C其中λID和λL2分别是ID和L2的超参数虽然基于CLIP的丢失确保用户指定的属性存在或增强，但ID丢失和L2丢失使其他属性保持不变，从而强制进行分离的更改。身份丢失ID最小化原始渲染器的身份与manip之间的距离。渲染：LID= 1− <$R（G（c）），R（G（c+<$c））<$（2）其中R是ArcFace[10]，在面部识别的情况下是一种面部识别网络，并且计算渲染图像的身份与操作结果之间的余弦相似性（参见附录A.2中关于身份丢失影响的L2损失用于防止伪影生成，定义为：LL2=||c −（c +<$c）||第二章（三）根据用户提供的提示类型，基于CLIP的损失术语CLIP可以以两种不同的方式定义：用户可以提供诸如“老人”的文本提示或诸如比尔·克林顿的图像的目标图像以进行操作。如果用户提供了文本提示列表，则基于CLIP的损失由下式给出：其中targ是目标图像。这里，CLIP寻求最小化渲染图像i和目标图像targ的CLIP嵌入之间的余弦距离。在这两种方法中，我们都使用DCLIP来计算CLIP嵌入之间的余弦距离渲染i和模板t j的创建如下。可区分渲染注意，为了优化潜在代码c，我们需要计算给定文本提示和生成的网格之间的CLIP距离由于CLIP模型不能处理3D网格，我们在2D中渲染对应于潜在代码c的生成网格，并将预训练的CLIP模型馈送给它然而，这种简单的策略不足以经由梯度下降来优化潜在代码c，因为渲染操作需要是可微的。为此，我们使用开源可区分渲染器库PyTorch3D创建了一个完全可扩展的管道[44]。为了增强视图的一致性，我们从锚点渲染生成的网格的N=3个视图，其中网格旋转30、3和30度：fdiff（，θ cam）=，其中θcam表示可重构渲染器使用的摄像机、对象位置和旋转参数。我们将fdiff生成的渲染表示为1、2和3。我们计算每个图像的基于CLIP的损失，并在将它们输入到我们的损失之前对其进行平均，这会导致更稳定的结果。提示工程我们的模型采用用户定义的文本提示t作为输入，描述目标操作。以前的工作表明，使用快速工程[42]增加文本提示会产生更一致的结果。因此，我们通过将原始文本提示符 t 嵌入到句子模板（如 “arendering of a. . . 或者是一张脸. . '来生成K个文本提示t1，t2，...，tk（本工作中使用的模板的完整列表见附录B）。请注意，可以提供多个语义等效的文本提示作为输入，以获得更稳定的结果。例如，为了实现使面部看起来更老的操作，我们的方法可以使用一系列不同的文本提示，例如Kj=1Ni=1 DCLIP（Ii，tj）L夹=（四）K·N4. 实验其中i是来自N个渲染图像的列表的渲染图像，t j是嵌入在来自K个模板的列表的文本模板中的目标文本t。这里，CLIP用于最小化渲染图像I i和文本提示集t j的CLIP嵌入之间的余弦距离。在用户指定目标图像的情况下，基于CLIP的损失由下式给出：ΣN DCLIP（Ii，Itarg）在本节中，我们将介绍我们所提出的方法的实验结果，并根据操纵质量和保真度评估我们的结果。此外，我们提出了一个简单的基线方法，使用PCA的3D对象的操作，并表明我们的方法允许更多的disentangled操纵，而不改变身份的mandipulated面对。此外，我们比较了我们的方法和TBGAN在面部表情ΣΣ（五）4425−原创老孩子大眼粗眉妆图3. 我们的方法在两个不同的3D面上使用各种输入和文本提示的操作结果：“老”，“孩子”，“大眼睛”，“粗眉毛”，“化妆”。最左边的列显示原始输出，相邻的列显示操作结果，目标文本提示位于每列的上方。亚洲人印度人图4. 使用各种输入和文本提示操作我们的方法的结果：最上面一行显示原始输出，最下面一行显示操作结果，目标文本提示位于每列上方。4.1. 实验装置我们使用TBGAN*的官方实现和预训练模型。对于所有操作实验，我们首先使用TBGAN及其默认超参数生成随机网格对于可微分渲染，我们使用PyTorch3D的渲染器，无需额外的训练或微调，并在每个生成步骤渲染3个图像，网格y轴角度分别设置为30，3和30。其余的渲染器超参数如下所示：我们将模糊半径设置为0。0，每像素的面数设置为2.0，点光源的位置设置为（0. 0，0。0，+3。0）。对于使用CLIP的所有模拟实验，我们将损失项设置如下：λID= 0。01，λL2= 0。001。我们对每个操作使用固定数量的100个优化步骤。我们还使用 Adam 优化器并保留默认的hyperparame- ters。我们在TITAN RTX GPU上运行所有实验。* 网址https://github.com/barisgecer/TBGAN4.2. 定性结果在本节中，我们展示了我们的方法在一组不同的生成人脸上获得的结果的质量和一致性。我们从“大眼睛”等简单操作开始然后，我们继续对面部表情进行操作，然后分享基于图像的操作的定性结果。我们从一系列基于文本的操作开始，从简单属性（如“big eyes”、“thick eyebrows”、“makeup”）到细粒度属性（如“old”、“child”），并在图3中显示结果。从图中可以看出，我们的方法成功地对各种面部进行了有针对性的处理，并产生了高粒度的细节，同时保留了全局语义和底层内容。例如，目标文本提示“old”的操纵输出我们还表明，我们的方法提供了一个更复杂的属性，如图4显示了对各种随机生成的输出进行操作的结果，其中我们可以看到我们的方法能够执行复杂的编辑，例如种族和性别。我们注意到，我们使用“亚洲”等简单术语来指代一组描述目标属性的句子。我们使用的句子模板列表在附录中提供。此外，我们进行了额外的实验，以执行顺序操作和更复杂的输入文本，并分别在图7-（a）和7-（b）中呈现结果。4426快乐悲伤惊喜愤怒害怕厌恶图5.我们的方法的结果与文本提示：第一行显示原始输出，第二行显示TBGAN条件表达式，第三行显示操作结果，目标文本提示位于每列上方。α= 0α =+α=++α= ++图6. 不同操作强度下的结果为文本提示α= 0表示原始图像，而α+到α+表示增加的操作强度。(a) 连续性（b）复合物图7. （a）对图8的安吉丽娜·J·朱莉的附加操作。分别输入“老”和“生气”(b)从左到右输入复杂文本：“原创”，“快乐的印度人”，“原创”，“亚洲儿童”。面部表情的结果我们的方法的操作能力不限于生成的化身的物理特性，但也可以用来改变他们的面部表情，如如图5所示，我们的方法可以成功地在各种输入网格上操纵各种复杂的情绪，而几乎不改变其他属性。此外，我们的模型能够通过增加α来控制表达的强度，使得c+α<$c。作为安吉丽娜·J.C. 罗纳尔多比尔克林顿图8. 使用我们的方法，文本提示当α增加时，表达的程度发生变化，如图6所示。身份操作的结果除了一般的物理属性和表达式的操作，我们证明了我们的方法可以用来执行复杂的身份操作，仅基于文本的manipulations。在这个实验中，我们使用文本操作，提示为 “Angelina Jolie” 、“Cristiano Ronaldo”和“Bill Clinton”，结果如图8所示。从图中可以看出，我们的方法能够实现捕捉目标人的特征的操纵，例如比尔·克林顿形状和纹理变化的分析我们包括广告实验，以调查形状目标操作所引起的几何变化。对于这个实验，我们渲染输出网格没有纹理，原始我们TBGAN4427×目标原始λ ID = 3。0λ ID = 0。5λID =0。0图9. 左边是基于图像的操作，目标图像在右边是不同强度的身份丢失操作。在图10-（a）中展示了原始网格变化的热图分析。如热图中所示，经操纵的网格捕捉目标的特征，诸如图9第一行中的目标名人图像的安吉丽娜·朱莉(a)（b）（c）图10. (a)使用Hausdorff距离对图8的Angelina J.和图9的第一行的结果。蓝色：差异最大，红色：差异最小（b）SSIM关于(c)图9的第一行上的SSIM具有从左到右递减的λID。此外，我们还研究了身份保持算法如何改变纹理，并在图中展示了使用结构相似性指数（SSIM）计算的热图10. 如图10-（b）所示，大多数变化影响目标局部区域，而网格的整体形状保持不变。这表明，我们的方法可扩展地实现解开操纵。此外，图10-（c）显示了改变成本项会影响纹理，使得降低身份损失项的权重会导致更大的SSIM值。图像引导操作的结果我们注意到，我们的方法不仅限于基于文本的操作，还可以用于操作具有目标图像的网格，如第3.2节所述。我们注意到，与基于文本的操作不同，基于图像的操作不可避免地会改变粗粒度和细粒度的属性。图9示出了针对具有λL2= 0和λID∈ {3}的名人的不同图像的操作结果。0，0。5，0。0}。中可以看出原始男人女人老孩子图11. 比较基于PCA的操作和文本驱动的操作使用我们的方法。上一行显示了基于PCA的结果，下一行显示了我们的方法的结果。图中，我们的方法可以捕获目标图像的复杂的身份相关属性，而不管光照和姿势，并执行成功的操作，如捕捉肤色，眼妆，眉毛和下巴结构。我们还可以观察到λID= 3的操作。0生成的人脸既类似于原始图像又类似于目标，而λID= 0。0以3D重建目标图像4.3. 与PCA我们的方法执行一个文本驱动的fac- cial网格操作。由于没有现有的方法来完成这项任务，我们提出了一个简单的基于PCA的基线，灵感来自GANSpace [22]。对于这个实验，我们从TBGAN的4 4/dense层中采样10，000个中间潜在向量，并将PCA应用于连接的潜在向量以获得主成分，其中每个成分表示一个新的变换轴，该变换轴是原始特征的线性组合。使用找到的方向，我们可以通过直接应用主分量来操纵原始潜在向量使用该分量作为方向矢量来控制生成：c′=c+（α×n×PCi）（6）这里，α表示步长，n表示步数，PCi表示使用的第i个出于比较的目的，我们保留排名最高的主成分，并将随机生成的潜在向量应用于它们，步长为α10。我们注意到，排名靠前的主成分编码突出的方向，如年龄和性别。为了比较，我们将基于年龄和性别的文本驱动编辑应用于相同的潜在向量，并在图11中呈现比较结果。从图中可以看出，由PCA编码的顶部方向、年龄和性别显著地改变了输入人的身份，而我们的方法在不改变无关属性的情况下实现了期望的操作我们PCA4428准确性男女老年轻所有PCA4. 42±0。65 4. 13±0。九九四25±0。 61421±0。83 4. 25±0。78我们的4号。21±0。834. 08±0. 974. 67±0。56 4. 46±0。784. 35±0。82身份男女老年轻所有PCA2. 85±1。042. 57±1。083. 52±1。29 3. 01±1。30 2. 99±1。21我们的4号。45±0。764. 33±0。80 3. 70±1。22362±1。20 4. 02±1。07表1.我们的方法和基于PCA的基线的同一性保留和操作准确性的平均得分（1-5）TBGAN我们的快乐1. 83±0。92 3. 77±0。90悲伤4. 17±0。87 4. 48±0。71惊喜4. 64±0。48 4. 70±0。46愤怒2. 05±1。22365±1。24害怕2. 87±1。08 3. 43±0。97厌恶4。04±1。12 4. 26±0，61全部三个。26±1。464. 05±0. 97表2.使用我们的方法和TBGAN在各种表达上的操作准确性的平均得分（1-5）和标准值。人工评估我们还进行人工评估，以衡量所生成结果的感知质量。更具体地说，我们感兴趣的是操作结果与输入目标文本匹配的程度，并保留其他属性。对于人工评估，我们要求n= 25名用户评估5组随机选择的输入网格、文本提示t和操作网格。对于每个集合，我们成对显示目标文本和输出，并要求用户为两个问题分配[1，5]之间的分数：这种操纵在多大程度上实现了目标文本中指定的目标？' 和“输入面的身份是否被保留？' .在表1中，我们报告了问题评分的平均值和标准差（分别表示为准确度和同一性正如人类评估结果所示，我们的方法在除了女性和男性属性之外的所有设置中都比PCA表现得更好。然而，我们注意到，当涉及到身份保护时，我们的方法在这些属性上的表现明显优于PCA更具体地说，人类评分员发现，我们的方法保留了身份，同时实现了比PCA高34%4.4. 与TBGANTBGAN没有提供一种方法来操纵生成的网格，但是可以通过修改TBGAN的独热编码表达向量来获得不同的面部表情。因此，我们将我们的方法对面部表情的操作与TBGAN进行了比较。如图5所示，我们的结果在真实面部表情方面更成功，位置。我们还进行了一项人类评估，通过询问n = 25名参与者来比较面部表情操作的表现;“操作在多大程度上实现了目标文本中指定的表达？“.表2显示了结果的平均得分和标准差，我们的方法在所有设置中都优于TBGAN。此外，我们的方法能够逐渐改变表达式（参见图6），这是使用TBGAN不可能实现的，因为它只使用独热编码向量生成固定表达式5. 局限性和更广泛的影响虽然我们的方法对于粗粒度和细粒度操作都非常有效，但我们的基础生成模型经过训练可以生成部分人脸化身。因此，我们坚信我们的工作可以扩展到更全面的生成场景，以生成完整的头部网格或身体。一个局限性是，我们的方法目前适用于TBGAN，但它可以应用于其他3D GAN模型与最小的修改。6. 结论我们提出了一种使用文本和图像输入来操纵3D面部化身的方法，该方法依赖于与基于CLIP和基于身份的损失相结合的不同渲染管道。与以前的工作，限制其操作的3D形状的局部几何变化，如纹理或只有形状，我们的方法可以执行高层次和复杂的形状和纹理的操作。我们的方法的另一个主要优点是，它只需要5分钟来操作一个给定的网格，而其他作品需要一个小时的优化时间，每个manipulation。鉴于化身和人体生成广泛应用于角色设计、动画和视觉效果等行业，我们的工作有两个自然的改进：基于草图的操作，更直观和用户友好的操作，并扩展我们的框架，全身生成。我们将很快公开我们的源代码。4429引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J.Guibas 三维点云的学习表示与生成在ICML，2018。[2] Ziqian Bai ， Zhaopeng Cui ， Jamal Ahmed Rahim ，Xiaoming Liu，and Ping Tan.深层面部非刚性多视图立体。 2020 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第5849-5859页[3] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型在SIGGRAPH[4] James Booth 、 Epameinondas Antonakos 、 StylianosPloumpis 、 George Trigeorgis 、 Yannis Panagakis 和Stefanos Zafeiriou。3d脸变形模型“在野外”。2017年IEEE计算机视觉和模式识别会议（CVPR），第5464-5473页[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练CoRR，abs/1809.11096，2018。[6] Alan Brunton ， Augusto Salazar ， Timo Bolkart ， andStefanie Wuhrer.三维数据统计形状空间的回顾与人脸的比较分析。Comput.目视图像理解，128：1[7] 陈志勤和张浩。学习生成式形状建模的隐式字段。2019IEEE/CVF计算机视觉和模式识别会议（CVPR），第5932[8] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。[9] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou，and Stefanos Zafeiriou. Uv-gan：用于姿态不变人脸识别的对抗性fac- cial uv map完成。2018 IEEE/CVF计算机视觉和模式识别会议，第7093-7102页[10] 邓建康，J. Guo和S. Zafeiriou. Arcface：用于深度人脸识别的额外角度边缘损失。2019 IEEE/CVF计算机视觉和模式识别会议（CVPR），第4685-4694页[11] Chi Nhan Duong、Khoa Luu、Kha Gia Quach和Tien D.Bui.除了主成分：用于人脸建模的深层玻尔兹曼机。2015年IEEE计算机视觉和模式识别会议（CVPR），第4786- 4794页[12] Tim Elsner，Moritz Ibing，Victor Czech，Julius Nehring-Wirxel，and Leif P.科比特在潜在空间中进行直观的形状编辑。ArXiv，abs/2111.12488，2021。[13] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页[14] Baris Gecer ， Alexandros Lattas ，Stylianos Ploumpis ，Jiankang Deng ， Athanasios Papaioannou ， StylianosMoschoglou，and Stefanos Zafeiriou.基于干枝生成对抗算法的耦合三维人脸模型网络.欧洲计算机视觉会议，第415-433页。Springer，2020年。[15] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第1155-1164页[16] Lore Goetschalckx ，Alex Andonian，Aude Oliva ，andPhillip Isola.Ganalyze ： Toward visual definitions ofcognitive image properties.在IEEE/CVF国际计算机视觉会议论文集，第5744-5753页[17] 放大图片作者： David G. Kim ， Bryan Russell ，andMathieuAubry. AtlasNet：一个学习3D表面生成的方法。IEEE Conf.计算机视觉和模式识别（CVPR），2018。[18] Benoit Guillard，Edoardo Remelli，Pierre Yvernay，andP.呸Sketch2mesh：从草图重建和编辑3d形状。ArXiv，abs/2104.00482，2021。[19] Ishaan Gulrajani ， Faruk Ahmed ， Mart´ın Arjovsky ，Vincent Dumoulin，and Aaron C.考维尔改进的瓦瑟斯坦甘斯训练。在NIPS，2017年。[20] Zhizhong Han ， Zhenbao Liu ， Junwei Han ， Chi-ManVong，Shuhui Bu，and Chun Lung Philip Chen.网格卷积限制玻尔兹曼机的无监督学习的特点与结构保护的3-d网格。IEEE transactions on neural networks and learningsystems，28（10）：2268[21] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn：一个有边缘的网络。 ACM Transactions on Graphics（TOG），38：1[22] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：Discovering interpretable gancontrol.arXiv预印本arXiv：2004.02546，2020。[23] 乐辉、徐锐、谢金、钱建军、杨剑。渐进式点云反褶积生成网络。在ECCV，2020年。[24] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成式对抗网络的 “ 引导能力 ” 。 arXiv 预印本 arXiv ：1907.07171，2019。[25] 罗江，张居庸，邓柏林，李浩，刘良.利用单幅图像的几何细节进行三维人脸重建。IEEE Transactions onImage Processing，27：4756[26] Amin Jourabloo和Xiaoming Liu。姿态不变的三维人脸对齐。2015年IEEE计算机视觉国际会议（ICCV），第3694-3702页[27] Amin Jourabloo和Xiaoming Liu。基于cnn的密集3d模型拟合的大姿态人脸对齐。2016年IEEE计算机视觉和模式识别会议（CVPR），第4188-4196页[28] Amin Jourabloo，Mao Ye，Xiaoming Liu，and Liu Ren.用单个cnn实现姿态不变的人脸对齐。2017年IEEE国际计算机视觉会议（ICCV），第3219-3228页4430[29] Abhishek Kar ，Shubham Tulsiani，Joao Carreira ， andJiten- dra Malik.从单个图像重建特定于类别的对象。在IEEE计算机视觉和模式识别会议论文集，第1966-1974页[30] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.gans的逐步增长，以提高质量，稳定性和变化，2018年。[31] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。ArXiv，abs/1710.10196，2018。[32] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。2019 IEEE/CVF计算机视觉和模式识别会议（CVPR），第4396-4405页[33] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量。2020 IEEE/CVF计算机视觉和模式识别会议（CVPR），第8107[34] Umut Kocasari，Alara Dirik，Mert Tiftikci，and PinarYa-nardag. Stylemc：基于多通道的快速文本引导图像生成和操作。ArXiv，abs/2112.08493，2021。[35] Ruihui Li，Xianzhi Li，Ka-Hei Hui，and Chi-Wing Fu.SP-GAN：球体引导的3D形状生成和操作。ArXiv，abs/2108.04476，2021。[36] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.密集三维物体重建的高效点云生成。在AAAI，2018。[37] 拉尔斯 ·M Mescheder ， Michael Oechsle ， MichaelNiemeyer，Seb

下载后可阅读完整内容，剩余1页未读，立即下载