CLIP-Forge:使用零样本生成有意义形状

94 浏览量更新于2023-10-25 收藏 15.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Aditya Sanghi1Hang Chu1Joseph G. Lambourne1Ye Wang2Chin-Yi Cheng1Marco Fumero1Kamal Rahimi Malekshan11Autodesk AI Lab2Autodesk Research{aditya.sanghi,hang.chu,joseph.lambourne,ye.wang,chin-yi.cheng,marco.fumero,kamal.malekshan}@autodesk.comhttps://github.com/AutodeskAILab/Clip-Forge186030CLIP-Forge: 零样本文本到形状生成0图1.我们提出了一种名为CLIP-Forge的零样本文本到形状生成方法。在没有对任何形状-文本配对标签进行训练的情况下，我们的方法生成了能够正确反映常见名称、(子-)类别和语义属性信息的有意义的形状。0摘要0使用自然语言生成形状可以为我们周围的事物提供新的想象和创造方式。尽管在文本到图像生成方面取得了显著的进展，但由于缺乏大规模的配对文本和形状数据，文本到形状的生成仍然是一个具有挑战性的问题。我们提出了一种简单而有效的零样本文本到形状生成方法，它可以绕过这种数据稀缺性。我们提出的方法名为CLIP-Forge，基于两阶段的训练过程，仅依赖于一个无标签的形状数据集和一个预训练的图像-文本网络，如CLIP。我们的方法具有避免昂贵的推理时间优化的优点，以及能够为给定的文本生成多个形状的能力。我们不仅在定性和定量上展示了CLIP-Forge模型有希望的零样本泛化能力，还进行了广泛的比较评估，以更好地理解其行为。01. 引言0从文本输入生成3D形状是一个具有重要科学和应用价值的具有挑战性和有趣的研究问题[19, 22, 23,34]。在人工智能和认知科学研究社区中，研究人员长期以来一直在努力弥合这两个0自然语言和几何形状的模态[3,55]。在实践中，文本到形状生成模型是创意设计、制造、动画和游戏等新智能工具的关键组成部分[6]。已经取得了连接文本和图像模态的重要进展[10, 18, 26, 27, 52,54]。最近，DALL-E[49]及其相关的预训练视觉-文本嵌入模型CLIP[48]在文本到图像生成问题上展现出了有希望的结果[44]。值得注意的是，它们在未经过特定训练的任务上展示了强大的零样本泛化能力。形状生成是一个比图像生成更基础的问题，因为图像是本质上的3D物理世界的投影和渲染。因此，人们可能会想知道2D领域的成功是否可以转移到3D领域。这事实上是一个非平凡的问题。与文本到图像的情况不同，配对数据丰富，获取大量的文本和形状配对数据是不现实的。借鉴文本到图像生成的进展，我们提出了CLIP-Forge。如图2所示，我们通过一种简单而有效的方法克服了形状-文本配对数据稀缺性的限制。我们利用了3D形状可以使用标准图形管道轻松自动地渲染成图像的事实。然后，我们利用预训练的图像-文本联合嵌入模型，如[25,48]，将文本和图像嵌入到相似的潜在空间中，以便可以互换使用。因此，我们可以训练186040图2.主要思想的示意图。由于缺乏配对数据，直接学习文本到形状的生成是困难的。相反，我们使用经过预训练的图像-文本联合嵌入模型对形状的渲染进行桥接，以弥补3D形状和自然语言之间的数据差距。0模型使用图像嵌入进行训练，但在推理时用文本嵌入替换。在CLIP-Forge中，我们首先通过训练自编码器获得形状的潜在空间，然后训练一个归一化流网络[12]来建模在预训练图像编码器[48]获得的图像特征的条件下形状嵌入的分布。我们使用3D形状的渲染图像，因此在训练我们的模型时不需要标签。在推理过程中，我们通过预训练的文本编码器获得给定文本查询的文本特征。然后，我们使用文本特征来条件化归一化流网络，生成一个形状嵌入，然后通过形状解码器将其转换为3D形状。在这个过程中，CLIP-Forge不需要形状的文本标签，这意味着它可以轻松扩展到更大的数据集。由于我们的方法完全是前馈的，它还具有避免昂贵的推理时间优化的优势，这是现有2D方法所采用的[17,56]。本文的主要贡献如下：0•我们提出了一种新方法CLIP-Forge，可以直接从文本生成3D形状，如图1所示，无需配对的文本-形状标签。0•我们的方法具有高效的生成过程，不需要推理时间优化，可以为给定的文本生成多个形状，并且可以轻松扩展到多个3D表示。0•我们在各种零样本生成设置下进行了广泛的定性和定量评估。02. 相关工作0零样本学习。零样本学习是机器学习的一个重要范式，通常旨在通过利用某种外部知识源，对在训练过程中从未观察到的类别进行预测。该文献起源于图像分类问题[32,41]，并最近扩展到生成模型，特别是从文本中合成图像的任务[49]。据我们所知，我们的方法是首个将这一范式引入到3D形状领域的方法，从而实现了从自然语言文本输入中高效生成形状。CLIP的应用。我们方法的一个主要构建块是CLIP[48]，它通过在潜在空间中将文本和图像联系起来，展示了突破性的零样本能力。之前的工作，如ALIGN[25]，在嘈杂的数据集上使用了类似的框架。最近，预训练的CLIP已经被用于几个零样本下游应用[15, 17, 25, 40, 44,53]。与我们的工作最相似的先前工作是零样本图像和绘图合成[17,44]。通常，这些方法涉及迭代优化随机图像以增加特定CLIP激活。由于3D的复杂性显著增加，目前还没有明确的方法将它们应用于3D。我们的方法使用CLIP特征对形状先验网络进行条件化，具有显著加速和从单个文本生成多个形状的能力。3D形状生成和语言。最近，在以点云[2, 33,58]、体素[57]、隐式表示[7, 36,43]和网格[38]等不同数据格式生成3D形状方面取得了巨大进展。虽然我们的方法不限于生成一种3D数据格式，但在这项工作中，我们主要采用了隐式表示，因为它们简单且质量优越。最近，已经探索了使用文本在3D场景中定位对象的方法[1,5]。[6]中提出了一种用于文本到形状生成的度量学习方法。我们方法的主要区别和优势在于其零样本能力，不需要文本-形状标签。多阶段训练。在这项工作中，我们采用了多阶段训练方法，首先学习目标数据的嵌入，然后学习用于学习嵌入的概率编码模型。这种方法在图像生成[14, 35,39]和3D形状生成[2,7]中已经得到了探索。具体而言，对于CLIP-Forge，我们首先训练一个3D形状自编码器，然后使用归一化流模型来建模形状嵌入的分布，条件是从预训练的图像编码器[48]获得的图像特征。我们使用3D形状的渲染图像，因此在训练我们的模型时不需要标签。在推理过程中，我们通过预训练的文本编码器获得给定文本查询的文本特征。然后，我们使用文本特征来条件化归一化流网络，生成一个形状嵌入，然后通过形状解码器将其转换为3D形状。在这个过程中，CLIP-Forge不需要形状的文本标签，这意味着它可以轻松扩展到更大的数据集。由于我们的方法完全是前馈的，它还具有避免昂贵的推理时间优化的优势，这是现有2D方法所采用的[17,56]。本文的主要贡献如下：186050图3. CLIP-Forge方法的概述。顶部一行显示了形状自动编码器训练和条件归一化流训练的两个阶段。底部一行显示了如何进行文本到形状的推断。0从图像生成[30]、音频合成[28]和视频生成[31]等领域中得到了启发。最近，归一化流已经被引入到3D领域，实现了快速生成点云[46,58]。在本文中，我们采用归一化流模型[12]来建模给定文本和图像嵌入的潜在形状表示的条件分布。03. 方法0我们的方法需要一组没有任何相关文本标签的3D形状，其格式为 S = {(I n, V n, P n, O n)} N n = 1。集合 S中的每个形状由渲染图像 I n，体素网格 Vn，3D空间中的一组查询点 P n 和空间占据度 O n组成。概述起来，CLIP-Forge训练有两个阶段。在第一阶段，我们使用体素编码器和隐式解码器训练自动编码器。一旦自动编码器训练完成，我们就可以获得集合 S 中每个3D形状的形状嵌入 en。在第二阶段，我们训练一个条件归一化流网络来建模和生成 e n，该网络以使用 I n 从 CLIP图像编码器获得的图像特征为条件。在推断过程中，我们首先使用 CLIP文本编码器将文本转换为可互换的文本-图像潜空间。然后，我们使用给定的文本特征和从均匀高斯分布中采样的随机向量来将条件归一化流网络进行条件化，以获得形状嵌入。最后，将该形状嵌入转换为3D形状使用隐式解码器。整体架构如图3所示。03.1. 阶段1：形状自动编码器0自动编码器由编码器和解码器组成。我们使用编码器 f V 提取形状嵌入 e n0用于训练形状集合的体素网格，分辨率为 32 30作为输入。我们使用一个简单的体素网络，它由一系列批归一化的3D卷积层和线性层组成。可以写成：0e n = f V (V n) + ϵ，其中 ϵ � N(0, 0.1) (1)0其中 e n被高斯噪声增强。我们经验性地发现注入这种噪声可以提高生成质量，如后续的消融研究所示。这也在理论上被证明可以改善条件密度估计的结果[51]。然后我们将 e n通过一个隐式解码器。我们的解码器架构受到 OccupancyNetworks[36]的启发，它以连接的 e n 和 P n作为输入。我们的隐式解码器由具有残差连接的线性层组成，预测 O n。我们使用预测占据度和真实占据度之间的均方误差损失。我们的框架是灵活的，可以适应不同形式的架构。为了展示这一点，我们使用 PointNet[47]作为编码器，使用FoldingNet[59]作为解码器，生成点云而不是占据度，并使用 Chamfer 损失[2]进行训练。03.2. 阶段2：条件归一化流0我们使用 e n 和其对应的渲染图像 I n来训练一个归一化流网络。请注意，每个 I n可以包含来自不同渲染设置（如改变相机视角）的相同形状的多个图像。我们使用具有五层的 Real-NVP 网络[12]对 en 的条件分布进行建模，将 e n的分布转换为正态分布。我们通过将 I n 通过基于ViT[13]的CLIP图像编码器 f I 进行传递来获得条件向量 c n，在预训练后，其权重被冻结。c n 与转换后的��186060RealNVP的每个尺度和平移耦合层的特征向量：0c n = f I(I n), z 1: d n = e 1: d n and (2)0z d +1: D n = e d +1: D n ⊙ exp � s ([c n; e 1: d n]) � + t([c n; e 1: d n]) (3)0其中，s和t分别表示由神经网络参数化的尺度和平移函数。这里的直觉是将对象嵌入en分成两部分，其中一部分使用一个简单可逆的神经网络进行修改，但仍以非线性方式依赖于剩余部分。可以通过使用二进制掩码[12]以几种方式进行分割。特别地，我们研究了两种策略：棋盘掩码和维度掩码。棋盘掩码在空间坐标的和为奇数时取值为1，否则为0。维度掩码在潜在向量的前半部分取值为1，后半部分取值为0。掩码在每一层之后进行翻转。最后，我们对形状嵌入施加密度估计损失：0log(p(e n)) = log � p � z n � � + log �� det � ∂f(e n)0其中，f是正常化流模型，∂f(e n)/∂z T n是f在en处的Jacobian矩阵[12]。我们将潜在分布p(zn)建模为单位高斯分布。03.3. 推理0在推理阶段，我们使用CLIP文本编码器fT将文本查询t转换为文本嵌入。由于CLIP图像和文本编码器被训练成将图像和文本嵌入带入一个联合潜在空间，我们可以简单地将文本嵌入作为正常化流模型的条件向量，即c = fT(t)。一旦我们获得了条件向量，我们可以从正态分布中采样一个向量，并使用流模型的反向路径获得一个形状嵌入在p(en)中。正态分布允许我们多次采样以获得给定文本查询的多个形状嵌入。我们通过使用正态分布的均值获得平均形状嵌入。平均形状嵌入表示给定文本查询的原型。然后，我们使用在第一阶段训练的隐式解码器将这些形状嵌入转换为3D形状。04. 实验0在本节中，我们首先描述实验设置，然后展示定性和定量结果。更多结果可以在补充材料中找到。数据集。对于我们所有的实验，我们使用ShapeNet(v2)数据集[4]，该数据集包含13个刚性物体。0我们使用经过处理的数据版本，其中包括来自[9,36]提供的形状的渲染图像、体素网格、查询点及其占用情况。实现细节。对于两个训练阶段，我们使用Adam优化器[29]，学习率为1e-4，批量大小为32。我们将第一阶段的自编码器训练300个时期，而将第二阶段的条件正常化流模型训练100个时期。对于下面的所有实验，我们使用128维的潜在空间，基于BatchNorm[24]的体素编码器和受OccupancyNetwork[36]启发的ResNet解码器。我们使用基于RealNVP[12]的网络和维度掩码来进行流模型。设计决策在消融研究部分进行了讨论，进一步的细节在补充材料中提供。评估指标。为了全面评估我们的方法，我们考虑了四个标准和每个标准的几个指标。此外，对于某些标准，我们手动定义了一组234个文本查询（或提示）。这些查询包括来自WordNet[16]分类法的ShapeNet类别的直接下义词、子类别和相关形状属性（例如，圆椅子、方桌等）在ShapeNet(v2)数据集上。文本查询列在附录中。标准如下：01.重建质量。此标准主要用于检查第一阶段自编码器在测试集上的重建能力。我们使用两个指标：30,000个样本查询点上的均方误差（MSE）和与32 3的交并比（IOU）。0体素形状。02.生成质量。我们使用此标准评估文本查询生成的形状的质量。我们考虑两个指标：Fr´echet inceptiondistance（FID）[ 21]和使用IOU的最大测量距离（MMD）。为了计算FID和MMD，我们首先采用上述提到的224个文本查询，并为每个文本查询生成一个平均形状嵌入。然后，我们为所有文本查询生成323分辨率的3D对象。对于FID，我们将生成的3D形状与ShapeNet的测试数据集进行比较。FID依赖于一个预训练的网络，我们在13个ShapeNet类上训练了一个体素分类器，并使用第四层的特征向量。附录中提供了更多细节。在MMD的情况下，对于每个生成的形状，我们根据最高IOU与测试数据集中的形状进行匹配。然后，我们对所有文本查询的IOU进行平均。请注意，MMD是[ 2]中描述的最小测量距离的变体，我们认为它更适用于隐式表示，因为我们不需要对表面进行采样。03. 跨类别的多样性。为了确保我们生成的形状具有多样性，我们采用了以下方法：text2shape-CMA [6]16078.050.49924.27text2shape-supervised [6]14881.960.14186.84186070方法 FID ↓ MMD ↑ Acc. ↑0‘CLIP-Forge (我们的) 2425.25 0.6607 83.330表1. 使用text2shape数据集比较CLIP-Forge与监督模型。0为了在不同类别之间评估形状的多样性，我们设计了一个新的标准。首先，我们根据上述文本查询生成形状。对于每个文本查询，我们都有一个分配的标签。然后，我们将生成的体素通过用于计算FID指标的相同分类器。然后，我们根据分配的标签报告准确性。我们在整个文本中将此指标称为Acc。还请注意，与测试分布进行比较，FID指标可以很好地衡量多样性。04.人类感知评估。为了评估CLIP-Forge利用文本提示中的属性、常见名称和子类别信息提供对生成形状的控制能力，我们使用Amazon SageMaker GroundTruth和来自MechanicalTurk的众包工人进行了感知评估[ 37]。在第4.3节中提供了更多细节。04.1. 与监督模型的比较0我们将CLIP-Forge与使用直接监督信号训练的文本到形状生成模型进行比较。唯一现有的配对文本-形状数据集由Text2Shape [ 6]提供，其中包含56,399个ShapeNet对象的自然语言描述，包括椅子和桌子类别。我们使用Text2Shape数据集训练了两个监督模型：text2shape-CMA使用[ 6]中描述的跨模态对齐损失，text2shape-supervised在嵌入空间中使用直接的均方误差（MSE）损失。对于这两种监督基线方法，我们使用相同的CLIP文本编码器和占据网络形状编码器和解码器，以确保公平比较。表1显示了我们的文本查询集上的结果。可以看出，CLIP-Forge在所有评估指标上明显优于两种监督基线方法。特别是，我们观察到text2shape-CMA生成的是不像具体对象的通用形状，如盒子和球体。text2shape-supervised基线无法泛化，并倾向于生成与其训练的椅子和桌子类似的形状，尽管文本查询与这两个类别无关。04.2. 定性结果0我们对我们的方法的生成能力进行了定性评估。首先，在图4中，我们展示了我们的网络可以使用单个文本生成多个不同的形状。0查询。这在设计过程中想象新的变化时非常有用。接下来，我们展示了我们的网络可以基于类别、子类别、常见语义词和常见形状属性生成形状，如图5所示。可以看出，我们的网络捕捉到了文本查询的语义概念。最后，我们展示了在两个文本输入之间插值生成的形状，如图7所示。插值结果表明，条件空间是平滑的。04.3. 人类感知评估0在这项研究中，我们测量了在文本提示中提供额外细节是否会导致生成的形状在语义上的适当变化。为了评估形状变化是否语义正确，我们使用了来自亚马逊众包平台的人工评估员[37]。人工评估员被呈现了如图6(a)所示的图像对。一个图像是使用ShapeNet(v2)的类别名称生成的（例如“一辆汽车”），而另一个图像是使用描述子类别或形状属性的文本生成的（例如“一辆卡车”或“一辆圆形汽车”）。人工评估员被要求确定哪个图像最符合子类别或属性文本提示。每对图像被展示给9个独立的人工评估员。我们记录了超过一半的评估员选择使用子类别或属性增强提示生成的图像的图像对的比例。感知研究的结果如图6(b)所示。人工评估员正确地识别了70.83%的图像对中由详细提示生成的模型，这表明我们的方法能够以一种对人类可识别的方式利用属性和子类别信息。我们发现属性提示生成的形状比子类别提示生成的形状更容易被识别。这个结果的一个原因是属性增强提示清楚地描述了对象的外观，而许多子类别在生成的质量上不容易被识别。例如，“一个圆形的长凳”被8/9的评估员正确识别，而“一个实验室长凳”没有被任何一个评估员识别。04.4. 文本提示中前缀的选择0设计一个提示可能是具有挑战性的，因为词语的细微变化可能会对我们的下游任务产生影响。在这个实验中，我们研究了提示选择对我们方法性能的影响有多大。我们特别研究了在文本查询之前选择什么前缀。研究结果如表2所示。我们发现前缀选择确实对生成的质量和多样性有影响。未来研究的一个有趣方向是研究提示工程[60]。186080“一把椅子” “一架飞机”0“一辆卡车” “一张方形桌子”0图4. 我们的方法可以根据文本查询生成多个示例。在这种情况下，我们为给定的文本提示生成了3个形状。0“一把手枪” “一把AK-47” “一艘游艇” “一张梳妆台” “一辆沙滩车” “一辆货车”0“一把王座” “一把凳子” “一张沙发” “一台电视” “一盏台灯” “一对三角翼”0“一辆怪物卡车” “一辆肌肉车” “一艘快艇” “一艘帆船” “一把吧台凳” “一把翼椅”0“一张桌子” “一张圆桌” “一张长方形桌子” “一张方形桌子” “一张厚桌子” “一张薄桌子”0图5.通过包含常见名称、子类别和属性的文本，说明我们的方法可以生成形状。前两行展示了基于使用常见名称描述对象的形状生成。下一行展示了车、船和椅子类别的子类别的两种形状。最后一行展示了表类别的不同形状属性（圆形、方形等）。186090图6. a) 展示给人工评估员的图像对和文本提示示例。b)根据文本提示生成的模型被正确识别的图像对的百分比。0前缀 FID ↓ MMD ↑ 准确率 ↑0“一个”/“一” 2425.25 0.6607 83.330“一张照片” 2400.36 0.6490 78.630“一张照片” 2484.49 0.6620 80.770“一张图片” 2560.98 0.6681 81.200“一张渲染图” 3029.92 0.6311 76.500“一张照片” 2715.45 0.6597 82.480“一个” 3142.07 0.6608 87.180表2. 不同提示及其效果。0“一辆卡车” →“一辆跑车”0“一个柜子” →“一张桌子”0图7. 两个文本查询之间的插值结果。04.5. 用于点云的CLIP-Forge0在本节中，我们研究了我们的方法是否可以简单地应用于不同的表示，即点云。如前所述，我们使用PointNet编码器[47]和FoldingNet解码器[59]。我们使用与上述相同的流架构。我们在ShapeNet(v2)数据集上训练网络。结果如图8所示。可以看出，我们的方法在使用现成的点云编码器和解码器生成3D点云时表现出色。05. 消融研究0在本节中，我们讨论了我们算法的不同组成部分对模型的影响。对于所有的消融研究，除非另有说明，我们使用上述自编码器的超参数。对于流模型，我们使用具有棋盘掩蔽的RealNVP模型进行大多数实验，除非另有说明。0“一架f-16” “一张长凳” “一张桌子”0“一盏灯” “一张台球桌” “一辆小车”0“一张圆桌” “一架超音速飞机” “一艘帆船”0图8. CLIP-Forge点云生成。05.1. 阶段1 自编码器设计选择0在表3中，我们尝试了自编码器架构的不同部分。表3的第一个子节研究了在潜在空间中添加噪声如何帮助我们的模型。从表中可以看出，添加噪声不仅有助于重构，还改善了生成的形状的多样性。接下来，我们研究了潜在空间的大小，并发现我们的模型在使用较小的潜在空间大小128时效果还不错。最后，我们探索了不同的编码器和解码器。结果表明，我们的模型可以接受不同的表示形式，如点云，作为编码器的输入。关于编码器和解码器的更多细节，请参见附录。05.2. 阶段2 先验设计选择0在本节中，我们研究了先验网络的设计选择。首先，我们研究了不同的条件机制，即条件仿射耦合层和条件先验网络。从表4中可以看出，条件选择很重要，而条件仿射层的条件选择最有效。这在直观上是有道理的，因为我们在每个耦合层中进行多次条件化，而我们只在先验中进行一次条件化。在类似于[7,43]的架构中也观察到了类似的现象，他们在条件向量上多次进行了串联。在表4中，我们还研究了不同的掩蔽技术（维度掩蔽和棋盘掩蔽）[12]以及不同的流架构：掩蔽自回归×128VoxEncRN-OccNet0.72750.011203871.480.655971.94✓0.73740.011592688.720.673279.34✓256VoxEncRN-OccNet0.73750.011583177.920.653578.775120.73620.011553577.720.637474.50✓128PointNetRN-OccNet0.70820.010512646.930.674676.50ResVoxEncRN-OccNet0.73710.010753146.940.650974.6412983.720.658679.7752776.280.665580.20102622.710.665280.6320186100噪声潜在编码器解码器 IOU ↑ MSE ↓ FID ↓ MMD ↑ 准确率 ↑0VoxEnc CBN-OccNet 0.7674 0.01025 2956.78 0.6645 78.770表3. 第1阶段中不同自动编码器设计选择的影响，包括使用高斯噪声、潜在向量大小以及各种编码器和解码器架构。0条件先验 FID ↓ MMD ↑ Acc. ↑0仿射耦合 RealNVP-C 2688.72 0.6732 79.340先验网络 5227.32 0.6600 62.390仿射耦合 RealNVP-D 2591.87 0.6751 82.190MAF [42] 6052.62 0.6273 59.400表4. 第2阶段中不同条件归一化流设计选择的影响。0流（MAF）[42]。从表中可以看出，两种掩蔽技术都是有效的，但是维度掩蔽（RealNVP-D）似乎比棋盘掩蔽（RealNVP-C）更有效。此外，我们发现MAF流先验网络不如RealNVP有效。在剩余的消融研究中，我们使用维度掩蔽的RealNVP。05.3. 渲染数量0接下来，我们评估使用更多视图是否有助于提高生成质量和多样性。我们在表5中报告了结果。这些视图是从[9]中准备的渲染中随机选择的。可以看出，总体上使用更多视图有助于提高生成质量和多样性。由于我们使用的是预训练的CLIP模型，该模型是在不同视角的自然图像上训练的，使用多个形状渲染的视图进行训练可以更好地捕捉到CLIP模型的输出分布。05.4. CLIP架构0在本节中，我们评估使用不同的CLIP模型，以查看增加CLIP模型的大小以及使用ResNet [20]或ViT[13]为基础的clip模型对我们的下游任务的影响。我们从表5中经验性地观察到，增加模型的大小，即从ViT-B/32到ViT-B/16，并不会对基于文本的生成产生太大影响。更令人惊讶的是，基于ResNet的CLIP模型表现不如基于视觉变换器的模型。我们假设基于补丁的方法（如ViT）更注重前景对象而不是背景。这在图像渲染的情况下尤其如此。0渲染 CLIP FID ↓ MMD ↑ Acc. ↑0ViT-B/320ViT-B/32 2591.87 0.6751 82.190ViT-B/16 2515.81 0.6573 80.480RN50x16 2906.75 0.6591 75.930表5. 不同渲染数量和CLIP架构的影响。0在图像渲染的情况下，这对我们非常有帮助。06. 限制和未来工作0我们相信我们的方法可以通过多种方式进行改进。首先，生成的质量仍然有所欠缺，我们相信一个新的未来方向是结合来自局部隐式方法[8,45]的思想。此外，我们的工作目前侧重于几何，将纹理整合到我们的模型中将是一个有趣的方向。最后，我们受到CLIP训练数据分布的限制，未来的一个潜在方向是为特定数据集进行微调。在潜在的负面影响方面，由CLIP-Forge驱动的语言驱动的3D建模工具可能降低了3D建模的技术门槛，并可能减少一些繁琐的3D建模任务，对于3D模型师和动画师来说。然而，它带来了更大的好处，即将3D内容创作的民主化带给了普通大众，就像每个人今天都可以拍照和制作视频一样。07. 结论0我们提出了一种方法CLIP-Forge，可以在保留给定文本提示的语义含义的同时高效生成多个3D形状。我们的方法不需要文本-形状标签作为训练数据，为利用仅包含形状的数据集（如ShapeNet）提供了机会。最后，我们展示了我们的模型可以在其他表示（如点云）上生成结果，并对方法的不同组成部分进行了深入研究。186110参考文献0[1] Panos Achlioptas, Ahmed Abdelreheem, Fei Xia,Mohamed Elhoseiny, 和 Leonidas Guibas. Referit3D:用于细粒度3D物体在真实场景中识别的神经监听器.在欧洲计算机视觉会议上, 页码422–440. Springer, 2020. 20[2] Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, 和Leonidas Guibas. 学习3D点云的表示和生成模型.在国际机器学习会议上, 页码40–49. PMLR, 2018. 2 , 3 , 40[3] Panos Achlioptas, Judy Fan, Robert X. D. Hawkins, NoahD. Goodman, 和 Leonidas J. Guibas.学习使用自然语言指代3D物体, 2018. 10[4] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Mano-lis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, 和Fisher Yu. ShapeNet: 一个信息丰富的3D模型库, 2015.引用arxiv:1512.03012. 40[5] Dave Zhenyu Chen, Angel X Chang, 和 Matthias Nießner.Scanrefer: 使用自然语言在RGB-D扫描中进行3D物体定位.在计算机视觉–ECCV 2020: 第16届欧洲会议, 格拉斯哥, 英国,2020年8月23日–28日, 论文集, 第XX部分 16 , 页码202–221.Springer, 2020. 20[6] Kevin Chen, Christopher B Choy, Manolis Savva, Angel XChang, Thomas Funkhouser, 和 Silvio Savarese. Text2Shape:通过学习联合嵌入从自然语言生成形状. 在亚洲计算机视觉会议上,页码100–116. Springer, 2018. 1 , 2 , 50[7] Zhiqin Chen 和 Hao Zhang. 学习隐式场进行生成形状建模.IEEE计算机视觉与模式识别会议论文集, 2019. 2 , 70[8] Julian Chibane, Thiemo Alldieck, 和 Gerard Pons-Moll.隐式函数在特征空间中用于3D形状重建和补全.在IEEE/CVF计算机视觉与模式识别会议论文集上,页码6970–6981, 2020. 80[9] Christopher B Choy, Danfei Xu, JunYoung Gwak, KevinChen, 和 Silvio Savarese. 3D-R2N2:单视角和多视角3D物体重建的统一方法.在欧洲计算机视觉会议上, 页码628–644. Springer, 2016. 4 , 80[10] Karan Desai 和 Justin Johnson. Virtex:从文本注释中学习视觉表示.在IEEE/CVF计算机视觉与模式识别会议论文集上,页码11162–11173, 2021. 10[11] Laurent Dinh, David Krueger, 和 Yoshua Bengio. NICE:非线性独立成分估计, 2015. 20[12] Laurent Dinh, Jascha Sohl-Dickstein, 和 Samy Ben- gio.使用Real NVP进行密度估计. arXiv预印本arXiv:1605.08803 ,2016. 2 , 3 , 4 , 70[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl-vain Gelly, 等. 一张图值16x16个词:用于大规模图像识别的Transformer.arXiv预印本arXiv:2010.11929 , 2020. 3 , 80[14] Patrick Esser, Robin Rombach, 和 Bjorn Ommer.驯服Transformer进行高分辨率图像合成.在IEEE/CVF计算机视觉与模式识别会议论文集上,页码12873–12883, 2021. 20[15] Han Fang, Pengfei Xiong, Luhui Xu, and Yu Chen.Clip2video: 通过图像剪辑掌握视频-文本检索.arXiv预印本arXiv:2106.11097 , 2021. 20[16] Christiane Fellbaum. WordNet: 一个电子词汇数据库.MIT出版社, 1998年5月. 40[17] Kevin Frans, L. B. Soros, and Olaf Witkowski. Clipdraw:通过语言-图像编码器探索文本到绘图合成, 2021. 20[18] Andrea Frome, Greg Corrado, Jonathon Shlens, SamyBengio, Jeffrey Dean, Marc’Aurelio Ranzato, 和 TomasMikolov. Devise: 一个深度视觉-语义嵌入模型. 2013. 10[19] Zhizhong Han，Mingyang Shang，XiyangWang，Yu-Shen Liu和Matthias Zwicker.Y2seq2seq：通过联合重建和视图和词序列的预测进行的三维形状和文本的跨模态表示学习。人工智能AAAI会议论文集，33(01)：126-133，2019年7月。10[20] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议论文集中，页770-778，2016年。80[21] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和Sepp Hochreiter.使用两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统进展，30，2017年。40[22] Pin-Hao Huang，Han-Hung Lee，Hwann-TzongChen和Tyng-Luh Liu.用于引用3D实例分割的文本引导图神经网络。人工智能AAAI会议论文集，35(2)：1610-1618，2021年5月。10[23] Faria Huq，Anindya Iqbal和Nafees Ahmed.从多样的文本描述生成整体静态和动画3D场景。CoRR，abs/2010.01549，2020年。10[24] Sergey Ioffe和Christian Szegedy.批归一化：通过减少内部协变量漂移加速深度网络训练。在机器学习国际会议上，页448-456。PMLR，2015年。40[25] Chao Jia，Yinfei Yang，Ye Xia，Yi-Ting Chen，ZaranaParekh，Hieu Pham，Quoc V Le，Yunhsuan Sung，ZhenLi和Tom Duerig.使用嘈杂文本监督进行视觉和视觉语言表示学习的扩展。arXiv预印本arXiv:2102.05918，2021年。1，20[26] Armand Joulin，Laurens Van Der Maaten，AllanJabri和Nicolas Vasilache.从大规模弱监督数据中学习视觉特征。在欧洲计算机视觉会议上，页67-84。Springer，2016年。10[27] Andrej Karpathy，Armand Joulin和Li Fei-Fei.用于双向图像句子映射的深度片段嵌入。arXiv预印本arXiv:1406.5679，2014年。10[28] Sungwon Kim，Sang gil Lee，Jongyoon Song，JaehyeonKim和S

下载后可阅读完整内容，剩余1页未读，立即下载