文本引导的三维形状生成

137 浏览量更新于2023-10-25 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17896基于隐式文本引导的三维形状生成刘正哲1王毅2齐小娟3傅志永1王1香港中文大学2上海人工智能实验室3香港大学{zzliu，cwfu} @ cse.cuhk.edu.hkxjqi@eee.hku.hkwangyi@pjlab.org.cn摘要在这项工作中，我们探讨了具有挑战性的任务，从文本生成三维形状。除了现有的作品，我们提出了一种新的方法，文本引导的3D形状生成，能够产生高保真的形状与颜色，匹配给定的文本描述。这项工作有几个技术贡献。首先，我们解耦的形状和颜色的预测学习文本和形状的特征，并提出了词级的空间trans-former相关的文字特征与形状的空间特征。此外，我们设计了一个循环损失，以鼓励文本和形状之间的一致性，并引入形状IMLE多样化生成的形状。进一步，我们扩展的框架，使文本引导的形状操作。在最大的ex-text-shape基准[10]上进行的大量实验表明了这项工作的优越性。代码和模型可在https://github.com/liuzhengzhe/Towards-Implicit-Text-Guided-Shape-Generation获得。1. 介绍3D形状创建具有广泛的应用，CAD、游戏、动画、计算设计、增强现实等。近年来，通过利用神经网络和生成模型来学习生成3D形状，已经取得了重大进展。然而，现有的作品[7，12，13，22，34，35，47，49，70，76，78]主要集中在生成整体形状，而最近的[11，14，23，44，59，79，80]试图生成具有更多细节的形状在这项工作中，我们感兴趣的是文本引导的3D形状生成的挑战性任务 - 给定一个句子，例如， “Acomfortable red color chair with four legs,” we aim todevelop a method to automatically generate a 3D shape thatfollows该研究方向对于高效的3D形状生产具有巨大的潜力，例如通过采用用户语音/文本输入来引导或调节生成3D形状的过程。通过这种方式，我们可以帮助用户随时生成和编辑3D模型的各种应用。* ：通讯作者（一）一个舒适的红色椅子有四条腿。（b）第（1）款一个电脑椅与绿色粉红色填充和背部，黑色扶手，和五个辐条腿与辊。（c）第（1）款棕色全木椭圆形形状的咖啡桌。矩形图1. (a)用我们的方法从同一个句子中生成了不同结构和外观的椅子。我们的方法还允许基于文本的颜色（b）和形状（c）操作。虽然已经开发了许多方法[40，61-Chen等人[10]通过学习联合文本和形状嵌入，从自然语言描述中生成3D形状，但性能和视觉质量受到低分辨率3D表示的高度限制。另一项最近的工作[33]利用语义标签来指导形状生成，但它需要预定义的语义标签，并且不能直接处理自然语言输入。为了增强从文本生成的3D形状，我们提出了一种新的解决方案，即利用隐式表示[13，48，54]来预测占用字段。然而，一些继承的挑战还没有得到解决，在早期的作品，适当地采用文本到形状的任务的隐式表示。首先，上述工作通常生成没有颜色的形状，这在文本引导的3D形状生成中至关重要，因为文本描述通常包含颜色;我们根据经验发现，用单个隐式解码器直接预测形状和颜色通常会导致形状失真和颜色模糊。其次，文本包含大量的空间关系信息，例如尽管如此，空间关系局部特征在实验中被忽略，因为隐式解码器通常仅考虑来自自动编码器的全局特征作为输入[13]。第三，生成的形状并不都与17897输入文本，很大程度上是由于文本和3D形状之间的语义差距，也缺乏有效的学习约束。最后，文本到形状的生成本质上是一对多的，即，不同的结果可以匹配相同的输入文本。然而，现有的基于回归的方法仅输出单个形状。这项工作提出了一种新的方法，高保真文本引导的三维形状生成。首先，我们解耦的形状和颜色预测的文本和形状的特征学习，以提高生成的保真度，这种策略也有助于文本引导的形状操作。此外，我们引入了一个字级的空间Transformer学习相关的字的功能与形状的空间域。此外，我们设计了一个循环损失，以鼓励生成的3D形状和输入文本之间的一致性此外，我们提出了一种新的基于风格的潜在形状IMLE生成器，用于从相同的给定文本中生成多样化的形状最后，我们扩展了文本引导的三维形状操作的框架与双向循环损失。如图1（b）所示，我们可以修改原始文本，我们的框架可以根据编辑后的文本生成新的彩色形状，同时保持其他属性不变。在现有最大的文本形状数据集[10]上进行的大量实验证明了我们的方法在定性和定量方面都优于现有的作品。2. 相关工作文本到图像生成。从文本生成图像已经取得了显著的进展[40，41，6182、83]。最近，还提出了基于无条件GAN [6，36，37]的方法[56，64，66，67，73，75，81]与文本到图像相比，从文本生成3D形状更具挑战性。首先，与2D图像不同，3D形状是非结构化和不规则的，没有明确定义的网格结构。此外，文本到形状任务需要对整个3D形状进行全面预测，而文本到图像任务解决图像生成，这是3D形状的投影此外，有大量的大规模图像数据集[46，51，71]来支持文本到图像。然而，据我们所知，文本到形状的最大数据集是在[10]中提出的，它有75k个文本和15k个形状，1283分辨率。缺乏大规模、高质量的训练数据使得文本到形状的任务更加困难。3D形状表示、生成和操作。与图像不同，三维形状可以表示为，体素网格[18，24]、点云[2，60]和网格[21]。还有，已经提出了各种方法[30，38，39，45，68]来生成和操纵不同3D表示的形状。然而，生成的形状受到训练集的分辨率和质量的为了生成任意分辨率的形状，最近的作品[13，16，47，48，54]开始探索隐函数，实际上已经在许多任务中使用，例如，单视图重建[44，50，76]、3D场景重建[29，35，58]和3D纹理生成。[17，52，53]。在现有的工作中，一种典型的方法是利用自动编码器（AE）来适应多个3D生成任务，并将输入模态映射到AE单图像3D重建[13，76]，基于点云的形状生成[7，15]，以及3D完成[74].在上述工作的基础上，本文提出了一种直接的文本引导三维形状生成方法，即将文本特征映射到AE然而，这种简单的方法有几个缺点，如第1节所讨论的。最近，一些作品使得使用参考框或参考点作为指导来操纵隐式3D形状[19，27，32，84]成为然而，它们中没有一个能够使用自然语言描述进行3D形状操作。从文本生成3D形状。提出了一系列工作来解决文本和3D形状的任务，包括学习文本-形状对应关系[3]，跨模态检索[26，69]，形状到文本生成[25]，文本引导的形状组合[31]和3D对象定位[9]。据我们所知，只有少数作品[10，33]解决了具有挑战性的文本到形状任务。Chen等人[10]提出在联合学习的文本形状嵌入之上直接预测具有对抗学习的彩色体素虽然可以产生合理的形状，但形状分辨率和纹理质量仍远不能令人满意。此外，由于文本和形状之间的大的语义差距，生成的形状可能与输入文本不一致。Jahan等人[33]提出了一种语义标签引导的形状生成方法，但该方法只能以单热点语义关键词作为输入，生成的形状质量也不理想，没有颜色和纹理。这项工作提出了一个新的框架，能够生成高保真的3D形状与良好的语义对应的文本和形状。此外，我们的框架，使文本引导的3D形状操作的形状和颜色，优于现有的作品由一个大的margin，金，在实验中证明。多样化的一代。除了GAN之外，IMLE（隐式最大似然估计）是另一种帮助多模态生成的方法，例如，超分辨率[42]、语义布局引导的图像合成[43]、图像解压缩[57]和形状完成[4]。与GAN相比，IMLE减轻了GAN的模式崩溃，提高了结果的多样性。在这项工作中，我们利用IMLE从相同的文本输入生成多个形状。3. 方法3.1. 概述给定文本T，我们的目标是生成具有颜色的高质量3D形状S，遵循T的描述。为了生成高质量的结果，我们利用隐式占用17898--∈∈∈------}形状编码器形状解码器形状和颜色形状颜色解码器彩色解码器地形特征地形特征文本特征መBERT文本空间感知中文（简体）编码器解码器特征多元化特征点坐标随机我噪声潜在IMLE发生器当地特征Concat.(b)文本引导形状生成联合文本-形状特征空间详细结构��关于我们c��′��′回归损失联系我们��联系我们��一个棕色的，灰色腿垂直中心表。环状损失Bҧ��′��ҧ��联系我们��联系我们��…��′一布朗表_，_��日本语(c)多样化的世代回归损失1 …��…一个棕色的，灰色腿垂直中心表。��መ1��መ��መB…��′…��ҧ={��ҧ,��ҧ}多样化的特点��መ�� ⨁p布拉奇�� ⨁D详细结构(a)形状自动编码器WLSTWLST图2.概述我们的文本引导形状生成框架，它有三个主要部分。（a）首先，形状自动编码器E、D从输入的3D形状I提取形状特征fs和颜色特征fc。（b）然后，我们学习使用单词级空间Transformer（WLST）和循环一致性损失fcyc以文本引导的方式生成3D形状。（c）采用基于风格的潜在形状生成器G，从同一给定文本生成多样化的3D形状。我们只需要（c）在推理过程中在一些实施例中，可以使用除显式体素/点/网格表示之外的其他表示来用颜色表征形状。具体地，预测的具有颜色的形状被表示为SRN×（1+3），分别包括形状RN×1（体素中的占用值的集合）和颜色R3N（RGB值的相关联的集合），其中N是关于生成质量的样本点的数量。我们的框架由文本编码器B、特征生成器G、空间感知解码器D′和形状编码器E组成。其整体架构如图2所示。在推论中，Beextractste xtfeaturef<$=f<$s，f<$c从t e xtT（其中f和f′c分别是f′的形状和颜色部分），eextractte xtfeaturef<$=f<$s，f<$c并且从输入文本T中提取word-l ev el特征f<$w = f <$s w，f<$c w（参见图2（b）），并将f <$映射到联合文本-形状特征空间中，减少文本和形状之间的域间隙。此外，我们提出空间感知解码器D′，以利用词级提取的局部特征空间Transformer（WLST），它显式地将空间和单词特征关联起来，以提高S. 此外，我们用公式表示循环损失Lcyc，以促进形状S和文本T之间的一致性。• 最后，我们提出采用基于样式的形状生成器G，它以一组随机噪声向量为条件G产生这样的特征{fi}m的多个实例基于monf<$ conditioned on various randomvectors{生成不同的形状{Si∈RN×（1+3）}mi=1兹岛然后，D′用颜色。{zi}i=1，以使得能够利用特征fi生成离散的3D形状，如图2（c）所示。i=1我们的方法的模型训练是不平凡的。我们训练总体框架分为三个阶段（再次参见图2）：(a)形状自动编码器，（b）文本引导的形状生成，以及(c) 使用IMLE生成多样化的形状具体地说，• 首先，如图2（a）所示，我们训练形状编码器E和隐式解码器D。如中上部所示，与现有的在形状生成中忽略颜色的作品[13，33]不同，当D预测输出形状时，D由Ds和Dc组成，分别负责形状和颜色的解码• 然后，我们采用基于BERT的文本编码器B[20]来帮助17899∈--在下文中，我们将详细介绍框架的每个组成部分和相关损失。3.2. 形状自动编码器我们扩展了[13]中的自动编码器，以联合重建形状和颜色。如图2（a）所示，我们的形状自动编码器旨在将输入的基于体素的形状IR64×64×64映射到一个紧凑的特征空间中。具体地，编码器E [13]从I提取形状和颜色特征f=fs，fc，而解码器D分别通过Ds和Dc重建形状和颜色。内部17900∈∈∈∈{}∈联系我们2联系我们2（一）--××2一把金属椅子带金属丝的座椅靠背棕色。输出形状The attention关注“金属”地图“棕色”地图Q：（×）��A：（×）：（��：（��用户名：��（×）��2R：（×）��K：（×）1V：（×）��下一个Transformer层图3.字级空间Transformer架构。FQ、FK和FV是全连接层，而FF1和FF2是前馈网络。层归一化[5]被省略。图4.可视化单词“金属”和“棕色”的注意力地图A。较暖的颜色表示较强的相关性。D，我们连接一个样本（或查询）点坐标p=（x，y，z），每个特征向量（fs或fc）作为Ds或Dc的输入。Ds和Dc具有相同的架构，具有七个全连接和泄漏ReLU层，除了在最后一层中，Ds输出单个占用值，Dc输出RGB颜色的三个值，两者都在采样点p处。训练形状自动编码器以使用L2回归重建输入形状的Lae=λsp||Ds（fsp）−I（p）||2+λc<$k∈{R，G，B}<$p||Dc（fcp）[k]−I（p）[k]||1（I（p）），图2（b）的右侧示出了空间感知解码器D’的架构。首先，我们将f′s和p连接起来，并将结果f′spRN×（d+3），使用完全-连通图层，其中N是采样点用于形状重建，d是f的通道尺寸。然后，我们将词的水平BER T特征变换为f<$wRK×dB（其中K是输入text和dB是使用全连接层的来自B的每个单词特征f<$w）的通道维度变换后的空间特征和词特征分别表示为R RN×dl和WRK×dl，其中R iRdl是R，其对应于第i个采样点，WjRdl是W中的第j行，其对应于输入文本中的第j个单词。重要的是，我们制定WLST来学习R i和W j之间的相关性;详见下一段。之后，Ds′从下式中获取全局特征f′s、采样点坐标pi和局部特征f′s l，iWLST作为输入，以预测对于形状重建图3显示了WLST的架构。利用空间特征R和单词特征W，我们首先建立注意力图A以明确地关联每个单词特征Wj，其中每个样本点pigiv en形状特征fs;参见图4，例如A的可视化，揭示了它如何在输入文本中的不同单词的形状中捕获空间区域。接下来，我们使用softmax函数来处理A，以生成归一化的注意力矩阵a。的点pi的输出局部形状特征f'sl，i- 跨整个输入文本的词级特征Wj的因此，我们的WLST可以公式化为：其中，I（p）和I（k，p）分别表示点p处的地面实况占用率和颜色值;i=0，i=FQ（Wj）FK（Ri）阿夫拉德l）FV（Ri），（2）1是一个指标函数，如果p在输入形状，否则为0;λ和λ是其中FQ、FK和FV是全连接层;见图-′图3是WLST架构的示意图同样，DC也形状和颜色重建。3.3. 文本引导形状生成如图2（b）所示，文本引导形状生成网络由三个模块组成：形状编码器E、基于BERT的文本编码器B和空间感知解码器D′。通过由形状自动编码器中的相应组件初始化E和D′（Ds′和Dc′），我们的目标是端到端地训练整个网络以获得B和D′。文本编码器B。我们采用BERT结构[20]来构建文本编码器B，用于从输入文本T中提取文本特征f′，并将f′映射到联合文本形状特征空间。空间感知解码器D′。D′旨在将文本特征f′转换为具有颜色的预测形状S代替简单地使用训练的隐式解码器D，我们用字级空间Transformer（WLST）构造空间感知解码器D'简而言之，我们从WLST中提取局部特征来改善T。利用WLST来提取局部颜色特征f'cl。使用WLST，我们可以扩展隐式解码器D以考虑额外的局部特征f<$l=f<$sl，f<$c l（参见图2），其通过显式地学习词级空间描述和3D形状之间的相关性。因此，我们可以使输入文本中的每个单词都可以被形状解码器访问，并增强生成的形状的保真度（或局部细节）。循环一致性损失。为了减少文本和形状之间的语义差距，我们提出了一个循环一致性损失，以鼓励输入文本T和D′的输出形状S之间的一致性。为了形成循环，我们首先对64 64 64个点进行网格采样以使用D'来生成S，并且利用来自经训练的形状自动编码器的编码器E来从S提取特征fcyc;参见图2（b）。然后，我们定义了循环一致性损失来操作语义有意义的特征空间，而不是低级别的占用或颜色值，这样它可以正则化形状生成179012××--2222i=1i=1∼··联系我们同时促进多样化的形状生成[42，43]。我们用所有其他模块E、B、D′训练形状IMLEG冻结（见图2），使用fk=G（f<$，zk）上的L2损失：LG= mink ∈{1，…m}||二、||2.（七）图5.我们的shape-IMLE生成器的架构。受StyleGAN [37]的启发，我们将随机噪声z映射到潜在空间W+[1]，以通过第一和第三个全连接层的自适应层归一化[5]（A1和A2）控制生成器。在一个封闭的循环中，通过鼓励高层次的功能，类似于来自形状编码器的f={fs，fc}期间的推理，我们饲料每特征{f}1，. -是的-是的，fm}转换为D以生成离散形状，而不使用地面实况f来选择最接近的fk。3.5.文本引导的形状操作接下来，我们扩展了文本引导形状操作的框架，即，以生成与xt匹配的形状为了减少内存消耗和训练时间，我们首先对16 × 16 × 16个点进行网格采样以形成低分辨率的体素化形状S1，然后对S1进行三次线性上采样以获得与I相同分辨率的S（64×64×64）。网络培训。初始化形状自动编码器，我们训练文本引导形状生成网络端到端的形状自动编码器损失L′ae在D′上，T2，其通过替换/插入/移除一个或几个单词而从原始文本T1稍微修改，对于相同的随机噪声z，其他属性不变。以形状操作（颜色不变）为例，我们可以直接馈送特征f2=f2s，f2c从编辑后的文本到D′，以生成新的编辑后的形状。然而它可能会导致未编辑区域和颜色的剧烈变化（图7（b））。考虑到解耦的形状和L′ae=λsp||Ds′（fs，p，f<$sl，Rsi）−I（p）||2+λc<$k∈{R，G，B}<$p||Dc′（fc，p，f<$cl）[k]−I（p）[k]||21（I（p）），（三）颜色特征，我们可以混合编辑文本中的f2s和原始文本作为D′的输入。这种简单的方法可以确保除了形状和颜色之外的未编辑属性的一致性Lreg=λr||f′−f||第二条、第四条L cyc=λ cyc||f cyc− f||其中λ s、λ c、λ r和λ cyc是权重。3.4.多样化的3D形状生成为了实现对同一输入文本的多样化的3D形状生成，我们提出了一种基于样式的潜在形状IMLE生成器G，即形状IMLE，它在潜在空间;见图2（c）。将文本特征f<$=f<$sf<$c从可能无法很好地与编辑的形状对齐（图7（c）），因为f2s和f1c实际上来自不同的文本。为了促进形状-颜色对齐，我们建议将形状特征f<$2s（从文本T2中提取）和颜色特征f<$1c（从文本T1中提取）馈送到G3，以预测操纵的特征f2s，f1c。然后，我们可以将f2st，f1c馈送到D′以产生编辑后的形状Ss t e c 。是的，这种方法仍然可能导致未编辑属性中的某些更改（图7（d））。图-图6进一步示出了具有双向循环损耗的完整框架，即，Lcycc和Lcycs。在这里，我们使用形状编码器E来提取操纵特征fstec={fstecs，fstecc}，B作为输入，G生成{f<$i=f<$s，i<$f<$c，i}m条件是Stecand公式Lcycs，用于形状一致cy（ftecs和f2s）一组随机向量Z={zi}m.与GAN不同，和LCYCC对于颜色一致的cy（fstecc和f1c）.然后我们还可以这鼓励生成的样本与目标数据，IMLE反向鼓励每个目标数据具有类似的生成样本，以避免模式崩溃[43]。计算总损失：Lmani=（||fstecs−f2s||2个以上||fstec−f1c||2）1（Io U（I1，I2）>t）图5示出了形状IMLEG的架构。对于G的训练，其优化如下：+LG12 2+LG2，（八）minEZ[mind（Gθ（f<$，zk），f）]（6）θk ∈{1，.，m}其中θ表示生成器G的权重;d（，）是距离度量;并且对于每个输入f<$，我们随机采样m个随机噪声向量z i，以生成m个不同的输出fi。之间其中，与地面真实值f最相似的一个，比如fk，通过L2回归训练为更接近f因此，我们可以鼓励每个地面真值f都有一个类似的生成的样本，以避免GAN中的模式崩溃问题��11~粤ICP备16036664号-1��12��∈217902其中第一项是双向循环一致性损失，其仅在相关联的地面实况形状I1和I2之间的交集大于阈值t时生效。最后两项微调的形状IMLE为多样化的一代（见方程。（七））。为了训练框架，我们从形状IMLE初始化它的权重，然后使用Lmani微调G，所有其他模块E，B，D'冻结。另外，我们随机抽取两个不成对的文本T1，T2来模拟原始文本和编辑后的文本.通过双向循环损失，形状IMLE可以学习生成其他属性不变的编辑形状17903联系我们的表方形圆形木腿。桌面是蓝色的。台球桌，绿色的毡面和棕色的粗腿。白色(a)形状操作(b)颜色处理一个正方形，棕色，LG1L=||��ሶ −��መ ||2高靠背短腿的木椅。11��መ ={}��1分钟}联系我们121第一��…一个正方形，棕色，��2ҧ��۩��1ҧ3202年，201年，��′��ሶ ={��ሶ ,��ሶ}木椅短有着高高的背��B2��መ ={}��2分钟}��（1个月）��ሶመ2和短腿高大2L-2L��_��=||��− ��2��}||2图6.我们的文本引导形状操作框架概述（颜色不变）。给定两段文本T1、T2，形状IMLE G1和G2使用相同的随机噪声Z1来生成形状。G3takesf<$2s，f<$1c并且zi作为输入，以生成具有特征fstecs、fstecc（由E编码）的形状S stec，使得fstecs和fstecc应当类似于fstecs和fstecc。因此，我们提出了一个双向循环损失（Lcycc c和Lcycs），以鼓励Sstec和T2之间的形状一致性，以及Sstec和T1之间的颜色一致性。 G1、G2、G3共享相同的权重。形状自动编码器，我们采样4096点，3图7. (a)来自未编辑文本的原始形状。(b)编辑文本中的形状。它表明，即使只是编辑一个颜色无关的词也可能影响生成的颜色。 (c)更换f2c与原始颜色特征f1c的不匹配会导致不对齐生成的形状和颜色之间。(d)我们的方法没有双向循环损失，未经编辑的属性可能仍然会改变。(e)我们使用双向循环损失的完整方法产生了一个编辑过的形状，可以更好地保留未编辑的属性。图8.我们的文本引导的形状和颜色操作结果。同时更好地对齐形状和颜色。有关颜色操作框架的详细信息，请参见补充材料除了图1（b，c）和7（a，e）之外，图8还显示了两个文本引导的操作结果。4. 实验4.1. 数据集和实施详细信息我们的方法在最大的文本形状数据集ShapeNet 3D模型上进行了评估，其中包含自然语言描述[10]。该数据集包含来自ShapeNet的桌子和椅子类的15，038个形状[8]; 75，344个自然语言描述，16。平均每个描述3个词，整个数据集中有8，147个唯一词[10]。我们在PyTorch中实现了我们的框架[55]。培养使用[13]中的策略，以16分辨率训练网络500个epoch，然后以32 3分辨率继续训练另外500个epoch，学习率为1e−4。对于xt引导的形状生成，我们端到端地训练网络200个epoch，然后在另外200个epoch中以64 3分辨率端到端地微调它。对于多样化的形状生成，我们以1 e-3的学习率训练形状IMLE100个epoch，其他网络模块冻结。最后，我们用双向循环一致性损失微调形状IMLE另外100个时期以实现操纵。我们将超参数d、dl、λ s、λ c、λ reg、λ cyc和t设置为256、32、2、1、1、0。005和0。01，分别使用一个小的验证集。4.2. 与现有工程的我们将我们的方法与文本引导形状生成的两个现有作品[10，33]（另见第2为了与[10]进行公平的比较，我们将生成的结果转换为与[10]相同分辨率的体素，即，323. 此外，我们遵循其训练 / 验证 / 测试（80%/10%/10%）划分及其评估指标，即，IoU、EMD、IS和Acc（Err=1-Acc），并直接将我们的结果与[10]中表1报告了结果，表明我们的方法在所有评估指标上都优于[10]，证明了其有效性。请注意，1.97）已经在这方面取得了令人满意的成绩。图9中的定性比较也证明了我们方法的优越性，与[10]（见图9（a））相比，该方法能够生成更好的形状和颜色（见图9（b，c））另一项工作[33]专注于从短语描述中生成形状;参见图10（a）的左侧。由于它的设置与我们的非常不同，我们只与它进行定性比较。为了做到这一点，我们首先准备句子1深色木制无框椅用手臂座位和背部是一个浅棕褐色的垫子。（a）原件（ b）被操纵的（c）被操纵的形状（d）我们没有（e）我们有形状颜色形状颜色�� 1=�� 1��⨁�� 1�� 2=�� 2��⨁��2&原始颜色双向循环损耗�� 2��⨁��1202年，201年，202年，201年，，1222 ，2 ۩Bመመመ17904表1.与现有工作的定量比较[10]。表2.文本引导形状生成的消融研究。图9. Text2shape的结果[10]（a）vs.我们的（b，c）与GT（d）。图10. [33]（a）与我们的（b）。匹配[33]中短语描述的描述，然后使用我们的模型生成3D结果。比较图10（a）和（b）中所示的结果，我们可以看到我们的模型能够生成与输入描述（“方形，长直腿”）匹配的更多样化的椅子，同时具有不同的颜色和更高的4.3. 消融研究我们进行了广泛的消融研究，以验证“文本引导形状生成”和“多样化生成”中关键组件的有效性。为了衡量生成的形状的多样性和质量，我们制定了两个新的度量标准，PS和FPD，基于Inception Score（IS）[65]和Fréchet Inception Distance（FID）[28];请参阅补充材料了解详细信息。为了评估文本形状的一致性，我们采用R-Precision [77]。为了减少训练时间，我们在323分辨率下训练所有模型.文本引导的形状生成。我们评估了该模块中以下主要组件的有效性（图2（a，b））：使用预训练的自动编码器（AE）进行联合训练，解耦形状-颜色解码器（ DSCD ）， WLST 模块（ WLST ）和循环损耗（CL）。请参阅柔软的-图11.形状生成的定性烧蚀研究。表3.不同形状生成的烧蚀研究。方法PS（↑）FPD（↓）R-精密度（↑）潜在GAN 3.31±0.02 30.70 21.20 ± 0.11FC IMLE 2.93±0.02 29.53 25.97 ± 0.09形状IMLE 3.39±0.02 29.65 27.60 ± 0.39进一步+WLST 3.39±0.03 28.41 34.37 ± 0.09+WLST+CL（完全）3.45±0.02 27.26 40.71±0.10有关每个设置的详细信息，请参阅相关材料。定量和定性结果分别见表2和图11。请注意，此设置中的所有模型都达到了令人满意的R精度（>98%，“无AE”除外首先，自动编码器联合训练（AE）对于模型收敛至关重要。没有AE，基线方法无法收敛，导致质量极低的不合理结果（见图11（a））。其次，解码器结构中的形色解耦（DSCD）大大提高了PS和FPD，显示了其促进高保真和多样化合成的这也在图11（b）所示的定性比较中得到验证。第三，通过词级语义的授权，我们可以丰富局部细节;参见最后，循环损失（CL）提高了生成的形状和输入文本之间的一致性;参见图11（d）中的视觉比较。请注意，WLST和CL在下文详述的“多样化发电”组件中对模型更有利多样化的一代。接下来，我们评估多样化发电的主要模块（图2（c））。首先，我们重新-方法IoU（↑）IS（↑）EMD（↓）Err（↓）Text2Shape [10] 9.64 1.96 0.4443 2.63我们的12.21 1.97 0.2071 2.52一张方形的桌子木头腿桌面是蓝色的。宽的长方形表面的桌子，有四个短腿。一个棕色的折叠椅子无AE的方法+AE更多+DSCDIoU（↑）PS（↑）FPD（↓）0.03 1.01±0.00 67.3712.04 2.95±0.0335.0531.09更多+WLST12.00 3.16±0.0430.34进一步+CL（完全）12.33 3.26±0.0630.8012.24 3.21±0.05(a) 语义导向背部：侧视图-直座：形状-方形腿：数量-四类型-直长度-长(b) 我们直背方形四条长直腿椅。一个棕色的A2灰色分层桌腿，垂直蓝层中心四表.灰色的腿（一）. -AE与+AE（b）+AE。vs. +DSCD谭·布朗木质和绿色，木制椅子红背晚宴和座位表。垫垫子地（c）。+DSCD与+WLST（d）。+WLST与+CL17905(a)一个粉红色的蓝色时尚的椅子，有用的功能型.(b)一个时尚的棕色椅子，红色具有弯曲结构的蓝色座椅材料。血液(c)金色靠垫沙发，两侧扶手。(d)一个正方形的玻璃表与四个金属木制圆腿连接。黑暗(e)明亮的res织物椅子与钢从和没有扶手。(f)一个银色的表与顶部弯曲的边缘和黑暗的基础。明亮圆形(a)一张方形的玻璃桌子，有金属腿。(b)一张有三条腿的圆形木制咖啡桌。四(c)一个高大的灰色短矩形表与一个独特的基础。(d)有三条直腿的金属桌子。弯曲简单(e)带扶手的粉红色沙发椅。(f)一张长方形的桌子，粗白的腿它是黑色的。图12.多元化世代的定性消融研究将基于样式的形状IMLE与用于形状生成的两个不同组件放置在一起：潜在 GAN 和全连接 IMLE （ FCIMLE）。此外，我们还探索了没有WLST模块和循环损耗（CL）的模型，这有利于多样化的形状生成。请参阅补充材料了解每个设置的详细信息。定量和定性结果分别见表3和图12。请注意，此设置侧重于形状多样性和质量，因此我们不采用与“LatentGAN”相比（b）），同时获得更好的定量结果。此外，所提出的基于样式的生成器（最后，WLST模块和循环损失进一步帮助提高了生成保真度和文本形状一致性，如表3的最后两行所示，证明了它们的有效性（参见图12（d，e））。4.4. 文本引导的形状和颜色操作除了图1（b，c）、7（a，e）和8之外，在图13和14中示出了更多的文本引导操纵结果。由于我们的双向循环损失，我们的模型可以在生成的结果中进行文本引导的颜色和形状修改，同时尝试保持其他属性不变。例如，我们能够将“正方形”表修改椅子的腿;见图13（a）。如果我们将单词“pink”更改与现有工作[10]的更多比较以及关于操作的进一步消融研究可以在柔性材料中找到。图13.我们的文本引导形状操作结果。我们可以操纵（a）桌子的形状，（b）桌腿的数量，（c）高度，(d) 腿的形状，（e）结构，（f）腿的厚度，等等。图14.我们的文本引导颜色操作结果。我们可以(c)使用相关词间接地操纵颜色（例如，“blood” for red), (d)manipulate the material, (e,f) adjust the color brightness usingwords such as “bright” and “dark”,5. 结论我们已经提出了一种新的框架，能够生成- ING多样化的3D形状与颜色的文本描述，同时允许灵活的文本引导操作。除了框架，我们提出了解耦的形状和颜色的预测学习的形状和颜色的特征，从文本和设计的单词级空间Transformer，解释相关的单词与空间位置，以增强局部细节。此外，我们开发了循环一致性损失，以提高文本形状的一致性，并介绍了基于样式的形状IMLE生成器多样化的形状。此外，我们扩展了文本引导的形状操作与新的双向循环损失的框架。大量的实验研究表明了该框架的有效性.补充材料中阐述了局限性分析和未来工作。谢谢。这项工作得到了香港特别行政区研究资助局的支持（项目编号14201921和27209621）。一个蓝色的椅子与侧手有垂直线和柔软的座位。(a)潜在GAN（b）FC IMLE（c）形状IMLE（d）+WLST（e）+WLST+CL17906引用[1] Rameen Abdal，Yipeng Qin ，and Peter Wonka. Im-age2StyleGAN：如何将图像嵌入到StyleGAN的潜在空间？在ICCV，2019年。[2] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J.Guibas 学习 3D 点云的表示和生成在ICML，2018。[3] 放大图片作者：Judy E. Fan，Robert X.D. 作者声明：D.Goodman，and Leonidas J. Guibas.学习用自然语言指代3D对象。2018年。[4] Himanshu Arora，Saurabh Mishra，Shichong Peng，KeLi，and Ali Mahdavi-Amiri.通过IMLE完成形状。arXiv预印本arXiv：2106.16237，2021。[5] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.欣顿。层归一化。arXiv预印本arXiv：1607.06450，2016。[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。ICLR，2019。[7] Ruojin Cai 、 Guandao Yang 、 Hadar Averbuch-Elor 、Zekun Hao 、 Serge Belongie 、 Noah Snavely 和 BharathHariharan。学习形状生成的梯度场。在ECCV，2020年。[8] 天使 X Chang ， Thomas Funkhouser ， Leonidas J.Guibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，2015。[9] 陈振宇，天使 X 。 Chang 和 Matthias Nießner 。ScanRefer：使用自然语言在RGB-D扫描中进行3D对象定位。在ECCV，2020年。[10] Kevin Chen ， Christopher B. 放大图片作者： ManolisSavva，Angel X. Chang，Thomas Funkhouser，and SilvioSavarese. Text2Shape：通过学习联合嵌入从自然语言生成形状。在ACCV，2018年。[11] 陈志勤， Vladimir G. 作者： Kim ， Matthew Fisher ，NoamAiger-man ， HaoZhang ， andSiddharthaChaudhuri.DECOR-GAN：通过条件细化的3D形状细节化。在CVPR，2021年。[12] Zhiqin Chen，Andrea

下载后可阅读完整内容，剩余1页未读，立即下载