没有合适的资源?快使用搜索试试~ 我知道了~
Text2Mesh:文本驱动的3D网格样式化
13492Text2Mesh:网格的文本驱动神经样式化奥斯卡·米歇尔酒店1* 理查德·刘1*Sagie Benaim2RanaHanocka11芝加哥大学2特拉维夫大学钢铁侠砖灯彩色钩针蜡烛宇航员马图1.Text2Mesh在目标文本提示的驱动下,在各种源网格上生成颜色和几何细节我们的风格化结果连贯地融合了独特的和表面上不相关的文本组合,捕获全局语义和部分感知属性。摘要在这项工作中,我们开发了直观的控件,用于编 辑 - ING 的 3D 对 象 的 样 式 我 们 的 框 架 ,Text2Mesh,风格化的三维网格预测颜色和当地的几何细节,符合目标文本提示。我们考虑使用固定网格输入(内容)与学习神经网络耦合的3D对象的解纠缠表示为了修改样式,我们通过利用CLIP的代表能力来获得文本提示(描述样式)和样式化网格之间的相似性得分。Text2Mesh既不需要预先训练的生成模型,也不需要专门的3D网格数据集。它可以处理低质量的网格(非流形,边界等)。具有任意亏格,并且不需要UV参数化。我们demonstrate我们的技术的能力,以合成一个myr- iad的风格在各种各样的三维网格。我们的代码 和 结 果 可 以 在 我 们 的 项 目 网 页 上 找 到 :https://threedle.github.io/text2mesh/。1. 介绍编辑视觉数据以符合所需的风格,同时保留底层内容,是计算机图形和视觉中的长期目标[14,21,23,24,30]。关键的挑战包括内容、风格以及表示和修改它们的成分的适当表述为了编辑3D对象的样式,我们采用了计算机图形管道中常用的几何内容和样式外观的公式[2]。我们认为内容是由3D网格规定的全局结构,整体形状表面和拓扑。我们认为风格是对象我们建议通过自然语言(文本提示)表达所需的风格,类似于委托艺术家如何这是由最近的发展促进了文本和图像的联合嵌入与CLIP [44]。修改3D形状外观的一个自然线索是通过2D投影,因为它们与人类和机器如何感知3D几何形状相对应。我们使用神经网络来合成3D输入形状上的颜色和局部几何细节,我们将其称为神经风格场(NSF)。NSF网络的权重经过优化,使得生成的3D样式化网格符合文本描述的样式。特别是,我们的神经优化由与目标文本匹配的风格化网格的多个2D( CLIP 嵌 入 式 ) 视 图 指 导 。 我 们 的 技 术 , 称 为Text2Mesh,结果如图所示。1.一、我们的方法产生不同的颜色和局部变形相同的三维网格内容,以匹配指定的文本。此外,Text2Mesh生成的结构化纹理与显著特征(例如,图中的砖块2),而无需估计尖锐的3D曲线或网格参数化[33,52]。我们的方法还展示了全局理解; e.G.在图3中,人体部位根据它们的语义角色被风格化。我们使用NSF网络的权重来编码风格化(例如.颜色和位移)。网格忠实地描绘3D形状,可以准确地表示尖锐的外部特征13493彩色玻璃毛皮勃艮第钩针仙人掌树皮砖木材锁子甲柳条木材柳条树皮彩色钩针彩色桌巾仙人掌绣串珠锁子甲仙人掌斑点毛皮柳条机器人雨披金属鳞片木材串珠绣图2.给定一个源网格(灰色),我们的方法产生符合各种目标文本的风格化网格(包含颜色和局部几何位移)。插图显示样式化的特写(带颜色)和变形组件生成的基础几何体(不带颜色)。源网格的插图也显示在最左侧的列中。使用高水平的细节。我们的神经样式字段是对网格内容的补充具体来说,我们的神经样式字段网络将网格表面上的点映射到样式属性(即,RGB 颜色和位移)。我们引导NSF网络渲染风格化的三维网格从多个二维视图和测量的相似性,这些意见对目标文本,使用CLIP然而,最大化CLIP相似性分数的3D程式化网格的直接优化收敛到退化(即,噪声)解决方案(参见图5)。具体地说,我们观察到,联合文本图像嵌入空间包含了大量的假阳性,其中一个有效的目标文本和一个退化的图像(即。噪声、伪像)导致高相似性分数。因此,使用CLIP进行风格化需要仔细的正则化。我们利用多个先验知识来有效地指导我们的NSF网络 3D网格输入充当几何先验,其施加全局形状结构以及指示用于样式化的适当位置的局部细节。NSF网络的权重作为神经先验(即,正则化技术),这往往有利于光滑的解决方案[19,46,58]。为了产生包含高保真高频内容的准确样式,我们使用基于频率的位置编码[56]。我们通过从多个2D视图渲染风格化网格,然后应用2D增强,获得了关于神经风格场质量的强烈信号。这导致系统可以有效地避免退化的解决方案,同时仍然保持高保真度的结果。我们的工作重点是文本驱动的风格化,因为文本很容易修改,可以有效地表达与风格相关的复杂概念。文本规定了一种抽象的风格概念,允许网络产生不同的风格。13494输入史蒂夫乔布斯 雪人宇航员巴斯光年忍者律师梅西蝙蝠侠绿巨人图3.给定相同的输入裸网格,我们的神经风格场网络会为各种类型的外衣产生变形(捕捉衣服和互补配件上的折痕等细节),以及肌肉和头发等独特特征。合成的颜色同时考虑局部几何细节和全局部件感知语义。源网格的插图显示在顶行中,样式化输出的插图显示在中间(未着色)和底部(着色)行中。仍然坚持文本的有效风格化除了文本,我们的框架还扩展到其他目标模态,如图像,3D网格,甚至跨模态组合。总之,我们提出了一种用于3D网格样式语义管理的技术我们的系统结合了显式网格表面的优点和神经领域的一般性,以方便直观的控制风格化的3D形状。我们的框架的一个显著优点是它能够处理低质量的网格(例如,非流形)的任意亏格。我们表明,Text2Mesh可以为各种3D形状设计许多不同的目标样式。2. 相关工作文本驱动的操作。 我们的工作在精神上相似 到通过CLIP嵌入的文本描述控制的图像处理技术[44]。CLIP学习图像和文本的联合嵌入空间。StyleCLIP [43]使用预先训练的StyleGAN [26,27]执行CLIP引导的图像编辑。VQGAN-CLIP [9,10,45]杠杆用于文本引导图像生成的CLIP。并发工作使用CLIP来微调预训练的StyleGAN [12],并用于图像风格化[6]。另一个并发工作使用ShapeNet数据集[5]和CLIP来执行无条件的3D体素生成[48]。上述技术利用预先训练的生成网络或数据集来避免使用CLIP进行合成时常见的退化解决方案第一个利用CLIP进行合成而不需要预先训练的网络或数据集的是CLIPDraw [11]。CLIP- Draw生成文本引导的2D矢量图形,它通过矢量笔划传达一种绘画风格。 反目前的工作[25]使用CLIP来优化SMPL人体模型的参数以创建数字生物。在CLIP之前,使用专门的3D数据集探索了用于变形3D形状的文本驱动控制[67,68]。3D中的几何样式转换。一些方法分析3D形状并识别类似形状的几何元素和风格不同的部件[22,32,37,61,66]。其他人根据内容/样式分离转移几何样式[4,8,49,63]。其他方法是特定于家具[38],3D拼贴[13],乐高[31]和肖像[16]的类别。3DStyleNet [64]使用部件感知的低频变形编辑形状内容,并在目标网格的引导下在纹理贴图中合成网格渲染器[28]改变由目标图像驱动的颜色和几何形状。Liu等人[36]通过添加几何细节(没有颜色)来创建3D形状,ALIGNet [17]将模板形状变形为目标形状。上述方法依赖于3D数据集,而其他技术使用单个网格示例来合成几何纹理[20]或生成网格细化[35]。[29]与这些方法不同的是,我们考虑了各种各样的样式,由直观和紧凑的(文本)规范指导。3D中的纹理转移。 3D网格样式的各个方面可以 通过网格参数化纹理表面来控制[15,33,52,55]。然而,大多数参数化方法对输入网格的质量有严格的要求(例如,一个流形,不相交,低/零亏格),这并不适用于大多数网格在野外[51]。我们完全避免了参数化,并选择使用提供样式值的神经字段来修改应用程序13495和局部几何形状)被修改以符合目标文本提示t,从而产生风格化的网格MS。NSF学习将网格表面p∈V上的点映射到RGB颜色和沿法线方向的位移我们提供SM并应用2D增强,使用CLIP嵌入渲染和增强图像与目标文本之间的CLIP相似性被用作更新神经网络权重的信号。图4. Text2Mesh通过预测颜色和几何细节来修改输入网格以符合目标文本。通过渲染多个2D图像并应用2D增强来优化神经风格网络的权重,2D增强被赋予与基于CLIP的语义损失的目标的相似性得分。(即,RGB值和位移)。最近的工作探索了纹理的神经表示[41],在这里,我们考虑了颜色和局部几何变化来操纵风格。3.1. Neural Style Field Network我们的NSF网络为每个顶点预测一个样式属性,从而在整个形状表面上定义一个样式字段我们的样式字段由一个MLP编码,它映射将网格M上的点p∈V转换为一种颜色,并沿曲面法线(cp,dp)∈(R3,R)进行位移。该公式将样式字段紧密耦合到源网格,允许局部几何修改。在实践中,我们将M的给定顶点作为该字段的查询点,并使用可微渲染器来可视化给定三角剖分上的样式为了学习更高分辨率的神经场而增加M中的三角形的数量是微不足道的,例如,插入一个3度顶点(见附录B)。即使使用标准GPU(11 GB神经先验和神经场最近的一系列工作利用神经网络的归纳偏差来完成图像去噪[58],表面重建[18],19],点云合并[39],图像合成和编辑[50,53,70]。我们的框架利用神经网络的诱导偏差作为先验,引导Text2Mesh远离CLIP嵌入空间中存在的退化解决方案。具体来说,我们的风格化网络充当神经先验,它利用位置编码[56]来合成细粒度的风格化细节。NeRF [40]和后续研究[42,65,69]已经证明了3D场景建模的成功。它们利用神经场来使用网络权重表示3D对象。然而,神经场纠缠几何和外观,这限制了它对内容和风格的可分离控制。他们努力准确地描绘尖锐的特征,渲染缓慢,难以编辑。因此,提出了几种易于控制的技术[62],并引入了加速策略[47]。相反,我们使用的是一个3D对象的非纠缠表示,使用一个明确的网格形状表示和一个控制外观的神经风格字段。这避免了参数化,并可用于操纵外观和生成高分辨率输出。3. 方法我们的方法的图示在图中提供4.第一章 作为概述,3D对象内容由具有顶点V∈Rn×3和面F∈{1,. -是的-是的,n}m×3,并且在整个训练过程中是固定的对象的VRAM),我们的方法处理网格高达180K的三角形。我们能够使用非常高的分辨率渲染风格化的对象,如补充B所示。充分 −净 −aug− FFN− crop− displ− 3D0.360. 260200260 300290 29图5.在我们的方法中使用的先验上的烧蚀(全)用于蜡烛网格和目标“由树皮制成的蜡烛”:w/o我们的风格场网络(−net),w/o 2D增强(−aug),w/o位置编码(−FFN),不含局部裁剪增强(−crop),w/o L sim(−displ)的仅几何分量,以及在3D空间(− 3D)中的2D平面上学习。我们给出了CLIP评分(sim(Sful l,φta rge t));参见第2节。 3更多细节由于我们的NSF使用低维坐标作为MLP的输入,这表现出光谱偏差[46],以获得平滑的解决方案(例如,参见图5)。为了合成高频细节,我们使用傅立叶特征映射应用位置编码,这使得MLP能够克服频谱偏差并学习插值高频函数[56]。对于每个点p,r、g、b颜色x,y,z顶点坐标D位移程式化网格网格神经风格与......相交洒文本提示可微渲染器语义损失输入NdNcNs+位置编码2D增强13496|一|·|B|displ编码γ(p)由下式给出:γ(p)=[cos(2πBp),sin(2πBp)]T(1)其中B∈Rn×3是一个随机高斯矩阵,其中每个其中,S∈{Sfull,Sdisp l,Sloca l},sim(a,b)=a·b是a和b之间的余弦相似度。对于每次迭代,我们用新的采样增强重复上述步骤n次我们注意到,使用Sfull和Slocal的项更新Ns,Nc.Σ从N中随机抽取条目0,σ2。σ的值为选择作为控制频率的超参数,学习风格功能。我们在Sec中显示。4.1这允许用户控制输出样式的频率首先,我们规范化坐标p∈V,使其位于单位边界框内。然后,每顶点位置编码特征γ(p)作为输入被传递到MLP Ns,MLP Ns然后分支到MLPNd和Nc。具体地,Nc的输出是颜色cp∈[0,1]3,并且Nd的输出是沿着顶点法线的位移。防止内容改变位移,我们约束dp在范围内(-0。1,0。1)。为了获得我们的风格化网格预测MS,每个点p都被dp·np移位并被cp着色。顶点颜色在整个网格表面上传播,一个基于插值的可微分渲染器[7]。在训练过程中,我们还考虑仅位移网格和Nd,而使用S的项仅更新Ns,Nd. 分离成仅几何损失和几何和颜色损失用于鼓励几何中有意义的变化(图中的−displ(五)。3.3.视点和增强给定一个输入3D网格和目标文本,我们首先找到一个锚视图。我们渲染的三维网格在一个球体周围的均匀间隔,并获得每个视图和目标文本的CLIP相似性。我们选择最高的视图(即最佳)CLIP相似性作为锚视图。对象周围通常有多个高分视图,使用其中任何一个作为锚点都会产生有效且有意义的风格化。详情见附录C我们使用高斯分布中心从随机采样视图渲染对象的多个Sdispl,这与没有预测ver的MS相同在锚视图周围排列(σ = π/4)。我们平均tex颜色(替换为灰色)。在我们的最终损失公式中没有使用MS(等式10)。 (5)),学习的几何风格是嘈杂的(图中的−displ消融)。(五)。3.2.基于文本的通信我们的神经优化由预训练的CLIP [44]模型编码的多模态嵌入空间指导。给定程式化网格MS和位移网格在将CLIP嵌入式视图馈送到我们的损失,这鼓励网络利用视图一致性。对于我们所有的实验,nθ=5(采样视图的数量)。我们在附录C中表明,将nθ设置为大于5不会对结果产生有意义的影响。Sdispl,我们围绕预定义的锚点采样nθ视图查看并使用可区分的渲染器渲染它们为每个视图θ,我们绘制表面的两个2D投影,我为MS而充满,我为MS而分散. 接下来,我们绘制一个2D aug-θ θ位移mentation <$global ∈<$global和<$local∈<$local(详细信息见秒3.3)。 我们对全局视图和局部视图分别应用全局和局部视图,到未着色的视图,并将它们嵌入CLIP空间。最后,我们对所有视图的嵌入进行平均:图6.我们的神经纹理场将整个3D形状风格化。使用全局增强和局部增强生成的2D增强是关键,以避免退化的解决方案(见第二节。4.2)。S满=1nθΣ。.Eglobalθ全方位服务θ∈R512 、(二)全局搜索涉及随机透视变换,局部搜索生成随机透视和原始图像10%种植允许Slocal=1nθΣ。.E-本地θ全方位服务θ∈R512 、(3)该网络在对表面几何形状和颜色进行细粒度更新时专注于局部区域(-cropinS=1nθΣ。ΣE本地(I显示θ)∈R512.(四)图5)。补充资料D提供了更多详细信息。4. 实验也就是说,我们认为我们的输入网格的增强表示是来自多个增强视图的编码的平均值目标t类似地通过CLIP通过Σtarget=E(t)∈R512嵌入。我们的损失是:"穿牛仔裤的驴子"MM我我θ13497我们检查我们的方法在不同的输入源网格和目标文本提示。我们考虑各种来源,包括:COSEG[54],Thingi10K [71],Shapenet [5],Turbo Squid [57]和ModelNet [59]。我们Lsim= ΣSIMS.ΣS,(五)该方法不需要特别的质量限制或输入的预处理,我们在本文和我们的项目网页中所设计的形状的宽度说明了它的能力,13498处理低质量网格。主论文和项目网页中使用的网格平均包含79,366个面,16%非流形边,0.2%非流形顶点和12%边界。我们的方法在单个GPU上训练不到25分钟,高质量的结果通常在不到10分钟内出现。节中4.1中,我们展示了由我们的方法实现的多个控制机制。 节中4.2我们进行 对我们方法中的关键先验进行了一系列消融。我们进一步探讨学习颜色和几何学之间的协同作用。我们在SEC中介绍了一项用户研究。4.3将我们的风格化与基线方法进行比较。节中4.4,我们表明,我们的方法可以很容易地推广到文本以外的其他目标形式,如图像或3D形状。最后,我们讨论了SEC的局限性。四点六分。4.1. 神经程式化和控制我们的方法生成的细节具有高粒度,同时仍然保持全局语义和保留底层内容。例如图2、给定花瓶网格和目标文本“colorfulcrochet”,风格化输出包括具有不同颜色的针织图案,同时保留花瓶的结构。图3,我们的方法展示了人类的全局语义理解不同的身体部位,如腿、头和肌肉,根据它们的语义角色进行适当的风格化此外,我们的神经风格场网络生成结构化纹理,这些纹理与尖锐的曲线和特征对齐(见图1和图2中的砖块)。1和2以及项目网页)。我们在图中显示。在项目网页中,我们的方法以一致的方式对整个网格进行样式化,这种方式是部分感知的,并表现出纹理的自然变化。‘Stained glassσ=3 σ=5σ=8图7.增加输入频率的范围,在等式(1)中,使用增加的SDσ对矩阵B进行常规编码。(一).细粒度控制。我们的网络利用位置编码,其能够通过等式中的B矩阵的σ项直接控制编码频率。(一).在图7中,我们显示了三个不同的频率值的结果时,风格化的源网格的环面与目标文本增加frequency值会增加样式细节在网格上的出现频率,并促进更清晰的几何细节。我们的方法也可以合成不同层次的特异性的一致风格。图8显示了增加细节的样式,(a)(b)(c)(d)图8.增加灯和铁的源网格的目标文本提示粒度顶行目标:(一).“灯”,(b). “蓝钢luxo灯”,(d)。蓝钢luxo灯与波纹金属。底行目标:(一).“衣服熨斗”,(b)。“用钩针做的熨斗”,(c)。“金衣铁钩编”,(四)。‘Shiny goldenclothes iron made of两个输入形状的特异性。请注意样式细节从每一级目标粒度到下一虽然样式控制的主要模式是通过文本目标,但我们探索了网络如何适应源形状几何。在图10中,目标文本提示被固定为我们考虑不同的输入源球的突起频率增加。观察生成的样式的频率和结构都适合输入表面的预先存在的结构因此,我们的方法可以保持输入网格的内容,而不损害的风格化的质量。我们能够在保留输入网格的同时修改样式,从而实现变形[3](见图1)。第9段)。为了在两种样式之间变形,我们在网格上每个点的样式值之间应用线性插值。图9.在两种不同的风格(几何和颜色)之间变形。左:“木椅”,右:“彩色钩针椅”。4.2. Text2Mesh先验我们的方法结合了许多先验知识,使我们能够在没有预先训练的GAN的情况下执行风格化我们在图中显示了每个先验的消融五、删除样式场网络(−net),而直接优化顶点颜色和位移,会导致噪声和任意的失真。在表面上放置。在[11]中,随机2D增强是生成有意义的CLIP引导绘图所必需的。类似地,在我们的方法中,去除2D增强会导致与焦油完全无关的风格化获 取 文 本 提 示 符 。 如 果 没 有 傅 立 叶 特 征 编 码 ( -FFN),生成的样式会丢失所有细粒度的细节。如果没有裁剪增强(−crop),输出类似于13499无法合成细粒度的样式细节。移除Lsim(−displ)中仅包含几何元素的部分会阻碍几何细化,而网络则通过着色模拟几何来进行补偿(另见图2)。第11段)。如果没有一个有意义的几何先验(-3D),源网格,2D平面网格被视为图像可以-血管对于图中的每个结果。5,我们报告了CLIP相似性得分,sim(S_m_l,S_r_g_t),如在第5节中定义的。3.第三章。 我们在不同消融术中获得最高分,见图。五、伊代-视觉质量与CLIP评分有直接相关性。然而,-3D获得了高CLIP相似性,尽管与目标内容无关这建立了重要的几何先验在引导我们的方法远离潜在的退化的解决方案。图10.纹理输入源球(黄色)与protru-的增加频率和固定目标的可以看出,最终样式频率相应地增加几何与颜色的相互作用。 我们的方法利用几何和颜色之间的相互作用,有效的风格化,如图所示。11个国家。与一起学习几何形状和颜色相比,学习仅预测几何操作产生较差的几何形状,因为网络试图通过生成用于自阴影的位移来模拟阴影例如,在图中的“蝙蝠侠”。3.胸前的蝙蝠符号是通过位移单独形成的深凹的结果。类似地,学习仅预测颜色会导致网络试图通过着色来使几何细节产生幻觉,从而导致平坦且不真实的纹理,尽管如此,当投影到2D时,该纹理能够实现相对较高的CLIP分数图图11展示了这种对抗性解决方案,其中4.3. 风格化保真度我们的方法执行任务的一般文本驱动的样式化的网格。鉴于没有方法可以完成这项任务,我们通过扩展VQGAN-CLIP [ 9 ]来评估我们方法该基线合成由CLIP引导的从3D源形状(没有3D变形)投影的二进制2D掩模内的颜色此外,用3D源的渲染视图初始化基线。我们进行了用户研究,以评估所产生的输出的感知质量,他们保留源内容的程度,以及它们与目标风格的匹配程度。‘Alien made of完整几何体颜色0的情况。3220.2500320图11.风格化的几何图形和颜色之间的相互作用。Full-我们的方法,Color-仅改变颜色,Geometry-仅改变几何形状.我们还显示了CLIP相似性。(Q1):总体(Q2):内容(Q3):风格VQGAN2.83(±0.39)3.60(±0. 第六十八章)2.59(±0.44)我们的3.90(±0. 第三十七章)4.04(±0.(53)3.91(±0.51)表1. Q1-Q3的平均意见得分(1-5)(见第4.3),对于我们的方法和基线(对照评分:1.16)。我们让57个用户评估了8个随机的源网格和样式文本提示组合。对于每种组合,我们成对地显示目标文本和风格化的输出。然后要求用户为三个因素分配分数(1-5):(Q1)“{ content } +的输出描述有多自然?{style}?”(Q2)nal{content}?”(Q3) “How well does the output match thetarget 我们报告平均意见得分(MOS)与标准差为每个因素平均在所有我们的方法的样式输出和Tab中的基线1.一、我们的方法在所有问题上都优于VQGAN基线,差异为1。07,0。44,1。Q1-Q3分别为32。虽然VQGAN在表示自然内容方面有些效果,但它很难以有意义的方式将我们的基线输出示例见补充E。补充E中还讨论了生成的样式的可视示例和用户研究的屏幕截图。图12.由图像目标驱动的样式化。我们的方法可以使用一个图像来描述所需的样式样式的网格。135004.4. 超越文本风格化除了基于文本的风格化之外,我们的方法可以将网格风格化到不同的目标模态,例如2D图像甚至3D对象。对于目标2D图像It,在等式1中,(5)表示基于图像的CLIP嵌入,‘Stained‘Stained龙‘CandyIt.对于一个目标网格T,T目标是平均嵌入,T的2D渲染的CLIP空间,具有与源网格等效的视图采样此外,我们可以通过简单地在每个目标上对Lsim求和来组合不同模态的目标。图12我们考虑具有不同图像目标的源猪网格图13(a-b),我们考虑使用目标网格的风格化,在图中。在图13(c-d)中,我们组合目标网格和目标文本两者我们的方法成功地坚持了目标风格。(a)(b)具体目标1 (c)(d)由网格目标驱动的神经样式化。(a)(c)分别使用目标1和目标2进行样式化。(b)(&d)除网格目标外,还使用文本进行样式化:(b)“一个仙人掌,看起来像一个cow(奶牛),amousethatlookslikeaduck(一只看起来像鸭子的老鼠)。输入No Symmetry PriorSymmetry Prior图14. Effect of the symmetry prior on a UFO mesh input withtext prompt: ‘colorful UFO’.4.5. 对称性我们可以利用形状对称先验来加强对称轴上的风格一致性这样的对称性可以通过修改我们在等式中的位置编码的输入来引入我们的模型(一).例如,给定点p =(x,y,z)和具有跨X-Y平面的双边对称的形状,可以在位置编码之前应用函数,使得γ(x,y,z)=(x,y,z)。|z|)的情况。我们显示了这种对称性的效果之前在一个不明飞行物网格在图14.即使三角剖分不是完全对称的,这种先验也是有效的。在位置编码中引入额外的对称性是未来工作的一个有趣方向。4.6. 限制我们的方法隐含地假设了输入3D几何形状和目标样式提示之间的协同作用(见图1)。第15段)。然而,样式化3D网格(例如,龙)向不相关/不自然的提示(例如,彩色玻璃)可能导致忽略几何先验并有效地擦除源形状内容的风格化。因此为了图15.几何内容和目标风格协同。如果目标样式与3D网格内容无关,则样式化可以忽略3D内容。当在目标文本提示中包含内容时,结果会得到改善。为了在向不匹配的目标提示编辑时保留原始内容,我们简单地在文本提示中包括对象类别(例如,彩色玻璃龙),其将内容保存约束添加到目标中。5. 结论我们提出了一种新的框架,用于在目标文本提示下对输入网格进行样式化我们的框架使用神经风格化网络学习预测颜色和局部几何细节。它可以预测结构化的纹理(例如,砖),没有方向场或网格参数化。此外,3D表面上的纹理结构已经由3D形状分析技术指导(如[60]中所述)。在这项工作中,纹理结构是由渲染图像驱动的,这就是它们在现实世界中的感知方式。在不依赖于预先训练的GAN网络或3D数据集的情况下,我们能够操纵无数的网格来遵循各种各样的风格。我们的系统能够生成域外风格化的输出, 彩色玻璃鞋或仙人掌花瓶(图)。2)。 我们的框架使用预训练的CLIP [44]模型,该模型已被证明包含偏见[1]。我们假设,我们提出的方法可以用来可视化,理解和解释这种模型的偏见,在一个更直接和透明的方式。作为未来的工作,我们的框架可以用来操纵,晚3D内容以及。而不是修改一个给定的输入网格,同时保持其拓扑结构,一个可以学习从零开始生成网格驱动的文本提示。此外,我们的NSF是专为一个单一的三维网格。可以训练网络以前馈方式将网格集合朝向目标样式进行风格化。6. 确认我们感谢格雷格·沙赫纳洛维奇、王皓晨、刘学迪和杜晓丹的评论。我们感谢Vincent LaGrassa提供的数据。最后,我们感谢3DL实验室的其他成员提供的宝贵反馈和支持。引用[1] Sandhini Agarwal,Gretchen Krueger,Jack Clark,AlecRad- ford,Jong Wook Kim,and Miles Brundage.评价13501clip:对更广泛的能力和下游影响进行定性。arXiv预印本arXiv:2108.02818,2021。[2] 托马斯·阿克尼-莫尔,埃里克·海恩斯,纳蒂·霍弗曼。实时渲染,第四版。A. K.彼得斯有限公司美国,第4版,2018年。[3] 马克·亚莉克莎网格变形的最新进展。在计算机图形论坛,第21卷,第173威利在线图书馆,2002年.[4] 曹旭,王为民,长尾胜,中村良介.Psnet:一个用于几何和颜色点云样式化的样式传输网络。在IEEE/CVF计算机视觉应用冬季会议论文集,第3337-3345页[5] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[6] Hila Chefer、Sagie Benaim、Roni Paiss和Lior Wolf。基于图像的夹子引导的精华转移。arXiv预印本arXiv:2110.12427,2021。[7] Wenzheng Chen,Huan Ling,Jun Gao,Edward Smith,Jaakko Lehtinen,Alec Jacobson,and Sanja Fidler.学习使用基于插值的可区分渲染器预测3d对象。神经信息处理系统的进展,32:9609[8] Zhiqin Chen,Vladimir G Kim,Matthew Fisher,NoamAigerman,Hao Zhang,and Siddhartha Chaudhuri.通过条件细化实现三维形状细节化。在IEEE/CVF计算机视觉和模式识别会议论文集,第15740-15749页[9] 凯瑟琳·克劳森。使用vqgan和clip从文本短语生成图像的笔记本,2021年。https://github.com/justinjohn0306/VQGAN-CLIP的网站。[10] Patr i ckEsse r,RobinRombach,andB joürnOmme r. 用于高分辨率图像合成的驯服变压器,2020年。[11] Kevin Frans,Lisa B.索罗斯和奥拉夫·维特科夫斯基。Clipdraw:通过语言图像编码器探索文本到绘图的合成CoRR,abs/2106.14843,2021。[12] Rinon Gal , Or Patashnik , Haggai Maron , GalChechik,and Daniel Cohen-Or. Stylegan-nada:图像生成 器 的 剪 辑 引 导 的 主 适 应 。 arXiv 预 印 本 arXiv :2108.00946,2021。[13] Ran Gal、Olga Sorkine、Tiberiu Popa、Alla Sheffer和Daniel Cohen-Or 。 3d 拼 贴 : 表 现 非 现 实 建 模 。 在Proceedings of the 5th International Symposium on Non-photorealistic Animation and Rendering,第7[14] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集,第2414-2423页[15] 马克·吉莱斯皮鲍里斯·斯普林伯恩基南·克兰多面体曲面的 离 散 共 形 等 价 。 ACM Transactions on Graphics(TOG),40(4):1[16] Fangzhou Han ,Shuquan Ye,Mingming He,MengleiChai,and Jing Liao.基于范例的三维肖像风格化。arXiv预印本arXiv:2104.14559,2021。[17] Rana Hanocka , Noa Fish , Zhenhua Wang , RajaGiryes , Shachar Fleishman , and Daniel Cohen-Or.Alignet:通过无监督学习实现的部分形状不可知对齐。ACM Transactions on Graphics(TOG),38(1):1,2018。[18] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn:一个有 边 缘 的 网 络 。 ACM Transactions on Graphics(TOG),38(4):1[19] Rana Hanocka,Gal Metzer,Raja Giryes和Daniel Cohen-Or。Point2mesh:可变形网格的自先验。arXiv预印本arXiv:2005.11084,2020。[20] 阿米尔·赫兹,拉纳·哈诺卡,拉贾·吉里斯和丹尼尔·科恩-或者。深度几何纹理合成。ACM Transactions onGraphics(TOG),39(4):108[21] 放大图片作者:Charles E. Jacobs,Nuria Oliver,BrianCurless,and David H.销售形象类比。第28届计算机图形与交互技术,纽约,纽约,美国,2001年。计算机协会.[22] Ruizhen Hu , Wenchao Li , Oliver Van Kaick , HuiHuang,Melinos Averkiou,Daniel Cohen-Or,and HaoZhang.将样式定义元素放置在三维形状上。ACM Trans-actions on Graphics(TOG),36(3):1[23] X. Huang和S.贝隆吉具有自适应实例规范化的实时任意样式传输2017年IEEE国际计算机视觉会议(ICCV),意大利威尼斯。第1510-1519页[24] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页[25] 尼古拉·杰切夫Clipmatrix:文本控制的3d纹理网格创建。arXiv预印本arXiv:2109.12922,2021。[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第4401-4410页[27] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集,第8110-8119页[28] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集,第3907- 3916页[29] Fel i xK n¨ ppel,KeenanCrane,UlrichPinkall,andPeterSchr o¨ de r. 表 面 的 条 纹 图 案 。 ACMTransactionsonGraphics(TOG),34(4):1[30] NicholasKolkinJasonSalavon和GregoryShakhnarovich。通过松弛的最优传输和自相似性实现风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集,第10051-10060页13502[31] Kyle Lennon,Katharina Fransen,Alexander O'Brien,Yu- meng Cao,Matthew Beveridge,Yamin Arefeen,Nikhil Singh,and Iddo Drori. Image2lego:从图像生成定制乐高套装,2021年。[32] Honghua Li,Hao Zhang,Yanzhen Wang,Junjie Cao,Ariel Shamir,and Daniel Cohen-Or.一组形状中的曲线样式分析。在计算机图形论坛,第32卷,第77-88页。Wiley Online Library,2013.[33] 放大图片作者:李敏辰,Danny M.弗拉基米尔·考夫曼金贾斯汀·所罗门和阿拉·谢弗Optcuts:曲面切割和参数化 的 联 合 优 化 。 ACM Transactions on Graphics , 37(6),2018。[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功