没有合适的资源?快使用搜索试试~ 我知道了~
124563DStyleNet:创建具有几何和纹理样式变化的3D形状尹康学1高俊1,2,3玛丽亚·舒格里纳1 萨梅·哈米斯1桑加·菲德勒1,2,3NVIDIA1多伦多大学2Vector Institute3{kangxuey,jung,mshugrina,skhamis,sfidler}@ nvidia.com图1:我们提出了3DSTYLENEET,这是一种用于3D纹理形状的神经风格化方法。我们的方法通过将形状和纹理样式从一个3D对象(目标)转移到另一个(源)来创建3D对象的新的几何和摘要我们提出了一种方法来创建合理的几何和纹理风格变化的3D对象在寻求democ- ratize 3D内容创建。给定一对纹理的源和目标对象,我们的方法预测一个部分感知仿射变换场,自然扭曲源形状模仿目标的整体几何风格。此外,目标的纹理样式在多视图可区分渲染器的帮助下被转移到扭曲的源对象。我们的模型,3DS TYLENET,是由两个子网络在两个阶段训练。首先,在大量无纹理3D形状上训练几何样式网络。第二,我们共同优化我们的几何样式网络和预先训练的图像样式传输网络与损失定义的几何和结果的渲染。给定一小部分高质量纹理对象,我们的方法可以创建许多新颖的风格化形状,从而轻松创建3D内容和风格件数据增强。我们展示了我们的方法定性的3D内容风格化,并提供用户研究,以验证我们的结果的质量。此外,我们的方法可以作为一个有价值的工具来创建计算机视觉任务的三维数据增强。广泛的定量分析表明,3DS TYLENET优于其他数据增强技术的下游任务的单图像三维重建。1. 介绍神经图像风格转移的显着成功证明了深度学习是创造艺术图像的强大工具[13,21,44,29,30,14,28],具有休闲和专业应用[24]。虽然编辑3D内容可以说是一个更艰巨和耗时的任务,这使得自动工具特别有吸引力,同样成功的公式化的3D域的风格转移还没有提出。同时,由于游戏、AR/VR、3D动画电影和虚拟仿真的普及,对3D内容的需求正在增长。在我们的工作中,我们寻求一种适用于3D内容创建的风格转移公式,包括对象的几何形状和颜色纹理。3D样式转移中的先前工作解决了形状或颜色样式化,但没有扩展到3D对象的这两个关键属性。经典的方法考虑变形从一个对象转移到另一个形状对应的指导[49]和纹理图从一个形状转移到另一个通过最小化扭曲[41,40]。深度学习方法同样解决了几何[33,35,58]或纹理风格化[39]。 例如,[33]提出了一种基于表面法线的能量优化框架用于几何体立方体化,而[58]通过利用神经网络来预测定义形状的平滑翘曲的笼来变形形状。在[39]和[25]中,艺术绘画的风格被转移到3D对象的纹理或表面名单中没有任何12457方法能够感知并将几何和纹理样式从一个3D对象联合转移到另一个3D对象。在本文中,我们的目标是创造新的几何和纹理变化的3D对象的几何和纹理风格从一个3D对象转移到另一个。与前向方法不同,我们的方法对形状和纹理进行联合优化,以确保最终3D对象的一致性我们的方法处理一些简单的几何关系(例如,相对比例、位置、旋转等)作为全局形状样式的3D对象的语义部分之间的关系,其可以用一组椭圆体来抽象。我们模型的几何风格转移与部分感知仿射变换场,定义的基础上的椭球体,扭曲的语义部分的源形状是在类似的关系,这些部分在目标形状。我们设计了一个神经网络来执行这项任务,我们在一个大型的3D形状数据集上进行训练。为了实现高质量的纹理风格转移,需要对象几何形状的适当对齐。因此,我们将我们的几何风格网络与预训练的图像风格传递网络[28]耦合并联合优化,以使用在由可区分渲染器[27]产生的多视图渲染上定义的损失我们的3DSTYLENET在他们的风格空间中创建各种形状,产生一个形状创建工具,可以由天真的用户用于3D内容创建。为了验证我们的结果的质量,我们进行了一项用户研究,该研究表明,我们的方法可以产生更高质量的结果比一个强大的基线相结合的SOTA形状变形方法和SOTA图像风格转移方法。此外,我们还证明了我们的3DSTYLENET也可以作为一种3D数据增强方法,用于提高下游计算机视觉模型的性能。我们展示了我们的方法作为一个单一的图像三维重建的任务的数据增强策略,表现出的性能比强大的基线增强技术的提升。2. 相关工作2.1. 图像风格化艺术风格化是一个长期的研究领域,有大量的图像和视频[26,15]。传统方法依赖于基于笔划的近似[17]、基于区域的运动转移[2]和手工制作的局部图像特征[18]。Hertzmann等人的经典图像类比方法。[18]为Gatys等人开创的神经风格转移奠定了基础。[13]第10段。近年来,这已成为一个热门的研究方向[23],大多数神经风格转移工作都针对图像和视频。我们建立在图像域[28]中的方法上,以针对纹理3D形状的目标样式转移。2.2. 形状编辑和样式化形状变形和建模。一个广泛的类的技术允许操纵3D表面几何例如,使用可控手柄和骨架[47,50,9],由封闭形式的解决方案(如线性混合蒙皮(LBS)[32]或能量最小化技术[47,50])控制。与这些交互式方法不同,变形转移试图使用提供的对应和优化[49]或通过拟合神经网络[58,12]将源形状的一系列姿态自动转移我们工作的目标不是转移变形,而是通过几何上的部分感知仿射变换来风格化输入形状与最近的方法神经笼[58](仅对几何形状进行风格化)相比,我们在实验中实现了卓越的性能。几何风格化。 几种方法寻求样式化形状的几何特征。Liu和Jacobson [33]使用表面法线上的L1其他人提出了3D拼贴[10,52],乐高[37],家具[55,20]或漫画[43]风格的自动风格化。风格也被认为是在一个更地方的水平。使用经典算子[46]或神经网络[51]的网格平滑或过滤也可以被视为一种在保持几何感知特征的同时逐渐改变细节层次的风格[19,48]。最近的工作还提出学习局部3D纹理[16]或训练特定于样式的网格细化[34]。我们的方法学习的变形,风格化的全球对象的形状在一个合理的方式给定的目标形状作为指导。基于图像的方法。最近的各种作品遵循2D到3D的方法,利用预先训练的风格网络[13]和可区分的渲染来 最 小 化 渲 染 图 像 空 间 中 的 风 格 能 量 [35 , 25]。Parparazzi [35]专注于编辑局部几何细节,而忽略全局变形的样式。N3MR [25]编辑纹理和几何形状,以实现目标2D图像的样式。我们在这项工作中的目标是将样式从一个3D对象转移到另一个。2.3. 纹理转移将纹理从一个3D形状转移到另一个3D形状的问题可以通过找到从一个几何形状到另一个几何形状的密集映射来解决。已经提出了许多用于计算这种地图的几何处理方法[42,7],但通常需要用户提供的对应关系[8]或对输入几何进行强假设。例如,在野外发现的大多数网格不是流形[7],水密[42]或同胚到圆盘[41]。更重要的是,这些纯几何方法缺乏对语义特征(如角色的眼睛)的感知,或者缺乏修改纹理本身以便在应用于非常不同的几何体时保持几何图案相比之下,我们的方法采用了可区分的渲染器和内容感知的损失,允许鲁棒的纹理传输,尊重内容和更高频率的帕特。12458图2:3DSTYLENET概述,包括两个主要模块:几何风格传递网络和纹理风格传递网络。每个模块都预先训练了3D形状转移或图像风格化。然后,我们执行联合几何和纹理优化,利用微分渲染器。纹理的燕鸥我们的方法适用于任何三角形网格,包括非流形网格与洞和多个对象。对于图像到3D模型纹理传输的相关任务,我们的方法可以用于直接取代[54]中提出的3D代理或照明纹理分解的需要。3. 方法我们的方法的目标是在其几何和纹理风格空间合成的3D对象的变化为了实现这一点,我们制定了类似于图像的神经风格转移的3D对象我们的方法将表示“内容”的源3D模型P与图像的神经风格转移不同,我们编辑源形状而不是生成新内容,从而保留了源的详细程度。除了表面几何形状,我们的方法需要一个纹理映射的目标,如果可用的话,源。与以前的作品不同,3DSTYLENET执行几何和纹理风格化,以实现广泛的3D变化。定义三维对象样式的方法并不单一在我们的工作中,我们考虑了全局几何风格的语义部分的水平。例如,卡通狗可能具有比其现实对应物大得多的头部。我们的stylization- tion留下了源的局部几何细节不变,这通常是高质量的模型所需要的。相反,我们把语义部分之间的几何关系,如相对比例和位置,作为对象的风格。我们抽象这种风格与一组椭球体和模型的几何风格转移与学习的3D部件感知仿射变换场,扭曲的语义部分。我们定义了类似于现代图像风格转换技术的3D对象的纹理风格,并利用可微分渲染在渲染图像空间中执行风格化3DSTYLENET由两个主要网络组件组成,即几何和纹理样式传输网络,如图2所示我们首先在一组无纹理形状上预训练3D几何风格传递网络(§3.1)为了使它们共同工作的几何和纹理风格转移,我们执行联合几何和纹理优化(§3.3)。可以通过对一组3D对象中的所有对象对或在用户驱动的设计工具中应用联合优化来自动创建一组大的3D对象变化。3.1. 三维几何样式传递网络我们定义的3D形状的几何风格,专注于语义部分之间的关系。例如,成年老虎的头比幼虎小,腿比幼虎长这种全局几何风格很好地表示的语义部分的近似形状。为了在给定目标引导的情况下修改几何风格,我们的3D几何风格传递网络(图3)学习预测从源和目标形状对回归的部件感知仿射变换场。然后,该预测的仿射变换场可以用于使源形状的顶点平滑变形,同时保留精细的几何细节。网络架构:我们的几何网络将两个形状的点云样本作为输入。我们使用PVCNN [36]来编码点云,并将连接的嵌入馈送到具有跳过连接的MLP。该网络被定义为固定数量的语义部分N。 对于源形状中的每个语义部分i,MLP输出椭圆体Ei的最佳近似参数部分(参见图4),以及用于扭曲部分的3D仿射变换A1。该输出然后用于计算平滑仿射变换场以使源几何形状变形,同时保留局部细节。部 件 感 知 转 换 : 我 们 使 用 的 参 数 的 预 测 椭 球E1,. . .,EN来计算源形状上的任何点的平滑蒙皮权重。使用这些蒙皮权重和N个预测的仿射变换,我们使用LBS模型[32]计算任何源点的变形。抽象地,预测的椭圆体表示“什么”变形,仿射变换表示“如何”变形。为了导出蒙皮权重,我们观察到椭圆体Ei也可以由由Si、R i和T i组成的3D仿射变换来表示,该3D仿射变换缩放、旋转和平移单位球体以将其变成椭圆体。利用椭圆体Ei的这种分解表示,我们可以定义与其对齐的3D高斯:gi(p)=G(p|Ti,λ SiRi(SiRi)T)(1)12459Σ--图3:我们的零件感知3D几何风格传递网络。其中p是3D点,Ti是高斯和椭圆体中心的平均值,λSiRi(SiRi)Ti是协方差矩阵,并且λ是用于控制展度的固定标量(我们使用λ=4. 0)。从N个部分椭球导出的N个函数gi定义N通道3D混合场。我们使用该归一化的混合场来插值所有语义部分的仿射变换Ai以获得单个3D仿射变换场。我们利用仿射变换场来扭曲源形状P以获得风格化的输出形状(P)。在实践中,仅针对源网格的每个顶点评估高斯和混合场。部件感知损失:我们使用部件感知的几何损失来训练3D几何样式传递网络,要求输入数据集的语义部件标记。为此,我们手动标记了一小组训练形状,并在混合监督下训练BAE-NET [5],以预测所有形状的语义部分标签。参见补充。以了解训练分段网络的详细信息。在图4中,我们对一些样本的分割结果进行了可视化。总共,我们注释了N=11个动物语义部分,7个汽车语义部分和6个人语义部分。总的来说,我们观察到预测的分割质量很高,但耳朵等较小的部分有时会有噪音。我们的损失函数的主要组成部分是形状P和Q之间的部分感知距离,定义为:D部分(P,Q)=ChL1(P,Q)+ChL1(P,Q)(2)i∈L其中,P、Q是采样点集,并且Pi和Qi表示部分i的点子集,并且ChL1(P,Q)是平均L1-倒角距离。包括全局(第一项)和部分(第二项)倒角距离使得这种损失对分割噪声更鲁棒。几何风格传递网络的最终损失函数为:图4:相同形状的示例部件分割和预测椭圆体。传输网络被训练在一个大的一组形状与纹理。与[58]类似,我们通过枚举训练形状的所有可能的成对组合来运行自监督我们使用Adam优化器进行40,000次迭代,批处理大小为32。初始学习率为0.001,每20%迭代后减半。3.2. 纹理样式传递网络为了传输纹理风格,我们重用线性图像风格传输网络[28],纹理图像(图2)作为源和目标。3DSTYLENET的创新之处在于在微调阶段使用可微分渲染器将该组件应用于3D模型(§3.3)。这允许纹理风格传递网络获得几何属性的意识,单独在未标记的纹理图像中不存在。训练:该网络在图像上进行了预训练。具体来说,编码器是在ImageNet [6]上训练的VGG-19 [45]的一部分,解码器在MS-COCO[31]上训练。线性变换模块在MS-COCO和WikiArt [1]上分别作为内容和样式图像集进行训练详情请参阅[28]3.3. 关节几何和纹理优化由于缺乏纹理训练形状,几何和纹理风格转换网络在不同的数据集上分别训练。由于纹理网络不是3D感知的,因此它不能避免uv映射不连续的3D表面区域处的接缝,并且不能学习忽略纹理图像中的黑色背景(例如,参见图1中的输入纹理图像。2)的情况。为了克服这些问题,我们渲染的形状与纹理,并共同优化的几何和纹理网络在测试时。具体来说,在测试时,我们针对特定的源和目标对对两个网络进行微调为了实现这一点,我们在多个视图中使用损失(P,Q,)=D部分((P),Q)+D部分(ξ(P),P)+α(Dsym(ξ(P))+Dsym(ξ(P)(三)基于光栅化的可微分渲染器Nvdiffracast [27],并评估多视图渲染上的掩蔽内容和样式损失,以用于几何和纹理的联合优化。其中ξ(P)是针对源形状P预测的所有椭圆体Ei的采样表面点,并且ξ(P)是如上所述的源形状的翘曲。 Dsym((P))是一个可选的对称正则化项,定义为(P)及其在其对称平面上的反射之间的平均L1-Chamfer距离(我们使用α = 0. ①的人。培训:由于高质量纹理化的3D形状, 我们设计了几何风格是的。这两个网络学习一起工作,既hal-lucinate纹理,尊重目标模式和颜色和源边界,并调整几何变换,使纹理传输更容易。具体来说,我们联合优化几何风格网络(§3.1)中的MLP参数和[28](§3.2)的线性变换模块,以最大限度地减少几何和多视图渲染的损失。12460Σ∼×程式化对象,使用以下目标函数:f(,mP)=损失(P,Q,)+βΣLcontent[Fv((P),m(P),Fv(P,mP)]动物之路对于关节几何和纹理风格转换,我们从TurboSquid收集了436辆纹理汽车,因为该网站上的对象具有更高质量的纹理。其中m为Pv+γLvmQ(四)style[Fv((P),m(P),Fv(Q,mQ)]是源的纹理图像图比ShapeNet对象。我们使用218合成风格的变化,并保留剩余的218的数据增强实验的定量评估。人物:我们从RenderPeople2中收集了500个T-pose的纹理3D人体模型,并随机将它们分成一个P和tar得到Q,并且mP是风格化的te xture图像(该t exture图像是源UV图保持固定)。Fv(P,mP)是在相机视图v下具有纹理mP的形状P的渲染像素的多级VGG特征的集合。至关重要的是,我们使用渲染器输出的背景掩码来屏蔽从不相关的背景像素计算出的特征。 损失是从等式3,并且像素特征上的样式和内容损失在[28]中定义。我们使用β=0。01,γ=0。001在实验中有关联合优化的更多详细信息,请参见补充部分。微调时间:这种微调是快速的,通常在测试时每个输入对大约20步后收敛。给定具有20K面和512 512纹理图像的网格,在Nvidia RTX 2080ti GPU上获得结果大约需要9 10秒。4. 实验在 本 节 中 , 我 们 将 定 性 和 定 量 地 评 估 我 们 的3DSTYLENET,并将其与其他基线方法进行比较。在整个实验中,我们为网络使用相同的默认超参数我们展示了我们的方法在风格化的3D形状的动物,汽车和人的类别。我们还评估了我们的方法作为一个3D数据增强技术。4.1. 数据集动物:动物数据集从Tur-boSquid1收集。我们收集了1,120个非纹理形状来训练我们的几何风格传递网络。中所述§3.1,我们选择了32个形状,我们手动标记了语义部分。然后,我们训练一个具有混合监督的BAE-NET将所有1,120个形状分割成语义部分。 有关分段方法的更多详情,请参阅附录。除了1,120个非纹理形状外,我们还从TurboSquid收集了442个纹理动物形状,用于关节几何形状和纹理风格转换。我们对数据集进行了筛选,以确保在非纹理集和纹理集之间没有重叠的示例我们使用442只动物中的一半来用我们的方法生成风格变化,并使用剩余的221个对象在§4.3中的数据增强实验中进行定量评估汽车:我们使用来自ShapeNet零件分割挑战[57,3]的898辆汽车来训练我们的几何风格网络。为了得到所需的部分分割,我们手动标记了8个示例,并在类似1https://www.turbosquid.com/大小为400的训练集和大小为100的测试集为了测试我们的方法在转换卡通风格到真正的人的形状,我们进一步收集了20纹理卡通人物形状TurboSquid进行测试。我们手动标记了训练集中的4个样本,用于使用BAE-NET进行分割。4.2. 三维样式传递结果3D风格转换是我们3DSTYLENET的主要应用之一。为了展示我们的方法的性能,我们将我们的方法与结合了NeuralCage [58]和线性图像风格传输网络[28]的强基线方法进行了比较。具体来说,在基线方法中,我们在训练形状上训练NeuralCage,并使用它来变形源形状以匹配目标形状。然后,我们将源和目标纹理图像馈送到预先训练好的线性图像风格传递网络,以传递纹理风格。基线和我们的方法的结果如图所示。5.我们的方法可以更好地近似的几何和纹理风格的目标对象。请注意,基线在很大程度上保留了汽车类别的源形状,而我们的结果更接近目标形状。同样地,对于动物,我们的方法捕获目标形状和纹理的风格,这对于第5列尤其明显我们还观察到一些失败的案例。例如,第6- 7列中的大象鼻子是不自然的弯曲。这是因为我们在分割中没有定义鼻子部分,并且我们的方法依赖于源对象的语义部分分割。卡通人物风格迁移实验结果表明,该方法在语义件风格迁移方面比基线方法有更好的效果例如,在最后一列中,基线错误地将头发的颜色转移到人脸上,而我们的方法没有。用户研究。 我们通过AmazonMechanicalTurk进行了一项用户研究,要求用户将我们的结果与使用神经笼[58]和风格转移[28]相结合进行比较。我们生成了2000个视频,分别是源模型和目标模型,我们将其标记为原始动物A和B,以及两个程式化模型,我们将其标记为杂交动物C和D,其中一半的视频中我们的模型是杂交动物C,另一半是杂交动物D,以克服2https://renderpeople.com/12461图5:定性比较:我们的方法与NeuralCage [58] +线性图像风格转换[28]。请注意,我们的方法可以更好地捕获几何和纹理中的样式。参见例如动物子集的第5列。虽然基线只是扩大狗被称为左侧选择偏置。当被问及程式化的动物模型是更接近目标形状还是更接近源形状时,41.9%的用户报告我们的模型更接近目标而不是源,相比之下,基线模型仅为26.8%69.6%的用户认为我们生成的颜色和图案比基线更接近于animal B,63.4%的用户报告说我们的模型具有更相似的形状和身体比例。目标比基线。然而,只有51.2%的人报告说我们的模型比基线更独特,53.1%的人报告说,与基线相比,我们的整体形状更像是两种形状的混合。我们在AMT调查中提出的问题可以在补编中找到。网格纹理转移。 如果禁用几何样式转换,我们的3DS TYLE N ET也可以应用于网格纹理转换任务(参见§2.3)。不像纯粹的几何学12462∼×××图6:纹理转移:使用[41]的方法(b)和我们的方法(c)将长颈鹿纹理转移到山羊模型(a)。虽然我们的方法寻求找到几何形状之间的失真最小化映射,但我们的方法能够产生新的纹理图像。因此,我们的方法避免了由广泛不同的目标几何形状引起的源纹理失真(见图中的特写)。6),并且倾向于保留目标的显著特征(例如山羊的脸)。与基线相比,我们的方法是数量级更快(9 - 10秒的RTX 2080 ti)和鲁棒性的非流形非水密网格与不同的相比之下,§2.3中的竞争性方法对输入几何有许多要求-例如,图6中[41]中只有一半的山羊可用,因为这种方法是为同胚于圆盘的几何设计的4.3. 通过3DSTYLENET训练神经网络以重建3D对象例如来自单个单目图像的部分观察需要大量的训练数据。然而,获得具有高质量几何和纹理的非常大规模的3D对象数据集是困难且昂贵的。为了增加3D训练集,最广泛使用的技术是域随机化[53],其在训练下游模型时随机化对象的颜色/纹理在我们的工作中,我们建议使用我们的方法作为一种方式来执行3D合成数据增强。特别是,我们在这里专注于单图像的单个对象的三维重建的任务。我们建议使用几何和纹理风格转移来增强3D训练数据,并通过与强基线的比较来验证我们模型的实验设置:如第4.1节所述,我们使用从Turbosquid收集的442只动物中随机选择的221只动物对象作为单图像3D重建的训练集。 我们使用我们的3DSTYLENET通过将几何和纹理从一个3D对象转移到另一个来增强训练集,这产生共221 221个对象。我们将所有对象渲染到24个不同的视图中,并训练DISN [56]从图像中预测3D形状我们还预测每个3D坐标的RGB颜色 培训详情见补充资料。为了评估性能,我们使用Turbosquid中剩余的221个对象作为测试集,并将它们分成三个类别:根据到训练集中最接近形状的倒角距离(增强之前)确定可见形状、相似形状和不可见形状。 注意虽然Seen类别中的对象的形状与训练集中的一些匹配,对象的纹理是不同的。根据过去的文献[38,56,11,22],我们使用倒角距离、倒角-L1和F评分评价3D重建质量。我们提供了其他指标的结果和补充中另一个类别(汽车)的结果。为了评估我们的方法作为数据增强策略,我们与以下基线进行比较:a)无数据增强,其中网络仅在221个训练对象(的渲染视图)上训练。对于基于纹理的增强,我们比较了b)类似于域随机化工作的随机纹理替换[53],其中对于221个对象中的每个对象,我们随机选择221个COCO [31]图像作为新纹理(产生221 221个组合),以及c)使用图像风格转移[28]将纹理图像风格从一个训练对象转移到另一个训练对象。对于基于几何的增强,我们与d)随机仿射变换进行比较,其中我们对每个训练对象随机应用不同的221仿射变换(仿射变换的规模与我们的方法相同),以及e)使用在我们的1,120个非纹理形状集上训练的神经笼模型[58]将每个训练对象的几何形状变形为另一个。我们进一步比较了f)用于形状变形的神经笼和用于纹理增强的图像风格转移[28]的组合最后,我们还废除了我们自己的方法时,只使用几何风格转移,纹理风格转移,和纹理和几何,但没有微调阶段。请注意,在所有基线中,除了无数据增强,我们使用221 221纹理形状用于训练3D重建方法,使得这是一个公平的实验。实验结果:定量和定性结果见表1和图2。7,分别。与通常在3D重建工作中完成的无数据增强相比,我们的和基线增强方法实现了显著的改进。随机仿射变换的结果最差,因为它降低了训练数据的质量,使其更难让网络学习形状先验。仅将神经笼[58]几何与我们的几何转移进行比较,我们实现了更高质量的3D重建,显示了仿射变换场在几何样式转移中的有用性。对于纹理增强,与随机COCO [31]纹理和风格转移[28]纹理相比,我们的纹理转移方法实现了相当的或在一些度量中最差的性能。请注意,基于纹理的增强方法在Seen类别上表现最好,我们将其归因于网络对训练集中的几何形状的过拟合。由于所见类别中的一些测试形状具有与训练集中相同的形状几何结构但不同的纹理,因此纹理随机化方法直接优化下游网络以忽略纹理并记忆形状。的12463×扩展法倒角↓倒角L1↓F评分↑看到的形状相似的形状看不见的形状看到的形状相似的形状看不见的形状看到的形状相似的形状看不见的形状无数据扩充0.0250.0350.0650.0730.1020.1870.3230.2100.085随机仿射0.0400.0430.0530.1140.1230.1520.2110.1950.144[58]第五十八话0.0170.0220.0440.0500.0640.1280.4150.3460.143美国[31]0.0140.0210.0450.0400.0610.1310.5720.3610.140[28]第二十八话0.0150.0230.0470.0420.0680.1360.5180.3160.122[28]第28话:我的世界0.0190.0220.0400.0530.0620.1160.4230.3700.181我们的:仅0.0180.0210.0400.0510.0620.1160.4230.3580.188我们的:仅0.0120.0240.0510.0340.0700.1480.6230.3140.118我们的(不含微调):纹理+几何转移0.0190.0220.0390.0540.0630.1110.4140.3600.183我们的:纹理+几何转移0.0160.0190.0370.0470.0550.1070.4490.3940.218表1:使用DISN [56]作为3D重建方法和3DSTYLENET与基线相比作为3D数据增强策略的单图像3D重建下游任务的定量结果。输入没有Aug.随机Aff.N.笼[58]随机S.译[28日]N. C. [58] &我们的地理我们的特克斯我们的Geo+COCO [31]S. T. [28日]Tex图7:使用DISN作为3D重建方法和各种3D数据增强策略的单图像3D重建的定性结果。虽然没有一个结果是完美的,但有些结果显然比其他结果更糟仿射随机化损害性能。没有任何加固比其余加固策略产生的结果更差我们的机器能产生最合理和平滑的形状。图8:使用DISN [56]作为3D重建方法和3DSTYLENET作为3D数据增强策略,在SMAL [59]数据集上进行单图像3D重建的定性结果。请注意,背景已被数据集中提供的分段掩盖。纹理随机化方法的性能在纹理和形状都是新颖的Unseen类别上显著下降。在这里,我们的完整方法显着优于纹理随机化方法。将Neu- ral Cage [58] + StyleTransfer [28]与我们的完整模型进行比较,我们在Chamfer和Chamfer-L1方面实现了相当的性能,并且在F评分和定性结果方面实现了更好的性能。这证明了3DSTYLENET作为3D数据增强技术的有效性。真实数据的定性结果:为了评估使用我们的增强策略训练的3D重建模型推广到真实图像的程度,我们直接将训练的网络用于SMAL [59]数据集而无需微调。由于DISN [56]在推断期间需要相机姿势例如,我们训练占用网络,其不需要我们的增强的221221数据上的相机视图。我们在图中提供了定性结果8.虽然我们只在合成渲染图像和Turbosquid的人类创建的形状上训练模型,但该网络能够从掩蔽的真实图像中重建形状,并达到良好的精度。其他结果可在补充中找到。5. 结论在本文中,我们提出了一种新的方法为3D对象风格化通知的参考纹理的3D形状。我们的3DSTYLENET预测了一个部分感知的仿射变换场,该仿射变换场扭曲源形状以模仿目标形状的整体几何风格。我们还将目标的纹理风格转移到源对象的帮助下,一个多视图的微分渲染器和几何对齐后的形状风格化。我们的方法共同优化的几何风格网络和图像风格trans-fer网络的损失定义在一对纹理形状的几何形状我们展示了我们的3D内容风格化的方法,以及一个有价值的工具来创建计算机视觉任务的3D数据增强我们优于传统的增强技术,特别是在训练时看不到的挑战性形状上。我们希望我们的工作开辟了一条途径,创造性的3D内容风格化和创建工具,为天真和专家用户。12464引用[1] 数字画家,维基艺术。https://www.kaggle的网站。com/c/painter-by-numbers.[2] Aseem Agarwala,Aaron Hertzmann,David H Salesin,and Steven M Seitz. 基于关键帧的旋转镜头和动画跟踪 。 ACM Transactions on Graphics ( ToG ) , 23(3):584[3] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[4] Wenzheng Chen,Jun Gao,Huan Ling,Edward Smith,Jaakko Lehtinen,Alec Jacobson,and Sanja Fidler.学习使用基于插值的可区分渲染器预测3d对象。在神经信息处理系统的进展,2019。[5] Zhiqin Chen,Kangxue Yin,Matthew Fisher,SiddharthaChaudhuri,and Hao Zhang. Bae-net:用于形状共分割的分 支 自 动 编 码 器 。 Proceedings of InternationalConference on Computer Vision(ICCV),2019.[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[7] Michal Edelstein 、 Danielle Ezuz 和 Mirela Ben-Chen 。谜 : 进 化 非 等 距 几 何 匹 配 。 ACM Transactions onGraphics(TOG),39(4),2020。[8] Danielle Ezuz、Behrend Heeren、Omri Azencot、MartinRumpf和Mirela Ben-Chen。三角形网格之间的弹性对应。在Computer Graphics Forum,第38卷,第121-134页中。Wiley在线图书馆,2019年。[9] Ran Gal , Olga Sorkine , Niloy J Mitra , and DanielCohen-Or.iwires:一种用于形状操作的分析和编辑方法ACM SIGGRAPH 2009论文,第1-10页。2009年[10] Ran Gal、Olga Sorkine、Tiberiu Popa、Alla Sheffer和Daniel Cohen-Or 。 3d 拼 贴 : 表 现 非 现 实 建 模 。 在Proceedings of the 5th International Symposium on Non-photorealistic Animation and Rendering,第7[11] Jun Gao,Wenzheng Chen,Tommy Xiang,Clement FujiTsang , Alec Jacobson , Morgan McGuire , and SanjaFidler.学习可变形四面体网格进行三维重建。在神经信息处理系统的进展,2020。[12] Lin Gao,Jie Yang,Yi-Ling Qiao,Yu-Kun Lai,Paul LRosin,Weiwei Xu,and Shihong Xia.自动不成对形状变形 转 移 .ACM Transactions on Graphics ( TOG ) , 37(6):1[13] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集,第2414-2423页[14] 利 昂 ·AGatys , Alexander S.Ecker , Matthias Bethge ,Aaron Hertzmann,and Eli Shechtman.神经风格迁移中知觉因素的控制2017 IEEE Conference on Com-计算机视觉和模式识别(CVPR),第3730- 3738页,2017年。[15] Bruce Gooch和Amy Gooch 非真实感渲染。CRC出版社,2001年。[16] 阿米尔·赫兹,拉纳·哈诺卡,拉贾·吉里斯和丹尼尔·科恩-或者。深度几何纹理合成。arXiv预印本arXiv:2007.00074,2020。[17] 亚伦·赫茨曼使用多种大小的弯曲画笔笔划进行绘画渲染 。 在 Proceedings of the 25th annual conference onComputer graphics and interactive techniques,pages 453[18] 放大图片作者:Charles E. Jacobs,Nuria Oliver,BrianCurless ,and David Salesin. 形 象类 比。 SIGGRAPH,2001年。[19] Hugues Hoppe 渐 进 网 格 。 在 Proceedings of the 23rdannual conference on Computer graphics and interactivetechniques,pages 99[20] Ruizhen Hu , Wenchao Li , Oliver Van Kaick , HuiHuang,Melinos Averkiou,Daniel Cohen-Or,and HaoZhang.将样式定义元素放置在三维形状上。ACM Trans-actions on Graphics,36(3):33:1[21] Xun Huang和Serge J.贝隆吉实时任意样式传输2017年IEEE计算机视觉国际会议(ICCV),第1510-1519页[22] Krishna Murthy Jatavallabhula 、 Edward Smith 、 Jean-FrancoisLafleche 、 ClementFujiTsang 、 ArtemRozantsev 、 Wenzheng Chen 、 Tommy Xiang 、 RevLebaredian和Sanja Fidler。Kaolin:一个加速3D深度学习研究的Pytorch库。在arXiv:1911.05063,2019。[23] 景永成、杨业州、冯遵雷、叶景文、余益州、宋明丽Neural Style Transfer : A Review.arXiv 预 印 本 arXiv :1705.04058,2017。[24] Bhautik Joshi , Kristen Stewart , and David Shapiro. 在《游来游去》中运用神经风格转换将印象主义带入生活。arXiv预印本arXiv:1701.04928,2017。[25] H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功