没有合适的资源?快使用搜索试试~ 我知道了~
6469(一)(b)第(1)款(c)第(1)款(d)其他事项(e)(f)第(1)款学习穿着3D人物生成服装马千里1,杨金龙1,阿努拉格·兰詹1,2,谢尔盖·普贾德斯4,杰拉德·庞斯-莫尔5,唐思宇*3,迈克尔·J。黑11德国图宾根马克斯·普朗克智能系统研究所2德国图宾根大学3瑞士苏黎世ETH4Uni versite'GrenobleAlpes,Inria,CNRS,GrenobleINP,LJK,法国5马克斯·普朗克信息学研究所,萨尔信息学院,德国{qma,jyang,aranjan,black}@ tue.mpg.desergi. inria.frgpons@mpi-inf.mpg.desiyu. inf.ethz.ch图1:服装人类的CAPE模型给定SMPL身体形状和姿势(a),CAPE通过从学习的模型中随机采样来添加服装(b,c),可以生成不同的服装类型-(b,c)中的短裤与(b,c)中的短裤。(d)中的长裤。生成的穿着衣服的人可以概括为不同的身体形状(e)和身体姿势(f)。最佳观看放大屏幕上。摘要三维人体模型在人体姿态和运动分析中有着广泛的应用。然而,现有的模型是从最少穿着的3D扫描中学习的,因此不能推广到常见图像和视频中穿着的人的复杂性此外,目前的模型缺乏表达能力,需要表示复杂的非线性几何形状的姿势依赖的服装形状。为了解决这个问题,我们从具有不同姿势和服装的3D扫描中学习了一个有衣人的生成3D网格模型。具体来说,我们训练了一个条件网格- VAE-GAN来从SMPL身体模型中学习服装变形,使服装成为SMPL中的一个我们的模型以姿势和服装类型为条件,能够绘制服装样本,以各种风格和姿势穿着不同的身体形状。为了保留褶皱细节,我们的Mesh-VAE-GAN将补丁式识别器扩展到3D网格。我们的模型,名为CAPE,代表-边缘,这是第一个生成模型,直接打扮三维人体网格和 推 广 到 不 同 的 姿 态 。 模 型 、 代 码 和 数 据 可 在https://cape.is.tue.mpg.de上获得以用于研究目的。1. 介绍现有的生成人体模型[6,22,33,38]虽然完全捕获了人体形状和姿势变形的统计数据,但仍然缺少一个重要的组成部分:服装。这在各种应用中导致若干问题。例如,当身体模型用于生成合成训练数据[20,42,43,49]时,最小身体几何学导致人类的合成图像和真实图像之间存在显著的域差距。深度学习方法基于最低着装的人体模型从图像中重建人体形状[5,23,26,27,30,36,38,39]。尽管身体姿势与图像观察相匹配,但最小身体几何形状与穿着衣服的人不匹配。的整体形状和精细的局部结构,有效地表达,为SMPL的身体模型做衣服。 据我们所知,当S。 唐在MPI-IS和图宾根大学工作。6470大多数情况下。这些问题激发了对参数化穿着人体模型的需求。我们的目标是建立一个低维的、易于摆姿势的、可区分的、能代表不同体型和姿势上的不同服装类型的、并能产生几何上合理的结果的服装人体生成模型。为了实现这一点,我们扩展了SMPL [33],并从未穿衣的身体中分解衣服形状,将衣服视为规范姿势中的附加位移(见图2)。2)。通过设计,学习的衣服层与SMPL身体模型兼容,从而可以轻松地重新设置姿势和动画。从给定的身体形状和姿势到服装形状的映射是一对多的。然而,现有的基于回归的服装模型[16,52]产生的决定性结果无法捕获服装变形的随机性质。相比之下,我们将服装建模制定为概率生成任务:对于单个姿势和体型,可以对多个服装变形我们的模型,被称为CAPE的我们在图中说明了我们模型的关键要素。1.一、给定SMPL体型、姿势和服装类型,CAPE可以通过对学习的潜在空间进行采样来生成不同的服装结构。由此产生的服装层可适应不同的身体形状和姿势。技术方法。我们使用继承SMPL拓扑学的图将衣服表示为位移层。此图中的每个节点表示从底层实体上其对应顶点的三维偏移向量。为了学习这种图的生成模型,我们构建了一个图卷积神经网络(Sec.4),在VAE-GAN [7,29]的框架下,使用图卷积[11]和网格采样[41]作为骨干层。这解决了为人体[32,50]或面部[41]的3D网格设计的现有生成模型倾向于产生过度平滑结果的问题;这种平滑对于局部细节如褶皱很重要的布料来说是有问题的。具体来说,我们系统中的GAN[15]模块鼓励视觉上合理的皱纹。我们使用网格状图的块式网格对GAN进行建模,并表明它有效地提高了生成的精细结构的质量数据集。我们介绍了一个4D捕获的人的数据集,这些人穿着不同类型的衣服,执行各种姿势序列(第二节)。(五)。我们的数据集由使用4D扫描仪捕获的8名男性和3名女性受试者的超过80K帧组成。我们使用这个数据集来训练我们的网络,从而生成服装层的参数生成模型。多才多艺。CAPE旨在实现“即插即用”,许多已经使用SMPL的应用程序。使用CAPE对SMPL进行穿戴,产生穿着衣服的人的3D网格,其可用于多种应用,例如生成训练数据,在深度网络中参数化身体姿势,具有服装我们通过使用我们的模型扩展SMPLify [9]来证明这一点我们表明,使用CAPE与SMPLify可以提高服装中重建人体的质量。总而言之,我们的主要贡献是:(1)提出了服装建模的概率公式。(2)在此公式下,我们学习了一个条件Mesh-VAE- GAN,它可以捕获网格的全局形状和局部细节,并基于人体姿势和服装类型进行控制调节。(3)学习的模型可以生成服装的姿势相关的变形,并推广到各种服装。(4)我们用我们的服装模型增强SMPL3D人体模型,并显示增强型“Clothed-SMPL”的应用。(5)我们贡献了一个数据集的4D扫描的穿着人类执行-形成各种运动序列。我们的数据集,代码和训练模型可在https://cape.is.tue.mpg.de上用于研究目的。2. 相关工作服装的捕获、重建和建模已经得到了广泛的研究。表1显示了最近的方法,分为两大类:(1)重建和捕获方法,以及(2)参数模型,详述如下。重建3D人体。从二维图像和视频重建三维人体是一个经典的计算机视觉问题。大多数方法[9,17,23,26,27,30,36,38,46]从图像输出3D人体网格,但不输出衣服。这忽略了可能有用的图像证据。为了重建穿着衣服的身体,方法使用体积[34,44,48,54]或双平面深度表示[12]来对身体和衣服进行整体建模。我们将这些称为表1中的组1。虽然这些方法处理任意的服装拓扑结构并保持高水平的细节,但重建的衣服身体不是参数化的,这意味着重建的姿势、形状和服装不能被控制或动画化。另一组方法基于SMPL [1,2,3,4,8,55]。它们将衣服表示为ClothCap [40]中提出的底层身体的偏移层。我们将这些方法称为表1中的第2组。这些方法可以利用SMPL的变形模型 这是假设衣服的变形就像一个没有穿衣服的人体;即,布料形状和褶皱不作为姿势的函数而改变。我们还使用身体到布料的偏移表示来学习6471表1:相关方法的选择。存在两种主要的3D服装方法类:(1)基于图像的重建和捕获方法,以及(2)预测变形作为姿势的函数的服装模型。在每个类中,方法根据列中的条件而不同。参数化姿势依赖全身服装捕获代码概率法类方法模型服装服装皱纹数据库公共采样图像第1组†没有没有是的是的是的是的没有重建第二组是的没有是的是的是的是的没有捕获ClothCap [40]是的没有是的是的是的没有没有[28]第二十八话是的是的没有是的是的没有没有Yang等人[五十二]是的是的是的没有是的没有没有服装Wang等人[五十一]是的没有没有没有没有是的是的模型窗帘[16]是的是的是的是的没有没有没有Sanesteban等人[45个]是的是的是的是的没有没有没有Garnet [18]是的是的是的是的没有没有没有我们是的是的是的是的是的是的是的* 与模拟/合成数据相反。†第1组:BodyNet [48],DeepHuman [54],SiCloPe [34],PIFu [44],MouldingHumans [12]。第2组:Octopus [1],MGN [8],Tex2Shape [4]。我们的模型,但关键的是,我们学习了神经功能映射,从姿势到多模态服装偏移变形。因此,我们的工作不同于这些方法,因为我们学习了服装如何随姿势变形的参数模型。三维人体和衣服的参数化模型。 从3D身体扫描中学习的统计3D人体模型[6,22,33,38]捕获身体形状和姿势,并且是多种应用的重要构建块。然而,大多数时候,人们穿着衣服,这些模型并不代表服装。此外,衣服随着我们的移动而变形,在多个空间尺度上产生变化的皱纹。虽然存在从真实数据中学习的服装模 型 , 但 很 少 有 人 能 推 广 到 新 的 姿 势 。 例 如 ,Neophytou和Hilton [35]从动态序列中学习了SCAPE [6]之上的分层服装模型,但没有证明对新姿势的Yang等人 [52]训练一个神经网络来回归基于PCA的布料表示,但在同一序列或同一主题上显示泛化。 L aühner等[28]通过对低频PCA分量和高频法线映射进行回归来学习特定于服装的姿势变形模型虽然视觉质量很好,但该模型是特定于服装的,并且不提供全身服装的解决方案。类似地,Alldieck等人。[4]使用带有UV参数化的置换贴图来表示曲面几何体,但结果仅是静态的。Wang等人。[51]允许在静态姿势中使用草图操纵布料亚当模型[22]可以被认为是穿着的,但形状非常光滑,不依赖于姿势。服装模型已经从服装的物理模拟中学习[16,18,37,45],但视觉保真度受到模拟质量的限制此外,上述方法是产生单点估计的回归量相比之下,我们的模型是生成的,这允许我们对服装进行采样。是困难的,并且与我们的模型不同,所得到的物理模拟器关于参数是不可微的。3D网格上的生成模型。我们的模型使用图卷积预测SMPL网格定义的图上的服装位移[10]。最近有大量关于图卷积的方法和应用的文献[11,25,32,41,50]。这里最相关的,Ranjan et al.[41]使用具有网格下采样和上采样层的图卷积[ 11 ]学习卷积自动编码器[13]。虽然它适用于面部,但网格采样层很难捕捉局部细节,而局部细节是服装的关键在我们的工作中,我们通过将PatchGAN [21]架构扩展到3D网格来捕获局部细节3. 加性穿衣人体模型为了对穿着衣服的人体进行建模,我们将其分解为两部分:最少穿着衣服的身体和表示为身体位移的衣服这使我们能够自然地将SMPL扩展到一类服装类型,将服装视为附加的附加形状项。由于SMPL被广泛使用,我们的目标是以一种与当前使用一致的方式对其进行扩展,使其有效地成为3.1. 敷料SMPLSMPL [33]是一种人体生成模型,它将身体表面分解为形状(β)和姿势(θ)参数。如图在图2(a)、(b)中,SMPL的体系结构从处于静止姿态的三角化模板网格T′开始,由N=6890个顶点定义。给定形状和姿态参数(β,θ),3D偏移被添加到模板,对应于形 状 相 关 变 形 ( BS ( β ) ) 和 姿 态 相 关 变 形 ( BP(θ))。然后使用蒙皮函数W对生成的网格进行造型。形式上:概念上不同的方法推断参数从3D扫描序列的物理服装模型[47]。T(β,θ)=T<$+BS(β)+BP(θ)(1)这推广到新的姿态,但推理问题M(β,θ)=W(T(β,θ),J(β),θ,W)(2)6472(a)T¯(b)T(β)=T<$+BS(β)(c)T(β,θ)=T(β)+BP(θ)(d)Tclo =T(β,θ)+ Sclo(z,θ,c)(e)W(Tclo,J(β),θ,W)图2:添加剂服装人体模型。我们的贡献用黄色背景突出显示。遵循SMPL,我们的模型(a)从模板网格开始,线性添加由(b)个体体形β和(c)姿势θ贡献的偏移;注意芭蕾姿势引起的臀部和脚部变形。(d)我们进一步添加由姿势θ、服装类型c和服装形状变量z参数化的服装层。(e)然后使用SMPL的蒙皮方程来设置顶点。其中,混合蒙皮函数W( ·)围绕3D关节J(从β计算)旋转静止姿态顶点T,用混合权重W线性平滑它们,并返回姿态顶点M。姿态θ∈R3×(23+1)由23个关节的相对三维旋转矢量和轴角表示的全局旋转矢量表示。SMPL将线性变形层添加到初始体形。在此之后,我们将衣服定义为身体的额外偏移层,并将其添加到SMPL网格的顶部,图。第2段(d)分段。在这项工作中,我们通过身体姿势θ,服装类型c和编码服装形状和结构的低维潜变量z来令Sclo(z,θ,c)为服装位移层。我们扩展Eq.(1)对处于休息姿势的穿戴好的身体模板:Tclo(β,θ,c,z)= T(β,θ)+Sclo(z,θ,c).(三)请注意,服装位移Sclo(z,θ,c)与姿势有关。最后的服装模板,然后提出与SMPL皮肤功能,方程。(二):M(β,θ,c,z)=W(T_(β,θ,c,z),J(β),θ,W). ( 4)这不同于简单地应用混合蒙皮,位移,例如,[1,8]。在这里,我们训练模型,使模板姿势中的姿势相关服装位移在混合蒙皮后正确3.2. 服装代表顶点位移不是布料的物理模型,不能代表所有类型的服装,但这种方法实现了表现力和简单性之间的平衡,并已广泛用于变形建模[16],3D服装捕获[40]和最近的工作,从图像重建穿着的人[1,8,55]。位移层是继承SMPL拓扑的图Gd=(Vd,Ed):边Ed=ESMPL。Vd∈R3×N是顶点的集合,并且每个顶点上的特征tex是三维偏移向量(dx,dy,dz),从其在底层人体网格上的对应顶点开始。我们在穿着衣服的人的3D扫描上训练我们的模型。从数据对(V穿衣,V最小),我们计算位移-其中,Vclothed代表clothed人类网格的顶点,并且Vminimal代表minimallyclothed网格的顶点。因此,我们首先扫描穿着衣服和最小穿衣条件,然后使用具有自由变形的SMPL模型[1,53]来配准扫描。因此,我们获得SMPL网格捕获扫描的几何形状,相应的姿态参数和顶点1.未设置网格。 对于每个(Vclothed,Vminimal)对,位移计算为Vd= Vclothed-Vminimal,其中减法是沿着特征维度逐顶点执行的。理想情况下,Vd仅在覆盖有衣服的身体部位上具有非零值。总之,CAPE将SMPL身体模型扩展到了穿着衣服的身体。与穿着衣服的人的体积表示[34,44,48,54]相比,我们的身体模型和服装层的组合在重新定位和服装重定位的容易性方面更优越:前者使用与身体模型相同的混合蒙皮,而后者是将位移简单地添加到最少穿着的身体形状。与同样使用偏移量穿着SMPL的类似模型相比[1,8],我们的服装层是参数化的,低维的,并且依赖于姿势。4. Cape我们的服装项Sclo(z,θ,c)在方程。(3)是z的函数,z是学习的低维潜在空间中的编码,其对服装的形状和结构、身体姿势θ和服装类型c进行编码。该功能输出的服装位移-门特图Gd中所述的第二节。3.2.我们使用图卷积神经网络(Graph-CNN)作为VAE-GAN框架来参数化该函数[15,24,29]。4.1. 网络架构如图3、我们的模型由一个发电机组成,G的编码器-解码器架构和一个D.我们还使用辅助网络C1、C2来处理条件作用。该网络是可区分的,并且是端到端训练的。1我们遵循SMPL并使用T姿势作为零姿势。有关配准和取消的详细说明,我们请读者参阅[53]。6473真/假(补丁)(x,y,z)变分自动编码器-差动鉴别器-差动下采样上采样完全连接(b)第(1)款图3:我们的方法概述。(a)根据扫描数据计算位移(第3.2)在无姿态空间中从穿衣人体网格中减去最小体型。(b)我们的网络结构示意图。为了简单起见,我们在本节中使用以下符号。 x:输入位移图的顶点Vd;θ和c:姿势和服装类型条件向量;Z:潜在代码。图形生成器。我们按照V AE-GAN框架构建了图形生成器。在训练期间,编码器E_n_c(·)接收位移x,通过mul提取其特征图卷积层,并将其映射到低维潜在码z。解码器被训练为从z重构输入图x∈ C=D∈C(z)。编码器和解码器都是用网格卷积层构建的线性层用于编码器的结尾和解码器的开头。补充材料中显示了体系结构。堆叠图形卷积层会导致更深层的局部特征丢失[31]。这对于服装生成是不期望的,因为与皱纹相对应的精细细节可能会消失。因此,我们改进了具有残差连接的标准图卷积层,这使得在必要时能够使用来自层输入的低级特征。在测试时,不需要编码器相反,z是从高斯先验分布中采样的,解码器用作图形生成器:G(z)=Dec(z)。我们在下面详细介绍不同的用例。Patchwise 为了进一步增强重建中的细节,我们引入了一个用于图的分片判别器D,它在图像领域取得了成功[21,56]。该算法不查看整个生成的图,而是仅根据图的局部结构来分类图补丁是真还是假。然而,这鼓励了重构器只关注细节,并且全局形状由重构损失来照顾。我们使用四个图卷积下采样块来实现图分块采样[41]。我们为每个输出顶点添加一个判别性的真/假损失。这使得网络跟踪器能够在重建的图中捕获一片相邻节点(3)第三章。姿势θ和服装类型C。SMPL姿态参数以轴角表示,并且神经网络难以学习[27,30]。因此,根据先前的工作[27,30],我们使用Rodrigues方程将姿态参数转换为旋转矩阵。布料类型本质上是离散的,我们用独热标签来表示它们。这两个条件首先分别通过一个小的全连接嵌入网络C1(θ),C2(c),以平衡学习的图特征和条件特征的维度。 我们还对调节网格生成器的不同方法进行了实验:潜在空间的连接;将条件特征附加到生成器中所有节点处的图特征;以及两者的结合。我们发现,组合策略在网络能力和条件反射效果方面效果更好。4.2. 损失和学习对于重建,我们在网格x的顶点上使用L1损失,因为与L2相比,它鼓励更少的平滑,由下式给出Lrecon=Ex<$p(x),z<$q(z|x)[<$G(z,θ,c)−x<$1]。(五)此外,我们在网格边缘上应用了一个损失,以鼓励皱纹的生成,而不是平滑的表面。设e是地的边集合E真值图,并且e表示基因r中的对应边的graph。我们惩罚所有对应的边缘通过Ledge=Ee∈E,e2].(6)我们还在分布之间应用KL发散损失,潜码的分布与高斯先验LKL= Exp(x)[KL(q(z|x)N(0,I))]。(七)此外,使用对抗性损失来训练生成器和训练器LGAN=Exp(x)[log(D(x,θ,c))]+条件模型。 我们用身体来Ezq(z|x)(八)[log(1−D(G(z,θ,c)],残留块(一)6474其中G试图最小化这个损失,而D的目标是最大化它。总体目标是这些损失项的加权和,L=Lrecon+γedgeLedge+γklLKL + γganLGAN。(9)培训详情见补充材料。5. CAPE数据集我们建立了一个数据集的三维服装捕捉时间序列的三维人体扫描与高分辨率的身体扫描仪(3dMD有限责任公司,亚特兰大,GA)。以60 FPS捕获大约80K 3D扫描帧,并且具有SMPL模型拓扑的网格被配准到每个扫描以获得表面对应性。我们还在最低限度穿着衣服的情况下扫描了潜水员,以获得他们在衣服下的身体形状的准确估计。我们提取的衣服作为位移从最少的衣服的身体所描述的。3.2.噪声帧和注册失败的,-tions通过手动检查删除。该数据集由8名男性受试者和3名女性受试者组成受试者提供了知情的书面同意书,同意参与并出于研究目的发布数据 这些服装包括8种常见的服装。我们参考补充材料,了解服装列表,进一步的细节和数据集中的示例。与现有的3D穿着人体数据集相比,我们的数据集提供了捕获的数据和SMPL与扫描的对齐,将衣服与身体分离,并提供了准确的、捕获的衣服下的真实身体形状对于每个主题和服装,我们的数据集包含大的姿势变化,这会导致各种各样的皱纹模式。由于我们的3D网格数据集具有一致的拓扑结构,因此它可以用于不同 Graph-CNN 架 构 的 定 量 评 估 。 该 数 据 集 可 在https://cape.is.tue.mpg.de上用于研究目的。6. 实验我们首先展示了我们的模型的表示能力然后,我们展示了一个应用程序,应用于人体姿势和形状估计。6.1. 表示能力3D网格自动编码错误。我们使用recruitc- tion精度来衡量我们的基于VAE的模型的几何编码和保存的能力我们比较使用最近的卷积网格自动编码器CoMA [41]和线性(PCA)模型。我们将具有4×下采样的原始CoMA(表示为“CoMA-4”)和没有下采样的原始CoMA(表示为“CoMA-1”)进行比较下采样对过平滑的影响对于所有模型,我们使用相同的潜在空间维度nz=18表2显示了使用我们的网络从CAPE数据集中的保留测试集重建服装位移图时的逐顶点欧氏误差该模型分别在男性和女性数据上进行训练和评估。头部、手指、脚趾、手和脚等身体部位不包括在准确度计算中,因为它们没有被衣服覆盖。我们的模型在自动编码任务中优于基线;此外,从我们的模型重建的形状是概率和姿态相关的。请注意,这里的CoMA是一个确定性的自动编码器,专注于重建。虽然PCA的重建性能与我们的方法在男性数据上相当,但PCA不能直接用于以姿势参数作为输入的推理阶段。此外,PCA假设数据的高斯分布,这不适用于复杂的服装变形。我们的方法解决了这两个问题。图4示出了方法的定性比较。PCA保持皱纹和边界,但左侧的上升下摆消失。 CoMA-1和CoMA-4能够捕获全局相关性,但皱纹往往被平滑。通过整合所有关键组件,我们的模型能够比其他方法更准确地模拟局部结构和全局相关性。消融研究。我们从我们的模型中删除关键组件,而保留所有其他组件,并评估模型性能;参见表2。我们观察到,判别器,残留块和边缘损失都发挥重要作用的模型性能。比较CoMA-4和CoMA-1的性能,我们发现下采样层的网格导致保真度损失然而,即使没有任何空间下采样,CoMA-1仍然表现不佳。这显示了在我们的模型中添加边缘、残留块和边缘损失的好处表2:以毫米为单位的逐顶点自动编码误差。上段:与基线的比较;下段:消融研究男性女性方法误差平均中值误差平均中值PCA5.65±4.814.304.82± 3.823.78CoMA-16.23± 5.454.664.69± 3.853.61CoMA-46.87± 5.625.294.86± 3.963.75我们5.54±5.094.034.21± 3.763.08消融组件误差平均中值误差平均中值鉴别器5.65± 5.184.114.31± 3.783.18Res-block5.60± 5.214.054.27± 3.763.15边缘损失5.93± 5.404.324.32± 3.783.196475地面实况无边缘PCA COMA-4 COMA-1无Discr.损失Cape完整模型根 据 我 们 的 方 法 生 成 的 结 果 , 我 们 在 AmazonMechanical Turk(AMT)上进行了我们在3D中打扮虚拟化身,并将其渲染成正视图像。根据[21]的方案,向评分者提供一系列“真实与虚假”试验。在每次试验中,评分者都会看到一个评分员被要求选出他们认为是真实的。每对渲染图由10名评分员进行评估比[21]更严格的是,我们同时呈现真实和虚假的效果图,不为评分者图4:通过基线、模型的消融版本和完整模型重建的示例。注意下摆和上背部的皱纹。我们的模型能够恢复长期相关性和局部细节。最佳观看放大屏幕上。6.2. 服装的条件生成CAPE作为一种生成式模型,可以被采样并生成新的数据。该模型有三个参数:z,c,θ(参见等式(三))。通过对其中一个进行采样,同时保持其他两个固定,我们展示了条件反射如何影响生成的服装形状。取样. 图5呈现了穿着在看不见的身体上的采样衣服,以各种在训练中不使用的姿势。对于每个对象,我们固定姿势θ和服装类型c,并对z进行多次采样以生成不同的布料形状。[14]中的抽样技巧被使用。在这里,我们只显示无纹理渲染,以突出显示生成的几何体中的变化。由于CAPE继承了SMPL拓扑结构,因此生成的服装体网格与所有现有的SMPL纹理贴图都是兼容的。有关使用相同纹理渲染的CAPE示例和SMPL示例之间的比较,请参见如图所示,我们的模型设法捕捉网格内的长距离相关性,例如手臂抬起的受试者的下摆抬高,以及手臂抬起的背部侧面皱纹。该模型还合成了局部细节,如腋窝区域的皱纹,以及袖口和衣领的束缚。依赖于姿势的服装变形。 CAPE的另一个实际用例是为现有的穿着衣服的身体制作动画。这相当于固定服装形状变量z和服装类型c,并通过改变θ来放置身体。这里的挑战是要有一个服装的形状,是一致的姿势,但变形可接受。我们在图中展示了测试姿势上的姿势依赖效应。六、两个姿势之间的服装层的差异在规范姿势中计算,并使用颜色编码显示。结果表明,服装类型是一致的,但局部变形随姿势而变化。我们参考补充视频与传统钻机进行比较并允许放大以进行详细比较。在这种情况下,一个方法可以获得的最佳分数是50%,这意味着真实和虚假的例子是无法区分的。我们用两个测试案例进行评估在测试用例1中,我们将衣服类型固定为在测试用例2中,我们将姿势固定为A姿势(训练中最常见的姿势),并对每种服装类型抽取100个样本进行评估。状态。平均而言,在与真实数据的直接比较中,我们的合成数据“愚弄”了35名参与者。1%±15。7%,38。7%±16。5%的时间(即这些参与者将我们的结果标记为“真实的”)。6.3. 图像拟合CAPE关于服装形状变量z、身体姿势θ和服装类型c是完全可微的。因此,它也可以用于优化框架。通过扩展基于优化的方法SMPLify [9],我们展示了CAPE在从单个图像重建人体网格的任务上的应用。假设c是已知的,我们使用CAPE对SMPLify的最小衣服输出网格进行修饰,使用可微分渲染器将其投影回图像[19],并针对轮廓差异优化β,θ,z我们在CAPE数据集中随机选择的120个看不见的测试示例的渲染上评估我们的图像拟合管道。为了进行比较,我们使用均方顶点误差(MSE)测量SMPLify的反射误差和我们的结果对地面真实网格的反射误差。为了消除由人体尺度和到相机的距离的模糊性引入的误差,我们优化了两种方法在每个测试样本上的预测应用掩模来排除头部、手部和脚部等非穿衣区域中的误差。我们在表3中报告了这两种方法的误差。我们的模型表现比SMPLify好18%,因为它能够捕捉衣服的形状。关于图像拟合实验的目标函数、实验设置和定性结果的表3:以米为单位测量的图像拟合结果的顶点MSE和使用固定服装偏移的蒙皮方法[9]第十九话生成的示例的用户研究 为了测试每顶点MSE 0.0223 0.01896476图5:从我们的CAPE模型中采样和生成的服装应用于四个看不见的身体形状(绿色),具有不同的姿势。每个绿色的身体后面都有五个蓝色的例子(通过对潜在向量z进行采样生成),显示了同一服装类型的不同版本这四个组别分别穿着“longshort”、“longlong”、“shortlong”及“shortshort”的服装最佳观看放大屏幕上。31.0毫米0.0 mm(一)(b)第(1)款(c)第(1)款图6:依赖于姿势的服装形状。(a)和(b):从CAPE生成的两个服装形状,具有不同的姿势参数。(c):在规范姿势中,(a)和(b)中的偏移服装层的在补充材料中提供。此外,一旦从图像中重建了一个穿着衣服的人,我们的模型就可以让它静止和动画化,以及通过重新采样z或服装类型c来改变主体这显示了几种应用的潜力。我们在补充视频中展示了一些例子。7. 结论、局限性、未来工作我们引入了一种新的基于图CNN的生成形状模型,使我们能够在3D网格中调节、采样和保留精细的形状细节。我们使用它来从3D人体网格中建模服装变形,并根据身体姿势和服装类型调整潜在空间。训练数据表示针对不同服装和姿势的来自SMPL身体模型的3D位移。这种设计意味着我们的生成模型与SMPL兼容,因为服装是应用于SMPL模板网格的附加附加项。这使得有可能采样衣服,用它给SMPL穿上衣服,然后用姿势依赖的衣服褶皱模拟身体。一在计算机视觉中,SMPL具有广泛的适用性如图所示,我们可以将其应用于将身体拟合到穿着衣服的人的图像。另一个应用将使用该模型来生成3D穿着衣服的人的训练数据,以训练基于回归的姿势估计方法。我们的方法有一些局限性,指向未来的工作。首先,CAPE继承了服装的偏移表示的限制:(1)衣服,如裙子和开放的夹克不同于身体拓扑结构,不能用偏移来表示。因此,在将CAPE拟合到包含此类服装的图像时,它可能无法解释图像证据;参见补充材料中关于裙部示例的讨论。(2)手套和鞋子:从技术上讲,它们可以通过偏移来建模,但是它们的几何形状与手指和脚趾完全不同,使得这不切实际。多层模型可以潜在地克服这些限制。第二,CAPE可以实现的几何细节的水平是由SMPL的网格分辨率的要生成更精细的褶皱,可以采用更高分辨率的网格或凹凸贴图。第三,虽然我们生成的服装依赖于姿势,但它不依赖于动力学。对于大多数慢动作,这不会引起严重的问题,但不会推广到更快的动作。未来的工作将解决建模服装变形的时间序列和动力学。鸣谢:我们感谢Daniel Scharstein对手稿的修改,Joachim Tesch对Blender渲染的帮助,Vassilis Choutas对图像拟合实验的帮助,以及Pavel Karasik对AMT评估的帮助。我们感谢Tsvetelina Alexiadis和An- drea Keller收集数据。我们感谢Partha Ghosh、Timo Bolkart和Yan Zhang进行了有益的讨论。Q. Ma和S. Tang确认由DeutscheForschungsgemeinschaft(DFG,德国研究基金会)- 276693517 SFB1233提供资金。G. Pons-Moll由Emmy Noether Programme资助,Deutsche Forschungsgemeinschaft -409792180。披露:MJB已经收到了来自英特尔,英伟达,Adobe,Facebook和亚马逊的研究礼物基金。虽然MJB是亚马逊的兼职员工,但他的研究完全是在MPI进行的,并且完全由MPI资助6477引用[1] Thiemo Alldieck , Marcus Magnor , Bharat Lal Bhatnagar ,Christian Theobalt,and Gerard Pons-Moll.学习从单个RGB相机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议(CVPR),2019年。二、三、四[2] Thiemo Alldieck , Marcus Magnor , Weipeng Xu , ChristianTheobalt,and Gerard Pons-Moll.从单目视频的详细的人类化身。2018年国际3D视觉会议(3DV)。2[3] Thiemo Alldieck , Marcus Magnor , Weipeng Xu , ChristianTheobalt,and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议(CVPR),2018。2[4] Thiemo Alldieck,Gerard Pons-Moll,Christian Theobalt ,andMarcus Magnor.Tex2Shape:从单个图像中获得详细的完整人体几何形状。在IEEE国际计算机视觉会议(ICCV),2019年。二、三[5] RızaAlpGuüler、NataliaN ev er ov a和IasonasKokkinos。密集姿势:在野外的密集人体姿势估计。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。1[6] Dragomir Anguelov 、 Praveen Srinivasan 、 Daphne Koller 、Sebastian Thrun、Jim Rodgers和James Davis。SCAPE:人的形状完成和动画。在ACM Transactions on Graphics(TOG),第24卷,第408-416页中。ACM,2005年。第1、3条[7] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and GangHua. CVAE-GAN:通过非对称训练生成细粒度图像IEEE国际计算机视觉会议(ICCV),2017。2[8] Bharat Lal Bhatnagar,Garvita Tiwari,Christian Theobalt,andGerard Pons-Moll.多服装网:学习从图像中为3D人穿衣。在IEEE国际计算机视觉会议(ICCV),2019年。二、三、四[9] Federica Bogo 、 Angjoo Kanazawa 、 Christoph Lassner 、PeterGehler、Javier Romero和Michael J.黑色.保持它SMPL:从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议(ECCV)施普林格,2016年。二、七[10] Joan Bruna,Wojciech Zaremba,Arthur Szlam,and Yann Lecun.图上的谱网络和局部连通网络。2014年国际学习表征会议(ICLR)。3[11] Micha e¨ lDe f ferrard ,X a vierBresson ,andPierreVande r gh eynst. 具有快速局部谱滤波的图上卷积神经网络。在神经信息处理系统的进展,第3844-3852页二、三[12] ValentinGabeur , Jean-Se' bastienFranco , Xa vierMAR TIN ,CordeliaSchmid,and Gregory Rogez.塑造人类:基于单幅图像的非参数三维人体形状估计。在IEEE国际计算机视觉会议(ICCV),2019年。二、三[13] 迈克尔·加兰和保罗·S·赫克伯特。使用二次误差度量的曲面简化。第24届计算机图形和交互技术年会论文集,第209ACM出版社/Addison-Wesley出版公司1997. 3[14] P. Ghosh,M. S. M. Sajjadi、A. Vergari,M. J. Black和B. Schoülk opf. 从可变到确定性自动编码器。国际学习表征会议(ICLR),2020年。7[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统的进展,第2672-2680页,2014年。二、四[16] Peng Guan , Loretta Reiss , David A Hirshberg , AlexanderWeiss , and Michael J Black.Dressing Any PErson ACMTransactions on Graphics( TOG ), 31(4 ): 35-1 ,2012.二、三、四[17] Peng Guan,Alexander Weiss,Alexandru O Balan,and MichaelJ Black. 从单个图像估计人体形状和姿势IEEEInternationalConference on Computer Vision(ICCV),2009年。2[18] Erhan Gundogdu 、 Victor Constantin 、 Amrollah Seifoddini 、Minh Dang、Mathieu Salzmann和Pascal Fua。GarNet:一个用于快速准确的3D布料悬垂的双流网络。在IEEE国际计算机视觉会议(ICCV),2019年。3[19] 保罗·亨德森和维托里奥·法拉利。通过形状、姿态和阴影的生成建模来学习单图像3D重建国际计算机视觉杂志(IJCV),2019年。7[20] Davi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功