生成3D虚拟人的多主题方法

199 浏览量更新于2023-10-25 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

20427gDNA：生成详细的神经化身陈旭1、3姜天健1宋杰1杨金龙3迈克尔.黑色3安德烈亚斯·盖格2，3奥特马尔·希利格斯11ETHZürich，计算机科学系2图宾根大学3马普智能系统研究所，图宾根https://xuchen-ethz.github.io/gdna图1. 生成详细的神经化身。我们提出了一种方法来生成1）一组不同的3D虚拟人2）不同的身份，性别和形状，出现在3）不同的服装风格和姿势，与4）现实和随机的细节，如衣服上的皱纹。我们的多主题方法从几个姿势扫描中学习形状，关节和服装细节，而不需要蒙皮重量监督。该方法能够合成不在训练集中的新身份，并推广到看不见的姿势。摘要为了使3D虚拟人能够广泛应用，我们必须能够生成具有各种身份和形状的任意姿态的3D虚拟人这项任务是挑战性的，由于服装的身体形状的多样性，他们的复杂的关节，以及由此产生的丰富，但随机的几何细节的服装。因此，表示3D人的当前方法不提供穿着衣服的人的完整生成模型。在本文中，我们提出了一种新的方法，学习生成详细的3D形状的人在各种服装与相应的皮肤宁权重。具体来说，我们设计了一个多主题的病房皮肤模块，是从只有几个构成，未操纵扫描每个主题。为了捕捉服装中高频细节的随机性质，我们利用对抗性损失公式，鼓励模型捕捉底层统计数据。我们提供的经验证据表明，这导致现实的生成局部细节，如皱纹。我们表明，我们的模型是能够generate自然的人类化身穿着不同的和详细的衣服。此外，我们证明了我们的方法可以用于将人体模型拟合到原始扫描的任务，表现出先前的最先进水平。1. 介绍轻松创建各种高质量虚拟人并完全控制其姿势的能力在电影制作，游戏，VR/AR，建筑和计算机视觉中有许多应用。虽然现代计算机图形技术实现了照片写实主义，但它们通常需要大量的专业知识和大量的人工努力。我们的目标是通过学习人的生成模型，使3D人类化身广泛可用。为了实现这一目标，我们提出了第一种方法，可以生成1）不同的3D虚拟人，2）各种身份和形状，出现在3）不同的服装风格和姿势，4）逼真和随机的高频细节，如衣服上的皱纹。3D刚性对象的生成建模最近已经看到了快速的进展，由连续和分辨率无关的神经3D表示推动[13，40，43，48，54]。然而，建模穿着的人和他们的关节是更加困难的，由于复杂的相互作用的服装，他们的拓扑结构和姿势驱动的变形。最近的工作利用神经隐式表面来学习单个受试者的高质量虚拟化身[12，15，52，58]，但这些方法不是生成性的，即它们不能合成大小新颖的人类身份和形状。服装的生成模型通过预测人体网格的位移（ CAPE [36] ）或通过悬垂来增强SMPL。20428在 T 姿势的身体上使用隐式服装表示（ SMPLicit[14]），并依靠SMPL学习的蒙皮进行休息。我们的经验表明，整体建模的身份，形状，关节和服装导致更高的保真度生成和动画的虚拟人和更高的精度，在拟合3D扫描。我们向完全生成的详细神经元模型迈出了一步，提出了gDNA，一种合成新颖人体形状的3D表面的方法，控制服装风格和姿势，并产生服装的真实高频细节。为了利用原始（姿势）3D扫描，我们构建了多主题隐式生成表示。我们建立在SNARF [12]的基础上，这是一种最近用于学习单受试者发音依赖效应的方法，已被证明可以很好地推广到不可见的姿势。SNARF [12]需要训练单个主体的许多姿势。相比之下，我们的多主体方法可以从许多不同主体的非常少的姿势扫描（1-3）中学习。这是通过增加一个潜在的空间，为有条件的生成的形状和蒙皮的重量穿的人。此外，学习的变形场使用相同的蒙皮场产生精确的变形，与身体大小无关。服装褶皱是由一个潜在的随机过程产生的。为了捕捉这些效果，我们提出了一种方法，通过对抗性损失来学习3D布料细节的底层统计数据。以前的基于网格的方法在UV空间中对此进行了公式化[28]，由于缺乏网格连接，这不直接适用于隐式曲面。为了学习高频细节，我们首先预测一个3D法向场，条件是粗略的形状特征。为了将对抗性损失反向传播到3D正常场，我们通过使用隐式表面渲染器增强向前蒙皮来我们表明，对抗训练导致3D几何细节的保真度显着提高，见图。9 .第九条。从构成的扫描训练，我们证明了第一种方法，可以生成大量的各种各样的三维穿着人的形状与详细的皱纹下姿势控制。生成的样本可以通过学习的蒙皮权重进行重置。我们通过感知研究定量、定性地评估gDNA; gDNA大大超过基线。此外，我们表明gDNA可用于3D扫描的拟合和重新动画，优于最先进的技术（SOTA）。总而言之，我们贡献：• 第一种方法，以产生大量的各种各样的动画三维人体形状的详细服装;• 从原始3D扫描中学习，而不需要规范形状、详细的表面配准或人工定义的蒙皮权重，• 一种基于恢复服装变形的基本统计数据，显著改善服装变形中的几何细节的技术。2. 相关工作2D和3D生成模型：用于合成自然图像的大多数现代方法利用生成对抗网络（GAN）[18]或变分自动编码器（VAE）[27]。这些方法已经实现了高水平的照片真实感[24然而，这种方法在2D中推理，因此不能保证3D一致性[11，29，34]，也不能从这种方法中直接提取3D几何形状。存在用于学习刚性3D形状的任务的几种方法早期的方法依赖于体素[61]或点云[3]表示。最近，有几种方法通过使用神经网络学习隐函数来表示对象形状[13，40，48]。这种表示也被提出用于3D形状的生成建模任务[10，13，16，40，42，43，48，54]。然而，这些方法通常不容易扩展到穿着非刚性衣服的人。本文研究了非刚体人体三维隐式生成式建模3D人体模型：参数化3D人体模型[7，23，33，46，64]可以通过变形模板网格从一组低维控制参数合成3D人体形状这个想法也被扩展到模型穿着人类[5，36]。然而，由于固定的网格拓扑结构和有限的分辨率的模板网格的几何表达是有限的。为了克服网格的拓扑和分辨率限制，其他表示，包括点云[35，37，65]，隐式曲面[12，47，52，55，58，60]和辐射[32，45，49，56，63]，已被探索。特别是，神经隐式表面表示已经成为一种强大的工具来建模3D（穿着）人体形状[6，15，17，20，21，30，41，50，51，62，66，67]，由于它们的拓扑结构，逻辑灵活性和解析独立性。最近的工作[12，52，58]使用隐式表面来学习单个主题的人类化身，穿着特定的服装。这些方法将衣服细节（例如皱纹）建模为身体姿势的确定性函数然而，由于滞后和复杂的材料特性，服装褶皱和皱纹是随机的，现有的方法难以捕捉这些影响。相比之下，我们提出了一个多主题的三维人体生成模型，提供单独的控制姿势，服装，并可以合成现实的几何细节。CAPE [36]和SMPLicit [14]仅是基于网格和隐式曲面重建的服装生成模型。这两种方法都是纯加法的，也就是说，它们将隐式服装覆盖在SMPL主体上[14]或预测SMPL+D模板网格的位移参数[36]。我们的实验表明，这会导致较低的保真度在生成的样本和较高的误差时，拟合20429OO潜在代码3D规范空间3D Posed Space二维法线贴图形状细节典型内隐模型多主题向前蒙皮隐式曲面绘制3D重建损失2D对抗性损失身体姿势和大小Camera Ray正则剥皮场图2. 方法概述。我们代表穿着人类使用粗糙的形状和详细的法线姿势和身体大小独立的规范空间。然后，可以通过多主体前向蒙皮模块将该规范表示变形为目标身体姿势和尺寸。通过3D重建损失将变形形状与原始姿势扫描进行比较，以学习规范形状和蒙皮。为了改善表面细节，我们使用隐式表面渲染器来增强前向蒙皮模块，以生成2D法线映射，并通过应用2D对抗损失公式来学习详细的3D法线场。到3D扫描。NPM [47]提供了多个主体的潜在空间，用于拟合RGB-D深度图或3D扫描。所有上述方法的一个共同问题是这些模型施加的特定训练数据要求：它们要么需要规范空间中的合成数据[14，47]，要么需要模板网格与姿势扫描的精确配准[36，47]。前者是罕见的，并遭受域差距，而后者是具有挑战性的实现。我们的方法克服了这个问题，只需要几个训练样本的每个主题在构成空间。我们表明，我们的方法可以学习复杂的形状和服装细节，甚至可以从这样有限的数据中模拟逼真的变形。服装细节的对抗性训练：对抗性损失公式已被用于通过优化2D表示（如UV法线图[28]或深度图像[59]）来学习详细的布料褶皱。值得注意的是，隐式曲面缺乏连通性的概念，因此，合并已被设计用于增强显式参数化网格的2D表示相比之下，我们提出了一个公式，利用2D对抗性损失计算与构成的图像优化的3D隐式表示在规范空间。最后，我们的重点是产生出现在不同服装风格和不同身份中的人体形状，而传统方法则专注于重建[59]或单一服装姿势依赖性皱纹增强[28]。3. 方法我们的目标是建立一个模型，生成不同的3D穿着人类与不同的身份和细粒度的几何细节在任意姿势。我们的模型是从一组稀疏的静态扫描中学习的，而不需要假设表面对应关系。我们的方法总结图。二、首先，我们制定了一个姿势和身体大小独立的规范表示的穿着人体形状（第3.1节）。第二，学习规范的形状和定义-通过从每个受试者的极少数姿势扫描中获得信息属性，我们通过形状，关节和服装的潜在空间将单受试者可微分向前蒙皮方法[12]扩展到多个受试者（第3.2节）。最后，为了学习丰富而随机的几何细节，我们通过2D对抗损失公式来学习详细的3D正常场。为了实现这一点，我们增加了一个隐式表面渲染器（第3.3节）的前向皮肤模块。第3.4节讨论了培训细节。3.1. 规范表示我们的方法是基于神经隐式表示，利用其拓扑灵活性和分辨率独立性。我们将服装的人体形态和几何服装细节结合起来进行建模。粗糙形状：我们将正则空间中的形状建模为τ=0。5神经占有函数的水平集：S（z形状）={x| O（x，zshape）= τ}，（1）其中是一个神经网络，它预测正则空间中任何3D点x的占用概率o。预测以形状代码zshape∈RLshape为条件：O：R3×RLshape→[0，1]×RLf（2）（x，zshape）›→（o，f）该占用网络还输出每个表面点的维度为Lf的特征向量f该特征携带粗略的形状信息，并用于预测精细细节。我们结合了一个基于CNN的3D特征生成器，一个局部条件MLP模型。图3所示的基于3D样式的生成器[25，42]首先通过自适应实例归一化[22]产生以z形状为通过特征体积的三线性采样以及将特征和3D坐标馈送到MLP中来获得最终占用。20430Σ和∈找到，s.t.LBS图3. 典型内隐模型给定潜在代码z形状和z细节，该模块预测正则空间中3D点的占用概率o和法线n。为了预测o，基于3D样式的生成器首先产生以z形状为条件的3D特征体积。通过特征体积的三线性采样以及将特征和3D坐标馈送到MLP中来获得3D点的最终占用。为了预测法线n，我们使用以特征f和潜在代码z细节为条件的MLP。详细的表面法线：学习具有准确和详细法线的多个主题和服装类型的占用字段是具有挑战性的，我们根据经验表明，幼稚的实现会导致表面上的伪影（参见图9）。类似于多边形网格的法线映射[8，28]，我们通过规范3D空间中的法线对表面细节进行建模。这样的曲面法线可以表示为图4. 多主题向前剥皮。该模块将正则占据和法向场变形为目标姿态θ和大小β通过建立从定态空间x′到标准空间x′的对应。首先，给定一个变形点x′，通过迭代求（9）的根，我们找到了它在调整大小的标准空间x中的对应。随后，我们使用翘曲场将大小中立的正则空间中的x映射到x空间布局我们遵循Chen等人。[12]定义了正则空间中的蒙皮场：W：R3→Rnb（4）x→w，其中，nb表示骨骼的数量，w={w1，. -是的-是的，w，n}被强制为sat。隐函数的梯度会引起不满，但这导致相当大的计算复杂性。在那里-国际新闻社wi≥0Biwi= 1 通过softmax激活函数-因此，我们使用MLP来预测表面法线，（58）。然而，由于隐式曲面没有连接的概念，我们提出了一个几何感知的方法来连接粗糙的几何和详细的正常领域。更具体地说，我们根据基础形状来调节表面法线预测，从而利用来自occupational网络的特征f。我们进一步在潜在的z细节RL细节上调节场，以使得能够生成相同粗略形状的可控细节：N：R3 ×RLdetail ×RLf →R3（3）（x，zdetail，f）›→n3.2. 多主题向前蒙皮我们还对变形属性进行了建模，并定义了与SMPL一致的身体大小（β）和姿势（θ）参数，从而能够使用现有数据集（例如AMASS [38]）进行动画。身体尺寸参数β是一个10维向量，身体姿势参数θ表示SMPL骨骼的关节角度单受试者蒙皮表示：为了在可控的身体姿势θ中动画化隐式人体形状，最近的工作[12，41，52，58]将基于网格的线性混合蒙皮算法推广到神经隐式表面。每个3D点的骨骼变形被建模为一组骨骼变换的加权平均值，每个点的权重由MLP预测一个关键的区别是，此蒙皮权重字段是在规范空间中定义的，还是在20431第如[12]所示，在规范空间中定义蒙皮权重字段是可取的，因为蒙皮权重是姿势独立的，因此更容易学习并能够泛化到分布外的姿势。多主题皮肤表示：我们将这种向前皮肤的想法扩展到多个主题。由于皮肤权重字段是在规范空间中定义的，因此该模型可以聚合多个训练实例上的信息。重要的是，这使我们能够从多个主体的一个或几个姿势中学习蒙皮，而不是需要同一主体的许多姿势。为了实现这一点，我们将源自身体尺寸变化β和穿着的人体形状z形状的影响解耦。我们在一个身体大小中立的空间，类似于典型的表面表示模型的蒙皮场。为了捕捉不同的穿着衣服的人体形状，我们将场调节为潜在形状代码z形状：W：R3×RL形→Rnb（5）（x，zshape）›→w然后，我们模型的身体大小的变化与一个额外的warping领域。给定β-size空间中的一个点x，warp-ing场通过预测它的正则对应x将它映射回平均大小（见图2）。4）：M：R3 ×RLβ →R3（6）（x，β）›→x20432Σ=›→OLOi=12在该公式中，β捕获与SMPL类似的体型变化，例如身高。因此，规范形状网络仅需要对SMPL之外的剩余形状变化（例如，由z形状控制的衣服和头发）进行建模。最终调整大小的规范曲面定义为：S（zshap e，β）={x|O（M（x，β），zshap e）=τ}（7）当给定物体姿态θ时，β-尺寸空间中的点x′通过x′=d（x，β，θ，z形）使用隐式渲染器增强前向蒙皮模块，以在姿势空间中的3D点的2D投影与规范空间中的对应3D点之间建立直接对应关系，从而实现端到端训练。使用蒙皮的隐式渲染给定2D姿势法线贴图中的像素p，其在变形的3D空间x'中的对应关系可以通过穿过p的光线与向前蒙皮表面之间的相交来确定：O′（x′，z形，β，θ）=τ，其中x′=rc+t·rd（14）其中rd和rc表示射线方向和原点，tnbi=1 Wi（M（x，β），zshape）·Bi（β，θ）·x，（8）是沿射线的标量距离。根据[44]，我们通过找到第一个变化来确定交点x其中Bi（β，θ）是骨变换矩阵ob。从SMPL的参数化骨架得到。隐式可微向前蒙皮：虽然我们的模型学习了规范表示，但它的监督是在构成空间中提供的。给定一个点x′在定态空间中，我们需要确定它在规范空间x中的对应关系，以将预测的占有率和法线与地面实况进行比较。我们首先找到x′的对应x′，正则空间，然后将x映射到正则空间x。在图4中提供了概述。虽然目标是确定x′x，我们只能直接访问由前向蒙皮方程定义的逆映射。（8）不可逆。在[12]之后，我们通过找到方程的根来确定对应性：d（x，β，θ，zshape）−x′=0，（9）使用Broyden随后，正则对应x∈由下式给出：x=M（x，β）（10）我们现在可以确定x′处的占有率为o′=O（x≠，zshape）和正规n′as使用正割法沿射线计算占用率我们还得到了p的正则对应点x通过向前蒙皮。求解每个像素的3D规范对应，产生2D法线映射I：Ip=N′（x′，zdetail，f，β，θ）（15）3.4. 培训我们通过一组摆置扫描及其相应的SMPL参数θ，β来训练我们的方法。我们遵循[48]的自动解码框架，并为每个训练样本分配一个形状代码zshape和一个细节代码zdetail。这些被初始化为零，并与网络权重一起优化。为了实现采样，我们在训练后将高斯分布拟合我们将训练分为两个阶段：首先训练粗糙的形状，皮肤和扭曲网络，然后训练正常网络。这两个阶段的培训是必不可少的。否则，在形状和蒙皮训练收敛之前，由于错误的对应关系，正常的监督将被反向传播到规范空间中的错误位置对于第一阶段，我们使用预测占用率′（x′，z形状，β，θ）和地面实况ogt之间的二进制交叉熵损失BCE。在[12]之后，我们添加辅助损失n′=（nbWi（x∈，z形状）·Ri）−TN（x∈f，z详细）（十一）Lbone和Ljoint用于指导早期迭代期间的学习：L骨=BCE（O（x骨，z形状），1）（16）其中Ri表示Bi的旋转分量。为了方便将来参考，我们定义占用率L关节=w（x关节，z形状）−w关节，目标2（十七）域O′和正规函数N′的关系为：O′：（x′，zshape，β，θ）<$→o′，f（12）N′：（x′，zdetail，f，β，θ）›→n′（13）3.3.隐式曲面绘制2043322几何服装细节是具有挑战性的学习，由于其中，xbone是标准骨骼上的随机采样点，xjoint是随机采样的标准关节，wjoint，target是为0的向量。相邻骨骼为5 ，其他地方为 0 （有关详细信息，请参见 Sup.Mat.）。为了确保扭曲场一致地改变身体大小，我们强制扭曲场将SMPL顶点v（β）扭曲到中性形状v（β0）中的相应位置：它们的随机性在2D图像生成任务中，GAN在学习高分辨率方面取得了令人印象深刻的结果Lwarp=<$M（v（β），β）−v（β0）<$2（十八）delity本地textures纹理.我们建议使用对抗性损失来学习更好的几何细节N。为了实现这一目标，我们最后，我们通过Lreg，shape= zshape2将潜在代码正则化为接近潜在空间的原点。204342L−S图5. 穿衣服的人类一代我们显示随机抽样的衣服，我们的方法产生的人体形状。顶部：生成的规范形状，具有详细的法线和蒙皮权重。底部：生成的形状静止（每个2个姿势）。这些图像被可视化为法线映射，以突出显示由我们的方法合成的详细几何形状。对于阴影结果，请参见其他图，例如图。1.一、随后训练正态预测网络。在这里，我们惩罚随机采样表面点的预测和GT法线n′gt之间的差异Lnorm=1−n′gtT·N′（x′，zdetail，f，β，θ）（19）此外，我们应用非饱和对抗损失[18]adv=log（1 + exp（D（I），具有R1梯度惩罚[39]在预测的2D法线映射I和实际法线上，从摆好姿势的扫描中绘制的地图。D是一个联合训练的机器人（见补充。Mat. 以取得详细数据）。我们进一步用Lreg，detail=zshape2正则化zdetail。3.5. 推理我们通过从估计的高斯分布中随机采样z形状和z细节来生成人类化身。然后，我们使用以下方法在调整大小的规范空间中提取网格：MISE [40]从隐式表示（z形状，β）和用法线场预测顶点法线最后，我们根据等式将网格摆成期望的姿态θ。（八）、4. 实验我们的主要目标是生成3D人体化身。由于我们是第一个解决这个问题的设置，我们比较我们的方法精心设计的烧蚀基线，使我们的方法的每个组成部分的分析。我们还评估了我们的模型的表现力，通过拟合它看不见的扫描，并比较SOTA三维人体形状建模方法的准确性。我们在下文中概述了评估方案，并请读者参阅Sup。Mat.有关详细信息数据集：3D扫描：我们在商业扫描上训练我们的模型[1，2]。SIZER：在[14]之后，我们使用SIZER数据集[57]来评估拟合。该数据集包含21种服装的3D扫描，包括衬衫，T恤，外套和裤子。衡量标准：FréchetInceptionDistance （FID ）：为了评估生成质量，我们计算训练扫描的2D法线映射与随机生成的3D形状之间的FID用户偏好：我们在44名受试者中进行了一项感知研究，并报告了参与者偏好特定方法的频率。表面距离：为了评估拟合精度，我们按照SMPLicit [14]测量预测表面和目标扫描之间的单向倒角距离。基线：NPM [47]：NPM从地面真实标准形状和顶点位移中学习人体形状和变形的潜在空间，这些形状和位移是从合成3D动画[31]和具有配准表面的真实扫描[36]中获得的。SMPLicit [14]：SMPLicit学习3D服装的生成模型，并将其覆盖在SMPL T姿势上。这个模型是用一系列3D合成服装训练的4.1. 生成样品规范样本的随机生成我们在图5（顶部）中显示虽然只使用姿势扫描进行训练，但我们的方法学习了具有表面细节的合理规范形状。解开的姿势和形状：生成的形状可以根据需要进行姿势调整，甚至可以调整到远远超出训练姿势分布的姿势（参见。图5底部和图1）。内插：内插的形状和细节代码，产生平滑过渡的形状和细节之间的两个非常不同的样本，如图所示。六、20435图6. 插值我们在最左边和最右边的样本之间插入姿势和形状代码以及细节代码。4.2. 消融研究我们现在取消我们的设计选择。结果总结见表1。1和图9 .第九条。规范空间建模：我们验证了在规范空间中对形状建模的必要性和皮肤权重的联合学习。为了实现这一目标，我们实现了一个基线，直接给定潜在代码和身体姿势作为输入来生成姿势形状。如图9所示（第一行），单个样本缺乏细节，因为基线必须限制-图7. 形状和细节的分解生成。我们生成具有相同粗略形状和不同细节代码的样本。请注意，虽然所有细节都与底层的粗略形状匹配，但它们彼此之间存在明显差异。真实的大的形状空间所造成的姿态变化。由于该方法不对关节进行推理，因此采样形状遭受无效姿势配置，导致高FID值，如表1所示。1（POSE ONet）。一代潜空间神经网络姿态空间NN对抗性学习：对抗性损失在提高生成样本的感知真实性方面起着重要作用，如从详细正态（w/o对抗性）到我们的FID改进所证明的。1.一、直接从占用场估计的法线受到表面上的伪影的影响（图10）。9（第二行））。没有对手的训练会导致过于平滑的几何形状（图9（第三行）），因为重建损失会导致偏差，使细节平均化。相比之下，我们的方法产生了真实的高频细节（图9（底部））。值得注意的是，在21.3%的情况下，用户认为我们生成的图8. 最近的训练样本。请注意，生成的形状的姿势和服装与最近的训练样本明显不同解开的形状和细节：我们的解开公式允许我们为相同的粗糙形状生成不同的服装细节。图7示出了具有相同的粗略形状z形状但不同的细节代码z细节的结果。虽然粗糙的形状保持不变，但gDNA会产生与底层粗糙形状相匹配的各种看似合理的皱纹。训练分布之外的外推：为了进一步说明泛化，我们在图中显示了具有与生成的样本最相似的姿势和潜在代码的训练样本8. 最近的邻居与我们这一代人明显不同，这表明我们的方法是通用的，并且能够以新颖的姿势生成新颖的形状。比真实的扫描更真实。4.3. 与SOTA模型拟合的比较虽然我们的主要目标是生成穿着衣服的人体形状，但我们的模型可以适合原始观察，就像现有的3D参数化人体或服装模型一样。我们考虑了两种最近的SOTA方法，即 NPMs [47] 和 SM-PLicit [14] 。我们遵循SMPLicit [14]并将我们的基线与SIZER数据集的扫描拟合。准确性：虽然不是为拟合而设计的，但我们的方法比以前的专用方法具有更好的准确性，如表1所示。二、我们的方法比NPM和SMPLicit更忠实地捕获人的身份和服装形状，并且我们的结果显示出更多的细节，例如皱纹（图10顶部）。由于模型直接从姿势扫描中训练，解开姿势和形状，它可以学习真实的服装细节并可以复制它们。20436方法FID ↓用户偏好↑Pose ONet 43.80 8.11%粗糙形状29.34 26.1%方法预扫描↓扫描到预扫描↓SMPLicit [14] N/A0.0240表1. 消融研究。我们报告FID和用户偏好。用户偏好得分表明我们的用户研究的参与者比我们更喜欢特定方法的频率。表2. 拟合比较。我们报告的目标扫描和三维形状之间的距离SOTA方法和我们的。“预扫描”度量不适用于SMPLicit中的多层曲面图9. 世代比较。我们展示了烧蚀基线的随机样本和我们的方法。如果没有对抗性损失，生成的形状看起来要么凹凸不平（粗糙形状），要么过于平滑（详细的正常w/o高级）。）.静止扫描：在拟合过程中，我们也恢复蒙皮权重。这使得能够如图10底部所示的形状静止。5. 结论我们提出了gDNA，这是一种3D衣服人类的生成模型，可以生成各种各样的衣服，具有详细的皱纹和明确的姿势控制。使用隐式多主体前向蒙皮使得能够仅从每个主体的几个姿势扫描中学习。为了对服装的随机细节进行建模，我们利用2D对抗损失来更新3D法向场。我们证明了gDNA可以用于各种应用，如动画和3D拟合，优于最先进的方法。图10. 适合和休息。我们将SIZER数据集上的模型拟合结果与SMPLicit [14]和NPM [47]进行比较。我们还显示了安装到目标姿态的形状由于NPM不允许指定目标姿势，因此显示随机姿势。局限性：由于拓扑学模糊性和大的姿势依赖性非线性布料变形，从变形观察中学习宽松的衣服（例如裙子）仍然具有挑战性。请参考Sup。Mat.更多关于限制和社会影响的讨论。鸣谢：徐晨得到了Max Planck ETH Center for LearningSystems 的支持。Andreas Geiger 得到DFG EXC 编号2064/1 -项目编号390727645的支持。我们感谢AlexZicong Fan，MarcelC.感谢 Buéhler 、 PriyankaPatel 、 QianliMa 、SaiKumarDwivedi、Thomas Langerak和Yuliang Xiu的反馈，感谢Garvita Tiwari对SIZER数据集的建议，感谢Tsvetelina Alexiadis对用户研究的帮助。披露：MJB已经收到了来自Adobe、英特尔、Nvidia、Meta/Facebook 和亚马逊的研究礼物基金。 MJB 在Amazon、Datagen Technologies和Meshcapade GmbH拥有财务权益。MJB目标我们SMPLicit预防机制详细正常（无对抗）粗糙形状我们POSEONet寄托详细正常（不含高级）42.1815.4%NPMs [47]0.01560.0215我们11.54–我们0.01340.0123地面实况扫描N/A78.7%拟合20437引用[1] https://3dpeople.com/网站。6[2] https://renderpeople.com/网站。6[3] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.学习3D点云的表示和生成模型。国际机器学习会议（ICML），2018年。2[4] Badour AlBahar ， Jingwan Lu ， Jimei Yang ， ZhixinShu ， Eli Shechtman ， and Jia-Bin Huang. Pose withStyle：使用条件StyleGAN进行细节保留姿势引导的图像合成。ACM Transactions on Graphics，2021。2[5] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在Proc. IEEE Conf.计算机视觉和模式识别（CVPR），2018年。2[6] Thiemo Alldieck ， Hongyi Xu ， Cristian Sminchisescu.immune：3D人体形状和关节姿势的隐式生成模型在proc IEEE International Conf. 计算机视觉（ICCV），2021年。2[7] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE ：人的形状完成和动画。 ACM Trans. onGraphics，2005. 2[8] 詹姆斯 ·F· 布林褶皱表面的模拟 ACM Trans. onGraphics，1978. 4[9] 查尔斯·G·布洛伊登解非线性方程组的一类方法数学计算，1965年。5[10] 陈旭，董子建，宋杰，安德烈亚斯·盖格和奥特马尔·希里格斯.通过神经综合分析的类别级对象姿态估计。欧洲计算机视觉会议（ECCV），2020年。2[11] Xu Chen，Jie Song，and Otmar Hilliges.不成对姿势引导的人体图像生成。在Proc. IEEE Conf.计算机视觉和模式识别（CVPR）工作室，2019年。2[12] Xu Chen ， Yufeng Zheng ， Michael J Black ， OtmarHilliges，and Andreas Geiger. SNARF：用于动画非刚性神经隐式形状的可区分向前蒙皮。在IEEE国际会议上。计算机视觉（ICCV），2021年。一、二、三、四、五[13] 陈志勤和张浩。学习生成式形状建模的隐式字段。在Proc. IEEE Conf. on Computer Vision and PatternRecognition（CVPR），2019。一、二[14] EnricCorona ， AlbertPumarola ， GuillemAlenya` ，GerardPons-Moll，andFrancescMoreno-Noguer.SMPLicit：面向穿着衣服的人的拓扑感知生成模型。在 Proc. IEEE Conf. on Computer Vision andPattern Recognition（CVPR），2021年。二三六七八[15] Boyang Deng ， JP Lewis ， Timothy Jeruzalski ， GerardPons- Moll，Geoffrey Hinton，Mohammad Norouzi，andAndrea Tagliasacchi.神经关节形状近似。欧洲计算机视觉会议（ECCV），2020年。一、二[16] Terrance DeVries ， Miguel Angel Bautista ， NitishSrivastava，Graham W Taylor，and Joshua M Susskind.无约束具有局部调节的辐射场的场景生成。IEEEInternationalConf. on Computer Vision（ICCV），2021。2[17] Zijian Dong，Chen Guo，Jie Song，Xu Chen，AndreasGeiger，and Otmar Hilliges.PINA：从单个RGB-D视频序列中学习个性化的隐式神经化身IEEE计算机视觉与模式识别会议（CVPR），2022年。2[18] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。神经信息处理系统（NeurIPS）的优势，2014年。二、六[19] Artur Grigorev，Karim Iskakov，Anastasia Ianina，RenatBashirov ， Ilya Zakharkin ， Alexander Vakhitov ， andVictor Lempitsky. StylePeople：一个生成全身人类化身的模型在 Proc. IEEE Conf. 计算机视觉和模式识别（CVPR），2021。2[20] Tong He ， John Collomosse ， Hailin Jin ， and StefanoSoatto. Geo-PIFu：用于单视图人体重建的几何和像素对齐隐式函数神经信息处理系统进展（NeurIPS），2020年。2[21] Tong He，Yuanlu Xu，Shunsuke Saito，Stefano Soatto，and Tony Tung. ARCH++：动画准备穿衣服的人类重建重访。在 Proc. IEEE Conf. 计算机视觉和模式识别（CVPR），2021。2[22] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。 IEEEInternational Conf. onComputer Vision（ICCV），2017年。3[23] Hanbyul Joo Tomas Simon 和 Yaser Sheikh Total Cap-ture：一个用于跟踪面部、手部和身体的3D变形模型在proc IEEE会议计算机视觉和模式识别（CVPR），2018。2[24] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。神经信息处理系统进展（NeurIPS），2021年。2[25] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在proc IEEE会议计算机视觉和模式识别（CVPR），2019年。二、三[26] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。在Proc. IEEE Conf.计算机视觉和模式识别（CVPR），2020。2[27] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在proc 国际会议。关于学习表征（ICLR），2014年。2[28] Z. Laühner，D. Cremers和T. 唐。DeepWrinkles：准确和逼真的服装建模.在欧洲计算机视觉会议（ECCV），2018。二、三、四[29] Christoph Lassner，Gerard Pons-Moll，and Peter V.一个为穿着衣服的人设计的生成模型。在IEEE国际会议上。计算机视觉（ICCV），2017年。220438[30] Ruilong Li ， Yuliang Xiu ， Shunsuke Saito ， ZengHuang，Kyle Olszewski，and Hao Li.单目实时体积性能捕获。欧洲计算机视觉会议（ECCV），2020年。2[31] Yang Li ， Hikari Takehara ， Takafumi Taketomi ， BoZheng，and Matthias Nießner. 4DComplete：超出可观察表面的非刚性运动估计。IEEEInternational Conf. onComputer Vision（ICCV），2021。6[32] Lingjie Liu ， Marc Habermann ， V

下载后可阅读完整内容，剩余1页未读，立即下载