DeePSD：一种用于3D服装动画的自动深度蒙皮和姿势空间变形的方法

83 浏览量更新于2023-10-15 收藏 20.03MB PDF 举报

深度学习

物理模拟

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

54710DeePSD：用于3D服装动画的自动深度蒙皮和姿势空间变形0Hugo Bertiche 1 , 2 , Meysam Madadi 1 , 2 , Emilio Tylson 1 和 Sergio Escalera 1 , 201 西班牙巴塞罗那大学和2 计算机视觉中心0hugo bertiche@hotmail.com0摘要0我们通过深度学习提出了一种解决服装动画问题的新方法。我们的贡献使得可以对任意拓扑和几何复杂度的模板服装进行动画化。最近的研究通过利用支持身体模型（将服装编码为身体同伦）同时开发了服装编辑、调整大小和动画模型，这导致了复杂的工程解决方案，存在可扩展性、适用性和兼容性的问题。通过将我们的范围限制在仅仅服装动画上，我们能够提出一个简单的模型，可以对任意拓扑、顶点顺序或连接性的服装进行动画化。我们提出的架构将服装映射到标准的3D动画格式（混合权重和混合形状矩阵），自动与任何图形引擎兼容。我们还提出了一种方法，将监督学习与无监督的基于物理的学习相结合，隐式解决碰撞问题并提高布料质量。01. 引言0由于其在娱乐和视频游戏行业以及虚拟和增强现实中的众多应用，虚拟着装人物动画一直是一个研究热点。根据应用程序的不同，我们可以找到两种主要的经典计算机图形学方法。一方面，基于物理的模拟（PBS）[6, 17, 23, 24, 29, 30,33]方法能够以巨大的计算成本获得高度逼真的布料动力学。另一方面，线性混合蒙皮（LBS）[12, 13, 15, 20, 31,32]和姿势空间变形（PSD）[3, 4, 16,18]模型适用于计算资源有限或实时性能要求较高的环境。然而，这种方法在逼真度和计算性能之间存在权衡。0图1：我们提出了一种新颖的服装动画方法。我们的方法可以推广到未见过的服装。它可以处理多层布料、任意拓扑和复杂的几何细节，无需重新训练。0深度学习已经在复杂的3D任务中取得了成功[5, 10, 19, 21,25, 26,28]。由于对该主题的兴趣以及最近可用的3D服装数据集，我们看到科学界正在推动这一研究方向[1, 2, 7, 8, 9, 14, 22,27]。大多数提议都是通过深度学习学习的非线性PSD模型。这些方法得到的模型只描述一种或少数几种服装类型，因此缺乏泛化能力。为了克服这个问题，最近的研究提出将服装类型编码为身体顶点的子集[7,22]。这样可以推广到更多的服装，但其表示能力仅限于身体同伦。因此，这些方法需要单独建模每种服装，无法处理口袋等细节和多层布料，严重影响其在现实场景中的可扩展性和适用性。我们提出学习从模板服装空间到动画化的3D模型空间的映射。我们将展示如何实现对完全未见过的具有任意拓扑和顶点连接性的服装的泛化。我们可以通过将编辑/调整大小和动画视为独立的任务，并专注于后者来实现这一点。我们的方法适用于整个服装（而不仅仅是单个服装）、多层布料和不同分辨率，同时还允许复杂的几何细节（见图1）。54720我们通过一个简单且小型的神经网络实现了这一目标。我们的贡献列表如下：0•服装泛化。据我们所知，我们的方法是唯一能够在没有额外训练的情况下为完全未见过的服装进行动画化的工作。这在虚拟试衣和视频游戏等场景中具有极高的适用性，其中定制化是关键。0•兼容性。我们的方法不预测服装顶点位置，而是混合权重和混合形状矩阵。这是3D动画的标准方法，因此与所有图形引擎兼容。此外，它从动画流水线的详尽优化中受益。姿态空间变形是混合形状的一种特殊情况，它与物体姿态一致地组合。0•物理一致性。相关工作需要进行最终的碰撞解决后处理步骤。或者，使用碰撞解决损失进行训练的工作需要在物理约束和顶点误差之间找到一个折中。因此，预测仍然会出现碰撞。我们提出训练一个独立的模型分支，使物理一致性损失和监督损失不相互干扰。这样可以在尽可能利用数据的同时产生几乎无碰撞和服装一致的预测。0•解释性。将服装映射到动画的3D模型中可以为CGI艺术家提供更直观的工作流程。最近的研究尝试通过将样式编码为参数化表示来解决服装调整/编辑和动画的问题[7,22]。因此，需要专业知识通过调整样式参数来获得所需的结果。02. 最新技术0计算机图形学。通过PBS（基于物理的模拟）可以获得逼真的布料行为，通常通过众所周知的质量-弹簧模型实现。关于这个主题的文献非常丰富，重点是通过简化和/或专门针对特定设置[6, 23, 24,30]进行模拟以提高模拟的效率和稳定性，或者提出新的基于能量的算法以增强鲁棒性、逼真性和对其他软体的泛化能力[17]。其他作品提出利用现代GPU的并行计算能力[29,33]。这些方法以高逼真度为代价，计算成本很高。因此，当需要实时性能或计算能力有限（例如在便携设备中）时，PBS不是一个合适的解决方案。另一方面，对于优先考虑性能的应用，LBS（线性混合蒙皮）是计算机图形学中用于3D模型动画的标准方法。每个顶点0将要动画化的对象的纹理通过一组混合权重附加到骨架上。在服装领域，服装附着在驱动身体运动的骨架上。这种方法也被广泛研究[12, 13, 15, 20, 31,32]。虽然可以实现实时性能，但布料动力学是高度非线性的，这导致应用于服装时逼真度显著降低。0基于学习的。由于经典LBS方法存在缺陷，出现了PSD（姿态空间变形）模型[16]。为了避免由于蒙皮而产生的伪影，对静止姿势下的网格应用修正变形。此外，PSD处理3D物体的姿态相关高频细节。虽然手工制作PSD是可能的，但在实践中，它是从数据中学习的。我们发现这种技术在身体模型[3, 4,18]中的应用，其中通过对注册身体扫描的线性分解计算变形基。同样，在服装领域，Guan等人[9]将相同的技术应用于通过模拟获得的少量模板服装数据。L¨ahner等人[14]还提出了线性学习的服装PSD，但是通过RNN处理的时间特征进行了条件化，以实现非线性映射。之后，Santesteban等人[27]提出了通过MLP对单个模板服装进行PSD的显式非线性映射。这些方法的主要缺点是必须为每个模板服装学习PSD，这反过来又需要进行新的模拟以获得相应的数据。为了解决这个问题，许多研究人员提出了人体模型（SMPL[18]）的扩展，将服装编码为额外的位移和拓扑作为顶点的子集[1, 2, 7, 8, 22]。Alldieck等人[1,2]提出了一个单一的身体和服装模型，首先作为顶点位移，然后作为纹理位移图，从单个RGB图像推断出3D形状。同样，Bhatnagar等人[8]还学习了一个用于编码服装的身体变形空间，以及一个额外的分割来分离身体和服装，也可以从RGB推断出3D服装。Jiang等人[11]提出了从图像中检索3D服装并预测相应的SMPL骨架混合权重的方法，使用最近的皮肤顶点的权重作为标签。Patel等人[22]将几种不同的服装类型编码为身体顶点的子集，并提出了一种策略来明确处理不同身体形状和服装风格的高频姿态相关布料细节。Bertiche等人[7]通过掩蔽身体顶点在其上方编码了成千上万件服装。他们为服装类型学习了一个连续的空间，然后在此基础上，与姿势一起，对顶点变形进行了条件化。使用身体模型来表示服装可以处理多种类型的服装。尽管如此，它仍然局限于单一服装，因为它无法处理多层布料。出于同样的原因，它们无法处理复杂的服装细节。这减少了它们的应用范围。Vθ = W(T +M�if(θ)iDi, J, θ, W)(1)M : {T, F} → {W, DP SD},(2)54730在真实场景中具有广泛的适用性。我们提出的方法允许使用任意拓扑结构、层数和复杂细节。此外，输出格式高效且易于集成到图形引擎中，增加了兼容性和适用性。03. 预测动画化的3D模型0计算机图形学中，3D动画模型是通过蒙皮和/或混合形状构建的。在前者中，给定一个具有 N个顶点的3D网格，表示为 T ∈ R N × 3 ，以及一个具有 K个关节的骨骼，表示为 J ∈ R K × 3，每个网格顶点都与每个关节相关联，使用混合权重矩阵 W ∈ R N × K 。然后，通过对骨骼 J进行线性变换（旋转、缩放和平移）来实现3D网格的动画化。顶点变换矩阵是关节变换的加权平均值，由混合权重描述。对于逼真的人体和服装动画，只对关节应用旋转，因此，姿势使用轴角表示为 θ ∈ R K × 3。在后者中，给定上述定义的 T ，混合形状矩阵 D ∈ R M× N × 3 编码了 T 的 M 种不同变形（形状）D i ∈ R N ×3 。通过线性组合混合形状来获得 T的最终变形以实现网格动画。形状关键帧的时间演变使网格动画化。更复杂的3D模型使用这两种技术的组合。首先，通过混合形状对 T 进行线性变形，然后根据混合权重对骨骼 J进行姿势变换。每当形状关键帧被定义为骨骼姿势的函数时，我们就有了由姿势关键帧驱动的姿势空间变形。更正式地说，在人体和服装动画领域：0其中 W ( ∙ ) 是将网格顶点姿势化的蒙皮函数，如 J 和 θ 所述，V θ 是姿势化的顶点，f ( ∙) 是将姿势 θ 映射到 M 个姿势关键帧的函数，D i 是混合形状矩阵 D中的形状。这些技术是3D动画的标准。所有当前的图形引擎都与这些方法兼容。一个例子是SMPL [18]（人体模型）。SMPL由一个模板网格（顶点 T ∈ R 6890 × 3），一个骨骼（ J ∈ R 24 × 3 ），一个混合权重矩阵（ W ∈ R 6890 × 24）和两个混合形状矩阵组成，一个用于表示不同的身体形状（ D shape ∈ R 10 × 6890× 3 ），另一个用于姿势空间变形（ D P SD ∈ R 207 × 6890 × 3）。身体形状由形状关键帧 β ∈ R 10 定义0并通过姿势关键帧作为扁平化的旋转矩阵（去除全局方向）来实现姿势空间变形 R ∈ R 207。由于其公式化，SMPL与当前的图形引擎兼容。在本文中，我们使用SMPL作为支持身体模型来为服装进行动画化。0在这项工作中，我们提出了一种新的服装动画方法。虽然最近的研究已经利用了与身体骨骼相关的蒙皮混合权重来驱动服装运动，但作者通常依赖于复杂的姿势空间变形公式，这使得它们与图形引擎的兼容性受到限制，并且显著降低了它们在实际场景中的适用性。我们提出通过深度学习学习从模板服装（规范姿势）网格到其对应的混合权重和混合形状矩阵的映射。也就是说，学习一个神经网络 M ：0其中 T 是服装模板顶点，F 是网格面，W 和 D P SD是如上所定义的混合权重和混合形状矩阵。请注意，在部署时，模板服装只需通过网络处理一次，转换为标准的动画化3D模型格式。一旦获得混合权重和混合矩阵，该服装就可以像其他3D动画模型一样使用。这使得预测结果自动与所有图形引擎兼容，并且由于对这些模型进行了详尽的渲染管线优化，它是一种极其计算高效的表示。这进一步扩展了它在便携设备和低计算环境中的适用性。与直接使用神经网络预测顶点位置的其他相关工作相比，这具有优势（通常通过大型复杂模型实现）。这些方法需要进行重大的工程努力才能适应实际应用。此外，由于神经网络的内存占用和计算成本，这些解决方案在低计算设备上可能无法使用。最后，我们还展示了这种方法如何实现对未见过的模板服装的泛化，无需重新训练，从而大大提高了可扩展性。04. 方法论0给定不同动作序列中人体（SMPL）上的服装的PBS数据，我们将样本S定义为X = {T, F, θ, β, g}和Y ={VPBS}，其中T是模板服装顶点（规范姿势），F是服装网格面，θ是身体骨骼姿势，β是身体形状参数，g是身体性别，VPBS是模拟数据中的服装顶点位置。我们的目标是训练定义为Eq. 2的M，使得应用Eq.1后的W和DPSD产生VPBS（请注意，对于SMPL，骨骼是形状β和性别的函数）。04.1. PBS数据和物理一致性0从姿势空间到服装空间的映射是多值函数。不同的模拟器、初始条件、动作速度、时间步长和积分器等因素会为相同的身体姿势、形状和服装生成不同的有效服装顶点位置。在PBS数据上进行训练54740错误地假设这种映射是单值的。具有相似X但显著不同Y的样本会在训练过程中影响网络性能，并且很可能在受监督损失下收敛到平均顶点位置。此外，最终用户不知道“地面真实值”，因此无法感知模型的准确性，但用户可以评估预测的物理一致性（无碰撞和布料一致性）。因此，虽然借助PBS数据进行监督训练有助于训练网络，但最小化相对于“地面真实值”的欧氏误差并不能保证物理一致性，因此预测在现实生活中的适用性有限。最近的研究[22,27]提出了后处理方法来解决身体穿透问题。这在一定程度上削弱了使用深度学习的目的，并进一步影响了方法的兼容性和性能。我们提出将监督训练与无监督的基于物理的训练相结合，以减轻后处理的需求。物理一致性是正确的服装动画的关键部分。其他方法开发复杂的解决方案，以更好地过度拟合PBS数据并将训练皱纹转化为预测，但它们缺乏物理约束，对于实际应用的可用性是有害的。物理一致性不仅限于碰撞，还包括边缘扭曲和表面质量。与其将服装表示为身体顶点的子集，无法强制执行边缘约束，因为它们的模板是身体本身（在与身体对齐后，原始模板丢失）。我们的提议独立于编辑/调整地解决服装动画问题，因此可以利用原始模板服装在学习过程中强制执行边缘约束。04.2. 架构0所选择的架构需要能够：a）处理非结构化网格（没有固定的顶点顺序或连接性）；b）计算相对于姿势θ的非线性变形（因为布料行为高度非线性）。为此，我们定义以下组件：Φ：R N × 3 → R N × F，Ω：R N × F → R N × K，Ψ：RN × F → R P × N × 3和χ：R N × F → R P × N ×3。组件Φ从模板服装网格（F =512）中计算每个顶点的高级F维描述符，包含局部和全局信息；Ω从顶点描述符中计算每个顶点的混合权重；Ψ通过监督方式生成混合形状矩阵（注意，它等同于每个顶点的混合形状矩阵，因为d ∈ R P ×3）；χ通过无监督方式生成混合形状矩阵，以确保物理一致性。请注意，我们为混合形状矩阵定义了P个姿势关键帧，而不是姿势θ的维度。我们将θ通过MLP传递，以获得姿势的高级嵌入Θ ∈ R P。0图2：模型概述。模型的输入是一个模板外衣网格（没有固定的拓扑结构、顶点顺序或连接性）。我们应用图卷积来获取顶点的局部描述符。然后，通过全连接层处理局部描述符，并通过每个外衣的最大池化进行聚合。这产生一个全局外衣描述符，它与每个顶点的局部描述符连接在一起。最终的顶点描述符通过不同的MLP进行处理，以获得混合权重 W和混合形状矩阵 D data 和 Dphys。混合形状矩阵被合并成 DPSD，根据公式1使用它来获得最终的预测结果。通过将 θ通过一个具有4层的MLP（未显示）进行处理，可以获得混合形状矩阵的姿势关键帧。0这样做的动机是：a) 控制维度P，从而控制混合形状矩阵的大小和容量；b)允许从姿势空间到顶点空间的非线性建模。图2显示了模型的概述。为了学习Φ，我们使用4层图卷积应用于模板网格。这将产生一个局部描述符，没有全局信息。受到PointNet[25]的启发，我们通过额外的全连接层处理每个局部描述符，并通过最大池化（每个外衣）聚合所有顶点描述符。我们将这个全局描述符与每个顶点的局部描述符连接起来。然后，Ω、Ψ和χ都被定义为MLP，每个MLP有4个全连接层，应用于顶点描述符（顶点是独立的样本）。所选择的架构允许处理具有任意顶点数量、顺序和连接性的非结构化网格。这是与依赖于身体模型进行服装表示的方法[7,22]相比的一个重要优势，因为它不需要为每个样本进行昂贵的注册，从而引入数据误差。然后，Ψ和χ都计算混合形状矩阵：D data 用于最小化监督损失，D phys用于物理一致性。尽管是独立的分支，但在部署时，这两个矩阵被合并成最终的PSD矩阵 D PSD = D data + Dphys，从而保持与图形引擎的兼容性。最后，用于获取高级姿势嵌入 Θ 的MLP由4个全连接层组成。输出为54750训练过程中模型的输入为 V θ,data（对于 D data）和 Vθ（对于 D PSD）。04.3. 训练0我们的模型结合了监督和无监督训练。模型的监督部分对应于Φ、Ω和Ψ。这个子模型的目标是最小化相对于PBS数据的欧氏距离误差。因此，在其训练中，我们对预测的顶点位置应用标准的L2损失：0L data = � ∥ V θ,data − V P BS ∥ 2, (3)0然后，模型的无监督部分仅对应于χ。我们定义无监督损失以满足基于物理约束的先验分布。首先，为了确保预测的一致性，受到质点弹簧模型（用于布料的最常用PBS模型）的启发，我们定义了一个布料损失项：0L cloth = L E + λ B L B =0e ∈ E ∥ e - e T ∥ 2 + λ B ∆( n) 2, (4)0其中，L E 是边缘项，L B 是弯曲项。E是给定外衣网格的边集，e 是预测的边长，e T 是模板外衣T 上的边长。∆( ∙ ) 是应用于预测外衣的顶点法线 n的拉普拉斯-贝尔特拉米算子，λ B 平衡两个损失。L E强制输出网格具有与输入模板外衣相同的边长，而 L B有助于产生局部平滑的表面，因为它惩罚相邻顶点法线的差异。为了避免过度展平，我们选择 λ B =0.0005。然后，为了处理与身体的碰撞，我们定义了一个损失函数：0Lcollision = 0(i,j)∈A min(dj,i ∙ nj − ϵ, 0)2, (5)0其中A是预测服装和身体之间的对应关系(i,j)的集合，dj,i是从身体的第j个顶点到服装的第i个顶点的向量，nj是身体的第j个顶点法线，ϵ是一个小的正阈值，用于增加鲁棒性。该损失是一个简化的公式，假设服装靠近皮肤，并惩罚放置在皮肤内部的服装顶点。在我们的实验中，我们选择ϵ =5毫米。因此，无监督损失定义为：0Lphys = Lcloth + λcollisionLcollision (6)0其中λcollision是碰撞项的平衡权重（在我们的实验中约为2-10）。请注意，Lcloth和Lcollision两个术语都是先验（仅基于X，而不是Y）定义的。我们还定义了一个额外的损失项，即对由于χ而产生的变形的L2正则化，其平衡权重λ =1e−2。这使得χ使用尽可能小的变形。0尽可能小以解决物理约束。虽然整个模型是可微分的，可以端到端训练，但我们只通过χ反向传播Lphys。这样做的动机是：0•独立任务。我们经验性地观察到，有监督和无监督术语会相互抵消，从而损害一个或两个任务。因此，通过独立训练模型的不同部分，我们不需要在低欧几里德误差和物理一致性之间找到平衡。这使得有监督子模型可以通过利用PBS数据学习主要的变形，而无监督分支可以在不互相干扰的情况下强制执行物理一致性。0•无监督训练。由于Lphys不依赖于Y，可以用X中的任何其他样本姿势替换θ来训练χ，从而增加了可用于训练的数据量，增强了物理一致性的泛化能力。实际上，在有监督训练收敛之前，训练χ是没有帮助的。05. 实验0从公开的服装数据集中，只有CLOTH3D [7]包含足够的服装变异性来实现这种方法并实现适当的泛化。它包含约7.5k个序列，每个序列都有一个不同的静止姿势下的模板服装，加上多达300帧。这些服装是在一个动画3D人体（SMPL）上模拟的，每个人体具有不同的身体形状。同样，我们在公式1中使用SMPL骨骼，因此它驱动着服装的运动，并在公式5中使用其身体网格。对于消融研究，我们以分层方式从CLOTH3D中抽取了5万个训练帧和5千个测试帧，使得两个集合之间没有重叠的服装序列。每个模型训练10个时期。我们还在补充材料中提供了概念验证的计算机视觉应用以及性能分析。05.1. 消融研究0首先，我们通过使用每个外部拟合的平均顶点欧几里德误差来评估模型的有监督部分（Φ、Ω和Ψ）。在表1中，我们展示了结果以证明网络设计的合理性。首先，我们提出了一个基准模型。在这个基准模型中，不计算全局描述符，Ψ通过将姿势连接到顶点描述符来预测顶点变形，而不是混合形状矩阵。接下来的模型是基准模型（预测变形）的修改版。第二行显示了使用全局描述符获得的结果。它提高了预测的准确性。第三行对应于描述符维度较低（F =128）的模型，我们观察到误差略微增加。在下一个实验中，我们将Ω和Ψ实现为图卷积，而不是全连接。54760图3：通过强制物理一致性获得的定性结果。对于每个样本，我们按照从左到右的顺序显示了表3中每个实验的结果。0欧几里德误差（毫米）0基线 29.98 +全局 28.04 +全局Lite 28.59+全局+GCN 28.76 +带MLP的全局 28.43DeePSD 25.13 -不带姿势嵌入 30.930表1：架构消融研究。首先，作为基线，我们训练Ω和Ψ来预测顶点变形而不是混合形状矩阵。后续行是带有全局描述符的基线扩展（变形预测）。DeePSD行对应于图2中显示的架构。正如我们所看到的，预测混合形状矩阵是表现最好的方法。0欧几里德误差（毫米）0DeePSD 25.13 + SMPL形状/性别 25.15 +面料 24.76 + 紧身度 + 面料 24.66 + SMPL +紧身度 + 面料 25.010表2：根据CLOTH3D[7]中的元数据对每个样本进行条件评估。我们将元数据连接到每个顶点描述符：SMPL形状和性别，每件服装的面料和每个服装的紧身度。如表所示，身体元数据阻碍了性能，而服装元数据增强了性能。0层。这会以更高的计算成本为代价恶化结果，因此我们放弃在Φ之后使用图卷积。请注意，这种行为是预期的，因为全局描述符通过顶点进行广播，因此卷积执行冗余的信息传递，阻碍了学习。下一行对应于通过将Φ中的单个全连接层替换为MLP来获得全局描述符的模型。性能没有改善。DeePSD行对应于图2中显示的架构0错误边缘弯曲碰撞0无物理约束 24.66 1.27 0.031 11.59％物理约束 33.75 1.13 0.029 1.29％ +姿势34.45 1.12 0.029 1.02％0表3：无监督训练。我们使用平均边缘伸长/压缩和相邻顶点法线之间的弯曲角度来衡量布料质量。对于身体碰撞，我们显示放置在身体内的顶点的比例。0欧几里德误差（毫米）0T恤 25.77 上衣 17.33裤子 14.50 连衣裙 17.23裙子 41.15 连衣裙 35.940总计23.950表4：每个服装的最终定量结果。请注意，比其他服装类型更紧身的服装具有显着较低的误差。0在图2中显示。正如我们所看到的，相比于顶点变形，预测混合形状矩阵不仅增加了模型与图形引擎的兼容性，而且还提高了性能。最后一行对应于与DeePSD相同的架构，但是使用姿势θ作为姿势关键点，而不是高级姿势嵌入。我们可以看到预测结果不太准确，因此姿势嵌入Θ是有益的。我们考虑包括CLOTH3D中的其他元数据的影响。即，SMPL身体形状和性别，逐件服装面料标签和整体紧身度值。我们通过将这些元数据与每个顶点描述符连接起来来组合这些元数据。表2显示了定量结果。第一行对应于表1中的最佳模型。每个下一行都以使用的元数据命名。正如我们所观察到的，服装元数据减少了欧几里德误差，而身体元数据似乎有害。54770为了评估无监督模型，我们设计了适用于评估布料质量和物理约束的合适指标：0• 边缘长度。预测的服装边缘与原始服装边缘之间的长度差异，以毫米表示。0• 弯曲角度。相邻顶点法线对的余弦距离。0•碰撞。碰撞顶点的比例。边缘度量总结了布料的完整性。在现实生活和PBS中，布料需要压缩或拉伸以适应其环境，因此，零值的边缘错误可能是不可能的（甚至是不可取的）。尽管如此，异常高的值表明预测失真。同样，弯曲角度不能为零，否则我们将得到一个完全平坦的表面。同样，这个度量的高值显示了布料质量较差。最后，对于碰撞，零值的度量意味着物理上一致的预测。在实践中，训练数据包含姿势和形状的无效组合（具有自碰撞的身体），因此，碰撞顶点的0％是不可能的。表3显示了物理一致性消融研究的结果。首先，我们评估仅使用监督损失（表2中的最佳模型）获得的预测结果。第二行显示了在没有姿势增强的情况下训练得到的结果。第三行显示了在每个样本中使用随机选择的姿势进行训练后的结果。我们可以观察到，尽管欧几里德误差增加，与物理相关的度量指标得到了改善，特别是碰撞。该模型学会了预测与PBS数据的真实值相距较远的服装，但具有更高的物理一致性。正如第4.1节所解释的，物理一致性不能用一个或几个定量指标来概括。结果必须进行定性评估。图3显示了这些实验的定性比较。可以看到，没有物理约束的情况下，尽管预测的误差较低，但在定性上它们要差得多。此外，我们可以看到，使用随机选择的姿势进行无监督训练进一步改善了泛化能力。我们在表4中报告了最终经过全数据微调的监督结果。我们将误差分解为每个服装。请注意，T恤也包括敞开的衬衫。我们观察到裙子和连衣裙的性能较差。我们还发现T恤的误差较高，可能是由于敞开的衬衫。这是一种预期的行为，因为通过蒙皮对服装进行静态建模假设布料将遵循身体运动。宽松的服装显示出更复杂的动态特性，因此，静态方法将无法对这种服装进行建模。图1显示了定性结果。我们可以看到模型可以推广到未经重新训练的复杂服装。此外，虽然未明确处理布料之间的相互作用，但模型能够处理多层布料。它显示它也可以处理复杂的几何细节（胸部花朵）。正如所述，它保持了布料的一致性，因此在纹理上不会出现伪影。最后，由于无监督的混合权重学习，裙子是0欧几里得误差（毫米）0CLOTH3D [7] 29.0 DeePSD23.780表5：与CLOTH3D基准的比较。与CLOTH3D[7]一样，我们按服装报告误差。0图4：与CLOTH3D[7]基准的定性比较。上排：CLOTH3D。下排：DeePSD。0对于由于腿部运动引起的蒙皮伪影，我们的方法具有鲁棒性（详见补充材料中的混合权重的更多细节）。05.2. 与相关工作的比较0CLOTH3D。我们在表5中定量比较了DeePSD和CLOTH3D基准，在图4中定性比较了两者。可以看出，我们的方法优于CLOTH3D基准。一方面，CLOTH3D基准显示出噪声边界，甚至断裂的吊带。此外，我们观察到CLOTH3D重建的服装中存在身体几何形状，这是由于使用SMPL身体表示。另一方面，由于DeePSD使用原始模板，边界平滑且没有对身体几何形状的偏差。此外，尽管没有直接处理布料之间的碰撞，但DeePSD在这方面似乎更加鲁棒。TailorNet。与[22]的工作进行公正的定量比较是不可能的。一方面，TailorNet原始模拟不是公开的，只有针对SMPL身体的注册版本。这意味着：a）原始模板丢失，对于每个形状-风格对恢复它们是不可行的；b）他们的数据集具有固定的顶点顺序和连接性（SMPL身体）。由于我们的主要贡献是推广到非结构化网格，因此不能公平地使用具有固定顶点顺序的数据集来比较我们的方法与专门为这些数据设计的方法。另一方面，TailorNet是每种服装和性别约20个MLP的集合，这使得将其适应于CLOTH3D变得不可行，因为服装风格的变异性更高。因此，在图5中，我们进行了TailorNet（左）和DeePSD（右）的定性比较。为了公平起见，由于我们的方法不使用后处理，我们去除了TailorNet的后处理。54780图5：与TailorNet的比较。左图：TailorNet。右图：DeePSD。TailorNet在有效预测方面严重依赖后处理，并生成噪声表面。第三个样本（绿色T恤）显示了两个连续的帧，注意TailorNet无法保证时间一致性。0我们在TailorNet数据和CLOTH3D中收集了相似的服装和身体形状，并使用两个模型计算相同的序列。可以看出，TailorNet高度依赖其后处理，因为存在大量碰撞的顶点。对于绿色T恤，样本对应于连续的帧。TailorNet无法保持时间一致性。DeePSD不受此影响。与CLOTH3D基准类似，我们观察到由于使用SMPL来表示服装，TailorNet预测中存在身体几何形状（最左边的样本胸部）。TailorNet通过过度拟合每种服装类型和性别的MLP集合成功地生成了皱纹。正如作者所说：“我们的关键简化假设是两个不同人身上的两件服装会以相似的方式变形...”。然而，这也有缺点。一方面，正如我们所见，它严重损害了物理一致性，并且依赖于后处理。这增加了样本生成时间150-300毫秒。请注意，应用后处理会消除可微性。另一个缺点是其模型的复杂性。他们的MLP集合每个服装和性别需要约2GB的存储空间。所有这些都损害了其适用性、兼容性和性能（然后是可移植性）。相反，DeePSD是一个单一的小型模型（4.4MB），可以对任何服装进行动画化（不仅仅是个体服装作为身体同伦），无需重新训练。预测生成为高度计算效率的模型（混合权重和混合形状），与任何图形引擎兼容。我们获得了每个样本3-6毫秒的运行时间，批量样本约0.1毫秒（取决于顶点数）。此外，通过基于物理的无监督学习，我们减少了对后处理的需求，从而保持了可微性和前面提到的计算性能。06. 结论和未来工作0我们提出了一种新颖的服装动画方法。打破了以前试图预测的趋势0通过深度学习实现顶点变形，我们提出了从服装空间到动画3D模型空间的映射学习。我们展示了如何实现对未见过的服装的泛化，以及与图形引擎的兼容性。我们观察到最近的研究需要利用身体模型来表示服装，以实现编辑/调整和动画，导致模型过于复杂，存在可扩展性、兼容性和适用性问题。我们通过将服装动画视为一个独立的任务来解决这些问题。我们在预测中优先考虑物理一致性，减少了后处理的需求。总之，我们开发了一种高效的方法，适用于实际场景，甚至适用于便携设备，为计算机图形学艺术家提供了更直观的工作流程，无需深度学习的专业知识。我们观察到我们的方法存在一些局限性。首先，无法使用静态方法正确建模宽松的服装，如裙子和连衣裙。为此，我们将将我们的方法适应于在时间维度上工作作为未来的工作。为了保持其兼容性，姿势关键帧应该由一个时间神经网络计算，而训练则通过物理一致性进行动态学习（无论是从数据还是无监督学习）。我们还观察到，最近的研究在建模细微的几何细节（皱纹）方面变得越来越复杂。我们相信处理服装皱纹的最佳方法是通过法线贴图生成，因为：a）它允许使用较低的顶点数而不会损失细节，b）它与所有图形引擎直接兼容，c）它对碰撞更加稳健，因为图形引擎在基本几何体上计算面的可见性。当前在这个领域的研究似乎很有前景[14,34]。我们将其作为未来的工作。致谢。这项工作得到了西班牙项目PID2019-105093GB-I00（MINECO/FEDER,UE）和CERCA Programme/Generalitat deCatalunya的部分支持。这项工作得到了ICREA在ICREAAcademia计划和亚马逊研究奖项下的部分支持。54790参考文献0[1] Thiemo Alldieck, Marcus Magnor, Weipeng Xu, ChristianTheobalt, and Gerard Pons-Moll. 基于视频的3D人体模型重建.在IEEE计算机视觉和模式识别会议上，页码8387-8397，2018.0[2] Thiemo Alldieck, Gerard Pons-Moll, Christian Theobalt,and Marcus Magnor. Tex2shape:从单张图像中获取详细的全身几何形状.在IEEE国际计算机视觉会议上，页码2293-2303，2019.0[3] Brett Allen, Brian Curless, and Zoran Popovi´c.从范围扫描数据中进行关节身体变形. ACM Transactions onGraphics (TOG)，21(3):612-619，2002.0[4] Dragomir Anguelov, Praveen Srinivasan, Daphne Koller,Se- bastian Thrun, Jim Rodgers, and James Davis. Scape:人形状完整和动画. 在ACM SIGGRAPH2005论文集上，页码408-416，2005.0[5] Amir Arsalan Soltani, Haibin Huang, Jiajun Wu, Tejas DKulkarni, and Joshua B Tenenbaum.通过建模多视角深度图和轮廓合成3D形状的深度生成网络.在IEEE计算机视觉和模式识别会议上，页码1511-1519，2017.0[6] David Baraff and Andrew Witkin. 布料模拟的大步骤.在第25届计算机图形学和交互技术年会上，页码43-54，1998.0[7] Hugo Bertiche, Meysam Madadi, and Sergio Escalera.Cloth3d: 服装三维人体. 在欧洲计算机视觉会议上，页码344-359.Springer, 2020.0[8] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll. Multi-garment net:从图像中学习为3D人体着装.在IEEE国际计算机视觉会议上，页码5420-5430，2019.0[9] Peng Guan, Loretta Reiss, David A Hirshberg, AlexanderWeiss, 和 Michael J Black. Drape: 为任何人穿衣服.ACM图形学交易(TOG), 31(4):1-10, 2012年.0[10] Xiaoguang Han, Chang Gao, 和 Yizhou Yu.DeepSketch2Face:用于3D面部和卡通建模的基于深度学习的草图系统.ACM图形学交易(TOG), 36(4):1-12, 2017年.0[11] Boyi Jiang, Juyong Zhang, Yang Hong, Jinhao Luo, LigangLiu, 和 Hujun Bao. BCNet: 从单张图像学习人体和服装形状.arXiv预印本arXiv:2004.00214, 2020年.0[12] Ladislav Kavan, Steven Collins, Jiˇr´ı ˇZ´ara, 和 CarolO’Sullivan. 基于近似双四元数混合的几何蒙皮.ACM图形学交易(TOG), 27(4):1-23, 2008年.0[13] Ladislav Kavan 和 Jiˇr´ı ˇ Z´ara. 球形混合蒙皮:关节模型的实时变形. 在2005年交互式3D图形和游戏研讨会上,页码9-16, 2005年.0[14] Zorah Lahner, Daniel Cremers, 和 Tony Tung.DeepWrinkles: 准确而逼真的服装建模. 在Pro-0[8] Shunsuke Saito, Lingyu Wei, Liwen Hu, Koki Nagano, 和 Hao Li. Photorealisticfacial texture inference using deep neural networks. 在欧洲计算机视觉会议(ECCV)上,页码667-684, 2018年.0[15] Binh Huy Le 和 Zhigang Deng.具有刚性骨骼的平滑蒙皮分解. ACM图形学交易(TOG), 31(6):1-10,2012年.0[16] John P Lewis, Matt Cordner, 和 Nickson Fong.姿势空间变形: 形状插值和骨骼驱动变形的统一方法.在第27届计算机图形学与交互技术年会上, 页码165-172, 2000年.0[17] Tiantian Liu, So�en Bouaziz, 和 Ladislav Kavan.准牛顿方法用于超弹性材料的实时模拟. ACM图形学交易(TOG),36(3):1-16, 2017年.0[18] Ma

下载后可阅读完整内容，剩余1页未读，立即下载