AMASS：一个大型多样的人体运动数据库及其应用

74 浏览量更新于2023-10-12 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5442AMASS：运动捕捉作为表面处理的NimaGhorbani 2Nikolaus F. 4Michael J. 黑21Meshcapade2 MPI for Intelligent Systems3 York University4 MPI forInformaticsnmahmood@meshcapade.com，{nghorbani，black}@tue.mpg.detroje@yorku.ca，gpons@mpi-inf.mpg.de摘要大型数据集是使用深度学习的计算机视觉最新进展的基石。相比之下，前人类运动捕获（mocap）数据集较小并且运动有限，阻碍了人类运动学习模型的进展。虽然有许多不同的数据集可用，但它们每个都使用不同的身体参数化，因此很难将它们集成到单个Meta 数据集中。为了解决这个问题，我们引入了AMASS，这是一个大型且多样的人体运动数据库，它通过在一个共同的框架和参数化中表示它们来统一15个不同的基于光学标记的mocap数据集我们实现了这一目标，使用一种新的方法，MoSh++，转换mocap数据到现实的三维人体网格表示的操纵身体模型。在这里，我们使用SMPL [26]，它被广泛使用，并提供了一个标准的骨架表示以及一个完全操纵的表面网格。该方法适用于任意标记集，同时恢复软组织动力学和逼真的手部运动。我们评估MoSh++并使用与基于标记的mocap联合记录的4D身体扫描的新数据集调整其超参数。AMASS的一致表示使其易于用于动画、可视化和生成深度学习的训练数据。我们的数据集比以前的人类运动集合更丰富，具有超过40小时的运动数据，跨越 300 多个主题，超过 11000 个运动，并且可在https://amass.is.tue.mpg.de/上进行研究。1. 介绍本文件涉及两个相互关联的目标。首先，我们开发了一种方法来准确地恢复的形状和姿态的人在运动中的标准运动捕捉（mocap）标记数据。这实现了第二个目标，即创建最大的公开可用的人类运动数据库，该数据库可以使机器学习能够用于动画和计算机视觉中的应用。虽然有人试图图1：我们通过在一个通用框架和参数化中表示它们来统一基于归档标记的光学人体mocap数据集的大型语料库从左到右显示了AMASS中几个数据集的形状和姿态样本：CMU [9]、MPI-HDM 05 [30，31]、MPI-位姿限值[3]、KIT [27]、BMLrub [42]、TCD [21]和ACCAD[34]数据集。输入是稀疏标记，输出是SMPL身体模型。在这两个方向上，现有的MOCAP数据库在大小和复杂性方面都不足以利用现有深度学习工具的全部能力。有许多不同的mocap数据集可用，但由于使用了广泛变化的标记物集和实验室特定程序，将它们合并为一个连贯的公式具有挑战性[16]。我们通过在几个重要方面扩展MoSh [25]来实现这一点，使我们能够以一致的格式收集大量不同的人体运动数据集（图11）。①的人。MoSh采用从大量3D身体扫描中学习的身体生成模型，从稀疏的运动捕捉标记集计算完整的3D身体形状和姿势。结果是现实的，但该方法有几个重要的局限性，这使得它不适合我们的任务。首先，MoSh依赖于SCAPE身体模型的公式化[8]，这与5443图2：MoSh++通过将SMPL/DMPL身体模型的表面拟合到观察到的mocap标记（绿色）来捕获身体形状、姿势和软组织动态，同时还提供了可用于标准动画程序的装配骨架（紫色）。传统的mocap方法只估计骨架，将表面运动作为噪声过滤掉，并丢失身体形状信息。现有的身体表示和图形软件，使其成为分发数据集的糟糕选择。我们用SMPL身体模型[26]替换SCAPE，SMPL身体模型使用运动学树，具有关节，并且基于混合蒙皮。SMPL附带了一个UV贴图，它允许研究人员生成自己的纹理来渲染图像和视频序列。SMPL是现成的，广泛使用，并与大多数游戏引擎和图形包兼容其次，虽然MoSh捕捉到一些软组织运动，但这些运动是近似的，并通过随时间改变受试者的身份来表示;也就是说，它们不是真正的软组织变形。在这里，我们从DMPL中获取动态形状空间，DMPL使用从运动中的各种受试者的4D扫描中学习的形状空间为SMPL [26]建模这些软组织我们表明，我们可以恢复软组织运动逼真的稀疏的一组标记。由此产生的身体形状和运动看起来自然，我们表明，他们是度量准确。第三，MoSh不解决手的姿势和运动。在这里，我们添加了最新的MANO手部模型[37]，它与SMPL兼容，并在手部标记存在时求解身体和手部姿势。这提供了更丰富和更自然的动画。第四，为了微调和评估我们提出的方法，我们收集了一个新的数据集，SSM（同步扫描和标记），它由运动中的密集3D网格组成，用4D扫描仪捕获，以及传统的基于标记的mocap。我们将序列分为训练集和测试集，并训练MoSh++的超参数以最小化地面真实3D扫描和估计的3D人体网格之间的距离。然后，我们评估了MoSh++在测试集上的性能，证明了该方法的准确性，并允许与MoSh进行定量比较。MoSh++使我们能够实现创建大型人体运动数据库的关键目标。虽然有许多运动捕获数据集可在线用于研究目的[3，9，10，21，25，31，39，34，42，43]，即使是最大的，在规模和种类上也太有限，无法支持严肃的深度学习模型。此外，数据集的数据格式和身体的运动学结构各不相同，这使得研究人员很难将它们结合起来。已经有一些努力来创建数据超集[20，27，29]，但统一数据集的过程通常意味着标准化到固定的身体比例，这从根本上改变了数据。一个好的数据集应该以与标准身体模型一致的方式捕捉身体的关节结构，以便它可以很容易地适应新的问题。此外，应尽可能保留源标记数据的丰富性。它还应该能够产生高质量的动画，这些动画足够真实，可以训练计算机视觉算法;也就是说，数据集应该包括完整的3D人体网格。SMPL提供了独立于标记集的统一表示，但保持了原始标记数据的丰富性，包括3D身体形状。据我们所知，没有其他尝试，提供访问完整的身体形状和软组织从mocap数据，同时也提供-准确的身体和手的姿势。在这里，我们将15个前运动捕捉数据集组合成一个大数据集：Mocap表面形状档案（AMASS）。AMASS有40个小时的mocap，344个主题和11265个动作。源数据集都包含不同的标记集，大小从37到91个标记; AMASS将这些统一为一种格式。AMASS中的每个帧包括SMPL 3D形状参数（16个维度）、DMPL 3D形状参数（16个维度）、DMPL 3D形状参数（16个维度）和DMPL 3D形状参数（16个维度）。软组织系数（8维），以及完整的SMPL姿态参数（159维），包括手部关节。和身体全局翻译。用户只关心如果他们愿意，关于姿势的人可以忽略身体形状和软组织变形。类似地，SMPL形状空间使得如果用户想要将关节位置标准化为单个形状，则将所有身体标准化为相同形状是微不足道的。图1示出了数据集中的姿势和身体形状的选择，而图2示出了数据集中的姿势和身体形状的选择。2说明了MoSh++和传统mocap之间的区别。传统的数据集包含网格和/或标记，而AMASS数据集还提供完全操纵的3D网格。使用MoSh++可以轻松添加更多数据，我们将继续扩展数据集。我们在https://amass.is.tue.mpg.de/上向研究社区提供AMASS，并将支持社区添加新的捕获，只要它们可以类似地共享。总之，我们向社区提供了最大的统一mocap数据集（AMASS），从而实现了需要大量训练数据的新应用。2. 相关工作有大量的文献从MOCAP标记物以及几种商业的5444解决这个问题的方法。如Gorton et al. [16]，不同的解决方案使用不同的骨架模型和预先指定的标记集，这使得很难统一现有的基于标记的人类录音语料库。然而，所有将骨架有效地拟合到数据的方法都在过程中丢失了丰富的表面信息。我们重新查看最相关的工作：拟合表面模型的标记，捕捉手和软组织运动的标记，和以前的运动捕捉数据集。标记的曲面模型。为了从标记重建身体，大多数方法首先建立身体形状[5]或身体形状和姿势[6，8，26]的统计模型。Allen等人[5]使用74个标志重建身体形状。它们仅针对固定的身体姿势这样做，假设模型和标记之间的对应性是已知的。该方法不能处理任意的姿势，因为模型不能被摆姿势。Anguelov等人[8]通过学习形状和非刚性姿势变形的模型（SCAPE）进一步前进。他们的方法需要对每个对象进行密集的3D扫描。这限制了它的应用档案mocap。Loper等人[25]使用MoSh解决了其中一些限制，并取消了对单个3D密集扫描的要求。然而，MoSh使用BlendSCAPE身体模型公式[18]，这与标准图形包不兼容，使其不适合分发。此外，MoSh不捕获真实的软组织动力学，并且不捕获手。手有大量关于将手部模型拟合到RGB-D数据的工作[40，41]，但在这里，我们专注于从稀疏标记捕获手部运动的方法。梅-科克等人。[28]将最优分配方法与模型拟合相结合，但只能捕获与身体隔离的手，并且需要校准姿势。Schroder等人[38]提出了一种优化方法来找到一个减少的稀疏标记集，像我们一样，他们使用手部姿势的运动子空间。Alexanderson等人[4]使用稀疏标记捕捉手部运动（3-10）。它们每帧生成多个假设，然后使用维特比算法[13]将它们它们可以跟踪退出和重新进入场景的手，并且该方法实时运行。然而，需要为每个标记集训练新模型。Han等人。[17]解决了使用深度网络自动标记手部标记的问题。上述方法要么不同时估计手和身体，要么不提供3D手的形状。软组织运动mocap社区的大部分工作都集中在最大限度地减少皮肤变形对标记运动的影响[7，23]。在一些生物力学研究中，标记物甚至通过经皮针固定在骨骼上[22]。我们的工作在精神上非常不同。我们认为，这样的软组织和皮肤变形，使捕获的主题看起来活着。在[25]中，他们通过拟合静态身体形状空间的参数来捕获软组织，一组稀疏的标记这对应于通过改变人的身份来对软组织变形进行建模。相反，使用DMPL [26]的动态形状空间可以在模型复杂性增加最小的情况下产生更逼真的软组织运动。运动捕捉数据集。存在许多运动捕获数据集[3，9，10，21，25，31，30，39，34，42，43，45]，以及几次尝试将这些数据集聚合成更大的集合[20，27，29]。先前合并数据集的尝试[20，27]采用共同的身体表示，其中受试者之间的大小变化被归一化。这使得方法能够专注于根据关节位置对姿势和运动进行另一方面，这种方法丢弃了关于身体形状和运动如何相关的信息例如，Holden等人[20]将多个数据集重定向到一个公共骨架，以使用关节位置进行深度学习。该重定目标涉及从根本上改变原始数据的反向运动学优化我们的哲学不同。我们直接使用标记而不是骨架，恢复身体的完整3D表面这种方法不失一般性，因为可以从3D身体模型导出任何期望的骨架表示或生成任何期望的标记集此外，拥有身体模型可以在不同场景中纹理和渲染虚拟身体。这对许多任务都很有用，包括为计算机视觉任务生成合成训练[44]。3. 技术途径为了创建AMASS数据集，我们以几种重要的方式概括MoSh：1）我们用SMPL取代BlendSCAPE，使其使用民主化（第二节）。3.1）; 2）我们捕捉手和软组织运动（第3.1节）。3.2）; 3）我们使用新数据集SSM（第3.2节）的交叉验证来微调目标函数的权重。4）.3.1. 身体模型AMASS以SMPL人体模型参数的形式分布。SMPL使用具有N=6890个顶点的学习操纵模板T。SMPL的顶点位置根据依赖于身份的形状参数β、姿态参数θ和根在世界坐标系中的平移γ来适配。人体的骨骼结构是由关节连接的刚性骨段每个身体关节都有3个旋转自由度（DoF），使用指数坐标进行参数化。我们使用SMPL的一个变体，称为SMPL-H [37]，它使用总共n=52个关节将手部关节添加到模型中，其中22个关节用于身体，其余30个关节属于手部。为了简化符号，我们包括3D平移向量5445图3：MoSh与BlendSCAPE（蓝色）对比MoSh++与SMPL（橙色）;视觉上类似，但MoSh++更准确，SMPL提供了一个带有骨架的标准装配网格。γ在姿态向量中。姿态θ由3×52+ 3= 159个参数的姿态向量确定。SMPL-H模型的其余属性与SMPL相同。我们结合SMPL-H与DMPL，以获得一个模型，捕捉手部姿势和软组织变形。为了简洁起见，我们在本文中将组合的SMPL-H + DMPL模型称为SMPL，尽管这超出了任何先前公布的模型。SMPL以添加的方式修改模板。它将附加形状、姿态和动态混合变形应用于规范姿态中的模板，并从变形表面预测关节位置。该模型S（β，θ，φ）=G（T（β，θ，φ），J（β），θ，W）（1）T（β，θ，φ）=Tμ+Bs（β）+Bp（θ）+Bd（φ）（2）使用SSM数据集选择形状和动力学系数，使得MoSh++不会过拟合到mocap标记（参见补充材料）。3.2. 模型拟合类似于MoSh [25]，MoSh++使用两个阶段来拟合一个身体模型到一个稀疏标记集。我们总结了这些阶段，审查了必要的细节，并强调了相对于MoSh的差异。我们使用与原始MoSh论文类似的符号。阶段I：在MoSh之后，我们使用标记参数化m（mi，β，θt），其映射标记的潜在的、姿态不变量表示m i，以估计它们在姿态框架θt中的位置。在第一阶段中，对于F=12个从对象特定的mocap序列中随机选择的帧，给定标记体对应的初始猜测，我们其中G（T，J，θ，W）：R3N×R|θ|×R3K×R4×3N3N优化姿态Θ=θ一...... F ，单个形状β，和潜在的R是一个线性混合蒙皮函数，模型的静止姿态T、堆叠在J中的K个关节位置、姿态θ和混合权重 W ，并返回已设定姿态的顶点。Blendshape函数Bs（β）、Bp（θ）和Bd（φ）输出相对于平均模板Tµ的顶点偏移向量（有关函数的详细解释，请参见[26，36 我们称之为形状、姿势和动态标记位置M〜={m〜 i}以拟合观察到的标记位置M={mi ，t∈ Mt}1…F，其中i索引帧中的标记;在此阶段，我们排除软组织变形。选项。更具体地，类似于MoSh，我们优化以下目标函数：E（M，β，ΘB，ΘH）=λDED（M，β，ΘB，ΘH）混合形状分别。请注意，姿势混合变形是姿态θ的函数，而β和φ对应于确定形状和软组织+λβEβ（β）+λθBEθB（θB）+λθHEθH（θH）+λRER（M，β）+ λIEI（M，β）。（三）变形SMPL比BlendSCAPE更紧凑地捕获身体空间的维度。MoSh++只有16个形状和8个动态组件，比使用100个形状组件的MoSh的数量5446数据项ED测量模拟标记sm（mi，β，θt）与观测标记mi，t之间的距离;Eβ是SMPL形状组件上的5447φtφtd从身体表面（这里我们使用d = 9的平均值。5mm）;和EI惩罚潜在标记从由标记集定义的其初始化位置的偏差（更多细节参见[25]）。除了原始条款的MoSh在方程。3，我们增加了EθH，它正则化了手部姿态参数。我们投影完整的手部姿势（即，90个手参数）输入到24-D MANO姿势空间中，并计算该空间中的马氏距离数据、身体和手部姿势先验项ED、EθB和EθH与第一阶段中描述的相同。为了正则化软组织系数，我们在8个DMPL系数上添加Mahalonobis距离先验E（φ）=φT−1φ，（7）其中协方差矩阵是从DYNA数据集计算的对角协方差矩阵[36]。当存在手标记时，MoSh++优化了ET−1ˆ手部姿势参数与所有其他姿势θH（θH）=θH<$θHθH，（4）其中θH表示姿态的投影，是24维低维PCA空间的对角协方差矩阵[37]。与MoSh相比，λ超参数通过在SSM的训练集上进行线搜索来确定（Sec. 4.2）。方程中的数据项ED。3使用平方距离的和，其受MOCAP数据中观察到的标记的数量的影响这是值得注意的，因为在超参数搜索期间使用标准的46标记集来确定λ为了处理由于遮挡或使用不同标记集而引起的标记变化，我们自动调整该项的权重，将其缩放因子b=46/n，其中n是帧中观察到的标记的数量。为了帮助避免局部最优，同时最小化方程。3.我们使用阈值接受方法[11]作为快速退火策略。在渐进优化的4个退火阶段中，我们通过将λ D乘以常数因子s=2来增加λD，同时将正则化器权重除以相同的因子。最后一次迭代的权重如下：λD= 600 × b，λβ= 1。25，λθB= 0。375，λθH=0。125，λI=37。5，λR=1e4.（五）曲面距离正则化权重λR在整个优化过程中保持不变。仅在最后两次迭代期间将24个手部姿势分量添加到优化中阶段II：在该阶段中，假设模型的潜在标记位置和体型参数β随时间恒定，并且该阶段的目标优化序列中的mocap的每个帧的姿势。与MoSh类似，我们为姿态变化添加了一个时间平滑项Eu，以帮助减少mocap标记数据中抖动的影响。然而，与MoSh相比，我们优化了软组织变形系数φ。我们添加一个先验和时间平滑项Eφ（φ）和Ev（φ），以正则化软组织变形。那么这个阶段的最终目标函数为E（θB，θH，φ）=λDED（θB，θH，φ）参数，除了我们使用24维的MANO[37]第37话：你的未来手在记录的对象的手上不存在标记的情况下，手姿势被设置为MANO模型的平均姿势。与运动的其余部分相比，序列的第一帧的初始化和拟合经历了几个额外的步骤。对于第一帧，我们通过在估计的和观察的标记之间执行刚性变换来初始化模型，以将模型从其静止姿态T静止到粗略地拟合观察的姿态。然后，我们使用一个渐进的优化方程。6，仅具有数据和身体姿势先验项，而λθB不同于[10，5，1]最后的重量。后来，对于每一个后来的帧，我们用前一帧的解来初始化以估计姿势和软组织参数。在第一帧之后的每帧动力学和姿态估计分两步进行在第一步中，我们移除动力学和动力学平滑项，并且仅优化姿势。这是为了防止dynam- ICS组件解释连续帧之间的平移或大的姿势变化。然后，我们将动力学、φ和动力学平滑项添加到优化中，用于姿势和动力学的最终优化。我们在第二节中解释了调整权重λ的细节四点二。速度恒定性权重λu和λv取决于mocap系统校准和光学跟踪质量、数据帧速率和运动类型。因此，这些值不能仅使用一个数据源来优化，因此我们通过在不同帧速率和运动的不同数据集上的实验来凭经验确定它们为该阶段确定的最终权重为：λD= 400 × b，λθB= 1。6× q，λθH= 1。0×q，λu=2。5，λφ=1。0，λv=6。0的情况。（八）类似于b，其将数据项的权重调整为变化的标记集，q是姿态先验λθ的权重平衡因子。在动作捕捉会话期间，标记可能由于姿势而被身体遮挡。如果一个特定身体部位的多个标记同时被遮挡，+λθBEθB（θB）+λθHEθH（θH）+λuEu（θB，θH）+λφEφ（φ）+ λ E（φ）。（六）最小化可能导致不可靠和不可信的姿态，如图2所示的估计姿态。4（l. 左）。为了...在此，我们引入一个系数q=1+x<$2。五、vv| M|5448图4：具有重标记遮挡的姿态估计。具有恒定姿态先验权重λθ（左）、可变姿态先验权重λθ（右）的姿态优化。允许λθ作为可见标记的分数的因子而变化，从而即使当脚趾标记（右脚）和所有脚标记（左脚）缺失时也产生更合理的姿势。估计的和观察到的标记分别以红色和绿色显示。其中x是给定帧中缺失标记的数量|是标记的总数。|are the total number of markers.这将姿势先验权重更新为缺失标记的数量的因子。缺失的标记越多，则姿势先验的权重越高。该项可以将先验权重增加高达q=3的因子。5、在最坏的情况下，X= |M|，并下降到没有影响，q = 1。0时所有会话标记都是可见的x=0。这个因素的影响的一个例子如图所示。4（右）。3.3. 优化与优化与MoSh类似，我们使用Chumpy [24]自动微分包中实现的基于Powells梯度的狗腿最小化[33]。有关运行时间的详细信息，请参见补充材料。4. 评价为了设置超参数并评估MoSh++的时变表面重建结果，我们需要具有形状、姿态和软组织变形变化的参考地面真实3D数据。为此，我们引入了SSM数据集（第二节）。4.1），并优化目标函数的权重（方程4.1）。3和6）使用SSM的交叉验证4.2）。在优化超参数后，我们评估了MoSh++的准确性，例如。形状校正精度（第4.3）、姿势和软组织运动重建（第4.4）在测试集上。4.1. 同步扫描和标记（SSM）我们使用OptiTrack mocap系统[32]来捕获具有67个标记物的子图像;即，使用MoSh提出的优化标记集。系统与4D扫描系统同步记录mocap数据[1]。图5：SSM数据集。带有mocap标记（灰色）和拟合体（橙色）的3D扫描。它们之间的平均扫描到模型距离为7。4毫米。(See图5;细节在补充材料中提供）。该数据集由三个具有不同体型的受试者组成，总共执行30种不同的运动。三名受试者中有两名是签订模特合同的职业模特;这使我们能够发布他们的4D扫描数据，以及研究社区的同步mocap数据。我们使用67个标记物以及67个标记物中更标准的46个标记物子集来评估MoSh++的准确性对于测试和评估，我们使用SSM数据集的3D扫描（我们的地面真实网格）与超参数搜索和评估的每次试验的相应估计网格之间的扫描到模型距离。对于每个重建的mocap帧，我们对相应的同步3D扫描的10，000个点进行均匀采样，并计算每个点到重建网格上最近表面点的距离。我们测量这些距离的平均值（以mm为单位）。4.2. 使用SSM的目标是在等式中设置λ权重。3和等式6以最小化验证数据的重构误差。网格搜索复杂度随着参数的数量（即，在形状估计的情况下为5个参数，在姿态估计的情况下为4个参数）。因此，我们对每个参数执行线搜索，保持其他参数不变。对于形状估计阶段，优化使用来自每个训练对象的12个随机选择的mocap帧来估计该对象的形状和标记位置。与[25]中选择单个不可见的姿势来评估形状精度不同，我们报告了来自Mosh第一阶段的12个随机选择帧的平均误差（参见第二节）。3.2）。在这里，动作捕捉会话的持续时间并不重要，但测试和训练对象之间的体型变化是重要的。因此，我们只使用来自三个SSM受试者中的两个的mo- cap数据作为训练集，而保留来自第三个受试者的数据用于测试和评估。我们重复这个过程4次，5449训练受试者，每次试验使用不同的随机12帧组。验证是通过运行优化第五次，并初始化一个新的随机种子。我们使用线搜索策略来确定Eq.3通过找到这些权重的组合，为每次试验期间挑选的12最后的重量在第2节中描述。3.2.对于姿态估计，我们从三个受试者中分离出总capturemocap文件的20%作为测试和评估的保留集。其余运动文件的前200帧用于训练，剩下的帧（大约占训练集的60%我们对等式1的目标权重[λD，λθ，λφ]执行线搜索。6和缺失标记系数q，获得第6节中描述的最终权重。3.2.4.3. 形状估计评价与MoSh相比，我们在SSM上获得了更准确的结果。图6（左）示出了SSM上的形状估计精度为12。1毫米和7。当使用标准46标记组时，MoSh和MoSh++分别为4mm请注意，我们使用SSM来确定最佳数量形状和动态系数（分别为16和8）。添加更多会减少标记误差，但这会过度拟合标记，导致与地面实况形状相比更高的误差。详情见补充材料。4.4. 姿势和软组织估计评价我们还评估了MoSh++的姿势和软组织运动估计的每帧精度。图6（中间）示出了没有软组织运动估计的SSM上的姿态估计精度为10。5毫米和8。当使用标准46标记组时，MoSh和MoSh++分别为1mm。同样，在动力学项打开的情况下，MoSh++比MoSh（7. 3mm vs10. 24mm），图6（右）。软组织估计的重要性可以在图中观察到。7.第一次会议。该结果是预期的，因为MoSh [25]以Blend- SCAPE模型的同一形状空间中的变化的形式对软组织运动进行建模，而MoSh++拟合从数据中学习的软组织运动的DMPL空间[26]。4.5. 手部关节我们没有用于评估手部发音准确度的真实数据。我们的联合身体和手捕捉的定性结果可以在图中看到。8.注意MoSh++与手部捕捉如何导致更逼真的手部姿势。这说明MoSh++不限于主体，如果模型可用，可以扩展以捕获其他部分。标记科目运动分钟ACCAD [34]822025226.74BMLrub [42]411113061522.69CMU [9]41961983543.49EKUT [27]46434930.74[12]第十二话3712750363.64[39]第三十九话393288.48KIT [27]50554232661.84[31]第三十一话414215144.54MPI限值[3]5333520.82[25]第二十五话87197716.53[第15话]5374415.23SSM（美国）863301.87中医手[21]911628.05[43]第四十三话5353741.1过渡（美国）53111015.1总344112652420.86表1：AMASS中的数据集。我们使用MoSh++将超过40小时的标记数据映射到SMPL参数中，给出统一的格式。5. AMASS数据集我们总共收集了15个mocap数据集，总结在表1中。使用放置在身体上不同位置的不同数量的标记来记录每个数据集;即使在数据集中，标记的数量也是变化的。公开的数据集从互联网上下载我们私下获得了其他几个数据集，或者自己记录了它们（Dancers，Transitions，BMLrub和SSM）。我们使用MoSh++将大量标记数据映射到我们常见的SMPL姿势、形状和软组织参数中。mocap固有的问题，例如交换或错误标记的标记，通过手动检查结果并纠正或保留问题来修复。图1显示了来自不同数据集的几个代表性示例。结果是AMASS，最大的人体形状和姿势的公共数据集，包括344个主题，11265个动作和40小时的记录，并且可在 www.example.com 上向研究社区提供https://amass.is.tue.mpg。de/.有关说明数据集多样性和质量的视频剪辑，请参阅网站。6. 今后的工作和结论未来的工作将扩展SSM数据集，以包括关节型手的捕获。我们还打算将MoSh++扩展到面部mocap标记。这应该可以使用最近发布的SMPL-X模型[35]，该模型将面部，身体和手放在一起。MoSh++的当前运行时间不是实时的（参见补充材料）。然而，原则上，通过使用TensorFlow [2]等框架并行实现SMPL，应该可以显着最后，我们看到了一个机会，5450图6：MoSh与MoSh++形状和姿态重建：使用具有BlendSCAPE模型的MoSh（蓝色条）和具有SMPL和优化的超参数的MoSh++（橙色条）重建的身体形状到地面实况3D扫描的平均绝对距离。1）形状估计，2）姿态估计，3）使用DMPL的姿态估计中的误差。误差线表示标准偏差。我们比较了标准的46个标记集与MoSh的67个标记集[25]。只有46个标记的MoSh++几乎与具有67个标记的MoSh一样好。3D扫描对准与原始扫描之间的平均扫描到网格表面距离以绿色示出作为用于比较的基线，例如平均值为0。5毫米。倾向于MoSh，使我们能够统一基于标记的运动捕捉记录，同时比简单的骨架或以前的BlendSCAPE版本更准确。这使我们能够收集AMASS数据集，超过40小时的mocap数据，统一格式，包括SMPL姿势（有关节的手），形状和软组织运动。我们将把更多的mocap数据纳入AMASS，因为它变得可用。7. 致谢图7：软组织动力学。MoSh [25]（蓝色），来自DMPL的MoSh++动态（橙色），以及与Mocap同步的地面实况扫描（灰色）。MoSh++更准确地捕捉胸部和胃部的运动。还显示了MoSh和MoSh++的估计标记物（红色）和观察标记物（绿色）。图8：关节手：如果存在手部标记，则MoSh++使用SMPL-H拟合手部姿势[37]。无手模型MoSh++（橙色）。该方法进一步解决了标记丢失的问题，并利用本体进行全自动标记标记。AMASS本身可以用于此任务，并用于训练对mocap数据进行降噪的模型[14]（参见[19]）。总之，我们已经引入了MoSh++，其ex-最重要的是，我们要感谢作者提供了他们的mo- cap数据集，并允许我们将其纳入 AMASS 。我们也感谢我。Abbasnejad和H. Feng感谢他们在早期开发阶段和数据收集期间的支持，S。波利科夫斯基和A. Keller在项目协调、动作捕捉和4D扫描方面寻求帮助，T.Zaman，J. Romero，M. Loper和D. Tzionas感谢他们宝贵的建议、帮助、指导和讨论。我们感谢M。Al Borno，J. Romero和A. Keller为Transitions数据集的设计和捕获做出NFT持有NSERC发现补助金以支持他的研究，并部分得到亚历山大-冯-洪堡基金会的洪堡研究奖的GPM由德国研究基金会（ DFG ，德国研究基金会）资助 - 项目编号 409792180（Emmy Noether计划，项目：真实的虚拟人），以及MPI。使用的在线数据集在AMASS中，由NSF EIA-0196217（ CMU [9] ）， NUS AcRF R-252-000-429-133 和 SFUPresidents Research Start-up Grant（SFU [15]）资助创建。利益冲突披露：NM是Meshcapade GmbH的创始人和股东，该公司正在将身体形状和运动技术商业化;这项工作主要在MPI进行。MJB已经收到了来自英特尔、英伟达、Adobe、Facebook和亚马逊的研究基金。虽然MJB是亚马逊的兼职员工，但他的研究仅在MPI进行。MJB也是Mesh-capde的投资者。5451引用[1] 3dMD LLC. 4D扫描。http://www.3dmd.com/网站。 6[2] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， Ian Goodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz ， Lukasz Kaiser ， Manjunath Kudlur ， JoshLevenberg，Dan Mane，Rajat Monga，Sherry Moore，Derek Murray ， Chris Olah ， Mike Schuster ， JonatheShlens，Benoit Steiner，Ilya Sutskever，Kunal Talwar，Paul Tucker ， Vincent Vanhoucke ， Vijay Vasudevan ，Fernanda Vie- 气体， Oriol Vinyals ， Pete Warden ，Martin Wattenberg，Martin Wicke，Yuan Yu和XiaoqiangZheng。TensorFlow：异构分布式系统上的大规模机器学习。arXiv：1603.04467 [cs]，2016. 7[3] 作者声明：Michael J.黑色.三维人体姿态重建的姿态条件关节角度限制。在IEEE计算机视觉和模式识别会议（CVPR 2015），2015年。一、二、三、七[4] 西蒙·亚历山大，卡罗尔·奥沙利文，乔纳斯·贝斯科。手指标记的鲁棒在线运动捕捉标记。第九届国际游戏运动会议论文集。ACM，2016。3[5] B. 艾伦湾Curless和Z. 我的天人体形状的空间：距离扫描的重建和参数化 ACM Transactions on Graphics（TOG），2003年。3[6] 布雷特·艾伦，布莱恩·库勒斯，佐兰·波普，还有亚伦·赫兹曼.学习身份和姿势相关的身体形状变化的相关模型用于实时合成。2006年ACM SIGGRAPH/Eurographics计算机动画研讨会集，SCA'06，2006。3[7] Thomas P Andriacchi和Eugene J Alexander。人类运动研究：过去现在和未来。生物力学杂志，2000年。3[8] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯SCAPE：人的形状完成与动画。ACM Transactions on Graphics，2005。第1、3条[9] CMU图形实验室。CMU图形实验室运动捕捉数据库。http://mocap.cs.cmu.edu/，2000年。一、二、三、七、八[10] 费尔南多·德拉托瑞，杰西卡·霍金斯，亚当·巴格泰尔，泽维尔·马丁，贾斯汀·梅西，亚历克斯·科拉多和佩普·贝尔特兰。卡内基梅隆大学多模态活动数据库指南。机器人研究所，2008年。二、三[11] 冈特·杜克和托拜厄斯·朔伊尔。阈值接受：一种优于模拟退火的通用优化算法。计算物理学报，1990年。5[12] Eyes，JAPAN Co. Ltd. Eyes，日本mocapdata.com，2018年。7[13] G大卫福尼。维特比算法IEEE会议录，1973年。3[14] Saeed Ghorbani，Ali Etemad，and Nikolaus F Troje.基于排列学习的光学运动捕捉中标记的自动标注。在计算机图形国际会议上，第167-178页。Springer，2019年。8[15] KangKang Yin Goh Jing Ying. SFU动作捕捉数据库。http://mocap.cs.sfu.ca/网站。七、八[16] George E Gorton，David A Hebert，and Mary E Gannotti.评估12个运动分析实验室之间的运动变异性。步态姿势，2009年。第1、3条[17] 韩尚辰，刘贝贝，王宇婷，叶玉婷，Christopher D.Twigg和Kenrick Kin。基于在线光学标记的深度标签手部跟踪 ACM Trans.Graph. ，37（4）：166：1-166：10，2018年7月。3[18] David A Hirshberg ， Matthew Loper ， Eric Rachlin 和Michael J Black。配准：关节式3D形状的同时对准和建模。摘自Andrew Fitzgibbon、Svetlana Lazebnik、PietroPerona、Yoichi Sato和Cordelia Schmid，编辑，欧洲计算机视觉会议，计算机科学讲义。斯普林格，Springer Berlin Heidelberg，2012. 3[19] 丹尼尔·霍顿光学运动捕捉数据去噪鲁棒求解。ACMTransactions on Graphics，2018。8[20] 丹尼尔·霍尔登斋藤纯和高村拓用于角色运动合成和编辑的深度ACM Transactions on Graphics（TOG），2016年。二、三[21] Ludovic Hoyet，Kenneth Ryall，Rachel McDonnell，andCarol O'Sullivan.手法：从减少的标记集合感知手指运动。 ACM SIGGRAPH Symposium on Interactive 3D

下载后可阅读完整内容，剩余1页未读，立即下载