时空并行Transformer：动态估计手臂和手

145 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20523时空并行Transformer在臂-手动态估计李淑英*，吴文斌*，吴佳贤，林宇网易游戏人工智能实验室，广州，中国{liushuying，wuwenbin02，wujiaxian，gzlinyue} @ corp.netease.com图1.我们提出了时空并行Transformer来估计手臂和手的动态从单目视频利用手臂手的相关性以及时间信息。行1：输入视频帧。第2行：我们方法的估计手臂和手部动力学。所提出的方法在各种具有挑战性的情况下表现出鲁棒性。摘要本文提出了一种利用手臂和手之间的关系从单目视频中估计手臂和手的动力学的方法。虽然单目完整人体运动捕捉技术近年来取得了很大进展，但从野外视频中恢复准确和合理的手臂扭曲和手势仍然是一个挑战。为了解决这个问题，我们的解决方案是基于手臂姿势和手势在大多数真实情况下高度相关的事实提出的。为了充分利用手臂-手的相关性以及帧间信息，我们精心设计了一个时空并行手臂-手运动Transformer（PAHMT）来同时预测手臂和我们还引入新的损失，以鼓励估计平稳和准确。此外，我们收集了一个包含20万帧手势的运动捕捉数据集，并使用这些数据来训练我们的模型。通过整合一个2D的手姿态估计模型和一个3D的人体姿态估计模型，所提出的方法可以产生合理的手臂和手的动态从单目视频。广泛的评估表明，该方法具有优于以前的国家的最先进的方法，并显示在各种挑战*这些作者对这项工作的贡献是相同的。场景1. 介绍人的手臂-手动力学是完整人体运动捕捉的重要组成部分，也可用于人机界面的控制。然而，尽管提出了一些方法来捕获包括手势在内的完整人体运动[30，33，40，45，47]，但其中大多数方法未能考虑手臂和手之间的相关性，将身体运动捕获和手势估计视为两个单独的任务，导致在挑战场景中的预测不准确。Zhou等人[47]提出通过考虑身体-手相关性来学习人体运动，但这种相关性仅用于预测2D手关键点和3D身体关键点，身体和手的最终运动分别由不同的模型学习Ng等人[29]介绍了学习身体-手相关性以估计约定手势。然而，该方法被限制到会话手势预测的域，并且不能产生手臂运动。在本文中，我们专注于从单目视频捕捉准确和合理的手臂手动态的任务。具体来说，我们引入了一个时空并行手臂-手运动Transformer（PAHMT），以充分利用手臂-手的相关性和帧间信息。的20524首先分别通过轻量级的手部关键点检测器和3D人体关键点估计器来实现2D手部关键点和3D手臂关键点的估计，它们被用作我们模型中的输入。PAHMT主要由空间 Transformer 和时间 Transformer 组成。空间Transformer负责提取空间特征，即手臂和手之间的全局相关性以及不同关节之间的局部相关性，而时间Transformer被设计为利用帧间信息。此外，我们引入了两个损失，以鼓励预测是平滑和准确的。为了训练所提出的模型，我们收集了200K帧人体运动（包括手势）的数据集大多数收集的序列是舞蹈或体育运动，涵盖了大量的手臂运动和手势。我们证明，即使在困难的情况下，如闭塞或运动模糊，所提出的模型可以产生合理的估计臂手动态。我们的贡献可归纳如下：• 我们建议通过利用手臂-手的相关性来捕获手臂和手的动力学仿真。通过利用这种相关性，该模型可以合理地估计手臂扭曲和手势;• 我们设计了一个时空并行的Transformer模型，充分利用了手相关联和帧间信息，增强了预测的鲁棒性，并引入了两个损失来保证预测的平滑和准确;• 广泛的评估表明，所提出的方法优于现有的国家的最先进的方法，并显示在各种挑战的情况下的鲁棒性。2. 相关工作在设计模型以从视觉观察中捕获人体姿势或动态运动方面已经取得了很大进展[6，7，11，24，31，34，41，44，46]。以往的工作通常将完整的人体运动捕捉任务分为三个独立的子任务，面部表情捕捉、身体动作捕捉和手势捕捉。由于我们的工作重点是捕捉手和手臂（身体的一部分）的动态，我们只提出相关的工作如下。2.1. 手势估计2D手部姿势估计。之前的一些工作在构建强大的数据集方面投入了大量精力Simon等人[35]提出了具有几何上一致的注释的手部关键点数据集甚至为被包括的手部提供注释。有了这个数据集，一个手关键点检测器的训练，可以媲美国家使用RGB-D输入的现有技术手部关键点检测器。为了获得更多的训练数据，一些研究人员建议首先合成3D手部数据，然后使用GAN将其转换为真实图像风格[28，37]。在网络体系结构设计方面进行了一些探索Wang等人[39]介绍了一种名为SRHandNet的新架构，用于从单目RGB图像中进行实时2DZimmer- mann等人。[49]提出了四种不同网络流的架构，以全面估计手部关节。3D手部姿态估计。现有的手部姿态预测方法大多是通过从单个RGB图像中恢复手部网格或回归手部坐标来实现Zhou等人。[48]使用估计的运动学链来估计MANO [32]系数，并开发逆运动学网络来细化预测的手部姿势。Chen等人[5]提出了一种相机空间网格恢复框架，以在相机中心空间中恢复 3D 手部网格。Kolotouros等人。[20]通过训练图卷积网络直接回归网格顶点的3D坐标。另一方面，一些研究人员研究了如何实现基于单目视频的手部姿态估计Chen等人。[4]利用视频时间一致性来解决由于训练数据上缺乏3D联合注释而导致的不确定性。除了将时间序列作为输入之外，Ng等人。[29]提出了一种新的身体运动的学习深度先验，用于3D手形合成和会话手势领域的估计。2.2. 人体姿态估计预测3D关节位置。大多数先前预测3D人体关节位置的尝试将2D人体关键点作为输入并训练模型以学习2D到3D提升[11，24，31，41，44]。这些工作中的一些将单个帧的2D人类姿势作为输入[11，41]，而更多的工作考虑帧间信息并使用2D关键点序列作为输入[24，31]。还有一些方法可以训练模型，以直接从视觉输入中估计3D关节位置[6，7]。然而，这些方法的一个共同问题是，当目标是捕捉人体骨骼运动时，不能从3D关节位置准确地恢复扭转分量不能由接头位置确定。预测3D关节旋转。大多数先前的工作利用参数化人体模型进行姿势表示，例如，SMPL [25]，ADAM [15].这些工作的基本流水线[16]是训练模型以预测SMPL模型的参数，使得输入图像上的投影2D关节可以匹配由2D姿态估计器检测到的2D关节[3，10，23，42]。同时，引入了一个可引导模型生成真实感三维姿态的方法[17，18]第16话，你的未来会怎样？20525F∈∈--联系我们带视频输入的结果。Nikos等人。[19]建议在CNN模型之后添加优化过程[2]。然而，在没有高质量<图像、运动对的情况下，这些方法不能直接利用运动捕捉数据，即，运动捕获数据总是用于训练GAN部分。因此，这些方法显示出比直接预测关节位置的方法更大的关节位置误差。2.3. 完整动作捕捉也有一些工作集中在捕捉完整的人体运动[15，30，33，40，47]。Rong等人[33]提出通过结合几种现有技术来捕获完整的人体运动Zhou等人[47]利用身体-手相关性来训练网络以预测2D手关键点和3D身体关键点，但是手和身体的关键点被分别馈送到不同的人体运动模型。SMPLify-X [30]是一个优化过程，其目标是找到一组最适合2D关键点的SMPL-X模型参数3. 方法我们工作的目标是从单目视频中捕获手臂和手的动态。值得注意的是，一些研究人员使用人体关节位置作为人体姿势，而另一些研究人员使用骨骼旋转作为人体姿势。在这项工作中，我们主要关注训练模型，以估计手臂和手的旋转。很难直接学习图像到旋转的映射。同时，学习这种映射需要运动捕捉数据与相应的视频帧，这是很难获得的。因此，我们将此任务解耦为两个子任务，即关键点估计任务和骨架旋转估计任务。这项工作的总体流程如图2所示。在关键点估计模块中，分别训练两个模型来预测2D手部关键点和3D身体然后，旋转估计模块将预测的2D手部关键点和3D手臂关键点（从3D身体关键点获得）作为输入，并训练模型以学习手臂和手部的3D旋转。在下文中，我们将简要介绍关键点估计模块，同时深入研究旋转估计模块的细节3.1. 问题定义该系统的目标是从视觉观察I捕获手臂和手Y的旋转。Y =F（I）（1）该系统被解耦为两个子模块，即，关键点估计模块K和旋转估计模块R，K =K（I）（2）Y =R（K）（3）其中Y=y0，y1，.，yt，... yT，K=k0，k1，...， kt，.， kT， I=i0，i1，...，it，.， iT。ytR48×3表示在时间t时手臂和手的3D旋转，其由3D轴角表示。ktR4×3+42×2表示在时间t时手臂关节的3D局部位置和手的2D像素坐标。it表示在时间t的输入图像帧。与全身反向运动学的差异[27，43]：全身反向运动学（FBIK）是一个优化过程，它优化骨骼运动以适应3D关节。因此，FBIK需要精确的3D手部关键点和身体关键点。不准确的3D关键点可能会导致令人难以置信的结果。然而，从RGB图像中获取精确的3D手部关键点要比从RGB图像中获取精确的此外，逐帧IK处理可能导致结果中的大抖动。相比之下，我们的解决方案不需要3D手部关键点来从视频输入中产生平滑和合理的估计3.2. 关键点估计模块2D手部关键点估计。为了有效地获得准确的2D手部关键点，我们首先根据检测到的2D手腕关节裁剪手部区域的图像，然后将它们馈送到我们的网络。我们模型的主干是基于Mobilenetv3的架构[13]。该模型经过训练，以使用L2损失拟合地面真实概率图。该模块的详细配置可在补充材料中找到。3D身体关键点估计。我们使用在AMASS数据集[26]上训练的VPose 3D模型[31]来获得3D身体关键点，并使用手臂关键点作为旋转估计模块的输入。3.3. 旋转估计模块为了更好地利用时间信息，以更好地捕捉手臂和手部动力学，我们的模型采用一系列关键点作为输入。由于transformer已被广泛证明在各种序列到序列任务中是有效的[22，36，38]，因此我们基于Transformer架构设计臂-手运动Transformer。我们采用一种称为臂-手运动 Transformer （ AHMT ）的临时Transformer 作为基线。输入姿势序列的处理方式与自然语言处理应用程序中的标记（单词）相同[22，36，38]。为了将每个令牌投影到高维空间，设计了由两个卷积层组成的姿态嵌入模块E20526∈→∈∈0的t0Ls不不不测试位置关键点估计模块图2.我们的方法的整体流水线。整个流水线包括两个模块，关键点估计模块和旋转估计模块。关键点估计模块由2D手部关键点检测器和3D身体关键点估计器组成。旋转估计模块由精心设计的基于变换器的网络组成，该网络以2D手部关键点和3D手臂关节序列作为输入，并给出手臂-手部动力学的输出预测此外，还使用了一个神经网络来指导网络获得合理的结果。位置嵌入Etpos用于保留序列的位置信息。给定一个输入序列，我们的Transformer的输入令牌可以表示为如下：z=x1E;x2E;···;xfE+E（4）时空并行臂手运动变换器。AHMT基线主要集中在从输入序列中提取时间特征。然而，我们认为，空间信息，代表了不同关节之间的运动信息和手臂与手之间的运动信息，与时间一样重要poral信息因此，我们设计了一个平行臂-其中X =[x1; x2;. ;xf]是输入序列;E∈手动Transformer（PAHMT）网络，tt t t t tf×Dt空间和时间信息。如图2所示，是姿势嵌入模块;EtposR是位置嵌入。J是包括手臂和手在内的关节总数。f在训练过程中被设置为32;Dt=512是我们的Transformer的恒定潜在向量大小。然后是标准的Transformer编码器，其由交替的多层多头自注意（MSA）和多层感知器（MLP）块组成（等式2）。5，6），用于从这些高维特征中提取时间信息。我们在每个块之前应用层归一化（LN），并在每个块之后应用残差连接的我们的Transformer编码器的处理可以写为：zt′= MSA（LN（zt−1））+zt−1，= 1. - 是的-是的L t（5）zt= MLP（LN（zt′））+zt′，= 1. - 是的- 是的 L t（6）其中Lt表示Transformer编码器层的数量，ztLt是Transformer编码器的最后输出PAHMT主要包括两个核心组件：空间Transformer和时间Transformer。空间Transformer的目标是提取手臂姿态和手势之间的全局相关性，以及不同关节之间的局部相关性。给定输入序列，我们考虑每个帧，即，3D方向矢量和手的2D坐标作为表征，并将序列 XtRf×（J·3）重新整形为XsRf×J×3（等式10）。（八）。我们对手的2D位置进行零填充，即，（x，y）（x，y，0）。考虑到全局空间相关性（例如，挥动的手臂总是带来挥动的手）和局部空间相关性（例如，中指和无名指的移动是高度相关的）两者应当在不同的帧上被保留，将可先验学习的最后，臂-手旋转通过回归-由三个卷积层组成的SiON头我们可以得到输出y如下：y= RegressionHead（ztLt）（7）正确错误鉴别器…+回归负责人z时间Transformer空间TransformeryXz……=yXz姿势嵌入姿势嵌入y重塑X三维人体关节估计器2D手部关键点检测器20527到ViT中提出的每人-然后，将KEN馈送到卷积层中，并通过可学习的位置嵌入进行添加所得到的矢量序列时间Transformer的架构与AHMT相同（等式10）。4、5、6、7）。20528∈t=1∈LsFK.LsDSSΣΣS形式上，我们有：Xs=Reshape（Xt）（8）zs0=xregress;x1E;x2E;· · ·;xNE+Espos （ 9 ） zs′=MSA（LN（zs−1））+zs−1，= 1. - 是的- 是的L s（10）zs=MLP（LN（zs′））+zs′，=1. . .L s（11）其中N=48与J相同，J表示LRecon由三部分组成。最基本的是L1损失，即，LL1（R）=R（K）−Y1（15）该模块的一个目标是产生平滑的序列结果。因此，采用平滑损失，其可以被视为帧间差的正则化项，即，包括手臂和手在内的关节总数。ER3×Ds是空间变换的位姿嵌入模Lsmooth（R）=ΔT<$R（kt）− R（kt−1）<$1（十六）前者，EsposRN×Ds是可学习的位置编码，D s= 64是我们的空间Transformer的恒定潜在向量大小，L s是空间Transformer编码器层的数量。由于关节之间的关系应跨帧保存，因此仅将空间变换器的输出（zs0）作为空间表示。最后，值得注意的是，不同关节的旋转在表示姿势时应该具有不同的重要性。父关节的旋转误差将传播到所有子关节，使得父关节的旋转比子关节的旋转更重要。考虑到这一点，我们引入FK损失。我们首先通过正向运动学函数计算关节位置ki我们通过逐元素添加将空间特征与时间特征融合，并将其馈送到回归头以进行最终预测（等式10）。第12段）。[21]一个预定义的字符骨架，然后计算地面真实联合位置k1上的L2损失和预测联合位置k1，y=回归头ztLt3.4. 培训+zs0 Σ（12）LFK（R）=FK（R（K））−K2（17）K表示手臂和手的3D关键点，其可以从运动捕捉数据获得。在本节中，我们将讨论旋转估计模块的训练细节。预处理：将2D手部关键点标准化。具体地说，首先用手腕关节的坐标减去手部关键点，然后用相应手部的边界框进行归一化。对于不能检测到手的帧，使用前一帧的关键点。如果检测器在第一帧中未能检测到手，则将第一帧的关键点设置为零向量。考虑到预测的3D关节可能具有不同的骨长度，对于手臂的3D关节，上臂和前臂的方向向量被作为输入。目标函数：如图2所示，旋转估计模块的目标函数由两个分量组成。一个是引导生成器适应手臂和手的地面真实旋转的重建损失。另一种是由“第一”引入的GAN损失[12]。因此，完整的目标函数可以公式化为：min maxLrecon（R）+λLGAN（R，D）（13）最后，生成器的完整目标函数Lrecon可以定义如下：L重建=LL1+γL平滑+βLFK（18）4. 实验我们通过大量的实验分析所提出的方法的性能我们进行消融研究，以验证我们的方法的每个单独的组件，并与最先进的方法进行定量和感知比较，以证明我们的方法的优势。4.1. 数据集我们的运动捕捉数据集：虽然有一些公开的运动捕捉数据集[14，26]，但身体运动数据和手部运动数据总是分别收集的我们仍然缺乏完整的人体运动数据集。因此，我们收集了一个数据集的完整的人体运动使用运动捕捉设备。具体来说，我们收集了500个完整的人体运动数据序列，总帧数为200K。RD数据集主要由跳舞或其中LGAN是GAN损失的基本形式，λ是该损失的权重，LGAN可以公式化为，20529LGAN（R，D）=E[log（D（Y））]+E[log（1-R（K））]（14）运动，涵盖了大量的身体动作和手势风格。我们手动将数据集分为训练集（90%）和测试集（10%）。我们在测试集上进行消融研究本数据集样本见补充资料20530野外3D身体和手势数据集（BH数据集）：为了与最先进的手势估计器[ 29 ]进行比较，我们对作者发布的数据集进行了实验[29]。该数据集由8个扬声器的数小时野外视频组成，涵盖了广泛的手势类型。渲染的全身运动数据集：虽然我们已经有了全身运动捕捉数据，但我们仍然缺乏带有全身运动注释的野外数据因此，我们提出了一个渲染的数据集来模拟在野生sce- narios。具体而言，将10 K帧全身运动捕捉数据重定向到来自MIX- AMO的3个角色模型[1]。我们将我们的方法与该数据集上最先进的全身运动捕捉方法[8，33该数据集的样本见补充材料。4.2. 实现细节我们首先将所有骨骼运动序列重定向到MIXAMO角色模型[1]。然后，我们得到的旋转（轴角）和世界坐标系中的每个关节的三维位置。为了生成训练数据，我们将手的3D位置投影到2D相机平面中以获得手的2D像素坐标。我们应用大小为32的滑动窗口，每个运动序列的步长为5帧，产生30K训练序列。我们使用Adam优化器训练网络，并将批量大小，权重decay和动量分别设置初始学习率设置为1 e-3，每50个epoch下降50%。我们用300个epoch训练我们的模型对于目标函数，我们根据经验将λ、β、γ分别设置为0.05、1.0、1.04.3. 评估指标由于我们工作的目标是从视觉输入中捕获手臂和手的精确骨骼旋转，除了常用的平均每关节位置误差（MPJPE，单位为米）之外，我们还报告了平均每关节旋转误差（MPJRE），其测量预测的关节旋转和地面真实关节旋转之间的平均绝对差。值得注意的是，可以通过逆运动学算法[27，43]从精确的3D手部关节恢复精确的手部旋转，而不能从3D手臂关节精确地恢复手臂旋转因此，我们使用1)综合MPJPE、2）手部MPJPE、3）手臂MPJRE评定成绩。4.4. 比较方法首先，我们进行了消融研究，以评估该方法的各个部分在估计手臂和手的运动中的贡献。其次，我们将我们的方法与几种最先进的方法进行比较[8，29，33]。请注意，我们的方法同时预测的运动（旋转）手臂和手，并且缺乏公开可用的具有手臂和手的旋转注释的数据集，这阻止了我们在现有基准上对手臂和手的旋转进行全面比较。因此，我们仅报告了在作者发布的数据集上将我们的方法与Body2Hands [29]进行比较的手部姿势估计的性能。此外，我们对我们的渲染数据集进行比较，以评估与以前的方法的整体手臂-手动力学。我们还展示了我们的方法和最先进的方法在一些野外视频感知评估的结果。具体而言，我们采用以下方法：• Body 2 Hands w/wo image [29]：通过学习身体运动的深度先验进行最先进的3D手部形状合成和估计使用作者发布的代码重新训练模型，因为预先训练的模型不可用。• Body2Hands* [29] ：原始的 Body2Hands 模型将MTC [40]的输出作为输入，并预测手的旋转然而，在我们的实验中，没有提供MTC输出因此，我们重新训练了与原始版本相同结构的Body2Hands模型，该模型将3D身体关节和2D手部关键点作为输入。我们将Body2Hands的重新训练版本作为Body2Hands*。• Expose [8]：用于全身姿势的最新方法，包括手势估计，其直接从RGB图像回归身体、面部和手部姿势。• [33]第三十三话：最先进的全身姿势方法，包括手势估计，它利用多种领先的解决方案来估计不同人体部位的姿势。• 我们的CNN：与Body2Hands [29]相同的模型结构，使用所提出的目标函数进行训练，将3D手臂关节和2D手部关键点作为输入，并预测手臂和手部的旋转。• 我们的AHMT：与我们的CNN配置相同，除了网络架构被临时Transformer取代• 我们的PAHMT：与我们的CNN相同的配置，除了网络架构被我们精心设计的时空并行手臂运动Transformer（PAHMT）所取代。20531表1.对所提出方法的不同组成部分进行烧蚀研究。我们的运动捕捉数据集进行评估。我们评估了总体MPJPE、手部MPJPE和手臂MPJRE结果表明，每个组成部分显示出积极的影响，学习高质量的手臂和手的动力学。h2h表示将2D手部关键点作为输入并预测手势的模型。AH 2AH表示将臂-手关键点作为输入并预测臂-手动态的模型。架构h2h ah2ah平滑损失FK损失MPJPE（手）↓ MPJPE（整体）↓ MPJRE（手臂）↓CNN✓✗ ✗✗0.0300--CNN✗✓✗✗0.01300.05170.0604CNN✗✓ ✓✗0.01330.05190.0603CNN✗✓✗✓0.01290.04130.0579CNN✗✓ ✓✓0.01270.04080.0577AHMT✗✓ ✓✓0.00980.03160.0445PAHMT✗✓ ✓✓0.00870.02740.0375表2.与Body2Hands [29]在[29]发布的数据集上进行比较。我们报告每种方法的手MPJPE。方法MPJPE（双手）↓[29]第29话0.0422[29]第二十九话0.0400[29]第二十九话0.0346PAHMT（我们的）0.0281表3.在我们的渲染数据集上与最先进的全身运动捕捉方法[8 ， 33] 进行比较我们报告了每种方法的总体MPJPE和MPJRE。方法MPJPE（总体）↓ MPJRE（组）↓弗兰克·莫卡普[33]0.15560.2779[8]第十八话0.15300.2984PAHMT（我们的）0.13750.1614（图3.杠杆臂-手相关性的有效性。(a)：输入帧。(b)：ah2ah的结果。(c)：h2h+IK的结果。为了比较手臂的旋转，我们在（b）和（c）的底行中将手腕的旋转设置为零。4.5. 消融研究为了评估所提出的PAHMT的每个单独组件的重要性以及网络架构的不同超参数的影响，对我们的运动捕捉数据集进行了广泛的实验。基线设置。我们选择Our CNN的网络架构基线模型的目标函数不包括L光滑和LFK。为了公平比较，我们在所有实验中固定随机种子以生成训练批次。使用Adam优化器，在所有实验中，我们将批量大小，学习率，权重衰减和动量固定杠杆臂手相关性的有效性。如表1所示，h2 h（手输入到手输出）比ah 2ah（臂-手输入到臂-手输出）执行得更差，指示手势估计的任务受益于臂-手相关性。图3直观地示出了利用臂-手相关性来同时预测臂-手动态的优点。为了证明ah2ah在预测手臂旋转方面的优越性，我们将ah2ah与h2h+IK[43]（手输入到手输出，用IK解决手臂旋转）进行比较。我们可以观察到ah2ah比h2h+IK给出更合理的手臂旋转预测。PAHMT架构的有效性。表1给出了结果。通过更好地利用帧间信息，传统的时间Transformer（AHMT）显著优于CNN（MPJPE和MPJRE均减少了23%的误差）。我们进一步研究了引入空间Transformer的影响。通过利用手臂和手之间的全局相关性以及身体不同关节之间的局部相关性，我们的PAHMT进一步改善了AHMT的结果（MPJPE减少了13%的错误，MPJRE减少了16%的错误）。提出的目标函数的有效性。我们评估了L光滑和LFK的影响。表1显示了结果，LFK在降低MPJPE和MPJRE两者方面显示出优势。值得注意的是，Lsmooth最初是为时间平滑而设计的，而不是为了减少误差，因此Lsmooth在单独使用时在减少误差方面没有优势。然而，L光滑也对精度的提高做出了贡献20532图4.与最先进方法的目视比较[8，33]。第1行：在具有挑战性的场景中，各种手臂姿势和手势的野外视频帧第2行：FrankMocap的结果[33]。第3行：Expose的结果[8]。第4行：我们方法的结果。尽管遮挡和运动模糊，我们的方法产生准确和合理的结果。当与LFK集成时，体系结构参数分析。我们研究了网络结构的不同参数，以寻找最佳设置。详细的结果可以在柔软的材料中找到。4.6. 与现有技术的表2显示了BH数据集的结果。为了公平计算，我们模型的输入3D关节来自MTC [40]输出。我们可以看到我们的PAHMT显著优于Body2Hands方法[29]。请注意，BH数据集由MTC注释[40]，这意味着标签不是基础事实。我们表明，我们的方法可以产生更合理和更平滑的结果比补充材料中的注释。表3显示了渲染数据集的结果，这表明我们的方法在MPJPE和MPJRE的度量上都明显优于最先进的全身运动捕捉方法[8，33]值得注意的是，我们的方法在预测手臂旋转方面明显优于现有方法，这可能表明我们的方法可以比最先进的方法更好地利用手臂-手4.7. 视觉比较为了证明所提出的方法的优势，我们对野外视频进行了实验，以与Expose [8]和FrankMocap [33]进行视觉比较。为通过比较，我们对野外视频进行了评估，包括清晰和具有挑战性的不清晰手的情况，以及各种手臂姿势。图4显示了视觉比较。我们可以观察到Expose [8]和FrankMocap [33]都无法从不清晰的手部图像中预测出合理的手势。同时，这两种最先进的方法不能准确地估计武器的旋转。相比之下，我们的方法即使在具有挑战性的情况下也能产生最准确和最合理的结果更多结果可在补充视频中找到。5. 讨论我们提出了一种新的方法来估计手臂和手的动力学从单目视频，利用手臂和手的运动之间的dispara-tions。充分利用基于帧间信息和臂手相关性，提出了一种时空并行Transformer模型PAHMT。为了获得平滑和准确的预测，我们提出了新的目标函数。大量的实验表明，我们的方法比以前的国家的最先进的优势。至于局限性，我们的解决方案需要一个身体运动和手势的运动捕捉数据集未来的工作可能包括利用更多身体部位的相关性进行高质量的全身动态估计，以及利用不同身体部位的注释的各种数据集。20533引用[1] 米萨莫为游戏、电影等制作3D角色动画。http：//https：www.mixamo.com。访问时间：2021-09-30。6[2] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Pe- ter Gehler 、 Javier Romero 和 Michael J. Black 。SMPL：从单个图像自动估计3D人体姿势和形状。在计算机视觉Springer International Publishing，Oct. 2016. 3[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集，第7291-7299页，2017年。2[4] Liangjian Chen ， Shih-Yao Lin ， Yusin Xie ， Yen-YuLin，and Xiaohui Xie.视频中3d手部姿态和网格估计的时间感知自监督学习在IEEE/CVF计算机视觉应用冬季会议论文集，第1050-1059页，2021年2[5] Xingyu Chen ， Yufeng Liu ， Chongyang Ma ， JianlongChang ， Huayan Wang ， Tian Chen ， Xiaoyan Guo ，Pengfei Wan，and Wen Zheng.通过语义聚合和自适应2d-1d配准的相机空间手部网格恢复在IEEE/CVF计算机视觉和模式识别会议论文集，第13274-13283页，2021年。2[6] Yu Cheng，Bo Yang，Bo Wang，and Robby T Tan.使用具有显式遮挡训练的时空网络进行3d人体姿态估计在AAAI人工智能会议论文集，第34卷，第10631-10638页，2020年。2[7] Yu Cheng，Bo Yang，Bo Wang，Wending Yan，andRobby T Tan.用于视频中在IEEE/CVF计算机视觉国际会议论文集，第723-732页2[8] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J Black。通过身体驱动注意力的单眼表达性身体回归。欧洲计算机视觉会议，第20-40页Springer，2020年。六七八[9] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。4[10] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017. 2[11] 龚克宏，张剑锋，冯佳世。Poseaug：一个用于三维人体姿态估计的可微分姿态增强框架。在IEEE/CVF计算机视觉和模式识别会议集，第8575-8584页2[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。5[13] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu ， Ruoming Pang ， Vijay Vasudevan ， et al.Searching for mo-bilenetv3.在IEEE/CVF计算机视觉国际会议论文集，第1314-1324页，2019年。3[14] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onPattern Analysis and Machine Intelligence，36（7 ）：1325-1339，2013. 5[15] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture-ture：用于跟踪面部、手部和身体的3D变形模型。在IEEE计算机视觉和模式识别集，第8320二、三[16] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页，2018年。2[17] Angjoo Kanazawa、Jason Y Zhang、Panna Felsen和Jiten-dra Malik 。从视频中学习三维人体动力学。在IEEE/CVF计算机视觉和模式识别会议论文集，第5614-5623页，2019年。2[18] 作者声明： David Kocabas ， Nikos Athanasiou ， andMichael J. Vibe：用于人体姿势和形状估计的视频推理。在IEEE计算机视觉和模式识别会议（CVPR）上，2020年6月。2[19] Nikos Kolotouros ， Georgios Pavlakos ， Michael JBlack，and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状。在ICCV，2019年。3[20] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第4501-4510页，2019年。2[21] Serdar Kucuk和Zafer Bingul。机器人运动学：正向和反向运动学。INTECH开放获取出版社，2006年。5[22] Mike Lewis ， Yinhan Liu ， Naman Goyal ， MarjanGhazvinine-jad，Abdelrahman Mohamed，Omer Levy，Ves Stoyanov，and Luke Zettlemoyer.Bart：用于自然语言生成、翻译和理解的序列到序列预训练去噪。arXiv预印本arXiv：1910.13461，2019。3[23] Jiefeng Li，Can Wang，Hao Zhu，Yihuan Mao，Hao-Shu Fang，and Cewu Lu. Crowdpose：高效的拥挤场景姿态估计和新的基准。 arXiv 预印本 arXiv ：1812.00324，2018。2[24] Wenhao Li，Hong Liu，Runwei Ding，Mengyuan Liu，Pichao Wang.提升Transformer用于视频中的三维人体姿态估计。arXiv预印本arXiv：2103.14304，2021。2[25] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。ACM图形交易（TOG），34（6）：1-16，2015。2[26] Naureen Mahmood、Nima Ghorbani、Nikolaus F Troje、Gerard Pons-Moll和Michael J Black。Amass：将动作捕捉存档为曲面形状。在IEEE/CVF计算机视觉国际会议论文集，第5442-5451页，2019年。三、五20534[27] 迈克尔·米斯特里，中西纯，戈登·程，斯特凡·沙尔.具有浮基和约束的全身仿人机器人逆运动学控制。在Humanoids 2008-第8届IEEE-RAS人形机器人国际会议，第22-27页IEEE，2008年。三、六[28] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theoba

下载后可阅读完整内容，剩余1页未读，立即下载