多级注意力的三维人体形状和姿态估计编解码器

9 浏览量更新于2023-10-13 收藏 3.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13033基于多级注意力的三维人体形状和姿态估计编解码器万紫牛1* 李正佳2*田茂清3刘建波4帅毅3李洪生41卡内基梅隆大学2同济大学3商汤科技研究4香港中文大学ziniuwan@andrew.cmu.eduzjli1997@tongji.edu.cntianmaoqing@sensetime.comliujianbo@link.cuhk.edu.hkyishuai@sensetime.comhsli@ee.cuhk.edu.hk摘要三维人体形状和姿态估计是人体运动分析的基本任务，在许多三维应用中有着广泛的应用。然而，现有的方法不能同时捕获多个级别的关系，包括时空级别和人体关节级别。因此，当存在杂乱的背景、遮挡或极端姿势时，它们无法在一些困难场景中做出准确的预测。为此，我们提出了多级注意力编码解码器网络（MAED），包括一个时空编码器（STE）和一个运动拓扑解码器（KTD）在一个统一的框架中建模多级注意力。STE由一系列基于Multi-Head Self-Attention的级联块组成，每个块使用两个并行分支分别学习空间和时间注意力。同时，KTD的目的是建模的联合水平的注意。它涉及姿态估计作为类似于SMPL运动树的自顶向下的分层过程。使用3DPW的训练集，MAED比先前的最先进方法高出6.2、7.2和7.3倍。2.4分别在三个广泛使用的基准3DPW、MPI-INF-3DHP和Human3.6M上测量PA-MPJPE的mm。我们的代码可以在 https://github.com/ziniuwan/maed 上找到。1. 介绍从单个图像或视频估计3D人体形状和姿态是计算机视觉中的基本主题在没有任何三维信息的情况下，很难从单目图像中直接估计三维人体形状和姿态。为了解决这个问题，需要大量的3D标记数据和具有先验知识的3D参数人体模型[26，30，3]16、18、20、27、21、29*同等贡献。基于深度神经网络（DNN）的算法已经被提出来提高该任务的准确性和鲁棒性。然而，现有的基于DNN的方法通常在一些具有挑战性的场景中失败，包括杂乱的背景、遮挡和极端姿态。为了克服这些挑战，三个内在关系应该被联合建模用于基于视频的3D人体形状和姿态估计：a）. 空间关系：对于姿态估计任务，人体关节区域和身体部位之间的空间相关性与姿态预测直接相关。它特别是在背景杂乱的场景中，仔细地利用空间关系是至关重要的。b）. 时间关系：每个人在给定视频中都有特定的时间轨迹。在遮挡情况下，应该利用这种时间关系来从周围帧推断当前遮挡帧的姿态。c）. 人体关节关系：在参数3D身体模型SMPL [26]中，人体关节被组织为运动学树。姿势更改后，父关节首先旋转，然后旋转子关节。当姿态幅度较大时，我们认为关节间依赖性的先验对精确的然而，现有的方法都没有在一个统一的框架中充分利用上述三个关系。基于上述观察结果，我们提出了用于基于视频的3D人体形状和姿态估计的多级注意力编码器-解码器网络（MAED）。MAED是第一个通过在一个统一的框架中开发相应的多层次注意来探索上述三种关系的工作。它包括用于时空注意的时空编码器（STE）和用于人类联合注意的运动学拓扑解码器（KTD）。具体地，STE由若干级联块组成我们将这两个分支分别称为多头自注意空间分支（MSA-S）和多头自注意时间分支（MSA-T）13034(a) 时空注意(b) 基于运动树的分层回归图1：（a）空间-时间注意力：在当前帧中，每个像素的颜色表示空间注意力分数，可视化空间位置的重要性时间轴上的颜色表示时间注意力分数，可视化对应帧和当前帧之间的相似性。较暖的颜色表示较高的注意力分数。(b)基于运动树的分层回归：我们的模型更加关注用较暖颜色的点表示的关节。在Transformer相关工程[38，10，11，7，6]。MSA-S和MSA-T均源自MSA，具有类似Transformer的结构，但在输入特征维度的顺序上不同。如图1（a）所示，MSA-S聚焦于图像中的关键空间位置，突出显示姿态估计的重要特征。同时，MSA-T集中于通过根据计算的时间注意力分数利用对当前帧有信息的帧来改进当前帧的预测。另一方面，现有方法通常使用迭代反馈回归器[16，18]来回归SMPL [26]参数，其中同时生成所有关节的姿态参数。然而，他们忽略了人类的关节关系。为了利用关节之间的依赖关系，我们进一步提出KTD模拟SMPL运动树的关节级注意力建模。在KTD中，每个关节被分配唯一的线性回归量以回归其姿势参数。如图1（b）所示，这些参数通过自上而下的分层回归过程生成。为了估计关节，除了图像特征，我们还将其祖先的预测姿态参数作为线性回归器的输入。以这种方式，部分关节的估计的偏差对所有其子关节的估计产生实质性的负面影响，这迫使KTD预测祖先关节的更准确的换句话说，尽管KTD没有显式地分配atten-由于每个关节都具有自上而下的得分，自上而下的回归过程隐含地鼓励模型更多地关注具有更多子节点的父关节。因此，建议的KTD捕捉关节的内在关系，并有效地减少预测误差。我们总结了我们的方法的贡献如下：• 我们提出了多层次的注意力编码解码器网络（MAED）基于视频的三维人体形状和姿态估计。我们提出的MAED包含时空编码器（STE）和运动学拓扑解码器（KTD）。它在一个统一的框架内学习空间层次、时间层次和人体关节层次的不同• 我们提出的STE利用MSA来构造MSA-S和MSA-T，分别对给定视频中的空间和• 我们提出的KTD认为人类关节之间的层次依赖性，并隐含地捕捉人类关节水平的注意。2. 相关作品2.1. 三维人体形状和姿态估计由于参数化的3D模型，最近的工作在3D人体姿态和形状估计方面13035∈∈0K∈∈ΣΣSteKTDSTE BlockMSA-SMSA-TMLP...Ste块壮Wω0ω20C W2CW5ω5C...CConcat时间位置编码逐元素加法空间位置编码图2：所提出的方法MAED的概述。上半部分展示了模型的流水线，下半部分展示了我们提出的时空编码器和运动拓扑解码器的结构。人体模型，如 SMPL [26] ， SMPL-X [30] 和 SCAPE[3]，它们利用人体的统计数据并基于少量超参数提供3D网格。后来，各种研究集中在直接从图像或视频输入估计3D人体模型的超参数先前的基于参数化3D人体模型的方法分为两类：基于优化的方法和基于回归的方法。基于优化的方法将参数化的3D人体模型拟合到伪标签，如2D关键点、轮廓和语义掩模。SMPLify [26]是第一个基于端到端优化的方法之一，它使用强统计先验来指导由2D关键点监督的优化。工作[23]利用轮廓以及2D关键点来监督优化。另一方面，基于回归的方法训练深度神经网络直接回归超参数。HMR [16]在监督重新投影关键点丢失以及人类形状和姿势的对抗学习的情况下进行训练。SPIN [20]在训练循环中利用SMPLify [26]来提供更多的监督。VIBE [18]是一种基于视频的方法，采用运动的对抗学习。2.2. 计算机视觉中的TransformerTransformer [38]是在NLP领域首次提出的。它是一种编码器-解码器模型，用多头自注意机制完全取代了常用的递归神经网络，后来在各种NLP任务中取得了巨大成功 [10 ， 31 ， 32 ， 33 ， 22 ， 24] 。受Transformer在NLP中的成就的激励，各种工作Sion Transformer（ViT）[11]将图像视为16x16补丁序列，并训练Transformer进行图像分类。这项工作[37]探索了使用较小的数据集来获得更有效的ViT的蒸馏。一些作品[41，35]研究了更适合视觉分类任务的各种Transformer结构。此外，Transformer还在许多下游计算机视觉任务中取得了令人印象深刻的结果，包括去噪[7]，对象检测[6，46]，视频动作识别[12]，3 D网格重建[43]，全景分割[40]等。在本文中，我们专注于使用Transformer，以充分利用时空水平的注意力，从视频更好的人体姿势和形状估计。3. 方法在本节中，我们首先回顾参数化 3D 人体模型（SMPL [26]）。其次，我们给出了我们提出的框架的概述。最后，我们详细描述了拟议的STE和KTD。3.1. SMPLSMPL [26]是经典的参数化人体模型其中N=6890个顶点和K=23个关节。它提供了一个函数M（β，θ），该函数将形状参数β作为输入R10和姿态参数θR72，并返回体网格MRN×3。β是前10个系数的PCA形状空间，控制身体的形状（例如，身高、体重等）。 θ=ωT，. . . ，ωT控制身体的姿态，其中ωkR3表示轴角关节k相对于开始将Transformer应用于计算机视觉任务。维-到运动树中其父节点θ定义为|θ⃗|为CSTEKTD{β，，}CNN范数损失SMPL损失二维损失三维损失13036×K3dK2个dK×××××--并行块MSA-TMLPMSA-SMSA-SQT x N x dKT x N x dVT x N x NT x N x d（a）并联STE块和MSA-S（b）串联STE块和MSA-T（c）耦合STE块和MSA-C图3：STE阻断变体和MSA变体。323+3=72个参数，即，每个关节为3，根部方向为3。这些关节可以通过表示J3d、J2d、θ、β的相对真实值。线性回归量J reg，即，J3d∈ RK×3 = JregM.L3D=kΣ=1Kk— J3dgt¨2，3.2. 框架概述L2D=Σ¨Jk— J2dgt¨2（二）图2显示了我们提出的网络的架构它以长度为T的视频片段作为输入，并采用CNN主干来提取每帧的基本特征。CNN末尾的全局池化层被省略，导致大小为（h/w/d）的T个特征图，其中h/w/d表示特征图的高度/宽度/通道大小。我们将每个特征映射重新整形为大小为（hw d）的1D序列，并为每个序列预先添加一个可训练的嵌入（下面[11]，我们将序列中的标记表示为补丁）。因此，CNN输出大小为（T）的矩阵 Nd），其中N=hw+l。然后，我们提出的时空编码器（STE）是用来执行这些基本特征的时空建模。对应于前置嵌入的编码向量用作STE的输出最后，我们提出的运动学拓扑解码器（KTD）被用来从STE的输出中估计形状β，姿态θ和相机β参数这些预测参数允许我们利用SMPL来计算3D关节及其2D投影，J2d=Π（J3d），其中Π（. ）是投影函数。在得到β，θ，J3d，J2d后，模型由以下4个损失来监督L=L3D+L2D+LSMP L+LNORM（1）其中L2D/L3D表示2D/3D关键点损失，L SMPL表示SMPL参数损失，并且L NORM表示L2归一化损失。J3dgt，J2dgt，θgt，βgtk=1LSMPL=θ−θgt2+β−βgt2LNORM=β2+θ23.3. 时空编码器Transformer [38]能够有效地对序列中令牌的相互作用进行建模。近年来，应用Trans- former对每一帧的全局池化特征的时间注意力建模被广泛应用于许多基于视频的计算机视觉任务中。然而，全局池化操作将不可避免地丢失帧中的空间信息，这使得难以估计详细的人体姿态。在我们的方法中，为了同时执行空间和时间建模，我们以多种方式序列化输入视频剪辑，并基于多头自注意（MSA）[38]设计三种变体：多头空间自注意（MSA-S）、多头时间自注意（MSA-T）和多头自注意耦合（MSA-C）。然后，我们进一步设计了三种形式的时空编码器（STE）块，如图3所示，这赋予编码器全局空间感知和时间响应能力。最后，我们堆叠多个STE块来构造STE。MSA变体。标准MSA只能学习一维的注意，因此输入维度的不同顺序会影响学习到的注意的意义。我们提出的三种变体具有相似的模型结构，但在输入维度的顺序上不同。MSA-S的目标是在一个框架中找到关键的空间信息，如人体的关节和肢体。结果表明耦合块MSA-C MLPMSA-CQNT x dKNT x d VNT x NTNT x d串联段MSA-SMLPMSA-TMSA-TQN x T x dN x T x TKN x T x dVN x T x d注意加法αTC P FC SMαS缩放点乘法P 沿空间维度的均值池化逐元素乘法C沿特征标注进行元素加法FC SM全连接Softmax重塑重塑13037××××××× × × ×××RT∈∈∈∈RT--POS在图3（a）中的蓝色框中，其中每个自我注意头部输出大小为（T）的热图NN）计算通过缩放的点乘法。然而，在该设置中，不捕获帧之间的时间关系，因为一个帧中的片不与其他帧中的任何片交互。MSA-T与MSA-S非常相似，不同之处在于它首先将输入矩阵从size（T N d）至（N 不 d）如图3（b）中的绿框所示。MSA-T的每个头输出大小为（N T）的热图 T），其中每个分数反映了补丁对其他帧中相同位置的补丁的关注度。虽然时间语义模型明确，MSA-T忽略了空间关系的补丁在同一帧。MSA-C将块序列和帧序列结合在一起，即：，从大小（T）重新整形输入矩阵 Nd）至（T Nd），如图3（c）中的黄色框所示。以这种方式，大小（T NT N）的热图使得每个补丁能够与视频剪辑中的任何其他补丁交互。STE块。如图3所示，我们基于这些MSA变体设计了三种STE块。耦合块由MSA-C和多层感知（MLP）层组成，以耦合方式对时空信息进行然而，它大大增加了复杂度，因为点乘的复杂度是序列长度的平方。并联块和串联块分别将MSA-S和MSA-T并联和串联。对于并行块，集成两个分支的简单方法是简单地计算MSA-S和MSA-T的输出的元素平均值。为了动态地平衡时间和空间信息，我们计算关注的权重2321 191714151213169630（根）11820 22254811710图4：具有23个关节和一个根的运动树演示。箭头从父节点指向其子节点。3.4. 运动学拓扑解码器如前所述，以前的作品忽略了关节之间的固有依赖性，并认为它们同样重要。因此，我们设计了运动学拓扑解码器（KTD），隐式模型的注意力在联合水平。如图4所示，人体的姿势由组织为运动树的23个关节控制。我们首先回顾姿态参数如何在SMPL[26] 中旋转关节。如等式（ 3 ）所示，由 G k（、）R4×4等于变换矩阵在运动树中的祖先。α S，α T RT ×1×d。他们代表-分别沿着每个帧的特征通道的时间和空间分量的注意力分数Gk（R，T）=i∈YA（k）.Ri ti0 1（三）MSA-T和MSA-S的连接使得可以组合图像和视频数据集以训练更鲁棒的模型。当涉及到图像输入时，我们简单地绕过或断开块中的MSA-T以忽略不存在的时间信息。考虑到准确性和速度之间的权衡，我们根据经验选择了并行块在我们的STE，因为并行块能够动态调整空间和时间注意力之间的注意力权重，并产生最好的结果相比，其他变种。第4.4.2节详细讨论了时空位置编码。为了定位补丁的空间和时间位置，我们添加了两个独立的位置编码以将序列注入到其中=[R0，… Rk]， =[t0，…tK]。在SMPL之后，RkR3×3和tkR3×1分别表示关节k的旋转矩阵和平移向量A（k）是关节k的祖先的有序集合 A（5）= 0，2。因此，关节的位置受其自身和祖先姿势参数的影响。关节具有的子关节越多尽管如此，目前广泛使用的迭代反馈回归器[16，18]并没有更多地关注父关节，特别是运动树的根。因此，它只能得到次优结果。然而，我们提出的KTD可以避免这个问题。在KTD中，我们首先用一个ma-cam解码形状/凸轮参数如等式（4）所示的W形/W凸轮即空间位置编码ES∈R1×N×d和时间位置编码ES∈ R1×N×dβ=W形·x，ϕ⃗=Wcam·x(4)不POS∈RT ×1×d. 它们都是可训练的，其中W形∈R10×d，W凸轮∈R3×d，且x∈Rd 是输入序列矩阵STE提取的图像特征EΣ13038--∈··∈··∈模型输入3DPWMPI-INF-3DHPHuman3.6MPA-MPJPEMPJPEPvEAccelPA-MPJPEMPJPEPA-MPJPEMPJPEHMR[16] w/o 3DPW图像81.3130.0-37.489.8124.256.8 88.0[21]第二十一话图像70.2-----50.1-带[34]，带3DPW图像66.8-----55.4-Expose[9] w/o 3DPW图像60.793.4----- -SPIN[20] w/o 3DPW图像59.296.9116.429.867.5105.241.1-I2LMeshNet[29] w/o 3DPW图像57.793.2----41.155.7Pose2Mesh[8] w/o 3DPW2D姿态58.388.9----46.3 64.9TemporalContext[4] w/o 3DPW视频72.2-----54.3 77.8DSD-SATN[36] w/o 3DPW视频69.5-----42.4 59.1MEVA[27] w/3DPW视频54.786.9-11.665.496.453.2 76.0VIBE[18] w/o 3DPW视频56.593.5113.427.163.497.741.5 65.9VIBE[18] w/3DPW视频51.982.999.123.464.696.641.4 65.6我们的无3DPW视频50.788.8104.518.056.585.138.756.3我们的w/3DPW视频45.779.192.617.656.283.638.756.4表1：在3DPW、MPI-INF-3DHP和Human3.6M数据集上与现有技术方法的性能比较。粗体表示最佳结果。然后根据运动树的结构，按层次顺序迭代生成每个关节的位姿参数以图4中的接头0、2、5为例。我们首先利用STE的输出特征和一个可学习的线性回归器W0R6×d，i来预测根的姿态参数，即整体身体方向。e. ，ω0=W0x. 在这里，在[20]之后，我们使用[45]中提出的6D旋转表示以实现更快的收敛。然后，对于其子关节2，我们将图像特征x和ω0作为另一个线性回归器W2R6 ×（d+6）的输入，该线性回归器输出姿态参数ω2，i. e. ，ω2=W2Concat（x，ω0），其中Concat（）是级联运算。类似地，对于孙节点5，ω5=W5Conca t（x，ω0，ω2），W5R6×（d+12）. 该回归过程如图2所示。通过KTD，我们建立了Parent关节与其子关节之间的依赖关系，这与运动树结构一致在传统的回归器中，父关节的位姿估计误差在KTD中，错误也会传播到其子节点。这鼓励模型在关节级别学习注意力，并更多地关注父关节，以便实现更准确的估计结果。4. 实验4.1. 数据集训练根据以前的工作[16][20][18]，我们使用混合数据集进行训练，包括3D视频数据集，2D视频数据集和2D图像数据集。对于3D视频数据集，Human3.6M [14]和MPI-INF-3DHP [28]提供室内场景中的3D关键点和SMPL参数。对于2D视频数据集，PennAction [42]和PoseTrack [1] 提供地面实况 2D 关键点注释，而 In-staVariaty [17]提供伪2D关键点注释使用关键点检测器[5，19]。对于基于图像的数据集，采用COCO [25]，MPII [2]和LSP扩展[15]，提供野外2D关键点注释。同时，我们对3DPW [39]数据集进行消融研究。评价我们报告了在 Hu-man 3.6M [14]，MPI-INF-3DHP [28]和3DPW [39] eval上的实验结果。评估集我们采用了广泛使用的评估指标，遵循以前的工作[16][20][18]，包括Procrustes对齐的平均每关节位置误差（ PA-MPJPE ），平均每关节位置误差（ MPJPE ），每顶点误差（ PVE ）和加速误差（ACCEL）。我们报告了使用和不使用3DPW [39]训练集的结果，以便与以前的方法进行公平比较。4.2. 培训详细信息数据增强。水平翻转，随机裁剪，随机擦除[44]和颜色抖动被用来增加训练样本。相同视频输入的不同帧共享一致的增强参数。型号详细信息。在[11]之后，我们使用修改后的ResNet-50 [13]作为CNN主干来提取输入图像的基本特征。对于STE，堆叠6个STE平行块，并且每个块具有12个头部。我们采用[11]中的权重来初始化ResNet-50和STE。整个培训过程分为两个阶段。在第一阶段，模型旨在积累足够的空间先验知识，因此使用来自Human3.6M和MPI-INF- 3DHP的所有基于图像的数据集和帧进行对于这个阶段，我们将时期的数量固定为100，并且将迷你批次大小固定为512。在第二阶段，我们使用视频和图像数据集进行时间建模。对于视频数据集，我们以8的间隔采样16帧剪辑作为训练实例。我们为这个阶段训练另外100个epoch，该模型通过以下方式优化：13039→编码器解码器3DPWPA-MPJPEMPJPECNN迭代52.287.5CNNKTD50.988.0CNN+STE迭代47.580.2CNN+STEKTD45.779.1CNN52.287.5CNN+TE51.184.5CNN+SE49.884.5CNN+STE系列迭代48.583.6CNN+STE并行 v148.181.6CNN+STE并行 v247.580.2CNN+STE耦合49.382.6迭代47.580.2解码香草47.780.7CNN+STEKTD45.779.1KTD随机47.782.5KTD反向47.679.7表2：不同编码器和解码器的分析实验结果。CNN代表ResNet-50。”Itera- tive” represents the iterative feedbackAdam优化器，初始学习率为10- 4，在第60和第90个时期减少10。最后，损失函数中的每个项具有不同的加权系数。请参见Sup。Mat.以获取更多详细信息。所有实验都在16个Nvidia GTX1080ti GPU上进行。4.3. 与最新技术水平结果的在本节中，我们将我们的方法与3DPW、MPI-INF-3DHP和Hu-man 3. 6 M上的现有技术模型进行比较，结果总结在表1中。在3DPW和MPI-INF-3DHP数据集上，无论是否使用3DPW训练集，我们的方法都大大优于其他竞争对手，包括基于图像和视频的方法。在Human3.6M上，我们的方法实现了与I2LMeshNet [29]相当的结果。我们还观察到MEVA [27]，一种旨在产生平滑和准确结果的两阶段方法，在 3DPW 上的ACCEL度量中排名最佳。然而，考虑到所有指标，我们的方法总体上实现了更好的性能。这些结果验证了我们的假设，即在时空水平和人体关节水平上开发注意力有助于实现更准确的估计。这三个数据集（特别是在野外数据集3DPW）的领先性能证明了我们的方法的鲁棒性和现实世界的应用潜力。4.4. 消融研究4.4.1STE和KTD表2的上半部分验证了我们建议的STE和KTD。与CNN相比，编码器+迭代解码器，STE和KTD分别在PA-MPJPE度量上带来4.7和1.3 mm的改进此外，STE和KTD一起进一步将性能提高了6.5 mm。这证明了STE和KTD提取的不同层次的注意是相互补充而不是相互冲突的。我们还可以观察到，当使用CNN编码器时，PA-MPJPE度量中的KTD的增益小于使用CNN+STE编码器时的增益甚至MPJPE指标也有小幅下降。这是因为CNN由于全局池化操作而丢失了太多的空间信息，并且未能为KTD提供详细的人体线索。然而，由于去除了硬下采样，STE不仅保留了更多的空间信息，而且还更多地关注更多信息的位置，这使得KTD在关节之间捕获更精确的注意力。4.4.2不同编码器在表2的中间部分，我们比较了各种形式的STE的性能。SE表示仅具有MSA-S的编码器。TE表示仅保留MSA-T和CNN全局池化层的编码器STE并行 vl和STE并行v2分别表示并行块w/o和w/注意加法。我们的结论是，所有的变体STE受益的模型，而STE并行 v2产生最显着的增益。这是因为在并行块中动态计算的关注权重有效地充当调节通过网络的时间和空间信息的比例的阀当涉及到遮挡或模糊时，阀将允许更多的时间信息通过，以补充当前帧中的信息缺失，并且当当前帧清晰时，阀将允许更多的时间信息通过。令人惊讶的是，STE耦合只产生适度的改善编码器只有MSA- S（49.8 -49.3），它没有时间建模能力。我们还观察到，与其他STE变体相比，STE偶联收敛得更我们认为，扁平化的空间和时间维度一起可能会损害人体姿态估计，主要是由于非常长的序列。大量不相关的补丁（如背景和关节相隔太远）压倒了有效信息，使当前补丁难以分配合理的注意力。4.4.3不同解码器我们选择CNN+STE作为编码器，并在表2的下半部分报告不同解码器的结果。KTDrandom表示随机生成的运动树上的KTD。KTDreverse表示反向运动树上的KTD，即交换parent joint与其子节点之间的关系。解码器vanilla表示具有6层的[38]中的标准解码器它将13040网格空间时间(a) 极限姿势。空间注意力主要集中在人体关节上，而时间注意力主要集中在锚框附近网格空间时间(b) 后视图下杂乱的背景和闭塞。时间注意力的热图显示出相对较高的方差，表明当前帧需要参考更多的时间信息来弥补由遮挡引起的信息缺失图5：MAED的定性可视化更多可视化结果将在Sup.Mat中显示长度为37的零序列（24表示姿态，10表示形状和3用于相机）并输出SMPL参数。我们观察到，KTD优于迭代的大幅度。而KTD随机和KTD反向没有明显改善，甚至稍差，证明不合理的运动树是无用的先验知识，给网络的优化带来困难。我们还观察到Decodervanilla没有带来任何改善。虽然它可以捕捉到不同关节之间的关系与自我注意机制，所有关节的预测是同时生成的，而不是顺序的方式作为KTD。因此，它不能更多地关注父关节。4.5. 可视化分析图5包括来自两个代表性场景的MAED的定性结果。对于这些具有挑战性的情况，包括图5（a）中的极端姿势和图5（b）中的杂乱背景和遮挡，我们的模型预测合理的空间和时间注意力图，并进一步产生适当的估计。5. 结论本文介绍了MAED，一种方法，利用多层次的关注在时空水平和人体关节水平的三维人体形状和姿态估计。我们设计了MSA 和 STE块的多个变体来构建STE，以从CNN主干的输出特征中学习时空注意力。此外，我们提出了KTD，它模拟关节旋转的过程中SMPL运动树解码人体姿势。MAED在多个数据集上显著提高了精度，但也带来了不可忽略的计算开销，我们将在Sup中进一步探讨。Mat.因此，未来的工作可以考虑减少计算开销或扩展这种方法来捕获多个人之间的关系。13041引用[1] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集，第5167-5176页6[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在 Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition，第3686-3693页6[3] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画。ACM SIGGRAPH 2005论文，第408-416页。2005. 第1、3条[4] A.阿纳角Doersch和A.齐瑟曼。在野外利用三维人体姿态估计的时间背景。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。6[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集，第7291-7299页，2017年。6[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。二、三[7] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。arXiv预印本arXiv：2012.00364，2020。二、三[8] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络在欧洲计算机视觉会议上，第769Springer，2020年。6[9] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J Black。通过身体驱动注意力的单眼表达性身体回归。欧洲计算机视觉会议，第20-40页Springer，2020年。6[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。二、三[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。二三四六[12] Rohit Girdhar ， Joao Carreira ， Carl Doersch ， andAndrew Zis-serman. 视频行动 Transformer 网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第244-253页，2019年。3[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。6[14] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onPattern Analysis and Machine Intelligence，36（7 ）：1325-1339，2013. 6[15] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计。CVPR 2011，第1465-1472页。IEEE，2011年。6[16] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页，2018年。一二三五六[17] Angjoo Kanazawa、Jason Y Zhang、Panna Felsen和Jiten-dra Malik 。从视频中学习三维人体动力学。在IEEE/CVF计算机视觉和模式识别会议论文集，第5614-5623页，2019年。6[18] Muhammed Kocabas 、 Nikos Athanasiou 和 Michael JBlack。Vibe：用于人体姿势和形状估计的视频推理。在IEEE/CVF计算机视觉和模式识别会议论文集，第5253-5263页一二三五六[19] Muhammed Kocabas、Salih Karagoz和Emre Akbas。多个标签：基于姿态残差网络的快速多人姿态估计。欧洲计算机视觉会议论文集（ECCV），第417-433页，2018年。6[20] Nikos Kolotouros ， Georgios Pavlakos ， Michael JBlack，and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状。在IEEE/CVF计算机视觉国际会议论文集，第2252-2261页，2019年。一、三、六[21] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第4501-4510页，2019年。1、6[22] 纪尧姆·兰普和亚历克西斯·康纳。跨语言语言模型预训练。arXiv预印本arXiv：1901.07291，2019。3[23] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人类表现之间的循环。在IEEE计算机视觉和模式识别会议论文集，第6050-6059页，2017年。3[24] Mike Lewis ， Yinhan Liu ， Naman Goyal ， MarjanGhazvinine-jad，Abdelrahman Mohamed，Omer Levy，Ves Stoyanov，and Luke Zettlemoyer.Bart：用于自然语言生成、翻译和理解的序列到序列预训练去噪。arXiv预印本arXiv：1910.13461，2019。3[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014. 613042[26] Matthew Loper 、 Naureen Mahmood 、 Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。ACM图形交易（TOG），34（6）：1-16，2015。一、二、三、五[27] Zhengyi Luo，S Alireza Golestaneh，and Kris M Kitani.经由运动压缩和细化的3D人体运动估计。2020年亚洲计算机

下载后可阅读完整内容，剩余1页未读，立即下载