3D到3D提升方法[32,33]通过从2D姿势重建3D姿势来解决2D姿势估计的问题

197 浏览量更新于2023-10-13 收藏 13.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116560具有空间和时间Transformer的3D人体姿势估计0Ce Zheng 1 , Sijie Zhu 1 , Matias Mendieta 1 , Taojiannan Yang 1 , Chen Chen 1 , Zhengming Ding 201 Center for Research in Computer Vision, University of Central Florida,USA 2 Department of Computer Science, Tulane University, USA0{cezheng,sizhu,mendieta,taoyang1122}@knights.ucf.edu;0chen.chen@crcv.ucf.edu;zding1@tulane.edu0摘要0Transformer架构已成为自然语言处理中的首选模型，并且现在也被引入到计算机视觉任务中，如图像分类、目标检测和语义分割。然而，在人体姿势估计领域，卷积架构仍然占主导地位。在这项工作中，我们提出了PoseFormer，一种纯Transformer的方法，用于在视频中进行3D人体姿势估计，而不涉及卷积架构。受到最近视觉Transformer的发展启发，我们设计了一个时空Transformer结构，全面地对每个帧内的人体关节关系以及帧间的时间相关性进行建模，然后输出中心帧的准确3D人体姿势。我们在两个流行的标准基准数据集Human3.6M和MPI-INF-3DHP上对我们的方法进行了定量和定性评估。广泛的实验证明，PoseFormer在两个数据集上都达到了最先进的性能。代码可在https://github.com/zczcwh/PoseFormer上找到。01. 引言0人体姿势估计（HPE）旨在从输入数据（例如图像和视频）中定位关节并构建人体表示（例如骨架位置）。HPE提供人体的几何和运动信息，并可应用于广泛的应用领域（例如人机交互、运动分析、医疗保健）。目前的研究通常可以分为两类：（1）直接估计方法，和（2）2D到3D提升方法。直接估计方法[31,29]从2D图像或视频帧中推断出3D人体姿势，而不需要中间估计2D姿势表示。2D到3D提升方法[25, 5, 43,38]从中间估计的2D姿势中推断出3D人体姿势。由于最先进的2D姿势检测器的出色性能，2D到3D提升方法通常优于直接估计方法。0然而，将这些2D姿势映射到3D是非常困难的；由于深度模糊和遮挡，同一个2D姿势可能会生成多个潜在的3D姿势。为了减轻这些问题并保持自然的连贯性，许多最近的研究将视频中的时间信息整合到他们的方法中。例如，[25,5]利用时间卷积神经网络（CNN）从相邻帧中捕捉全局依赖关系，[33]使用循环架构以类似的方式。然而，这些架构的时间相关窗口都是有限的。基于CNN的方法通常依赖于扩张技术，其时间连接性有限，而循环网络主要局限于简单的顺序相关性。最近，Transformer[37]由于其高效、可扩展和强大的建模能力，已成为自然语言处理（NLP）的事实上的模型。由于Transformer的自注意机制，可以明显地捕捉到长输入序列中的全局相关性。这使得它特别适用于序列数据问题，并且自然地可扩展到3DHPE。由于其全面的连接性和表达能力，Transformer为跨帧学习更强的时间表示提供了机会。然而，最近的研究[12,36]表明，为了在视觉任务中达到与CNN对应模型相当的性能，Transformer需要特定的设计。具体而言，如果应用于较小的数据集，它们通常需要极大规模的训练数据集[12]或增强的数据增强和正则化[36]。此外，现有的视觉Transformer主要局限于图像分类[12, 36]、目标检测[4,50]和分割[41, 47]，但如何利用Transformer的能力进行3DHPE仍然不清楚。为了开始回答这个问题，我们首先直接将Transformer应用于2D到3D提升的HPE。在这种情况下，我们将给定序列中每个帧的整个2D姿势视为一个标记（图1（a））。虽然这种基线方法在一定程度上是有效的，但它忽略了自然的区分性。Input 2D pose sequence (f frames)…………Coordinates of all J joints(J: # of joints)…Input 2D pose sequence (f frames)……………………116570标记化0f 个令牌0变换器0标记化0f × J 个令牌0变换器0（a）（b）0图1. 两种基线方法。0空间关系（关节到关节之间）存在潜在的改进空间。这个基线的自然扩展是将每个2D关节坐标视为一个令牌，并提供一个由这些关节组成的输入，跨越整个序列的所有帧（图1（b））。然而，在这种情况下，当使用长帧序列时，令牌的数量会越来越大（在3DHPE中，每个帧通常有243个帧和17个关节，令牌的数量将为243×17=4131）。由于变换器将每个令牌与另一个令牌进行直接关注，模型的内存需求接近不合理的水平。因此，作为这些挑战的有效解决方案，我们提出了PoseFormer，这是第一个用于视频中的2D到3D提升HPE的纯变换器网络。PoseFormer直接模拟了空间和时间方面，使用不同的变换器模块来处理两个维度。PoseFormer不仅在空间和时间元素上产生强大的表示，而且在长输入序列中不会引起巨大的令牌数量。从高层次来看，PoseFormer只需从现成的2D姿势估计器中获取一系列检测到的2D姿势，并输出中心帧的3D姿势。更具体地说，我们构建了一个空间变换器模块，用于编码每个帧中2D关节之间的局部关系。空间自注意层考虑2D关节的位置信息，并返回该帧的潜在特征表示。接下来，我们的时间变换器模块分析每个空间特征表示之间的全局依赖关系，并生成准确的3D姿势估计。在两个流行的3DHPE基准测试Human3.6M [16]和MPI-INF-3DHP[27]上进行的实验评估表明，PoseFormer在两个数据集上都达到了最先进的性能。我们将我们的估计的3D姿势与最先进的方法进行可视化比较，并发现PoseFormer产生了更平滑和更可靠的结果。此外，我们在消融研究中提供了PoseFormer注意力图的可视化和分析，以了解我们模型的内部工作原理并证明其有效性。我们的贡献有三个方面：•我们提出了第一个基于纯变换器的模型PoseFormer，用于2D到3D提升。0•我们设计了一种有效的空间-时间变换器模型，其中空间变换器模块编码了局部关系。0人体关节之间的空间关系，而时间变换器模块则捕捉整个序列中的全局依赖关系。0•在没有花哨的技巧的情况下，我们的PoseFormer模型在Human3.6M和MPI-INF-3DHP数据集上取得了最先进的结果。02. 相关工作0在这里，我们具体总结了3D单人单视角HPE方法。直接估计方法从2D图像中推断出3D人体姿势，而不需要中间估计2D姿势表示。2D到3D提升方法利用2D姿势作为输入生成相应的3D姿势，在这个领域的最先进方法中更受欢迎。任何现成的2D姿势估计器都可以与这些方法有效兼容。我们提出的方法PoseFormer也遵循2D到3D提升流程，因此我们将主要关注这些方法。2D到3D提升HPE。2D到3D提升方法利用从输入图像或视频帧估计的2D姿势。OpenPose [3]、CPN[6]、AlphaPose [13]和HR-Net[35]已广泛用作2D姿势检测器。基于这种中间表示，可以使用各种方法生成3D姿势。Martinez等人[26]提出了一个简单而有效的全连接残差网络，根据单个帧的2D关节位置回归出3D关节位置。然而，与从单眼图像估计3D人体姿势不同，视频可以提供时间信息以提高准确性和鲁棒性[49，10，32，8，2，44，38]。Hossain和Little[33]提出了一个使用长短期记忆（LSTM）单元的递归神经网络，以利用输入序列中的时间信息。几个工作[10，2，21]利用空间-时间关系和约束（如骨长和左右对称性）来提高性能。Pavllo等人[32]引入了一个时间卷积网络，用于从连续的2D序列中估计2D关键点的3D姿势。基于[32]，Chen等人[5]添加了一个骨方向模块和骨长模块，以确保视频帧之间的时间一致性，Liu等人[25]利用注意机制识别重要帧。然而，先前的最先进方法（例如[25，5]）依赖于扩张的时间卷积来捕捉全局依赖关系，这在时间连接方面本质上是有限的。此外，这些工作中的大多数[25，5，33，32]将关节坐标投影到潜在空间中，使用简单的操作，而不考虑人体关节的运动学相关性。3DHPE中的GNN。自然地，人体姿势可以表示为一个图，其中关节是节点，骨头是边缘。图神经网络（GNN）也已应用于2D到3D姿势提升问题。…123789PE1PE2PE3PE8PE9PE7…TemporalPositionEmbeddingMLPLayer Norm Layer Norm Multi-HeadAttention…123789PE1PE2PE3PE8PE9PE7…TemporalPositionEmbedding…2D pose (e.g., 17 joints)123151617PE1PE2PE3PE16PE17PE15…SpatialPositionEmbedding......Joint coordinate(x, y)(x1,y1)(x2,y2)(x17,y17)1165802D姿势序列（例如，9帧）0时间变换器编码器0补丁嵌入0回归头02D姿势序列（例如，9帧）0时间变换器编码器0空间变换器0回归头0变换器编码器0补丁嵌入0编码特征（a）（b）0空间变换器0L ×0图2. (a) 时间变换器基线。 (b)时空变换器(PoseFormer)架构，包括三个模块。一个用于提取特征并考虑每个单独骨架的关节相关性的空间变换器模块。一个用于学习整个序列的全局依赖关系的时间变换器模块。一个回归头模块回归中心帧的最终3D姿势。变换器编码器的插图后面是ViT[12]。0并取得了有希望的性能[9, 45,24]。Ci等人[9]提出了一个名为局部连接网络（LCNs）的框架，它利用了全连接网络和GNN操作来编码局部关节邻域之间的关系。Zhao等人[45]解决了图卷积网络[19]（GCN）操作的一个限制，即权重矩阵如何在节点之间共享。引入了语义图卷积操作来学习边的通道权重。0对于我们的PoseFormer，变换器可以被视为一种具有独特且通常有优势的图神经网络操作。具体来说，变换器编码器模块本质上形成了一个全连接图，其中边权重是使用输入条件的多头自注意力计算的。该操作还包括节点特征的归一化、对注意力头输出的前馈聚合器以及使其能够有效地与堆叠的层一起扩展的残差连接。与其他图操作相比，这种操作可能具有优势。例如，节点之间的连接强度是由变换器的自注意机制决定的，而不是像典型的基于GCN的公式中那样通过邻接矩阵预定义的。这使得模型可以根据每个输入姿势适应关节之间的相对重要性。此外，变换器的全面缩放和归一化组件很可能有助于减轻许多GNN操作变体在堆叠多个层时产生的过度平滑效应的问题[48]。0视觉变换器。最近，在将变换器应用于视觉任务方面出现了越来越多的兴趣[17,14]。Carion等人[4]提出了一种用于目标检测和全景分割的DEtection TRansformer（DETR）。Doso-vitskiy等人[12]提出了一种纯变换器架构，VisionTransformer（ViT），在图像分类方面取得了最先进的性能。然而，ViT0在大规模数据集ImageNet-21k和JFT-300M上进行了训练，需要巨大的计算资源。然后，提出了一种数据高效的图像变换器(DeiT)[36]，它基于知识蒸馏构建在ViT之上。对于HPE等回归问题，Yang等人[40]提出了一种变换器网络Transpose，它仅从图像中估计2D姿势。Lin等人[23]将CNN与变换器网络结合在他们的方法METRO(MEshTRansfOrmer)中，从单个图像中重建3D姿势和网格顶点。与我们的方法相比，METRO属于直接估计的范畴。此外，METRO忽略了时间一致性，这限制了其估计的鲁棒性。我们的时空变换器架构在每个帧中利用关键点相关性，并保持视频中的自然时间连贯性。03. 方法0我们遵循与[26, 32, 25, 5]中3DHPE的2D到3D提升流程相同。每帧的2D姿势是通过现成的2D姿势检测器获得的，然后连续帧的2D姿势序列被用作估计中心帧的3D姿势的输入。与基于CNN的先前最先进模型相比，我们提出了一个非常有竞争力的无卷积变换器网络。03.1. 时间变换器基线0作为2D到3D提升的基线应用，我们将每个2D姿势视为一个输入令牌，并使用变换器来捕捉输入之间的全局依赖关系，如图2（a）所示。我们将每个输入令牌称为一个patch，与ViT [12]的术语类似。对于输入序列 X ∈ R f × ( J ∙ 2)，f是输入序列的帧数，J是每个2D姿势的关节数，2表示2D空间中的关节坐标。{ x i ∈ R 1 × ( J ∙ 2) | i = 1 , 2 , . . . f}表示每个帧的输入向量。patch嵌入是一个可训练的线性Z0 = [x1E; x2E; . . . ; xfE] + Epos.(1)Attention(Q, K, V ) = Softmax(QK⊤/d)V.(2)QKVMSA(Q, K, V ) = Concat(H1, H2, . . . , Hh)Wout(4)Z′ℓ = MSA(LN(Zℓ−1)) + Zℓ−1,ℓ = 1, 2 . . . L(6)Zℓ = MLP(LN(Z′ℓ)) + Z′ℓ,ℓ = 1, 2, . . . L(7)Y = LN(ZL),(8)116590投影层将每个patch嵌入到高维特征中。变换器网络利用位置嵌入来保留序列的位置信息。该过程可以表示为：0通过线性投影矩阵 E ∈ R ( J ∙ 2) × C 进行嵌入，并与位置嵌入 E pos ∈ R f × C相加，输入序列 X ∈ R f × ( J ∙ 2) 变为 Z 0 ∈ R f × C，其中 C 是嵌入维度。Z 0被发送到时间变换器编码器。作为变换器的核心功能，自注意力被设计用于将输入序列的不同位置与嵌入特征相关联。我们的变换器编码器由多头自注意力块和多层感知机（MLP）块组成，与[12]中的结构相同。在每个块之前应用LayerNorm，在每个块之后应用残差连接。缩放点积注意力可以被描述为将查询矩阵 Q，键矩阵 K 和值矩阵 V映射到输出注意力矩阵的映射函数。其中 Q，K，V ∈ R N × d，N是序列中向量的数量，d 是维度。缩放因子为 1 √0在这个注意力操作中，d用于适当的归一化，防止当d的值较大时，点积的结果变得很大时梯度过小。因此，缩放点积注意力的输出可以表示为：0在我们的时间变换器中，d = C，N = f。通过线性变换 WQ，W K 和 W V ∈ R C × C，从嵌入特征 Z ∈ R f × C计算得到 Q，K 和 V：0多头自注意力层（MSA）利用多个头并行地从不同位置的各个表示子空间中共同建模信息。每个头并行应用缩放点积注意力。MSA的输出将是 h 个注意力头输出的串联。0其中 H i = Attention( Q i , K i , V i ) ，i ∈ [1 , ...,h ] (5)0给定我们嵌入特征 Z 0 ∈ R f ×C，L层的时间变换器编码器结构可以表示如下：0其中 LN( ∙ )表示层归一化运算符（与ViT中相同）。时间变换器编码器con-0由L个相同的层组成，编码器输出Y ∈ R f × C0保持与编码器输入Z0 ∈ R f × C相同的大小。为了预测中心帧的3D姿势，编码器输出Y ∈ Rf × C 被缩小为向量y ∈ R 1 ×C，通过在帧维度上取平均值。最后，一个MLP块将输出回归为y ∈ R 1 × (J∙3)，即中心帧的3D姿势。03.2. PoseFormer：空间-时间变换器0我们观察到时间变换器基线主要关注输入序列中帧之间的全局依赖关系。补丁嵌入是一种线性变换，用于将关节坐标投影到隐藏维度。然而，由于简单的线性投影层无法学习注意力信息，因此在时间变换器基线中，局部关节坐标之间的运动信息没有得到很好的表示。一种潜在的解决方法是将每个关节坐标视为一个单独的补丁，并将所有帧的关节作为输入馈送到变换器中（参见图1（b））。然而，补丁的数量会迅速增加（帧数f乘以关节数J），导致模型的计算复杂度为O((f∙J)2)。例如，如果我们使用81帧和每个2D姿势的17个关节，补丁的数量将为1377（ViT模型使用576个补丁（输入尺寸=384×384，补丁尺寸=16×16））。为了有效地学习局部关节之间的相关性，我们分别使用两个独立的变换器来处理空间和时间信息。如图2（b）所示，PoseFormer由三个模块组成：空间变换器模块、时间变换器模块和回归头模块。空间变换器模块。空间变换器模块用于从单个帧中提取高维特征嵌入。给定具有J个关节的2D姿势，我们将每个关节（即两个坐标）视为一个补丁，并按照一般的视觉变换器流程在所有补丁之间执行特征提取。首先，我们使用可训练的线性投影将每个关节的坐标映射到高维度，这被称为空间补丁嵌入。我们将其与可学习的空间位置嵌入[12] E_SP os ∈R J × c 相加，因此第i帧的输入x_i ∈ R 1 × (J∙2) 变为z_i0∈ R J ×c，其中2表示每个帧的2D坐标，c是空间嵌入维度。得到的特征序列z_i0的关节被馈送到空间变换器编码器，该编码器应用自注意机制来整合所有关节的信息。对于第i帧，空间变换器编码器的输出将为z_iL ∈ R J ×c。时间变换器模块。由于空间变换器模块为每个单独的帧编码了高维特征，时间变换器模块的目标是对帧序列之间的依赖关系进行建模。对于第i帧，空间变换器的输出为Y ∈ Rf × C。为了预测中心帧的3D姿势，编码器输出Y ∈ R f × C被缩小为向量y ∈ R 1 ×C，通过在帧维度上取平均值。最后，一个MLP块将输出回归为y ∈ R 1 × (J∙3)，即中心帧的3D姿势。116600变换器z_iL ∈ R J × c 被展平为向量z_i ∈ R 1 ×(J∙c)。然后，我们将这些向量{z1, z2, ...,zf}从f个输入帧连接起来，得到Z0 ∈ R f ×(J∙c)。在时间变换器模块之前，我们添加可学习的时间位置嵌入[12] ETPos ∈ R f × (J∙c)以保留帧位置信息。对于时间变换器编码器，我们应用与空间变换器编码器相同的架构，包括多头自注意块和MLP块。时间变换器模块的输出为Y ∈ R f ×(J∙c)。回归头。由于我们使用一系列帧来预测中心帧的3D姿势，时间变换器模块的输出Y ∈ R f × (J∙c) 需要缩减为y ∈R 1 ×(J∙c)。我们在帧维度上应用加权平均操作（使用学习的权重）来实现这一点。最后，一个简单的MLP块，带有层归一化和一个线性层，返回输出y ∈ R 1 ×(J∙3)，即中心帧的预测3D姿势。损失函数。为了训练我们的空间-时间变换器模型，我们应用标准的MPJPE（平均关节位置误差）损失来最小化预测姿势与真实姿势之间的误差。0L = 10JΣJk=1∥pk−ˆpk∥2，(9)0其中pk和ˆpk分别是第k个关节的地面真实和估计的3D关节位置。04. 实验04.1. 数据集和评估指标0我们在两个常用的3D HPE数据集Human3.6M[16]和MPI-INF-3DHP[27]上评估我们的模型。Human3.6M[16]是最常用的室内3D单人HPE数据集。有11位专业演员在室内环境中表演17个动作，如坐、走路和打电话。每个主体的视频从4个不同的视角录制。该数据集包含360万帧的视频，通过准确的基于标记的运动捕捉系统进行了3D地面真实注释。我们采用了之前的工作[32, 25,5]相同的实验设置：所有15个动作用于训练和测试，模型在五个部分（S1、S5、S6、S7、S8）上进行训练，并在两个主体（S9和S11）上进行测试。MPI-INF-3DHP[27]是一个更具挑战性的3D姿势数据集。它包含受限的室内场景和复杂的室外场景。有8位演员在14个摄像机视角下表演8个动作，涵盖了更多姿势的多样性。MPI-INF-3DHP提供了一个包含6个主体的测试集，场景不同。我们遵循[22,5,38]中的设置。对于Human3.6M数据集，我们使用最常见的评估指标（MPJPE和P-MPJPE）[46]来评估我们的估计与地面真实3D姿势的性能。MPJPE（平均关节位置误差）的计算方式为0作为每个关节的估计关节与地面真实关节之间的平均欧氏距离，我们将MPJPE称为协议1。P-MPJPE是经过刚性对齐的估计3D姿势和地面真实姿势之间的MPJPE，对于单个关节预测失败更具鲁棒性。我们将P-MPJPE称为协议2。对于MPI-INF-3DHP数据集，我们使用MPJPE、150毫米范围内的正确关键点百分比（PCK）[22, 5,38]和曲线下面积（AUC）进行评估。04.2. 实现细节0我们使用Pytorch[30]实现了我们提出的方法。在训练和测试中使用了两个NVIDIA RTX 3090GPU。在进行实验时，我们选择了三种不同的帧序列长度，即f = 9，f = 27，f =81。有关具有结果的帧数的详细信息在消融研究中讨论（第4.4节）。我们在训练和测试中都应用了水平姿势翻转作为数据增强，遵循[32, 25, 5]。我们使用Adam[18]优化器进行130个epoch的模型训练，权重衰减为0.1。我们采用指数学习率衰减策略，初始学习率为2e-4，每个epoch的衰减因子为0.98。我们将批量大小设置为1024，并在变换器编码器层中采用随机深度[15]，深度率为0.1。对于2D姿势检测器，我们使用Human3.6M上的级联金字塔网络（CPN）[7]，遵循[32, 25,5]，并使用地面真实2D姿势作为MPI-INF-3DHP的输入[28,22]。04.3. 与最先进方法的比较0Human3.6M .我们在测试集（S9和S11）中报告了所有15个动作结果，见表1。最后一列提供了测试集上的平均性能。按照2D到3D的转换方法，我们使用CPN网络作为2D姿势检测器，然后将检测到的2D姿势用于训练和测试。在协议1和协议2下，PoseFormer相对于我们的基线（即第3.1节中的时间变换器基线）有很大的优势（分别为6.1%和6.4%）。这清楚地证明了使用空间变换器来表达每个帧中关节之间的相关性的优势。在协议1下，PoseFormer的平均MPJPE为44.3毫米，如表1（顶部）所示。与忽略时间一致性的基于变换器的方法METRO[23]相比，由于3D姿势是由单个图像估计的，PoseFormer将MPJPE减少了约18%。对于协议2，我们还获得了最佳的整体结果，如表1（底部）所示。此外，PoseFormer在Photo、SittingDown、WalkDog和Smoke等难度较大的动作上实现了更准确的姿势预测。与其他简单的动作不同，这些动作中的姿势变化更快，一些远距离的帧之间有很强的相关性。在这种情况下，全局依赖关系起着重要的作用。Table 1. Quantitative comparison of Mean Per Joint Position Error between the estimated 3D pose and the ground truth 3D pose onHuman3.6M under Protocols 1&2 using the detected 2D pose as input. Top-table: results under Protocol 1 (MPJPE). Bottom-table: resultsunder Protocol 2 (P-MPJPE). f denotes the number of input frames used in each method, ∗ indicates that the input 2D pose is detected bythe cascaded pyramid network (CPN), and † denotes a Transformer-based model. (Red: best; Blue: second best)Protocol 1Dir.Disc.Eat.GreetPhonePhotoPosePurch.SitSitD.SomkeWaitWalkD.WalkWalkT.AverageDabral et al. [11]ECCV’1844.850.444.749.052.961.443.545.563.187.351.748.552.237.641.952.1Cai et al. [2] (f = 7)ICCV’1944.647.445.648.850.859.047.243.957.961.949.746.651.337.139.448.8Pavllo et al. [32] (f = 243)*CVPR’1945.246.743.345.648.155.144.644.357.365.847.144.049.032.833.946.8Lin et al. [22] (f = 50)BMVC’1942.544.842.644.248.557.152.641.456.564.547.443.048.133.035.146.6Yeh et al. [42]NIPS’1944.846.143.346.449.055.244.644.058.362.747.143.948.632.733.346.7Liu et al. [25] (f = 243)*CVPR’2041.844.841.144.947.454.143.442.256.263.645.343.545.331.332.245.1SRNet [43] *ECCV’2046.647.143.941.645.849.646.540.053.461.146.142.643.131.532.644.8UGCN [38] (f = 96)ECCV’2041.343.944.042.248.057.142.243.257.361.347.043.547.032.631.845.6Chen et al. [5] (f = 81)*TCSVT’2142.143.841.043.846.153.542.443.153.960.545.742.146.232.233.844.6METRO [23] (f = 1) †CVPR’21---------------54.0Baseline (f = 81)*†43.847.943.845.549.755.744.345.857.766.347.445.448.632.533.847.2PoseFormer (f = 81)*†41.544.839.842.546.551.642.142.053.360.745.543.346.131.832.244.3Protocol 2Dir.Disc.Eat.GreetPhonePhotoPosePurch.SitSitD.SomkeWaitWalkD.WalkWalkT.AveragePavlakos et al. [31]CVPR’1834.739.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8Hossain et al. [33]ECCV’1835.739.344.643.047.254.038.337.551.661.346.541.447.334.239.444.1Cai et al. [2] (f = 7)ICCV’1935.737.836.940.739.645.237.434.546.950.140.536.141.029.632.339.0Lin et al. [22] (f = 50)BMVC’1932.535.334.336.237.843.033.032.245.751.838.432.837.525.828.936.8Pavllo et al. [32] (f = 243)*CVPR’1934.136.134.437.236.442.234.433.645.052.537.433.837.825.627.336.5Liu et al. [25] (f = 243)*CVPR’2032.335.233.335.835.941.533.232.744.650.937.032.437.025.227.235.6UGCN [38] (f = 96)ECCV’2032.935.235.634.436.442.731.232.545.650.237.332.836.326.023.935.5Chen et al. [5] (f = 81)*TCSVT’2133.135.333.435.936.141.732.833.342.649.437.032.736.525.527.935.6Baseline (f = 81)*†33.637.135.436.737.842.233.934.747.053.438.234.337.625.327.837.0PoseFormer (f = 81)*†32.534.832.634.635.339.532.132.042.848.534.832.435.324.526.034.6role, and the attention mechanisms of the transformer areparticularly advantageous.To further investigate the lower bound of our method,we directly use the ground truth 2D pose as input to alle-viate error caused by noisy 2D pose data. The results areshown in Table 2. The MPJPE is reduced from 44.3mmto 31.3mm, about 29.7% by using the clean 2D pose data.PoseFormer achieves the best score in 9 actions and the sec-ond best score in 6 actions. The average score is improvedby approximately 2% compared with SRNet [43].In Fig. 3, we also compare the MPJPE for some of the in-dividual joints which have the largest errors on Human3.6Mtest set S11 with action Photo. PoseFormer achieves betterperformance on these difﬁcult joints than [32, 5].43.3115.947.546.2105.745.490.958.543.3121.451.950.1105.341.494.355.837.7112.444.744.198.238.885.153.90.020.040.060.080.0100.0120.0140.0R KneeR WristNeckHeadL WristR Shoulder R ElbowavgMPJPEPavllo et al. CVPR'19Chen et al. TCSVT'21OursPoseFormer (Ours)116610图3. Human3.6M测试集S11上Photo动作的平均关节误差比较。0MPI-INF-3DHP。表3报告了PoseFormer与其他方法在MPI-INF-3DHP上的定量结果。与Human3.6M相比，该数据集的训练样本较少，其中一些样本来自室外场景。由于该数据集通常具有较短的序列长度，我们使用9帧的2D姿势作为模型输入。我们的方法在所有三个评估指标（PCK，AUC和MPJPE）上再次取得了最佳性能。0定性结果。我们还提供了3D估计姿势与地面真实姿势之间的视觉比较。我们在Human3.6M测试集S11上评估PoseFormer与Photo动作，这是最具挑战性的动作之一（所有方法都具有较高的MPJPE）。与最先进的方法[5]相比，我们的PoseFormer在预测准确性上取得了更好的结果，如图4所示。04.4. 消融研究0为了验证PoseFormer的各个组件对性能的贡献以及超参数的影响，我们在Human3.6M数据集上进行了广泛的消融实验，使用Protocol1进行评估。PoseFormer的设计。我们研究了空间变换器以及空间和时间变换器的位置嵌入对性能的影响，如表4所示。我们输入9帧CPN检测到的2D姿势（J =17）来预测3D姿势。为了公平比较每个模块的影响，所有架构参数都是固定的；空间变换器嵌入维度为17 × 32 =544，空间变换器编码器层数为4。对于时间变换器，嵌入维度与空间变换器一致（即544），我们还应用了4个时间变换器层。为了验证我们的空间-时间设计的影响，我们首先与第3.1节中开始的变换器基线进行比较。表4中的结果表明，我们的空间-时间变换器产生了显著影响（从52.5降至49.9MPJPE），因为关节之间的相关性更强烈地建模。这也与表1中的结果（基线与PoseFormer）一致，当f =81时。接下来，我们评估位置嵌入的影响。我们探索了四种可能的组合：无位置嵌入、仅空间位置嵌入、仅时间位置嵌入以及空间和时间位置嵌入。116620表2. 使用地面真实2D姿势作为输入，在Human3.6M数据集上根据Protocol1（MPJPE）对估计的3D姿势和地面真实3D姿势进行关节位置误差的定量比较。（红色：最佳；蓝色：次佳）0GT Protocol 1 Dir. Disc. Eat. Greet Phone Photo Pose Purch. Sit SitD. Somke Wait WalkD. Walk WalkT. Average0Hossain等人[33] ECCV'18 35.2 40.8 37.2 37.4 43.2 44.0 38.9 35.6 42.3 44.6 39.7 39.7 40.2 32.8 35.5 39.2 Pavllo等人[32]（f = 243）CVPR'19 - - - - - - - - - - - - - - - 37.2 Liu等人[25]（f = 243）CVPR'20 34.5 37.133.6 34.2 32.9 37.1 39.6 35.8 40.7 41.4 33.0 33.8 33.0 26.6 26.9 34.7 SRNet [43] ECCV'20 34.8 32.1 28.5 30.7 31.4 36.9 35.6 30.5 38.9 40.5 32.5 31.0 29.9 22.5 24.5 32.00Chen等人[5]（f = 243）TCSVT'21 - - - - - - - - - - - - - - - 32.30PoseFormer（f = 81）30.0 33.6 29.9 31.0 30.2 33.3 34.8 31.4 37.8 38.6 31.7 31.5 29.0 23.3 23.1 31.30图4. 我们的方法（PoseFormer）与SOTA方法Chen等人[5]在Human3.6M测试集S11上Photo动作的定性比较

下载后可阅读完整内容，剩余1页未读，立即下载