MHFormer：3D人体姿势估计的多假设变换器

156 浏览量更新于2023-10-25 收藏 20.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

131470MHFormer：用于3D人体姿势估计的多假设变换器0Wenhao Li 1 Hong Liu 1,* Hao Tang 2 Pichao Wang 3 Luc Van Gool 201 机器感知重点实验室，北京大学深圳研究生院 2 ETH Zurich计算机视觉实验室 3阿里巴巴集团0{ wenhaoli,hongliu } @pku.edu.cn0{ hao.tang,vangool } @vision.ee.ethz.ch pichao.wang@alibaba-inc.com0摘要0从单目视频中估计3D人体姿势是一项具有挑战性的任务，由于深度模糊和自遮挡而变得困难。大多数现有的方法试图通过利用空间和时间关系来解决这两个问题。然而，这些方法忽视了一个事实，即这是一个反问题，存在多个可行的解决方案（即假设）。为了缓解这个限制，我们提出了一种多假设变换器（MHFormer），它学习多个合理姿势假设的时空表示。为了有效地建模多假设之间的依赖关系并建立假设特征之间的强关系，任务被分解为三个阶段：（i）生成多个初始假设表示；（ii）建模自假设通信，将多个假设合并为单个收敛表示，然后将其分成几个分散的假设；（iii）学习跨假设通信并聚合多假设特征以合成最终的3D姿势。通过上述过程，最终的表示被增强，合成的姿势更加准确。大量实验证明，MHFormer在两个具有挑战性的数据集Human3.6M和MPI-INF-3DHP上取得了最先进的结果。在没有花哨的技巧的情况下，其性能超过了之前最好结果的3%。代码和模型可在https://github.com/Vegetebird/MHFormer获得。01. 引言0从单目视频中估计3D人体姿势（HPE）是一项基本的视觉任务，具有广泛的应用，如动作识别[23, 24,39]，人机交互[7]和增强/虚拟现实[31]。这个任务通常通过将其分解为两个解耦的子任务来解决，即2D姿势检测以定位关键点。0*通讯作者：hongliu@pku.edu.cn。本工作得到了中国国家重点研发计划（No. 2020AAA0108904）和深圳市科技计划（No.JCYJ20200109140410340）的支持。0输入 Poseormer（我们的）0新视角0图1.给定一个有遮挡的人体部位（右臂和肘部）的帧，最近的一种先进的3D HPE方法PoseFormer[46]输出了一个与2D输入不一致的单一解决方案。相比之下，我们的MHFormer生成了多个符合2D证据的合理假设（不同的颜色），最终合成了一个更准确的3D姿势（绿色）。为了方便比较，输入帧以新的视角显示。0在图像平面上，然后通过2D到3D的提升来从2D关键点推断出3D空间中的关节位置。尽管它们的性能令人印象深刻[4, 9,29,34]，但由于2D表示中的自遮挡和深度模糊，它仍然是一个固有的不适定问题。为了缓解这些问题，大多数方法[2, 11, 38,46]侧重于探索空间和时间关系。它们要么使用图卷积网络来估计具有人体骨架的时空图表示的3D姿势[2, 11,38]，要么应用纯Transformer模型从2D姿势序列中捕捉空间和时间信息[46]。然而，从单目视频中进行2D到3D的提升是一个反问题[1]，由于缺失的深度，存在多个可行的解决方案（即假设）。这些方法忽视了这个问题，只估计一个解决方案，这往往会导致不令人满意的结果，特别是当人物严重遮挡时（见图1）。最近，已经提出了一些针对这个反问题生成多个假设的方法[14, 16, 35,40]。它们通常通过向现有架构添加多个输出头和共享特征提取器来依赖于一对多映射，但未能建立不同假设特征之间的关系。这是一个重要的缺点，因为这种能力对于改进131480生成收敛综合分0自我通信0交叉通信0多假设生成（MHG）0自我假设0细化（SHR）0交叉假设交互（CHI）0图2.提出的MHFormer通过从生成多个初始表示开始，然后以独立和相互的方式在它们之间进行通信，构建了一个三阶段的框架，以合成更精确的估计。为了方便说明，我们只展示了以单帧2D姿势作为输入的过程。0对于3DHPE的模糊逆问题，我们认为先进行一对多的映射，然后再进行多对一的映射，使用各种中间假设，更加合理，因为这种方式可以丰富特征的多样性，并为最终的3D姿势产生更好的综合。0为此，我们提出了一种基于Transformer的新方法Multi-HypothesisTransformer（MHFormer），用于从单目视频中进行3DHPE。关键的洞察力是允许模型学习多样的姿势假设的时空表示。为了实现这一目标，我们引入了一个三阶段的框架，从生成多个初始表示开始，并逐渐在它们之间进行通信，以合成更准确的预测，如图2所示。该框架更有效地建模多假设之间的依赖关系，同时建立更强的假设特征之间的关系。具体而言，在第一阶段，建立了一个多假设生成（MHG）模块，用于建模人体关节的内在结构信息，并在空间域中生成多个多层次特征。这些特征包含不同深度的多样语义信息，因此可以被视为多个假设的初始表示。0接下来，我们提出了两个新的模块来建模时间一致性，并增强时间域中的粗糙表示，这是现有的生成多个假设的方法所没有探索的。在第二阶段，我们提出了一个自我假设细化（SHR）模块来细化每个单一假设的特征。SHR由两个新的模块组成。第一个模块是多假设自注意力（MH-SA），它独立地建模单一假设的依赖关系，构建自我假设通信，实现每个假设内的信息传递，以增强特征。第二个模块是假设混合多层感知机（MLP），用于在假设之间交换信息。多个假设被合并为一个收敛的表示，然后将该表示分割为几个0尽管这些假设经过SHR的细化，但是由于SHR中的MH-SA仅传递假设内的信息，因此跨不同假设之间的连接不够强大。为了解决这个问题，在最后阶段，引入了一个交叉假设交互（CHI）模块，用于建模多假设特征之间的相互作用。其关键组成部分是多假设交叉注意力（MH-CA），它捕捉多假设之间的相互关联，建立跨假设的通信，实现更好的交互建模。随后，使用假设混合MLP来聚合多个假设，以合成最终的预测。通过提出的MHFormer，多假设时空特征层次结构被明确地纳入Transformer模型中，身体关节的多假设信息可以以独立和相互处理的方式进行端到端处理。因此，表示能力有可能得到增强，合成的姿势也更加准确。我们的贡献总结如下：0•我们提出了一种新的基于Transformer的方法，称为多假设Transformer（MHFormer），用于从单目视频中进行3DHPE。MHFormer可以有效地以端到端的方式学习多个姿势假设的时空表示。0•我们提出了在多假设特征之间进行独立和相互通信的方法，提供了强大的自假设和交叉假设的信息传递，以及假设0• 我们的MHFormer在两个具有挑战性的3DHPE数据集上取得了最先进的性能，在Human3.6M[12]上比PoseFormer[46]提高了3%，误差减少了1.3mm。02. 相关工作03D人体姿势估计。现有的单视角3D姿势估计方法可以分为两种主流方法。2L13434...134...13434...134...13434...134......121234342930293033343334565631323132N chitecture directly to sequential image patches. For the poseestimation task, PoseFormer [46] applies a pure Transformerto capture human joint correlations and temporal dependen-cies. Strided Transformer [20] introduces a Transformer-based architecture with strided convolutions to lift a long2D pose sequence to a single 3D pose. Our work is inspiredby them and similarly uses the Transformer as the basic ar-chitecture. But we do not just utilize a simple architecturewith a single representation; instead, the seminal ideas ofmulti-hypothesis and multi-level feature hierarchies are con-nected within Transformers, which makes the model not onlyexpressive but also strong. Besides, a cross-attention mecha-nism is introduced for effective multi-hypothesis learning.131490Transformer0编码器0中心帧的3D姿势0交叉假设交互0多假设生成0回归头0(a) 多假设Transformer（MHFormer）(b) 多假设生成（MHG）0空间位置0嵌入0LN0LN0MLP0MSA0Transformer0编码器0Transformer编码器0Transformer0编码器02D姿势序列 2D姿势（例如，17个关节）0连接坐标0(x, y) 1 17 2 150编码的0假设0特征 T T T0自假设细化0时间嵌入0LN0HM-MLP0LN MCA0LN MCA0LN MCA0LN0HM-MLP0(c) 自假设细化（SHR）(d) 交叉假设交互（CHI）0LN MSA0LN MSA0LN MSA0多假设交叉注意力（MH-CA）多假设自注意力（MH-SA）0N ×0图3. (a) 提出的多假设Transformer（MHFormer）的概述。 (b)多假设生成（MHG）模块提取每帧中人体关节的内在结构信息，并生成多个假设表示。N是输入帧的数量，T是矩阵转置。(c)自假设细化（SHR）模块用于细化单一假设特征。(d) 在SHR之后的交叉假设交互（CHI）模块使多假设特征之间产生交互作用。0类型：一阶段方法和两阶段方法。一阶段方法直接从输入图像中推断出3D姿势，而不需要中间的2D姿势表示[18, 28,33,36]，而两阶段方法首先从预训练的2D姿势检测中获得2D关键点，然后将其输入到2D到3D提升网络中估计3D姿势。由于2D人体姿势估计的出色性能，这种2D到3D姿势提升方法可以使用检测到的2D关键点高效准确地回归3D姿势。例如，SimpleBaseline[29]提出了一个全连接的残差网络，将2D关键点从单帧提升到3D关节位置。Anatomy3D[4]将任务分解为骨骼方向和骨骼长度预测，以确保序列的时间一致性。尽管使用了完全卷积[4, 25, 34]或基于图的[2, 11,38]架构的时序相关性的方法取得了有希望的结果，但这些方法在捕捉跨帧的全局上下文信息方面效率较低。0视觉Transformer。最近，配备了强大的全局自注意力机制的Transformer[37]在计算机视觉领域引起了越来越多的研究兴趣[10, 22, 27,43]。对于基本的图像分类任务，提出了ViT[6]来应用标准Transformer架构直接处理序列图像块。对于姿态估计任务，PoseFormer[46]应用纯Transformer来捕捉人体关节之间的相关性和时间依赖性。StridedTransformer[20]引入了基于Transformer的架构和分步卷积，将长的2D姿势序列转换为单个3D姿势。我们的工作受到了它们的启发，并类似地使用Transformer作为基本架构。但我们不仅仅使用一个简单的架构和单一的表示，而是在Transformer中连接了多假设和多级特征层次结构的重要思想，使模型不仅表达能力强大，而且性能出色。此外，引入了交叉注意力机制以实现有效的多假设学习。0多假设方法。单视角3D人体姿态估计是不适定的，因此仅假设一个解可能是次优的。一些研究为逆问题生成多样的假设，并取得了显著的性能提升[13, 17, 32,40]。例如，Jahangiri等人[13]通过组合模型和解剖约束生成与2D关键点一致的多个3D姿势候选。Wehrbein等人[40]使用归一化流模型化了3D姿势假设的后验分布。与这些专注于一对多映射的方法不同，我们学习首先进行一对多映射，然后进行多对一映射，这允许有效建模与不同假设对应的不同特征，以提高表示能力。(3)131500首先进行一对多映射，然后进行多对一映射，这允许有效建模与不同假设对应的不同特征，以提高表示能力。03. 多假设Transformer0所提出的MHFormer的概述如图3（a）所示。给定一个由视频中的现成2D姿势检测器估计的连续2D姿势序列，我们的方法旨在通过充分利用多假设特征层次结构中的空间和时间信息来重建中心帧的3D姿势。为了实现我们提出的三阶段框架，MHFormer建立在（i）三个主要模块上：多假设生成（MHG）、自假设细化（SHR）和交叉假设交互（CHI），以及（ii）两个辅助模块：时间嵌入和回归头。03.1. 初步0在这项工作中，我们采用了基于Transformer的架构，因为它在长程依赖建模方面表现良好。我们首先简要介绍Transformer[37]中的基本组件，包括多头自注意力（MSA）和多层感知机（MLP）。MSA。在MSA中，输入x∈Rn×d被线性映射为查询Q∈Rn×d、键K∈Rn×d和值V∈Rn×d，其中n是序列长度，d是维度。缩放的点积注意力可以计算为：0Attention(Q, K, V) = Softmax(QKT/√d)0d�V. (1)0MSA将查询、键和值分别分割h次，并并行执行注意力操作。然后，h个注意力头的输出被串联起来。MLP。MLP由两个线性层组成，用于非线性和特征转换：0MLP(x) = σ(xW1 + b1)W2 + b2, (2)0其中σ表示GELU激活函数，W1∈Rd×dm和W2∈Rdm×d分别是两个线性层的权重，b1∈Rdm和b2∈Rd是偏置项。03.2. 多假设生成0在空间域中，我们通过明确设计一个级联的基于Transformer的架构，在潜在空间的不同深度生成多个特征来解决逆问题。为此，引入了MHG来建模人体关节关系并初始化多假设表示（见图3（b））。假设有M个不同的假设和MHG中的L1层，它接受一个2D姿势序列X∈RN×J×2，其中N是视频帧数。0并将J个身体关节作为输入，输出多个假设[X1L1，X2L1，...，XML1]，其中XmL1 ∈R(J∙2)×N是第m个假设。具体来说，我们将每帧的关节的（x，y）坐标连接起来得到¯X ∈R(J∙2)×N，通过可学习的空间位置嵌入EmSPos保留它们的空间关系，并将嵌入特征输入到MHG的编码器中。为了促进梯度传播，在编码器的原始输入和输出特征之间应用了跳跃残差连接。这些步骤可以表示为：0Xm0 = LN(Xm) + EmSPos,0X'ml = XML-1 + MSAm(LN(X'ml-1),0X''ml = X'ml + MLPm(LN(X'ml),0XML1 = Xm + LN(X''mL1),0其中LN(∙)是LayerNorm层，l ∈ [1, ...,L1]是MHG层的索引，X1 = ¯X，Xm =Xm-1L1（m>1）。MHG的输出（即XmL1）是包含不同语义信息的多级特征。因此，这些特征可以被视为不同姿势假设的初始表示，并且需要进一步增强。03.3. 时间嵌入0MHG有助于在空间域中生成初始的多假设特征，但这些特征的能力还不够强大。考虑到这个限制，我们提出了两个精心设计的模块，通过在时间域中建立假设特征之间的关系并捕捉时间依赖性：一个SHR模块，后面跟着一个CHI模块（见图3（c）和（d））。为了利用时间信息，我们首先将空间域转换为时间域。为此，将每帧的编码假设特征XmL1嵌入到高维特征Zm ∈ RN×C中0使用转置操作和线性嵌入，其中C是嵌入维度。然后，利用可学习的时间位置嵌入EmTPos保留帧的位置信息，可以表示为：Zm0 = Zm + EmTPos.03.4. 自假设细化0在时间域中，我们首先构建SHR来细化单一假设特征。每个SHR层由多假设自注意力（MH-SA）块和假设混合MLP块组成。MH-SA。Transformer模型的核心是MSA，通过它，任何两个元素都可以相互作用，从而建模长程依赖关系。相反，我们的MH-SA旨在捕捉每个假设内部的单一假设依赖关系，以进行自假设通信。具体来说，嵌入特征Zm0 ∈ RN×CZ′ml= Zml−1 + MSAm(LN(Zml−1)),(4)�Z′l= Concat( �Z′1l , ..., �Z′Ml) ∈ RN×(C·M),Concat(Z1l , ..., ZMl )=Z′l + HM-MLP(LN(Z′l)),(5)Z′l= Concat(Z′1l , ..., Z′Ml) ∈ RN×(C·M),Concat(Z1l , ..., ZMl )=Z′l + HM-MLP(LN(Z′l)).(7)131510交叉假设特征单一假设特征0归一化归一化归一化0线性线性线性0Softmax0矩阵乘法和缩放0矩阵乘法0连接0线性0归一化归一化归一化0线性线性线性0Softmax0矩阵乘法和缩放0矩阵乘法0连接0线性0图4. 左：多头自注意力（MSA）。右：多头交叉注意力（MCA）。0不同假设的输出被馈入多个并行的MSA块，可以表示为：0其中 l ∈ [1 , ..., L 2 ]是SHR层的索引。因此，不同假设特征的信息可以以自我假设的方式传递，以增强特征。假设混合MLP。多个假设在MH-SA中独立处理，但是假设之间没有信息交流。为了解决这个问题，在MH-SA之后添加了一个假设混合MLP。将多个假设的特征连接起来，并将其馈送到假设混合MLP中以合并（即汇聚）它们自身。然后，将汇聚的特征沿着通道维度均匀分割（即分散），形成精细的假设表示。该过程可以表示为：0其中 Concat( ∙ ) 是连接操作，HM-MLP( ∙ )是假设混合MLP的函数，其格式与公式(2)相同。该过程探索了不同假设的通道之间的关系。03.5. 跨假设交互0然后，我们通过CHI对多假设特征之间的相互作用进行建模，其中包含两个块：多假设交叉注意力（MH-CA）和假设混合MLP。MH-CA。MH-SA缺乏跨假设的连接，这限制了其交互建模能力。为了捕捉多假设之间的相互关系，进行交叉假设的互相关建模，0为了进行跨假设的通信，我们提出了由多个并行的多头交叉注意力（MCA）元素组成的MH-CA。MCA衡量了跨假设特征之间的相关性，并且具有与MSA类似的结构。MCA的常见配置在键和值之间使用相同的输入[3, 26,41]。然而，这种配置的一个问题是会导致更多的块（例如，3个假设需要6个MCA块）。在这里，我们采用了一种更高效的策略，通过使用不同的输入来减少参数数量（只需要3个MCA块），如图4（右）所示。多个假设 Z m被交替地视为查询、键和值，并被馈送到MH-CA中：0Z ′ m l = Z m l − 1 + MCA m (LN( Z m 1 l − 1 ) , LN( Zm 2 l − 1 ) , LN( Z m l − 1 )) , (6) 其中 l ∈ [1 , ..., L 3 ]是CHI层的索引，Z m 0 = Z m L 2 ，m 1 和 m 2是另外两个对应的假设，MCA( Q, K, V )表示MCA的函数。由于MH-CA的存在，信息传递可以以交叉方式进行，从而显著提高建模能力。假设混合MLP。CHI中的假设混合MLP具有与公式(5)中的过程相同的功能。MH-CA的输出被馈送到其中：0在最后一个CHI层的假设混合MLP中，不使用分割操作，以便将所有假设的特征最终聚合起来，合成单个假设表示 Z L3 ∈ R N × ( C ∙ M ) 。03.6. 回归头0在回归头中，对输出 Z L 3进行线性变换层，以进行回归，生成3D姿势序列 � X ∈ R N× J × 3 。最后，从 � X 中选择中心帧的3D姿势 ˆ X ∈ R J ×3 作为我们的最终预测。03.7. 损失函数0整个模型以端到端的方式进行训练，使用均方误差（MSE）损失函数，该损失函数用于最小化估计姿势与真实姿势之间的误差：0L =0N0n = 10J =0i = 10||Y_ni - X_ni||^2, (8)0其中，X_ni和Y_ni分别表示第n帧中第i个关节的预测和真实3D姿势。131520表1. 在Human3.6M上使用检测到的2D姿势（上）和真实2D姿势（下）作为输入，与最先进的方法进行定量比较，使用协议1。（†）-使用时间信息。Blod: 最佳；下划线: 次佳。0方法方向吃饭打招呼打电话拍照姿势购物坐着坐下抽烟等待步行（动态）步行（静态）平均0Fang等人（AAAI'18）[8] 50.1 54.3 57.0 57.1 66.6 73.3 53.4 55.7 72.8 88.6 60.3 57.7 62.7 47.5 50.6 60.4 GraphSH（CVPR'21）[42] 45.2 49.9 47.5 50.9 54.9 66.1 48.546.3 59.7 71.5 51.4 48.6 53.9 39.9 44.1 51.9 MGCN（ICCV'21）[47] 45.4 49.2 45.7 49.4 50.4 58.2 47.9 46.0 57.5 63.0 49.7 46.6 52.2 38.9 40.8 49.4ST-GCN（ICCV'19）[2]（†）44.6 47.4 45.6 48.8 50.8 59.0 47.2 43.9 57.9 61.9 49.7 46.6 51.3 37.1 39.4 48.8 VPose（CVPR'19）[34]（†）45.2 46.7 43.3 45.6 48.1 55.144.6 44.3 57.3 65.8 47.1 44.0 49.0 32.8 33.9 46.8 SGNN（ICCV'21）[45]（†）- - - - - - - - - - - - - - - 45.7 UGCN（ECCV'20）[38]（†）41.3 43.9 44.0 42.2 48.0 57.1 42.243.2 57.3 61.3 47.0 43.5 47.0 32.6 31.8 45.6 Liu等人（CVPR'20）[25]（†）41.8 44.8 41.1 44.9 47.4 54.1 43.4 42.2 56.2 63.6 45.3 43.5 45.3 31.3 32.2 45.1PoseFormer（ICCV'21）[46]（†）41.5 44.8 39.8 42.5 46.5 51.6 42.1 42.0 53.3 60.7 45.5 43.3 46.1 31.8 32.2 44.3 Anatomy3D（TCSVT'21）[4]（†）41.4 43.2 40.1 42.946.6 51.9 41.7 42.3 53.9 60.2 45.4 41.7 46.0 31.5 32.7 44.10MHFormer（我们的方法）（†）39.2 43.1 40.1 40.9 44.9 51.2 40.6 41.3 53.5 60.3 43.7 41.1 43.8 29.8 30.6 43.00方法方向吃饭打招呼打电话拍照姿势购物坐着坐下抽烟等待步行（动态）步行（静态）平均0P-LSTM（ECCV'18）[15]（†）32.1 36.6 34.3 37.8 44.5 49.9 40.9 36.2 44.1 45.6 35.3 35.9 30.3 37.6 35.5 38.4 PoseAug（CVPR'21）[9] - - - - - - - - - - - - - - - 38.2VPose（CVPR'19）[34]（†）35.2 40.2 32.7 35.7 38.2 45.5 40.6 36.1 48.8 47.3 37.8 39.7 38.7 27.8 29.5 37.8 Liu等人（CVPR'20）[25]（†）34.5 37.1 33.6 34.2 32.9 37.139.6 35.8 40.7 41.4 33.0 33.8 33.0 26.6 26.9 34.7 Anatomy3D（TCSVT'21）[4]（†）- - - - - - - - - - - - - - - 32.3 SRNet（ECCV'20）[44]（†）34.8 32.1 28.5 30.7 31.436.9 35.6 30.5 38.9 40.5 32.5 31.0 29.9 22.5 24.5 32.0 PoseFormer（ICCV'21）[46]（†）30.0 33.6 29.9 31.0 30.2 33.3 34.8 31.4 37.8 38.6 31.7 31.5 29.0 23.3 23.1 31.30MHFormer（我们的方法）（†）27.7 32.1 29.1 28.9 30.0 33.9 33.0 31.2 37.0 39.3 30.0 31.0 29.4 22.2 23.0 30.50表2.与生成多个3D姿势假设方法在Human3.6M上的比较。假设的数量表示为M。Blod: 最佳；下划线: 次佳。0方法 M MPJPE（mm）0Li等人（CVPR'19）[16] 5 52.7 Sharma等人（ICCV'19）[35]200 46.8 Oikarinen（IJCNN'21）[32] 200 46.2Wehrbein等人（ICCV'21）[40] 200 44.30MHFormer（我们的方法）3 43.004. 实验04.1. 数据集和评估指标0我们在两个广泛使用的3DHPE数据集上评估我们的方法：Human3.6M[12]和MPI-INF-3DHP[30]。Human3.6M。Human3.6M数据集[12]是用于3DHPE的最大和最具代表性的基准。该数据集包含从四个同步摄像机以50Hz的频率捕获的360万张图像。在室内环境中，有11个人类主体进行15种日常活动。根据以前的工作[4, 25, 34,38]，我们在五个主体（S1、S5、S6、S7、S8）上训练一个单一模型，并在两个主体（S9和S11）上进行测试。我们采用最常用的评估协议：协议1是MPJPE，它测量了地面真实关节和估计关节之间的平均欧氏距离（以毫米为单位）；协议2是在使用平移、旋转和缩放对齐预测的3D姿势与地面真实姿势之后的MPJPE（P-MPJPE）。MPI-INF-3DHP。MPI-INF-3DHP[30]是一个包含室内和室外环境的大型3D姿势数据集。该数据集提供了130万帧，包含比Human3.6M更多样的动作。根据[4, 21, 30,46]的设置，我们报告了MPJPE和正确率百分比。0使用150mm阈值的关键点（PCK）和一系列PCK阈值的曲线下面积（AUC）。04.2. 实现细节0在我们的实现中，提出的MHFormer包含L1=4个MHG层，L2=2个SHR层和L3=1个CHI层。MHFormer模型在一块GeForce RTX 3090GPU上使用PyTorch框架实现。我们使用Amsgrad优化器从头开始进行端到端的模型训练。初始学习率设置为0.001，每个epoch后缩小因子为0.95，每5个epoch后缩小因子为0.5。为了公平比较，采用了与[2, 4, 34,46]相同的水平翻转增强。我们使用级联金字塔网络（CPN）[5]进行Human3.6M的2D姿态检测，使用[4, 21,46]进行MPI-INF-3DHP的2D姿态的真实值。04.3. 与最先进方法的比较0在Human3.6M上的结果。将提出的MHFormer与Human3.6M上的最先进方法进行比较。使用2D检测到的输入[5]，我们的模型在具有351帧感受野的情况下的结果在表1（顶部）中报告。在Protocol 1（43.0mm）和Protocol2（34.4mm，见补充材料）下，我们的MHFormer在没有任何额外操作的情况下，相对于所有先前的最先进方法都取得了显著的优势。与最近的基于Transformer的方法PoseFormer[46]相比，MHFormer在MPJPE上明显优于它1.3mm（相对改进3%）。图5显示了在一些具有挑战性的姿势上，与PoseFormer和基准模型（与ViT[6]具有相同架构）的定性比较。为了进一步探索我们方法的下限，我们将我们的MHFormer与具有真实值2D姿态的最先进方法进行了比较。MethodPCK ↑AUC ↑MPJPE ↓MHFormer (Ours)93.863.358.092781243351CPN47.845.944.543.243.0GT36.634.332.730.930.5ML1Params (M)FLOPs (G)MPJPE (mm)3218.911.0346.43318.921.0346.33418.921.0345.93518.931.0446.1146.320.3447.62412.610.6946.73418.921.0345.94425.221.3846.9131530输入 PoseFormer 基准 MHFormer 真实值0输入 PoseFormer 基准 MHFormer 真实值0图5.在Human3.6M数据集上，对所提出的方法（MHFormer），基准方法和先前的最先进方法（PoseFormer）[46]进行定性比较。错误估计用黄色箭头突出显示。0表3. 与MPI-INF-3DHP上最先进方法的定量比较。最佳结果以粗体显示，次佳结果以下划线显示。0Mehta等（3DV'17）[30] 75.7 39.3 117.6 Lin等（BMVC'19）[21] 83.651.4 79.8 VPose（CVPR'19）[34] 86.0 51.9 84.0 Li等（CVPR'20）[19]81.2 46.1 99.7 Anatomy3D（TCSVT'21）[4] 87.9 54.0 78.8PoseFormer（ICCV'21）[46] 88.6 56.4 77.10表4. 使用MPJPE（mm）对不同感受野进行消融研究。CPN -级联金字塔网络；GT - 2D真实值。0作为输入。结果显示在表1（底部）。可以看出，我们的方法取得了最佳性能（MPJPE为30.5mm），优于所有其他方法。此外，我们的方法与以前生成多个3D姿态假设的方法进行了比较。结果显示在表2中。值得注意的是，由于采用了一对多映射，这些方法报告了最佳假设的度量，而我们的方法通过学习确定性映射来报告具体解决方案，这在实际中更加实用。即使我们使用更少的假设数量（3个对比200个），我们提出的方法始终优于以前的工作。在MPI-INF-3DHP上的结果。为了评估泛化能力，我们在MPI-INF-3DHP数据集上评估了我们的方法。根据与Human3.6M相比，该数据集的样本较少且序列长度较短，我们使用9帧的2D姿态序列作为模型输入。表3中的结果表明，我们的方法在所有指标（PCK，AUC和MPJPE）上都取得了最佳性能。这强调了我们的MHFormer在提高室外场景性能方面的有效性。04.4. 消融研究0为了验证所提出模型中每个组件和设计的影响，我们进行了广泛的消融实验。0表5.MHG不同参数的消融研究。这里，L1是MHG层数，M是假设数量。0在Human3.6M数据集上，使用Protocol1进行MPJPE测试。感受野的影响。对于基于视频的3D人体姿势估计任务，较大的感受野对于估计准确性至关重要。表4显示了我们方法在不同输入帧下的结果。可以看出，我们的方法在模型输入更多帧的情况下获得了更大的收益。从9帧到351帧的GT输入，误差减少了16.7％，这表明我们的方法在捕捉具有较大感受野的帧间长程依赖性方面的有效性。接下来，我们在以下部分中进行的消融实验使用了27帧的感受野，以平衡计算效率和性能。MHG中参数的影响。在表5的上部分，我们报告了使用不同数量的MHG层的结果。实验证明，在MHG中堆叠更多的层可以稍微提高性能，但当层数大于4时，增益消失。此外，我们研究了在MHG中使用不同数量的假设的影响。结果显示在表5的下部分。增加假设的数量可以改善结果，但当使用3个假设表示时，性能饱和。值得注意的是，我们的模型配备了3个假设，相比于单一假设模型，误差减少了1.7mm，这表明利用多个姿势假设的不同表示有助于提高模型的性能，验证了我们的动机。SHR和CHI中参数的影响。表6报告了SHR和CHI的不同参数对我们模型性能和计算复杂性的影响。L2L3CParams (M)FLOPs (G)MPJPE (mm)212564.720.2647.22138410.650.5846.42151218.921.0345.92176842.502.3147.42151218.921.0345.91351225.201.3846.72251225.201.3846.83151225.201.3846.3131540(a) 深度模糊 (b) 自遮挡 (c) 2D检测器不确定性0图6. MHFormer生成的多样化3D姿势假设。为了便于说明，我们对假设进行了颜色编码以显示它们之间的差异。绿色的3D姿势对应于我们方法的最终合成估计。0表6.SHR和CHI的不同参数的消融研究。这里，L2和L3分别表示SHR和CHI的层数，C是嵌入维度。0结果表明，将嵌入维度从256增加到512可以提升性能，但使用大于512的维度无法带来进一步的改进。此外，我们观察到堆叠更多的SHR或CHI层也没有更多的收益。因此，我们模型的最佳参数为L2=2，L3=1，C=512。模型组件的影响。在表7中，我们进行实验来量化我们提出的组件的影响。首先，我们将我们的方法与基线模型进行比较。为了公平比较，基线模型的结果与MHFormer在不同嵌入维度下的层数相同，因为我们在MHFormer中的假设混合MLP将连接的假设特征作为输入（维度为512×3=1536）。结果表明，由于参数过多，基线模型容易过拟合，而我们的方法表现良好。此外，可以看出，我们基于MHG、SHR和CHI构建的MHFormer优于基线模型的不同变体（提高1.9mm）。然后，当我们在基线模型中引入多假设表示和SHR或CHI时，性能有显著提升（MHG-SHR减少1.3mm，MHG-CHI减少1.0mm）。此外，我们移除MHG中的组件（SHR-CHI）。此时，模型仅捕捉时间信息，其误差大幅增加1.3mm。这些消融实验证明，学习多假设时空表示对于3D人体姿势估计非常重要，并且不同的假设表示应以独立和相互的方式建模。我们还通过简单地在几个并行Transformer编码器上构建MHG来探索在MHG中使用多级特征的效果（MHFormer*）。如表中所示，我们的0表7. 对我们的MHFormer不同组件的消融研究。这里，�表示MHG中没有多级特征。0方法 MHG SHR CHI MPJPE（mm）0基线（C = 256）� � � 49.9 基线（C = 512）� � � 47.8 基线（C =1536）� � � 50.40SHR-CHI � � � 47.2 MHG-SHR � � � 46.5 MHG-CHI � � � 46.8MHFormer � � � � 46.5 MHFormer（我们的方法） � � � 45.90配备多级特征的MHFormer提高了性能，这表明多级特征可以为最终估计带来有价值的信息。05. 定性结果0虽然我们的方法不旨在产生多个三

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

MHFormer：3D人体姿势估计的多假设变换器

Python-使用多视图几何自我监督学习3D人体姿势

开关电源拓扑结构详解：Buck、Boost与反激变换器

MATLAB基础实验：数值与符号计算，傅里叶变换

提升功率因数：三相单管Boost PFC变换器研究与控制策略

考研复试必备：信号与系统重点概念与变换总结

图形矩阵详解：视区与窗口的几何变换关系

MATLAB遥感图像处理：从融合到傅立叶变换

MATLAB模拟光学衍射：衍射积分与傅立叶变换

Matlab图像处理算法实现：反转、灰度与非线性变换

OpenGL ES透视投影详解：图元装配、剪裁与视口变换

Matlab实践：序列运算、傅立叶变换与信号处理

非平稳风场信号处理：傅里叶、小波与HHT变换对比

连续系统离散化方法：反向差分与双线性变换详解

模式识别考试重点解析：判别函数、K-L变换与二叉树分类

DCDC变换器详解：Buck变换器的工作原理与设计

DirectX9.0入门：3D游戏编程基础

DirectX 10入门指南：3D游戏编程实战

DirectX9入门：3D游戏编程基础教程

DirectX 9.0入门：3D游戏编程基础教程

DirectX 9入门：3D游戏编程与数学基础

最新资源