基于注意机制的实时3D人体姿态重建

31 浏览量更新于2023-10-25 收藏 13.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

50640注意机制利用时间上下文：实时3D人体姿态重建0Ruixu Liu 1，Ju Shen 1，He Wang 1，Chen Chen 2，Sen-ching Cheung 3，Vijayan Asari 101 大学Dayton，2 北卡罗来纳大学夏洛特分校，3 肯塔基大学0{liur05，jshen1，hwang6，vasari1}@udayton.edu，chen.chen@uncc.edu，sccheung@ieee.org0摘要0我们提出了一种新颖的基于注意力的框架，用于从单目视频中估计3D人体姿态。尽管端到端的深度学习范式取得了普遍的成功，但我们的方法基于两个关键观察结果：（1）单帧预测通常产生时间不一致和抖动；（2）通过增加视频中的感受野，可以显著减少错误率。因此，我们设计了一种注意机制，自适应地识别每个深度神经网络层中的重要帧和张量输出，从而实现更优化的估计。为了实现较大的时间感受野，我们采用了多尺度扩张卷积来建模帧之间的长程依赖关系。该架构易于实现，并可灵活地用于实时应用。任何现成的2D姿势估计系统，例如Mocap库，都可以轻松地以特定方式集成。我们在各种标准基准数据集（例如Human3.6M，HumanEva）上对我们的方法进行了定量和定性评估。与最佳报告结果相比，我们的方法显著优于所有最新技术算法，误差减少了8％（平均每个关节位置误差：34.7）。代码可在以下链接找到：（https://github.com/lrxjason/Attention3DHumanPose）01. 引言0关节化的3D人体姿态估计是一项经典的视觉任务，可以实现从活动识别到人机交互的众多应用。传统方法通常在高度控制的环境下使用专门的设备，例如多视图捕获[1]，标记系统[26]和多模态感知[32]，这需要繁琐的设置过程，限制了它们的实际应用。本工作侧重于从任意单目视频中估计3D姿势。0（a）来自[35]的结果0（b）地面真实0（c）我们的0图1：比较结果：顶部：3D角色动作重定位结果的并排视图；源自Human3.6M中的walking S9的第857帧和posingS9的第475帧。底部：视频walkingS9的所有帧的平均关节误差比较[19, 35]。0由于人体动力学的高维变异性和非线性，对于3D姿势的推理来说，使用深度架构是具有挑战性的。最近使用深度架构的努力在3D姿势推理方面显著提高了最新技术[41,29]。端到端的学习过程减少了使用定制特征或空间约束的需要，从而最小化了特征错误，例如重复计数图像证据[15]。在这项工作中，我们旨在利用注意力模型进一步提高现有深度网络的准确性，同时保持视频中的自然时间连贯性。50650“注意力”的概念是学习成对数据之间的优化全局对齐，并在与深度网络集成处理单/多模态数据方面取得了最近的成功，例如文本到语音匹配[12]或神经机器翻译[3]。据我们所知，我们的工作是首次在3D姿势估计领域使用注意机制，以选择性地识别神经网络层之间的重要张量输出，以达到最佳推理结果。0尽管出现了许多强大的深度模型用于3D姿势预测（从卷积神经网络（CNN）[34, 40, 22]到生成对抗网络（GAN）[43,10]），但其中许多方法都专注于单个图像推断，这往往会导致抖动的动作或不准确的身体配置。为了解决这个问题，需要考虑时间信息以获得更好的动作一致性。现有的工作可以一般地分为两类：直接3D估计和2D到3D估计[50,9]。前者探索了以整体方式同时提取2D和3D姿势的可能性[34,42]；而后者将估计分解为两个步骤：2D身体部位检测和3D对应推断[8, 5,50]。我们建议读者参考最近的调查以了解它们各自的优势的更多细节[27]。0我们的方法属于2D到3D估计的范畴，有两个关键贡献：（a）开发了一种系统化的方法来设计和训练用于3D姿态估计的注意力模型；（b）使用多尺度膨胀卷积学习大时序感受野中的隐式依赖关系。实验评估表明，该系统在因果或非因果条件下都可以达到几乎相同的估计精度水平，非常适用于实时或消费级应用。迄今为止，基于视频的2D到3D估计的最新成果可以通过半监督方法[35]或层归一化LSTM方法[19]来实现。我们的模型可以在定量精度和定性评估方面进一步提高性能。图1显示了Human3.6M的一个示例结果，通过使用平均关节位置误差（MPJPE）来测量。为了直观地展示改进的重要性，我们通过合成从Walking S9和posingS9序列的同一帧捕捉到的动作来对3D角色进行动画重定位。通过并排比较，可以很容易地看出渲染结果与真实情况之间的差异。具体来说，由于错误的姿态估计，腿部和右手的阴影渲染方式不同，而我们的渲染结果更接近真实情况。底部的直方图显示了各个关节的MPJPE误差减少情况。更多详细的评估结果可以在我们的补充材料中找到。02. 相关工作0几十年来，从视频中估计关节姿态一直是研究的课题。早期的研究依赖于图形或限制性模型来解释关节之间的高自由度和依赖关系，例如树状结构[2, 1,44]或图像结构[2]。这些方法通常引入了大量参数，需要使用分段逼近等技术进行仔细和手动调整。随着卷积神经网络（CNN）[34,38]的兴起，自动特征学习可以解开输出变量之间的依赖关系，并超越定制求解器的性能。例如，Tekin等人训练了一个自动编码器，将3D关节投影到高维空间以强制执行结构约束[40]。Park等人通过在神经网络内部将2D分类结果传播到3D姿态回归器来估计3D姿态[33]。引入了一个运动物体模型来保证估计的身体部位的几何有效性[49]。关于基于CNN的系统的综述可以在调查报告[38]中找到。我们对这个丰富的研究成果的贡献在于引入了注意力机制，可以进一步提高传统卷积网络的估计精度。关于深度学习中注意力的先前工作主要涉及长短期记忆网络（LSTM）[18]。例如，LSTM在句子中编码上下文以形成基于注意力的单词表示，从而提高两个句子之间的单词对齐[36]。类似的注意力机制成功地应用于通过同时翻译和对齐单词来改进神经机器翻译任务[3]。鉴于在语言领域的成功，我们通过训练一个时间卷积网络（TCN）[45]来利用注意力模型进行视觉数据计算。与LSTM相比，TCN具有高效的内存使用优势，而不需要存储由LSTM的门引入的大量参数[31,4]。此外，TCN能够对输入帧进行并行处理，而不是顺序加载到内存中[19]，其中一个帧的估计失败可能会影响后续帧。我们的工作与使用投票机制选择重要帧的半监督方法有一些相似之处[35]。但是我们的方法具有三个独特的特点：首先，我们的方法不是选择性地选择一部分帧进行估计，而是系统地为帧分配权重分布，所有帧都可能对推断有所贡献。此外，我们的注意力模型能够自动分配权重给所有网络张量及其内部通道，从而显著提高准确性。最后，我们的膨胀模型旨在通过具有大感受野的增强时间一致性，而半监督方法则侧重于通过重用预处理帧来加快计算[35]。50660图2：左：基于注意力的时间卷积神经网络的4层架构示例。在此示例中，所有的卷积核大小都是3。实际上，不同的层可以有不同的卷积核大小。右：Kenrnel Attention模块的详细配置。03. 基于注意力的方法03.1. 网络设计0图2（左）描述了我们基于注意力的神经网络的整体架构。它以一系列具有2D关节位置的n帧作为输入，并输出目标帧的估计3D姿势。该框架包括两种类型的处理模块：时间注意力模块（由长绿色条表示）和核注意力模块（由灰色方块表示）。核注意力模块可以进一步分为TCN单元（深灰色）和线性投影单元（浅灰色）[17]。通过从顶部垂直查看图形模型，可以注意到两个注意力模块以交错的方式分布，即一行核注意力模块位于一个时间注意力模块的正下方。我们将这两个相邻的模块视为一个层，其与神经网络层具有相同的概念。根据功能，这些层可以分为顶层、中间层和底层。注意顶层只有核模块的TCN单元，而底层只有线性投影单元来传递结果。值得一提的是，中间层的数量可以根据接受域设置的不同而变化，这将在第5.3节中讨论。03.2. 时间注意力0时间注意力模块的目标是为输出张量提供贡献度指标。每个注意力0模块产生一组标量{ω(l)0，ω(l)1，...}，用于权衡层内不同张量的重要性：0W(l) � T(l)∆ = � ω(l)0 � T(l)0，...，ω(l)λl-1 � T(l)λl-1 � (1)0其中l和λl表示层索引和从第l(层)输出的张量数量。我们用T(l)u表示从第l层输出的第u个张量。W �T的粗体格式是算法1中使用的紧凑向量表示。注意对于顶层，TCN单元的输入只是2D关节。计算它们的注意力分数的选择可以是灵活的。常用的方案是多层感知机策略进行最佳特征集选择[37]。经验上，我们通过简单地计算归一化互相关(ncc)，即测量P i 和P t在它们的2D关节位置上的正余弦相似度[46]，实现了理想的结果。0W(0) = [ncc(P0, Pt)，...，ncc(Pn-1, Pt)]T (2)0其中P0，...，Pn-1是2D关节位置。t表示目标帧索引。输出W(0)被转发到注意力矩阵θt(l)，为后续层产生张量权重。0W(l) = sig(θt(l)TW(l-1))，对于l ∈ [1, L-2] (3)0其中sig(∙)是sigmoid激活函数。我们要求θt(l)的维度与第l-1层和第l层之间的输出张量数量匹配，即F' = λl-1和F = λl。W(l) ∆=�W (l)1 , ..., W (l)M�W (l)m =eθm(l) �T (l)rMeθm(l) �T (l)r�T(l)final∆=�m=1W (l)m ⊗ T (l)m(5)W (l)m ⊗ T (l)m =�ω(l)1 ⊗ T (l)1 , . . . , ω(l)C ⊗ T (l)C�(6)the number of neural layers increases together with moretraining parameters. To avoid vanishing gradients or othersuperﬂuous layers problems [27], we devise a multi-scaledilation (MDC) strategy by integrating dilated convolutions.Figure 3 shows our dilated network architecture. Forvisualization purpose, we project the network into an xyzspace. The xy plane has the same conﬁguration as the net-work in Figure 2, with the combination of temporal andkernel attention modules along the x direction, and layerslayout along the y direction. As an extension, we place thedilated convolution units (DCUs) along the z direction. Ter-minologically, this z-axis is labeled as levels to differ fromthe layer concept along the y direction. As the level indexincreases, the receptive ﬁeld grows with increasing dilationsize while reducing the number of DCUs.Algorithm 1 describes the data ﬂow on how these DCUsinteract with each other. For notation simplicity, we useU(l)vto denote a DCU from layer l and level v. With theextra dimension introduced by the dilation levels, the ten-sor’s weights from the attention module in equation (1) areextended to three dimensional. We format them as a setof matrices: { ¯W(0), . . . , ¯W(L−2)}. Accordingly, the pre-learned attention parameters in equation (3) are upgraded to506703.3. 核注意力0类似于在层l内确定张量权重分布W(l)的时间注意力，核注意力模块在层内分配通道权重分布0一个张量，表示为�W(l)。图2（右）描述了通过权重调整生成更新的张量T(l)final的步骤。给定一个输入张量T(l) ∈ RC×F，我们使用具有不同扩张率的M个TCN单元生成M个新张量�T(l)m。这些M个张量通过逐元素求和进行融合：�T(l) =�Mm=1�T(l)m，然后通过全局平均池化层（GAP）生成通道统计量�T(l)c ∈ RC ×1。通道数C通过TCN单元获得，如消融研究中所讨论的。输出�T(l)c被转发到全连接层，以学习不同卷积核大小之间的特征关系：�T(l)r = θr(l)�T(l)c。矩阵θr(l) ∈ Rr ×C的作用是将通道维度降低为r。在紧凑的特征描述符�T(l)r的指导下，通过跨通道的第二个全连接层生成M个向量（黄色长方体）。它们的核注意力权重通过softmax函数计算：0(4) 其中 θ m ( l ) ∈ R C × r 是卷积注意力参数，� M m=1 W ( l ) m = 1。根据权重分布，我们最终得到输出张量:0通道更新过程可以进一步分解为:0这与时间注意力模块中的张量分布过程（方程 1）具有相同的格式，但关注的是通道分布。学习层级 l ∈[1 , L − 2] 的时间注意力参数 θ t ( l ) 和卷积注意力参数θ r ( l ) , θ m ( l ) 的过程与 TCN单元训练中的小批量随机梯度下降（SGD）相同 [ 6 ]。04. 与膨胀卷积的集成0图 3:时间膨胀卷积网络的模型。随着层级索引的增加，帧（层级索引 = 0）或张量（层级索引 ≥ 0）上的感受野增加。0一个张量格式 { ˆ θ t (1) , . . . , ˆ θ t ( L − 2) } 。算法 1的第 4 � 5 行提供了卷积单元的维度细节，即 kernel ×dilation × stride 。为了方便进行张量乘法，我们对 U ( l) v 强加以下维度约束:0- 单元 U ( l ) v 的膨胀尺寸等于单元 U ( l +1) 0的卷积核尺寸: d ( l ) v := k ( l +1) 0 。换句话说，50680算法 1: 多尺度膨胀配置0输入: 层数: L 卷积核尺寸: { k 0 , k 1 , . . . , k L − 2 , 1 } 2D 关节点: {P 0 , P 1 , . . . , P n − 1 } 结果: 配置每个 U ( l ) v 的输入/输出01 V := L − 2 ; // 层级大小02 对于 l 从 0 到 L − 2 进行循环03 对于 v 从 0 到 V − 1 进行循环04 d ( l ) v := k ( l +1) 0 ; // 单元 U ( l ) v 的膨胀尺寸05 s ( l ) v := k ( l ) v × d ( l ) v ; // 步长06 U（l）v = DCU（d（l）v，s（l）v）if l = 0 then07 {P1，...，Pn} � U（0）v; //输入08 U（0）v�T（0）v; //输出010 ¯W（l）v = sig（ˆθt（l）T¯W（l−1））011 if v = 0 then012 im := l − 1; //最大级别索引013 {¯W（l−1）0�T（l−1）0⊕¯W（l−1）1�0T（l−2）1⊕∙∙∙⊕¯W（l−1）im�T（0）im} �0U（l）v; // ⊕是逐元素相加014 U（l）v�T（l）v;016 ¯W（l−1）im�T（l−1）0 � U（l）v;017 U（l）v�T（l）v;018 end019 end020 end021 end0所有层l的扩张大小由下一层l+1的第0个单元的核心大小定义。0-U（l）v的步幅大小等于其对应的核心和扩张大小的乘积：s（l）v：= k（l）v×d（l）v。0第6-18行配置了单元U（l）v的输入（表示为“�”）和输出（表示为“�”）数据流。对于输入流，根据层索引考虑两种情况：l = 0和l ≥ 1。所有来自层l =0的单元共享相同的n个视频帧作为输入。对于所有来自后续层（l ≥ 1）的单元，它们的输入张量来自于：0如果v = 0，则为{T（l−1）0，T（l−2）1，...，T（0）V}；否则为T（l−1）0。（7）其中T（l−1）v是前一层的输出张量。这些输入张量与它们的权重¯W（l−1）v进行逐元素相乘，如第13行所述。05. 实验0我们在本机Python中实现了所提出的方法，没有进行并行优化。测试系统在一张NVIDIA TITAN RTXGPU上运行。对于实时推理，它可以达到3000FPS，大约0.3毫秒处理一帧视频。对于训练和测试，我们构建了三个原型n = 27，n = 81和n =243，其中n是输入帧上的感受野。关于n的选择的详细信息在消融研究第5.3节中讨论。所有原型在训练和测试中都呈现出类似的收敛速度，如图4所示。我们使用ranger优化器对模型进行80个epoch的训练，初始学习率为1e-3，然后使用余弦退火减少到1e-5[47，24]。通过水平翻转姿势对训练和测试数据进行数据增强。我们还将批量大小、dropout率和激活函数分别设置为1024、0.2和Mish[35，28]。0图4：在三个原型上进行训练和测试的收敛性和准确性表现05.1. 数据集和评估协议0我们的训练图像来自两个公共数据集：Human3.6M[7]和HumanEva[39]，遵循现有工作[27，43，19，35]的相同训练和验证策略。具体而言，我们使用Human3.6M中的S1、S5、S6、S7和S8进行训练，使用S9和S11进行测试。同样地，我们使用HumanEva数据集上的“Walk”和“Jog”动作，由S1、S2和S3执行训练/测试。对于这两个数据集，我们使用标准评估指标（MPJPE和P-MPJPE）来衡量估计结果与基准真值（GT）相对于根节点的偏移量（以毫米为单位）[7]。实验中涉及两个协议：协议＃1计算在对齐根关节（即骨盆）后所有关节的平均欧氏距离，称为MPJPE[14，21，34，25]。协议＃2对预测的姿势应用额外的相似变换（Procrustes分析）[20]作为增强，称为P-MPJPE50690方法方向吃遇见电话照片姿势纯凳子坐烟等待步行偏移平均0Martinez等人ICCV'17 [27] 51.8 56.2 58.1 59.0 69.5 78.4 55.2 58.1 74.0 94.6 62.3 59.1 65.1 49.5 52.4 62.9 Fang等人AAAI'18 [14] 50.1 54.3 57.0 57.1 66.6 73.3 53.455.7 72.8 88.6 60.3 57.7 62.7 47.5 50.6 60.4 Yang等人CVPR'18 [43] 51.5 58.9 50.4 57.0 62.1 65.4 49.8 52.7 69.2 85.2 57.4 58.4 43.6 60.1 47.7 58.6Pavlakos等人CVPR'18 [34] 48.5 54.4 54.4 52.0 59.4 65.3 49.9 52.9 65.8 71.1 56.6 52.9 60.9 44.7 47.8 56.2 Luvizon等人CVPR'18 [25] 49.2 51.6 47.6 50.5 51.8 60.348.5 51.7 61.5 70.9 53.7 48.9 57.9 44.4 48.9 53.2 Hossain等人ECCV'18 [19] 48.4 50.7 57.2 55.2 63.1 72.6 53.0 51.7 66.1 80.9 59.0 57.3 62.4 46.6 49.6 58.3Lee等人ECCV'18 [21] 40.2 49.2 47.8 52.6 50.1 75.0 50.2 43.0 55.8 73.9 54.1 55.6 58.2 43.3 43.3 52.8 Dabral等人ECCV'18 [13] 44.8 50.4 44.7 49.0 52.9 61.4 43.5 45.563.1 87.3 51.7 48.5 52.2 37.6 41.9 52.1 Zhao等人CVPR'19 [48] 47.3 60.7 51.4 60.5 61.1 49.9 47.3 68.1 86.2 55.0 67.8 61.0 42.1 60.6 45.3 57.6 Pavllo等人CVPR'19[35] 45.2 46.7 43.3 45.6 48.1 55.1 44.6 44.3 57.3 65.8 47.1 44.0 49.0 32.8 33.9 46.80我们的（n = 243 CPN因果）42.3 46.3 41.4 46.9 50.1 56.2 45.1 44.1 58.0 65.0 48.4 44.5 47.1 32.5 33.2 46.70我们的（n = 243 CPN）41.8 44.8 41.1 44.9 47.4 54.1 43.4 42.2 56.2 63.6 45.3 43.5 45.3 31.3 32.2 45.10Martinez等人ICCV'17 [27] 37.7 44.4 40.3 42.1 48.2 54.9 44.4 42.1 54.6 58.0 45.1 46.4 47.6 36.4 40.4 45.5 Hossain等人ECCV'18 [19] 35.2 40.8 37.2 37.4 43.2 44.038.9 35.6 42.3 44.6 39.7 39.7 40.2 32.8 35.5 39.2 Lee等人ECCV'18 [21] 32.1 36.6 34.4 37.8 44.5 49.9 40.9 36.2 44.1 45.6 35.3 35.9 37.6 30.3 35.5 38.4Zhao等人CVPR'19 [48] 37.8 49.4 37.6 40.9 45.1 41.4 40.1 48.3 50.1 42.2 53.5 44.3 40.5 47.3 39.0 43.8 Pavllo等人CVPR'19 [35] 35.2 40.2 32.7 35.7 38.2 45.5 40.636.1 48.8 47.3 37.8 39.7 38.7 27.8 29.5 37.80我们的（n = 243 GT）34.5 37.1 33.6 34.2 32.9 37.1 39.6 35.8 40.7 41.4 33.0 33.8 33.0 26.6 26.9 34.70表1：使用MPJPE（mm）的协议＃1：在Human3.6M上的重建误差。顶部表格：输入的2D关节通过检测获得。底部表格：输入的2D关节与地面实况。（CPN）-级联金字塔网络；（GT）-地面实况。0方法方向吃遇见电话照片姿势纯凳子坐烟等待步行偏移平均0Martinez等人ICCV'17 [27] 39.5 43.2 46.4 47.0 51.0 56.0 41.4 40.6 56.5 69.4 49.2 45.0 49.5 38.0 43.1 47.7 Fang等人AAAI'18 [14] 38.2 41.7 43.7 44.9 48.5 55.3 40.238.2 54.5 64.4 47.2 44.3 47.3 36.7 41.7 45.7 Hossain等人ECCV'18 [19] 35.7 39.3 44.6 43.0 47.2 54.0 38.3 37.5 51.6 61.3 46.5 41.4 47.3 34.2 39.4 44.1Pavlakos等人CVPR'18 [34] 34.7 39.8 41.8 38.6 42.5 47.5 38.0 36.6 50.7 56.8 42.6 39.6 43.9 32.1 36.5 41.8 Yang等人CVPR'18 [43] 26.9 30.9 36.3 39.9 43.9 47.4 28.829.4 36.9 58.4 41.5 30.5 29.5 42.5 32.2 37.7 Dabral等人ECCV'18 [13] 28.0 30.7 39.1 34.4 37.1 28.9 31.2 39.3 60.6 39.3 44.8 31.1 25.3 37.8 28.4 36.30Pavllo等人CVPR'19 [35] 34.1 36.1 34.4 37.2 36.4 42.2 34.4 33.6 45.0 52.5 37.4 33.8 37.8 25.6 27.3 36.50我们的（n = 243 CPN）32.3 35.2 33.3 35.8 35.9 41.5 33.2 32.7 44.6 50.9 37.0 32.4 37.0 25.2 27.2 35.60表2：使用相似变换的P-MPJPE（mm）的协议＃2：在Human3.6M上的重建误差。0[27, 19, 43,35]。与协议＃1相比，该协议对于单个关节预测失败更具鲁棒性。另一个常用的协议（N-MPJPE）是对预测的姿势应用尺度对齐。与协议＃2相比，该协议涉及的变换程度相对较小，导致误差范围较小。因此，将协议＃1和＃2结合起来进行准确性分析应该足够。05.2.与最先进技术的比较0我们在Human3.6M和HumanEva这两个数据集上与最先进的技术进行了比较，如表1-3所示。最佳和次佳结果分别以粗体和下划线格式突出显示。每个表的最后一列显示了所有测试集的平均性能。我们的方法在MPJPE方面实现了最小误差，为45.1mm，在P-MPJPE方面为35.6mm。特别是在协议＃1下，我们的模型将MPJPE[35]的最佳报告误差率降低了约8％。2D检测：我们研究了许多广泛采用的2D检测器。我们使用预训练的堆叠沙漏（SH）网络从Human3.6M数据集开始进行测试，以提取地面真实边界框内的2D点位置，然后通过SH模型[30]进行进一步微调。我们还研究了几种无地面真实边界框的自动化方法，包括使用Mask R-CNN[16]和级联金字塔网络（CPN）[11]的ResNet-101-FPN[23]。表1的第二部分还展示了与其他方法的比较。0行走慢跑0S1 S2 S3 S1 S2 S3 平均0Pavlakos等[34] 22.3 19.5 29.7 28.9 21.9 23.8 24.4 Martinez等[27] * 19.717.4 46.8 26.9 18.2 18.6 24.6 Lee等[21] 18.6 19.9 30.5 25.7 16.8 17.721.5 Pavllo等[35] 13.4 10.2 27.2 17.1 13.1 13.8 15.80我们的（n=27 CPN）13.1 9.8 26.8 16.9 12.8 13.3 15.40表3：在HumanEva上的协议＃2下的P-MPJPE（mm）：重建误差。（*）-单个动作模型。0工作（SH）用于提取地面真实边界框内的2D点位置，然后通过SH模型[30]进行进一步微调。我们还研究了几种无地面真实边界框的自动化方法，包括使用Mask R-CNN[16]和级联金字塔网络（CPN）[11]的ResNet-101-FPN[23]。表4展示了使用预训练的SH、微调的SH和微调的CPN模型[35]的2D检测器的结果。表1的第二部分还展示了对2D检测器的进一步评估。50700无论是CPN估计还是地面真实（GT）作为输入，我们的注意模型都表现出明显的优势。0方法 SH PT SH FT CPN FT GT0Martinez等[27] 67.5 62.9 - 45.5 Hossain等[19] - 58.3 -41.6 Pavllo等[35] 58.5 53.4 46.8 37.8我们的（n=243）57.3 52.0 45.1 34.70Pavllo等[35] - - 49.0 - 我们的（n=27）62.5 56.4 49.439.7 我们的（n=81）60.3 55.7 47.5 37.1我们的（n=243）59.2 54.9 46.7 35.50表4：顶部表：在协议＃1下，2D检测器对MPJPE（mm）的性能影响。底部表：以不同2D检测器为基础的因果序列处理性能。PT-预训练，FT-微调，GT-地面真实，SH-堆叠沙漏，CPN-级联金字塔网络。0因果性能：为了实现实时应用，我们研究了因果设置，其架构类似于图2所示的架构，但仅考虑过去的帧。以同样的方式，我们实现了三个具有不同感受野的原型：n = 27，n =81和n =243。表4（底部）展示了我们的因果模型仍然可以达到与最先进技术相同水平的准确性。例如，与半监督方法相比，原型n = 81和n = 243的MPJPE[35]更小。值得一提的是，即使没有未来帧的输入，因果设置中的时间连贯性也不会受到影响。我们的补充视频提供了定性结果。05.3.消融研究0为了验证网络中每个组件的影响和性能，我们在Human3.6M数据集上进行了协议＃1下的消融实验。TCN单元通道：我们首先研究了通道数C对TCN单元和时间注意模型之间性能的影响。在我们的测试中，我们使用CPN和GT作为2D输入。从n = 3 × 3 × 3 = 27的感受野开始，随着通道数（C≤512）的增加，MPJPE显著下降。然而，当C在512和1024之间增长时，MPJPE变化缓慢，并且之后几乎保持稳定。如图5所示，使用CPN输入，从C = 1024的MPJPE49.9mm到C = 2048的MPJPE49.6mm产生了微小的改进。GT输入也呈现类似的曲线形状。考虑到计算负载0随着引入更多的参数，我们在实验中选择了C = 1024。0图5：通道数对MPJPE的影响。CPN：级联金字塔网络，GT：地面真值。0核心注意力：表5显示了核心注意力模块内不同参数设置对Protocol#1下性能的影响。左侧三列列出了主要变量。为了验证目的，我们将配置分为三组，每组在行方向上分配不同的值一个变量，同时保持其他两个变量固定。粗体项表示每组的最佳个别设置。经验上，我们选择了M = 3，G = 8和r =128的组合作为最佳设置（在方框中标注）。注意，我们选择了G = 8而不是个别最佳的G =2，这引入了更多的参数，但MPJPE的改进可以忽略不计。0核组通道参数 P10M=1 G=1 - 16.95M 37.8 M=2 G=8 r=128 9.14M37.1 M=3 G=8 r=128 11.25M 35.50M=4 G=8 r=128 13.36M 38.00M=3 G=1 r=128 44.28M 37.4 M=3 G=2 r=12825.41M 35.3 M=3 G=4 r=128 15.97M 35.6 M=3G=8 r=128 11.25M 35.50M=3 G=16 r=128 8.89M 37.30M=3 G=8 r=64 10.20M 35.9 M=3 G=8 r=12811.25M 35.50M=3 G=8 r=256 13.35M 36.20表5：我们的核心注意力模型中不同参数的消融研究。这里，我们使用感受野n = 3 × 3 × 3 × 3 × 3 =243。评估是在Human3.6M数据集上进行的，使用MPJPE（mm）作为Protocol #1的指标。0在表6中，我们讨论了不同类型的感受野的选择以及它们对网络性能的影响。第一列显示了各种层配置，生成不同的感受野，范围从n = 27到n =1029。为了验证n的影响，我们固定了其他参数，即M =3，G = 8，r = 128。注意，对于50710具有较少层数（例如L =3）的网络，较大的感受野可以更有效地减少误差。例如，将感受野从n = 3 × 3 × 3 = 27增加到n = 3 × 3 × 7 =147，MPJPE从40.6降低到36.8。然而，对于更深的网络，较大的感受野并不总是最优的，例如当n =1029时，MPJPE = 37.0。经验上，我们选择了n = 243和L= 5的设置作为最佳设置（在最后一行中指示）。0感受野核组通道参数 P103 × 3 × 3 = 27 M=1 G=1 - 8.56M 40.603 × 3 × 3 = 27 M=2 G=4 r=128 6.21M 40.0 3 × 5 × 3 = 45 M=2 G=4r=128 6.21M 39.9 3 × 5 × 5 = 75 M=2 G=4 r=128 6.21M 38.503 × 3 × 3 = 27 M=3 G=8 r=128 5.69M 39.5 3 × 5 × 3 = 45 M=3 G=8r=128 5.69M 39.2 3 × 5 × 5 = 75 M=3 G=8 r=128 5.69M 38.2 3 × 7 × 7 =147 M=3 G=8 r=128 5.69M 36.803 × 3 × 3 × 3 = 81 M=3 G=8 r=128 8.46M 37.8 3 × 5 × 5 × 5 = 375 M=3G=8 r=128 8.46M 36.6 3 × 7 × 7 × 7 = 1029 M=3 G=8 r=128 8.46M 37.003 × 3 × 3 × 3 × 3 = 243 M=3 G=8 r=128 11.25M 35.50表6：我们的核心注意力模型中不同感受野的消融研究。评估是在Human3.6M数据集上进行的，使用MPJPE（mm）作为Protocol #1的指标。0多尺度扩张：为了评估扩张组件对网络的影响，我们测试了带有和不带有扩张的系统，并比较了它们的个别结果。同样地，GT和CPN2D检测器被用作输入，并在Human3.6M数据集上进行了Protocol#1的测试。表7展示了注意力和多尺度扩张组件的整合，它们在三个原型中都取得了最小的MPJPE，超过了它们的个别性能。我们还发现，随着层数的增加，注意力模型的贡献越来越显著。这是因为更多的层导致了更大的感受野，使得多尺度扩张能够捕捉到帧间的长期依赖关系。当视频中存在快速运动或自遮挡时，这种效果更加明显。0定性结果我们还在一些具有挑战性的宽视频上进一步评估我们的方法，例如快速运动或低分辨率的人体图像活动，这些视频极其难以获得有意义的2D检测结果.例如，在图6中，玩剑的人不仅身体动作迅速，而且穿着长裙部分遮挡；滑冰女孩速度快，产生模糊区域.我们的方法在这些具有挑战性的场景中实现了高度的鲁棒性和准确性. 更多结果可以在补充材料中找到.0方法模型 n = 27 n = 81 n = 2430注意力模型(CPN) 49.1 47.2 46.3 多尺度扩张模型(CPN) 48.7 47.145.7 注意力和扩张(CPN) 48.5 46.3 45.10注意

下载后可阅读完整内容，剩余1页未读，立即下载