基于运动学感知的视频姿态估计网络

83 浏览量更新于2023-10-16 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5725基于运动学感知的层次注意力网络的视频Kyung-Min Jin1，Beng-Sung Lim1，Gun-Hee Lee2，Tae-Kyung Kang1，and Seong-WhanLee1韩国大学2高丽大学{km jin，bs lim，gunhlee，tk kang，sw.lee}@ korea.ac.kr摘要先前的基于视频的人体姿态估计方法通过利用连续帧的聚合特征已经显示出有希望的结果然而，大多数方法妥协的准确性，以减轻抖动或不充分理解人类运动的时间方面。此外，遮挡增加了连续帧之间的不确定性，这导致不平滑的结果。为了解决这些问题，我们设计了一个架构，利用关键点运动学功能与以下组件。首先，我们有效地捕捉时间特征，利用个别关键点其次，所提出的分层Transformer编码器聚集时空依赖性并细化从现有估计器估计的2D或3D输入姿态Fi-帧帧frame最后，我们在从编码器生成的精确输入姿态和来自解码器的最终姿态之间提供在线交叉监督，以实现联合优化。我们展示了全面的结果，并验证了我们的模型在各种任务中的有效性：2D姿态估计、3D姿态估计、身体网格恢复和稀疏注释的多人姿态估计。我们的代码可在https://github.com/KyungMinJin/HANet上获得。1. 介绍人体姿态估计是从图像中估计出每个关键点的位置，在计算机视觉领域一直被研究。它已经从识别个人的位置扩展此外，随着深度学习的出现，可以鲁棒地定位每个关键点，并且方法[44，56，6，10，12，53，23]已经显示出备注-图1.具有关键点运动学特征的HANet概述。首先，我们计算流作为当前，先前和下一帧的关键点坐标的加权和，并分层编码身体运动的时间特征。此外，我们进一步考虑来自连续关键点坐标的速度v和加速度a作为解码器的补充输入。有能力的结果。然而，现有的方法仍然不能解决高度遮挡的情况，例如存在多个个体或某些身体部位快速移动的运动模糊因此，他们的结果包括高频抖动。我们发现了视频姿态估计中的两个重要问题。首先，连续帧的姿态之间的大的位置差异其次，遮挡或模糊区域带来空间模糊性，显著降低模型性能，并使任务更具挑战性。现有方法[33，58，55，34，18，40]倾向于关注其中一个问题，而不是两个问题;减小抖动通过关注时间方面或解决occlu问题，关键点速度加速度流解码器编码器5726通过增加模型复杂度来更好地捕捉空间特征。在基于视频的姿态估计中，现有方法通常使用递归神经网络（RNN）[33]，3D卷积神经网络（3D CNN）[49]和变换器[58，55，34，18]来利用时间特征。然而，它们在输入视频包括严重遮挡或运动模糊的情况下显示出限制。虽然有方法[31，5，49，40，39]使用2D CNN来存储参数内的时空依赖性，但它们不能准确地理解人体运动的时间特征。在本文中，我们提出了一种新的架构HANet（运动感知层次注意力网络），准确地细化视频中的人体姿势。我们引入了一个分层网络，通过利用关键点的移动有效地解决了抖动和遮挡问题，如图所示。1.首先，我们计算每个关键点的运动特征：流（关键点移动的轨迹）、速度和加速度。通过这些特征，我们的框架在运动学上学习关键点的时间方面，以专注于经常被遮挡或快速移动的身体部位，如手腕和脚踝。其次，提出的分层编码器项目的多尺度特征地图，通过exponentially增加通道的数量和捕获时空特征。我们嵌入多尺度特征图来生成位置偏移，我们添加这些位置偏移来细化输入姿势，通过现成的方法进行估计。然后，我们的解码器用关键点速度和加速度处理细化的输入姿态最后，我们提供了一个交叉监督，通过选择一个在线学习目标，沿着他们的训练损失，合作通过这项工作，我们的方法显着减少抖动，并成为强大的闭塞，同时提高性能。总之，我们的主要贡献如下：• 我们提出了一种新的方法HANet使用关键点运动学特征，遵循物理定律。我们的方法有效地减轻了抖动，并成为强大的闭塞与这些建议的功能。• 我们提出了一个分层的Transformer编码器，在企业的多尺度时空注意。我们利用所有层• 我们提出了在线相互学习，使联合优化的细化输入构成和最终构成选择在线目标沿其训练损失。• 我们进行了广泛的实验，并证明了我们的框架2. 相关工作2.1. 图像中的位姿估计单图像姿态估计的现代方法是计算机视觉领域中的基本模式识别问题之一[11，24，25，26]，通常基于2D CNN。早期的方法[46]直接从图像中回归关节坐标;然而，最近的方法[44，6，50，36，38]已经广泛采用了具有来自热图的最大值的关节位置表示，该热图描述了关节存在概率。这些方法可以分为两种方式：自下而上和自上而下。首先，将人体骨架视为图形，自下而上的方法[6，41]检测各个身体部位并将这些部件组装成人。最近，已经提出了许多自上而下的CPM[50]迭代地细化每个步骤的输出，沙漏[38]调整通道的数量。HRNet [44]通过多尺度融合保持高分辨率特征图，实现了比 ResNet [13]更高的性能，并取代了ResNet，后者作为姿态估计的骨干这些自上而下的方法显着提高了性能，并显示出显着的效果，但它们包括高频抖动时，应用于视频数据。随着基于注意力的方法在自然语言处理（NLP）中的成功，与CNN相结合的transformers为计算机视觉领域的新方法[3，9，54，58，18，34，14，29，19]带来了灵感。Transformer具有自注意的特性，在建模长范围依赖关系时表现出优越的性能，因此可以用来捕捉时空关系。随着ViT [9]的出现，它在大型图像数据集[30]的分类中优于基于CNN的同行，几种方法[29，54]将变换器应用于姿态估计。转置[54]捕获长距离关系并揭示空间依赖性，为模型如何处理遮挡提供证据。Tokenpose[29]标记每个关键点并计算关键点之间的注意力然而，他们增加了模型大小和输入图像（或热图）的分辨率，使得很难将Transformer应用于具有许多帧的视频2.2. 视频中的姿态估计用于视频的完全注释的基准数据集[17，15，48，27]适合学习时间特征，因为它们为所有帧提供监督，并且包含一些遮挡较少的人。同时，[49，55，33，40，57]直接处理2D或3D位置，并使用RNN或3D CNN捕获身体运动的LPM[33]使用长短期记忆（LSTM）扩展CPM [50]以捕获姿势之间的时间依赖性。5727∈图2.HANet的整体架构首先，从输入姿势计算关键点运动学特征（流量、速度和加速度）然后，我们的编码器捕获关键点移动的时空关系。每个编码器层特征被嵌入到细化输入姿势的使用关键点速度和加速度对细化的输入姿势进行解码，以产生最终姿势。3D HRNet [49]直观地使用时间卷积，并通过扩展HRNet [44]来学习连续帧关键点之间的相关性。最近，几种方法[58，34，18，55]也使用香草变换器[47]进行视频中的姿态估计。[58]使用空间和时间编码器编码3D信息。此外，[34，14]使用Transformer融合多视图功能。最近， DeciWatch [55]提出了一种利用Transformer有效观察稀疏采样帧的方法，该方法利用了人体运动的连续性，而不会降低性能。然而，这些方法在许多现实场景中可能没有用，因为它们在具有严重遮挡的拥挤场景中表现不已经提出了许多基于CNN的方法[52，49]来解决视频中的遮挡问题。基于CNN的视频姿态估计方法的基本思想是使用卷积对帧之间的时空关系进行编码然而，存在一个基本问题，即感受野是有限的，这使得难以捕获关节位置之间的长距离时空关系。此外，最近的方法利用了存储器密集型的基于热图的估计过程，使得充分考虑人体运动的时间方面具有挑战性。相比之下，我们直接使用来自估计器[51，31，21，37，22，28]的输入姿势来训练我们的框架HANet，这有效地减少了内存使用并通过提出的分层Transformer编码器捕获时空依赖性。3. 方法我们提出了一个新的框架，利用关键点运动特征之间的连续帧，以减少抖动和学习身体运动的时间特征。首先，我们使用从现成估计器[31，51，37，21，22，28]估计的输入姿态PRT/N×（K·D）来计算长度为T的滑动窗口内的关键点运动学特征。这里，K是关键点的数量，D表示每个关键点坐标的维度，N是我们在滑动窗口中采样姿势的间隔[55]。然后，我们构建了层次Transformer架构，处理连续的姿态。分层编码器以指数方式增加通道的数量，并将多尺度特征图投影到细化输入姿态P的位置偏移。最后，我们的解码器将偏移、关键点速度和加速度作为关键字进行处理，并使用细化的输入姿势作为值进行查询以估计最终姿势。我们将在下面更详细地讨论每个组件。3.1. 关键点运动学特征我们考虑滑动窗口内的关键点运动学特征来解决抖动，抖动是视频中姿态估计的基本问题在本文中，我们利用三个kine- matic功能，人体运动的一个连续的方面，获得从以前，当前和下一帧关键点流。首先，我们使用连续姿态的坐标Pt计算关键点移动的轨迹，精确输入姿势关键点输入姿势解码器分级编码器总和流速加速度视频帧偏移嵌入最后姿势在线互动学习估计器Transformer Block #投影Transformer Block #投影Transformer Block #投影运动嵌入5728∈ℓ·ℓ∈a ata其中W0R（K·4D）×C是投影矩阵，Z0表示初始嵌入特征.然后将Z0投影到表示查询、键和值的Q0、K0和V0。分层编码器使用W∈RC·2<$−1×C·2<$以指数方式扩展查询、键和值。这些是由，Q =（Z−1）W+ Epos，，= 1。. . NL，K =（Z−1）W+Epos，，= 1。. . N.L.，（4）V =（Z−1）W+ Epos，，= 1。. . NL，其中Epos，∈RT/N ×（C·2<$）是一个n-水平位置模，bedding，并且NL表示编码器层的数量。然后，分层编码器生成多个元素的元组，偏移嵌入（投影）偏移尺度特征图（Z0，Z1，. . . ，ZNL）的情况。我们计算-图3.提出的分层编码器的可视化每个编码器层迭代地捕获关键点之间的时空相关性然后对每一层的注意力图进行线性投影以产生位置偏移量xx x。我们可以通过偏移量X和输入姿态P的加权和来获得细化的输入姿态P′。framet ∈ {1，2，. . . ，T}。我们将关键点流表示为张力图作为一个普通的Transformer [47]，并在每个多头自注意（MSA）和多层感知器（MLP）块之前应用层规范（LN）[4]。Leaky ReLU [35]用于MLP激活函数。如果我们简单地将投影的查询、键和值表示为Z，这个过程可以表示为：Z= MSA（LN（Z））+Z，并将其定义为，ℓ ℓ ℓ（五）P<$t=（Pt+Pt+dt+Pt−dt）/3，（1）其中，dt表示从前一姿态和下一姿态到当前姿态的间隔。一个flowPt可以被解释为移动平均线或关键点移动的轨迹。关键点速度和加速度。我们进一步考虑- sider运动学信息的角度来看，关键点的速度和加速度之间的连续输入姿势。我们定义关键点速度和加速度如下：Z=MLP（LN（Z））+Z，其中Z是编码的多尺度时空特征。然后，我们将编码的多尺度特征投影到与输入姿势K D的维度相一致的偏移嵌入，使用1D卷积Conv1D。我们将投影的位置偏移量表示为x，如图2所示3.第三章。x的加权和被添加到输入姿态P，并且可以被定义如下：x=Con v1D（Z），vt=（Pt-Pt-dt）/dt，（二）ℓ ℓℓ NL（六）at=（vt− vt−dt）/d t。P′=P+1x，我们利用它们在我们的解码器作为一阶和二阶导数特征来估计最终的姿态。3.2. 分级编码器在计算关键点运动学特征后，提出的分层Transformer编码器生成多尺度姿态特征Z矢量RT/N×（C·2），表示时空注意图。这里，C表示初始嵌入维数。远程和短程-范围注意力图分别对大的和小的身体运动的分布进行建模，并且解决视频中帧内或时间上特定的帧内的空间上的关键点的遮挡首先，我们嵌入上一个，当前，下一个姿势，和关键-NL=0其中P'表示细化的输入姿态。3.3. 解码器给定偏移量X的加权和，解码器用vt和at作为键来处理它们，并用P′作为值来查询，以估计最终姿态Ps。首先，我们使用vt和at作为一维卷积层的衍生特征，可以定义为，Sv=wvvt+bv，S =wa2+b，（7- 水平Transformer块MLP块层规范多头自注意层规范Transformer Block #Transformer Block #Transformer Block #5729∈）点流P′t通过将它们在k个点维度中堆叠来实现。这为了表示衍生位置特征S和S，可定义为：其中wv，wa¯v aRC×C和bv，ba∈RC是权，Z0=（Pt;Pt;Pt+dt;Pt−dt）W0，（3）偏见然后，我们沿着关键点通道堆叠它们，5730L∈∈∈NJΣWNJJJKK(A) 地面实况(B) SimpleBaseline(C) DeciWatch(D) HANet图4.Sub-JHMDB [17]数据集的定性比较从左到右，A，B，C和D是基础事实，SimpleBaseline [51]，DeciWatch [55]和HANet的输出我们在视频中报告PCK@0.05，并可视化我们的框架优于现有方法。利用Transformer解码器（Decoder）来估计最终姿态Ps，输入姿态P′到Ps，反之亦然，最终预测Ps被P′惩罚。根据这两个分量，我们将损失函数定义为：V=Conv1D（P′WP）+Epos，0Ps=解码器（V，（Sv; Sa;X）WM） WD，（八）L=Lw（G，P′）+λsLw（G，Ps）+LO（P′，Ps），（11）其中V是我们的解码器通过1D卷积层嵌入的值，W PR T/N ×T是插值矩阵，W M R（3 KD + C）×C和WD R C×（K·D）是线性投影矩阵。3.4. 在线互动学习我们进一步提出了一种在线相互学习，提供了细化的输入姿势P′和最终预测Ps之间的交叉监督。HANet通过选择在线学习目标来相互优化它们的训练损失。加权损失。我们的损失函数的目标是最小化预测和预测之间的加权L1地面真实联合位置。加权损失追踪前k键-根据训练损失难以预测的点，通过扩展[7]。我们将此加权损失称为w，定义如下。其中λs代表最终预测误差的权重。4. 实验在本节中，我们讨论了我们的大量实验，并证明我们提出的方法很好地细化了输入姿势，并且通常可以应用于2D姿势估计、3D姿势估计、身体网格恢复和稀疏注释的2D姿势估计任务。4.1. 数据集我们评估我们的框架上的四个任务和报告的实验结果在各种基准数据集。首先，我们使用数据集Sub-JHMDB [17] 进行 2D 姿态估计。其次，我们在PoseTrack2017[16] 和 PoseTrack2018[2] 上验证HANet，以进行稀疏注释的多人2D姿态估计。对于3D姿态估计，我们选择L=1μv/Gj=1λ−P+NkvGk=1−P，（9）最常用的数据集Human3.6M [15]。最后我们在野外数据集3DPW [48]和具有快速和多样化动作的舞蹈数据集AIST++ [27]上验证我们的模型其中，Nk、Gj 、Pj 和vj分别表示关节j的前k个k∈ y点、地面实况、预测和可见性的数量。当关节j可见时，预测与地面实况之间的此距离有效。第一损失项惩罚所有关键点错误，而第二项仅跟踪前k个关键点错误。在线损失。然后，根据加权损耗Lw，通过下式计算在线损耗Lo来修复人体网状物4.2. 估计我们使用估计的2D坐标、3D坐标或SMPL参数作为输入来训练我们的模型。具体而言，我们使用现成的估计器，例如用于 Sub-JHMDB 的 Simple- Baseline[51]，用于PoseTrack的DCPose [31]，用于Human3.6M的FCN [37]和Mhformer [28]，用于3DPW的PARE [21]和用于 AIST++的SPIN [22]。LO=JLj（Ps，P′）Lj（G，Ps）Lj（G，P′），（10）

下载后可阅读完整内容，剩余1页未读，立即下载