无位置限制的人体姿势估计

3 浏览量更新于2023-10-25 收藏 13.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Xixia Xu1*,Yingguo Gao2,Ke Yan2†,Xue Lin1,Qi Zou1†{19112036,18112028,qzou}@bjtu.edu.cn;{yingguogao,kerwinyan}@tencent.com……131370无位置限制的人体姿势估计。01 北京交通大学交通数据分析与挖掘北京市重点实验室，中国 2 腾讯优图实验室，中国上海。0摘要。0人体姿势估计（HPE）通常需要大规模的训练数据才能达到高性能。然而，为人体收集高质量和细粒度的注释是非常耗时的。为了缓解这个问题，我们重新审视了HPE，并提出了一个无需关键点位置监督的无位置限制框架。我们从分类的角度重新定义了基于回归的HPE。受基于CAM的弱监督目标定位的启发，我们观察到通过部位感知的CAM可以获取到粗略的关键点位置，但由于细粒度HPE和对象级定位之间的差距，这种方法并不理想。因此，我们提出了一个定制的变换器框架来挖掘人体上下文的细粒度表示，配备了结构关系来捕捉关键点之间的微妙差异。具体而言，我们设计了一个多尺度空间引导的上下文编码器，以完全捕捉全局人体上下文，同时专注于部位感知区域，以及一个关系编码的姿势原型生成模块，用于编码结构关系。所有这些工作共同加强了仅依靠图像级别类别标签对位置的弱监督。我们的模型在三个数据集上以仅在类别级别进行监督的方式取得了竞争性的性能，而且在MS-COCO和MPII上仅使用25%的位置标签就可以达到与完全监督方法相当的结果。01. 引言。0人体姿势估计（也称为关键点定位）是一项具有挑战性但基础的计算机视觉任务，旨在检测关键点的位置（例如眼睛、脚踝等）。近年来，随着CNN的发展，HPE取得了巨大的进展。取得这一成就的一个重要因素是大规模训练数据的可用性。0* 在腾讯优图实验室实习期间完成的工作。†通讯作者。0位置监督。0无位置限制。0左手。右手。0右手腕。右膝盖。0基准结果。0我们的结果。0左手。右手。0右手腕。右膝盖。0图1.第1列：位置监督与无位置限制的HPE；第2-4列：无位置限制基准结果与我们方法的结果。注意正确的关节分别是左脚踝、左手和右脚踝。0精确的位置注释。然而，收集高质量和细粒度的注释是非常费时和工作量大的。因此，我们研究了当只给出图像级别的类别标签时的关键点定位。类激活映射（CAM）[53]是一种简单但有效的方法，可以通过仅使用图像级别标签从中间分类器激活中发现对象区域，这是弱监督目标定位（WSOL）[53]和弱监督语义分割（WSSS）[47]的基石。CAM倾向于关注对象最具区分性的部分，许多方法[20, 46,48]被提出来改进CAM以覆盖整个对象的范围。但是由于对象级定位和细粒度关键点定位之间的差距，这些方法无法定位微妙的关节。我们的方法也是基于CAM构建的。将CAM应用于HPE存在两个主要障碍。i）对于微小和局部的关键点，模型很难在没有明确的位置标签的情况下捕捉到精确的空间特征以进行准确的预测。此外，仅依靠图像级别标签学习的局部外观特征对于理解人体来说是不够全面的。因此，需要更多的上下文信息和明确的空间信息。131380需要开发先验。ii)关节之间的类间差异微小，相邻或对称关节具有相似的语义上下文或外观。这往往导致位置混淆和错误响应，如图1所示（第2-4列中的基准结果）。在没有明确的位置监督的情况下，模型很难捕捉到细粒度的关节特定特征以消除混淆。关节之间的内在结构关系在帮助区分或推断不确定位置方面起着关键作用。因此，如何挖掘模型的内在结构关系先验至关重要。基于上述讨论，我们提出了一种新颖的基于Transformer的LOFR（LOcation-FRee）HPE架构，如图2所示。首先，由于Transformer[40]中的自注意机制，可以有效地捕捉HPE中的全局上下文信息。为了更好地捕捉精确的空间信息，我们提出了一个多尺度空间引导的上下文编码器（MSC-En）。在MSC-En中，我们设计了一个空间感知位置编码（SPE）模块，帮助模型关注身体区域，同时捕捉全局人体上下文。我们捕捉多尺度特征表示，进行自注意力学习，从聚合的多尺度信息中获得更全面的上下文，这对背景干扰物具有鲁棒性。为了减轻位置混淆，我们通过GCN对模型进行结构关系编码，并提出了一个关系引导的姿势解码器（RGP-De）。在RGP-De中，设计了一个关系编码的姿势原型生成（RePPG）模块，用于表达关键点特定的关系，帮助推断解码过程中的混淆部分。最后，通过探索人体上下文记忆和原型之间的相互作用，获得表示特定关键点（例如脚踝或头部）的部分感知响应图。为了促进多样性和细粒度，设计了一个部分多样性约束（PDC），鼓励部分特征之间的较低相关性，并迫使它们专注于自己的部分。总之，本文的贡献有三个方面：0•据我们所知，我们是第一个仅使用图像级别标签开发无位置HPE的研究。在三个数据集上广泛验证了其有效性，当给出少量位置标签时，性能甚至可以超过有监督的方法。0•我们使用多尺度空间引导的上下文编码器来捕捉全局上下文特征，并通过空间感知位置编码的帮助使其关注身体部位。0•我们设计了一种关系编码的姿势原型生成策略，通过GCN挖掘关键点之间的内在空间关系先验。此外，部分多样性约束使部分感知特征更加突出。02. 相关工作0人体姿势估计。最近，研究人员在HPE方面付出了艰苦的努力[9, 36, 45]，两种主流方法流行，包括自下而上[18,32]和自上而下[6, 37,42]。前者直接估计所有关键点并将它们分配给人物。后者首先检测人体边界框，然后在每个框内定位关键点。然而，上述工作都解决了全监督回归问题，没有研究探索弱监督的HPE。本文遵循自上而下的流程。在获取边界框后，我们从分类的角度获取关键点位置，仅使用类别标签。计算机视觉中的Transformer。最近，Transformer在计算机视觉领域引起了很多关注。ViT[10]将纯Transformer框架应用于一系列图像块进行分类。此外，VisionTransformer广泛应用于目标检测[51]、分割[52]。此外，DETR [5]和Deformable DETR[54]预测一组用于匹配对象位置的框。特别地，Transformer也应用于HPE，包括手部姿势估计[14]和3D HPE [23,50]。最接近我们的是2D HPE [22, 24, 26,44]中的应用。这些研究取得了令人印象深刻的性能，表明Transformer适合并且有效地建模人体姿势。因此，我们也利用Transformer来探索仅使用类别标签的弱监督HPE。基于CAM的WSOL。弱监督目标定位旨在仅使用图像级标签定位对象。自从CAM在[53]中提出以来，基于CAM的方法在WSOL和WSSS方面取得了巨大成功。对于WSOL，CAM只能识别对象的小的有区别的区域。在此之后，一系列的工作[20,46,48]被提出来改进CAM的质量。然而，当扩展到HPE时，这些改进是无效的。鉴于CAM，我们重新思考HPE，并旨在使用图像级别的类别标签定位关键点。即使基于CAM的方法在WSOL方面取得了成功，但对于关键点预测效果不佳。局部人体部位和类别之间的细微差异无疑给实现准确HPE带来了巨大挑战。03. 方法03.1. 框架概述0如图2所示，LOFR框架主要由MSC-En和RGP-De组成。给定一个输入，我们首先通过CNN主干网络获得多尺度特征表示。然后，多层特征图通过SPE进行处理，以输入到编码器中进行自注意力计算，以捕捉人体上下文记忆F m。XcFFNLdivLcls_tranFcRePPGSPEFm𝑷𝑪′H�i=1W1313901/4 1/8 1/16 GAP Softmax L cls_cnn01 × 1卷积0编码器单元0串联交叉注意力0池化0L cls_en 人体上下文记忆0关系引导的姿势解码器0多尺度空间引导的上下文编码器0空间感知位置编码0关系编码的姿势原型生成0部位多样性约束 C 部分感知图0位置图0基于CNN的0图2.无位置限制（LOFR）HPE流程。它包括一个带有SPE的MSC-En，用于捕捉与部位区域相关的多尺度人体上下文，以及一个与人体上下文进行交叉注意力的RGP-De，生成编码的姿势原型，以解析更准确的部位响应。PDC有助于学习更加突出的部位特征。0围绕身体区域。在RGP-De中，使用RePPG初始化的一组姿势原型P'C被送入解码器，与上下文记忆进行交叉注意力计算，解码部分感知响应图。通过池化操作可以获得部位特征，其中位置图被视为不同的空间关键点位置。除了预测的联合类别的一般二元交叉熵（BCE）损失外，还使用部位多样性约束来捕捉更加突出的部位特征。03.2. 基于CNN的0按照自上而下的流程，检测到的单人图像被输入到基于CNN的网络中，以获得特征图X ∈ R H × W ×D，其中H、W和D分别是高度、宽度和通道数。我们使用1× 1卷积将X转换为X' ∈ R H × W ×C，C是关键点类别的数量。然后，按照图2中的方式，通过GAP、FC和softmax层进行分类，得到特定类别的激活图M= [m 1, m 2, ..., m c] ∈ R H × W ×C，通过将FC的权重与特征图X'进行卷积得到如下结果:0m c (x, y) = RELU(�0k w c k x' k (x, y))，(1)0其中w c和x'k分别表示第c个类别和第k个特征图的权重。为了在RGP-De中获取图中的初始节点嵌入（在第3.4节中），我们计算特定类别的关键点向量F c = [f 1, f 2, ..., f c] ∈ R C ×D'，如下所示:0f c = x' T X c =0j =1 x' i,j x c i,j，(2)0其中x' i,j，x c i,j是特征图的第(i, j)个特征，X c ∈ R H × W× D'是通过1 × 1卷积得到的。03.3. 多尺度空间引导的上下文编码器0我们提出了一种带有SPE的MSC-En，以捕捉多尺度空间感知的人体上下文信息，如图2中的黄色框所示。空间感知位置编码。如上所述，我们已经获得了部分感知的CAMsM。此外，我们通过找到M的最大值来获得粗糙的关键点位置图{F key i}，其中i ∈ 1, 2,...C。我们不采用随机初始化的位置嵌入，而是将{Fkey}作为隐式位置先验，以帮助模型了解空间部位位置并捕捉上下文。给定输入特征F，我们建立如下的空间感知输入:0φ = F � F key, (3)0F' = ψ(φ ⊕ F). (4)0我们将φ视为与F相加的更新位置编码，ψ描绘了一个特征转换操作。�，⊕表示叉积和逐元素求和操作。得到的F'被馈送到编码器。多尺度上下文学习。为了捕捉更全面的上下文，我们从CNN骨干网络中提取多尺度特征{Fi}∈RH×W×C，i∈1, 2,3，下采样比率为1/4，1/8，1/16。我们在方程3中获得它们的位置编码和更新的多尺度输入特征{F'i}，i∈1, 2,3，以进行自注意力（SA）机制。AdrmFeeardMuadAtnAdrmFeedrdMuaAtnAddmAddmMuladAtnAdr131400Fm0Q0V0V Q0K0(a) 自注意力 (b) 交叉注意力0� �−1 ′ � � ′ � � ′�0图3. 编码器自注意力和解码器交叉注意力模块的示意图。0给定F'作为输入，多个SA模块用于学习多尺度特征的像素级人体上下文依赖关系。如图3（a）所示，SA模块由多头自注意力（MSA）、前馈网络（FFN）、层归一化（LN）和残差连接组成。FFN包含两个带有ReLU的线性层。对于第l层，SA的输入是从输入F'l-1计算得到的（查询、键、值）三元组：0Q = F'l-1WlQ, K = F'l-1WlK, V = F'l-1W1V, (5)0其中WlQ∈RC×dq，WlK∈RC×dk，WlV∈RC×dv是线性投影头的参数矩阵，dq，dk和dv是输入的维度。SA的公式为：0sqk = Softmax(F'l-1WlQ(F'l-1WlK)T0√dk), (6)0其中注意力权重sqk是基于每个查询和键之间的点积相似性计算得出的。dk是一个缩放因子，用于建模人体部位区域不同空间像素之间的相互依赖性。0SA(F'l-1) = F'l-1 + F'l-1WlVsqk, (7)0值的加权和可以聚合这些语义相关的空间像素以更新上下文。由于属于人体部位的像素具有高度相似性，同时又与背景像素不同，因此该特征捕捉到的完整人体更具鲁棒性。MSA是一个扩展，具有hSA，并将它们的串联输出投影为：0MSA(F'l-1) = Concat(SA1, ..., SAh)WlO, (8)0其中WlO∈Rhd k×C是线性头的参数。我们设置h = 8，C= 256，dq，dk，dv等于C/h =32。然后，我们使用FFN生成上下文感知的记忆：0F'l = MSA(F'l-1) + FFN(MSA(F'l-1)) ∈ RL×C. (9)0到目前为止，我们捕捉到了单尺度的人体上下文特征，这些特征对背景干扰具有鲁棒性。为了聚合多尺度上下文，我们将多级输出{F'i}，i∈{1, 2,3}连接起来作为最终的上下文记忆Fm。03.4. 基于关系引导的姿势解码器0在RGP-De中，我们使用一组包含类别特定语义和关节之间结构关系的关系编码姿势原型，让解码器解码出更准确的部位感知响应图。额外的部位多样性约束使得部位位置更准确和集中。关系编码姿势原型生成。值得注意的是，人体姿势具有符合运动学约束的固有结构。例如，相邻的或对称的关节更有可能具有高度一致的语义信息。因此，我们设计了RePPG来将关节间的关系集成到更新的姿势原型中，以便解析更精确的部位感知位置。我们首先引入一组姿势原型Pc ={pi}Ci=1，pi∈R1×d，它决定了特征Fm的像素是否属于部位i。我们将方程2中的类别特定关键点特征Fc初始化为Pc的节点特征。我们基于Fc构建了一个直观的图G = (V, E)。V ={vi, i = 1, 2, ..., C}是描述关键点的节点集合。E = {vivj |如果i和j在人体中相连}表示部位的肢体。邻接矩阵A ={aij}根据预定义的运动学连接进行初始化，其中当vi和vj在G中相邻或i = j时，aij = 1，否则aij =0。考虑到人体结构是具有关节之间空间约束的自然图形，我们因此通过最近的SemGCN[49]对关键点关系进行建模，以探索它们的结构关系。通过邻居将更新的节点特征首先从邻居j收集到节点i。初始节点特征被收集到Fcl∈RDl×C中，如方程2所示。0F c(l+1) = �W(l+1)F c(l)φ i(M r ⊙ A), (10)0其中F c(l)和F c(l+1)是第l个卷积层前后的节点特征，φi是归一化，�W(l+1)是权重矩阵。M r ∈RC×C表示关节之间的局部语义关系，并随节点特征进行更新。通过这种方式，得到了更新后的姿势原型P′C ={p′i}Ci=1，编码了局部语义和空间关系。交叉注意力层通过Fm与原型P′C之间的交互来学习更具体的部位感知特征。如图3(b)所示，给定Fm，查询来自原型{p′i}Ci=1，键和值来自特征Fm。实现与上述SA学习相同，所有hw位置的注意力权重形成一个部位感知响应图Ri =[ri,1,ri,2,ri,3,...,ri,hw]，在特定部位具有较高的响应值。̸131410上下文特征属于第i个部位。然后通过池化操作获得第i个部位特征。通过计算所有原型，我们获得C个部位响应图（每个图都是一个注意力图）和相应的部位特征{F pi}Ci。最后，通过找到其响应图的最大值，我们获得关键点位置图。部位多样性约束。简单的分类损失无法捕捉关键点类别之间的细微差异。不同的原型可能倾向于关注同一个部位（例如主体），这可能导致关键点位置的混淆。因此，为了使部位特征更加突出，我们对{F pi}Ci引入了部位多样性约束，使特征关注相应的局部部位。0L div = 10C(C − 1)0C �0i = 10C �0j = 1, i ≠ j0∥f p i∥2 ∙ ∥f p j∥2,(11)0如果第i个和第j个部位特征给同一个位置赋予较高的权重，Ldiv将变大，并促使每个部位特征自适应调整。03.5. 优化0分类输出表示逐关节的one-hot编码O。基于此，整体目标函数Lweak包括三个分类损失和一个多样性损失。分类损失Lcls是指二元交叉熵损失，分别是CNN输出、编码器输出和最终预测。0L cls = 10C0i = c BCE ( O i , O � i ) . (12)0L weak = αL cls cnn + α1L cls en + α2L cls tran + βL div. (13)0当我们提供少量位置标记数据时，我们采用L supmse来衡量真实的H�和预测的热图H。整体损失L semi −weak如下所示，0L supmse = 10C0�MSE(H�, H), (14)0L semi − weak = L sup mse + L weak，(15)0其中α、α1、α2和β分别是权重因子。04. 实验04.1. 数据集和评估指标0COCO关键点检测[25]包含118K训练图像，20K测试图像和5K验证图像。性能通过基于OKS的平均精度（AP）和平均召回率（AR）进行评估。0MPII人体姿势数据集包含25K张图像和40K个对象，其中12K个对象用于测试，其余用于训练。我们使用标准的PCKh[1]（头部归一化的正确关键点概率）进行评估。CrowdPose包含20K张图像和80K个人体实例，根据CrowdIndex分为三个拥挤级别：简单（0�0.1），中等（0.1�0.8）和困难（0.8�1）。它旨在提高在拥挤情况下的性能，并采用与MS-COCO相同的评估指标。04.2.实现细节0网络架构。除非另有说明，骨干网络采用ResNet-50和HR-w 32。我们选择DETR [ 5]作为Transformer基线。训练。我们在4个TeslaV100上使用32GB的PyTorch [ 33]实现了所有实验。对于MS-COCO，人体检测框被调整为256×192或384×288。我们采用Adam [ 17]优化器，学习率为4×10−3，权重衰减为10−4。Transformer的学习率按照10的因子降低。对于MPII，输入尺寸采用256×256和384×384，并采用半身增强。训练持续160个时期。对于Crowd-Pose，设置与COCO类似，训练持续210个时期。对于数据增强，我们应用随机翻转和随机调整大小，尺度 ∈ [0.65,1.35]（未使用cutout）。α，α1，α2和β的权重因子分别设置为0.2，0.2，0.5和0.1。04.3.与现有技术的比较04.3.1 无位置限制的设置0在MS-COCO上。在MS-COCOtest-dev上的结果比较如表1所示。值得注意的是，基线是基于CNN（Res-50）和原始的基于Transformer的架构实现的。与监督结果相比，准确性大幅下降。相比之下，我们的方法在所有情况下都取得了超过20%的改进。这证明了我们的LOFR可以获得更准确的关键点位置。虽然与监督方法存在一定差距，但与自底向上的方法相比，我们仍然取得了有竞争力的性能。我们还实现了在不同的骨干网络和输入尺寸下的稳定改进，这也反映了我们方法的良好普适性。在MPII上。如表2所示，仅带类别标签的基线仅达到35.3%的PCKh分数。相比之下，我们的准确性提升到61.8%，差距达到26.5%。此外，我们的LOFR在所有类型的关节上都取得了一致的改进，尽管与完全监督的方法存在一定差距。这可能是因为MPII包含了各种各样的姿势交互的野外图像，涵盖了从家庭到户外运动的范围，因此对仅具有类别级别标签的模型带来了巨大的挑战。G-RMI [32]R101 353×257 64.9 85.5 71.3 62.3 70.0AE [30]-512×512 65.5 86.8 72.3 60.6 72.6PifPaf [19]--67.4----HigherNet [7] HR3251266.4 87.5 72.8 61.2 74.2HGG [15]-51268.3 86.7 75.8--FCPose [27]R10180065.6 87.9 72.6 62.1 72.3DEKR [11]HR3251270.7 87.7 77.1 66.2 77.8PRTR [22]HR32 384×288 71.7 90.6 79.6 67.6 78.4TFPose [26]R50 384×288 72.2 90.9 80.1 69.1 78.8TokenP [24]HR32 256×192 74.7 89.8 81.4 71.3 81.4TransP [44]HR32 256 192 73.4 91.6 81.1 70.1 79.3Ours-LOFRR50 384×288 55.4 62.1 56.7 53.7 57.9Ours-LOFR HR32 256×192 54.8 61.8 56.1 53.2 57.3Ours-LOFR HR32 384×288 55.9 62.9 55.3 54.4 58.4Ours-LOFR HR48 256×192 55.5 62.4 56.7 53.8 57.8Ours-LOFR HR48 384×288 56.4 63.4 55.6 54.8 59.0131420表1.在COCO test-dev2017上的性能比较。最佳结果以粗体显示，其他表格类似。0方法背景尺寸 AP AP 50 AP 75 AP M AP L0自底向上的方法0自顶向下的方法0CPN [ 6 ] Incep 384 × 288 73.0 91.7 80.9 69.5 78.1 SBN[ 42 ] R152 384 × 288 73.7 91.9 81.1 70.3 80.0 HRNet [37 ] HR32 384 × 288 74.9 92.5 82.8 71.3 80.9 PoseFix [28 ] R152 384 × 288 76.7 92.6 84.1 73.1 82.6 UDP [ 13] R152 384 × 288 74.7 91.8 82.1 71.5 80.8基于Transformer的方法0仅带类别标签0基线 R50 256 × 192 34.0 41.4 36.2 31.6 36.2 基线 R50384 × 288 35.1 42.1 37.2 32.6 37.30在CrowdPose上。我们进一步在具有挑战性的CrowdPose数据集上验证了我们的方法，结果如表3所示。LOFR在所有指标上都超过了基线，mAP的准确率为42.5%，提高了20.0%。即使对于AP（难），我们仍然带来了很大的改进，达到34.1%（+17.5%）。这表明我们的方法在极度拥挤的姿势下也是可靠的。定性比较结果如图4所示。0基准我们 MPII CrowdPose 基准我们0图4. 在MPII和CrowdPose上的定性比较。0表2. 在MPII测试集上PCKh@0.5的性能比较。*表示使用额外的标签和更大的图像尺寸。0方法头肩肘腕臀膝踝总计0Wei [41] 97.8 95.0 88.7 84.0 88.4 82.8 79.4 88.5Newell [29] 98.2 96.3 91.2 87.2 89.8 87.4 83.6 90.9Sun [36] 98.1 96.2 91.2 87.2 89.8 87.4 84.1 91.0 Tang[39] 97.4 96.4 92.1 87.7 90.2 87.7 84.3 91.2 Ning [31]98.1 96.3 92.2 87.8 90.6 87.6 82.7 91.2 Chu [9] 98.596.3 91.9 88.1 90.6 88.0 85.0 91.5 Chou [8] 98.2 96.892.2 88.0 91.3 89.1 84.9 91.8 Yang [45] 98.5 96.7 92.588.7 91.1 88.6 86.0 92.0 Ke [16] 98.5 96.8 92.7 88.490.6 89.3 86.3 92.1 Xiao [42] 98.5 96.6 91.9 87.6 91.188.1 84.1 91.5 Tang [38] 98.4 96.9 92.6 88.7 91.8 89.486.2 92.3 Sun [37] 98.6 96.9 92.8 89.0 91.5 89.0 85.70Su* [35] 98.7 97.5 94.3 90.7 93.4 92.2 88.4 93.9 Bin*[2] 98.9 97.6 94.6 91.2 93.1 92.7 89.1 94.1 Bulat* [3]98.8 97.5 94.4 91.2 93.2 92.2 89.3 94.1 仅带类别标签0基准 53.5 73.0 33.8 26.5 15.7 14.6 7.1 35.30Ours-LOFR 86.9 79.8 65.6 54.1 47.7 46.2 32.1 61.80表3. 在CrowdPose测试集上的性能比较。0方法 AP AP 50 AP 75 AP M AP H0自下而上的方法0OpenPose [4] - - - 48.7 32.3 HigherHRNet [7] 67.687.4 72.6 68.1 58.9 DEKR [11] 68.0 85.5 73.4 68.858.40自上而下的方法0Mask-RCNN [12] 57.2 83.5 60.3 57.9 45.8 SBN [42]60.8 84.2 71.5 61.2 51.2 AlphaPose [21] 66.0 84.271.5 66.3 57.4 HRNet [37] 71.7 89.8 76.9 72.7 61.50基准 21.5 39.1 28.2 23.4 16.60Ours-LOFR 42.5 58.7 48.6 43.8 34.104.3.2 弱半监督设置0虽然我们主要关注图像级别的学习，但是我们的方法在给定少量位置标记数据时也能够实现更好的性能。在这种情况下，训练过程不变，但标记样本使用groundtruth进行监督损失。我们从MS-COCO和MPII的训练集中选择5%、10%、25%的标记实例，其余样本只有图像级别的标签，并作为无位置的设置进行训练。我们在上述数据集的验证集上验证实验结果，如表4所示。“Sup-only”表示仅使用带有groundtruth标签的样本进行训练。我们重新实现了Sup-only基线和与变换器基线框架相结合的比较方法，以进行公平比较。131430比较。结果显示，我们的模型在所有情况下都比基准Sup-only取得了稳定的改进，有类别标签的辅助。值得注意的是，当给定25%的位置标记实例时，我们的模型在全监督（ALL）模型上实现了可比较的性能。此外，所提出的策略可以在全监督设置下获得更准确的估计结果，并在COCO和MPII上分别达到71.8%和89.3%的结果，优于基线（ALL）模型0.8%和0.6%。0表4.在COCO和MPII数据集的验证集上，对不同位置数据比例进行结果比较。0数据集方法 Back 5% 10% 25% ALL0COCO0Sup-only [42] R50 50.3 54.8 60.8 71.00Sup-only [37] HR32 53.8 58.9 64.6 74.90SemiPose [43] R50 57.7 61.6 66.4 -0Ours-WS R50 60.9 64.8 70.6 71.8（+0.8%）0Ours-WS HR32 64.6 68.9 74.0 75.3（+0.5%）0MPII0Sup-only [42] R50 64.0 69.5 77.5 88.70SemiPose [43] R50 71.3 76.3 82.5 -0Ours-WS R50 74.6 79.8 88.1 89.3（+0.6%）04.4. 消融研究0SPE、MS和PDC的有效性。在表5中，具有SPE的模型比基线提高了3.4%的mAP。这表明让模型专注于局部部分上下文学习是有用的。多尺度（MS）策略进一步提高了1.8%，PDC在RePPG的基础上提高了2.0%。为了直观地显示其有效性，我们在图5中可视化了具有或不具有SPE和PDC的模型生成的位置图。我们观察到，使用SPE时，关键点位置更准确完整，说明我们的SPE提供了与随机初始化位置编码相比的空间感知指导。PDC还帮助模型发现比基线更明确的部分区域。此外，通过SPE的MSC-En学习到的特征与图7中的Tran-En相比，可以更好地覆盖部分特定的上下文。0表5. 在COCO val2017上对每个模块进行消融研究。0模型基线SPE MS RePPG PDC mAP mAR01 � 39.1 44.5 2 � � 42.5 47.8 3 � � 40.9 46.7 4 � � 44.9 50.45 � � 41.1 46.5 6 � � � 44.3 49.4 7 � � � 46.9 52.608 � � � � � 54.9 60.60RePPG的有效性。在表5中，通过在基线上添加RePPG，mAP的结果提高了44.9%（+5.8%）。0基线（B）带SPE带RePPG带PDC我们的Sup0图像0图5. 每个模块的消融定性结果。0这有力地表明了挖掘潜在的结构关键点关系以进行指导的必要性。在我们的设置中，姿势原型从数据集中学习关键点之间的统计相关性，作为先验知识。为了指示这些原型中编码的信息，我们计算它们的内积矩阵并在图6的不同情况下进行可视化。图6（d）显示，一个关键点往往与其对称或相邻的关键点高度相关。例如，左臀部与右臀部和左肩的相关性得分很高。这样的发现符合我们的常识并揭示了模型的学习内容。但是图6（b）主要表示自相关性学习，这表明RePPG可以编码更明确的局部关键点关系。0（a）（b）0（ c ）（ d ）0图6.学习到的姿势原型的内积矩阵。矩阵的每一行表示给定类型关键点与其他关键点之间的学习先验关系。（a）表示随机初始化；（b）表示经过SA处理；（c）表示初始关节相关性；（d）表示通过RePPG学习到的关节相关性。0模型规模的影响。在表6中，我们探索了transformer中编码器和解码器数量的影响。性能在前四层增长并随着层数的增加饱和，我们选择了最佳设置。12250.355.223352.357.834453.758.744654.960.656454.459.666653.258.4With SPE With RePPGOursBaseline-TransSupervisedWith MS131440表6. 编码器（D En）和解码器（D De）数量对COCOval2017的影响。0模型D En D De mAP mAR0可视化和分析。为了直观地说明我们的策略，我们在图7中以热力图为基础的结果中可视化了详细过程。我们的RGP-De解码比基线更细粒度和区分度的关键点特征响应。我们的最终结果甚至比监督结果更准确地定位，如图5所示。此外，我们还在图8中可视化了定性比较结果，也证明了我们的方法对于弱监督HPE的有效性。为了确保结果没有选择性，我们在整个数据集上计算了关节的统计平均响应值，如表7所示。LOFR的关节响应值明显高于基线。这说明我们的模型可以通过学习到的局部上下文和引导关系获得更明确的关节位置。0图像 Tran-En RGP-De B-0MSC-En Tran-De OurRe0图7.原始的基于Transformer的编码器（Tran-En）与提出的编码器（MSC-En）以及原始的解码器（Tran-De）与提出的解码器（RGP-De）的对比。B-Re和OurRe分别表示基准和我们的结果。0图8.随机选择样本的定性结果。我们通过红色矩形框突出显示显著差异。0表7. 跨数据集的身体关节平均响应比较。我们将值归一化为[0�1]。0数据集耳眼鼻子头肩肘腕臀膝踝0基准0COCO 0.21 0.17 0.32 0.65 0.36 0.31 0.21 0.39 0.21 0.13MPII - - - 0.62 0.52 0.34 0.24 0.17 0.16 0.090Crowd - - - 0.61 0.32 0.28 0.16 0.35 0.15 0.110Ours-LOFR0COCO 0.45 0.38 0.52 0.86 0.71 0.53 0.46 0.61 0.54 0.42MPII - - - 0.85 0.76 0.64 0.53 0.48 0.50 0.350Crowd - - - 0.82 0.62 0.51 0.42 0.51 0.42 0.350讨论。由于Transformer具有全局特征学习能力，因此我们可以获得比CNN更具区分性和全面性的人体上下文。然而，身体部位非常小且难以区分，使得Transformer具有位置感知的先验知识非常重要，以了解应该关注的位置。因此，我们设计了空间感知位置编码，以进行局部聚焦。更重要的是，通过GCN编码的结构关系可以指导解码器激活精细的部位位置。通过它们的协作，我们实现了相对竞争力的无位置姿态估计。考虑到图像-标签相似性的问题，当一个人完全出现时，它具有所有关键点类别。然而，对于我们采用的数据集，例如COCO，根据[34]中的统计数据，完整的实例占不到50％，大多数实例只有一半或少数几个身体部位出现在图像中。因此，跨实例的类别标签具有足够的多样性，使模型能够捕捉到不同的关节信息。注意，剪切增强可以带来0.8％的改进，但我们的方法中没有涉及，以避免信息泄漏。05. 结论和限制0在本文中，我们将人体姿态估计的范式从位置监督转变为无位置监督。因此，我们从分类的角度提出了一种定制的基于Transformer的HPE流程，仅使用类别级标签。我们首先设计了一个多尺度空间引导的上下文编码器，以捕捉全面的上下文，同时专注于局部部分区域。为了解码更准确的部位感知位置，我们通过GCN考虑了关节之间的固有关系约束，将关系引导编码到姿势原型中。使用部分多样性约束来保持部分特征的差异性。限制。模型的复杂性可以进一步减少。模型不能更好地解决多人估计中的遮挡问题，尤其是在拥挤的场景中（例如，在CrowdPose上），这值得在未来进行探索。131450参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter VGehler和Bernt Schiele.2D人体姿态估计：新的基准和最新技术分析。CVPR，第3686-3693页，2014年。50[2] Yanrui Bin, Xuan Cao, Xinya Chen, Yanhao Ge, Ying Tai,Chengjie Wang, Jilin Li, Feiyue Huang, Changxin Gao和NongSang.用于人体姿态估计的对抗语义数据增强。欧洲计算机视觉会议，第606-622页，2020年。60[3] Adrian Bulat, Jean Kossaifi, Georgios Tzimiropoulos, andMaja Pantic.通过软门控跳跃连接实现快速准确的人体姿态估计。2020年第15届IEEE国际自动人脸和手势识别会议（FG2020），第8-15页，2020年。60[4] Zhe Cao，Gines Hidalgo，Tomas Simon，ShihenWei和YaserSheikh。Openpose：使用部分亲和力场进行实时多人2D姿势估计。IEEE模式分析与机器智能交易，第1-1页，2019年。60[5] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexan

下载后可阅读完整内容，剩余1页未读，立即下载