使用transformers的端到端多人姿势估计

34 浏览量更新于2023-10-25 收藏 12.67MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

......110690使用transformers的端到端多人姿势估计0Dahu Shi 1* Xing Wei 2* Liangqi Li 1 Ye Ren 1 Wenming Tan 1 †01 Hikvision研究院，中国杭州 2西安交通大学软件工程学院0{shidahu，liliangqi，renye，tanwenming}@hikvision.com，weixing@mail.xjtu.edu.cn0摘要0当前的多人姿势估计方法通常将身体关节的定位和关联分开处理。在本文中，我们提出了第一个完全端到端的多人姿势估计框架，使用transformers，称为PETR。我们的方法将姿势估计视为一种层次集预测问题，并有效地消除了许多手工制作的模块，如RoI裁剪、NMS和分组后处理。在PETR中，多个姿势查询被学习用于直接推理一组全身姿势。然后，使用关节解码器进一步优化姿势，探索身体关节之间的运动学关系。借助注意机制，所提出的方法能够自适应地关注与目标关键点最相关的特征，从而在姿势估计中大大克服了特征不对齐困难，并显著提高了性能。在MSCOCO和CrowdPose基准测试上进行了大量实验证明，PETR在准确性和效率方面都优于现有的最先进方法。代码和模型可在https://github.com/hikvision-research/opera上获得。01.引言0多人姿势估计（又称关键点检测）旨在同时检测所有实例并识别每个人的运动关节。它是计算机视觉的基本任务之一，具有广泛的应用，如动作识别[9]，人机交互[15]，行人跟踪[1,31]和重新识别[22]等。现有的主流方法使用两阶段框架来解决这一具有挑战性的任务，包括自上而下和自下而上的方法。如图1a所示，自上而下的方法[5,10,12,33,39]首先通过人物检测器检测每个个体，然后将任务转移到一个简化的单人姿势估计问题。自上而下的流程存在以下缺点：1）姿势估计准确性严重依赖于人物检测器的性能，在复杂场景中性能较差[7]；2）由于使用了独立的检测器[26,32]，运算成本较高，运行时间取决于图像中实例的数量。另一方面，自下而上的方法[3,17,27,30]（如图1b所示）首先以实例无关的方式检测图像中的所有潜在关键点，然后进行分组后处理以获得实例感知的全身姿势。分组过程通常是启发式的、手工制作的和0*共同第一作者。†通讯作者。0SPPE0SPPE0合并0(a)自上而下框架。0分组0(b)自下而上框架。0编码器0解码器0(c)完全端到端框架。0图1.主流姿势估计框架的比较。SPPE在(a)中表示单人姿势估计。我们提出了一个完全端到端的框架，如(c)所示。0简单的。110700框架无RoI 无分组无NMS0两阶段自上而下 �0自下而上 �0单阶段非端到端 � �0完全端到端 � � �0表1.姿势估计框架的比较。0笨重的[27]，涉及多个超参数和技巧。这些方法将姿势估计问题分为两个步骤，并且通常不以完全端到端的方式进行优化。最近，直接从输入图像中的单个阶段[26，29，32，34，36，41]估计多人姿势引起了极大的兴趣。SPM[29]提出了一种结构化的姿势表示，统一了人物实例和身体关节位置表示，并简化了多人姿势估计流程。FCPose[26]和In-sPose[32]提出了一种使用动态实例感知卷积的完全卷积多人姿势估计框架，该框架紧凑高效。这些方法消除了对RoI（感兴趣区域）裁剪和关键点分组后处理的需求，并在准确性和效率之间取得了良好的平衡。然而，它们仍然依赖于热图[29,41]或得分图[26,32]上的“取峰”以及手工制作的NMS（非极大值抑制）后处理[26,32,36]，这些方法仍然没有进行端到端优化。受到目标检测中出现的范例的启发[4,42]，我们提出了一种完全端到端的多人姿势估计框架（第3.1节），其中包含transformers，称为PETR。所提出的方法通过形成姿势估计的层次集预测问题，统一了人物实例和细粒度身体关节定位。给定多个随机初始化的姿势查询，姿势解码器（第3.3节）学习推理对象之间的关系[14]，并在全局图像上估计一组实例感知姿势。然后，关节解码器（第3.4节）被设计用于探索不同关节之间的结构化关系，并在更细的层次上进一步优化全身姿势。与现有的单阶段方法相比，PETR可以分层地关注与目标关键点最相关的特征，从而在很大程度上克服了特征不对齐问题[11,34]，并显著提高了性能。我们的端到端查询式框架通过二分图匹配策略进行学习，避免了启发式标签分配，并消除了对NMS后处理的需求。我们在图1和表1中说明并比较了主流姿势估计框架。本文的主要贡献总结如下。0• 我们提出了第一个完全端到端的学习框架用于多人姿势估计。所提出的0PETR方法直接预测实例感知的全身姿势，消除了RoI裁剪、分组和NMS后处理的需求。0•我们设计了分层解码器来处理特征不对齐问题，并通过注意机制捕捉人物实例和运动关节之间的关系。0•PETR在COCO数据集上超过了所有单阶段和自底向上的方法，并与自顶向下的方法相媲美。此外，PETR在拥挤场景中表现良好，并在Crowd-Pose数据集上建立了新的技术水平。02. 相关工作02.1. 多人姿势估计0现有的多人姿势估计方法可以总结为三类：自顶向下方法、自底向上方法和最近的单阶段方法。自顶向下方法。自顶向下方法首先使用目标检测器获取图像中每个人物实例的边界框。然后从边界框中裁剪出单人姿势估计所需的实例。代表性的工作包括Hourglass [28]、RMPE [10]、CPN[5]、SimpleBaseline [39]、HRNet[33]等。一般来说，自顶向下方法的推理速度较慢。它们将多人姿势估计任务分为两个步骤：人物检测和单人姿势估计。Mask R-CNN[12]不同于从原始图像中裁剪RoI，它利用RoIAlign操作从检测器的特征图中提取RoI的特征，显著加快了推理速度。此外，自顶向下方法高度依赖于检测器的性能。自底向上方法。自底向上方法以与实例无关的方式检测所有关键点，然后将它们分组成个体。大多数现有的自底向上方法主要关注如何将属于同一人物的检测到的关键点关联起来。OpenPose[3]利用部分亲和场建立同一实例关键点之间的连接。关联嵌入[27]为每个身体关节产生一个检测热图和一个标记图，然后将具有相似标记的关键点分组成个体。PersonLab[30]通过直接学习每对关键点的2D偏移场来分组关键点。PifPaf[17]学习一个部分关联场（PAF）将关键点连接成全身姿势。与自顶向下方法相比，自底向上方法通常更高效，因为它们共享卷积计算的流水线更简单。然而，分组后处理是启发式的，并且涉及许多技巧，这常常使其性能不如自顶向下方法。. . .. . .. . .. . .. . ..�� 110710C0C0C0视觉特征0编码器0姿势解码器0N0关节解码器0扁平化0... K0K0N0特征令牌0关节坐标0特征图0姿势查询0关节查询0图2.PETR的整体架构。C3到C5是从主干网络（例如ResNet-50）提取的多尺度特征图。视觉特征编码器将扁平化的图像特征作为输入并进行优化。给定N个姿势查询和优化的多尺度特征令牌，姿势解码器并行预测N个全身姿势。之后，附加的关节解码器以每个散乱姿势（即每个姿势的运动关节）作为参考点，并输出优化的姿势作为最终结果。K是每个实例的关键点数量（例如，在COCO [21]数据集中K = 17）。0单阶段方法。为了避免自上而下和自下而上方法中的上述限制，提出了单阶段方法[26, 29, 32, 34, 36,41]，用于在空间位置上密集回归一组姿势候选，其中每个候选包含来自同一人的关键点位置。SPM[29]提出了一种结构化的姿势表示，以统一人物实例和身体关节的位置信息。由于弱回归结果，CenterNet[41]提出将回归的关键点位置与从关键点热图中检测到的最近关键点进行匹配。点集锚[36]采用类似可变形的卷积来优化预定义的姿势锚点，减轻了特征错位的困难。FCPose [26]和InsPose[32]利用动态实例感知卷积来解决多人姿势估计问题，实现了比其他单阶段方法更好的准确性/效率折衷。尽管这些方法获得了竞争性能，但它们并没有完全端到端优化，仍然需要启发式的后处理，如NMS或关键点位置校正[41]。02.2. 视觉中的Transformer0Transformer[35]已广泛应用于自然语言处理。最近，许多工作尝试将Transformer架构引入计算机视觉任务，并展示了有希望的性能[4, 6, 8, 37, 42]。ViT[8]将Transformer应用于对图像补丁序列进行编码，用于图像分类。DETR [4]和Deformable DETR[42]采用Transformer架构与二分匹配一起进行目标检测，实现了端到端的方式。0MaskFormer [6]和SOIT[40]使用Transformer解码器直接预测一组二进制掩码，并有效地消除了许多手工设计的组件的需求。SAANet[37]提出了一种场景自适应Transformer网络用于人群计数，在几个基准测试中实现了最高的准确性。PRTR[20]和TFPose[25]通过Transformer将姿势估计任务形式化为回归问题。然而，它们仍然遵循自上而下的框架，并需要手工设计的RoI裁剪操作。在本文中，我们使用Transformer构建了一个完全端到端的多人姿势估计框架。03. 方法03.1. 整体架构0如图2所示，所提出的框架由三个关键模块组成：视觉特征编码器、姿势解码器和关节解码器，其中（1）视觉特征编码器用于优化从骨干网络提取的多尺度特征图，（2）姿势解码器用于预测多个全身姿势，（3）关节解码器设计用于在关节级别进一步优化全身姿势。给定图像I ∈ RH × W ×3，我们从骨干网络（例如ResNet[13]）的最后三个阶段提取多尺度特征图C3，C4和C5，其步长分别为8、16和32。多尺度特征图通过空间全连接（FC）层投影到具有256个通道的特征令牌C'3，C'4和C'5。具体而言，C'i的形状为Li × 256，. . .. . .. . .110720姿势到姿势的注意力0加和归一化0可变形特征到姿势的注意力0加和归一化0得分0姿势0姿势查询0F0N0参考点0特征嵌入0采样偏移0多尺度特征令牌0图3.姿势解码器的详细结构。给定N个姿势查询，姿势解码器输出N个实例感知的全身姿势。渐进变形交叉注意力模块可以关注与目标关键点最相关的视觉特征。02 i。接下来，使用连接的特征令牌 [C ′ 3，C ′ 4，C ′ 5]作为输入，视觉特征编码器输出改进的多尺度特征令牌 F ∈R L × 256，其中 L = L 3 + L 4 + L 5是特征令牌的总数。之后，使用 N个随机初始化的姿势查询直接推理全身姿势（及其对应的置信度分数）在全局图像上下文中。最后，我们将每个全身姿势散布成一系列身体关节，并采用关节解码器进一步改进它们。03.2. 视觉特征编码器0高分辨率和多尺度的特征图对于姿势估计任务很重要[7,33]。由于多头自注意力模块[4,8]对输入大小具有二次计算复杂度，我们使用可变形注意力模块[42]来实现我们的特征编码器。由于可变形注意力层的计算复杂度较低，我们的编码器可以合并和改进多尺度特征图。具体而言，每个编码器层由一个多尺度可变形注意力模块和一个前馈网络（FFN）组成。为了确定每个特征令牌所在的特征级别，我们除了位置嵌入外，还添加了一个尺度级别的嵌入。我们的视觉特征编码器中有六个堆叠的可变形编码器层。之后，我们可以获得改进的多尺度视觉特征记忆F。03.3. 姿势解码器0在姿势解码器中，我们旨在在全局图像上下文（即特征记忆F）下推理一组全身姿势。与视觉特征编码器类似，我们使用可变形注意力模块来构建姿势解码器，因为它具有高效性。具体而言，给定 N 个随机初始化的姿势查询 Q pose ∈ RN × D，姿势解码器输出 N 个全身姿势 {P i } N i =1 ∈ R N× 2 K，其中 P i = { ( x j i , y j i ) } K j =1 表示第 i 个人的 K个关节的坐标，D表示查询嵌入的维度。姿势解码器的详细结构如图 3所示。首先，将查询嵌入输入到自注意力模块中以相互交互（即姿势对姿势的注意力）。然后，每个查询通过可变形交叉注意力模块从多尺度特征记忆 F中提取特征（即特征对姿势的注意力）。与 [42]不同，我们的可变形交叉注意力模块中有 K个参考点，用作全身姿势的初始位置。随后，实例感知的查询特征被输入到多任务预测头中。分类头通过线性投影层（FC）预测每个对象的置信度分数。姿势回归头使用具有隐藏大小为 256 的多层感知机（MLP）预测相对于 K个参考点的相对偏移量。在我们的姿势解码器中，顺序应用了三个解码器层。与仅使用最终解码器层预测姿势坐标不同，受 [42]的启发，我们利用所有解码器层逐步估计姿势坐标。具体而言，每一层都根据前一层的预测来改进姿势。形式上，给定由第 (d-1) 个解码器层预测的归一化姿势 P d − 1，第 d个解码器层将姿势改进为0P d = σ ( σ − 1 ( P d − 1 ) + Δ P d )，(1)0其中 Δ P d 是第 d 层的预测偏移量，σ 和 σ − 10其中 sigmoid 和逆 sigmoid 函数分别表示 sigmoid 和逆sigmoid 函数。这样，P d − 1 作为第 d个解码器层中交叉注意力模块的新参考点。初始参考点 P 0是一个随机初始化的矩阵，在训练过程中与模型参数一起进行联合更新。因此，渐进可变形交叉注意力模块可以关注与目标关键点最相关的视觉特征，从而自然地克服特征不对齐问题。03.4.关节解码器0如图4所示，关节解码器旨在探索关节之间的结构关系，并在关节级别上进一步细化全身姿势。我们使用可变形注意力模块构建了关节解码器。. . .. . .. . .110730关节到关节的注意力0加和归一化0可变形特征到关节的注意力0加和归一化0关节0关节查询0F0K0参考点0特征嵌入0采样偏移0多尺度特征令牌0鼻子左眼右眼右脚踝0图4.关节解码器的详细结构。每个K个关节查询都以姿势解码器预测的全身姿势的关键点位置作为其参考点进行进一步细化。0与姿势解码器相同。具体而言，给定K个随机初始化的关节查询Qjoint∈RK×D，关节解码器将前一个姿势解码器预测的每个全身姿势的关节位置作为其初始参考点，然后进一步细化关节位置。注意，所有姿势可以并行处理，因为它们在关节解码器中彼此独立。关节解码器的详细结构如图4所示。关节查询首先通过自注意力模块（即关节到关节的注意力）相互作用，然后在可变形交叉注意力模块（即特征到关节的注意力）中提取视觉特征。随后，关节回归头通过应用MLP来预测2D关节位移ΔJ=(Δx,Δy)。与姿势解码器类似，关节坐标逐步细化。形式上，设Jd−1为第(d−1)个解码器层预测的归一化关节坐标，第d个解码器层的预测为Jd=σ(σ−1(Jd−1)+ΔJd)，其中J0是由前一个姿势解码器预测的姿势的关节位置。03.5.损失函数0根据[4]，我们使用基于集合的匈牙利损失函数，强制每个真实姿势只有一个预测结果。我们的姿势解码器中使用与[42]中的分类损失函数（表示为Lcls）相同的分类损失函数。此外，我们的姿势解码器和关节解码器分别采用L1损失（表示为Lreg）和OKS损失（表示为Loks）进行姿势回归和关节回归。0OKS损失。最常用的L1损失对于小姿势和大姿势具有不同的尺度，即使它们的相对误差相似。为了缓解这个问题，我们另外提出使用对象关键点相似性（OKS）损失，可以表示为：0Loks(P,P�)=�Kiexp(−∥Pi−P�i∥/2s2k2i)δ(vi>0)0�Kiδ(vi>0)，0(2)其中∥Pi−P�i∥是第i个的欧几里得距离0其中vi是真实关键点的可见性标志，s是物体尺度，ki是控制衰减的每个关键点常数。如上所示，OKS损失通过人体实例的尺度进行归一化，并使关键点的重要性相等。热图损失。与[26,32]类似，我们使用辅助热图回归训练来加快收敛速度。我们从视觉特征编码器的C3输出中收集特征令牌，并将这些令牌重新整形为原始空间形状。结果用FC3表示∈R(H/8)×(W/8)×D。我们应用可变形变换编码器生成热图预测。然后，我们计算预测热图和真实热图之间的变种焦点损失[18]（表示为Lhm）。注意，热图分支仅用于辅助训练，在推理中被丢弃。总体损失。形式上，我们模型的总体损失函数可以表示为：0L = L cls + λ1L reg + λ2L oks + λ3L hm (3)0其中λ1，λ2和λ3分别是损失权重。04. 实验04.1. COCO关键点检测0我们在COCO数据集[21]上评估性能，该数据集包含超过200K张图像和250K个带有17个关键点标记的人体实例。所有模型都在train2017集（57K张图像）上进行训练。我们使用val2017集（5K张图像）作为我们的消融实验验证集，并与其他最先进的方法在test-dev集（20K张图像）上进行比较。评估指标。标准评估指标基于目标关键点相似度（OKS）。我们报告标准的平均精度和召回率得分1：AP 50（OKS =0.50的AP），AP 75，AP（从OKS = 0.50到OKS =0.95，增量为0.05的AP得分的平均值），APM表示中等大小的人体，APL表示大型人体。训练细节。按照[26,32]的设置，我们通过随机裁剪、随机翻转和随机调整大小（较短边在[480,800]，较长01 http://cocodataset.org/#keypoints-eval110740方法骨干网络 AP AP 50 AP 75 AP M AP L 时间[ms]0两阶段方法0自顶向下0Mask R-CNN[12] ResNet-50 62.7 87.0 68.4 57.4 71.1 890Mask R-CNN� ResNet-50 63.9 87.7 69.9 59.7 71.5 890Mask R-CNN� ResNet-101 64.3 88.2 70.6 60.1 71.9 1080SimpleBaseline†[39] ResNet-152 73.7 91.9 81.1 70.3 80.0 > 7840HRNet†[33] HRNet-w32 74.9 92.5 82.8 71.3 80.9 > 6320HRNet†[33] HRNet-w48 75.5 92.5 83.3 71.9 81.5 > 8570自底向上0CMU-Pose‡[3] 3CM-3PAF 61.8 84.9 67.5 57.1 68.2 -0AE†[27] Hourglass-4 stacked 62.8 84.6 69.2 57.5 70.6 1390HrHRNet†[7] HRNet-w32 66.4 87.5 72.8 61.2 74.2 4000DEKR†[11] HRNet-w32 67.3 87.9 74.1 61.5 76.1 4110SWAHR†[24] HRNet-w32 67.9 88.9 74.5 62.4 75.5 4060单阶段方法0非端到端0DirectPose[34] ResNet-50 62.2 86.4 68.2 56.7 69.8 740FCPose[26] ResNet-50 64.3 87.3 71.0 61.6 70.5 680InsPose[32] ResNet-50 65.4 88.9 71.7 60.2 72.7 800DirectPose[34] ResNet-101 63.3 86.7 69.4 57.8 71.2 -0FCPose[26] ResNet-101 65.6 87.9 72.6 62.1 72.3 930InsPose[32] ResNet-101 66.3 89.2 73.0 61.2 73.9 1000Point-Set Anchors†‡[36] HRNet-w48 68.7 89.9 76.3 64.8 75.3 -0完全端到端0PETR‡（我们的方法）ResNet-50 69.2 90.5 77.1 64.2 76.4 -0PETR‡（我们的方法）ResNet-101 70.0 90.9 78.2 65.3 77.1 -0PETR‡（我们的方法）Swin-L 71.2 91.4 79.6 66.9 78.0 -0表2. 在COCO测试集上与最先进方法的比较。†和‡分别表示翻转和多尺度测试。Mask R-CNN�是来自Detectron2[38]的结果，比MaskR-CNN论文[12]中的原始结果更好。如果可能，我们会测量其他方法在相同硬件上的推理时间，所有时间都是以单尺度测试计算的。请注意，一些自顶向下的方法需要额外的人体检测器推理时间，该时间不包含在此表中。0较短边小于等于1333）。使用Adam优化器[16]进行模型训练，基础学习率为2×10^-4，动量为0.9，权重衰减为1×10^-4。具体来说，我们使用总批量大小为32进行50个epoch的模型训练，初始学习率在第40个epoch时衰减。0在消融实验中，我们将学习率在第80个epoch时按0.1的因子衰减。对于test-dev数据集上的主要结果，模型训练100个epoch，初始学习率在第80个epoch时衰减。0在第40个epoch时按0.1的因子衰减。0测试细节。输入图像的较短边被调整为800，较长边小于等于1333。对于多尺度测试，我们将原始图像调整为较短边分别为800、1000和1200。所有报告的数字均是使用单个模型而不是模型集合获得的。推理时间使用单个NVIDIA TeslaV100 GPU进行测量。04.2. COCO test-dev上的结果0首先，我们与最先进的方法进行比较，如表2所示。当使用与特征提取器相同的骨干网络时，我们的PETR优于所有现有的自底向上方法以及单阶段方法，无论是否进行多尺度测试。在没有任何花哨的技巧的情况下，所提出的方法在使用ResNet-50和ResNet-101作为骨干网络时分别达到了67.6和68.5的AP得分。我们的最佳模型使用Swin-L [23]在COCOtest-dev2017上达到了71.2的AP得分。与单阶段方法的比较。我们的方法明显优于现有的单阶段方法，如DirectPose[34]，CenterNet [41]，Point-Set Anchors [36]和InsPose[32]。与使用ResNet-50和ResNet-101作为骨干网络的InsPose[32]相比，我们的方法的性能提高了2.2个点。我们的PETR6080100150200300400626466687072PETR-R50-600PETR-R50PETR-R101PETR-Swin-LMask R-CNN-R50Mask R-CNN-R101InsPose-R50InsPose-R101FCPose-R50FCPose-R101HrHRNetCenterNetAEPifPafDEKREnd-to-EndSingle-StageTop-DownBottom-Up110750图5. PETR的可视化结果。第一行和第二行分别显示了COCOval2017和CrowdPose测试集上的可视化结果。PETR在包含视角变化、遮挡、运动模糊和拥挤场景的各种姿势中表现良好。最佳效果以彩色显示。0使用ResNet-101，甚至优于使用比ResNet-101更大的HRNet-w48的Points-Set Anchors，AP得分为70.0 vs.68.7。需要注意的是，我们的方法是无需NMS的，与这些单阶段方法相比更高效。与两阶段方法的比较。通过更紧凑的流程，我们甚至优于最先进的自底向上方法，如CMU-Pose[2]，AE [27]，PifPaf [17]，HigherHRNet [7]，DEKR[11]和SWAHR[24]。在单尺度测试中，PETR相对于HigherHRNet[7]有显著的提升，AP得分为68.5 vs.64.7，其中我们的PETR使用的是比HigherHRNet[7]中使用的HRNet-w32更小的骨干网络ResNet-101。我们的方法还优于最新提出的SWAHR [24]，68.5 vs.67.9，使用了更小的骨干网络。此外，PETR相对于以ResNet-101为骨干网络的先前强基准Mask R-CNN[12]也有优势（AP得分为68.5 vs.64.3），同时保持了竞争性的推理速度。推理时间的比较。我们在可能的情况下，使用相同的硬件测量了我们的模型与不同骨干网络和其他方法的推理时间。如表2所示，PETR使用ResNet-50能够达到与典型的自顶向下方法Mask R-CNN[12]和单阶段方法InsPose [32]相竞争的推理速度，即89ms vs. 89 ms vs. 80ms。我们还在图6中展示了我们的PETR与最先进方法在速度和准确性方面的权衡，PETR在速度和准确性领域都超过了所有这些自底向上方法。尽管它似乎比其他方法（FCPose[26]）稍慢一些，但我们应该注意到，当前的计算设备如GPU并没有专门针对基于Transformer的架构进行优化。0时间（毫秒）0AP0图6.速度-准确性权衡比较。PETR-R50-600表示PETR的一个变种，使用ResNet-50骨干网络，输入图像的短边为600像素。04.3.消融研究0我们进行了一系列的消融实验，分析了所提出的姿势/关节解码器和OKS损失在COCOval2017数据集上的有效性。姿势和关节解码器。PETR使用分层解码器（即姿势解码器和关节解码器）逐步回归关键点位置。仅使用姿势解码器已经可以估计全身姿势，而关节解码器可以进一步改进。如表3所示，关节解码器将AP提高了1.0个点。需要注意的是，AP75的改进更为显著（1.3个点），表明关节解码器提供了更精细的预测。此外，我们进行了另一个实验，其中同时使用姿势110760姿势解码器关节解码器 AP AP 50 AP 75 AP M AP L AR049.4 75.7 55.1 46.4 54.3 60.4 � 66.4 87.2 73.6 60.6 74.8 73.7 � �67.4 87.0 74.9 61.7 75.9 74.80表3.消融实验：在COCOval2017上消融所提出的姿势解码器和关节解码器。第一行表示直接利用改进的多尺度特征令牌回归全身姿势，这会导致严重的特征不对齐，如[34]所述。0OKS损失 OKS匹配 AP AP 50 AP 75 AP M AP L AR064.2 86.7 70.1 58.4 73.5 73.9 � 65.6 87.7 72.1 60.3 73.9 74.8 � 66.9 86.674.4 60.9 75.8 74.5 � � 67.4 87.0 74.9 61.7 75.9 74.80表4.消融实验：OKS损失及其匹配成本对COCO val2017的影响。0解码器和关节解码器被禁用。在这种情况下，我们只使用由视觉特征编码器改进的多尺度特征令牌直接回归全身姿势。由于特征和目标关节之间的不对齐，性能（表3中的第一行）显著下降，如[11,34]所述。OKS损失和OKS匹配成本。与DETR[4]一样，我们使用二分图匹配机制来表示训练样本和真值之间的关系，然后计算几种类型的损失来监督模型。OKS是姿势估计基准测试中常用的评估指标。然而，大多数方法使用L1损失进行训练，因此在优化损失和最大化OKS指标之间存在差距。据我们所知，这是姿势估计领域首次采用OKS作为损失函数。我们进行实验研究OKS损失及其匹配成本的影响。如表4所示，OKS损失带来了1.4个AP分数的提升，使用OKS进行匹配成本获得了2.7个AP分数的提升。当结合这两个组件时，性能从64.2提高到67.4。04.4. CrowdPose0我们进一步在CrowdPose[19]数据集上评估我们的方法，该数据集更具挑战性，包含许多拥挤的场景。它包含20K张图像，约有80,000个人。每个人都标有14个身体关节。训练、验证和测试数据集分别包含约10K、2K和8K张图像。我们在训练集和验证集上训练我们的模型，并在测试集上报告结果，就像[7]中所做的那样。评估指标。采用基于OKS的标准平均精度作为评估指标，该指标与COCO相同。CrowdPose数据集分为三个拥挤级别：简单、中等和困难。我们报告0方法 AP AP 50 AP 75 AP E AP M AP H0自顶向下方法0Mask R-CNN [12] 57.2 83.5 60.3 69.4 57.9 45.8 AlphaPose [10]61.0 81.3 66.0 71.2 61.4 51.1 SimpleBaseline [39] 60.8 81.4 65.771.4 61.2 51.2 SPPE [19] 66.0 84.2 71.5 75.5 66.3 57.40自底向上方法0OpenPose [3] - - - 62.7 48.7 32.3 HrHRNet † [7] 65.9 86.4 70.673.3 66.5 57.9 DEKR † [11] 67.3 86.4 72.2 74.6 68.1 58.7 SWAHR †[24] 71.6 88.5 77.6 78.9 72.4 63.00完全端到端方法0PETR（我们的方法）71.6 90.4 78.3 77.3 72.0 65.8 PETR†（我们的方法）72.0 90.9 78.8 78.0 72.5 65.40表5.在Crowd-Pose测试数据集上与最先进方法的比较。AP的上标E、M、H分别代表易、中、难图像。†表示翻转测试。0以下指标：AP、AP50、AP75，以及易、中、难图像的AP E、AP M和APH。测试集结果。我们的方法和其他最先进方法在测试集上的结果如表5所示。与在拥挤场景中失去优势的自顶向下方法不同，我们的方法显示出其鲁棒性，并获得了72.0的AP分数，超过了最新的自底向上方法SWAHR [24]，特别是在AP H上。0我们的PETR不依赖于像自顶向下方法那样的检测结果，也不需要像自底向上和其他单阶段方法那样使用NMS来抑制冗余结果，这使得它更灵活、更适合在拥挤场景下估计人体姿态。05.结论0本文提出了第一个完全端到端的多人姿态估计框架PETR。它将多人姿态估计重新定义为一种分层集合预测问题，有效地消除了许多手工设计的组件，如RoI裁剪、分组和NMS后处理。PETR简单直接，提供了更好的准确性和效率之间的权衡，优于其他方法。0致谢0本工作由中国国家自然科学基金（编号62006183）、中国国家重点研发计划（编号2020AAA0105600）、中国博士后科学基金（编号2020M683489）以及中央高校基本科研业务费（编号xhj032021017-04和xzy012020013）资助。110770参考文献0[1] Mykhaylo Andriluka，Umar Iqbal，EldarInsafutdinov，Leonid Pishchulin，Anton Milan，JuergenGall和BerntSchiele。Posetrack：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集中，第5167-5176页，2018年。10[2] 曹哲，HidalgoGines，西蒙托马斯，魏世恩和谢尔克亚瑟。Openpose：使用部分亲和力场的实时多人二维姿态估计。IEEE模式分析与机器智能交易，43（1）：172-186，2019年。6，70[3]曹哲，西蒙托马斯，魏世恩和谢尔克亚瑟。使用部分亲和力场的实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集中，第7291-7299页，2017年。1，2，6，80[4] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov和SergeyZagoruyko。使用Transformer的端到端目标检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。2，3，4，5，80[5]陈一伦，王志成，彭宇翔，张志强，于刚和孙健。级联金字塔网络用于多人姿态估计。在IEEE计算机视觉和模式识别会议论文集中，第7103-7112页，2018年。1，2，60[6] 郑博文，Alexander G Schwing和Alexander Kir-illov。像素级分类不是语义分割所需的全部。arXiv预印本arXiv:2107.06278，2021年。30[7]郑博文，肖斌，王京东，史洪辉，黄托马斯S和张磊。Higherhrnet：面向自底向上的人体姿态估计的尺度感知表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集中，第5386-5395页，2020年。1，4，6，7，80[8] Alexey Dosovitskiy，Lucas Beyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，GeorgHeigold，SylvainGelly等。一张图值16x16个单词：用于图像识别的变压器。arXiv预印本arXiv:2010.11929，2020年。3，40[9]杜勇，王伟和王亮。基于骨架的动作识别的分层循环神经网络。在《计算机视觉和模式识别的IEEE会议论文集》中，第1110-1118页，2015年。10[10]方浩舒，谢树勤，戴宇荣和卢策吾。Rmpe:区域多人姿势估计。在《计算机视觉的IEEE国际会议论文集》中，第2334-2343页，2017年。1，2，80[11]耿子刚，孙科，肖斌，张兆祥和王京东。通过解缠绕的关键点回归进行自下而上的人体姿势估计。在《计算机视觉和模式识别的IEEE/CVF会议论文集》中，第14676-14686页，2021年。2，6，7，80[12] Kaiming He，Georgia Gkioxari，Piotr Doll´ar和RossGirshick。Mask r-cnn。在《计算机视觉的IEEE国际会议论文集》中0计算机视觉会议，第2961-2969页，2017年。1，2，6，7，80[13] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在《计算机视觉和模式识别的IEEE会议论文集》中，第770-778页，2016年。30[14]胡瀚，顾佳源，张铮，戴继峰和魏一尘。关系网络用于对象检测。在《计算机视觉和模式识别的IEEE会议论文集》中，第3588-3597页，2018年。20[15] Himanshu Prakash Jain，AnbumaniSubramanian，Sukhendu Das和AnuragMittal。使用深度相机的实时上半身人体姿势估计。在《国际计算机视觉/计算机图形学协作技术和应用会议》中，第227-238页。Springer，2011年。10[16] Diederik P Kingma和JimmyBa。Adam:一种随机优化方法。ICLR，第9页，2015年。60[17] Sven Kreiss，Lorenzo Bertoni和AlexandreAlahi。Pifpaf:用于人体姿势估计的复合场。在《计算机视觉和模式识别的IEEE/CVF会议论文集》中，第11977-11986页，2019年。1，2，6，70[18] Hei Law和JiaDeng。Cornernet:将对象检测为成对关键点。在《欧洲计算机视觉会议(

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

使用transformers的端到端多人姿势估计

使用Transformers 和 Faiss 构建语义搜索引擎_Jupyter_python

end-to-end object detection with transformers csdn

我应该怎么使用Transformers

Python怎么使用Transformers库

python如何使用transformers加载gpt3

transformers模型实际应用

如何在Python中使用transformers

python3.5能使用的transformers版本是什么

使用transformers自己训练一个模型

参考文献格式end-to-end object detection with transformers

怎么下载transformers 库

能不能用transformers构建数据集

不使用transformers库，如何创建上面的优化器

sentence-transformers的使用

Transformers Usage是什么意思 Transformers是什么

huggingface transformers使用

No module named 'transformers.modeling_bert'

HF transformers如何下载

huggingface-hub库和transformers库什么关系，仅需下载transformers库就可用预训练模型吗

transformers所需依赖

最新资源