基于注意力的多人位姿估计中心关键点分组

44 浏览量更新于2023-10-14 收藏 920KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11853关注中心：基于注意力的多人位姿估计中心关键点分组GuillemBraso´Nikita KisterLaura Leal-Taixe慕尼黑工业大学{guillem.braso，n.kister，lealtaixe} @ tum.de摘要我们引入CenterGroup，一个基于注意力的框架，从一组身份不可知的关键点和图像中的人中心预测来估计人的姿势我们的方法使用一个Transformer，以获得所有检测到的关键点和中心的上下文感知嵌入，然后应用多头注意力直接组关节到其相应的人的中心。虽然大多数自下而上的方法在推理时依赖于不可学习的聚类，但CenterGroup使用完全可区分的注意力机制，我们与我们的关键点检测器一起进行端到端的训练。因此，我们的方法获得了最先进的性能，推理时间比竞争自下而上的方法快 2.5 倍。我们的代码可在https://github.com/dvl-tum/center-group上获得1. 介绍在图像中定位所有人类的解剖2D关键点是计算机视觉中的基本任务，具有在诸如虚拟现实、人机交互和人类行为分析等应用中实现进展的能力。它也是诸如动作识别[60，13]，多对象跟踪[21，29]和生成模型[8，48]等任务的算法的常见关键组件。当前的方法通常遵循两种范例中的一种：自下而上和自上而下。自上而下的方法[10，17，18，25，31，41，59，51，52]将问题分为两个子任务：(i) 针对所述图像中的所有人的边界框检测，以及(ii) 每个人单独进行关节定位。尽管它们在一些基准测试中取得了成功[2，1，32]，但这些两步方法由于它们需要使用单独的对象检测器而缺乏效率，并且它们的性能往往在严重遮挡下严重降级[31]。自下而上的方法[6，44，26，37，40，12，28]遵循不同的方法，因为它们首先检测身份不可知的关键点，然后将它们分组为单独的姿势。它们不依赖外部对象检测器，并且能够在图像中的整个关键点集上联合操作，这使得它们能够个人中心中心组中心-关键点注意组关键点图1：给定一组预测的身份不可知的关键点和人中心，CenterGroup学习将关键点分配到具有注意力的相应中心。在常见遮挡的基准测试中优于自上而下的方法[31]。虽然最近的工作已经显著地提高了自下而上方法准确地预测无身份关键点的能力[12]，但是当前的分组算法仍然面临显著的缺点：因为它们通常依赖于优化算法，所以它们不能被端到端地训练，并且通常很慢。关键点分组任务可以被公式化为图优化问题，其中节点表示关键点，并且可以被学习的边权重表示它们属于相同人类姿势的可能性。然后使用整数线性规划[44，26，45]，启发式[37，40，6]或图聚类[28自下而上方法的一个常见问题是它们的学习目标与真实的推理过程不太一致：它们学习关键点之间的亲和力，但是在测试时，分组由本身不可区分的单独算法执行。一次性方法是基于优化的自下而上方法的有效替代方案[39，65，58他们的一般公式包括每个人回归根节点位置，然后预测关键点位置的偏移。因为他们能够避开基于优化的组-11854在这一阶段，它们的速度明显快于它们的对手。然而，考虑到在遮挡和尺度变化下预测偏移的固有困难，它们也明显不太准确，因此必须依赖于额外的后处理技术来获得竞争性能[39，65，58]。我们提出了一个新的框架工作的基础上注意力，以解决目前的自下而上的分组和一次性算法的局限性。而不是从一组中心节点回归偏移，我们建议的CenterGroup使用注意力搜索整个图像的人的中心和关键点我们的方法保留了自下而上方法从热图精确预测关键点的能力，同时保持了一次性方法的效率。此外，与标准的自下而上方法不同，CenterGroup不需要任何测试时间优化，并且是端到端可训练的。更具体地说，我们首先通过热图回归获得针对人中心和身份不可知关键点的然后，我们将中心和关键点馈送到Transformer[54] 以将上下文信息编码到其更新的嵌入中。最后，在一个简单的关键点分组方案中使用的嵌入，该方案最大限度地提高了人的中心和属于同一姿势的关键点之间的注意力得分。在测试时，我们通过将具有相应的最高注意力分数的关键点分配给中心来提取姿势。由于我们的分组算法的简单性和注意力计算的并行性，CenterGroup比当前最先进的自底向上方法快2.5倍[12]，同时具有更好的性能。总的来说，我们做出了以下贡献：• 我们建议通过将关键点和人中心预测与多头注意力公式进行分组来解决姿势估计问题，该公式允许以端到端的方式训练模型。• 我们使用一个Transformer来编码自下而上检测到的关键点和中心之间的依赖关系，以获得上下文增强的嵌入，有效地提高了我们提出的分组方案的性能。• 我们在端到端框架内实现了最先进的结果，与最先进的框架相比，速度提高了2.5倍[12]。2. 相关工作自上而下的方法。自上而下的方法[10、17、18、25、31、41、59、51、52、56、63、22、5、38、36、50、46、53、14]分裂任务分为两个步骤。他们首先在图像上应用人检测器，然后针对由边界框给出的每个检测到的图像区域执行单个人姿态虽然在处理尺度变化方面特别强大到为了解决这些限制，先前的工作已经通过利用具有诸如图形网络[56，4，46]或概率图形模型[53]的附加模块的人体骨架的图形结构来探索了虽然这些方法更稳健，但仍然依赖于外部检测器，因此无法从丢失的盒子中恢复。自下而上的方法。自下而上的方法[6、44、26、37，40，12，28，30]通过检测整个图像上的无身份关键点开始在第二步骤中，分组算法使用关键点之间的成对相似性得分来组装姿势。为了预测这些相似性分数，Deep-Cut和Person-Lab [44，26，40]预测链接属于同一个人的关节Openpose和Pif-Paf [6，30]预测类似于人类肢体的部分亲和场，并对关键点对之间的位置和方向进行关联嵌入[37]是当前由现有技术[12]使用的流行它们从卷积特征中预测每个检测到的关键点的嵌入，然后使用它们的成对欧几里得距离作为相似性得分。对于所有这些方法，分组都是通过图分区[44，26，1，45，28，27]来完成的。或启发式贪婪解析[37，6，40]。HGG[28]通过在关联嵌入之上使用图神经网络[47]并训练边缘和节点分类器来分层预测哪些关键点属于一起，从而在学习对关键点进行分组方面取得了进展。虽然它的图网络是可训练的，但它仍然依赖于外部不可微聚类算法[15]进行分组。CenterGroup不需要这个聚类步骤，而是使用注意力作为可学习的关键点分组的形式。一次性方法。一次性方法[39，65，58]通过直接从一组预测中心[39，65]或锚点[58]回归关键点位置来避免分组任务。SPM[39]和CenterNet[65]都在中心位置回归偏移，以回归每个人的关节。此外，[65]预测关键点热图作为标准的自下而上方法。然后，它通过启发式地将偏移匹配到它们最接近的预测关节来组合这两个预测。虽然比基于分组的方法更有效，但这种启发式方法仍然无法与它们相提并论，并且存在端到端不可学习的相同问题。变形金刚和注意。Transformer最初是为机器翻译而引入的，最近在计算机视觉任务中变得流行，包括图像分类[16，9]，对象检测[7，66]，语义分析[16，9]tic分割[55，57]，视频处理[62，64]，图像生成[43]和手部姿势估计[23，24]。他们采用自我关注层来建模全局上下文中的实体之间的关系它们用于人体姿势估计仍然相对未被探索：[49]采用Transformer进行人体姿势跟踪，[35，20]将它们应用于估计3D人体姿势，[61]使用基于变换器的架构进行可解释的单人姿势估计。11855PppR}联系我们j=1j=1∈Σ（head）=attn（q，k）Wv，（2）ililj j联系我们∈ K^^我∈ Ct=1我 L我ΣmQ不我我我∈3. 背景：多头注意力我们的模型使用多头注意力和Transformer作为主要工具来执行分组。因此，我们首先简要回顾这些技术。多头注意力（MHA）[54]是Transformer模型的核心组件，旨在通过让每个向量参与（可能不同）向量集的多个表示子空间来从无序向量集获得上下文表示。更确切地说，给定一组n个d维查询特征向量，Q：={qi∈4.1. 问题陈述给定输入图像，我们的目标是获得与图像中的所有人相对应的姿势集。设J为所考虑的接头的数量每个姿势可以由其J关节的2D位置和可见性唯一地确定形式上，对于每个姿态p ∈ P，我们将其联合位置称为loci ∈ R2，对于每个i ∈ {1，. . . ，J}。我们将姿态p的每个关节的可见性表示为visi0，1，并且每当关节可见时为其分配1，否则为0我们的方法在一组预测的身份上运行D ni=1以及一组m对键和值向量，图像中的不可知关节关键点，我们将其称为K：={kj∈Rd}m且V：={vj∈Rd}m ~1，MHA上-K. 每个关键点k∈ K可以通过其2D位置来识别。通过线性投影h个注意力头部的连接来确定查询嵌入的日期：MHA（Q，K，V）= concat（head 1，. . . ，head h）WO，（1）其中WOR（dH *h）×d是一个可学习矩阵，且dH是每个注意力头部的维度。每个注意力头部在每个索引l∈ {1，. . . n}：MV我j=1其中注意力分数被计算为键和查询之间的softmax归一化的2exp（（WQq）T（WKk））i. t〇〇 k_ R及其预测类型type_k_l，. . .，J.我们的方法还预测了一组额外的目标，即响应于图像中的人的中心位置。我们将检测到的人中心的集合表示为C4.2. 分组关键点和中心标准的自下而上的方法学习每对检测到的关键点k1、k2的相似性得分sim（k1、k2），并使用它们通过聚类最相似的关键点来形成姿势相反，单次方法直接使用预测的人中心，并将位移偏移从中心回归到关节位置，以避免昂贵的分组。受这些方法的启发，我们提出通过学习每对检测到的人cen之间的相似性得分sim（c，k）∈R+来terc∈ C，关键点k∈ K，类型i∈ {1，. . .，J}。通过attni（ql，kj）：=ili j（3）exp（（W q）T（WKk））能够估计中心节点和关键点之间的相似性，而不是对之间的相似性关键点，我们能够降低其中，WQ，WK，WVRd×dH是可学习的投影矩阵。每当这些键、查询和值的集合相同时，即，Q=K=V，一个是指自关注，它是Transformer编码器架构的核心部件。总的来说，Transformer编码器是通过堆叠具有跳过连接和层归一化的初始自注意层的块[3]，然后是前馈网络和层归一化的第二实例来形成的。为了完整性，我们在补充材料中提供了对其体系结构的更详细的解释。4. 问题公式化我们首先提供了一个概述我们的方法的一般配方和介绍符号。1为了简化符号，我们假设查询、键和值具有相同的维度。2变压器使用缩放的点积注意力，这意味着它们用投影嵌入的维度dH来归一化softmax输出。然而，我们省略了这个术语，因为我们不会在本文的其余部分使用它。组任务显著。而不是需要一个图聚类算法，我们制定了一个简单的最近邻搜索问题的分组任务。即，对于每个预测中心c，我们通过检索其最相似的检测到的关键点k*∈ K的目标类型i∈ {1，. . .，J}，根据sim i.形式上，关节类型i的预测位置loc_c我对于中心c，可以获得为locc= lock*，其中k*= arg maxsimi（c，k）（4）k∈K由于我们的方法直接在检测到的关键点位置的集合上操作，因此不需要额外的后处理来获得精确的关节位置，这与基于偏移的方法不同[65，39]。4.3. 注意力作为可区分的关键点选择来自前述过程的主要缺点是它不是端到端可训练11856的，因为它涉及在检测到的关键点上的arg_max操作。我们通过制定最近邻搜索来解决这个问题11857联系我们我C图2：我们的方法接收单个RGB图像作为输入，并通过热图回归使用HigherHRNet[12]预测一组身份不可知的关键点和人中心。然后，它从CNN的最后一层提取特征然后，这些嵌入被馈送到注意力模块，该注意力模块预测哪些关节对应于每个中心。任务作为可区分注意力机制。为此，我们将人中心视为我们的查询集，并且将关键点视为我们的密钥集，并且通过在学习的嵌入空间中计算它们的点积来获得它们的相似性得分，用于每个关节类型 i ，i，…。. .，J.然后，我们用softmax算子将分数归一化，以取代不可微的arg max。所得系数在训练期间用于直接预测每个关节类型i ∈ {1，…. . ，J}和每个人中心c为：5. 方法我们在端到端自下而上的流水线内利用前一节中描述的公式在本节中，我们首先提供它的一般概述，然后详细解释它的每个组件。5.1. 概述我们的方法CenterGroup由三个主要阶段组成，如图2所示：1. 关键点和中心检测。的位置l^occ：=kΣ∈K attni（c，k） lockk（5）通过HigherHRNet [12]之后的热图回归来获得身份不可知的关键点和人中心。输出是可变数量的高得分关节和人中心检测。其中loc_k是检测到的关键点k的坐标。由等式5产生的预测然后可以通过直接计算它们相对于地面实况位置的L1注意，由于检测到的关键点坐标在等式5中是固定的，因此为了最小化损失，我们的网络需要将最高注意力分数分配给位置最接近地面实况坐标loci的关键点。此外，在极限中，当maxk∈Kattni（c，k）=1时，等式5变得等同于仅计算标准arg max。因此，注意力系数充当用于基于其点积相似性从人中心选择关键点的可区分机制。这个过程仍然允许我们在测试时使用简单的arg max运算符来有效地从中心检索关键点，如等式4所示。2. 编码关键点和中心。对于每个检测到的关键点和中心，我们从CNN主干中提取特征，并使用编码其空间位置的额外嵌入来增强它们。这些嵌入被馈送到Transformer [54]，产生具有增强的上下文信息的更新的嵌入。3. 关键点分组。我们使用从前一阶段获得的嵌入，并计算人中心和关键点之间的点积注意力分数，并将其归一化，以便获得人和关键点之间的软分配。此外，我们使用的Transformer嵌入类，sify中心节点到真和假阳性，并确定，termine每个关键点的可见性。11858pp∈ K ∈ C中心pi=1i=1pΣ5.2. 关键点和中心检测在管道的第一阶段，我们首先检测身份不可知的关键点和人物中心。热图回归。我们遵循HigherHRNet [12]以获得所考虑的每个 J 关节类型的身份不可知关键点建议。HigherHRNet使用HRNet[51]骨干，随后是两个关键点预测头，其针对每个关节类型以原始图像比例的1/4和1/2回归热图。训练热图以遵循以地面实况关键点位置为中心的高斯分布在训练期间，两个热图都以最小平方误差损失被独立地监督。在推断时，热图被上采样和聚合以获得全图像分辨率的单个热图。以人为中心。除了关节之外，我们还回归了对应于人中心的新热图，也是在分辨率1/4和1/2处。[39]第39话，一个真实的世界p∈ P，具有关节位置{loc i∈R2}J的位置其中心计算为可见物体的质心接头，即，图3：我们的分组模块概述关注禄普一个：=Npvisi=1洛克岛（六）使用关键点嵌入和中心嵌入之间的最小距离来预测给定中心的关节位置和可见性。其中，Np：=ΣJvisi是中构成p.请注意，我们将姿势位置标识为其中心，并因此写入LOCP。5.3. 编码关键点和中心给定来自第一阶段的预测关键点和中心的集合然后，这些嵌入将用于我们的分组模块中，以便预测关键点和中心之间的关联。为此，我们使用了一个Transformer编码器，它为每个关键点和中心产生更新的嵌入。初始功能。我们以原始分辨率的1/4向我们的骨干的最后一个特征图添加一个额外的残差块[19]对于每个检测到的关键点和中心，我们通过从所得特征图中提取其对应位置处的向量来获得初始嵌入向量，并将其馈送到两层多层感知器（MLP）以将其投影到更高维度上。位置编码。 CNN功能很难对不同关键点的位置进行编码[34]。然而，空间-把它们送到Transformer编码器结果，我们得到针对每个检测到的关键点k和中心c更新嵌入hk和hc。我们的Transformer架构遵循第3节中描述的架构，并在补充材料中详细描述。5.4. 关键点分组在流水线的最后阶段，我们通过使用由我们的Transformer产生的嵌入来构造姿势，以通过成对注意力分数来确定哪些关键点属于哪些人中心。如4.3节所述，我们使用注意力作为从中心选择关键点的可微近似.此外，我们预测每个中心的两个额外目标：其关键点中的每一者的可见性以及其表示真实姿势的概率。图3总结了该模块。分类中心我们开始于通过基于它们的位置3匹配它们来识别哪些预测中心位置对应于地面实况姿态。结果，每个预测中心被标记有二进制目标形成提供了关键点分组的重要线索。C中心，如果中心匹配，则设置为1，否则设置为0。我们因此，类似于先前的工作[7，66，16，57]，我们使用固定的正弦特征对不同频率下的绝对x和y因此，我们获得维度d的新向量，并将其逐元素地求和到每个检测到的关键点和中心的初始特征。然后使用小型多层感知器对由我们的Transformer产生的中心嵌入进行分类，并监督具有焦点损失的结果预测MLP中心（hc） [33]。预测关节位置。对于每个预测中心c∈ C使得yc=1，我们的目标是预测2D坐标。Transformer编码器。为了编码全局上下文在每个检测到的人和关键点中，我们将其3补充材料中提供了更多细节。y初始特征，用位置编码增强，以及11859^KQ∈我K我C我我我CCloc洛克C我我联系我们我每个类型i ∈ {1，. . . ，J}。对于每个关节类型i ∈{1，. . . ，J}，我们定义一对学习-可投影矩阵W和W ，和一个有学问的类型给定中心在图像中不具有该类型的对应可见关键点。我们解决这个问题，利用注意力机制，明确分类是否我我编码向量i R d。投影矩阵的目标是将中心嵌入hc和关键点嵌入hk映射到判别表示中，其中它们的点积将编码它们作为类型i的良好匹配的可能性。我们计算它们的相似性为：预测的关键点可见。为此，我们为每个头部Wv引入附加投影矩阵，并且重新使用已经计算的类型编码和注意力得分来预测位置，以计算类似于等式10中的加权聚合：simi（c，k）=（WQhc）TWK（hk+type）（7）h¯i=Σattn（c，k）WV（h+）（十一）我请注意，学习的嵌入我k型K添加到密钥中-Ck∈Kik类型k在乘法之前点嵌入hk它的目标是以编码由我们的关键点检测器针对关键点k预测的初始类型。直观地，当搜索目标类型i的关节时，期望我们的网络仍然能够考虑所有预测类型的关节，以便从由关键点检测器产生的类型错误中恢复。例如，对于目标类型i，诸如左脚踝，检测器的一些预测类型（例如，右脚踝）比其他（例如，右脚踝）更可能是更好的匹配候选。鼻子）。通过在用WK计算投影嵌入之前使用每个关键点的可学习编码type，我们允许我们的网络以可学习的方式显式地考虑目标类型i和k的预测类型（类型k）之间的关系。利用来自等式7的相似性分数，通过在整个关键点集合上利用softmax运算对其进行归一化来计算最终注意力分数：然后，我们将eh¯i和hc连接起来，并使用额外的多层感知器MLPvis对所得可见或不可见。我们用焦点损失4来监督结果。直观地，每当关键点不可见时，原始嵌入hk和hc将不会对齐，并且因此，h′c和hc都不是。因此，他们的关系--当关节不具有用于目标关节类型的良好关键点候选时，可以有区别地使用“关键点”来识别6. 实验在本节中，我们详细介绍了我们的方法的实验评估。我们将其分为消融研究和与两个大规模公共数据集上最先进技术的比较。有关实现细节，我们建议读者参考补充材料。6.1. 数据集和评估指标Attnexp（simi（c，k））（八）i（c，k）=Σk¯∈K exp（simi（c，k¯））COCO关键点检测。 COCO数据集[32]是一个大规模的基准包含各种各样的每-最后，我们获得如在等式中的预测位置。第五章：日常生活状况。它包含超过20万张图片和17个关键点注释，用于超过25万人的l^occ=kΣ∈K attni（c，k） lockk，（9）姿态，分为大约150，000、80，000和20，000个实例，用于训练、测试和验证。并以L1损失为条件对它们进行监督：L=ΣΣ|^− loc|、（10）c∈C|yC中心 =1visi=1节中。我们仅在train 2017分割上训练我们的模型，在val 2017上执行我们的消融研究，并在test-dev 2017分割上报告我们的最终结果。CrowdPose。CrowdPose数据集[31]是一个具有挑战性的基准，其目标是评估方法的鲁棒性其中中心位置i的每个关节的可学习的地面位置是其匹配的地面真实姿态的那些。总的来说，该过程可以被解释为注意力头部的实例，其中中心和关键点嵌入分别是查询和键，并且关键点位置充当值。注意我们使用不同的矩阵对于每个目标类型i，1，. . . ，J，这相当于具有J个不同的头部。预测关键点可见性。我们已经描述的注意力机制的一个缺点是，由于软最大归一化，即使在目标类型i的中心和关键点之间的注意力分数大于阈值，它仍然可以预测目标类型i的中心和关键点之间的高注意力分数。11860在拥挤的场景中。与COCO不同，大多数图像包含很少的实例，CrowdPose中的人群指数遵循均匀分布[31]。该数据集包含总共20，000个图像和总共80，000个用14个关键点注释的实例。图像以5：4：1的比例分割，用于训练、验证和测试。在[12]之后，我们在组合的训练和验证分割上训练我们的模型，并报告测试集上的最终性能。4仅当预测中心中的给定关节被标记为在地面实况中不可见，或者预测关键点相对于地面实况关键点具有小的欧几里得距离时，11861# 方法组与类型无关的类型编码Transformer器位置编码AP AP50 AP75 APM APL12偏移+关键点匹配。[第六十五章]不良事件[12、37]65.367.186.486.271.473.059.161.575.076.13 我们的产品不带KCTransformer器✓67.5 86.772.762.0 76.64 我们的产品不带KCTransformer器✓✓67.5 86.872.960.8 77.35 我们的产品不带KCTransformer器✓✓✓67.9 87.473.261.4 77.46 我们✓✓✓✓68.4 87.573.962.0 77.67 我们68.6 87.674.162.0 78.0✓✓✓✓✓表1：COCO2017瓣膜劈裂的消融研究。评估指标。上述数据集使用平均精度（AP）作为其主要度量。AP计算基于检测到的姿势和地面实况姿势之间的对象关键点相似性（OKS）[32]分数。 AP是OKS阈值0的平均精度分数的结果。50，0。五十五... 0的情况。90，0。九十五我们还报告AP 阈值0的情况。5和0。75，即AP50和AP75。另外对于COCO我们报APL和APM，分别对应AP分别在中型和大型实例上。对于CrowdPose，我们还根据数据集注释报告APE、APM、APH，其6.2. 消融研究为了确定我们模型的每个主要组件的单独贡献所有结果都是在[12，37，28]之后使用翻转测试报告的，并且没有自上而下的细化。基线。CenterGroup可以很自然地与两个备选框架进行比较。第一，关联嵌入[37]（Tab. 1，行#1），因为它们是我们的关键点检测网络最初使用的方法[12]。第二，一次性或基于偏移的方法[65，39]，也使用人中心预测，但使用偏移回归来获得最终结果。为了进行公平的比较，我们用我们的HigherHRNet主干重新实现[65]，并报告其最强变体的性能，该变体预测关键点热图，中心热图和中心偏移，并将中心与其最接近的预测关键点相匹配（Tab.1，行#2）。分组模块。我们认为我们的模型没有Transformer编码器，以隔离我们的分组模块的效果。我们比较了它的三个版本。在第一个中，对应于每个关键点类型的预测的注意力头部仅被允许关注我们的关键点检测网络检测到的相同类型的关键点，因此不能克服检测器所犯的联合类型错误。此设置（Tab. 1，行#3）已经优于我们的基线，这证实了CenterGroup优于基于AE的分组和基于偏移的方法。在行#4和#5中，我们允许每个头部关注来自整个预测热图集合的关键点并称之为类型不可知论。在第5行中，我们进一步在注意力计算中使用类型编码，如5.4节所述，并观察到它们在类型不可知的分组上显着改进。特征编码。在表1的行#6和#7中，我们进一步分析在路由模块之前使用关键点和中心变换器编码的效果。这产生显著的性能提升，这证实了对关键点之间的远程交互进行编码的重要性。进一步增强具有位置编码的初始嵌入允许Transformer明确地使用空间信息，并且对于大的人给出多达0.4个AP点的改进。损失条款。我们还评估了附加中心和能见度分类损失的重要性，结果见表2。在没有它们的情况下，我们通过直接向它们分配来自热图的预测中心的置信度来对我们的预测姿势进行我们观察到，用从我们的Transformer的嵌入（行#2）获得的分类得分替换热图得分然后，与使用图3中所示的基于注意力的模型相比，我们在这些特征上使用简单的MLP来预测每个关键点的可见性（行#3），结果在行#4中。我们观察到，两者都产生了显着的改善，但我们的基于注意力的模型表现最好。运行时分析。在表3中，我们报告了与我们的基线相比，我们的方法的总体速度。所有模型都在同一台机器上运行，使用单个NVIDIA RTX5000 GPU，批量大小为1，并进行翻转测试。我们报告：分组运行时，即，关键点检测后的所有计算CenterGroup的整体运行时间类似于[65]，但我们得到了更好的结果。与基于AE的分组相比，我们的关键点注意力分组快了6倍以上6.3. 基准评价COCO关键点检测。在表4中，我们将CenterGroup与COCO数据集上的最先进方法进行了比较。我们的方法实现了最好的性能11862方法APAP50AP75APEAPMAPH上而下的方法Mask-RCNN [18]57.283.560.369.457.945.8[59]第五十九话60.881.465.771.461.251.2[17]第十七话61.081.366.071.261.451.1表2：关于损失项的消融研究。方法组时间（ms）时间（ms）APAPMAPL偏移+匹配[65]AE[37]2032714645365.367.159.160.775.076.0我们5217868.662.078.0表3：不同分组方法的运行时分析。方法APAP50AP75APMAPL上而下的方法Mask-RCNN [18]63.187.368.757.871.4G-RMI [42]64.085.571.362.370.0[52]第52话67.888.274.863.974.0尼泊尔共产党[11]72.191.480.068.777.2RMPE [17]72.386.179.168.078.6[25]72.686.169.778.364.1[59]第五十九话73.791.981.170.380.0HRNet-W48 [51]75.592.583.371.981.5自下而上办法OpenPose*[6]61.884.967.557.168.2沙漏 *+[37]65.586.872.360.672.6PifPaf[30]66.7--62.472.9SPM*+[39]66.988.572.962.673.1HGG+ [28]67.685.173.762.774.6个人实验室+[40]68.789.075.466.675.8HrHRNet-W32[12]66.487.572.861.274.2HrHRNet-W48[12]68.488.275.164.474.2HrHRNet-W48+ [12]70.589.377.266.675.8带HrHRNet-W32的67.688.773.661.975.6我们的带HrHRNet-W 4869.689.776.064.976.3我们的产品，带HrHRNet-W32+70.089.976.665.277.1带HrHRNet-W 48+的71.190.577.566.976.7表4：与COCO 2017测试-开发分离的最新技术水平方法的比较。* 表示自上而下的细化，+表示多尺度测试。所有自下而上的方法，单尺度和多尺度测试，并优于HigherHRNet，它使用基于AE的分组[37]，在单尺度设置1.2 AP点。我们观察到，我们的成就是最显着的APL。这可以通过我们的注意力模块捕捉相距遥远的关节之间的长距离相互作用的能力来解释。总的来说，COCO中的强结果与我们更快的推理速度相结合，表明中心组是当前自下而上方法的更有效的替代方案[65]。我们在补充材料中提供了额外的分析CrowdPose。在表5中，我们显示了在CrowdPose上训练的模型不像COCO，在哪里自顶向下的细化SPPE [31]66.084.271.575.566.357.4自下而上办法OpenPose*[6]HrHRNet-W48[12]HrHRNet-W48+ [12]-65.967.6-86.487.4-70.672.662.773.375.848.766.568.132.357.958.9我们的带HrHRNet-W 48 67.687.772.773.968.260.3带HrHRNet-W 48+的69.488.674.676.670.061.5表5：与CrowdPose测试集上的现有技术方法的比较。上标E、M、H表示容易、中等和困难。+表示多尺度检验，* 表示自顶向下细化。自上而下的方法显示出优越的性能，自下而上的方法在拥挤姿势中胜过它们的自上而下的对应物在这种情况下，中心组显示了其全部潜力，并获得了1.8 AP点的所有方法中最先进的性能。最重要的是，我们的改进是最显着的硬政权（APH），在那里我们提高了国家的最先进的2.4和2.6 AP点，分别用于单尺度和多尺度测试。这证明了我们的端到端可学习公式确实受益于在其中包含常见的数据集上进行训练，并且导致更好地泛化到新的具有挑战性的图像。总的来说，我们表明，我们的端到端可训练方法可以在具有严重遮挡的困难场景中优于自上而下和自下而上的方法，其中关于关键点检测和分组的推理具有明显的优势。7. 结论我们已经提出了一个端到端的基于注意力的框架工作，自底向上的人体姿势估计。我们已经证明，CenterGroup具有更好的性能比现有的国家的最先进的方法，特别是在拥挤的图像，同时显着更高效。我们希望我们的方法将激发未来的工作，探索潜在的注意力机制，以及一般的基于学习的替代方案，以优化为基础的分组自下而上的人体姿势估计。致谢。该项目部分资金来自洪堡基金会的Sofja Kovalevskaja奖和德国联邦教育和研究部（ BMBF ）的批准号：01IS18036B。本作品的作者对其内容承担全部责任。#课百分目视带MLP目视w/收件人APAPMAPL166.561.475.52✓67.161.076.234✓✓✓✓68.268.661.862.077.578.011863引用[1] M.安德里卢卡岛Iqbal、E.恩萨富季诺夫湖Pishchulin，A.Milan，J. Gall，and Schiele B. PoseTrack：人体姿态估计和跟踪的基准。在CVPR，2018年。一、二[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月。1[3] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。在arXiv预印本arXiv：1706.03762，2016。三个[4] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计。欧洲计算机视觉会议，第717施普林格，2016年。二个[5] Yuanhao Cai，Zhicheng Wang，Zhengxiong Luo，BinyiYin ， Angang Du ， Haoqian Wang ， Xiangyu Zhang ，Xinyu Zhou，Erjin Zhou，and Jian Sun.学习用于多人姿势估计的精细局部表示。在European Conference onComputer Vision，第455Springer，2020年。2[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集，第7291-7299页，2017年。一、二、八[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。二、五[8] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros. 大家跳舞吧在IEEE国际计算机视觉会议（ICCV），2019年。一个[9] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。《国际机器学习会议》，第 1691-1703 页。PMLR，2020年。二个[10] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第7103-7112页，2018年。一、二[11] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第7103-7112页，2018年。八个[12] 程博文，肖斌，王敬东，石红辉，Thomas S.黄和张磊。Higherhrnet：自底向上人体姿势估计的尺度感知表示学习。在 IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月一、二、四、五、六、七、八[13] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。InProceedings ofIEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。一个[14] Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，AlanL Yuille，and Xiaogang Wang.用于人类姿态估计的多上下文注意。在IEEE计算机视觉和模式识别会议论文集，第1831- 1840页二个[15] Inderjit S Dhillon，Yuqiang Guan，and Brian Kulis.无特征向量加权图割的多级方

下载后可阅读完整内容，剩余1页未读，立即下载