自底向上的多人姿态估计问题中的局部-全局上下文适应学习方法

119 浏览量更新于2023-10-25 收藏 16.06MB PDF 举报

多人姿态估计

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1,221,33 OKS = 0.826OKS = 0.912 130650学习局部-全局上下文适应的多人姿态估计01 武汉大学计算机学院 2 北卡罗来纳州立大学电子与计算机工程系 3武汉大学测绘遥感信息工程国家重点实验室代码和模型可在以下网址获取：https://github.com/cherubicXN/logocap0摘要本文研究了自底向上方式的多人姿态估计问题。通过一个新的强有力的观察，即在理想情况下，中心偏移公式的定位问题可以通过局部窗口搜索方案得到纠正，我们提出了一种名为LOGO-CAP的多人姿态估计方法，通过学习人体姿态的局部-全局上下文适应。具体而言，我们的方法在第一步中从小的局部窗口中学习局部关键点扩展图（KEMs）生成关键点吸引图（KAMs），然后将其作为动态卷积核应用于关键点聚焦的全局热图上进行上下文适应，从而实现准确的多人姿态估计。我们的方法可以进行端到端的训练，在单次前向传递中实现近实时的推理速度，在COCO关键点基准测试中获得了最先进的性能，用于自底向上的人体姿态估计。使用COCO训练的模型，我们的方法在具有挑战性的OCHuman数据集上也大幅优于先前的方法。01. 引言2D人体姿态估计是一个经典的计算机视觉问题，旨在从自然图像中解析人体部分的关节结构。通过丰富而悠久的研究，我们已经见证了卷积神经网络在单人姿态估计[21，31]上取得了巨大的成功。因此，将姿态估计从单人推广到多人配置非常有趣。从图像中进行多人姿态估计的问题已经在自顶向下的范式中得到了广泛研究[21，31，36]，该范式将问题形式化为使用现成的人体检测器进行单人姿态估计，并且在COCO-2017验证数据集上取得了令人印象深刻的高AP（例如，在COCO-2017验证数据集上达到了56%[36]）。尽管自顶向下的范式已经取得了显著的高性能阶段，但在效率和准确性两个方面仍存在一些问题，这是由于依赖于检测人体边界框。受此启发，0* 通讯作者0初始姿态0最终姿态0图1.通过提出的LOGO-CAP和HRNet-W32骨干网络进行多人姿态估计的示例。对于通过中心偏移回归获得的每个初始姿态，LOGO-CAP为每个关节学习了11×11的局部滤波器，然后通过与学习的卷积核进行卷积来优化初始关键点的位置：局部滤波器被学习用于将初始不太准确的姿态关键点重新聚焦到更好的位置。更详细地说，我们展示了一个初始中心偏移姿态的示例，由于右肘和右腕关键点之间的错位，其OKS仅为0.826。我们用黄色和红色虚线标记了预测值与真值之间的残差向量。LOGO-CAP将OKS提高了10.4%。详细信息请参见正文。0我们对不需要额外边界框先验的多人姿态估计问题感兴趣，这在传统上被称为自底向上的姿态估计。自底向上的姿态估计方法非常注重50100150200≥ 50060.065.070.088.9W32-384W32-512W48-512W48-640130660推理时间（以毫秒为单位）0COCO关键点AP0一个经验性的上界0LOGO-CAP（我们的方法） DEKR [11]PifPaf [14]0CenterNet [40]AE+HrHRNet-W32 [5]Baseline-W320图2.我们的LOGO-CAP是基于一个强有力的经验观察而提出的，即一个具有60.1AP的基本中心偏移基准（绿色虚线标记）可以通过在11×11的局部窗口中利用搜索方案提高到88.9AP（红色虚线标记）。同时，我们在COCOval-2017数据集上对我们的LOGO-CAP和之前的方法进行了速度-准确性比较。W x - Y（例如W32-384）表示模型使用HRNet-W x[31]作为骨干，并在短边上使用图像分辨率Y进行测试。0本文关注的是使用中心偏移公式进行自下而上的姿势估计，因为它简单高效。我们直接解决了基于中心偏移的多人姿势估计的主要挑战。我们的方法是通过对基本中心偏移姿势估计网络的分析，得出了一个令人惊讶的强大经验观察。一个经验观察。我们的分析基于COCOval-2017数据集的完全注释子集的结果。基本中心偏移回归方法利用HRNet-W32作为特征骨干直接预测关键点中心热图和偏移向量。0注1：COCO-val-2017数据集包含许多部分注释的图像（仅有真实边界框），我们使用了2346个完全带有关键点注释的测试样本。0如图2所示，它获得了60.1的平均精度(AP)，虽然不是很好，但还算不错。这清楚地表明姿势关键点中心和偏移向量可以被合理地学习。我们想知道：中心偏移估计到底有多糟糕？我们想知道(i)是否有些关键点真的很糟糕，离地面真实位置很远，或者(ii)它们中的大多数已经非常接近地面真实位置了？我们观察到后者是正确的。为了定量地描述这种接近程度，我们没有直接利用学习到的偏移向量进行人体姿势估计，而是将它们视为人体姿势关键点初始化，并进行局部窗口搜索来计算性能的经验上界。更具体地说，基于最初预测的人体姿势，通过引入一个局部窗口（例如11×11），以每个检测到的关键点为中心，并计算与地面真实关键点的单个关键点相似性，得到了88.9的经验上界AP，这显著高于现有技术水平，并显示了改进基本中心偏移回归范式的潜力。0直接利用观察结果的解决方案。这个观察结果的含义是重要的：它揭示了改进中心偏移姿势估计方法的根本挑战是解决局部错位问题。为此，一个直接的方法就是为每个人体姿势关键点学习一个局部热图（例如11×11），然后通过在局部热图中取argmax来计算精确的关键点。虽然这个方法很吸引人，但在我们开发LOGO-CAP的过程中观察到它并不起作用。其根本原因也很简单：如果这个方法有效，原始的偏移向量回归应该在第一时间就起作用，因为通过学习局部热图没有引入额外的信息。我们假设一方面，除了局部热图，还需要考虑不同姿势关键点之间的结构关系；另一方面，需要解决局部热图中局部信息的固有不确定性。前者是结构化输出预测问题的关键挑战。文献中已经开发了许多消息传递算法来解决这个问题。后者不能简单地通过增加局部窗口大小来解决，它需要学习更强的局部-全局信息交互和适应性。为了验证这两个假设，我们提出的LOGO-CAP通过将初始关键点通过中心偏移预测提升为关键点扩展图（KEMs）来解决它们在两个模块中的定位精度不足（第3节）。KEMs将中心偏移公式的星形结构表示扩展为图形结构表示。如图1所示，在我们的LOGO-CAP中，一个模块计算局部KEMs并学习考虑结构关系。130670由于人体姿势估计问题的结构化输出预测性质，导致了关键点吸引图（KAMs），即图1中的局部滤波器。另一个模块计算全局KEMs并学习通过整合KAMs来改进全局KEMs。我们的LOGO-CAP是一种完全端到端的自下而上的人体姿势估计方法，具有接近实时的推理速度。在COCOval-2017数据集的完全注释子集中，它获得了70.0的AP，与基准的中心偏移方法相比，绝对增加了9.9的AP，取得了重大进展。图2显示了所提出的LOGO-CAP在整体速度-准确性比较方面的优势与先前方法之间的比较。同时，我们应该注意到图2中仍然存在与经验上限的显著差距，这鼓励进一步的研究工作。02. 相关工作和我们的贡献人体姿势估计的文献非常丰富。在传统方法中，已经开发了许多优雅的表示模式来建模关节式人体姿势，例如著名的图片结构模型[9, 10]及其许多变体[1, 25, 26, 28,37]。随着深度学习的复兴和端到端学习的出现，单人姿势估计的性能得到了很大的提升。我们简要回顾了最近基于深度学习的多人姿势估计方法。自上而下的姿势估计。它基本上利用裁剪的单人图像块上的单人姿势估计方法[4, 7, 16,21, 24, 31,36]，其中人体检测通常由现成的物体检测器（例如，Faster-RCNN[27]）完成。尽管在这样的流程中取得了出色的性能，但由于依赖于物体检测器，它们面临效率问题。因此，有一些工作专注于开发高效的骨干网络（例如，Lite-HRNet [19, 29,38]）来减少单人姿势估计的推理延迟，但往往以大幅度降低姿势估计的准确性为代价。Mask-RCNN[12]通过在对象提议中学习ROIAlign提取的特征来解决这个问题，其在姿势估计上的性能落后。为了明确术语的使用，本文中所指的自上而下方法是指使用预先计算的边界框，就像SimpleBaseline方法[36]中所做的那样。与自上而下方法相比，我们的LOGO-CAP以自下而上的方式直接解决了多人姿势估计问题，而不会在人体框上引入区域图像/特征上下文。我们提出的LOGO-CAP在准确性方面取得了竞争性能，同时实现了接近实时的推理速度。基于肢体的分组方法。受基于关键点建模肢体的自然性的启发，该问题的解决方案是...0多人姿势估计问题已经通过将学习到的肢体关联进行人员分组而得到广泛研究。给定预定义的肢体配置（例如，基于17个关键点的COCO人体骨架模板，包含19个肢体），可以通过Part affinity field (PAF) [2, 3]，AssociativeEmbedding (AE)[20]，PersonLab中的中程偏移场[23]以及PartIntensity和Association的字段[14]来进行分组。通常，需要复杂的设计来实现良好的性能。例如，OpenPose[2]中使用了二分图匹配。除了计算上的昂贵，这些方法的另一个缺点是不完全端到端可训练。最近，通过分层图聚类（HGG）方法[13]研究了可区分性问题，该方法利用图卷积网络从关键点图中重复划分多个人的姿势参数。HGG相对于其基线方法Associative Embedding[20]在性能上有所提升，但计算成本显著增加。与这些方法相比，我们提出的LOGO-CAP是完全端到端可训练的，并且实现了接近实时的推理速度。0直接回归方法。这种公式由于其概念上的简单性而受到了广泛关注[6, 11, 30, 32,34]，受到了最近在目标检测中直接边界框回归的显著成功的启发，如FCOS方法[33]和CenterNets[6,40]。如前所述，一个主要的挑战是准确回归偏移向量，特别是对于相对于中心的远程关键点。通常需要复杂的后处理模式来提高性能。例如，在[40]中使用了一种将直接回归的姿势与从全局关键点热图中提取的最近关键点进行匹配的方法。尽管简单，但这一系列工作的性能通常低于基于肢体的方法。混合回归网络[34]在一定程度上缓解了回归质量问题，但与基于分组的方法相比仍存在不可或缺的性能差距。最近，Geng等人提出了第一个有竞争力的直接方法DEKR[11]，该方法采用了一种新颖的面向姿势的神经架构，用于解开关键点回归。为了提高性能，DEKR方法利用了一个轻量级的重新评分网络来校准基于关键点热图计算的姿势得分，因此不是完全端到端的。提出的LOGO-CAP保留了普通中心偏移公式的简单性，并享受完全端到端的训练和快速推理速度。0我们的贡献。提出的LOGO-CAP对底层人体姿势估计领域做出了三个主要贡献：(i)我们解决了普通中心偏移公式的缺点，同时保持了其高效性。它ConvolutionalMessagePassing Local-Global Contextual Adapation KeypointoffsetfieldLocal KEMsGlobal KEMs130680最终姿势估计0关键点热图0通过初始姿势0中心偏移预测0特征0映射0关键点0中心热图0图3. 提出的LOGO-CAP用于底层人体姿势估计的示意图。详见正文。0提出了将关键点提升为关键点扩展图以解决定位精度不足的关键思想。(ii)我们提出了一种新颖的局部-全局上下文适应公式，考虑了人体姿势估计中结构化输出预测的性质，并利用局部-全局结构信息进行集成。(iii) 我们提出的LOGO-CAP在COCOval-2017和test-2017数据集上取得了最先进的性能。在OCHuman数据集上也展现了强大的泛化能力，达到了最先进的性能。03.提出的LOGO-CAP图3展示了提出的LOGO-CAP，它由三个主要组件组成：特征骨干、初始中心偏移人体姿势估计和用于最终人体姿势估计的提出的局部-全局上下文适应组件。03.1. 学习本地和全局上下文0骨干网络和姿势初始化。给定输入图像I，特征骨干的输出是一个C维特征图，表示为F∈RC×h×w，其中C是特征骨干中最后一个卷积层的特征维度，空间大小h×w取决于特征骨干中的总步长。特征图F被用作两个不同头部分别预测中心热图C和偏移场O的共享特征。然后，使用前N个局部最大位置和相应的偏移向量提取初始姿势参数，表示为pi∈R17×2，其中i表示第i个人。局部上下文。我们首先介绍用于初始姿势参数的局部关键点扩展图（KEMs）。具体而言，对于j类型的关键点（例如人的鼻子），我们根据第1节的经验观察计算11×11窗口中的局部KEMs，表示为M∈RN×17×11×11×2，如算法1所示。然后，我们根据特征骨干输出计算KEMsM的d维潜在空间（例如，在我们的实验中d=64）。一种姿势0算法1：以类似PyTorch的风格计算KEM0σ = coco sigmas # 17 ×1，COCO数据集中提供的关键点sigma值。0def KptsExpansionCoco(P,ks=11)0#初始姿势P：Nx17x20r = ks // 20dy, dx = meshgrid(arange(-r,r),arange(-r,r))0dy = dy.reshape(1, 1, ks, ks)0dx = dx.reshape(1, 1, ks, ks)0scale = σ .reshape(1, 17, 1, 1)/ σ .min()0#关键点类型特定的扩展率0dy = dy � scale #1x17x11x110dx = dx � scale #1x17x11x110dxy = stack((dx,dy),dim=-1) #1x17x11x11x20M = P.reshape(N, 17, 1, 1, 2) + dxy0返回M0通过连接所有17个关键点来表示一个姿势实例。所有初始基于关键点的姿势都被几何地“扩展/提升”并激活特征（即在M上采样特征），从而得到初始的局部上下文K ∈ R N ×(17 × d) × 11 × 11。0局部上下文卷积消息传递。为了促进姿势实例的不同关键点的潜在代码之间的结构信息流动，我们提出了一个简单的卷积消息传递（CMP）模块，其中包含三层Conv+Norm+ReLU操作，第二层使用At- tentive Norm[17]。变换后的潜在代码K'通过一个1×1Conv.层解码为局部关键点吸引力图（KAMs），K ∈ R N× 17 × 11 × 11，用于衡量初始姿势的不确定性。0局部-全局上下文适应。通过CMP，我们以姿势实例敏感的方式获得17个关键点的动态（即数据驱动）卷积核，用于优化17个关键点的全局热图H。具体而言，我们首先为N个姿势实例的每个关键点计算另一个几何网格，窗口大小为a ×a（例如，a = 97），整个网格表示为130690M G ∈ R N × 17 × a × a ×2。该网格可以解释为全局KEM。然后，它通过从全局热图中提取的外观特征进行实例化，我们有：0H ↑ (1:17) M G ==== � 双线性 H G a × a (0 ,σ )0用于编码关键点热图的高斯先验的位置，通过高斯核G a ×a（0，σ = a − 1 2 ×3）对得到的姿势引导热图H进行重新加权，其中σ =16（当a =97时）。通过这样做，意味着扩大的网格遵循3σ原则。然后，我们使用学习到的关键点11 × 11卷积核Kn,i对重新加权的a × a热图¯ Hn,i进行卷积，以一种姿势实例敏感和关键点特定的方式进行，从而实现0¯ H K N × 17 × 11 × 11 ========= �0表示17个人体姿势关键点的精细热图。姿势估计输出。通过局部-全局上下文适应的热图˜ H N × 17 × a × a，我们在a×a热图中保留每个关键点的前2个位置，并利用前2个位置的凸平均值作为最终预测的偏移向量（即图3中的(∆ x ′ i , ∆ y′ i)），以及它们的置信度分数作为预测分数，其中对于top-1位置有预定义的权重λ（在我们的实验中为0.75）。结合预测的关键点中心C N ×3，每个关键点的最终预测分数是凸平均置信度分数和中心置信度分数的乘积。我们保留最终分数大于0的关键点。0{C N × 3 , ˜ H } 输出 ========= � 分数阈值 { ˆ L n I0其中N'是图像I中最终预测的姿势实例的数量。03.2.训练中的损失函数0在完全端到端的训练中，我们需要为全局热图H、细化的局部热图~H、偏移场O和关键点核函数定义损失函数。热图损失。采用广泛采用的均方误差（MSE）损失。用HGT ∈R18×h×w表示0其中每个关键点（包括中心）由数据集提供的均值和方差建模为2-D高斯。设p = (i,x)是维度为18×h×w的域D的索引。对于预测的热图H ∈R18×h×w，MSE损失定义为0LH = 1 / |D| ∙ 0p ∈ D ∥ w(x)(H(p) - ˆH(p)) ∥22, (4)0其中w(x)表示前景和背景像素的权重。前景掩码由数据集注释提供。在我们的实验中，我们分别为前景/背景像素设置w(x) = 1 / 0.1。在定义用于细化局部的损失函数L~H时0热图~H（方程2），基于网格MG（方程1）和地面真实关键点，通过使用均值为当前预测关键点与地面真实关键点之间的位移，方差为σ（即方程1中的重新加权高斯先验模型的标准差）生成地面真实热图~HGT。偏移场损失。采用广泛采用的SmoothL1损失[27]。设OGT ∈R34×h×w为地面真实偏移场，CGT为非空的地面真实关键点中心集合。对于预测的偏移场O，我们有0LO(p) = A(p)ℓsmooth1�O(∙, p), OGT(∙, p); β�,(5)对于每个前景像素p ∈ CGT，和0LO = 0|CGT| ∙ 0p ∈CGT LO(p) (6)0其中A(p)是以像素p为中心的人的面积，β是截断阈值（例如，10在我们的实验中为9）。关键点核函数的OKS损失。考虑单个预测的姿势实例，学习关键点核函数K17×11×11是实现局部-全局上下文适应的关键。为此，KEMs的优点图M17×11×11×2需要直接反映任务损失，即OKS损失。对于图像中的NGT个地面真实姿势实例，我们可以计算KEMs中每个关键点候选的相似度得分，并获得得分张量S17×11×11×NGT。将得分张量进一步与阈值0.5进行截断，即S17×11×11×NGT = max(S17×11×11×NGT,0.5)。对截断后的得分张量的前三个维度进行均值约简，计算每个NGT姿势的匹配得分。然后，根据匹配得分选择索引为n�的最佳地面真实姿势实例，并用sn�表示其匹配得分。基于所选的地面真实姿势实例，我们计算当前预测姿势实例的每个关键点的相似度得分，表示为sk(k ∈ [1,17])。然后，关键点核函数的损失函数定义为0LK = sn� ∙ 0k,i,j sk ∙ |Kk,i,j - Sk,i,j,n�|2. (7)0总损失由L = LH + L~H + λ ∙ (LO +LK)定义，其中权衡参数λ用于平衡不同的损失项（在我们的实验中λ = 0.01）。04.实验在本节中，我们对提出的LOGO-CAP进行了详细的实验结果和分析。训练和测试设置。我们使用ImageNet预训练的HRNet-W32和HRNet-W48[31]作为特征骨干，在COCO-train-2017数据集[18]上分别训练了两个LOGO-CAP网络。实验中使用了常见的训练和测试规范，HGG [13]Hourglass60.483.066.2−−67.6†85.1†73.7†62.7†74.6†SimplePose [15]IMHN66.185.971.659.876.268.5†86.7†74.9†66.4†71.9†130700表1. 在COCO-val-2017和COCO-testdev-2017数据集上的评估结果。对于HGG [13]和SimplePose[15]，在testdev-2017数据集上应用了多尺度推理†。对于使用重新评分网络进行最终预测的DEKR[11]，我们报告了有和无重新评分的性能（这是我们LOGO-CAP的公平基准）。SPM [22]和HGG [13]的数据来自他们的论文。0方法骨干网络 AP [%] AP 50 [%] AP 75 [%] AP M [%] AP L [%] AP [%] AP 50 [%] AP 75 [%] AP M [%] AP L [%]0自顶向下0HRNet [ 31 ] HRNet-W48 76.3 90.8 82.9 72.3 83.4 75.5 92.5 83.3 71.9 81.50Lite-HRNet [ 38 ] Lite-HRNet-30 70.4 88.7 77.7 76.2 92.8 69.7 90.7 77.5 66.9 75.00Mask-RCNN [ 12 ] ResNet-50-FPN 64.2 86.6 69.7 58.7 73.0 63.1 87.3 68.7 57.8 71.40分组0OpenPose [ 40 ] VGG-19 61.0 84.9 67.5 56.3 69.3 61.8 84.9 67.5 57.1 68.20PifPaf [ 14 ] ResNet-152 67.4 86.9 73.8 63.1 74.1 66.7 87.8 73.6 62.4 72.90PersonLab [ 23 ] ResNet-152 66.5 86.2 71.9 62.3 73.2 66.5 88.0 72.6 62.4 72.30AE [ 5 , 20 ]0HrHRNet-W32 67.1 86.2 73.0 61.5 76.1 66.4 87.5 72.8 61.2 74.20HrHRNet-W48 69.9 87.2 76.1 65.4 76.4 68.4 88.2 75.1 64.4 74.20直接0SPM [ 22 ] Hourglass − − − − − 66.9 88.5 72.9 62.6 0.7310CenterNet [ 40 ] Hourglass 64.0 85.6 70.2 59.4 72.1 63.0 86.8 69.6 58.9 70.40DEKR [ 11 ](带重新评分)0HRNet-W32 68.0 86.7 74.5 62.1 77.7 67.3 87.9 74.1 61.5 76.10HRNet-W48 71.0 88.3 77.4 66.7 78.5 70.0 89.4 77.3 65.7 76.90DEKR [ 11 ](无重新评分)0HRNet-W32 67.2 86.3 73.8 61.7 77.1 66.6 87.6 73.5 61.2 75.60HRNet-W48 70.3 87.9 76.8 66.3 78.0 69.3 89.1 76.7 65.3 76.40LOGO-CAP (我们的方法)0HRNet-W32 69.6 87.5 75.9 64.1 78.0 68.2 88.7 74.9 62.8 76.00HRNet-W48 72.2 88.9 78.9 68.1 78.9 70.8 89.7 77.8 66.7 77.00在补充材料中提供。04.1. 数据集和评估指标0使用了两个数据集：COCO数据集[18]是人体姿态估计最流行的测试基准。它包含65k、5k和20k张图像，分别在训练、验证和测试数据集中对人体姿态进行了良好的注释。在所有实验中，所提出的LOGO-CAP使用了65k张训练图像进行训练。OCHuman数据集[39]是一个用于评估遮挡场景下人体姿态估计的流行的仅测试数据集。它包含4713张图像，使用COCO关键点配置详细注释了8110个人体姿态实例。所有注释的8110个人体姿态实例的最大IOU≥0.5，并且32%的实例更具挑战性，最大IOU≥0.75。04.2. COCO数据集上的结果提出的LOGO-CAP与包括OpenPose [2]、PifPaf[14]、PersonLab [23]、AE [20]和DEKR[11]在内的自底向上方法，以及Mask-RCNN [12]、HRNet[31]和轻量级LiteHRNet[38]的自顶向下方法进行了比较。如表1所示，提出的LOGO-CAP在验证集和测试集上的性能优于所有自底向上方法和效率向自顶向下方法（即Lite-HRNet [38]和Mask-RCNN[12]）。图4显示了LOGO-CAP的一些人体姿态估计的定性示例。与具有更大骨干网络HrHRNet-W48[5]的最佳分组方法AE[20]相比，我们的LOGO-CAP使用更小的HRNet-32骨干网络，在验证集和测试集上的AP得分分别提高了2.3和2.5个百分点。对于完全0图4.我们LOGO-CAP（HRNet-W32）的定性结果。所有图像都是根据主题选择的，而不考虑我们算法的性能。前两行显示了我们在COCO-val-2017数据集上的结果，后两行显示了我们在OCHuman测试数据集上的结果。与可微分分组方法HGG[13]相比，我们的LOGO-CAP在单尺度测试下的性能明显更好，验证集上的性能优势超过9.2个点。尽管HGG在测试集上通过多尺度测试改进了性能，但我们的LOGO-CAP在不使用多尺度测试方案的情况下仍然显著更好。0与直接回归方法相比，我们的LOGO-CAP在不使用CenterNet [40]的匹配方案或DEKR[11]的额外重评分网络的情况下获得了最佳结果。当我们禁用DEKR[11]的重评分网络进行公平比较时，我们的LOGO-CAP在验证集和测试集上的AP分别提高了2.4个点和1.6个点。--OKS LossReweighAttNormAPAP50AP75APMAPL130710表2. OCHuman数据集上的结果[39]。0方法主干网络验证AP [%]0测试AP[%]0自顶向下0RMPE [8] Hourglass 38.8 30.70SBL [36] ResNet-50 37.8 30.40SBL [36] ResNet-152 41.0 33.30自底向上0AE [20] Hourglass 32.1 29.50HGG [20] Hourglass 35.6 34.80DEKR [11] HRNet-W32 37.9 36.50HRNet-W48 38.8 38.20LOGO-CAP（我们的方法） HRNet-W32 39.0 38.10HRNet-W48 41.2 40.40我们使用HRNet-W32作为主干网络。更大的主干网络对DEKR和我们的方法都有益处，进一步提高了我们的LOGO-CAP在验证集和测试集上的AP得分，分别达到72.2和70.8，分别比DEKR高1.9和1.5。与自顶向下的方法相比，我们的LOGO-CAP在test-dev-2017数据集上的AP比端到端的Mask-RCNN[12]高出7.7。对于轻量级HRNet，我们将测试集上的AP从69.7提高到70.8。尽管重型自顶向下的HRNet[31]的性能优于我们的LOGO-CAP，但需要注意的是，我们方法的头网络只是一个在热图空间上的一层卷积网络，而不是在裁剪的大尺寸图像的特征空间中利用非常深的模型。04.3. OCHuman数据集上的结果表2显示，我们的LOGO-CAP在验证集和测试集上都以显著的优势（2.4和2.2个点）取得了最佳的AP性能，与自底向上方法相比。对于自顶向下的方法，尽管它们在验证集上获得了较高的AP分数，但在验证集和测试集之间存在较大的性能差距。与DEKR[11]（使用重评分网络）相比，我们的LOGO-CAP在相同的HRNet-W32主干网络下，将性能从37.9提高到39.0（验证集）和从36.5提高到38.1（测试集）。当使用HRNet-W48主干网络时，我们的方法在自底向上和自顶向下方法上都表现出色。04.4. 推理速度在比较推理速度时，我们在一块TITAN RTXGPU上测试所有模型，因为它在实践中很受欢迎。我们使用COCO-val-2017数据集中的5000张图像的平均推理速度（每秒帧数，FPS）进行比较。对于DEKR[11]，我们重新实现了他们的推理代码，以获得更好的速度，以便在算法级别上进行公平比较。对于在CPU上具有后处理方案的方法，只使用一个线程。如表3所示，我们的LOGO-CAP比PifPaf [14]和AE[20]运行速度显著更快。CenterNet[40]比DEKR和我们的LOCO-CAP运行速度更慢，因为它需要一个后处理方案来匹配从预测偏移量到关键点的偏移量。0表3. 底部向上的人体姿势估计方法的单张图像推理速度比较。0方法AP [%] 主干网络时间↓0[毫秒] FPS↑0PifPaf [14] 67.4 ResNet-152 213 4.68 AE [5, 20] 67.1HrHRNet-W32 560 1.78 CenterNet [40] 64.0 Hourglass147 6.80 DEKR [11] 68.0 HRNet-W32 63 15.8 DEKR [11]71.0 HRNet-W48 139 7.210LOGO-CAP 69.6 HRNet-W32 48 20.7 LOGO-CAP 72.2HRNet-W48 112 8.950表4.提出的LOGO-CAP方法的推理时间细分。对于每个模型，我们分别报告了5000张图像的平均推理时间，仅检测到一个人的图像的平均推理时间，以及包含30个人的图像的平均推理时间。0LOGO-CAP # 人数主干网络本地KEMs 本地KAMs 全局KAMs0W32038.6毫秒 3.05毫秒 2.49毫秒 2.85毫秒01 2.39毫秒 1.14毫秒 1.12毫秒030 3.69毫秒 3.49毫秒 5.87毫秒0W48099.9毫秒 4.18毫秒 3.00毫秒 3.34毫秒01 3.19毫秒 1.10毫秒 1.07毫秒030 2.97毫秒 3.59毫秒 5.97毫秒0表5.LOGO-CAP的三个组件的消融研究：OKS损失、热图的高斯重新加权方法和注意力归一化。0基准线 - - - 60.0 84.4 66.4 54.0 71.1 (a) � - - 66.1 86.7 72.7 60.0 75.6 (b) - � - 67.6 87.0 74.362.1 76.7 (c) � � - 69.0 87.0 75.2 63.4 77.5 (d) � - � 65.8 86.8 72.3 59.3 75.4 (e) - � � 67.5 86.674.1 62.2 76.7 (f) � � � 69.6 87.5 75.9 64.1 78.00热图。与DEKR相比，我们的LOGO-CAP的速度提升来自于头部模块的轻量级设计，因为使用了相同的主干网络。对于表2中的比较，我们运行具有不同测试图像分辨率的模型。此外，我们分析了输入图像中不同人数的推理时间。如表4所示，推理时间的主要瓶颈是主干网络。对于本地-全局上下文适应模块，平均只需约10毫秒。04.5. COCO验证集上的消融研究在本节中，我们进行了一系列实验来验证我们提出的本地-全局上下文适应模块设计的有效性。我们在所有消融研究中都使用HRNet-W32作为主干网络。上下文适应的设计。我们训练了6个模型来研究在使用的组件上的有效性，如表5所示：（1）OKS损失用于学习本地KAMs，（2）高斯重新加权方案和（3）卷积消息传递的注意力归一化。与中心偏移基准线相比，使用OKS损失训练的模型（a）在AP上获得了6.1个点的大幅改进，证明了使用本地KAMs进行更好的姿势估计的潜力。对于（b），我们将OKS损失的因子设置为0，并使用端到端重新加权方案训练模型。在这种设置下，本地KAMs是仅使用输出Conv层的简化架构（在表6中表示为1）的结果。结果表明，3+1架构的性能优于仅使用输出Conv层的架构。不同类型的先验用于上下文适应。由于我们的上下文适应同时使用全局KEMs和KAMs作为最终姿势预测的先验，我们在表7中定量比较了上下文适应的可能设计。一方面，由于全局KEMs实际上是每个初始关键点周围的标准高斯分布，它不能提供更多的细化信息。另一方面，通过使用两个来源进行预测的方法与仅使用全局KEMs或学习的全局KAMs的方法进行了比较。130720表6. 本地KEMs不同尺寸的消融研究。0本地KEM的尺寸0消息传递AP AP50 AP75 APM APL FPS07 × 7 3+1 68.4 86.6 74.9 63.4 76.6 21.8 11 × 11 1 68.8 86.9 74.9 63.177.5 22.5 11 × 11 3+1 69.6 87.5 75.9 64.1 78.0 20.7 15 × 15 3+1 69.387.1 75.2 63.2 78.3 16.5 19 × 19 3+1 69.0 87.1 75.2 62.8 78.2 13.20表7. LOGO-CAP中使用不同先验的消融研究。0先验类型 AP AP50 AP75 APM APL0KEMs仅仅是59.4 80.8 62.8 50.9 71.6，KAMs仅仅是65.786.0 72.3 60.6 74.0，LOGO-CAP（KEMs +KAMs）是69.6 87.5 75.9 64.1 78.00仅在上下文适应的监督下学习。与模型（a）相比，也获得了较大的改进。然后，我们训练了模型（c），该模型同时使用OKS损失和重新加权方案，同时将注意力归一化[17]替换为卷积消息传递模块中的Batch-Norm。结果表明，OKS损失和重新加权方案与进一步改进的协同效应非常好。对于注意力归一化的有效性，表5（c-f）显示了其特征重新校准机制在人体姿势估计中需要不同的信息来源。通过启用所有组件，我们的LOGO-CAP-W32最终在COCO-val-2017数据集上获得了69.6的AP。本地KEMs的尺寸和卷积消息传递的设计。我们进行了消融研究，结果如表6所示，证实了11×11的核大小获得了最佳性能。一个可能的解释是较小的核大小无法弥补初始关键点估计结果的不确定性，而较大的核大小可能引入更多影响性能的干扰因素，例如来自同一人或相邻不同人的不同局部KEMs之间的“碰撞”。第三，对于CMP模块的不同设计，我们对不同实现进行了消融研究。具体而言，我们将由3个Conv+Norm+ReLU层和1个输出Conv层组成的原始架构（在表6中表示为3+1）替换为仅使用1个输出Conv层（表示为1）进行维度缩减的简化架构。结果表明，3+1架构的性能优于仅使用输出Conv层的架构。不同类型的先验用于上下文适应。由于我们的上下文适应同时使用全局KEMs和KAMs作为最终姿势预测的先验，我们定量比较了上下文适应的可能设计。在表7中，我们比较了在COCO-val-2017数据集上使用全局KEMs或学习的全局KAMs进行预测的性能与使用两个来源进行预测的性能。一方面，由于全局KEMs实际上是每个初始关键点周围的标准高斯分布，它不能提供更多的细化信息。另一方面，通过使用两个来源进行预测的方法与仅使用全局KEMs或学习的全局KAMs的方法进行了比较。0另一方面，当我们强制使用仅具有全局KEM的本地KAM进行适应时，来自本地KEM的不确定性将影响结果。这就是为什么仅使用全局KEM比使用全局KAM更糟糕的原因。当同时使用全局KEM和KAM时，我们的方法获得了最佳性能。4.6.局限性和潜力所提出的方法的一个主要局限性是它没有消除经验上限与初始中心偏移预测之间的差距。当估计具有严重自遮挡（例如，躺下或蹲下的人）的姿势时，观察到传统的失败模式。考虑到中心偏移公式在许多计算机视觉任务中的通用适用性，如[40]所示，我

下载后可阅读完整内容，剩余1页未读，立即下载