上下文实例解耦：用于鲁棒多人姿态估计的新方法

90 浏览量更新于2023-10-25 收藏 20.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

SpatiChannelInstance InformaGobal Feature Decouplingbackbone 110600用于鲁棒多估计的上下文实例解耦0Dongkai Wang 1 Shiliang Zhang 1 , 201 北京大学计算机科学学院 2 鹏城实验室0{ dongkai.wang, slzhang.jdl } @pku.edu.cn0摘要0拥挤的场景使得区分人物并定位其姿态关键点具有挑战性。本文提出了上下文实例解耦（CID），它提出了一种新的多人姿态估计管道。CID不依赖于人物边界框来在空间上区分人物，而是将图像中的人物解耦为多个实例感知特征图。因此，每个特征图都被采用来为特定的人物推断关键点。与边界框检测相比，CID具有可微分性并且对检测错误具有鲁棒性。将人物解耦为不同的特征图可以将其他人物的干扰隔离开，并且可以在边界框尺寸之外的更大尺度上探索上下文线索。实验证明，CID在拥挤场景姿态估计基准测试中的准确性和效率方面优于以前的多人姿态估计管道。例如，在CrowdPose上达到了71.3％的AP，优于最近的单阶段DEKR5.6％，自下而上的CenterAttention3.7％和自上而下的JC-SPPE5.3％。这个优势在常用的COCO基准测试上得以保持†。01. 引言0多人姿态估计（MPPE）检测图像中的所有人物，并为每个人物定位关键点。作为人类活动理解、人物-物体交互、人物解析等的重要步骤，MPPE引起了越来越多的关注。根据其遵循的管道，当前的MPPE方法可以总结为三类，即i）自上而下的方法[7，21，26，33]，它们检测人物边界框并对每个边界框进行姿态估计，ii）自下而上的方法[2，9，11，17，20，23]，它们首先检测身体关键点，然后将它们分组到相应的人物中，以及iii）单阶段回归方法，它们根据人物特征回归姿态关键点坐标[6，19，28，30，35]。图1（a），（b）和（c）分别说明了这三个管道。0† 代码可在https://github.com/kennethwdk/CID找到0al0抽象0热图0自上而下0自下而上的分组0单阶段回归0CID热图0热图0输入图像0(a)0(b)0(c)0(d)0图1. 不同MPPE管道用于区分人物的示意图。 (a)自上而下的方法使用边界框来裁剪人物; (b)自下而上的方法首先检测所有关键点，然后将它们分组到不同的人物中; (c) 单阶段方法直接根据采样的特征向量回归关键点坐标。 (d)提出的上下文实例解耦（CID）首先生成实例感知特征图，然后从每个人中推断出热图。它具有在(a)中的检测错误，(b)中的关键点定位错误和(c)中的长距离回归困难方面具有更好的鲁棒性的潜力。0上述管道在拥挤场景中对MPPE具有不同的特性和缺陷。回归范式具有更好的效率，但在长距离回归的困难方面存在问题。自上而下和自下而上的管道依赖于热图来定位关键点，例如，可以为每个关键点生成一个类似度热图，其中关键点通过argmax或soft-argmax[27]操作定位。基于热图的方法需要额外的计算来区分人物。如图1（a）和（b）所示，自上而下的方法采用边界框裁剪来区分人物，而自下而上的方法利用关键点分组。边界框裁剪，例如，RoIAlign[7]对检测错误敏感，并且无法探索盒子外的上下文。关键点分组复杂且无法恢复关键点位置错误，因为它丢弃了上下文线索。第2节详细介绍了更多内容。本研究旨在研究一种新的MPPE管道以提高效率。Given an image I with multiple persons, the goal ofmulti-person pose estimation is to estimate locations of posekeypoints for each person and can be denoted as,{K(i)j }i=1,...,mj=1,...,n = MPPE(I),110610有效地分离实例，同时保留丰富的上下文线索以估计关键点位置。如图1（d）所示，给定一张包含多个人的图像，我们首先将每个人解耦为特定的实例感知特征图。每个实例感知特征图包含了进行单人关键点定位所需的所有必要线索。因此，它用于推断特定人的关键点。与自上而下和自下而上的流程相比，这种新的流程对空间检测错误具有鲁棒性，并能够在更大的尺度上探索上下文线索。与回归基线相比，它在特征图中编码了更多的空间线索，并减轻了长距离位置回归的困难。这个流程在我们的上下文实例解耦（CID）模块中实现。给定一张包含多个人的图像，CID首先通过实例信息抽象（IIA）模块提取每个人的位置和特征，然后在全局特征解耦（GFD）模块中用于解耦不同的人。GFD使用每个人的位置和特征线索计算空间和通道注意力，以隔离相应的人。为了提高这些实例特征的区分能力，我们引入了对比损失来确保不同的人呈现不同的特征。生成的实例感知特征图用于估计关键点估计的最终热图。我们在不同的多人姿势估计基准上测试了CID，即COCO关键点[14]，CrowdPose[13]和OCHuman[34]。实验结果表明，我们的CID在遵循不同流程的最新工作中取得了优越的性能。例如，CID在CrowdPose上的AP达到了71.3%，效率高于最近的单阶段DEKR [6]5.6%，高于自下而上的CenterAttention [1]3.7%，高于自上而下的JC-SPPE [13]5.3%。它在常用的COCO基准上也表现出竞争力，例如，达到了68.9%的AP，比DEKR[6]高出1.6%。据我们所知，这是一个关于多上下文实例解耦流程的原创工作。与以前的多人姿势估计流程相比，CID对检测错误具有更好的鲁棒性，并减轻了关键点分组和长距离回归的复杂性。它能够在更大的尺度上编码更多的上下文和空间线索，也能够隔离其他人的干扰。这些优势使CID成为一个更有效的多人姿势估计流程。02. 相关工作0自上而下的方法首先通过像YOLO[25]这样的检测器检测人的边界框，然后在裁剪的区域中进行单人姿势估计。Mask R-CNN [7]是一种典型的方法，它在FasterR-CNN上添加了一个关键点检测分支来使用RoIAlign特征。G-RMI [21]0将自上而下的方法分为两个阶段，并分别使用人物检测和姿势估计的独立模型。大多数自上而下的方法侧重于设计更好的网络来定位关键点。例如，Hourglass[18]，SimpleBaseline [33]和HRNet[26]通过他们提出的姿势估计网络取得了优越的性能。自下而上的方法首先为所有人检测无身份的关键点，然后将关键点分组为个体。热图被广泛应用于关键点检测，大多数自下而上的方法侧重于关键点分组算法。第一类分组方法将分组视为整数线性规划问题，DeepCut[23]是其中的代表性工作。第二类方法利用向量场来编码关键点之间的关系，并通过解析这些字段来进行分组。OpenPose [2]，PersonLab [20]和PifPaf[11]是代表性的方法。第三类方法将关键点聚类成姿势。Associative Embedding[17]使用标签嵌入学习每个关键点，并通过聚类标签来进行分组。HGG[9]引入了可微分图聚类来替代传统的离线聚类操作。单阶段方法倾向于直接回归关键点位置，因此与自上而下和自下而上的方法不同，后者需要进行两阶段的计算。单阶段回归还使整个流程可以端到端地进行训练。CenterNet[35]和DirectPose[28]是早期的单阶段方法，通过回归直接估计多人姿势。研究人员提出了几种方法来改进回归的性能。SPM[19]提出了一种结构化的姿势表示来缓解长距离回归的困难。DEKR[6]提出了分离回归和自适应卷积来改善回归的质量，并且与两阶段方法取得了可比较的性能。我们的CID与上述流程不同。与自上而下和自下而上的方法相比，它可以进行端到端的训练，对检测错误具有更好的鲁棒性，并减轻了关键点分组的挑战。它还避免了单阶段方法面临的长距离回归困难。我们的实验证明，CID在效率和准确性方面优于这些流程的最新工作。03. 方法03.1. 概述0其中，K ( i )j表示图像I中第i个人的第j个姿势关键点，m和n表示图像I中的人数 top-downbotom-upgroupingsingle-stageregresionCIDheatmapheatmapinput image(a)(b)(c)(d) I and the number of keypoints for each person, e.g., n = 17for COCO Keypoint [34] and n = 14 for CrowdPose [13].We adopt the heatmap to locate keypoints. The inputto the heatmap module is a feature map extracted by aConvolutional Neural Network (CNN) and the output is an-channel heatmap, indicating the probability distributionmap for each keypoint, i.e.,{Hj}nj=1 = HM(F), F = Φ(I),(1)where HM(·) denotes the heatmap module, {Hj}nj=1 is an-channel heatmap, where Hj is the heatmap for j-th key-point. Φ(·) denotes the CNN backbone and F is the ex-tracted global feature map for input image I. Keypointscan be decoded by finding local maxima in each channel ofH, e.g.,{K(i)j }mi=1 = rank(Hj, m),(2)where m denotes the number of keypoints we want to de-code from Hj. m = 1 if F contains only one person andm > 1 for multiple persons.In MPPE, cues of multiple persons are mixed in F.Extra efforts are required to differentiate those persons,e.g., through spatially detecting bounding boxes or group-ing keypoints.Different from those strategies, Contex-tual Instance Decoupling (CID) decouples the multi-personfeature map F into a set of instance-aware feature maps{F(i)}mi=1, where each map F(i) represents cues of a spe-cific person and preserves contextual cues to infer his/herkeypoints.Previous studies like SE [8] and CBAM [32] reveal thatattention mechanism can modulate the feature map, mak-ing its certain spatial location or channel emphasize specificparts of the image. We also use attention mechanism to re-calibrate F to generate the {F(i)}mi=1. CID first identifiesf(i), l(i) mi=1 = IIA(),(3){F(i)}mi=1 = GFD(F, {f(i), l(i)}mi=1),(4)where F(i) is the decoupled feature map for i-th person.F(i) can be feed to the heatmap module of Eq. (1) toget the keypoint heatmap {H(i)j }nj=1 for the i-th person.His/her keypoints can be obtained via Eq. (2) by simply set-ting m = 1. Note that, F(i) contains more contextual cuesthan a bounding box. It also isolates distractions from otherpersons. Those prosperities benefit the heatmap module de-sign, e.g., a lightweight module can be implemented withgood performance because it handles single person. Thelightweight heatmap module ensures the efficiency of CID.We learn CID by training the backbone Φ(·), IIA(·),GFD(·) modules in an end-to-end manner.The overalltraining objective is denoted by110620空间0通道0实例信息抽象0全局特征解耦0主干网络0热图0图2.提出的上下文实例解耦（CID）的流程。CID使用CNN提取特征图。实例信息抽象（IIA）提取位置和特征来表示每个人。全局特征解耦（GFD）调节原始特征图以生成实例感知特征图，每个特征图用于分别估计人的热图和关键点。0F中的所有人并用他/她的外观和空间位置描述每个人。这个过程在实例信息抽象（IIA）模块中完成，可以表示为0其中，l ( i )表示第i个人的位置，f ( i)是编码他/她外观的代表性特征。{ f ( i ) , l ( i ) } m i=1监督注意机制，通过全局特征解耦（GFD）将原始特征图F解耦为m个实例感知特征图，0L = LIIA + λLGF D, (5)0其中LIIA用于学习区分性的实例特征以解耦人物。LGFD用于实例热图估计，λ是平衡两个损失的权重。图2展示了所提出的CID的流程。接下来的部分将详细介绍IIA、GFD和损失计算的细节。1106303.2. 实例信息抽象0如图2所示，给定输入特征图F∈RC×H×W，IIA定位每个人并生成相应的特征。以前的回归方法基于人物中心点的特征生成关键点坐标[28,35]。我们遵循这个直觉，使用中心点的特征来表示每个人。IIA将每个中心点视为关键点，并使用热图来定位中心点。IIA使用类似于公式(1)中的热图模块来估计中心点，即，0C = HM center(F), (6)0其中C表示中心热图，表示每个像素是人物中心的置信度。图3显示了估计的中心热图。因此，中心热图C被输入到公式(2)中以找到中心点的位置。我们用{l(i)}mi=1表示m个人的中心点的位置，其中l(i) = (xi,yi)表示第i个人的中心坐标。特征图F上的中心点的特征被视为这些人的代表性特征。对于第i个人，他/她的代表性特征可以计算为，0f(i) = F(l(i)). (7)0计算得到的f(i)因此用于识别和解耦第i个人与其他人。它应具有强大的区分能力，以有效区分视觉相似的人物。换句话说，如果两个相邻或重叠的人物外观相似，它们的特征可能相似，这会导致人物解耦的失败案例。为了增强人物特征的区分能力，我们使用对比损失训练IIA，以确保每个f(i)的区分能力。给定一组人物特征{f(i)}mi=1，我们通过最小化其与其他特征的相似性来约束第i个人的特征，可以通过以下方式计算，0ℓ(f(i)) = -log exp(¯f(i) ∙ ¯f(i)/τ)0∑mj=1 exp(¯f(i) ∙ ¯f(j)/τ), (8)0其中¯f(i)表示第i个人的l2归一化特征，τ是一个温度系数，在所有实验中设置为0.05。对比损失的有效性将在实验中得到验证。03.3. 全局特征解耦0GFD旨在基于实例特征和位置{f(i),l(i)}mi=1从原始全局特征图F中解耦人物线索。它同时考虑了空间解耦和通道解耦，即将人物解耦为特征图的不同空间位置和通道。这0图3.中心热图C的可视化。IIA可以识别每个人并估计他们对应的中心位置。0首先计算空间重新校准和通道重新校准，然后应用融合的重新校准。空间重新校准倾向于将人物解耦为不同的空间位置。为了在特征图上强调第 i个人，一种直接的方法是增加他/她的前景特征的权重并降低其他人的权重。GFD生成一个空间掩码来表示每个人的前景，并计算第 i 个人的空间重新校准，如下所示，0F(i) s = M(i) ∙ ˆF, (9)0其中 F(i) s 表示第 i 个人生成的特征图，M(i)表示前景掩码。ˆF = Conv(F)是调整通道大小以节省计算和内存的转换全局特征图。为了计算掩码 M(i)，我们考虑该人的位置 l(i) = (xi,yi)，并生成一个相对坐标图O(i)，按照[29]的方法。我们还计算实例特征 f(i)和ˆF上每个空间位置的特征的内积。这导致了一个表示像素级特征相似性的图像 M(i) sim。O(i)和M(i)sim被连接并通过卷积层进行卷积，产生空间掩码，可以表示为，0M(i) = Sigmoid(Conv([O(i); M(i)sim])), (10)0其中M(i)在方程(9)中应用以指示第i个人的前景区域的空间位置。通道重新校准用于将人员分离到特征图的不同通道中。之前的工作[8]表明通道在编码上下文方面起重要作用，每个通道可以被视为一个特征检测器。因此，我们使用人员特征对通道维度上的原始特征图进行重新加权，并生成条件特征图。具体而言，给定特征图ˆF和人员特征f(i)，GFD使用以下公式计算第i个人的通道重新校准：0F(i)c = ˆF � f(i), (11)0其中�表示逐元素操作，F(i)c是第i个人的通道重新校准特征图。方程(11)使用f(i)对不同通道进行加权，因此为不同的人产生不同的F(i)c。110640without with heatmap0图4.突出显示由边界框突出显示的人员的实例感知特征图和关键点热图的可视化。ℓ(f(i))增强了人员特征的区分能力，使CID对遮挡和来自具有相似外观的邻近人员的干扰更加鲁棒。通过ℓ(f(i))，实例感知特征图可以更好地聚焦于每个人的前景，并确保可靠的关键点热图的生成。0注意，对两个不相似的特征应用逐元素操作会导致一个小的向量。这使得方程(11)可以基于f(i)保留第i个人的线索，并丢弃其他人的线索。换句话说，方程(11)突出显示与f(i)具有相似通道分布的特征，并抑制其他特征。方程(11)不会将一个人解耦为特征图的特定通道，但确保不同的人显示不同的通道分布。方程(8)中学习区分特征进一步增强了通道重新校准的性能。融合的重新校准是基于F(i)s和F(i)c计算的，用于生成实例感知特征图。第i个人的实例感知特征图F(i)可以计算如下：0F(i) = ReLU(Conv([F(i)c; F(i)s])), (12)0其中F(i)s和F(i)c被融合以在解耦人员方面寻求更好的区分能力。因此，F(i)用于生成热图并估计第i个人的关键点。讨论：与依赖关键点分组的自底向上方法相比，CID由于其端到端的训练属性和对检测错误的鲁棒性，显示出更好的性能和效率。最近的单阶段方法[35]直接从代表性人员特征f(i)回归关键点坐标。这种流程丢弃了原始特征图中的空间上下文。与之不同，GFD从F(i)生成关键点，它比向量f(i)编码更多的空间上下文。图4显示了实例感知特征图。很明显CID对遮挡具有鲁棒性。0GFD与SE [8]和CBAM[32]等几种方法在注意力计算方面有一些相似之处。然而，GFD在动机和实现上与它们不同：1）SE和CBAM旨在增强模型的容量。GFD更具解释性，旨在将人员解耦为实例感知的特征图。2）GFD利用人员特征和空间位置进行注意力计算，并提高了解耦人员的效率。03.4.损失计算0为了实现CID训练中的LIIA和LGFD，我们按照之前的工作生成了地面真值热图。对于具有空间坐标(xj,yj)的第j个关键点，我们计算其在地面真值热图H�j上的响应，如下所示：0H* j (x, y) = exp(-(x - xj)2 + (y - xj)202σ2i)，(13)0其中σi表示[12]中的人的尺寸自适应标准差。公式（13）用于生成多人真实热图H*和中心图C*，以及第i个人的真实热图H(i)*。LIIA是使用多人真实热图H*和中心图C*计算的。它还结合了公式（8）中的对比损失，即0LIIA = FL([H; C], [H*; C*]) + 10m0i = 1 ℓ(f(i))，(14)0其中[;]表示特征连接，FL(∙)计算Focal Loss [12,35]，即0FL(H, H*) = -10N0�0xy0� �0�0(1 - Hx,y)αlog(Hx,y) if H* x,y = 1 (1 -H* x,y)β(Hx,y)α otherwise log(1 -Hx,y)0(15)其中α和β是超参数，N是H*中值为1的点的数量。我们采用默认的α=2和β=4，按照[12,35]的方法。LGFD测量了每个人的计算热图与真实热图之间的差异，即0LGF D = 10m0i = 1 FL(H(i), H(i)*)。 (16)04. 实验04.1. 数据集和评估指标0我们在三个广泛使用的多人姿态估计基准数据集上评估了CID，即COCO Keypoint [14]，CrowdPose[13]和OCHuman [34]。COCO Keypoint[14]包含270K个人的64K张图像，标有17个关键点。我们使用包含57K张图像和150K个人的train集进行训练。val集合包含的图像数量为862.885.168.256.272.81664.486.170.458.574.13266.086.772.359.876.06466.186.872.660.076.038.30.5238.30.55.438.30.69.105101520253035404500.050.10.150.20.250.30.351 3 5 7 9 11 13 15 17 19110650用于评估的数据集包括包含5K张图像和6.3K个人的集合，以及包含20K张图像的test-dev集合。CrowdPose[13]包含20K张图像和80K个带有14个关键点标注的人。根据[3,6]，我们使用trainval集合（12K张图像，43.4K个人）进行评估，并使用test集合（8K张图像，29K个人）进行评估。OCHuman[34]是一个用于在更具挑战性的场景中检验MPPE的基准。它总共包含4,731张图像，其中包括2,500张用于val集合和2,231张用于test集合。我们按照之前的工作[24]和[9]的设置报告了OCHuman的结果。我们遵循标准评估指标，并使用基于OKS的指标进行MPPE。我们报告了不同阈值下的平均精度：AP，AP50，AP75。此外，对于COCO，我们还报告了不同目标尺寸的性能：APM和APL。对于CrowdPose，还报告了不同人群指数的结果：APE，APM和APH。04.2. 实现细节0所有实验都是在PyTorch[22]上实现的。我们采用在ImageNet[4]上预训练的HRNet-W32[26]作为所有实验的骨干网络，并遵循[6]的大部分配置。为了验证CID的可扩展性，我们还报告了HRNet-W48的结果。我们在公式（5）中将λ设置为4。训练过程将每个图像调整为512*512大小。我们使用Adam[10]来优化模型，并将所有层的学习率设置为0.001。在COCO和OCHuman上，我们训练模型进行了140个epoch，在第90个和第120个epoch时学习率除以10。对于消融研究，我们在COCO上训练模型35个epoch。对于CrowdPose，我们使用300个epoch来训练模型，并在第200个和第260个epoch时将学习率除以10。批量大小设置为20（OCHuman）和40（CrowdPose和COCO）。我们采用数据增强策略，包括随机旋转（-30,30度），缩放（[0.75,1.5]），平移（[-40,40]）和翻转（0.5）。测试过程将每个图像的短边调整为512，并保持纵横比。我们采用单尺度测试，并在所有实验中按照[3,6]进行翻转。04.3. 切除研究0本节旨在研究CID中每个提出的组件的贡献，包括通道和空间重新校准以及IIA中的对比损失。我们还展示了CID的运行时分析和可视化。组件分析。我们首先分析每个提出的组件的有效性。结果如表1所示。仅应用空间重新校准仅在COCO验证集上获得17.9%的AP，表明其在分离不同人员方面的性能较差。将对比损失应用于公式（8）中显著提升了空间重新校准的性能，达到了64.6%的AP。这证明了特征区分能力在人员解耦方面的重要性，以及我们对比损失的有效性。我们还0ℓ ( f ( i ) ) 空间通道 AP AP 50 AP 75 AP M AP L0� 17.9 29.4 16.7 11.7 26.90� 64.9 86.1 71.0 58.1 74.50� � 65.3 86.4 71.4 59.3 74.80� � 64.6 86.0 70.8 58.5 74.1 � � 65.3 85.9 71.9 59.1 75.3 � � � 66.0 86.772.3 59.8 76.00表1.CID在COCO验证集上对比损失、空间和通道重新校准的有效性。0通道数 AP AP 50 AP 75 AP M AP L0表2. 在COCO验证集上使用不同嵌入维度的性能。0主干 IIA GFD0推理时间（毫秒）0num:100num:300num:500时间成本（毫秒）0实例数量0CID0RoIAlign*0RoIAlign+0(a) (b)0图5.CID的效率分析。（a）显示了每个组件相对于不同人数的推理时间。（b）比较了CID与两个RoIAlign [7]变体的效率。0内存(G) 参数(M) GFLOPs 速度(fps) AP0HrHRNet [3] 3.5 29.6 48.11 4.9 66.4 DEKR [6] 3.6 28.6 44.50 5.4 67.3FCPose [16] 4.8 60.3 256.7 15.2 65.60CID 3.8 29.4 43.17 21.0 68.90表3.CID与其他方法的效率比较。“Mem”指的是推理期间的内存消耗，使用批量大小为1和单个RTX3090在COCO验证集上进行测试。比较的方法使用作者提供的代码进行测试。0注意，这个损失对通道重新校准很有用，例如，将性能从64.9%提高到65.3%。表1还比较了空间和通道重新校准方法。仅使用通道重新校准的CID在COCO验证集上获得了64.9%的AP。具有对比损失的空间重新校准实现了64.6%的AP。这表明两种重新校准方法在分离人员方面都是有效的。融合通道和空间重新校准始终获得具有和不具有对比损失的最佳性能。我们得出结论，学习具有区分性的人员特征，并同时考虑空间和通道方面的特征是重要的。110660（a）（b）（c）0图6. CID从COCO [14]，CrowdPose [13]和OCHuman [34]中采样的姿势估计结果的示意图。0解耦是解耦人员的重要方法。0在CID中，嵌入维度是一个重要的超参数。太小的通道维度很难编码大量人员的线索，而大的维度会增加内存和计算成本。表2测试了从8到64的不同嵌入维度并报告了它们的性能。结果表明，较小的维度对应较低的性能。设置太大的维度，例如64，不再显著提升性能。我们将嵌入维度设置为32，作为准确性和计算成本之间的合理折衷。0运行时分析。我们对CID的效率进行了详细分析。我们首先分析了我们模型在COCOval集上对不同人数的推理时间。图5(a)显示了IIA和GFD仅占总时间成本的一小部分，即使对于像50这样的大人数情况也是如此。图5(b)将CID与常用的RoIAlign[7]进行了比较。我们报告了根据不同的人数生成实例特征的时间成本。我们将Mask R-CNN中的RoIAlign+表示为绿线，它输出一个大小为14×14的特征图，然后将其上采样到56×56。我们还将RoIAlign�表示为黑线，它直接输出大小为56×56的特征图。很明显，CID的效率远远优于RoIAlign +和RoIAlign�。0表3比较了我们的方法与最近的一些工作在参数大小和内存消耗方面的推理。在这些比较的工作中，HrHRNet[3]采用了自底向上的流程。DEKR [6]和FCPose[16]是单阶段方法，因此比HrHRNet[3]更高效。CID在AP方面优于HrHRNet[3]。与这两种单阶段方法相比，我们的方法消耗的内存大小相当，并且具有更快的推理速度和更好的性能。0CID的实例感知特征图和关键点热图的可视化结果如图4所示。图6进一步展示了在三个数据集上的几个姿势估计结果的可视化。可以观察到，我们的方法即使在存在严重遮挡和人物重叠等挑战性情况下，也能得到可靠和准确的姿势估计。04.4. 与其他方法的比较0我们将CID与COCO以及两个拥挤场景姿势估计基准数据集CrowdPose和OCHuman上的最新工作进行比较，分别在表4、表5和表6中进行了总结。一般多人姿势估计。在表4中展示了与COCO上的最新工作的比较。我们比较了三种类型的方法，包括自顶向下的方法：Mask R-CNN[7]，自底向上的方法：OpenPose [2]，AE [17]，HGG[9]，PifPaf [11]和HrHRNet[3]，以及最近的单阶段方法：CenterNet [35]，SPM[19]，PointSet Anchor [31]和DEKR[6]。与自顶向下的方法相比，CID取得了更好的性能，比MaskR-CNN高出5.8%。这表明我们的解耦策略优于框裁剪。CID也优于许多自底向上的方法。例如，我们在COCOtest-dev集上实现了68.9%的AP，比AE高出6.1%和HigherHRNet高出2.5%。与单阶段方法相比，CID也取得了更好的性能，即比DEKR高出1.6%。由于其简单的架构和端到端可训练的流程，CID还具有更好的推理速度。例如，它实现了21.0FPS，比大多数现有的MPPE方法更快。拥挤场景姿势估计。为了在更具挑战性的场景中测试CID，我们将其与CrowdPose和OCHuman上的最新工作进行了比较。这些数据集中存在更严重的人物重叠和遮挡，这会降低人物检测和关键点定位的准确性，使得现有方法在这些数据集上的AP低于在COCO上的AP。我们首先在CrowdPose上进行评估，并在表5中总结结果。比较的工作包括JC-SPPE [13]，DEKR[6]和PINet[30]。我们的方法在CrowdPose测试集上实现了71.3%的AP，比以前的方法大幅优越，例如CID比DEKR高出5.6%。表5和表4之间的比较显示CID在CrowdPose上获得了更大的优势。表6显示了在OCHuman上的比较，这是一个更具挑战性的拥挤场景基准数据集。我们报告了两种评估协议下的性能。第一种是在[24]中提出的，它在OCHumanval集上进行训练，并在测试集上进行测试。结果显示在表6的第二列中，CID取得了最佳性能，例如CID比DEKR高出5.3%。我们还报告了结果的110670方法骨干网络输入尺寸 FPS AP AP 50 AP 75 AP M AP L AR0自顶向下方法0Mask R-CNN [7] ResNet-50+FPN 800 14.2 63.1 87.3 68.7 57.8 71.4 - SimpleBaseline + [33] ResNet-152 384x288 - 73.7 91.9 81.1 70.3 80.0 -HRNet + [26] HRNet-W32 384x288 - 74.9 92.5 82.8 71.3 80.9 -0OpenPose � [2] VGG-19 - 10.1 61.8 84.9 67.5 57.1 68.2 66.5 AE [17] HourGlass 512 8.1 62.8 84.6 69.2 57.5 70.60HGG [9] HourGlass 512 - 60.4 83.0 66.2 84.0 69.8 - PifPaf [11] ResNet-152 - - 66.7 - - 62.4 72.9 - PersonLab [20] ResNet-152 1401 5.0 66.588.0 72.6 62.4 72.3 71.0 HrHRNet [3] HRNet-W32 512 4.9 66.4 87.5 72.8 61.2 74.2 - SWAHR [15] HrHRNet-W32 512 4.9 67.9 88.9 74.5 62.475.5 - CenterAttention [1] HrHRNet-W32 512 - 67.6 88.7 73.6 61.9 75.6 -0单阶段方法0CenterNet [35] HourGlass 512 12.2 63.0 86.8 69.6 58.9 70.4 - SPM � [19] HourGlass - - 66.9 88.5 72.9 62.6 73.1 - PointSet Anchor [31]HRNet-W48 800 4.8 66.3 87.7 73.4 64.9 70.0 - FCPose [16] ResNet-101+FPN 800 15.2 65.6 87.9 72.6 62.1 72.3 - DEKR [6] HRNet-W32 512 5.167.3 87.9 74.1 61.5 76.1 72.40我们的 HRNet-W32 512 21.0 68.9 89.9 76.0 63.2 77.7 74.6 我们的 HRNet-W48 640 12.5 70.7 90.3 77.9 66.3 77.8 76.40表4. 与COCO测试集上的最新工作进行比较。�表示使用了改进。+表示使用了两个独立的模型进行人体检测和姿态估计。FPS是在一张RTX2080Ti上测量的。0方法 AP AP 50 AP 75 AP E AP M AP H0自顶向下方法0Mask R-CNN [7] 57.2 83.5 60.3 69.4 57.9 45.8 JC-SPPE [13] 66.0 84.271.5 75.5 66.3 57.40OpenPose � [2] - - - 62.7 48.7 32.3 HrHRNet-W48 [3] 65.9 86.4 70.673.3 66.5 57.9 CenterAttention [1] 67.6 87.7 72.7 75.8 68.1 58.90单阶段方法0DEKR（HRNet-W32）[6] 65.7 85.7 70.4 73.0 66.4 57.5PINet（HRNet-W32）[30] 68.9 88.7 74.7 75

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

上下文实例解耦：用于鲁棒多人姿态估计的新方法

一种鲁棒的多特征融合目标跟踪新算法

什么是spring上下文

将类成员函数声明为静态函数有什么好处和坏处

在分布式系统中可采用哪些方法进行通讯和解耦

kafka怎么解耦的

RabbitMQ异步削峰解耦

bp神经网络用于解耦

写出spring所有标签并且解释是什么意思

yolov7加解耦头

java开发，OA办公系统分布式架构项目一般需要用到哪些组件

unity的设计模式

matlab离散鲁棒最小二乘法自适应鲁棒控制代码

搭建一个基于Java开发的招投标系统，后台管理系统的后端服务，需要哪些组件

springboot中的IOC

jdbc中的dao 层

5. 列举说明现在常用的中间件种类及所对应的系统环境?

springboot bean是什么

springcloud组件介绍

RabbitMQ应用场景

rabbitmq使用场景

最新资源