人体姿态估计中的结构群：自约束预测-验证网络优化关键点相关性

45 浏览量更新于2023-11-30 收藏 906KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文人体位姿估计中结构群Zhehan Kan，Shuoshuo Chen，Zeng Li，ZhihaiHe南方科技大学{kanzh2021，chenss2021} @ mail.sustech.edu.cn{liz9，hezh} @ sustech.edu.cn抽象的。我们观察到，由于人体不同部位的生物学约束，人体姿势在关键点之间表现出很强的组间结构相关性和空间耦合性。这种分组式结构相关性可以被探索以提高人体姿态估计的准确性和鲁棒性。在这项工作中，我们开发了一个自约束的预测-验证网络来表征和学习训练过程中关键点之间的结构相关性。在推理阶段，来自验证网络的反馈信息允许我们执行姿势预测的进一步优化，这显著提高了人体姿势估计的性能。具体来说，我们根据人体的生物结构将关键点划分为组。在每个组内，关键点被进一步划分为两个子集，高置信度基础关键点和低置信度关键点。我们开发了一个自约束的预测验证网络来执行这些关键点子集之间的前向和后向预测。姿态估计以及一般预测任务中的一个基本挑战是，由于地面实况不可用，因此我们没有机制来验证所获得的姿态估计或预测结果是否准确。一旦成功学习，验证网络就充当前向姿态预测的准确度验证模块。在推理阶段，可以使用以高置信度关键点上的自约束损失为目标函数，指导低置信度关键点姿态估计结果的局部优化。我们在基准MS COCO和CrowdPose数据集上的大量实验结果表明，该方法可以显着改善姿态估计结果。关键词：人体姿态估计，自约束，结构干扰，预测优化。1介绍人体姿态估计旨在正确地检测和定位关键点，即，人体关节或部位，用于输入图像中的所有人它是基本的计算机视觉任务之一，在各种下游应用中起着重要作用，例如运动捕捉[5，24]，活动识别[1，31]，通讯作者arXiv：2207.02425v1 [cs.CV] 2022年7+v：mala2255获取更多论文2Z. Kan等Fig. 1. 说明所提出的思想的自约束推理优化的结构群体的人体姿态估计。[35，30]的人。最近，在基于深度神经网络方法的人体姿态估计中已经取得了显着的进展[2，3，27，10，23，25]。对于常规场景，基于深度学习的方法已经实现了对身体关键点的显著准确估计，并且几乎没有进一步改进性能的空间[37，29，11]。然而，对于具有人-人遮挡、外观的大变化和杂乱背景的复杂场景，姿态估计仍然非常具有挑战性[32，11]。我们注意到，在复杂场景中，不同关键点上的姿态估计的性能表现出很大的变化。例如，对于那些受其他人或背景干扰很小的可见关键点，其估计结果相当准确和可靠。然而，对于一些关键点，例如身体部位的尖端位置处的终端关键点这些具有挑战性的关键点的低精度降低了整体姿态估计性能。因此，姿态估计中的主要挑战是如何提高这些具有挑战性的关键点的估计精度。如图所示1，这项工作的动机是以下两个重要的观察：（1）人体姿势虽然因人的自由风格和灵活动作而表现出很大的变化，但却受到身体生物结构的限制。整个身体由多个部分组成，如上肢和下肢。每个身体部位对应于一个关键点子组我们观察到，不同身体部位之间的关键点相关性仍然很低，因为不同的身体部位，如左臂和右臂，可以以完全不同的风格和朝向不同的方向移动。然而，在相同身体部位内或在相同结构群组内，关键点在空间上更受彼此约束。这意味着通过探索这种独特的结构相关性，关键点可以潜在地相互预测。受这一观察的激励，在这项工作中，我们提出将身体部位划分为一组结构组，并执行组结构学习和关键点预测细化。(2)我们还观察到，在每组关键点内，身体部位的尖端位置处的终端关键点（诸如脚踝和手腕关键点）通常遭受较低的估计准确度。这是因为他们有很多+v：mala2255获取更多论文人体姿态估计结构群3图二. 身体部位的尖端位置处的关键点遭受在姿势估计期间从热图获得的低置信度分数。运动自由度大，更容易被其他物体遮挡。图图2显示了所有关键点的平均预测置信度（从热图中获得），其中黄色点和条表示终端关键点（例如手腕或脚踝关键点）的位置和估计置信度我们可以看到，终端关键点的平均估计置信度远低于其他关键点。基于上述两个观察结果，我们提出根据身体关键点的生物学部位将其划分为6个结构组，每个结构组进一步划分为两个子集：终端关键点和基础关键点（其余关键点）。我们开发了一个自约束的预测-验证网络来学习每个结构组中这两个子集之间的结构相关性。具体来说，我们学习两个紧密耦合的网络，预测网络Φ执行从基本关键点到终端关键点的前向预测，验证网络Γ执行从终端关键点到基本关键点的后向预测。该预测-验证网络旨在表征每个结构组内关键点之间的结构重叠。它们使用自约束损失联合学习。一旦成功学习，验证网络然后，作为一个性能评估模块，以优化预测的低置信度终端关键点的基础上，局部搜索和细化内的每个结构组。我们在基准MS COCO数据集上的大量实验结果表明，该方法能够显着改善姿态估计结果。本文的其余部分组织如下。第2节回顾了人体姿态估计的相关工作。在第3节中提出了所提出的结构群的自约束推理优化。第4节介绍了实验结果、性能比较和消融研究。第五节是论文的结论。+v：mala2255获取更多论文4 Z. Kan等2相关工作及主要贡献在本节中，我们回顾了基于热图的姿态估计、多人姿态估计、姿态细化和误差校正以及交互式学习的相关工作。然后，我们总结了这项工作的主要贡献。(1) 基于热图的姿态估计。在本文中，我们使用基于热图的姿态估计。像素成为关键点的概率可以通过其在热图中的响应来测量。最近，基于热图的方法已经在姿态估计中实现了最先进的性能[32，4，34，27]。关键点的坐标通过解码热图获得[25]。[4]在推理过程中使用多分辨率聚合预测尺度感知的高分辨率热图[34]处理了跨多尺度人类骨骼表示的图形结构特征，并提出了一种用于多级特征学习和热图估计的学习方法(2) 多人姿态估计。多人姿态估计需要检测图像中所有人的关键点[6]。这是非常具有挑战性的，因为来自相邻人的身体部位之间的重叠。在文献中已经开发了自上而下的方法和自下而上的方法来解决这个问题。（a）自上而下的方法[10，28，21，25]首先检测图像中的所有人，然后估计每个人的关键点。该方法的性能取决于为每个人生成边界框的对象检测的可靠性。当人数很多时，每个人的准确检测变得非常具有挑战性，特别是在高度遮挡和混乱的场景中[23]。（b）自下而上的方法[8，2，20]直接检测所有人的关键点，然后对每个人的关键点进行分组。这些方法通常比自上而下的方法在多人姿态估计中运行得更快，因为它们不需要人检测。[8]激活关键点区域中的像素，并学习每个关键点的解纠缠表示，以改善回归结果。[20]开发了一种尺度自适应热图回归方法来处理身体尺寸的巨大变化。(3) 姿势改进和错误纠正。在文献中已经开发了许多方法来改进身体关键点的估计[13，21，29]。[7]提出了一种姿态细化网络，它将图像和预测的关键点位置作为输入，并学习直接预测细化的关键点位置。[13]设计了两个网络，其中校正网络在生成最终姿态估计之前引导细化以校正关节位置。[21]介绍了一种使用误差分布的统计数据作为先验信息来生成用于训练的合成姿态的模型不可知姿态细化方法[29]引入了一个局部子网来提取不同的视觉特征，并引入了一个图形姿态细化模块来探索从热图回归网络中采样的点之间的关系。(4) 周期一致性和相互学习。这项工作与周期一致性和相互学习有关。[39]通过引入循环一致性约束将图像从源域转换到目标域，使得来自转换域的图像的分布与目标域的分布[26]一对情侣，+v：mala2255获取更多论文联系我们联系我们SCIO on Structural Groups for Human Pose Estimation人体姿势估计结构群5学习网络来预测人类前进和后退的轨迹[33]开发了一种用于图像分割的交互式跨任务架构，该架构通过利用跨任务的共性和差异来提高学习效率和生成精度[18]开发了一种时间互逆学习（TRL）方法，以充分探索来自分解特征的判别信息。[38]设计了一个支持查询相互指导架构，用于少镜头目标检测。(5) 这项工作的主要贡献与上述相关工作相比，本文的主要贡献在于：（a）提出了一种基于网络的划分方法将身体关键点分成结构组，并探索每个组内的结构化，以改进姿态估计结果。在每个结构组中，我们建议将关键点划分为高置信度和低置信度。我们开发了一个预测-验证网络来表征它们之间的结构相关性，基于自约束损失。(b)我们引入了一种自约束优化方法，该方法使用学习的验证网络作为性能评估模块，以优化推理阶段低置信度关键点（c）大量的实验结果表明，我们提出的方法能够显着提高姿态估计的性能，并大大优于现有的方法。与已有的循环一致性和互逆学习方法相比，我们的方法具有以下独特的新颖性。首先，它解决了预测中的一个重要问题：由于我们没有地面事实，我们如何知道预测是否准确它在高置信度关键点上建立自匹配约束，并使用成功学习的验证网络来验证低置信度关键点的精确预测是否准确。与现有的预测方法只能进行前向推理不同，该方法能够在推理阶段对预测结果进行进一步优化，从而显著提高了预测精度和泛化能力.3方法在本节中，我们提出了我们的自约束推理优化（SCIO）的结构组的人体姿态估计。3.1问题公式化人体姿态估计作为关键点检测任务，旨在从输入图像中检测身体关键点的位置。具体地说，让我是大小为W H3的图像。我们的任务是定位K个关键点X=X1，X2，，XK从我准确。基于热图的方法将这个问题转化为估计K个热图 H1，H2，.，尺寸为W ′H′的H K。给定热图，可以使用不同的分组或峰值查找方法来确定关键点位置[21，25]。例如，具有最高热图值的像素可以被指定为+v：mala2255获取更多论文2 226个Z。Kan等图三. 我们提出的网络的总体框架。对于输入图像，由主干预测的所有关键点的热图被划分为6个结构组。在训练阶段，每个组H被分成两个子集：基本关键点和终端关键点。一个具有自约束的预测-验证网络被开发来表征这两个子集之间的结构相关性。在测试期间，学习的验证网络用于细化低置信度终端关键点的预测结果对应关键点的位置同时，给定一个关键点，（px，py），可以使用高斯核生成对应的热图1C（x，y）=2πσ2 e−[（x-px）+（y-py）]/2σ .（一）在本工作中，地面真值heatmaps用yH<$1，H<$2，.表示，好的3.2结构群上的自约束推理优化图图3显示了我们提出的用于姿态估计的SCIO方法的总体框架我们首先将检测到的人体关键点划分为6个结构组，它们对应于不同的身体部位，包括下肢和上肢，以及头部的两个组，如图4所示。每组包含四个关键点。我们观察到，这四个关键点的结构群是人体姿势和身体运动的基本单位。它们受到人体生物结构的限制。结构组之间存在显著的自由度和变化。例如，左臂和右臂可以以完全不同的方式移动和摆姿势。同时，在每个组内，关键点集合彼此约束，它们之间具有强的结构相关性。如第1节所述，我们进一步将这6个结构组中的每一个划分为基本关键点和终端关键点。基础关键点位于躯干附近，而终端关键点位于相应身体部位的末端或尖端位置图2示出了在姿态估计期间，终端关键点具有比那些基础关键点低得多的估计置信度分数在这项工作中，我们将每组中的这4个关键点表示为G ={XA，XB，XC|XD}，（2）+v：mala2255获取更多论文----{|}S一SCIO on Structural Groups for HumanPose Estimation人体姿势估计结构群7见图4。将身体关键点划分为对应于不同身体部位的6个结构组。每组有4个关键点。其中，XD是终端关键点，其余三个 XA、XB、XC是躯干附近的基本关键点。相应的热图表示为H=HA，HB，HCHD。为了表征每个结构群H内的结构相关性，我们建议开发一个自约束预测-验证网络。如图3所示，预测网络Φ从基本关键点HA、HB、HC预测终端关键点HD的热图，其中特征图f作为视觉上下文：HD= Φ（HA，HB，HC;f）.（三）我们观察到特征图f为关键点估计提供了重要的视觉上下文。验证网络Γ与预测网络共享相同的结构。它从其余三个执行关键点HA的H∈A= Γ（HB，HC，HD;f）.（四）通过将预测网络in的预测输出HD作为输入传递到验证网络，将预测和验证网络耦合在一起，我们有以下预测循环H<$A=Γ（HB，HC，H<$D;f）（5）=Γ（HB，HC，Φ（HA，HB，HC; f）; f）.（六）这就导致了下面的自约束损失LA=||哈-哈||二、（七）这个具有前向-后向预测循环的预测-验证网络学习基本关键点和终端关键点之间的内部结构相关性。学习过程由自我约束损失指导。如果成功地学习了内部结构相关性，那么自我约束由前向和后向预测环路产生的损失Ls应该很小。这一步被称为自约束学习。一旦成功学习，验证网络I’就可以用于验证预测XD是否准确。在这种情况下，使用自约束损失+v：mala2255获取更多论文XDXDPP--P关于我们八Z。Kan等作为目标函数，以基于局部空间ch优化预测Xcid，其可以公式化为：XD =argmin||HA−HA||第二条，（八）=argmin||HA−Γ（HB，HC，H（X<$D）;f）||2，其中，H（XD）表示使用高斯核从X D的关键点生成的热图。这为我们提供了一种有效的机制，可以根据测试样本的特定统计量迭代地细化预测结果。这种自适应预测和优化在传统的网络预测中是不可用的，传统的网络预测是纯粹向前的，没有任何反馈或自适应。这种基于反馈的自适应预测将在测试样本上产生更好的泛化能力。这一步被称为自约束优化。在下面的部分中，我们将详细介绍所提出的自约束学习（SCL）和自约束优化（SCO）方法。3.3结构群在本节中，我们将更详细地解释自约束学习。如图3所示，预测和验证网络的输入，即，HA，HB，HC和HB，HC，HD ，都是由基线生成的热图姿态估计网络在这项工作中，我们使用HRNet[27]作为基线，在此基础上实现了我们提出的SCIO方法。我们观察到，关键点位置周围的视觉环境提供了重要的视觉线索，用于细化关键点的位置。例如，膝盖关键点的正确位置应该在膝盖图像区域的中心。动机这样，我们还将骨干网生成的特征图f传递给预测和验证网络作为输入。在我们提出的自约束学习方案中，预测和验证网络是联合训练的。具体地，如图3所示，顶部分支示出了预测网络的训练过程。其输入包括热图HA，HB，HC以及视觉特征图F。的输出prediction_net_w是针对keyp_t_X_D的预测hetatmap，由y_H_D表示。在训练阶段，将该预测与其地面实况H<$D进行比较，并形成预测损失LO，其由下式给出LO=||HD−HD||二、（九）与热图HB和HC以及视觉特征图f组合的预测热图H_ID作为输入被传递到验证网络r。T的输出将是针对k个点的预测热图，表示为yH_A。然后，我们将其与地面实况热图H<$A进行比较，并为预测网络定义以下LS=||HA−HA||二、（十）+v：mala2255获取更多论文--HDSCIO on Structural Groups for HumanPose Estimation人体姿势估计结构群这两种损失组合为LP=LO+LS来训练预测网络P PΦ。同样地，为的验证网络，的输入是热图{HB，HC，HD}和视觉特征图f。它预测了k个视点XA的热图H_A。然后，将其与HB、HC和f组合以形成预测热图HD 的预测网络 Φ 的输入。因此，验证网络的总体LV=||HA−HA||2个以上||HD−HD||二、（十一）预测和验证网络以迭代方式联合训练。具体地，在预测网络的训练时期期间，验证网络是固定的并且用于计算预测网络的自约束损失。类似地，在验证网络的训练时期期间，预测网络是固定的，并用于计算验证网络的自约束损失。3.4低置信度关键点的自约束推理优化如第1节中所讨论的，姿态估计中的主要挑战之一是提高硬关键点（例如，那些终端关键点）的准确性。在现有的网络预测方法中，推理过程是纯粹向前的。从训练集学习的知识直接应用于测试集。没有有效的机制来验证预测结果是否准确，因为无法获得地面实况。由于没有反馈过程来根据实际的测试样本调整预测结果，因此所提出的自约束推理优化旨在解决上述问题。一旦成功学习，验证网络1’可以用作反馈模块以评估预测结果的准确性。这是通过将低置信度密钥点的预测结果H_ID映射到高置信度密钥点H_A来实现的。使用自约束损失作为目标函数，我们可以执行预测结果Xcid的局部搜索或细化，以最小化目标函数，如（8）中所示。这里，基本思想是：如果预测XD在局部搜索期间是准确的，那么，使用它作为输入，验证网络应该能够准确地预测H A的高置信度密钥点，这意味着自约束损失||HA−HA||2.在高置信度下，关键点XA应该很小。出于这一动机，我们建议执行本地搜索和细化的低置信度关键点。具体地，我们将小扰动φD添加到预测结果XφD上，并将其小的邻域φd最小化以使自约束损失最小化：XD =argmin||HA−Γ（HB，HC，H<$D;f）||2+v：mala2255获取更多论文10 Z。Kan等HD= H（XD+ D），||CITD||2≤δ。（十二）这里，δ控制关键点的搜索范围和方向，并且方向将随着损失而动态调整。 H（XD+D）表示使用高斯核从关键点XD+D生成的热图。在补充材料部分，我们将进一步讨论所提出的SCIO方法的额外计算复杂性。表1. 与COCO测试开发的最新方法进行比较。方法骨干大小APAP50 AP75ARCMU-姿势[2]---353×257512× 512256× 256320× 256-384×288384× 288384× 288384× 288384× 288384× 288384× 288384× 288384× 28861.863.164.965.567.872.372.673.074.374.575.576.176.276.576.776.884.987.385.586.888.289.286.191.791.891.792.593.492.592.792.692.667.568.771.372.374.879.169.780.981.982.183.383.883.684.084.184.357.157.862.360.663.968.078.369.570.771.271.972.372.573.073.173.368.271.470.072.674.078.664.178.180.280.281.581.582.482.482.682.766.5-69.770.2---79.080.580.780.581.681.181.681.581.6Mask-RCNN[10]公司简介G-RMI[23]R101[22]第二十二话-[28]第二十八话R101RMPE[6]PyraNet[12]第十二话-CPN（合奏）[3]ResNet-Incep.[25]第二十五话R152CSANet[36]R152[第27话]HR48MSPN[16]MSPN黑暗[37]HR48UDP[11]HR48[21]第二十一话HR48+R152图-PCNN[29]HR48SCIO（我们的）HR48384×28879.2 93.5 85.874.184.2 81.6性能增益+2.4 +0.9 +1.5+1.5 +0.04实验在本节中，我们将介绍实验结果、与最先进方法的性能比较以及消融研究，以证明我们的SCIO方法的性能。4.1数据集在MS COCO数据集[17]和CrowdPose[15]数据集，两者都包含非常具有挑战性的姿势估计场景。MS COCO数据集：COCO数据集包含具有挑战性的图像，这些图像具有各种身体比例的多人姿势和非约束环境中的遮挡模式。它包含64K图像和270K人，标记为+v：mala2255获取更多论文方法骨干APAP中SCIO on Structural Groups for HumanPose Estimation人体姿势估计结构群表2.与CrowdPose测试开发的最先进方法进行比较。Mask-RCNN[10]ResNet101 60.3-OccNet[9]ResNet5065.566.6JC-SPPE[15]ResNet1016666.3HigherHRNet[4]HR4867.6-MIPNet[14]HR4870.071.1SCIO（我们的）HR4871.572.2性能增益+1.5 +1.1表3.比较COCO测试开发中三种骨干网的最新技术。方法美国[32]+SCIO（Ours）性能增益[第27话]HRNet+SCIO（我们的）性能增益[第27话]HRNet+SCIO（我们的）性能增益主干尺寸AP AP50AP75APMAPLARR152 384× 288 73.791.981.170.380.079.0粤ICP备 15048888号-1 72.6 82.3 80.9+4.2 +0.2 +1.6 +2.3 +2.3 +1.9型号：HR32 384× 288 74.992.582.871.3八十点九80.1电话：+86-21 - 88888888传真：+86-21 - 88888888+3.7 +0.2 +1.4 +2.0 +2.0 +1.4型号：HR48 384× 288 75.592.583.371.9八十一点五80.5电话：021 -8888888传真：021 - 8888888 93.5 85.8 74.184.2 81.6+3.7 +1.0 +1.5 +2.2 +2.2 +0.017个关键点。我们在train2017上用57K图像（包括150K人）训练我们的模型，并在val2017上进行消融研究我们在test-dev上测试我们的模型在评估中，我们使用对象关键点相似度（OKS）得分的度量来评估性能。CrowdPose数据集：CrowdPose数据集包含20K图像和80K人，标记有14个关键点。请注意，对于此数据集，我们将关键点分为4组，而不是COCO数据集中的6组。CrowdPose有更多拥挤的场景。在训练中，我们使用了包含10K图像和35.4K人的训练集。为了进行评估，我们使用具有2K图像和8K人的验证集，以及具有8K图像和29K人的测试集4.2实现细节为了公平比较，我们使用HRNet和ResNet作为我们的主干，并分别遵循与ResNet和HRNet相同的训练配置[32]和[27]对于预测和验证网络，我们选择FCN网络[19]。+v：mala2255获取更多论文Σ∗∗∗12号Z。Kan等网络使用Adam优化器进行训练我们选择批量大小为36，初始学习率为0.001。整个模型训练了210个epoch。在推理过程中，我们将搜索步数设置为50。4.3评价标准和方法根据现有的论文[27]，我们使用标准的对象关键点相似性（OKS）度量，其定义为：e−d2/2s2 k2·δ（v >0）OKS=i我我δ（vi我我.（十三）>0）这里，di是检测到的关键点与对应的地面实况之间的欧几里德距离，vi是地面实况的可见性标志，s是对象比例，并且ki是控制衰减的每关键点常数δ（）表示如果* 保持，δ（）等于1，否则，δ（）等于0。我们报告了标准的平均精确度和召回分数：AP 50，AP 75，AP，AP M，AP L，AR，APeasy，AP med，APhard在各种OKS [8，27]。表4. 与COCO val 2017上输入大小为128 × 96的DARK和Graph-GCNN的比较。[37]第三十七话图-PCNN[29]SCIO（我们的）性能增益主干尺寸AP AP50AP75APMAPLAR型号：HR48 128× 96 71.989.179.669.2七十八点零77.9型号：HR48 128× 96 72.889.280.169.9七十九点零78.6电话：+86-21 - 88888888传真：+86-21 - 88888888 79.1+0.9 +0.4 +0.8 +0.4 +0.9 +0.84.4与最新技术我们将我们的SCIO方法与COCO测试开发和CrowdPose数据集上的其他顶级方法进行了表1显示了在MS COCO数据集上与最先进方法的性能比较。应该注意的是，这里报告了每种方法的最佳性能。我们可以看到，我们的SCIO方法比目前最好的方法有很大的优势，高达2.5%，这是非常重要的。表2显示了挑战CrowdPose的结果在文献中，只有少数方法报道了在该挑战数据集上的结果。与目前最好的方法MIPNet[14]相比，我们的SCIO方法将姿态估计精度提高了1.5%，这是非常显著的。在表3中，我们将我们的SCIO与使用不同骨干网络（包括R152、HR32和HR48骨干网络）的最新方法进行了我们可以看到，我们的SCIO方法始终优于现有方法。+v：mala2255获取更多论文××AP AP50AP75ARSCIO on Structural Groups for HumanPose Estimation人体姿势估计结构群表5. COCO val2017的消融研究。基线76.3九十点八82.9八十一点二基线+SCL78.3九十二点九84.9八十一点三基线+SCL + SCO79.5 93.7 86.0 81.6表4示出了在不同输入图像大小（例如，128 96而不是384 288）的情况下的姿态估计的性能比较。我们只发现了两种方法在小输入图像上报告了结果。我们可以看到，我们的SCIO方法在小输入图像上也优于这两种方法。表6. COCO val2017上终端关键点精度的消融研究。左耳右耳左手腕右手腕左脚踝右脚踝HRNet0.66370.66520.54760.55110.38430.3871HRNet+SCIO（我们的）性能提升0.7987+0.13500.7949+0.12970.7124+0.16480.7147+0.16360.5526+0.16830.5484+0.1613图五、预测关键点的细化的三个示例。最上面一行是原始估计。最下面一行是改进版。4.5消融研究为了系统地评估我们的方法并研究每个算法组件的贡献，我们使用HRNet-W 48主干在COCO val 2017数据集上进行了许多我们的算法有两个主要的新组件，自约束学习（SCL）和自约束+v：mala2255获取更多论文14 Z. Kan等见图6。在局部搜索和改进预测关键点期间减少自约束损失。优化（SCO）。在表5的第一行中，我们报告了基线（HRNet-W 48）结果。第二行显示SCL的结果。第三行显示预测结果的SCL和SCO结果。我们可以清楚地看到，每个算法组件都对整体性能做出了重大贡献。在表6中，我们还使用了归一化和sigmoid函数来评估终端关键点的丢失，结果表明，使用SCIO后，HRNet中每个关键点的置信度都得到了极大的提高。图5示出了如何通过自约束推理优化方法来细化估计关键点的三个示例。顶行显示关键点的原始估计。底部行显示关键点的精确估计。除了每个结果图像外，我们还显示了原方法中估计误差较大的关键点的放大图像。然而，使用我们的自约束优化方法，这些错误已被成功地纠正。图6示出了在搜索过程中自约束损失如何减小。我们可以看到，损失迅速下降，都被精确到了正确的位置在补充材料中，我们提供了额外的实验和算法细节，以供进一步理解提出的SCIO方法。5结论在这项工作中，我们观察到人类姿势在关键点组内表现出很强的结构性，这可以被探索以提高其估计的准确性和鲁棒性。我们开发了一个自约束的预测-验证网络来学习这种连贯的空间结构，并在推理阶段对姿态估计结果进行局部细化我们将每个关键点组划分为两个子集，基本关键点和终端关键点，并开发了一个自约束的预测验证网络来执行它们之间的前向和后向预测这种预测-验证网络设计能够捕获关键点之间的局部结构相关性。一旦成功学习，我们使用验证网络作为反馈模块，以高置信度关键点上的自约束损失为目标，+v：mala2255获取更多论文SCIO on Structural Groups for HumanPose Estimation人体姿势估计结构群功能我们在基准MS COCO数据集上的大量实验结果表明，所提出的SCIO方法能够显着改善姿态估计结果。引用1. Bagautdinov，T. M.，Alahi，A.，Fleuret，F.，Fua，P.，Savarese，S.：社交场景理解：端到端的多人动作定位和集体活动识别。在：CVPR。pp. 34252. Cao，Z.，西蒙，T.，魏，S.，Sheikh，Y.：利用局部仿射场进行多人2d实时位姿估计。在：CVPR。pp. 13023. 陈玉，王志，Peng，Y.，张志，Yu，G.，Sun，J.：用于多人姿态估计的级联金字塔网络。在：CVPR。pp. 71034. Cheng，B.，Xiao，B.，王杰，施，H.，Huang，T.S.，Zhang，L.：Higherhrnet：自底向上人体姿势估计的尺度感知表示学习。在：CVPR。pp. 53855. Elhayek ， A. ， de Aguiar ， E. ， Jain ， A. ， Tompson ， J. ， Pishchulin 湖，Andriluka，M.，Bregler，C.，Schiele，B.，Theobalt，C.：基于convnet的高效无标记运动捕捉，适用于一般场景，摄像机数量较少在：CVPR。pp.38106. 方汉生，Xie，S.，戴耀威，Lu，C.：Rmpe：区域多人姿势估计。In：ICCV. pp. 23537. Fieraru，M.，Khoreva，A.，Pishchulin湖，Schiele，B.：学习改进人体姿态估计。2018年IEEE/CVF计算机视觉和模式识别研讨会（CVPRW）。pp.3188. 耿，Z.，孙，K.，Xiao，B.，张志，王杰：自下而上的人体姿态估计通过解开关键点回归。在：CVPR。pp. 146769. Golda，T.，Kalb，T.，Schumann，A.，Beyerer，J.：真实世界拥挤场景中的人体姿态估计。在：AVSS。pp. 110. 他， K.，Gkioxari，G.，Dollar ，P.，Girshick，R.：面具R-CNN 。 In：ICCV.pp. 2980-2988（2017）11. 黄，J.，Zhu，Z.，Guo，F.，Huang，G.：魔鬼在细节中：深入研究人类姿势估计的无偏数据处理在：CVPR。pp. 5699-5708（2020年）12. Huang，S.，（1996年），中国科学院，龚，M.，Tao，D.：用于关键点定位的粗-精网络。In：ICCV. pp. 304713. Kamel，A.，盛，B.，李，P.，金，J.，Feng，D. D.：用于人体姿态估计的混合细化 - 校正热图 IEEE Transactions on Multimedia23 ，1330https://doi.org/10.1109/TMM.2020.299918114. Khirodkar河，Chari，V.，阿格拉瓦尔，A.，Tyagi，A.：多实例姿态网络：重新思考自顶向下的姿态估计。在：IEEE/CVF国际计算机视觉会议（ICCV）上pp. 312215. 李杰，Wang，C.，中国地质大学，Zhu，H.，Mao，Y.，Fang，H.，中国农业科学院，Lu，C.：Crowdpose：高效的拥挤场景姿态估计和新的基准。在：CVPR。pp. 1086316. 李伟，王志，Yin，B.，Peng，Q.，Du，Y.，Xiao，T.，Yu，G.，吕，H.，魏， Y. ， Sun ， J. ：重新思考多阶段网路的人体姿势估测。CoRRabs/1901.00148（2019）17. Lin，T.，Maire，M.，Belongie，S.J.，嗨，杰，P.，Ramanan，D.，多尔拉尔山口，Zitnick，C.L.：Microsoft COCO：上下文中的通用对象。In：ECCV. pp. 第740+v：mala2255获取更多论文16 Z. Kan等18. 刘，X.，张，P.，Yu，C.，吕，H.，Yang，X.：观察你：基于视频的人员重新识别的全球引导的相互学习。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1333419. Long，J.，Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：IEEE计算机视觉和模式识别会议论文集。pp. 343120. Luo，Z.，王志，黄，Y.，Wang，L.，美国，Tan，T.，Zhou，E.：重新思考自底向上人体姿势估计的热图回归。在： CVPR 。 pp. 13264-13273（2021）21. Moon，G.，Chang，J.Y.，Lee，K.M.：Posefix：与模型无关的通用人体姿势细化网络。在：CVPR。pp. 777322. Newell，A.，黄志，Deng，J.：关联嵌入：用于联合检测和分组的端到端学习。在：NeurIPS。pp. 227723. Papandreou ， G. ， Zhu ， T. ，金泽，北， Toshev ， A. ， Tompson ， J. ，Bregler，C.，墨菲，K.：在野外实现多人姿态的精确估计。在：CVPR。pp. 371124. Rhodin，H.，康斯坦丁，五，卡蒂尔奇奥卢岛Salzmann，M.，Fua，P.：多人动作捕捉的神经场景分解。在：CVPR。pp. 770325. Su，K.，Yu，D.，徐志，耿，X.，Wang，C.：具有增强的通道和空间信息的多人姿态估计。在：CVPR。pp. 5674-5682.计算机视觉基金会/IEEE（2019）26. 孙，H.，赵志，他，Z.：用于人体轨迹预测的交互学习网络。在：CVPR。pp. 741427. 孙，K.，Xiao，B.，Liu，D.，中国科学院，王杰：用于人体姿势估计的深度高分辨率表示学习。在：CVPR。pp. 569328. 太阳，X.，Xiao，B.，Wei，F.，Liang，S.，（1996），中国科学院，Wei，Y.：完整的人体姿势回归。In：ECCV. pp. 53629. 王杰，朗，X高，Y.，丁，E.，温，S.：Graph-pcnn：两阶段人体姿态估计与图形姿态细化。In：ECCV. pp. 49230. 王，M.，Tighe，J.，Modolo，D.：视频中人体姿态估计的检测与跟踪相结合。在：CVPR。pp. 1108531. 吴，J.，Wang，L.，美国，Wang，L.，美国，郭杰，Wu，G.：学习行动者关系图用于群体活动识别。在：CVPR。pp. 996432. Xiao，B.，吴，H.，Wei，Y.：用于人体姿态估计和跟踪的简单基线In：ECCV. pp. 47233. 徐，C.，Howey，J.，Ohorodnyk，P.，罗思，M.，张洪，Li，S.：通过时空生成对抗学习对无造影剂的梗死进行分割和量化医学图像分析59，101568（2020）34. 徐，T.，高野，W.：图堆叠沙漏网络三维人体姿态估计。在：CVPR。pp.1610535. 杨，Y.，Ren，Z.，（1986 - 1990），美国，Li，H.，Zhou，C.，王，X.，Hua，G.：通过图形神经网络学习人体姿势估计和跟踪的动态。在：CVPR。pp. 807436. Yu，D.，Su，K.，耿，X.，Wang，C.：一种用于多人姿态估计的上下文和空间感知网络。CoRRabs/1905.05355（2019）37. 张福，Zhu，X.，戴，H.，是的MZhu，C.：用于人体姿态估计的分布感知坐标表示在：CVPR。pp. 709138. 张，L.，Zhou，S.，Guan，J.，Zhang，J.：支持查询相互指导和混合丢失的精确少镜头目标检测IEEE/CVF计算机视觉和模式识别会议论文集。pp. 14

下载后可阅读完整内容，剩余1页未读，立即下载