拥挤场景姿态估计与新基准方法

180 浏览量更新于2023-10-18 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10863CrowdPose：高效的拥挤场景姿态估计和新基准Jiefeng Li1，Can Wang1，Hao Zhu1，Yihuan Mao2，Hao-Shu Fang1，Cewu Lu11上海交通大学，2清华大学{ljf likit，wangcan123，lucewu}@sjtu.edu.cnhaozhu@zju.edu.cnmaoyh16@mails.tsinghua.edu.cnfhaoshu@gmail.com摘要Mask R-CNN我们多人姿态估计是许多计算机视觉任务的基础，近年来取得了重大进展。然而，以前的方法很少探索拥挤场景中的姿态估计问题，在许多情况下，它仍然具有挑战性和不可避免。此外，目前的基准不能为此类情况提供适当的评估。本文提出了一种新的有效的方法来解决这个问题和一个新的数据集，以更好地评估算法。我们的模型由两个关键部分组成：联合候选单人姿态估计（SPPE）和全局最大联合关联。通过对每个节点的多峰预测和图模型的全局关联，我们的方法对拥挤场景中不可避免的干扰具有鲁棒性，并且非常有效的推理。该方法在CrowdPose数据集上比最先进的方法高出5.2mAP，在MSCOCO数据集上的结果证明了该方法的泛化能力。源代码和数据集可在https://github.com/Jeff-sjtu/CrowdPose上获得1. 介绍图像中多人姿态估计在计算机视觉领域具有重要的作用。它在活动理解[14，11]，人-物体交互检测[41，37]，人类解析[18，42]等方面的广泛应用引起了极大的兴趣。一些作品专注于3D人体姿势估计[33，34，31]。目前，大多数2D方法可以大致分为两类：i）自上而下的方法，其首先检测每个人，然后执行单个人姿态估计，或者ii）自下而上的方法，其检测每个关节，然后将它们关联成整个人。†Cewu Lu为通讯作者。卢策武，上海交通大学计算机科学与工程系，MoE人工智能重点实验室上海交通大学人工智能研究院、上海交通大学商汤科技人工智能实验室。图1.Mask R-CNN和我们的Crowd-Pose方法在拥挤场景中的定性比较虽然目前的方法在公共基准测试中取得了良好的性能[13，15，20]，但它们在拥挤的情况下失败了。主要有两种类型的错误：i）将错误的关节组装成姿势; ii）预测拥挤场景中的冗余姿态。为了评估多人姿态估计算法的性能，建立了几个公共基准，例如MSCOCO [15]， MPII [13]和 AI Chal-Chalker [20]。在这些基准测试中，图像通常是从日常生活中收集的，其中拥挤的场景出现频率较低。因此，这些基准点中的大多数图像在人类之间几乎没有相互遮挡。例如，在MSCOCO数据集（人子集）中，67.01%的图像没有重叠的人。目前的方法在这些数据集上取得了令人鼓舞的成功。然而，尽管目前的方法在以前的基准测试中取得了良好的性能，但我们观察到，在拥挤的情况下，它们的性能明显下降。如图1所示，对于自下而上和自上而下的当前最先进的方法[40，27，23，26]，10864联合候选人损失培训人体节点关节节点错误连接正确连接SPPESPPESPPE人体检测候选列表联合候选人SPPE全球协会最终结果图2.我们提出的方法的管道JC SPPE在训练阶段使用联合候选损失函数在推理阶段，JC SPPE接收人类建议并生成联合候选人。然后，我们利用人类的建议和联合候选人建立一个人-联合图。最后，我们通过解决图模型中的分配问题将关节与人类建议相关联。0.80.70.60.50.4AlphaPoseMask R-CNNOpenPose0.2 0.4 0.6 0.8 1.0拥挤指数最小化算法与传统NMS算法相同。为了更好地评估拥挤场景下的人体姿态估计算法，促进这一领域的发展，我们收集了拥挤的人体姿态数据集。我们定义了一个拥挤指数来衡量图像的拥挤程度。我们数据集中的图像在[0，1]之间具有均匀的人群指数分布，这意味着只有在不拥挤和拥挤的场景中表现良好的算法才能在我们的数据集中获得高分。本文的主要贡献如下：图3.最先进的方法在MSCOCO数据集上的评估结果X轴是我们定义的人群指数，用于测量图像的拥挤程度。与不拥挤的场景相比，在拥挤的情况下，最先进的方法的准确度（mAP@0.5：0.95）低约20 mAP。自上而下的方法，他们的表现急剧下降，随着人群水平的增加（如图3）。针对拥挤场景下的位姿估计问题，目前还没有成熟的方法，也没有公开的基准测试。同时，拥挤的场景在许多场景中是在本文中，我们提出了一种新的方法来解决在人群中的姿态估计问题，使用全局视图来解决干扰问题。我们的方法遵循自上而下的框架，首先检测个人，然后执行单人姿势估计（SPPE）。我们提出了一个联合候选SPPE和一个全球最大的关节关联算法。与以前的方法，只预测目标关节输入人类的建议不同，我们的联合候选SPPE输出的候选位置为每个关节的列表。候选运动类型列表包括目标运动类型和干涉运动类型。然后，我们的关联算法利用这些候选人建立一个人关节连接图。最后，我们用全局最大结点关联算法解决了该图模型中的结点关联问题此外，我们的图的计算复杂度op-lows：i）我们提出了一种新的方法来解决姿态估计的拥挤问题; ii）我们收集拥挤的人类姿势的新数据集，以更好地评估拥挤场景中的算法。我们对我们提出的方法进行了实验。当使用相同的基于ResNet-101的网络骨干时，我们的方法在我们的数据集上超过所有最先进的方法5.2mAP。此外，我们取代了SPPE和后处理步骤的国家的最先进的方法与我们的模块，并带来了0.8 mAP的改进MSCOCO数据集。也就是说，我们的方法通常可以在非拥挤的场景中工作。2. 相关工作2.1. 2D姿态估计数据集Pioneer在RGB图像上的2D人体姿态估计数据集上的工作涉及LSP [4]，FashionPose [9]，PASCAL PersonLayout [6]，J-HMDB [12]等。这些数据集有助于促进人体姿态估计的进步然而，它们仅评估单人姿势估计。随着算法的不断改进，多人姿态估计问题受到了越来越多的研究者的关注，[13]第15话，我是一个很好的人，我是一个很好的人。尽管这些数据集很普遍，但它们存在低密度问题，这使得当前模型过度拟合到不拥挤的场景。最先进技术的表现地图10865我我我我我我我我方法随着人类数量的增加而减少。2.2. 多人姿态估计基于部件的框架的代表工作基于部件的框架[26，38，35，31]进行审查。基于部分的方法检测关节并将其关联到整个人。现有的基于零件的方法主要在关联方法上有所不同。Cao等人[26]将关节与零件亲和场和贪婪算法相关联。Zanfir等人[31]提出了一种肢体评分网络来估计关节的连接可能性，并通过二进制整数规划将人分组。帕潘德里欧等[38]检测单个关节并预测关联的相对位移。Kocabas等人[35]提出了一种多任务模型，并通过姿态残差网络将关节分配给检测到的人基于部分的方法中的联合检测器是相对脆弱的，因为它们只考虑小的局部区域并且输出较小的响应热图。两步框架我们的工作遵循两步方法。两步方法首先检测人体姿态[16，24]，然后执行单人姿态估计[19，22]。最先进的两步法[21，40，27，23]的得分明显高于基于部件的方法。然而，两步方法高度依赖于人类检测结果，并且在拥挤的场景中失败[30]。当人们在人群中彼此靠近时，不可能裁剪仅包含一个人的边界框人体跟踪领域的一些工作[5，8，39，25]使用时间信息来修复CNN或RNN [3，32]模块的错误检测。作为对它们的补充，我们提出了一种新的和有效的方法，该方法的意义-人类实例。以前的作品[40，21，27]使用SPPE来抑制干涉接头。然而，SPPE在拥挤的场景中失败，因为它们的感受野受到输入人类建议的限制为了解决这个问题，我们提出了一个新的损失设计在一个更全球化的角度联合候选人SPPE。3.1.1损耗设计对于第i个人类提案，我们将其区域Ri输入到SPPE网络中，并获得输出热图Pi。Ri中有两种类型的关节，即关节属于第i个人，关节属于其他人类实例（不是第i个人）。我们将它们分别命名为目标关节和干涉关节。我们在我们的损失模块中采用热图，它因其逐像素监督和完全卷积结构而广泛用于许多领域[29，28我们的目标是增强目标关节的响应和抑制干扰关节的响应。然而，我们因此，我们可以利用干扰关节来以全局方式估计具有其他人类提议的人类姿势因此，为了利用这两种联合候选，我们以不同的强度输出它们对于第i个人的第k个关节，我们将目标关节热图表示为Tk，由2D高斯G（pk）组成。|σ），以目标接头位置pk为中心，具有标准差σ。对于过盈联接，我们将它们表示为集合k。过盈接头的热图表示为Ck，包括icantly提高了拥挤环境中的姿态估计性能高斯混合分布Σip∈k G（p|σ）。场景，对人体检测结果具有鲁棒性。我们提出的损失定义为，3. 我们的方法我们所提出的方法的流水线如图所示。损失i=1ΣKKk=1MSE[Pk，Tk+µCk]（1）图2.由人体检测器获得的人体边界框建议被馈送到联合候选（JC）单人姿态估计器（SPPE）。JC SPPE在热图上定位具有不同响应分数的联合第3.1节）。然后，我们的联合关联算法采用这些结果并构建人-联合连接图（Sec.3.2）。最后，我们解决了图匹配问题，以找到最佳的联合关联结果与全球最大关节关联算法（第二。3.3）。3.1. 联合候选人SPPE关节候选SPPE接收人类提议图像并输出一组热图以指示人类关节位置。虽然一个人的提议应该只表示一个人的实例，但在拥挤的场景中，我们不可避免地需要处理来自其他人其中μ是范围在[0，1]内的衰减因子。如前所述，干涉关节在指示其他人类实例的关节时将是有用的。因此，我们应该用交叉验证的方法从全局的角度来考虑它。最后，我们得到μ= 0。5、符合我们的直觉：干涉接头应被衰减但不应被过度抑制。传统的热图损失函数可以被视为我们的特殊情况，其中μ= 0。3.1.2讨论传统的SPPE依赖于高质量的人体检测结果。它的任务是根据给定的人类建议定位和识别目标关节。如果SPPE错误地将干涉运动副作为目标运动副，将是一个不可恢复的错误.丢失的关节无法在后处理步骤（如pose-NMS）中恢复。10866JJi、ji、ji、ji、j1 2 12我们提出的关节候选损失旨在解决这一限制。该损失函数鼓励JC SPPE网络预测多峰热图，并设置所有可能的而不是一个恒定的阈值是为了保证，只有当p1和p2同时落入彼此一1 2作为候选人。在拥挤的场景中，SPPE难以识别目标关节，JC SPPE仍然可以预测候选关节列表并保证高召回率。我们把关联问题留给下一个过程，在那里我们有来自其他JC SPPE（关于其他人类提议）的更多全局信息来解决它。3.2. 人物联合图由于我们的联合候选人机制和冗余的人类建议，从人类检测器，联合候选人的数字远远大于实际的联合数。为了减少冗余关节，我们建立了一个人-关节图，并应用最大的人-关节匹配算法来构建最终的人体姿势。节点表示由高于标准。现在，通过建立一个联合群作为一个节点，我们有联合节点集J ={v，k：对于k ∈ {1，. . . ，K}，j∈ {1，. . . ，Nk}}，其中Nk是身体部分k的关节节点的数量，vk是身体部分k的jthn节点。J中的节点总数为k Nk。3.2.2人员节点构建人节点表示由人检测器检测到的人的提议我们将人节点集记为H={hi：i∈{1。. . M}}，其中hi是第i个人节点，M是检测到的人类提议的数量。理想情况下，一个合格的人类提议严格约束一个人类实例.然而，在拥挤的场景中，这一条件-输入人工建议响应热图错误检测姿势但并不总是令人满意的。人体检测器将产生许多冗余的建议，包括截断和松散的边界框。我们将消除这些低质量的人节点，在全球的人联合匹配在秒。三点三3.2.3人-关节边缘在获得关节和人的节点之后，我们将它们连接起来以构建我们的人-关节图。对于每个节点hi，JC-SPPE将预测关节的若干候选结果。如果这些候选人中有一个图4.在拥挤的场景中，人类的提议是非常过分的-节点vk，我们建立一条边ek他们之间重量重叠。重叠的人类建议往往预测相同的实际ji、j关节在这个例子中，如果我们直接连接最高响应ki，j是该候选关节的响应分数，为了建立最终的姿势，两个人类建议将位于相同的权利表示为wk。这样，我们就可以构造边集膝盖和右腿。我们提出的关联算法可以解决E={ek：i，j，k}。这个问题通过全局最佳匹配来解决。3.2.1联合节点建设由于高度重叠的人类提议倾向于预测相同的实际关节（如图4所示），我们首先将这些表示相同实际关节的候选人分组为一个关节节点。由于高质量的关节预测，指示相同关节的候选关节总是彼此接近。因此，我们可以使用以下标准对它们进行分组：然后，人-关节图可以写为：G=（（H，J），E）.（三）3.3. 全局优化关联从现在开始，我们的目标是估计人群中的人体姿势转换为求解上述人-关节图并最大化总边权重。我们的目标函数为：rion：给定位于pk和pk处的两个候选关节，（k）（k）k1 2maxG=maxwi，j·di，j（4）控制偏差δ，我们将它们标记为同一组，如果D di，j，k||2≤ min {uk，uk} δ（k），（2）||2 ≤min{uk, uk}δ(k),(2)K KS.T.（k）di，j≤1，Jk ∈ {1，. . . ，K}，i ∈ {1，. . . ，M}（五）其中u1和u2是高斯响应大小，热图上的关节，由高斯响应偏差确定。δ（k）是控制第k个关节偏差的参数，直接采用MSCOCOΣd（k）≤1，我k ∈{1，.左膝右头部右膝右腿右膝相同右腿相同大肠10867. . ，K}，j∈{1，. . . ，Nk}（六）关键点数据集[15]。我们使用min{u1，u2}的原因d（k）∈{0，1}，ni，j，k（7）10868i、jJJ其中d（k）表示我们是否保持边ek在我们0）。根据Carpanetoet al. [1]，这条线-i，j i，j最后一张图，还是没有。Eq.的约束5和6执行每个人类提议最多只能匹配第k个关节图G可分解为K个子图 Gk=（（H，J（ k ）），E（k）），其中Gk是唯一由第k类结点组成的子图因此，我们的目标函数可以配制成稀疏矩阵的耳朵分配问题可以解决时间复杂度为O（n） C（|H|+的|J（k）|）2）。由于我们已经消除了多余的关节，并且关节与人之间存在一一对应关系，|等于|H|.|. 所以，我们有一个（|H|+的|J（k ）|）2）=O（|H|2）的情况。这种计算复杂度与传统贪婪NMS算法的复杂度相同（k）（k）maxG = maxwi，j·di，j（8）D di，j，kΣK=（max）Σ w（k）·d（k））（9）百分之四十百分之三十k=1ΣKd（k）i、ji、ji、j百分之二十=k=1maxGk.（十）d（k）百分之十如等式1所示10，求解人-联图G中的全局指派问题在数学上等价于单独求解其子图Gk。Gk是一个由人子集和第k个联合子集组成的为对于每个子图，应用改进的Kuhn-Munkres算法[1]通过对每个Gk分别寻址，我们得到最终的结果集R。给定图匹配结果，如果d（k）= 1，则vk的加权中心被分配给第i个人类提议作为其第k个关节。这里，加权中心意味着候选关节坐标在vk中的线性组合，并且权重是它们的热图响应分数。通过这种方式，可以构建每个人类提议不能匹配任何关节的人节点将被删除。计算复杂性姿态估计的推理速度在许多应用中至关重要。我们证明了我们的全球关联算法是有效的，常见的贪婪NMS算法。如White和Whiteley [ 2 ]所证明的遗传性质，图G是（k，l）-稀疏的，如果每个非空子图X至多有k个|X|-l边，其中|X|是子图X的顶点数，0≤

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

拥挤场景姿态估计与新基准方法

用于6D对象姿态估计的BOP基准的Python工具包。___下载.zip

OpenMMLab姿态估计工具箱和基准

头部姿态估计数据集

推荐20个姿态估计深度学习模型

openpose 3d姿态估计模型

yolov8姿态估计训练

流批一体基准测试场景如何描述

tinyperson数据集

带隙基准设计方法是什么

INRIA数据集github

风控管理系统的性能测试的基准测试方法

css图片与文字基准线

性能测试中，基准测试场景并发用户数是多少

用java设计一个方法，以数组的首个元素为基准，将数组中的元素分割成两部分并存放到列表集合中，要求所有小于基准元素的排在基准元素之前(不用排序)，大于基准元素的排在基准元素之后，返回调整之后的列表集合

面板数据的基准回归怎么理解

基准平面和基准面的区别

Accurate 3D Face Reconstruction from a Single Image: A Holistic Approach主要内容

对极端场景进行验证方法有哪些

机器学习中什么是基准

混合场景流程性能测试怎么做

最新资源