基于位姿划分网络的多人位姿估计

170 浏览量更新于2023-10-13 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于位姿划分网络的多人位姿估计聂学成1[0000 - 0003 - 2433 - 5983]、冯佳实1、邢俊良2、严水成1、 31新加坡国立大学幼儿教育系网址：niexuecheng@u.nus.edu，elefjia@nus.edu.sg2中国科学院自动化研究所，中国北京jlxing@nlpr.ia.ac.cn3奇虎360人工智能研究院，中国北京yanshuicheng@360.cn抽象。提出了一种新的位姿划分网络（PPN）来解决具有挑战性的多人位姿估计问题。该算法具有复杂度低、联合检测和分割精度高的特点。特别地，PPN从由人的质心参数化的特定嵌入空间内的全局联合候选执行密集回归，以有效地生成鲁棒的人检测和联合分割。然后，PPN推断身体关节配置通过进行图划分为每个人的检测本地，利用可靠的全球亲和力线索。以这种方式，PPN降低了计算复杂度，并显着提高了多人姿态估计。我们实现PPN与沙漏架构作为骨干网络，同时学习联合检测器和稠密回归。在MPII人体姿势多人，扩展PASCAL人的一部分，和WAF的基准广泛的实验表明，PPN的效率与新的国家的最先进的性能。关键词：多人位姿估计·位姿划分·稠密回归1介绍多人姿态估计旨在定位在2D单目图像中捕获的多个人的身体关节[7，22]。尽管进行了广泛的先前研究，但由于高度复杂的关节配置、部分或甚至完全的关节闭塞、相邻人员之间的显著重叠、未知数量的人员以及更关键的是将关节分配给多个人员的困难，该问题仍然非常具有挑战性与更简单的单人设置相比，这些挑战的特征在于多人姿势估计的唯一性[18，27]。为了解决这些挑战，现有的多人姿态估计方法通常分别执行联合检测和分割，主要遵循两种不同的策略。自上而下的策略[7，8，13，20，23]首先检测2X. Nie，J. Feng，J. Xing和S. 严(a) 输入图像（b）姿势分区（c）局部推断图1.一、用于多人姿态估计的姿态划分网络（a）输入图像。（b）提出分区。PPN将人检测和联合分区建模为从联合候选者推断的回归(c)局部推理。PPN执行局部推理的联合配置的条件下产生的人检测与联合分区人，然后单独地对每个单个人执行姿势估计。相比之下，自底向上策略[3，12，11，15，16，22]首先生成所有联合候选人，然后尝试将其划分为相应的人实例。自上而下的方法直接利用现有的人员检测模型els [17，24]和单人姿势估计方法[18，27]。因此，它们有效地避免了复杂的联合分区。然而，它们的性能受到人员检测质量的如果所采用的人检测器未能准确地检测到人实例（由于遮挡、重叠或其他干扰因素），则引入的误差不能被补救并且将严重损害随后的姿势估计的性能此外，它们遭受高的联合检测复杂度，其随着图像中的人的数量线性增加，因为它们需要顺序地运行用于每个人检测的单人联合检测器。相反，自底向上方法首先检测所有联合候选通过全局地应用联合检测器仅一次然后将它们划分根据共同的亲缘关系分配给相应的人。因此，他们享有较低的联合检测复杂度比自上而下的和更好的鲁棒性，从早期承诺的错误。然而，他们遭受非常高的分割关节到相应的人的复杂性，这通常涉及解决覆盖整个图像的密集连接图上的NP-难图分割问题[11，22]在本文中，我们提出了一种新的解决方案，被称为姿态分区网络（PPN），以克服上述两种类型的方法的基本限制，同时继承他们的优势，在一个统一的模型，高效和有效地估计在一个给定的图像中的多个人的姿势。如图1，PPN通过同时1）将人检测和联合分割建模为所有联合候选的回归过程以及2）执行局部推理以获得以所生成的人检测为条件的联合分类和关联来解决多人姿势估计问题。用于多人位姿估计的3特别地，PPN引入了密集回归模块，以经由来自精心设计的嵌入空间中的关节候选的投票来生成具有分割关节的人检测，该嵌入空间由人质心有效地参数化。该姿态分割模型通过仅针对一个前馈通道运行联合检测器来产生联合候选和分割，提供比自上而下的方法高得多的此外，从PPN产生的人检测对各种干扰因素是鲁棒的，例如，遮挡、重叠、变形和大的姿态变化，有利于后续的姿态估计。PPN还通过假设人员检测之间的独立性来引入局部贪婪推理算法，以产生最佳多人联合配置。这种局部优化策略减少了用于找到最佳姿态的图划分问题的搜索空间，避免了挑战自底向上策略的高联合划分复杂性。此外，局部贪婪推断算法利用来自嵌入空间的可靠的全局亲和力线索来推断稳健的人检测内的关节配置，从而导致性能改进。我们基于沙漏网络[18]实现PPN，同时学习联合检测器和密集回归器。在MPII Human Pose Multi-Person [1]，扩展PASCAL-Person-Part [28]和WAF [7]基准上的大量实验明显表明了所提出的PPN的效率和有效性此外，PPN在所有这些基准上都达到了新的最先进水平。我们做出以下贡献。1)我们提出了一个新的前馈通过解决方案，多人姿态估计，完全不同于以前的自上而下和自下而上的。2)我们提出了一种新的密集回归模块，以有效和鲁棒地将身体关节划分为多个人，是加速多人姿态估计的关键。3)除了高效率外，PPN在多个基准测试的鲁棒性和准确性方面也很出色2相关工作自顶向下多人姿态估计遵循自顶向下策略的现有方法顺序地执行人检测和单人姿态估计。在[9]中，Gkioxari等人提出采用广义Hough变换框架来首先生成人物提议，然后基于poselets对联合候选者进行分类。Sun等人。 [25]提出了一种用于联合人员检测和姿势估计的基于分层部分的模型。最近，深度学习技术已被用于改进人员检测和单人姿势估计。在[13]中，Iqbal和Gall采用了基于Faster-RCNN [24]的人检测器和基于卷积姿态机[27]的联合检测器来完成这项任务。后来，Fang等人。 [8]利用空间Transformer网络[14]和沙漏网络[18]进一步提高联合检测和分区的质量。尽管取得了显著的成功，但它们受到早期承诺和高联合检测复杂度的限制。不同的是，建议的PPN采用一个前馈通过回归过程，以有效地产生4X. Nie，J. Feng，J. Xing和S. 严(a)联合检测(b)稠密回归(c) 质心嵌入(d) 节隔墙(e) 局部贪婪推理图二. 概述了所提出的用于多人姿势估计的姿势分割网络。给定图像，PPN首先使用CNN来预测（a）联合置信度图和（b）密集联合质心回归图。然后，PPN经由密集回归对嵌入空间中的所有联合候选执行（c）质心嵌入，以产生(d)人员检测内的联合分区。最后，PPN进行（e）局部贪婪推理以局部地生成针对每个关节分区的关节配置，从而给出多个人具有分割的联合候选的人检测，提供对早期承诺的鲁棒性以及低联合检测复杂度。自下而上的多人姿态估计自下而上的策略提供了对早期承诺和低联合检测复杂度的鲁棒性。先前的自下而上方法[3，11，19，22]主要集中于改进联合检测器或联合亲和性线索，从而有益于以下联合划分和配置推断。对于联合检测器，完全卷积神经网络，例如残差网络[10]和沙漏网络[18]等网络模型已被广泛应用。至于关节亲和力线索，Insafutdinov等人。 [11]探索了关节候选者之间的几何和外观约束 Cao等人 [3]提出了部分亲和字段来编码肢体的位置和方向。Newell和Deng[19]提出了用于分组联合候选的关联嵌入然而，所有这些方法都是基于对覆盖整个图像的图进行分区来划分关节相比之下，PPN执行本地推理与强大的全球亲和力线索，这是有效地产生的密集回归从质心嵌入空间，降低复杂性的联合分区和提高姿态估计。3方法3.1位姿划分模型所提出的姿态划分网络（PPN）模型的整体流水线如图所示二、在整个论文中，我们使用以下符号。设I表示包含多个人的图像，p={p1，p2，. . . .. . . ，N，并且u={u1，u2，. . . ，uN}表示对应的联合候选的标签，其中uv∈{1，2，. . . ，K}，并且K是关节类别的数量。用于分配用于多人位姿估计的5||--||||||通过局部推理，我们还考虑了关节之间的邻近性，记为b∈RN×N。他eb（v ，w ）en将该proximiteti ti de（pv，uv）和第w个联合候选者（pw，uw）进行编码，并给出它们来自同一个人的概率所提出的具有可学习参数Θ的PPN旨在通过学习来推断条件分布P（p， u， bl，Θ）来解决多人姿势估计任务即，给定图像I，PPN推断关节位置p、标签u和提供最大似然概率的接近度b为此，PPN采用回归模型，同时产生的人检测与联合分区隐式和推断联合配置p和u为每个人检测本地。以这种方式，PPN显著降低了多人姿态估计的难度和复杂度形式上，PPN引入潜在变量g= g 1，g 2，. . .，g，M来编码联合分区，并且每个gi是属于特定人检测的联合候选（没有标签）的集合，并且M是联合分区的数量。利用这些潜在变量g，P（p， u， b，I，Θ）可以被因式分解为P（p，u，b|I，Θ）=ΣP（p，u，b，g|I，Θ）=GΣP（p |I，Θ）P（g |I，Θ，p）P（u，b |I，Θ，p，g），`x` xG分区生成关节配置（一）其中P（pi，Θ）P（gi，Θ， p）基于联合候选对人员检测内的联合分区生成过程进行建模。最大化上述似然概率给出了I中多个人的最佳姿态估计。然而，直接最大化上述可能性在计算上是难以处理的。而不是最大化w.r.t. 在所有可能的分区g中，我们提出通过单个“最优”分区来最大化低带宽，特别是通过EM算法[ 6 ]来实现这种近似可以显著降低复杂性而不损害性能。具体地，基于Eqn.（1）我们有P（p，u，b |I，Θ）≥P（p |I，Θ）.ΣmaxP（g I，Θ， p）GP（u，b |I，Θ，p，g）。（二）在此，我们通过最大化以上导出的下限P（p， u， b， g，I，Θ）而不是最大化求和来找到最优解关节分区g解开独立关节并降低推理复杂性-仅落在同一分区中的关节具有非零接近度b。然后P（p， u，b， g I，Θ）进一步分解为：P（p，u，b，g |I，Θ）= P（p，g |I，Θ）XYgi∈gP（u gi|I，Θ，p，gi）P（b，gi |I，Θ，p，g，i，u），⑶其中，u_g_i表示落入划分g_i中的关节的标签，并且b_g_i表示它们的接近度。在上述概率中，我们将P（p， u， b， g，I，Θ）定义为吉布斯分布：P（p，u，b，g |I，Θ）<$exp {−E（p，u，b，g）}，（4）6X. Nie，J. Feng，J. Xing和S. 严|JJJJJJ 2沙漏模块联合检测分支Rpvovpc质心嵌入密集回归分支卷积残差模块置信度图加法回归图(a)（b）第（1）款图3.第三章。（a）经由密集联合回归的质心嵌入左图示出了人的质心嵌入结果，右图示出了像素的回归目标的构造（第二图）。3.3）。（b）姿态划分网络的体系结构它的主干是一个沙漏模块（在蓝色块中），其次是两个分支：联合检测（在绿色块中）和用于联合划分的密集回归（在黄色块中）其中E（p， u， b， g）是联合分布P（p， u， b， g，I，Θ）的能量函数它的显式形式是从方程（Eqn）导出的。（3）因此：E（p， u， b， g）=−（p， g）−Σ。Σ（pv，uv）+ΣΣφ（pv，uv，pw，uw）.gi∈gpv∈gipv，pw∈gi（五）这里，对从联合candi生成的联合分区g的质量进行评分。φ（pv，uv，pw，uw）表示具有标签uv的位置pv和具有标签uw的位置pw属于同一个人的可能性，即，表征接近度b（v，w）。在以下小节中，我们将给出用于检测接头候选p、生成最佳接头分区g、推断接头配置u和b以及优化能量函数的算法的细节3.2联合候选检测为了可靠地检测人体关节，我们使用置信图来编码在图像中的每个位置处呈现的关节的概率。如图2（a）所示，通过将关节位置建模为高斯峰来构建关节置信度图我们使用Ci来表示第j个关节的置信度图，其中Ci是第j个关节的置信度图。n. ForapositioΣn在给定图像中的pv，Ci（pv）由Ci（pv）= exp − pv−pi2/σ2计算，其中pi表示第i个人的第j个关节的地面实况位置并且σ是经验选择的常数，以控制高斯分布的方差。实验中设为7。所提出的PPN模型学习预测的目标置信度图是单个图中所有人的峰值的聚合。这里，我们选择取置信图的最大值而不是平均值以保持附近峰之间的区别[3]，即Cj（pv）= maxiCi（pv）。在测试过程中，我们首先找到具有置信度分数的用于多人位姿估计的7H∈HHH}jvjv* 2J我OJC否则，j、vCCCGr eaterthanagivenethesholdτ（设为0. 1）关于所有类型的接头的预先确定的现场图C ~。然后，我们执行非最大值抑制（NMS）以找到在e∈tp={p1，p2，. . . ，pN}。3.3基于稠密回归的我们提出的姿势划分模型对所有关节候选者执行密集回归，以定位多个人的质心，并相应地将关节划分为不同的人实例，如图所示。2（b）和（c）段。它学习将属于特定人的所有像素转换为精心设计的嵌入空间中的相同单点，在那里它们很容易聚类到相应的人。这样的密集回归框架使得能够通过单个前馈通道来划分关节，从而降低困扰自上而下解决方案的关节检测复杂性。为此，我们建议通过人体质心来参数化联合候选嵌入空间，因为即使在存在一些极端姿势的情况下，它们也是稳定可靠的，可以区分不同的人实例我们将构造的嵌入空间表示为。在中，每个人对应于单个点（即，质心），并且每个点h*表示关于特定人实例的质心位置的假设。在图的左图中给出了一个例子。第3（a）段。关节候选被密集地变换成并且可以共同地确定其对应的人实例的质心假设，因为它们与铰接运动学紧密相关，如图1B所示。第2段（c）分段。举例来说，头部关节的候选者将添加针对患者的中心位置的存在的投票以使所述局部关节减少。质心和分割不一定为人实例的确切质心提供足够的证据，但是联合候选的群体可以以大概率投票给正确的质心并且正确地确定联合分割。特别地，在位置h *处生成联合划分g * 的概率通过将来自不同联合候选者的选票加在一起来计算，即P（g *| h*）∝Σ。ΣWJjpv∈p~<$[C<$（p）≥τ]exp{− <$f（p）−h2Σ，（6）其中，[·]是独立的函数，w是第j个联合类别的投票结果。我们为所有关节设置wj=1，假设所有种类的关节都同样有助于人体的不受约束的形状和不同关节存在的不确定性的人的实例的本地化函数fj：p →H学习将图像中的每个像素密集地变换到嵌入空间H。为了学习fj，我们为第j个关节构建目标回归图Ti第i人的姓名如下：Ti（pv）=.我j、v/Zif pv∈Nj，oi=（pi− pv）=（xi−xv，yi−yv），（7）其中pi表示第i个人的质心位置，Z=√H2+W2为归一化因子H和W表示图像I的高度和宽度8X. Nie，J. Feng，J. Xing和S. 严N{|−HC|v我我j= p vp vpj2 R表示第j个关节的相邻位置。第i个人，并且r是用于定义邻域大小的常数，在我们的实验中设置为7。在图1的右图中示出了示例。图3（a）中所示的用于构建给定图像中的像素的回归目标的方法。然后，我们通过下式将第j个关节的目标回归图Tj定义为所有人的平均值T（p）=1 Σ Ti（p），（8）jvNjv i其中Nv是所有人中位置pv处的非零向量的数量在此期间，在预处理区域映射T~ j之后，我们将fj上的函数ff或pv上的函数 f 定义为fj（pv）=pv+ZT~ j（pv）。AftertergeneratingP（g*|h*）对于Σea chpo intinhembdigsace，我们计算ecore（p，g）如（p，g）=i log P（g i| h i）。然后将联合分区生成问题转化为寻找峰值问题在嵌入空间中。由于图像中的人数没有先验知识，我们采用凝聚聚类[2]通过对投票进行聚类来找到峰值，可以自动确定聚类的数量。我们将 hevoteset 表示为 h={hv|hv=fj （ pv ）， C~j （ pv ） ≥τ ，pv∈p~}，且u∈C={C1，. . . ，C，M}来表示h上的聚类结果，其中i表示第i个聚类，并且M是簇的数量我们假设在每个聚类中投票的联合候选者的集合对应于由下式定义的联合分区gig i={pv|pv∈p~，C~j（pv）≥τ，fj（pv）∈Ci}.（九）3.4基于局部贪婪推理的位姿估计根据方程式在等式（4）中，我们通过最小化等式（4）中的能量函数E（p， u， b， g）来最大化条件概率P（p，u，b， g I，Θ（五）、我们在两个连续步骤中优化E（p，u，b，g）：1）基于联合候选生成联合划分集; 2）局部地在每个联合分区中进行联合配置推断，这降低了联合配置复杂度并且克服了自底向上方法的缺点。在根据等式1得到联合划分（9），则得分（p，g）变为consta nt。让我们来回顾一下这段历史。该操作简化为.u~，b~=argmin- Σ。Σ（pv，uv）+Σφ（pv，uv，pw，uw）ΣΣ. （十）u， bgi∈g<$pv∈gipv，pw∈gi每个联合分区中的姿态估计是独立的，因此不同联合分区上的推断变得分离。我们提出了以下局部贪婪推理算法来求解Eqn。（10）用于多人姿态估计。给定联合划分gi，一元项ψ（pv，uv）是来自联合划分gi的在pv处的置信度得分： ψ （ pv ， uv ）=C~uv（ pv ）。双线性mφ（pv，uv，pw，uw）用于多人位姿估计的92H算法一：多人姿态估计的局部贪婪推理输入：jointtcandidatesp~，jointtparti t it i t i tinsg~，jointtc〇nf idencemapsC~，denseregres sinmapsT~，τ。输出：多人姿态估计R初始化：R ←forgi∈g~dowhilegi/=do初始化单人姿态估计P ←对于第j个联合类别，j= 1到Kdo，如果P=，则通过下式找到P的gi中的根关节候选：p*←argmaxpv∈giC~j（pv）其他找到最接近质心c的联合候选：p← arg max[C~j（pv）≥τ]∗端pv∈giexp{fj（pv）−c2}ifC~j（p*）≥τthenUpdateP←P∪{（p*，j）}，gi←gi\{p*}ΣUpdatecbyaverangg人的质心假设：c ←（pv，n）∈Pfn（p v）/|P|结束结束更新R ← R ∪ {P}结束结束是基于嵌入空间中的全局亲和度线索的两个联合候选的投票的相似性得分φ（pv，uv，pw，uw）=[C~uv（pv）≥τ][C~uw（pw）≥τ]exp{−hv−hw}，（11）2其中h e hv=pv+ZTuv（pv）和hw=pw+ZTuw（pw）。为了在Eqn.（10）中，我们采用了一种贪婪策略，该策略保证能量单调下降并最终收敛到一个下界。具体来说，我们逐个迭代每个关节，首先考虑躯干周围的关节并向外移动到肢体。我们从颈部开始推理。对于颈部候选者，我们使用其嵌入点来初始化其人实例的质心。然后，我们选择最接近每个人的质心的头顶候选人，并将其与颈部候选人相同的人相关联。之后，我们更新的人的质心平均推导出的假设。我们以类似的方式循环所有其他联合候选人。最后，我们得到一个人实例及其关联的关节。在利用颈部作为根用于推断人实例的关节配置之后，如果一些候选者保持未分配，则我们利用来自躯干的关节，然后来自四肢的关节作为根来推断人实例。在所有候选者找到他们与人的关联之后，推理终止。详见算法1。210X. Nie，J. Feng，J. Xing和S. 严×××JJ不4用CNN学习联合检测器和稠密回归器PPN是一种通用模型，与各种CNN架构兼容大规模的建筑工程不在本书的范围我们简单地选择最先进的沙漏网络[18]作为PPN的骨干。沙漏网络由一系列沙漏模块组成。如图在图3（b）中，每个沙漏模块首先从输入图像学习缩小尺寸的特征图，然后通过上采样恢复全分辨率特征图以用于精确的联合定位。特别地，每个沙漏模块被实现为完全卷积网络。在具有相同分辨率的特征图之间对称地添加跳过连接，以捕获每个尺度的信息。多个沙漏模块依次堆叠，通过重新整合先前的估计结果来逐步中间监督应用于每个沙漏模块。提出了一种基于沙漏网络的单人位姿估计方法.PPN将其扩展到多人情况。PPN引入了能够同时进行联合检测的模块（Sec.3.2）和密集联合质心回归（第二节）。 3.3），如图所示。3（b）款。特别地，PPN利用Hourglass模块来学习图像表示，然后分成两个分支：一个通过对来自Hourglass模块的特征图进行一个3 - 3卷积和另一个用于分类的1 -1卷积来产生用于检测人质心的密集回归图;另一分支产生联合检测置信度图。通过这种设计，PPN在一个前馈通道中获得联合检测和划分。当使用多级沙漏模块时，PPN通过11卷积将每个阶段的预测密集回归图馈送到下一个阶段，然后将中间特征与来自前一阶段的特征组合。为了训练PPN，我们使用2损失来学习联合检测和密集回归分支，并在每个阶段进行监督。损失定义为Σ ΣLtC~t（pv）−Cj（pv）接头J2jvLtΣ ΣT~ t（pv）−Tj（pv）（十二）回归j2jvwheeeC~t 和T~t表示预测的联合置信度图和密集回归-在第t阶段的Sion映射。背景真值Cj（pv）和Tj（pv）areΣconstructedasinSec. 3.第三章。2和d3。3个月。所有的一切都是由我来完成的L=t=1不联合不回归），其中T=8是沙漏模块的数量（阶段），并且加权因子α根据经验被设置为1。5实验5.1实验装置数据集我们在三个广泛采用的基准上评估所提出的PPN：MPII人体姿势多人（MPII）数据集[1]，扩展PASCAL-Person-（L+αL用于多人位姿估计的11×◦◦表1. 与MPII人体姿势多人数据集（AP）方法头肩膀肘手腕髋膝脚踝总时间[s]伊克巴尔和高尔[13]58.453.944.535.042.236.731.143.110Insafutdinov等人 [第十一届]78.472.560.251.057.252.045.459.5485Levinkov等人 [16个]89.885.271.859.671.163.053.570.6-Insafutdinov等人 [12个]88.887.075.964.974.268.860.574.3-Cao等人 [3]第一章91.287.677.766.875.468.961.775.61.24Fang等 [八]《中国日报》88.486.578.670.474.473.065.876.71.5Newell和Deng [19]92.189.378.969.876.271.664.777.5-PPN（我们的）92.289.782.174.478.676.469.380.40.77P ar tdataset[2 8]，and“W e Ar e F amil y“（W AF）d at as et [ 7 ]. MPIIdat由分别用于训练和测试的3，844和1，758组多个交互的人组成。图像中的每个人被注释16个身体关节。它还为单人姿势估计提供了超过28，000个训练样本。扩展的 PASCAL-Person-Part 数据集包含来自原始PASCAL-Person-Part数据集[4]的3，533个具有挑战性的图像，其中分为1，716个用于训练，1，817个用于测试。每个人被注释有与MPII数据集共享的14个身体关节，没有骨盆和胸部。WAF数据集包含525个Web图像（350个用于训练，175个用于测试）。每个人的上半身用6条线段注释。数据增强我们遵循传统的方法来增强训练样本，方法是基于人的中心裁剪原始图像。特别地，我们用[-40，40]中采样的旋转度、[0]中的缩放因子来增加每个训练样本。七，一。3]，平移偏移为[−40px，40px]，水平镜像。我们将每个训练样本的大小调整为256×256像素。对于MPII数据集，我们从训练集中随机选择350张图像进行验证。我们使用其余的训练图像和所有提供的单人样本来训练PPN 250个epoch。对于其他两个数据集的评估，我们遵循常见的做法，并对在MPII上预训练30个epoch的PPN模型进行为了处理一些极端的情况下，人的质心重叠，我们稍微扰动的质心，通过增加小偏移量来分开他们。我们使用PyTorch [21]实现我们的模型，并采用RMSProp [26]进行优化。初始学习率为0.0025，并且在第150、170、200、230个时期乘以0.5而在测试中，我们遵循公约，作物图像补丁使用给定的位置和平均人规模的测试图像，并调整大小和垫的裁剪样本为384 - 384作为输入到PPN。我们寻找合适的图像尺度超过5个不同的选择。特别是，当在MPII上进行测试时，遵循以前的工作[3，19]，我们应用在MPII上训练的单人模型[18]来改进估计。我们使用标准的平均精度（AP）作为所有数据集的性能指标，如[11，28]所我们的代码和预训练模型将提供。12X. Nie，J. Feng，J. Xing和S. 严表2. 扩展PASCAL-Person-Part数据集（AP）方法头肩膀肘手腕髋膝脚踝总陈和尤尔[5]45.334.624.821.79.88.67.721.8Insafutdinov等人[第十一届]41.539.334.027.516.321.320.628.6Xia et at. [28日]58.052.143.137.222.130.831.139.2PPN（我们的）66.960.051.448.929.236.433.546.6表3.WAF数据集（AP）测试集与最新技术的比较方法头肩膀肘手腕总陈和于乐[5]83.356.146.335.555.3Pishchulin等人 [22日]76.680.873.773.676.2Insafutdinov等人 [第十一届]92.681.175.778.882.0PPN（我们的）93.182.983.579.984.85.2结果和分析MPII表1显示了MPII完整测试集的评价结果。我们可以看到，所提出的PPN实现了总体80。4%的AP，显著优于之前的最先进水平，达到77。5% AP [19]。此外，所提出的PPN提高了定位所有关节一致的性能。特别是，它带来了显着的改善，而困难的关节，主要是由闭塞和高自由度，包括手腕（74。4%对69。8%AP）、踝关节（69. 3%对64。7%AP）和膝关节（绝对4. 8%的AP增加[19]），证实了所提出的姿势划分模型和全局亲和力线索对这些分散注意力的因素的鲁棒性。这些结果清楚地表明PPN对于多人姿态估计是非常有效的。我们还在表1中报告了PPN1的计算速度。PPN比自底向上方法[3]快约2倍，具有用于多人姿势估计的最先进速度。这证明了在我们的模型中同时执行联合检测和分区的效率。PASCAL-Person-Part表2示出了评估结果。PPN提供绝对溶质7。4%AP改善（46. 6%对39。2% AP）超过最新技术水平[28]。此外，所提出的PPN对困难关节（诸如手腕48）带来显著改善。9%对37。2%AP）。这些结果进一步证明了我们的多人姿态估计模型的有效性和鲁棒性。WAF如表3所示，PPN总体达到84。8%的AP，带来3. 比最佳自下而上方法提高4%[11]。PPN可为所有上身关节实现最佳性能。特别地，它在弯头上给出了最显著的性能改进，约10。比以前最好的高出3%1运行时间在CPU Intel I7- 5820 K 3.3GHz和GPU TITAN X（Pascal）上测量时间用5尺度测试来计数，不包括通过单人姿势估计的细化用于多人位姿估计的13××表4.MPII确认集（AP）上的消融实验方法头肩膀肘手腕髋膝脚踝总延迟时间[ms]PPN-完整94.490.081.372.177.872.764.779.01.9PPN-w/o-分区93.289.379.970.178.873.165.778.63.4PPN-w/o-LGI93.189.179.568.579.071.464.477.8-PPN-w/o-精制90.486.879.369.877.569.361.976.4-PPN-256×25691.087.178.670.276.770.560.076.3-PPN-香草90.586.477.169.472.267.760.274.8-结果这些结果验证了所提出的PPN用于解决多人姿态估计问题的有效性。定性结果在补充材料中提供了在这三个数据集上通过所提出的PPN进行的姿势划分、局部推理和多人姿势估计的可视化示例。5.3消融分析我们使用MPII验证集对所提出的PPN模型进行消融分析。我们通过从fullmodel（“PPN-Fulll”）中移除cere-in-gcomponent来评估我们提出的PPN模型的多个变体。“P P N- w /o- P ar t i n”在不使用所获得的联合分割信息的情况下对整个图像执行推断，这与纯基础的应用程序类似。“P P N- w /o- LG I”去除了局部贪婪推理阶段。它通过为每个关节中的每个关节找到最活跃的位置来将关节候选分配给人。这对于应用程序的操作来说非常简单。“P P N- w /o- R e finement t”不通过使用单人姿势估计器来执行细化。我们使用256 256表4中“P P N-Full“的定义为7和9。0%AP和连接部分的成本为1。9ms，其效率非常高。“P P N- w /o- P arti t i on”具有略低的AP（78. 6%），推理速度较慢（3.4ms）。结果证实了在每个联合分区内通过PPN推断生成联合分区的有效性，单独地降低了复杂度并改善了多人的姿态估计。如在“PPN-w/o-LG1”中那样去除局部贪婪推理阶段，如在图77中所示。8%A P，因此，通过有效地处理基于嵌入空间中的全局亲和性线索的联合能力检测的假警报，在嵌入空间中的局部亲和性线索有利于姿态估计。比较“P P N- w /o- R e finem t“（76.4%AP），其中完整的模型描述了单人姿势估计可以细化联合定位。“PPN-Vanilla”达到74。8%AP，验证了我们的方法的稳定性，即使在删除细化和多尺度测试的情况下，多人姿态估计我们还评估了PPN模型的4个不同阶段的姿态估计结果，并将结果绘制在图中。第4（a）段。当穿越更多的阶段时，性能单调地增加在第8阶段获得的最终结果给出约23。4%的改善与第一阶段（79。0%vs 64。0%的百分比14X. Nie，J. Feng，J. Xing和S. 严10.80.60.40.208级4级2级1级0 0.1 0.2 0.3 0.40.5归一化距离（一）1234567891012345678910Groundtruth的人物（b）第（1）款图4.第一章（a）多级沙漏网络的烧蚀研究（b）关于从姿势划分推断的人数的混淆矩阵（第3.3）与地面真相。均方误差为0。203.最佳彩色和2倍变焦观看AP）。这是因为所提出的PPN可以循环地校正密集回归图上的误差以及以多阶段设计中的先前估计为条件的联合置信度图，从而逐步改进用于多人姿势估计的联合检测和分区。最后，我们评估的有效性的姿态分割模型的分割人的实例。特别是，我们评估其产生的分区匹配的真实人数。混淆矩阵如图所示。第4（b）段。我们可以观察到所提出的姿势分割模型可以预测非常接近的人数与地面实况，均方误差小至0。203.6结论我们提出了姿势分割网络（PPN），以有效地解决具有挑战性的多人姿势估计问题。PPN通过同时检测和划分多个人的关节来它引入了一种新的方法来生成分区，通过推断联合候选人在嵌入空间参数化的人的质心。此外，PPN引入了一个局部贪婪推理方法来估计的人的实例，通过利用分区信息的姿态。我们表明，PPN可以提供有吸引力的联合检测和分区的效率，它可以显着克服的局限性，纯自上而下和自下而上的解决方案上的三个基准多人姿态估计数据集。确认Jiashi Feng得到NUS IDS R-263-000-C67-646、ECRA R-263-000-C87-133和MoE Tier-II R-263-000-D17-112的部分支持。平均平均精度0700000000百分之零点零百分之零点零百分之二点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零0.0%100%02186000000097.3%百分之零点零百分之六十二点三百分之一点七百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零二点七厘011533100000百分之七十七点九百分之零点零百分之三点一百分之十五点一百分之零点九百分之零点三百分之零点零百分之零点零百分之零点零百分之零点零0.0%22.1%03419100000百分之七十点四百分之零点零百分之零点九百分之一点一百分之五点四百分之零点三百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之二十九点六000170000087.5%百分之零点零百分之零点零百分之零点零百分之零点三百分之二点零百分之零点零百分之零点零百分之零点零百分之零点零0.0%12.5%000126000066.7%百分之零点零百分之零点零百分之零点零百分之零点三百分之零点六百分之一点七百分之零点零百分之零点零百分之零点零百分之零点零33.3%Pose Partition用于多人位姿估计的15引用1. Andriluka，M.，Pishchulin，L. Gehler，P. Schiele，B.：2D人体姿态估计：新的基准和最先进的分析。见：CVPR（2014）3，102. Bourdev，L.Malik，J.：Poselets：使用3d人体姿势注释训练的身体部位检测器In：ICCV（2009）83. Cao，Z.，Simon，T.Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态纳入：CVPR（2017）2、4、6、11、124. 陈旭，Mottaghi河Liu，X.，中国科学院院士，Fidler，S.，Urtasun河Yuille，A.L.：尽可能检测：使用整体模型和身体部位检测和表示对象见：CVPR（2014）115. 陈旭，Yuille，A.L.：用灵活的成分解析闭塞的人见：CVPR（2015）126. Dempster，A.P.，Laird，N.M.，Rubin，D.B.：不完整数据的最大似然性分析。 J. 我知道了。 S o c. B. 39（1）、17. Eichner，M.，Ferrari，V.：我们是一家人：多人联合姿态估计。In：ECCV（2010）1，3，118. Fang，H.，中国农业科学院，Xie，S.，Tai，Y.，Lu，C.：RMPE：区域多人姿势估计。In：ICCV（2017）1，3，119. Gkioxari，G.，Hariharan，B.，格尔希克河Malik，J.：使用k-poselets检测人并定位其关键点。在：CVPR（2014）310. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR（2016）411. Insafutdinov，E.，Pishchulin，L.Andres，B.，Andriluka，M.，Schiele，B.：Deepercut：更深、更强、更快的多人姿势估计模型。In：ECCV（2016）2，4，11，1212. Insafutdinov，E.，Andriluka，M.，Pishchulin，L.唐，S.，Andres，B.，Schiele，B.：在野外进行多人跟踪。In：CVPR（2017）2，1113. 伊克巴尔，美国，Gall，J.：具有局部关节到人关联的多人姿势估计In：ECCV（2016）1，3，1114. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transform

下载后可阅读完整内容，剩余1页未读，立即下载