姿势建议网络：一种基于自下而上姿势检测的新方法

108 浏览量更新于2023-10-13 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

姿势提案网络太极关井[0000−0002−1895−3075]柯尼卡美能达株式会社taiki. konicaminolta.com抽象。我们提出了一种新的方法来检测一个未知数量的articulated二维姿态实时。为了将逐像素身体部位检测器的运行时复杂性与其卷积神经网络（CNN）特征图分辨率解耦，我们的方法称为姿势建议网络，在自下而上的姿势检测场景中使用逐网格图像特征图引入了最先进的单次物体检测范例身体部位提议（其被表示为区域提议）和肢体经由单镜头CNN直接检测专门针对这样的检测，自下而上的贪婪解析步骤可能被重新设计以考虑全局上下文。MPII多人基准测试的实验结果证实，我们的方法实现了72.8%的mAP相媲美的国家的最先进的自下而上的方法，而其总运行时间使用GeForce GTX1080Ti卡达到5.6毫秒（180 FPS），这超过了瓶颈运行时间，在国家的最先进的方法中观察到的。关键词：人体姿态估计·目标检测(a)（b）（c）（d）Fig. 1. 通过基于ResNet-18的PPN对多人姿势检测结果进行采样。使用单次CNN从输入图像（a）直接检测部分边界框（b）和肢体（c），并将其解析为个体人（d）（参见图10）。§3）。2T. 关井1介绍检测人类并同时估计他们的关节姿势（我们称之为姿势）的问题如图1所示。1已经成为计算机视觉中一项重要且高度实用的任务，这要归功于深度学习的最新进展。虽然该任务在诸如体育分析和人机交互等领域中具有广泛的应用人体姿势估计被定义为解剖关键点或界标（我们称之为部分）的定位，并且根据最终目标和所做的假设，使用各种方法来处理– 使用单个或连续图像作为输入;– 使用（或不使用）深度信息作为输入;– 零件在2D或3D空间中的定位;以及– 单人或多人姿势的估计。本文主要研究从二维静止图像中估计多人二维姿态的特别地，我们不假设提供了人实例的地面实况位置和比例，并且因此需要检测未知数量的姿态，即因此，我们需要实现人体姿态检测。在这个更具挑战性的环境中，被称为以前的方法[1-这些方法分别称为自上而下和自下而上方法。这种最先进的方法在运行时间和准确性方面都显示出有竞争力的结果然而，自上而下的方法的运行时间与人数成比例，使得实时性能成为挑战，而自下而上的方法需要瓶颈部件关联过程，该过程提取部件之间的上下文线索并将部件检测解析为单个人。此外，大多数最先进的技术被设计为预测图像中的逐像素1部分置信图。这些映射迫使卷积神经网络（CNN）提取具有更高分辨率的特征映射，这对于保持鲁棒性和架构的加速（例如，加速）是不可或缺的。缩小体系结构）根据应用而受到干扰。在本文中，为了将人体姿势检测的运行时复杂性与CNN的特征图分辨率解耦并提高性能，我们依赖于最先进的单次对象检测范例，该范例使用相对较小的CNN粗略地提取图像中的网格对象置信度图。我们受益于区域提议（RP）框架2[14二、此外，而不是以前的零件协会设计的像素明智的部分建议，我们的框架直接检测肢体3使用单杆1我们还使用术语2我们使用术语3为了清楚起见，我们将部分对称为肢体，尽管事实上一些对不是人类肢体（例如，面）。姿势提案网络3图二、我们提出的方法的管道。通过将人实例和部分的RP解析成具有肢体检测的个体人来生成姿势提议（参见图1）。§3）。CNN，并通过一个新的，概率贪婪解析步骤，其中考虑到全局上下文，从这样的检测生成姿势建议。部分RP被定义为边界框检测，其大小与人的尺度成比例，并且可以仅使用公共关键点注释进行监督。整个架构由具有相对较低分辨率特征图的单个完全CNN构建，并且直接使用针对姿态检测性能设计的损失函数进行端到端优化;我们称这种体系结构为姿态建议网络（PPN）。2相关工作我们将简要回顾一下单人和多人姿势估计的一些最新进展，以将我们的贡献放在背景中。单人姿态估计。大多数用于单人姿势估计的早期经典方法[18这些方法主要追求结构建模以及单人身体部位及其外观的清晰度在图像中的各种概念下，例如图像结构模型[18，19]，分层模型[22]和非树模型[20，21，23]。由于基于深度学习的模型[24-这些模型专注于强部分检测器，其考虑了大的，详细的空间背景，并在最先进的单人[30-33]和多人背景[1，2，9]中用作基本部分检测器多人姿态估计。自上而下的方法[2-4，7，10，12]的性能取决于人体检测器和姿态估计器;因此，根据这些检测器和估计器的性能，它得到了改进。最近，为了实现效率和更高的鲁棒性，最近的方法倾向于共享卷积编码。4T. 关井K通过引入空间变换器网络[2，34]或RoIAlign [4]，在人体检测器和姿态估计器之间建立层。相反，标准的自下而上的方法[1，6，8，9，11，13]较少依赖于人类检测器，而是通过找到在一致的几何配置中发生的部件检测的组或对来检测姿势。因此，它们不受人类探测器局限性的影响。最近的自下而上方法不仅使用CNN来检测部件，而且还直接从图像中提取部件之间的上下文线索，例如图像条件成对项[6]，部件亲和场（PAF）[1]和关联嵌入（AE）[9]。自顶向下和自底向上方法中的最新方法实现了实时性能。零件方案的“基元”是像素点。然而，我们的方法不同于这样的方法，因为我们的基元是网格式的边界框检测，其中部分尺度信息被编码。我们的简化网格部分提案允许浅层CNN直接检测肢体，每个部分提案最多可以用几十个模式表示。专门为这些检测，贪婪的解析步骤概率重新设计，以编码的全球范围内。因此，我们的方法不需要耗时的逐像素特征提取或解析步骤，并且其总运行时间因此超过了在最先进的方法中观察到的瓶颈运行时间。3方法人体姿态检测通过以下步骤实现。1. 将输入图像的大小调整为CNN的输入大小。2. 运行CNN的前向传播，并获得人实例和部位以及肢体检测的RP3. 对这些RP执行非最大抑制（NMS）。4. 将合并的RP解析为单个人并生成姿势建议。图2描述了我们框架的流水线。§3.1描述了在步骤2和3中使用的人实例和部位的RP检测以及肢体检测。§3.2描述了步骤4。3.1PPNs我们利用YOLO [15，16]，RP框架之一，并将其概念应用于人体姿势检测任务。PPN由单个CNN构建，并为输入图像上的每个检测目标（人实例或每个部分）产生固定大小的RP集合。CNN将输入图像划分为H×W网格，每个网格对应一个图像块，并产生一组RP检测{Bi}k∈K，对于每个网格单元i ∈ G ={1，. . . ，H× W}。这里，K ={0，1，. . . ，K}是检测目标的索引的集合，并且K是部分的数量。表示整个人实例的类（人实例类）的索引由K中的k=0给出。姿势提案网络5KKK图三. 通过PPN进行 RP 和肢体检测。蓝色箭头表示其置信度得分由p （ C ）编码的分支（有向连接|k1，k2，x，x + ∆x）。图4.第一章零件关联定义为二分匹配子问题。匹配被分解并且针对构成肢体（例如，肢体的每对检测目标来求解。，它们分别针对（k0，k1）和（k1，k2）计算。i对两个概率进行编码，同时考虑到边界框和坐标，宽度和边界框的高度，如图所示。3，由下式给出B岛iii ii Σk= p（R|k，i），p（I|R，k，i），ox，k，oy，k，wk，hk、（1）其中R和I是二进制随机变量。这里，p（R|k，i）是表示“负责”k的检测的网格单元i的概率。如果k的地面实况边界框的中心落入网格单元中，则该网格单元“负责”kK. p（I|R，k，i）是表示在i中预测的边界框有多好地拟合k的条件概率，并且由在i中预测的边界框与k之间的交集与并集（IoU）监督。预测了边界Σ框和地面实况边界框。的ix，kiy，k坐标表示边界框相对于的中心网格单元格的边界，其比例由单元格的长度归一化。分别通过图像宽度和高度对Wi和Hi人物实例的边界框可以表示为围绕整个身体或头部的矩形。与以前的逐像素部分检测器不同，在我们的方法中，部分是逐网格检测的，并且框的大小与人的尺度成比例地被监督，例如。上半身长度的五分之一或头节长度的一半。地面实况框监督关于边界框的这些预测。相反，对于位于X处的每个网格单元i，CNN还产生一组肢体检测，{Ck1k2}（k1，k2）∈L，其中L是构成肢体的检测目标的索引对的集合。ck1k2编码一组概率，表示每个肢体的存在，由下式给出Ck1k2={p（C|k1，k2，x，x+∆x）}∆x∈X，（2）其中C是二进制随机变量。 p（C|k1，k2，x，x + ∆x）对肢体的存在进行编码，该肢体表示为从x中预测的k 1的边界框到x + ∆x中预测的k 2的边界框的有向连接，如图所示。3.在这里，我们假设所有的BO，o6T. 关井KKKKKK1K2δKKK1K2x的分支仅到达以x为中心的局部H′×W′区域，并将X定义为从x的有限位移集，其由下式给出X={∆x =（∆x，∆y）||∆x|≤ W ′∧ |∆y|≤ H′}。（三）这里，∆x是相对于x的位置，因此p（C|k1，k2，x，x+Δ x）可以使用CNN在每个网格单元处独立地估计，这要归功于它们的平移不变性的特性。上述预测中的每一个对应于由CNN产生的输出3D张量的深度中的每个通道。最后，CNN输出H×W×{6（K+1）+H′W′|L|滕索河在训练过程中，我们优化了以下多部分损失函数：λ响应ΣΣδi−p（R|k，i）Σ2i∈Gk∈KΣ Σ+λIoUi∈Gk ∈Kδi{（p（I|R，k，i）−p|R，k，i）}2+λΣ Σδi.（oi— oi）2+（oi— oi）2Σcoor。Ki∈Gk ∈Kx，kx，ky，ky，k+λ尺寸ΣΣi∈Gk ∈K. . .iwi−. Σ2wi. .+hi−. Σ2ΣˆiKΣ Σ+λ肢体Σmax（δi、，δj） i、2j−p（C|k1，k2，x，x+∆x），i∈G∆x∈X（k1， k2）∈L（四）其中δi∈ {1，0}是一个变量，指示i是否仅对单个人的k负责，j是位于x + x的网格单元的索引，并且（λresp. ，λIoU，λcoor. ，λsize，λlimb）是每个损失的权重。3.2姿势建议生成概况. 应用标准NMS，使用针对每个检测目标的RP的IoU阈值，我们可以获得固定大小的合并RP子集。然后，在这些RP中包含多个人的真阳性和假阳性两者的情况下，通过在构成肢体的检测目标之间匹配和关联RP来生成姿势建议该解析步骤对应于已知为NP难的K维匹配问题[35]，并且存在许多松弛。在本文中，受[1]的启发，我们引入了两个能够实时生成一致匹配的松弛。首先，选择最少数量的边来获得铰接姿态的生成树骨架，其节点和边分别表示检测目标的合并RP子集和它们之间的肢体检测，而不是使用完整的图。该树由有向边组成，其根节点属于person实例类。其次，将匹配问题进一步分解为一组二分匹配子问题，并独立地确定相邻树节点中的匹配，如图1所示4.第一章Cao等人[1]第一章δHδ姿势提案网络7KKkk12kk12kk12Z=1∧Z=1，证明了这样的最小贪婪推理很好地近似于计算成本的一小部分的全局解，并得出结论，非相邻树节点之间的关系与他们的方法相反，为了使用相对浅的CNN，其感受野较窄，并降低计算成本，我们提出了一种概率，贪婪解析算法，考虑到非相邻树节点之间的关系。置信度得分。给定检测目标的合并RP，我们如下定义用于检测k的第n个RP的置信度得分：Dn= p（R|k，n）p（I|R，k，n）。（五）等式右边的每个概率。（5）由Bi由方程式（一）. n∈N={1，. . . ，N}，其中N是每个检测目标的合并RP的数量。在此外，肢体的置信度得分，即，从在x处预测的k1的第n1个RP到在x+rx处预测的k2的第n2个RP的有向连接通过利用等式（1）来定义（2）如下：En1 n2= p（C|k1，k2，x，x + ∆x）。（六）零件关联。使用成对部件关联得分的部件关联通常可以被定义为针对所有可能连接的集合的最优分配问题。.ΣZ= Zn1 n2|（k1，k2）∈L，n1∈ N1，n2∈ N2、（7）其最大化在所有可能的肢体检测上近似联合概率的置信度分数，YY Y。F=n1n2k1k2ΣZn1n2k 1 k 2.（八）L N 1 N 2这里，Zn1n2是一个二进制变量，表示k1的第n1个RP和k2的第n2个RP是否连通，并满足Σn1n2k1k2N1Σn1n2k1k2N2（九）n1∈ N1，使用等式（9）确保没有多个边共享节点，即RP不连接到不同的多个RP。在该图匹配问题中，图的节点是检测目标的所有合并的RP，边缘是RP之间的所有可能的连接，其构成肢体，并且肢体检测的置信度分数给出边缘的权重我们的目标是在二分图中找到一个匹配，作为以最大权重选择的边的子集。在上述两种松弛的改进部分关联中，使用Person实例作为根部分，并将每个部分的建议分配给PersonE8T. 关井kk12kk01沿着姿态图上的路线的实例建议。为构成肢体的检测目标的每个相应对（k1，k2）定义二分匹配子问题，以便找到k1和k2之间的连接集合的最佳分配，哪里Zk1k2=.Σzn1n2|n1∈ N1，n2∈ N2、（10）{Zk1k2}（k1，k2）∈L = Z.（十一）我们得到最优分配Zk1k2如下：Zk1k2=argmaxFk1k2，（12）zk1k2哪里Fk1k2YY。=N1N 2n1n2k 1k2ΣZn1n2k 1 k 2.（十三）这里，k1的节点比k2的节点更接近图的路线上的人实例的节点，并且.Dn1En 2n 1Dn 2如果k1=0，Sn1n 2=K1k2k1k2（十四）k1k2Sn0n1En2n1Dn2否则，请执行以下操作。k0k 1k 2k 1k 2k0/=k2指示另一检测目标连接到k1。n≠0是k0的RP的指数x，它连接到k1的第n1个RP，并且满足Zn=0n1=1。（十五）该优化使用Eq. （14）需要从连接到人实例的部分计算。我们可以使用匈牙利算法[36]来获得最佳匹配。最后，通过所有的最优分配，我们可以将共享相同RP的连接组装成多个人的全身姿势。等式中的F之间的差异（8）和Fk1k2在等式（8）中。在式（13）中，在使用等式（14）的匹配中考虑从图上的人实例的节点的路线上的RP和肢体检测的置信度分数。（十二）、这导致在解析中在§4中，我们展示了详细的比较结果，证明了我们改进的解析在使用shallow时很好地逼近了全局解决方案CNN。4实验4.1数据集我们在具有挑战性的公共“MPII Human Pose”数据集[37]上评估了我们的方法为了进行公平的比较，我们遵循S姿势提案网络9官方评估协议，并使用公开可用的评估脚本4在[1]中使用的验证集上进行自我比较。首先，“单人”子集，只包含充分分离的人，被用来评估所该子集包含6908人的集合，并且每个人的近似位置和规模是可用的。对于该子集的评估，我们使用标准的其次，为了评估PPN在野外用于人类姿势检测的全部性能，我们使用了这些组取自[11]中概述的测试集。在该子集中，即使每个组占据的区域和每个组中的所有人的平均尺度是可用的，也不提供关于人的数量或个体人的尺度的信息对于该子集的评估，我们使用Pishchulin等人 [11]概述的评估指标，计算部件检测的平均精度（AP）。4.2执行RP的设置。如图2中，人实例的RP和部分的RP分别被定义为以头部和每个部分为中心的方形检测。对于人员实例，这些长度定义为头部段长度的两倍，对于零件，这些长度定义为头部段长度的一半。因此，可从两个给定头部关键点计算所有地面实况框。对于肢体检测，两个头部关键点被定义为连接到人实例，其他连接的定义类似于[1]中的连接。因此，我们认为，|L|设置为15。架构作为基础架构，我们使用18层标准ResNet预训练ImageNet 1000级竞赛数据集[38]。平均池化层和该体系结构中的全连接层被三个附加的新卷积层替换。在此设置中，图像上CNN的输出网格单元大小，在§3.1中描述，对应于32×32px2和（H，W）=（12，12），用于训练中使用的CNN的归一化384×384与以前的像素级部分检测器（通常为4×4px2或8×8）相比，图像上的网格单元尺寸相当大最后添加的卷积层使用线性激活函数，而另一个使用线性添加的层使用以下泄漏整流线性激活：.φ（u）=u如果u>0，0的情况。1、否则（十六）所有添加的层都使用1-px步幅，并且权重都是随机初始化的。添加的层中的第一层使用批量归一化。最后一层以外的附加层的滤波器尺寸和滤波器的数量被设置为3×3和512，4http://human-pose.mpi-inf.mpg.de10T. 关井分别在最后一层中，过滤器大小设置为1×1，并且如§ 3.1中所述，过滤器的数量设置为6（K+1）+H′W′| L|=1311，其中（H′，W′）被设置为（9，9）。K被设置为15，这与[1]中使用的值类似。训练在训练过程中，为了归一化384×384个输入样本，我们首先调整图像的大小，使样本的比例大致相同（w.r.t. 200 px人高度），并根据数据集中提供的中心位置和粗略尺度估计来裁剪或填充图像然后，我们在[-40，40]中随机增加了旋转度，偏移扰动和水平翻转在[0. 35秒2 [5]多人任务和[1. 0，2。[0]对于单人任务。（λresp. ，λIoU，λcoor. ，λ大小），（4）被设置为（0. 25，1，5，5），并且在多人任务中λlimb被设置为0.5，并且在单人任务中λ limb被设置为0。整个网络在多人任务中使用SGD进行260K次迭代，在单人任务中使用SGD进行130K次迭代，批量大小为22，动量为0.9，权重衰减为0.0005。在两个GPU上的260K次迭代大致对应于训练集的422个时期。学习速率l根据迭代次数m线性减小，计算如下：l= 0。007（1− m/260，000）。（十七）使用配备两个GeForce GTX1080Ti卡、3.4 GHz Intel CPU和64 GB RAM的计算机进行培训大约需要1.8天试验. 在我们的方法的测试过程中，调整图像的大小，使目标人群的平均尺度对应于1.43在多人任务和1.3在单人任务。然后，他们被裁剪在目标人群周围。以前方法的准确性取自原始论文或使用他们的公开可用的评估代码。在所有入路（包括基线）的计时期间，使用评价时使用的每种平均分辨率调整图像大小。在上述机器上使用相同的单个GPU卡和深度学习框架（Caffe [39]）报告了每个方法执行最快的批量大小的平均时间。除了CNN的前向传播之外，我们的检测步骤在CPU上运行。4.3人体部位检测我们比较部分检测的PPN与几个，像素明智的部分检测器使用的国家的最先进的方法，在单人和多人的情况下。利用逐像素检测器的预测和PPN的预测分别是给定部分的热图的最大激活位置表1和表2比较了PPN和其他检测器在单人测试集上的PCKh性能和速度，并列出了每种方法中使用的网络的属性。请注意，[6]提出了部分检测器，同时处理多人姿势估计。他们使用与PPN相同的基于ResNet的架构，比我们的深几倍（152层），与我们的不同之处仅在于网络庞大，可以生成像素级的零件提案。我们发现速度姿势提案网络11和FLOP计数（乘加）我们的检测器压倒所有其他的，至少快11倍，即使考虑到它的稍微（百分之几）低PCKh。特别地，PPN实现与使用与我们相同的架构的基于ResNet的部分检测器[6]的PCKh相当的PCKh的事实表明，当探索速度/准确度权衡时，部分RP有效地用作部分基元4.4人体姿态检测表3和表4比较了PPN的完全实现与先前方法在288个测试图像的相同子集（如[11]中）和整个多人测试集上的平均AP（mAP）性能。我们的方法所做的预测的说明可以在图中看到。7.请注意，[1]是使用非官方面具训练的的未标记的人（在图6中报告为w/或w/o掩模），并根据原始论文以百分之几mAP的有利余量排名，并且我们的方法可以通过用50层和101层ResNet替换基础架构来调整。尽管部分检测粗糙，但我们的方法的最深模式（报告为w/ResNet- 101）实现了上身部分的最佳性能。这种快速PPN的总运行时间高达5.6 ms（180 FPS），超过了下文所述的最先进的瓶颈使用CNN和解析步骤的前向传播的运行时间分别为4ms和0.3ms。剩余的运行时间（1.3 ms）主要由部件建议NMS消耗。图5是一个散点图，显示了我们的方法和使用其公开可用的实现或原始论文报告的前3种方法的mAP性能和速度。彩色点线，其中的每一个对应于先前的方法之一，表示总处理中的速度限制，作为除了CNN的前向传播之外的处理的速度，例如CNN特征图的大小调整[1，2，9]，部件的分组[1，9]，以及人体检测中的NMS [2]或部件处理[1，9]（颜色表示每种方法）。这些瓶颈步骤在一定程度上被GPU优化或加速在不损失准确性的情况下改进基础架构将无助于每个最先进的方法超越它们的速度表1. MPII单人测试集上的姿势估计结果。方法架构头肩肘腕髋膝踝PCKh我们ResNet-1897.9 95.3 89.183.5 87.9 82.7 76.288.1SHN [29]自定义98.2 96.3 91.287.1 90.1 87.4 83.690.9DeeperCut [6] ResNet-152 96.8 95.2 89.384.4 88.4 83.4 78.088.5CPM [27]自定义97.7 94.5 88.383.4 87.9 81.9 78.387.9表2. MPII Single-Person测试集上网络的性质。方法PCKh 架构输入大小输出大小FLOPs Num. param参数FPS我们88.1ResNet-18 384×38412× 126G16M388SHN [29]90.9自定义256×25664× 6430G34M19DeeperCut [6] 88.5ResNet-152 344×34443× 4337G66M34CPM [27]87.9自定义368×36846 ×46175G31M912T. 关井图五. MPII多人测试仪上的精度与速度。详情见正文见图6。MPII多人验证集上的精度与速度。限制，而不留下冗余的像素明智或自上而下的策略。同样清楚的是，当所有基于CNN的方法的加速速度达到速度限制时，它们的性能会显著下降我们的方法比现有技术的方法平均快一个数量级以上，并且可以通过上述瓶颈速度限制。此外，为了更详细地将我们的方法与最先进的方法进行比较，我们基于其公开可用的评估代码复制了最先进的自底向上方法[1]，并通过调整多级卷积的数量来加速它表3. MPII多人测试集上的288个图像的子集的姿势估计结果。方法头肩肘腕髋膝踝U.Body L.Body 地图使用ResNet-1894.091.680.768.1 75.0 65.561.383.667.876.6我们的产品，带ResNet-5095.692.582.473.6 76.2 71.164.186.071.579.4我们的带有ResNet-10195.292.283.273.8 74.8 71.363.486.171.379.1艺术轨迹[5]92.291.380.871.4 79.1 72.667.883.973.279.3法国空军[1]92.991.382.372.6 76.0 70.966.884.872.279.0RMPE [2]89.488.581.075.4 73.7 75.466.583.673.578.6DeeperCut [6]92.188.576.467.8 73.6 68.762.381.268.975.6不良事件[9]91.587.275.965.4 72.2 67.062.180.067.974.5表4. 整个MPII多人测试集的姿势估计结果。方法头肩肘腕髋膝踝U.Body L.Body 地图使用ResNet-1893.289.074.962.4 72.2 62.655.479.963.672.8我们的产品，带ResNet-5093.790.178.068.0 74.9 67.259.382.567.575.9我们的带有ResNet-10193.990.279.068.7 74.8 68.760.583.068.676.6不良事件[9]92.189.378.969.8 76.2 71.664.782.571.377.5RMPE [2]88.486.578.670.4 74.4 73.065.881.071.876.7法国空军[1]91.287.677.766.8 75.4 68.961.780.868.775.6艺术轨迹[5]88.887.075.964.9 74.2 68.860.579.267.974.3KLj*r [8]89.885.271.859.6 71.1 63.053.576.662.470.6DeeperCut [6]89.484.570.459.3 68.9 62.754.675.962.470.0姿势提案网络13见图7。基于ResNet-18的PPN对MPII测试图像的定性姿态估计结果。和规模搜索。图图6是散点图，其可视化了我们的方法和[1]中提出的方法两者的mAP性能和总的来说，我们观察到我们的方法平均实现了更快，更准确的预测。与以前的方法的上述比较表明，我们的方法可以最大限度地减少整个算法的计算成本时，探索速度/精度的权衡。表5列出了我们的方法的几个不同版本的mAP性能。首先，当p（I|R，k，i）在等式在我们的方法中忽略未被逐像素部分检测器估计的（即，，当p（I|R，k，i）被1）替换，并且当我们的NMS遵循先前的逐像素方案时，该方案找到部分confi上的最大值。dence地图（报告为w/o比例），性能从完全实现（报告为Full. ）.这表明，速度/精度的权衡是通过额外的信息，从零件的建议是边界框的事实获得的零件比例得到第二，当在部件关联中仅考虑局部上下文时（报告为w/oglo b. ），i. e. ，Sn0n1被Dn1取代，k0k 1k 1表5. 在MPII多人验证集上对所提出的方法的不同版本进行定量比较。方法架构头肩肘腕髋膝踝地图满了92.8 90.7 78.866.9 77.0 63.5 58.475.5无标度ResNet-1888.6 88.0 75.664.6 74.2 60.8 55.372.4无团块91.8 90.1 77.763.9 76.7 61.5 51.773.3满了93.8 91.9 81.471.5 77.6 69.8 60.378.1无标度ResNet-5091.1 89.4 79.468.9 75.8 67.1 59.775.9无团块93.3 92.2 81.469.7 77.8 70.2 58.177.5满了93.4 91.2 81.872.2 78.8 70.5 62.978.7无标度ResNet-101 91.6 90.0 80.170.4 78.5 68.8 62.977.5无团块93.2 91.6 81.871.0 79.6 70.5 61.478.414T. 关井(a)（b）（c）（d）见图8。常见故障案例：（a）罕见的姿势或外观，（b）错误的部件检测，（c）拥挤场景中的丢失部件检测，以及（d）将来自两个人的部件相关联的错误连接。当量（14）、我们最浅的架构的表现，即，ResNet-18，比最深的一个，即，进一步恶化。，ResNet-101（−2. 2%对-0。3%）。这表明我们的上下文感知解析对浅层CNN有效。4.5限制我们的方法可以为每个网格单元的每个检测目标预测一个RP，并且因此这种空间约束限制了我们的模型可以在每个网格单元内预测的附近人的数量这导致我们的方法在人群中挣扎，例如拥挤的场景，如图所示。8（c）。具体来说，我们观察到我们的方法在“COCO”数据集[40]上表现不佳，该数据集包含大规模的变化，尽管这个问题的解决方案是扩大CNN的输入大小，但这反过来会导致速度/准确性权衡降级，具体取决于其应用。5结论我们提出了一种方法来检测人，同时估计他们的2D articulated姿态从一个2D静止图像。我们的主要创新，以提高速度/准确性的权衡是引入一个国家的最先进的单次拍摄对象检测范例的自下而上的姿势检测的情况下，并表示部分建议作为RP。此外，肢体直接用CNN检测，并且贪婪解析步骤被概率性地重新设计用于这样的检测以编码全局上下文。MPII人体姿势数据集上的实验结果证实，我们的方法具有与最先进的自下而上方法相当的准确性，并且速度更快，同时提供了端到端的训练框架5。在未来的研究中，为了提高粗糙网格预测所造成的空间约束的性能，我们计划探索一种算法，以协调从最先进的体系结构中获得的高层次和低层次的功能，在零件检测和零件关联。5有关补充材料和视频，请访问：http://taikisekii.com姿势提案网络15引用1. Cao，Z.，Simon，T. Wei，S.E.，Sheikh，Y.：利用局部仿射场的实时多人2D姿态估计。在：CVPR中。（2017年）2. Fang，H.S.，Xie，S.，Tai Y.W. Lu，C.：RMPE：区域多人姿势估计。In：ICCV.（2017年）3. Gkioxari，G.，Hariharan，B.，格尔希克河Malik，J.：使用k-poselets来检测人并定位他们的关键点。在：CVPR中。（2014年）4. 他，K.，Gkioxari，G.，Dolla'r，P.，Girshick，R.：面罩R-CNN。在：ICCV.（2017年）5. Insafutdinov，E.，Andriluka，M.，Pishchulin，L.唐，S.，Levinkov，E.，Andres，B.，Schiele，B.：ArtTrack：野外多人追踪系统。在：CVPR中。（2017年）6. Insafutdinov ， E. ， Pishchulin ， L. Andres ， B. ， Andriluka ， M. ， Schiele ， B. ：DeeperCut：更深、更强、更快的多人姿势估计模型。In：ECCV. （2016年）7. 伊克巴尔，美国，Gall，J.：利用局部关节-人关联的多人姿态估计。在：ECCV研讨会，人群理解。（2016年）8. Levinkov，E.，Uhrig，J.，唐，S.，Omran，M.，Insafutdinov，E.，Kirillov，A.，Rother，C.，Brox，T.，Schiele，B.，Andres，B.：联合图分解和节点标记：问题、算法、应用程序。在：CVPR中。（2017年）9. Newell，A.，黄志，Deng，J.：关联嵌入：用于联合检测和分组的端到端学习。在：NIPS。（2017年）10. 帕潘德里欧，G.，Zhu，T.，金泽县Toshev，A. Tompson，J.布雷格勒角Murphy，K.：在野外进行精确的多人姿态估计。在：CVPR中。（2017年）11. Pishchulin，L.Insafutdinov，E.，唐，S.，Andres，B.，Andriluka，M.，Gehler，P.Schiele，B.：DeepCut：联合子集分割和标记用于多人姿势估计。在：CVPR中。（2016年）12. Pi s hchulin，L.，Jain，A.，Andriluka，M.， Thor méhlen，T.，Schiele，B.：铰接人检测和姿态估计：重塑未来。在：CVPR中。（2012年）13. Varadarajan，S.，Datta，P.，Tickoo，O.：一种用于实时多人2D姿态估计的贪婪部分分配算法。arXiv预印本arXiv：1708.09182（2017）14. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD：单次触发多盒探测器。In：ECCV. （2016年）15. Redmon，J.，Divvala，S.，格尔希克河Farhadi，A.：你只看一次：统一的实时物体检测。在：CVPR中。（2016年）16. Redmon，J.，Farhadi，A.：YOLO9000：更好、更快、更强。在：CVPR中。（2017年）17. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。PAMI39（6）（2017）18. Andriluka，M.，Roth，S.，Schiele，B.：图像结构再访：人的检测和识别关节姿态估计。在：CVPR中。（二零零九年）19. Felzenszwalb，P.F.，Huttenlocher，D.P.：用于物体识别的图形结构IJCV第六十一条第一款（2005年）20. 兰，X.，Huttenlocher，D.P.：超越树木：用于2D人体姿势恢复的公因子模型。In：ICCV. （2005年）21. 锡加尔湖布莱克，M.J.：局部测量，全局推理：遮挡敏感的关节姿势估计。在：CVPR中。（2006年）22. 田，Y.，Zitnick，C.L.，Narasimhan，S.G.：探索人体姿态估计的混合模型的空间层次In：ECCV. （2012年）23. 王玉，Mori，G.：人体姿态估计中用于遮挡和空间约束的多树模型In：ECCV.（2008年）24. 陈旭，Yuille，A.L.：通过具有图像相关成对关系的图形模型的铰接姿态估计在：NIPS。（2014年）16T. 关井25. Toshev，A. Szegedy，C.：DeepPose：通过深度神经网络进行人体姿势估计。在：CVPR中。（2014年）26. Tompson，J. Jain，A.，LeCun，Y.，Bregler，C.：用于人体姿势估计的卷积网络和图形模型的联合训练在：NIPS。（2014年）27. Wei，S.E.，Ramakrishna，V.，Kanade，T.，Sheikh，Y.：卷积姿势机器。在：CVPR中。（2016年）28. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：CVPR中。（2016年）29. Newell，A.，杨，K.，Deng，J.：用于人体姿态估计的堆叠沙漏网络。In：ECCV.（2016年）30. Bulat，A.，Tzimiropoulos，G.：通过卷积部分热图回归的人体姿态估计In：ECCV.（2016年）31. 陈玉，Shen，C.，Wei X.S.刘，L.，Yang，J.：对抗性PoseNet：用于人体姿势估计的结构感知卷积网络。In：ICCV. （2017年）32. Chu，X.，杨伟，欧阳，W.马，C.，尤伊尔，A.L.，Wang，X.：人体姿态估计的多上下文注意在：CVPR中。（2017年）33. 杨伟，Li，S.，欧阳，W. Li，H.，Wang，X.：用于人体姿势估计的学习特征金字塔。In：ICCV. （2017年）34. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络。在：NIPS。（2015年）35. West，D.B.：图论导论图理论系列的特色标题02 The Dog（2001）36. 库恩，H.W.：指派问题的匈牙利方法。海军后勤研究季刊（1955）37. Andriluka，M.，Pishchulin，L. Gehler，P. Schiele，B.：2D人体姿态估计：新的基准和最先进的分析。在：CVPR中。（2014年）38. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。IJCV115（3）（2015）39. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河Guadarrama，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构。In：MM，ACM.（201

下载后可阅读完整内容，剩余1页未读，立即下载