多人姿态估计方法及其在COCO数据集上的结果

175 浏览量更新于2023-10-15 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4903野外多人精确姿态估计George Papandreou，Tyler Zhu，Nori Kanazawa，AlexanderToshev，Jonathan Tompson，Chris Bregler，Kevin Murphy谷歌公司[gpapan，tylerzhu，kanazawa，toshev，tompson，bregler，kpmurphy]@google.com摘要我们提出了一种用于多人检测和2- D姿态估计的方法，该方法在具有挑战性的COCO关键点任务上取得了最先进的结果。这是一个简单但强大的自上而下的方法，包括两个阶段。在第一阶段，我们预测可能包含人的盒子的位置和规模;为此，我们使用更快的RCNN检测器。在第二阶段中，我们估计可能包含在每个建议的边界框中的人的关键点。对于每个关键点类型，我们使用完全卷积的ResNet预测密集的热图和偏移。为了结合这些输出，我们引入了一种新的聚集过程，以获得高度本地化的关键点预测。我们还使用一种新形式的基于关键点的非最大值抑制（ NMS ），而不是粗糙的框级NMS，以及一种新形式的基于关键点的置信度分数估计，而不是框级评分。仅在COCO数据上训练，我们最终的系统达到了0.649在COCO测试开发集和0。643套测试标准，超过了2016年COCO关键点挑战赛的获胜者和其他最近的州-此外，通过使用附加的内部标记数据，我们获得了甚至更高的平均精度0。685在测试开发集和0。673的测试标准集，超过5%的绝对改善相比，以前的最佳性能的方法在相同的数据集。1. 介绍对人的视觉解读在寻求全面的图像理解方面起着核心作用我们希望将人们本地化，了解他们参与的活动，了解人们如何为虚拟/增强现实的目的而移动，并向他们学习以教授自动化系统。实现这些目标的一个主要基石是人体姿态估计的问题，其被定义为手臂、腿上的人体关节以及躯干和面部上的关键点的2-D定位最近，在这方面问题，主要是通过利用在大型标记数据集上训练的深度卷积神经网络（CNN）[45，27，44，10，33，2，7，6，20，25，8]。然而，大多数先前的工作都集中在预测单个人的姿势的更简单的设置上，假设以地面实况边界框或躯干关键点位置的形式提供个人的位置和尺度，如在流行的MPII [2]和FLIC [40]数据集中那样。在本文中，我们解决了更具挑战性的设置姿态检测“在野外”，其中我们没有提供地面实况位置或规模的人的立场。这是困难的，因为它结合了人检测的问题与姿势估计的问题。在拥挤的场景中，人们彼此靠近，可能很难解决确定哪个身体部位属于哪个人的关联问题。最近发布的COCO人物关键点检测数据集和相关的挑战[31]提供了一个很好的工具来鼓励研究，建立指标，并衡量这项任务的进展它扩展了COCO数据集[32]每个图像中的每个中型和大型人具有17个关键点（12个身体关节和5个面部标志）的附加注释。数据集中的大量人员仅部分可见。COCO关键点任务中的地面实况和预测姿态之间的匹配程度是根据对象关键点相似性（OKS）来测量的，其范围从0（差匹配）到1（完美匹配）。在基准中的组合的人检测和姿势估计系统的整体质量是测量的OKS引起的平均精度（AP）度量方面。在本文中，我们描述了一个系统，实现国家的最先进的成果，这一具有挑战性的任务。存在两种用于解决多人姿态估计问题的广泛方法：自下而上，其中关键点建议被一起分组为人实例，以及自上而下，其中姿态估计器被应用于边界框人检测器的输出。最近的工作[35，25，8，24]提倡自下而上的方法;在他们的实验中，他们提出的自下而上的方法比他们所比较的自上而下的基线更有效。4904相比之下，在这项工作中，我们重新审视了自上而下的方法，并表明它可以令人惊讶的有效。拟议的系统是一个两阶段的管道与国家的最先进的组成部分仔细适应我们的任务。在第一阶段，我们预测的位置和规模的箱子可能包含的人。为此，我们在ResNet-101CNN [22]之上使用Faster- RCNN方法[37]，如[23]所实现的。在第二阶段，我们预测每个建议的人框的每个关键点的位置。为此，我们使用以完全卷积方式应用的ResNet [22]来预测每个关键点的激活热图和偏移，类似于 Pishchulin 等人的工作 [35] Insafutdinov etal.[25]，然后使用一种新形式的热图偏移聚集来结合他们的预测。我们避免重复的姿态检测，通过一种新的基于关键点的非最大值抑制（NMS）机制直接建立在OKS度量（我们称之为OKS-NMS），而不是粗糙的盒子级IOU NMS。我们还提出了一种新的基于关键点的置信度分数估计器，与使用Faster-RCNN框分数对我们的最终姿势提案进行排名相比，我们发现该估计器大大改善了AP。本文描述的系统是我们COCO 2016关键点检测挑战赛G-RMI参赛作品的改进版本。仅使用公开可用的数据进行训练，我们最终的系统达到了0的平均精度。COCO测试开发集上的649和0。643在COCO测试标准集上，表现优于2016年COCO关键点挑战赛的获胜者[8]，后者获得0。618在测试开发和0。611的测试标准，以及最近的Mask-RCNN [21]方法，其得到0。631在测试开发使用额外的内部标记数据，我们获得了更高的平均精度0。685在测试开发集和0。673的测试标准集上，超过5%的绝对性能提高比以前最好的方法。这些结果是通过单尺度评估和使用单个CNN获得的。盒子检测和用于姿态估计的单个CNN多尺度评估和CNN模型集成可能会带来更大的收益。在本文的其余部分，我们讨论了相关的工作，然后更详细地描述我们的方法。然后，我们进行了实验研究，比较我们的系统最近的国家的最先进的，我们测量的影响，我们的系统的不同部分对AP度量。2. 相关工作在其历史的大部分时间里，人类姿势估计的研究在很大程度上基于基于部件模型的思想，如Fischler和Elschlager 的图像结构（ PS ）模型所开创的 [16] 。Felzenswalb等人提出的可变形零件模型（DeformablePart Model，简称DEPM）是基于这一思想的最早实用且性能良好的方法之一。[15]，这激发了大量的工作概率图-用于2-D人体姿势推断的标准模型[3，12，39，47，11、28、34、40、18]。这些方法中的大多数专注于为高度清晰的模型开发易于处理的推理程序，同时捕获身体部位和属性之间的丰富依赖性。随着深度卷积神经网络（CNN）用于视觉任务的发展，使用CNN实现了姿势估计的最新性能[45，27，44，10，33，2，7，6，20，25，8]。问题可以用公式表示为回归任务，如Toshev和Szegedy [45]所做的那样，使用检测器级联从裁剪的输入补丁进行自上而下的姿态细化。或者，Jain et al.[27]在图像块上训练CNN，在推理时卷积应用，以独立地推断每个关键点的热图（或活动图）。此外，他们还使用了一个在这项工作之后，Tompson et al.[44]使用在整个图像（而不是图像作物）上训练的多尺度全卷积架构来推断热图潜力，并且他们重新制定了[27]的图形模型-将树结构简化为星形图并重写置信传播消息-以便整个系统可以端到端地训练。Chen等人。[10]添加了图像相关的先验来提高CNN的性能。通过学习低维图像表示，他们将输入图像聚类为每对连续关节的混合配置取决于对于给定输入图像哪个混合物是活跃的，单独的成对位移先验被用于图形模型推断，导致更强的成对先验和改进的整体性能。Bulat等人[7]使用级联网络来显式地推断部件关系以提高关节间的一致性，作者声称这有效地编码了部件约束和关节间上下文。类似地，Belagiannis Zisserman[6]还提出了一种级联架构来推断成对的联合（或部分）位置，然后用于迭代地细化一元联合预测，与[7]不同的是，他们提出了使用递归神经网络的迭代细化。受序列到序列建模中最近工作的启发，Gkioxari etal.[20]提出了一种新颖的网络结构，其中，按照传统的前馈网络，身体部位位置被顺序地而不是独立地预测。身体部位的位置取决于输入的图像和所有其他预测部位，从而产生一个模型，该模型促进顺序推理并学习复杂的关节间关系。MPII人体姿势[2]和FLIC [40]数据集上单人姿势的最先进方法是Newell等人的CNN模型。[33 ]第33段。他们提出了一种新的CNN架构，该架构使用跳过连接来促进多尺度特征学习，以及重复池化。4905上采样（他们声称，他们的网络能够更有效地学习与身体相关的各种空间关系，即使是在大像素位移的情况下，并且具有少量的总网络参数。自上而下的多人姿态多人姿态估计的问题提出了不同的挑战，上述工作没有解决。大多数多人姿态检测方法的目标是关联人体部位检测人的实例。建立这些关联的自上而下的方式，这是最接近我们的方法，是首先执行人检测，然后进行姿势估计。例如，Pishchulin et al.[36]通过使用基于PS的姿态估计来遵循该范例。Gkioxari等人使用了一种对遮挡更鲁棒的检测器，该检测器在Possible之后建模。[19 ]第10段。此外，Yang和Ramanan [47]通过使用PS模型将检测和姿势融合在一个模型中。推断过程允许类似于基于PS的对象检测的每个图像的多个个体实例的姿态估计。Eichner和Ferrari [13]提出了一种具有额外显式遮挡建模的最近的Mask-RCNN方法[21]扩展了Faster- RCNN [37]，也支持关键点估计，获得了非常有竞争力的结果。在相关的说明中，2-D人员检测被用作几个3D姿态估计工作的第一步[41，4，5]。自下而上的多人姿势不同的工作路线是检测身体部位而不是完整的人，并且随后将这些部位与人类实例相关联，从而以自下而上的方式执行姿势估计。这样的ap-这些方法使用部分检测器，并且在如何表达部分之间的关联以及用于获得到人实例中的完整部分分组Pishchulin等人[35]后来，Insafutdinov et al.[25，24]通过线性规划将姿态估计的问题公式化为部分分组和标记。Iqbal等人提出了类似的公式。[26]第10段。一个概率的方法，部分分组和标签也提出了Ladicky等人。[29]，利用基于HOG的系统进行零件检测。Cao等人[8]赢得了2016年COCO人物关键点挑战赛[32]的参赛资格，将[46]的一元联合检测器架构的变体与部分亲和场回归相结合，以加强联合间的一致性。他们采用贪婪算法以自下而上的方式生成人员实例提案他们的最佳结果是在一个额外的自上而下的细化过程中获得的，在这个过程中，他们对自下而上阶段生成的人物实例框提案运行标准的单人姿势估计器[463. 方法我们的多人姿态估计系统是一个两步级联，如图1所示。(1) 人物检测+裁剪（2）姿态估计图1：我们的两级级联模型概述。在第一阶段，我们使用Faster-RCNN人物检测器在每个候选人实例周围生成一个边界框。在第二阶段，我们将姿态估计器应用于在每个候选人实例周围提取的图像裁剪，以便定位其关键点并重新评分相应的建议。我们的方法受到了最近最先进的对象检测系统的启发，例如[17，43]，该系统以类不可知的方式提出对象作为第一阶段，并在第二阶段中改进其标签和位置。我们可以把我们的方法的第一阶段看作是一个建议机制，但是只有一种类型的对象我们的第二阶段作为一个改进，我们（i）超越边界框并预测关键点，（ii）基于估计的关键点重新对检测进行为了提高计算效率，我们只将得分高于0.3的人框检测提案转发到第二阶段，导致平均每张图像只有3.5个在下文中，我们更详细地描述了我们的系统的两个阶段。3.1. 人员框检测我们的人检测器是Faster-RCNN系统[37]。在本文报告的所有实验中，我们使用ResNet-101网络主干[22]，通过 atrous 卷积 [9 ， 30] 进行修改，我们还使用Inception-ResNet CNN主干进行了实验[42]，这是一种将Inception层[43]与剩余连接[22]集成在一起的架构，它以增加计算为代价，性能稍CNN骨干已经过预训练，用于Imagenet上的图像分类在所有报告的实验中，Faster-RCNN检测器的区域建议和框分类器组件都只使用COCO数据集中的人分类进行训练我们使用在Tensor-flow [1]中编写的[23]的Faster-RCNN实现为了简单和便于再现，我们不使用多尺度评估或模型集成4906在Faster-RCNN人框检测阶段。使用这样的增强可以进一步改善我们的结果显着增加计算时间的成本。3.2. 人物姿态估计我们系统的姿态估计组件预测所有K=17个人物关键点的位置，给定第一阶段提供的每个人物边界框提案。一种方法是每个关键点使用单个回归量，如[45]所示，但当图像块中有多个人时（在这种情况下，关键点可能出现在多个地方），这是有问题的。解决这个问题的另一种方法是预测激活图，如[27]所示，它允许对同一关键点进行多个预测然而，激活图的大小以及因此定位精度受到网络的输出特征图的大小的限制，由于使用了具有抽取的最大池化，因此输出特征图的大小为了解决上述局限性，我们采用了分类和回归相结合的方法。对于每个空间位置，我们首先分类它是否在K个关键点中的每一个的附近（我们称之为“热图”），然后预测2-D局部偏移向量以获得对应关键点位置的更精确估计。请注意，这种方法的灵感来自于对象检测方面的工作，其中类似的设置用于预测边界框，例如，[14，37]。图2显示了每个关键点的这三个输出通道。257像素。我们将纵横比设置为353/257 = 1。三十七使用CNN进行热图和偏移预测我们以完全卷积的方式在裁剪的图像上应用具有101层[22]的ResNet，以生成热图（每个关键点一个通道）和偏移（x和y方向每个关键点两个通道），总共有3·K个输出通道，其中K=17是关键点的数量我们初始化模型从公开可用的Imagenet预训练的ResNet-101[22]的模型，用具有3·K输出的1x1卷积替换其最后一层。我们遵循[9]的方法：我们采用atrous卷积生成3·K预测，输出步长为8像素，双线性上采样353x257的裁剪尺寸。更详细地，给定图像裁剪，如果第k个关键点位于位置xi处，则令fk（xi）= 1，否则为0。这里k ∈{1，. . . ，K}索引关键点类型，并且i ∈{1，. . . ..图像裁剪网格。训练CNN直接产生很难在精细分辨率空间网格上高度局部化激活fk（理想地，δ函数）相反，我们将问题分解为两个阶段。首先，对于每个位置xi和每个关键点k，我们计算概率hk（xi）= 1，如果||xi− lk||点xi在距离第k个关键点的位置lk的半径为R的圆盘内。我们生成K个这样的热图，求解一个每个位置和关键点的二元分类问题除了热图之外，我们还在每个位置i和每个关键点k处预测从像素到对应关键点的2-D 偏移向量Fk（xi）=lk−xi我们生成K个这样的向量场，解决一个二维回归每个位置和关键点独立的问题在生成热图和偏移量之后，我们将它们聚合以生成高度局部化的激活图fk（xi），如下所示：Σfk（xi）=J1πR2G（xj+Fk（xj）−xi）hk（xj），（1）图2：网络目标输出。左中：左肘部关键点的热图目标（红色表示热图为1）。右：偏移场L2幅度（以灰度显示）和2-D偏移矢量（以红色显示）。图像裁剪我们首先通过扩展由人检测器返回的框的高度或宽度来使所有框具有相同的固定宽高比，而不会扭曲图像的宽高比。之后，我们进一步放大框，以包含额外的图像上下文：我们在评估期间使用等于1.25的重新缩放因子，并且在训练期间使用1.0和1.5之间的随机重新缩放因子（用于数据扩充）。然后，我们从生成的框中裁剪图像，并将大小调整为高度353和宽度的固定裁剪其中G（·）是双线性插值核。这是Hough投票的一种形式：图像裁剪网格中的每个点j用其对每个键的位置的估计来投票。点，其中投票由其在对应关键点的影响盘中的概率加权归一化因子等于圆盘的面积，并确保如果热图和偏移是完美的，则fk（xi）将是以第k个关键点的位置为中心的单位质量增量函数该过程在图3中示出。我们看到，预测单独的热图和偏移通道，并通过提议的投票过程将它们融合成高度局部化的激活图，这些激活图精确地定位了关键点的位置。4907热图偏移融合激活标测图模型训练中的一个重要考虑因素是如何在计算热图损失时处理图像裁剪中存在多个人的情况。当计算中间层的热图损失时，我们排除了背景人物关键点周围磁盘内的当计算最后一层的热图损失时，我们只将前景人物关键点周围的圆盘视为阳性，而将其他所有事物视为阴性，从而迫使模型正确预测框中心人物的关键点。在测试时，我们将模型应用于每个图像裁剪。而不是仅仅依赖于从人检测器的信心，我们计算一个细化的信心估计，图3：我们的全卷积网络预测了两个目标：（1）每个关键点周围的三角形热图，(2) 偏移场的幅度朝向盘内的精确关键点位置将它们聚集在一个加权的mate，它考虑到每个关键点的置信度。特别是，我们最大化了关键点的位置和平均值，得到了最终的实例级姿态检测分数：投票过程导致高度局部化的激活图。该图显示了热图和逐点magni，评分（I）=1ΣKmaxfk（xi）（4）验证图像上偏移字段的形状。请注意，在此插图中，我们叠加了来自不同关键点的通道。模型训练我们使用带有两个卷积输出头的单个ResNet模型。第一个头的输出通过sigmoid函数来产生每个位置xi和每个关键点的热图概率hk（xiK. 训练目标hk（xi）是一个0和1的映射其中h<$k（xi）=1，如果||xi−lk||≤R，否则为0。相应的损失函数L h（θ）是Logistic每个位置和关键点的损失分别。为-加速训练，我们遵循[25]并在ResNet的中间层50添加一个额外的热图预测层，这有助于相应的辅助损失项。为了训练偏移回归头，我们惩罚预测偏移和地面实况偏移之间的差异。相应的损失是Kk=1xi我们发现，与使用Faster-RCNN框检测器提供的分数相比，使用4对系统的姿态估计建议进行排名基于OKS的非最大抑制遵循标准实践，我们使用非最大抑制（NMS）来消除个人检测器阶段的多个检测。标准的方法是使用方框的相交于并集（IoU）来测量重叠。我们提出了一个更精细的变体，它考虑到了关键点。特别是，我们使用对象关键点相似性（OKS）来测量两个候选姿势检测的重叠。典型地，我们在人框检测器的输出处使用相对高的IOU-NMS阈值（在我们的实验中为0.6）来过滤高度重叠的框。姿态估计器输出端的更微妙的OKS-NMS更适合于确定两个候选检测是否对应于错误位置。ΣLo（θ）=ΣH（||Fk（xi）−（lk−xi）||）、（2）检测（同一个人的双重检测）或者是真阳性（两个人彼此非常接近）。k =1：Ki：||lk−xi||≤R其中H（u）是Huber鲁棒损失，lk是第k个关键点的位置，并且我们仅计算每个关键点的半径为R的圆盘内的位置xi的损失[37]。最终损失函数的形式为L（θ）=λhLh（θ）+λoLo（θ），（3）其中λh=4且λo=1是用于平衡损失函数项的标量因子。我们在一个小批量中对所有图像的损失求和，然后应用随机梯度下降。4. 实验评价4.1. 实验装置我们已经在Tensorflow [1]中实现了这个系统我们在几台配备Tesla K40 GPU的机器上使用分布式训练。对于人员检测器训练，我们使用9个GPU。我们使用异步SGD进行优化，动量设置为0。9 .第九条。学习率从0开始。0003，并且在800K步阶处减小因子10。我们训练1M步。CNN4908图4：使用我们的系统从COCO测试开发集中随机选择的检测和姿态估计结果。对于每个检测到的人，我们显示检测到的边界框以及估计的关键点。一个人的所有检测都以相同的方式着色。值得注意的是，我们的系统在严重混乱的场景中工作（第三排，最右边和最后一排，右）;它很好地处理了闭塞（最后一行，左）和幻觉闭塞关节。最后但并非最不重要的是，一些假阳性检测实际上是正确的，因为它们表示人（第一排，中间）或玩具（第四排，中间）的图片。在监视器上放大的最佳视图。4909表1：COCO关键点测试-开发分离的性能。APAP.5AP.75AP（M）AP（L）ARAR.5AR.75AR（M）AR（L）[8]第八话0.6180.8490.6750.5710.6820.6650.8720.7180.6060.746Mask-RCNN [21]0.6310.8730.6870.5780.714G-RMI（我们的）：仅COCO0.6490.8550.7130.6230.7000.6970.8870.7550.6440.771G-RMI（我们的）：COCO+int0.6850.8710.7550.6580.7330.7330.9010.7950.6810.804表2：COCO关键点测试-标准分割的性能APAP.5AP.75AP（M）AP（L）ARAR.5AR.75AR（M）AR（L）[8]第八话0.6110.8440.6670.5580.6840.6650.8720.7180.6020.749G-RMI（我们的）：仅COCO0.6430.8460.7040.6140.6960.6980.8850.7550.6440.771G-RMI（我们的）：COCO+int0.6730.8540.7350.6420.7260.7300.8980.7890.6750.805对于姿态估计器训练，我们使用两台机器，每台机器配备8个GPU，批量大小等于24（每个GPU 3个作物乘以8个GPU）。我们使用固定的学习率0。005和Polyak-Ruppert参数平均，这相当于在评估期间使用训练期间参数的运行平均值我们训练80万步。我们所有的网络都是在Imagenet分类数据集上预先训练的[38]。为了训练我们的系统，我们使用两个数据集变量;一个只使用COCO数据（COCO- only），另一个从内部数据集（COCO+int）添加到该数据集。对于仅COCO数据集，我们使用COCO关键点注释[32]：从COCO训练+val分割中的66，808张图像（273，469人实例）中，我们在仅COCO模型训练中使用62，174张图像（105，698人实例），并使用剩余的4，301张注释图像作为minival评估集。我们的COCO+int训练集是仅COCO与从Flickr随机选择的额外73，024张图像这个内部数据集包含额外的227，029个人实例，这些人实例遵循与Lin等人描述的程序类似的程序，并使用关键点进行注释。[31 ]第30段。额外的训练图像已经过验证，与COCO训练、验证或测试集没有重叠。我们已经专门在COCO数据集上训练了Faster-RCNN人框检测模块。我们已经在仅 COCO 或增强的COCO+int数据集上试验了基于ResNet的姿态估计模块，并给出了两者的结果。对于COCO+intpose训练，我们使用包含COCO和内部注释实例的mini-batches，比例为1：1。4.2. COCO Keypoints检测最新技术表 1 显示了我们的系统在仅 COCO 上训练或在COCO+int数据集上训练的COCO关键点测试-开发分离性能随机选择的测试开发推断样本如图4所示。表2显示了我们的模型的COCO关键点测试标准分割结果，其中姿态估计器在仅COCO或COCO+int训练集上训练。即使仅使用COCO培训，我们也在COCO测试开发和测试标准分割方面取得了最先进的结果，优于COCO 2016挑战赛获奖CMU- Pose团队[8]和最近的Mask-RCNN 方法 [21] 。我们的最佳结果是使用COCO+int数据训练的姿势估计器实现的，测试标准的AP得分为0.673，比CMU-Pose的0.611测试标准得分绝对提高了6.2%[8]。4.3. 消融术研究：箱子检测模块我们的两阶段系统的一个重要问题是它的灵敏度，其盒检测和姿态估计组成模块的质量。我们研究了基于ResNet-101的Faster-RCNN人框检测器的两种变体，(a)使用具有小边600像素和大边900像素的输入图像的快速600 × 900变体，以及（b）使用具有小边800像素和大边1200像素的输入图像的精确800 × 1200变体他们在我们的COCO person微型阀上的盒子检测AP分别为0.466和0.500。它们在COCOtest-dev上的盒检测AP分别为0.456和0.487。作为参考，[23]的表现最好的多裁剪/集合条目的COCO测试开发上的人框检测AP为0.539。我们还尝试向我们的姿势估计器模块提供地面真实人物框，以检查其与框检测模块隔离的oracle性能限制我们在表3中报告了我们的COCOminival结果，用于在仅COCO或COCO+int上训练的姿态估计器。我们使用准确的Faster-RCNN（800 x1200）盒检测器来处理本文其余部分的所有结果。4.4. 消融研究：姿势估计模块我们已经为我们的姿势估计模块试验了替代CNN设置。我们已经基于更快的ResNet-50或更准确的ResNet-101探索了CNN网络主干我们还尝试了两种尺寸的图像裁剪，作为姿态估计器的输入4910表3：盒检测模块上的消融：当使用在仅COCO或地面实况盒上训练的替代盒检测模块时，COCO关键点微型值上的性能我们使用默认的ResNet-101姿势估计模块，在COCO上训练或COCO+int。我们用星号标记我们在所有其他实验中使用的默认框检测模块盒模块波塞列车APAP.5AP.75AP（M）AP（L）ARAR.5AR.75AR（M）AR（L）Faster-RCNN（600x900）仅COCO0.6570.8310.7210.6170.7250.6990.8560.7540.6340.788Faster-RCNN（800x1200）仅COCO0.6670.8510.7300.6330.7260.7080.8740.7630.6520.786地面实况框仅COCO0.7040.9040.7710.6840.7460.7360.9110.7940.6930.796Faster-RCNN（600x900）COCO+int0.6930.8540.7570.6500.7620.7300.8710.7860.6650.819Faster-RCNN（800x1200）COCO+int0.7000.8600.7640.6650.7600.7420.8880.8000.6860.820地面实况框COCO+int0.7450.9250.8150.7250.7830.7740.9300.8350.7350.831表4：位姿估计模块上的消融：当使用在COCO+int上训练的替代姿态估计模块时，COCO关键点测试开发的性能。我们使用默认的ResNet-101盒子检测模块，仅在COCO上训练。我们用星号标记我们在所有其他实验中使用的默认姿势估计模块。姿势模块波塞列车APAP.5AP.75AP（M）AP（L）ARAR.5AR.75AR（M）AR（L）ResNet-50（257x185）COCO+int0.6490.8530.7220.6270.6930.6990.8900.7630.6500.766ResNet-50（353x257）COCO+int0.6660.8620.7340.6380.7170.7140.8940.7740.6610.787ResNet-101（257x185）COCO+int0.6610.8620.7340.6410.7080.7120.8950.7770.6620.782ResNet-101（353x257）COCO+int0.6850.8710.7550.6580.7330.7330.9010.7950.6810.804表5：具有OKS-NMS阈值的变化值的COCO关键点迷你值上的性能（AP）。姿态估计器已经使用COCO-only或COCO+int数据进行了训练。阈值0.10.3 0.5磅0.70.9AP（仅COCO）0.6380.664零六六七0.6650.658AP（COCO+int）0.672 0.699零点七0.7010.694更小（ 257x185 ）的推理速度更快，或更大（353x257）的精度更高。我们在表4中报告了四种CNN骨干/裁剪大小组合的COCO测试-开发结果，使用COCO+int进行姿态估计器训练。我们看到ResNet-101的性能提高了2%，但在计算受限的环境中，ResNet-50仍然是一个有竞争力的替代品。在本文的其余部分，我们使用精确的ResNet-101（353 x257）姿态估计器，磁盘半径R=254.5. 基于OKS的非最大值抑制我们研究了所提出的基于OKS的非最大值抑制方法在OKS-NMS阈值的不同值的姿态估计的输出处在所有实验中，在人箱检测器的输出处的IOU-NMS阈值的值我们在表5中报告了使用COCO- only或COCO+int进行姿态估计器训练的COCOminival在本文的其余部分，我们将OKS-NMS阈值固定为0.5。5. 结论在这项工作中，我们解决的问题，人的检测和姿态估计在杂乱的图像我们提出了一个简单的两阶段系统，包括一个人，针对每个人，检测阶段之后是关键点估计阶段。尽管它的简单性，它实现了最先进的结果，衡量具有挑战性的COCO基准。致谢我们感谢[23]的作者为我们提供了他们出色的Faster-RCNN实现我们要感谢Hartwig Adam鼓励和支持这个项目，感谢Akshay Gogia和Gursheesh Kour管理我们的内部注释工作。引用[1] M. Abadi、A. Agarwal，P. Barham，E. Brevdo等人张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。[3] M. Andriluka、S.罗斯和B。席勒图片结构回顾：人物检测和关节姿态估计。CVPR，2009。[4] 诉贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克用于多个人体姿势估计的3D图像结构。在CVPR中，第1669-1676页[5] 诉贝拉吉安尼斯 S. 阿明 M. 安德里卢卡 B. 席勒N. Navab和S.伊利克3D图像结构再访：多人姿态估计。CVPR，2015。[6] V. Belagiannis 和 A. 齐瑟曼。循环人体姿态估计。Inarxiv，2016.[7] A. Bulat和G.齐米罗普洛斯通过卷积部分热图回归的人体姿势估计。在ECCV，2016年。[8] Z. Cao，T. Simon，S.- E. Wei和Y.酋长利用局部仿射场进行实时多人二维姿态估计。arXiv：1611.08050v1，49112016.4912[9] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的 crfs 进行语义图像分割。 arXiv ：1606.00915，2016。[10] X. Chen和A.尤尔。通过具有图像相关成对关系的图形模型的在NIPS，2014。[11] M. Dantone，J. Gall，C. Leistner和L. V.Gool使用身体部位相关关节回归量的人体姿势估计。CVPR，2013。[12] M. Eichner和V.法拉利更好的图像结构外观模型。在BMVC，2009年。[13] M. Eichner和V.法拉利我们是一家人：多人联合姿态估计见ECCV，第228施普林格，2010年。[14] D. 埃尔汉角Szegedy，A.Toshev和D.安盖洛夫使用深度神经网络的可扩展对象检测在CVPR中，第2147[15] P. Felzenszwalb，D. McAllester和D. Ramanan区分训练的多尺度可变形零件模型。CVPR，2008。[16] M. A. Fischler和R.埃尔施拉格图像结构的表现和匹配。IEEETOC，1973年。[17] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在CVPR中，第580-587页[18] G.吉基奥萨里山口阿贝拉埃斯湖Bourdev和J.马利克使用判别臂分类器的关节姿态估计。CVPR，2013。[19] G.基奥克萨里湾哈里哈兰河Girshick和J.马利克使用k-possible来检测人并定位他们的关键点。在CVPR，第3582-3589页[20] G. Gkioxari，A. Toshev和N.贾特利使用卷积神经网络的链式预测。在ECCV，2016年。[21] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。arXiv：1703.06870v2，2017.[22] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[23] J. Huang，V.拉托德角孙，M。 Zhu，中国茶青冈A.科拉提卡拉A. 法特希岛Fischer，Z.Wojna，Y.宋，S.Guadarrama等人，现代卷积对象检测器的速度/精度权衡。arXiv：1611.10012，2016.[24] E. Insafutdinov，M.安德里卢卡湖Pishchulin，S.唐湾An-dres ，和 B. 席勒在野外进行多人跟踪 arXiv ：1612.01465，2016年。[25] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B. 席勒Deepercut：一个更深、更强、更快的多人姿势估计模型。在ECCV，2016年。[26] 联合Iqbal和J.胆多人姿态估计与局部关节到人的关联。见ECCV，第627-642页。施普林格，2016年。[27] A. Jain，J.Tompson，M.安德里卢卡湾Taylor和C.布莱格勒使用卷积网络学习人体姿势估计特征见ICLR，2014年。[28] S. Johnson和M. Everingham从不准确的标注中学习有效的人体姿态估计。CVPR，2011。[29] L. Ladicky，P. H. Torr和A.齐瑟曼。使用联合像素方式和部分方式制定的人类姿势估计。在CVPR，第3578-3585页[30] Y. Li，K. He，J. Sun，et al. R-FCN：通过基于区域的全卷积网络进行对象检测。 In Advances神经信息处理系统，第379-387页，2016年。[31] T.- Y. Lin，Y. Cui，G. Patterson，M. R.龙基湖布尔德夫R. Girshick和P.多尔可可2016年关键点挑战。2016.[32] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。参见ECCV，第740-755页。Springer，2014.[33] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。[34] L. Pishchulin，M.安德里卢卡山口Gehler和B.席勒姿态-let制约的图像结构。CVPR，2013。[35] L. Pishchulin、E. Insafutdinov，S.唐湾Andres，M. An-driluka，P. Gehler和B.席勒Deepcut：联合子集划分和标记用于多人姿势估计。在CVPR，2016年。[3

下载后可阅读完整内容，剩余1页未读，立即下载