MultiPoseNet：一种基于姿态残差网络的快速多人姿态估计

11 浏览量更新于2023-10-13 收藏 2.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

MultiPoseNet：基于姿态残差网络的多人姿态快速估计Muhammed Kocabas[0000− 0001− 8593− 0415]、Salih Karagoz[0000− 0002− 7438−8322]、Emre Akbas[0000− 0002− 3760− 6722]中东技术大学计算机工程系{muhammed. kocabas，e234299，eakbas} @ metu.edu.tr抽象。在本文中，我们提出了MultiPoseNet，一种新的自下而上的多人姿态估计架构，结合了一种新的分配方法的多任务模型。MultiPoseNet可以联合处理人检测、人分割和姿态估计问题。新的分配方法实现的姿态残差网络（PRN），接收关键点和人的检测，并产生准确的姿势，通过分配关键点的人的实例。在COCO关键点数据集上，我们的姿势估计方法在准确性（比之前的最佳结果高出4点mAP）和速度方面都优于所有之前的自下而上方法;它的性能也与最好的自上而下方法相当，同时至少快4倍。我们的方法是最快的实时系统与23帧/秒。关键词：多任务学习·多人姿态估计·语义分割·MultiPoseNet·姿态残差网络1介绍这项工作的目的是估计的二维（2D）构成的多个人在一个给定的图像。（i）检测身体关节（或关键点，如它们在广泛使用的COCO [36]数据集中被称为(ii)将这些关节分组成人实例，或者检测人，以及（iii）将关节分配给人实例。根据首先解决哪个子问题，多人2D估计中有两种主要方法：自底向上和自顶向下。自下而上的方法[5，6，25，26，37，39，42]首先检测身体关节，而不需要任何关于人数或其位置的知识接下来，将检测到的另一方面，自上而下的方法[10，18，23，40]通过首先检测人开始，并且然后对于每个人检测，使用单人姿势估计方法（例如，[12，24，38，48]）。单人姿态估计，即以在给定输入中存在单个人的信息为条件来检测身体关节（自顶向下方法）通常是比将检测到的关节分组（自底向上方法）更昂贵的过程。因此，自顶向下的方法往往2M. Kocabas、S.Karagoz和E.阿克巴斯- 比自底向上方法慢，因为它们需要针对每个人检测重复单人姿势估计;然而，它们通常比自底向上方法产生更好的准确性。图1.一、MultiPoseNet是一个多任务学习架构，能够有效地执行人体关键点估计，检测和语义分割任务在本文中，我们提出了一种新的自下而上的方法（相对于上面给出的分类）多人2D姿态估计。我们的方法是基于一个多任务学习模型，它可以共同处理的人检测，人分割和姿态估计问题。为了强调我们的模型的多人和多任务方面，我们将其命名为我们的模型（Fig. 1）由用于特征提取的共享主干、用于关键点和人检测/分割的检测子网以及执行姿态估计的最终网络组成，即将检测到的关键点分配给每个实例。我们的主要贡献在于姿态估计步骤，其中网络实现了一种新的分配方法。该网络接收关键点和人物检测，并通过使用学习函数将关键点分配给人物框来为每个检测到的人物产生姿势。为了将我们的贡献置于上下文中，在这里我们简要描述了最先进的（SOTA）自底向上方法的相关方面[6，37]。这些方法试图通过利用组与关键点之间或关键点本身之间的低阶关系来对检测到的关键点进行分组。具体地，Cao et al.[6]在两个附近的关节之间建立成对关系（称为部分亲和场）的模型，并且在另一种SOTA方法中，Newell et al.[37]预测被称为每个检测到的关键点的标签的实数，以便识别检测所属的组。因此，该模型利用特定关键点与其所属的组之间的一元关系。我们的方法概括了这两种方法，在这个意义上，我们实现了在一个单一的镜头，考虑所有的关节在同一时间在一起的分组。我们将实现分组的模型的这一部分命名为姿势残差网络（PRN）（图2）。PRN采用感兴趣区域（RoI）汇集的关键点检测，然后将它们馈送到残余多层感知器（MLP）中。PRN同时考虑所有关节并学习关节的我们通过绘制一个示例来说明PRN的这种能力。骨干姿势残差网络FPNK2K3K4K5关键点子网C2 C3C4C5CLSFPNP3P4P5P6reg人员检测子网D部件锚姿势残差网络姿态残差网络3+一组已学习的配置。（图2右）。我们的实验（在COCO上图二. 左：姿势残差网络（PRN）。PRN能够消除哪个关键点应被分配给当前人物框的歧义。右：通过对PRN学习的结构进行聚类获得的六个样本姿势。数据集，不使用外部数据）表明我们的方法优于所有先前的自底向上方法：我们实现了比先前的最佳结果增加4点的mAP。我们的方法与性能最好的自顶向下方法相当，同时比它们快至少4倍据我们所知，只有两种自上而下的方法是我们无法超越的。考虑到自下而上的方法总是比自上而下的方法执行得更不准确，我们的结果是显着的。在运行时间方面，我们的方法似乎是所有多人2D姿态估计方法中最快的。根据输入图像中的人数，我们的方法在27帧/秒（FPS）（对于一个人检测）和15 FPS（对于一个人检测）之间运行。20人检测）。对于一个典型的COCO图像，平均包含3人，我们实现了23 FPS（图10）。（六）。我们在这项工作中的贡献有四个方面。（1）我们提出了姿势残差网络（PRN），这是一种用于分配/分组身体关节的问题的简单但非常有效的方法（2）我们超越了所有以前的自底向上方法，并实现了与自顶向下方法相当的性能。（3）我们的方法比以前的所有方法都快，实时速度为23帧/秒。(4)我们的网络架构是可扩展的;我们表明，使用相同的主干，也可以解决其它相关的问题，例如人分段。2相关工作2.1单人姿态估计单人姿势估计是在给定裁剪的人图像（或者等效地，在给定其在图像内的确切位置和比例的情况下）预测各个身体部分早期的方法（在深度学习之前）使用手工制作的HOG特征[14]来检测身体部位和概率图形模型来表示姿势结构（基于树[2，28，41，51];非基于树[15，21]）。深度神经网络4M. Kocabas、S.Karagoz和E.阿克巴斯基于模型[3，7，13，24，33，38，45，46，48，51]的研究在Toshev等人的初始工作之后迅速主导了姿态估计问题。[46]他使用AlexNet架构直接回归空间关节坐标。Tompson等人[45]通过将深度特征与图形模型相结合来学习姿势结构。Carreira等人[7]提出了迭代误差反馈方法来训练卷积神经网络（CNN），其中输入与当前预测一起重复馈送到网络，以便改进预测。Wei等人。[48]受到姿势机器[43]的启发，并使用CNN作为姿势机器中的特征提取器由Newell等人开发的沙漏块（HG）[38]基本上是具有残余连接的卷积-去卷积结构Newell等人堆叠HG块以获得迭代细化过程，并显示其对单人姿态估计的有效性。堆叠沙漏（SHG）的方法取得了显着的性能比以前的结果增加。Chu等人。[13]建议添加视觉注意力单元以关注感兴趣的关键点区域杨等人的金字塔剩余模块[51]改进了SHG架构以处理尺度变化。Lifshitz等人[33]使用来自图像位置的概率关键点投票方案来获得针对每个身体部分的协议图。Belagiannis等人[3]介绍了一种简单的基于递归神经网络的预测细化架构。Huang等人[24]开发了一个以Inception-v2 [44]网络为骨干的粗到细模型。作者计算了网络每一级的损失，以学习从粗到细的部件表示。2.2多人姿态估计自下而上的多人姿态估计解决方案分为自下而上和自上而下的方法。自下而上的方法检测身体关节并将其分配给人实例，因此与自上而下的方法相比，它们在测试时间上更快，尺寸更小但是，他们错过了放大每个人员实例的详细信息的机会这在自上而下和自下而上方法之间产生了准确性差距。在Ladicky et al.[32]，他们提出了一种使用基于HOG的特征和概率方法联合预测人体部位分割和部位位置的算法。Gkioxari等人[20]提出了k-poselets来联合检测人和关键点。大多数最近的方法使用卷积神经网络（CNN）以端到端的方式检测身体部位及其之间的关系[6，25，37，41，42，47]，然后使用分配算法[6，25，42，47]来形成个体骨架。Pischulin等人[42]使用深度特征来联合预测部件位置和与所述模型的关系，所述模型被形成为相关的。尽管[42]没有使用人员检测，但由于提出的聚类算法，它非常慢，处理时间大约为几个在Insafutdinov等人的后续工作中。[25]，它们受益于更深的ResNet架构作为部分检测器，并通过增量优化策略提高了先前方法的解析效率。与Pischulin和Insafutdinov不同，Iqbal et al.[27]提出局部求解稠密连接的图形模型，从而改进了姿态残差网络5时间效率显著。Cao等人[6]建立了一个包含两个纠缠CPM [48]分支的模型，以预测关键点热图和它们之间的成对关系（部分亲和场）。根据关键点之间局部相似度场这个模型是实时运行Newell等人 [37]通过输出关联向量嵌入扩展了他们的SHG思想，这些关联向量嵌入可以被看作是一个关键点组中的标记。将具有相似标签的组块分组为单个人。自上而下自上而下方法首先检测人（通常使用顶部执行的现成对象检测器），然后对每个人运行单人姿势估计（SPPEN）方法以获得最终姿势预测。由于针对每个人实例运行SPPEN模型，因此自上而下的方法非常慢，然而，每个姿势估计器可以专注于实例并执行精细定位。帕潘德里欧等人[40]使用具有扩张卷积的ResNet [22]，其在语义分割[8]和计算关键点热图和偏移输出方面非常成功。与高斯热图相比，作者估计了盘形关键点掩模和2-D偏移向量场以准确地定位关键点。关节部分分割和关键点检测给定人体检测方法是由夏等人提出的。[49]作者使用单独的PoseFCN和PartFCN来获得部分掩码和位置，并将它们与完全连接的CRF融合。这通过消除不相关的检测来提供更一致的预测。Fang等人。[18]提出使用空间变换器网络来处理不准确的边界框，并使用堆叠的沙漏块[38]。He等人[23]在他们的Mask-RCNN模型中结合了实例分割和关键点他们将关键点头部附加在RoI对齐的特征图之上，以获得每个关键点的独热掩码。Chen等人。[10]在特征金字塔网络[34]之上开发了globalnet，用于多尺度推理，并通过使用超特征[31]改进了预测。3方法与模型我们的proposel模型MultiPoseNet的架构可以在图中找到。1.一、在下文中，我们详细描述每个组件。3.1共享主干MultiPoseNet的主干充当关键点和人员检测子网的特征提取器。它实际上是一个ResNet [22]，有两个特征金字塔网络（FPN）[34]（一个用于关键点子网，另一个用于人员检测子网）连接到它，FPN创建金字塔特征映射，从CNN特征层次结构的所有级别进行自顶向下的连接，以利用CNN特征提取器的固有多尺度表示。通过这样做，FPN折衷了高分辨率、弱表示与低分辨率、强表示。FPN强大的局部化和分类特性6M. Kocabas、S.Karagoz和E.阿克巴斯K5K2K2K2K2损失：3x3转换3x3转换2048C5FPNK51024C48xK44x512C3K3预测2x256C2K2d = 256d = 128d = 512最近被证明在检测、分割和关键点任务中非常成功[10，23，34，35]。在我们的模型中，我们从最后的残差块C2， C3， C4，C5中提取特征，步长为（4，8，16，32）像素，并计算每个子网的相应FPN特征。3.2关键点估计子网关键点估计子网（图3）采用分层CNN特征（由相应的FPN输出）并输出关键点和分割热图。热图将关键点位置表示为高斯峰。每个热图层属于特定的关键点类（鼻子、手腕、脚踝等）。并且包含任意数量的与个人实例有关的峰值。在热图的最后一层处的人分割掩模对图像中的人的像素空间布局进行一组特定于关键点检测任务的功能是COM-图三. 关键点子网的体系结构。它将分层CNN特征作为输入，并输出关键点和分割热图。与[34]类似，具有自上而下和自下而上路径的横向连接K2-K5特征具有与C2-C5块对应的相同空间大小K个特征与原始FPN论文中的P个特征相同，但我们用K表示它们以与人员检测子网层区分开。P特征的深度被缩减到128，随后进行2次3× 3卷积以获得D2、D3、D4、D5层。由于D特征仍然具有不同的步幅，因此我们相应地对D3、D4、D5进行上采样以将4像素步幅匹配为D2特征，并将它们连接成单个深度-512特征图。通过使用ReLU进行3× 3卷积来平滑连接的特征。最终热图具有通过1×1卷积获得的（K+1）层，无需激活。最终输出与W的二进制掩码相乘，W的二进制掩码在没有注释的人的区域中具有W（p）= 0。K是数据集中注释的人类关键点的数量，+1是人分割掩码。除了在最后一层中应用的损失之外，我们在K个特征的每个级别附加损失，以从中间监督中受益语义人分割掩模以与关键点相同的方式预测。姿态残差网络73.3人员检测子网为了设计一个更快，更简单的人检测模型，这是兼容的FPN骨干，我们已经采用了RetinaNet。遵循相同的策略来计算锚点、损失和金字塔图像特征。分类和回归头被修改为仅处理人员注释。(a)（b）（c）（d）图4.第一章边界框重叠方案。3.4位姿残差网络如果在边界框中只有一个人，则将关键点检测分配给人实例（在我们的情况下，边界框）是直接的，如图1B所示4a-b.然而，如果在一个单独的盒子里有重叠的人，就变得不平凡了，如图1所示4c-d。在重叠的情况下，边界框可以包含与所讨论的人不相关的多个关键点，并且这在构建最终姿势预测时产生了歧义。我们通过从数据中学习姿势结构来解决这些模糊性PRN的输入准备如下。对于人检测子网检测到的每个人框，来自关键点检测子网的输出的区域（其被复制到该框）被截取并被大小化具体地，令X表示到PRN的输入，其中X ={x 1，x 2，. . . ，x k}，其中x k∈ RW×H，k是不同关键点类型的数量。PRN的最终目标是输出Y，其中Y ={y1，y2，. . .，yk}，其中yk∈RW×H具有与xk相同的大小，包含由该关键点通道中的峰值指示的每个关键点的正确位置。PRN将从X到Y的映射建模为yk =φk（X）+xk（1）其中f_i（·），. . . ，φK（·）应用于X中的姿态的残差网络，因此称为姿态残差网络。我们使用Eq。1使用残差多层感知器（图1）。2）的情况。输出层的激活使用softmax来获得适当的概率分布，并且在训练期间使用二进制交叉熵损失。在我们提出这个残差模型之前，我们用两个简单的基线和一个非残差模型进行了实验。在我们称为Max的第一基线方法中，对于每个关键点通道k，我们找到具有8M. Kocabas、S.Karagoz和E.阿克巴斯2最高值，并在第k个通道Y。在第二种基线方法中，我们将Y计算为yk = xk* Pk（2）其中Pk是从地面实况数据学习的第k关节的位置的先验映射，并且*是逐元素乘法。我们将这种方法称为一元条件关系（UCR）。最后，在我们的非残差模型中，我们实现了yk= φ k（X）。（三）所有这些型号的性能见表3。在上述模型的上下文中，两种SOTA自下而上的方法都学习比PRN更低级别的分组模型。Cao等人[6]在X中对成对通道进行建模，而Newell等人[6]在X中对成对通道进行建模。[37]在X中仅对一元通道建模。因此，我们的模型可以被认为是这些低阶分组模型的推广我们已在P R N的hidd e n l a y e r e n dee s a certai n bodyfiguration中确定了该缓存的大小。为了说明这一点，我们在图2中可视化了PRN的一些代表性输出。这些姿势是通过重塑PRN输出并选择最大激活关键点以形成骨架来获得的。所有获得的配置使用具有OKS（对象关键点相似性）的k均值进行聚类[36]，并且聚类均值在图中可视化。二、OKS（对象关键点相似性）被用作k均值距离度量来聚类有意义的姿势。3.5实现细节训练由于不同的收敛时间和损失不平衡，我们分别训练了关键点和人物检测任务。为了在两个任务中使用相同的骨干，我们首先仅用关键点子网图来训练模型。3.第三章。之后，我们冻结了主干网的参数，并训练了人物检测子网.由于这两个任务在语义上是相似的，所以人检测结果不会受到冻结主干的不利影响我们使用了Tensorflow [1]和Keras [11]深度学习库。对于人员检测，我们使用开源Keras RetinaNet[19]实现。关键点估计子网：对于关键点训练，我们使用了480x480的图像块，这些图像块以人群或场景中的主要人物为中心。±40度之间的随机旋转，0. 八比一在训练期间使用概率为0.2的垂直翻转。在训练之前，我们已经为每个骨干传输了ImageNet [16]预训练的权重我们使用Adam[30]优化模型，从1 e-4的学习率开始我们使用位于关键点位置的高斯峰作为基础事实来计算L2损失，并且我们屏蔽（忽略）未注释的人。我们将分割掩码作为额外的层附加到地面实况，并与关键点热图一起训练。我们最小化的成本函数是Lkp=W·Ht−Hp2，（4）姿态残差网络9其中，Ht和Hp分别是地面实况热图和预测热图，W是用于忽略未注释的人实例的掩码。人员检测子网：我们遵循与Lin等人类似的人员检测训练策略[35]第35段。使用包含人的图像，它们被调整大小，使得较短的边缘为800像素。我们在关键点训练后冻结骨干权重我们用Adam [30]优化了子网，从1 e-5的学习率开始，在高原上减少了0.1倍我们使用焦点损失（γ = 2，α = 0。25）和平滑L1损失分别用于分类和bbox回归我们使用NMS以0.3的阈值获得了最终姿势残差网络：在训练过程中，我们根据边界框建议裁剪了输入和输出对并调整了热图的大小。所有裁剪的大小都被调整为36× 56（高/宽= 1.56）的固定大小。我们单独训练了PRN网络，并在训练期间使用了学习率为1 e-4的Adam优化器[ 30]。由于模型较浅，收敛大约需要1.5小时我们用至少有2个关键点的人实例训练模型。我们利用了一种课程学习[4]，根据关键点和边界框区域的数量对注释进行在每个阶段，模型开始学习易于预测的实例，在后面的阶段给出困难的例子推理整个架构（见图1）。1）在测试时间期间表现为单片端到端模型。首先对一幅（W×H×3）图像进行骨干模型处理人员和关键点检测子网同时计算提取特征的输出。关键点输出为W×H×（K+1）大小的热图。K是关键点通道的数量，+1是分割通道的数量人员检测的形式为N×5，其中N是人数，5个通道对应于4个边界框坐标以及置信度分数。关键点热图根据人员检测进行裁剪和调整大小以形成ROI。在我们的实验中，最佳的RoI尺寸被确定为36× 56×KPRN将每个RoI作为单独的输入，然后输出相同大小的RoI，其中在热图的每层中仅选择一个关键点所有选定的关键点都将分组为一个人物实例。4实验4.1数据集在我们的实验中，我们在COCO关键点数据集[36]上训练了我们的关键点和人物检测模型（不使用任何外部/额外数据）。我们使用COCO来评估关键点和人物检测，然而，由于COCO中缺乏语义分割注释，我们使用PASCAL VOC 2012 [17]主干模型（ResNet-5010M. Kocabas、S.Karagoz和E.阿克巴斯和ResNet-101）在ImageNet上进行了预训练，并使用COCO-关键点进行了微调。COCO train2017分割包含64K图像，其中包括260K人实例，其中150K具有关键点注释。COCO中没有标注面积较小的关键点.我们在COCO val2017 split上进行了消融实验，其中包含2693张带有人物实例的图像。我们在test-dev 2017 split上与以前的方法进行了比较，其中有20 K个测试图像。我们在在线COCO评估服务器上评估了test-dev 2017结果。我们使用官方的COCO评估指标平均精度（AP）和平均召回率（AR）。基于OKS和IoU的分数分别用于关键点和个人检测任务我们在PASCAL VOC 2012测试中使用PASCAL IoU度量进行了人员分割PASCAL VOC 2012人分割测试分割包含1456个图像。我们使用在线评估服务器获得了测试结果。4.2多人姿态估计表1中给出了我们的方法以及表现最好的自底向上（BU）和自顶向下（TD）方法的总体AP结果。MultiPoseNet优于所有自底向上的方法和大多数自顶向下的方法。我们通过mAP增加4个点胜过先前最好的自下而上方法[37]。此外，我们的系统的运行时速度（见表1和图6的FPS列）远远优于平均23 FPS的先前方法1。这证明了PRN分配和我们的多任务检测方法的有效性，同时提供合理的速度-精度权衡。为了在测试开发中获得这些结果（表1），我们利用了测试时间增加和集成（也在所有以前的研究中进行）。在测试时间数据增强期间进行多尺度和多作物测试使用与我们的关键点检测模型类似的两个不同的骨干和单个人姿势细化网络进行组合。收集来自不同模型的结果，并通过基于OKS的 NMS去除冗余检测[40]。通过消融实验，我们观察了不同主干、关键点检测架构和PRN设计的效果。表2和表3列出了COCO确认集的消融分析结果。在补充资料中，我们给出了我们的方法在不同规模的所有，大，中的召回精度曲线不同的主干我们使用ResNet模型[22]作为共享主干来提取特征。表2显示了更深特征和扩张特征的影响。R101使结果比R50提高1.6mAP在密集检测任务中非常成功的扩张卷积[8]然而，扩张卷积滤波器增加了更多的计算复杂度，因此阻碍了实时性能。我们证明了K特征和中间监督的级联（第3节）。（2）至关重要1我们通过在1080Ti GPU上使用包含3个人的图像对推理时间进行平均来获得FPS结果我们从各自的论文中获得了CFNs和Mask RCNN的FPS结果姿态残差网络11表1. COCO测试开发结果，不包括使用外部数据训练的系统。自上而下的方法被单独示出以在自下而上的方法之间进行清楚的比较FPS AP AP50 AP75 APM APL AR AR50 AR75 ARM ARL步我们2369.6 86.376.6 65.0 76.3 73.5 88.179.568.6 80.3步Newell等人[37]第三十七届665.5 86.872.360.672.6 70.2 89.576.064.678.1步CMU姿势[6]1061.884.967.557.168.2 66.587.271.860.674.6TD Megvii [10]-73.091.780.969.578.1 79.095.185.974.884.6TD [24]第二十四话372.686.769.778.364.1-----TD [23]第二十三话569.290.476.064.976.3 75.293.781.170.381.8TD 上海交通大学[18]0.468.887.575.964.675.1 73.691.079.868.980.2TD 2017年GRMI展会[40]-66.986.473.664.072.0 71.689.277.666.179.1TD G-RMI-2016 [40]-60.582.266.257.666.6 66.286.671.461.972.2为了更好的表现。结果表明，我们的系统的性能可以通过更强的特征提取器（如最近的ResNext [50]架构）进一步增强关键点估计需要对空间位置进行密集预测，因此其性能取决于输入和输出分辨率。在我们的实验中，我们使用480× 480图像作为输入，每个输入输出 120×120×（K+ 1）热图。对于COCO数据集，K等于17。较低的分辨率损害了mAP结果，而较高的分辨率产生更长的时间表 2. 不同关键点模型的比较。（无concat：无连接，无int：无中间监督，dil：dil- lated，concat：连接）模型AP AP50 AP75 APM APLR5062.3 86.271.957.770.4R101无整数61.3 83.769.656.667.4R101无接触62.1 84.370.957.368.8R10163.9 87.173.258.172.2R101稀释液64.3 88.27559.6 73.9训练和推理复杂度。我们在表2中列出了不同关键点模型的结果。中间损失附加到K个块的输出，提高了精度显着。中间监督充当特征层次结构之间的细化如前所述[6，38，48]，它是大多数密集检测任务中的基本策略。我们已经将最终损失应用于从K个特征缩减的级联D个特征。这个额外的阶段确保了我们将多层次的特征组合在一起，并将它们压缩到一个统一的空间中，同时提取更多的语义特征。该策略在我们的实验中带来+2mAP增益。姿态残差网络设计PRN是一种简单而有效的分配策略，旨在快速推理，同时提供合理的精度。为了设计一个精确的模型，我们尝试了不同的配置。不同的PRN模型和相应的结果可以在表3中看到。这些结果表明12M. Kocabas、S.Karagoz和E.阿克巴斯PRN型号AP AP50 AP75 APM APL1层512N、D84.194.285.38286.22层512N、D81.991.182.679.884.32层512 N，D+R83.595.786.282.386.41层1024 N、D84.695.787.682.188.71层1024 N、D+R89.4 97.191.2 87.9 91.8PRN消融AP AP50 AP75 APM APL两个GT89.4 97.191.287.991.8GT关键点+我们的bbox 75.3 82.17870.184.5我们的关键点+ GTbbox65.1 89.276.260.374.7PRN64.3 88.27559.673.9UCR49.7 59.552.444.151.6Max45.3 55.148.840.646.9从地面真实人物边界框和关键点的分配获得的分数表3.左：不同PRN模型在COCO验证集上的性能编号：节点，D：丢弃，R：剩余连接。右：使用COCO确认数据的PRN消融实验。我们从一个原始模型开始，它是一个具有50个节点的单个隐藏层MLP，并添加了更多的节点，正则化和不同的连接类型，以平衡速度和准确性。我们发现，1024个节点MLP，dropout0.5输入和输出之间的概率和残差连接将PRN性能提升到89. 4 mAP地面实况输入。在PRN消融分析（表3）中，我们比较了Max、UCR和PRN实现（描述见第3.4节）以及PRN与地面实况检测的性能。我们发现，低阶分组方法不能处理重叠检测;两人的表现都很差。我们假设-表4. 具有从两种自下而上方法获得的非分组关键点的PRN分配结果。模型AP AP50 AP75APCao等人[6]美国58.481.562.654.465.1PRN+ [6]59.2 82.2 64.454.1 67.0Newell等人[37]第三十七届56.980.861.349.9 68.8PRN+ [37]58.1 81.4 63.0 51.368.1大小，PRN可以通过学习有意义的姿势结构来克服模糊性（图1）。2（右）），并且相对于朴素分配技术将结果改进了<20mAP。我们通过将PRN的输入与地面实况检测交替来评估关键点和人员子网对最终结果的影响使用地面真实关键点和我们的人检测，我们获得了75.3mAP，这表明关键点定位部分有很大的改进空间。通过我们的关键点和地面真实人物检测，我们获得了65.1 mAP。这可以解释为我们的人员检测子网执行得相当好。两个地面实况检测都得到89.4mAP，这是PRN性能的良好指标。除了这些实验之外，我们还在之前的SOTA自下而上模型检测到的关键点上测试了PRN [6，37]。因此，PRN通过将两个检测结果改进lmAP来执行比部分亲和字段[6]和关联嵌入[37]更好的分组（表4）为了获得表4中的结果，我们使用了COCO val split、我们的人边界框结果和来自论文的官方源代码的关键点结果。请注意，在不是由MultiPoseNet生成的关键点上运行PRN对PRN是不公平的，因为它是用我们的检测架构训练的。此外，原始方法使用图像特征进行分配，再加上他们的检测方案，尽管如此，PRN是能够优于其他分组方法。姿态残差网络13个人探测器AP AP50 AP75 APS APM APL我们的-R10152.5 81.5 55.3 35.25971我们的-R5051.381.453.634.95868.1RetinaNet [35]50.277.753.531.65971.5FPN [34]47.57850.728.65567.4分割IOUDeepLab v3 [9] 92.1DeepLab v2 [8]87.4SegNet [29]74.9我们87.84.3人物检测我们通过使用关键点检测参数冻结主干，仅在COCO人员实例上训练人员检测子网。具有不同骨干的网络的人员类别结果可以在表5中看到。我们使用ResNet-50和ResNet-101后端的模型优于原始实现。这并不令人惊讶，因为我们的网络只处理一个类，而原始实现处理80个对象类。表5. 左图：COCO数据集上的人员检测结果。右图：PASCAL VOC 2012测试分割的人员语义分割结果。4.4人物语义分割人员分割输出是附加到关键点输出的附加层。我们通过将人物面具组合到单个二进制面具层中来获得地面真实标签，并将分割与关键点任务联合训练。因此，它为模型增加了非常小的复杂性。然而，产生隔离块并不影响关键点的恢复。评估是在PASCAL VOC 2012测试集上使用PASCAL IoU度量进行的。我们通过多尺度测试和阈值处理得到最终的分割结果。我们没有应用任何额外的测试时间增强或集成。表5显示了我们的系统与以前成功的语义分割算法的比较我们的模型优于大多数成功的基线模型，如SegNet [29]和Deeplab-v2 [8]，并获得了与最先进的Deeplab v3 [9]模型相当的性能这证明了我们的模型处理不同任务的能力，同时具有竞争力的性能。一些定性分割结果在图中给出。五、4.5运行时分析我们的系统包括一个骨干，关键点的人检测子网，和构成残留的网络。补充资料中给出了每个块的参数大小。在骨干网、子网和PRN都是相对轻量级的网络中，大多数参数都是提取特征所需要的。通过使用像ResNet-50这样的浅层特征提取器，我们可以实现实时性能。为了衡量性能，我们使用ResNet- 50构建了一个模型，输入大小为384×我们测量了在推断1000个图像期间所花费的时间，并对推断时间进行平均以获得一致的结果（图1）。（六）。关键点和人物检测需要3514M. Kocabas、S.Karagoz和E.阿克巴斯图五. COCO测试开发数据集的一些定性结果。ms，而PRN每个实例花费2ms。我们的模型运行在15-27 FPS之间，具体取决于图像中的人数（15 FPS@1人，27 FPS20人）。5结论在这项工作中，我们介绍了姿势残差网络，它可以准确地分配关键点的多任务学习架构（MultiPoseNet）输出的人检测。我们的姿态估计方法达到了-350300250200150的-the-tperformanceanceamongbotom-100向上的方法和与自顶向下的方法相当的结果。与以前的方法相比，我们的方法具有最快的推断时间。我们展示了姿态残差网络消融分析的分配性能。我们5000 5 10 15 20人数见图6。MultiPoseNet相对于人数的运行时分析。通过联合生成关键点、人物边界框和人物分割结果，展示了我们的多任务学习模型的表示能力。谢谢。我们衷心感谢NVIDIA公司为本次研究捐赠的Tesla K40 GPU。本文中报告的实验部分在TUBITAK ULAKBIM，高性能和网格计算中心（TRUBA资源）进行我们我们的骨干自顶向下CMU姿态运行时间（ms）姿态残差网络15引用1. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，Ghemawat，S.，古德费洛岛 Harp ， A. ， Irving ， G. Isard ， M. ， Jia ， Y. ， Jozefowicz ，河凯泽湖Kudlur，M.，莱文伯格J.，天啊D蒙加河Moore，S.，Murray，D. Olah，C.，Schuster，M.，Shlens，J.，Steiner，B.，萨茨克弗岛Talwar，K.，Tucker，P. Vanhoucke ，V.，Vasudevan，V.，Vigas，F.，Vinyals，O.，Warden，P.，Wattenberg，M.，Wicke，M.，Yu，Y.，郑X：Tensorflow：异构系统上的大规模机器学习（2015），软件可从tensorflow.org2. Andriluka，M.，Roth，S.，Schiele，B.：图片结构再访：人检测和铰接姿态估计。IEEE计算机视觉与模式识别会议（2009）3. Belagiannis，V.，齐瑟曼，A.：循环人体姿态估计。自动人脸和手势识别国际会议（2017）4. Bengio，Y.，Louradour，J.，科洛伯特河Weston，J.：课程学习。国际机器学习会议（2009）5. Bulat，A.，Tzimiropoulos，G.：通过卷积部分热图回归的人体姿势估计。在：欧洲计算机视觉会议（2016）6. Cao，Z.，Simon，T.Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态IEEE计算机视觉与模式识别会议（2017）7. 卡雷拉，J.，阿格拉瓦尔，P.，Fragkiadaki，K.，Malik，J.：迭代误差反馈人体位姿估计IEEE计算机视觉与模式识别会议（2016）8. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。在：IEEE Transaction on Pattern Analysis and Machine Intelligence（2017）9. Chen，L.C.，Zhu，Y.，帕潘德里欧，G.，Schroff，F.，Adam，H.：用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。In：arXiv preprintarXiv：1802.02611（2018）10. 陈玉，王志，彭，Y.，张志，Yu，G.，孙杰：用于多人姿态估计的级联金字塔网络在：arXiv预印本arXiv：1711.07319（2017）11. Chollet，F.，等：Keras（2015），https://github.com/keras-team/keras12. Chou，C.J.，简J.T. Chen，H.T.：人体姿态估计的自对抗训练。在：arXiv预印本arXiv：1707.02439（2017）13. Chu，X.，杨伟，欧阳，W.马，C.，尤伊尔，A.L.，Wang，X.：人体姿态估计的多上下文注意。IEEE计算机视觉与模式识别会议（2017）14. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。IEEE计算机视觉与模式识别会议（2005）15. Dantone，M.，Gall，J.，莱斯特纳角Van Gool，L.：使用身体部位相关关节回归量的人体姿势估计。IEEE计算机视觉与模式识别会议（2013）16. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议（2009）17. Everingham，M. Eslami，S.M.A.凡古尔湖威

下载后可阅读完整内容，剩余1页未读，立即下载