基于多尺度结构感知网络的人体姿态估计

22 浏览量更新于2023-10-13 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于多尺度结构感知网络的人体姿态估计柯丽鹏1、常明清2、齐红刚1、吕四维21中国科学院大学，中国2美国纽约州立大学奥尔巴尼分校kelipeng15@mails.ucas.ac.cnmchang2@albany.eduhgqi@ucas.ac.cnslyu@albany.edu抽象。我们开发了一个强大的多尺度结构感知的神经网络工作的人体姿态估计。该方法改进了最近的深度conv-deconv沙漏模型，其中有四个关键改进：（1）多尺度监督，以通过组合跨尺度的特征热图来加强在匹配身体关键点时的上下文特征学习，（2）在末端的多尺度回归网络，以全局地优化多尺度特征的结构匹配，（3）在中间监督和回归中使用的结构感知损失，以改进关键点和相应邻居的匹配，从而推断身体关键点的结构。高阶匹配配置，以及（4）关键点掩蔽训练方案，其可以有效地微调我们的网络以经由相邻匹配鲁棒地定位被遮挡的关键点。我们的方法可以有效地改善国家的最先进的姿态估计方法，遭受困难的规模品种，闭塞，和复杂的多人的情况下。该多尺度监督与回归网络紧密集成，以有效地（i）使用多尺度特征的集合来定位关键点，以及（ii）通过最大化跨多个关键点和尺度的结构一致性来推断全局姿态配置。关键点掩蔽训练增强了这些优点，以将学习集中在硬遮挡样本上。我们的方法在MPII挑战排行榜中处于领先地位。关键词：人体姿态估计·Conv-decov网络·多尺度监督1介绍人体姿势估计是指通过定位身体关键点（头、肩、肘、腕、膝、踝等）来识别姿势的任务。）从图像。我们专注于从一个单一的RGB图像与一个人的粗略的边界框的输入，而姿势和活动的人可以是任意的问题。由于人体外观、照明条件、复杂背景和遮挡、身体体格和所执行活动的姿势结构2L.克，M. Chang，H. Qi，S.Lyu图1.一、现有技术的姿态估计网络在多样的活动和复杂的场景中面临困难，这可以被组织成三个挑战：（顶行）场景中的身体关键点的大规模变化，（中间行）被遮挡的身体部位或关键点，（底行）在拥挤的场景中匹配多个相邻关键点时的模糊性。由主题。当案件扩展到多人场景时，推断进一步复杂。人类姿势估计已经被广泛研究[16]。传统方法依赖于手工特征[3，6，8，21，5]。随着深度神经的繁荣神经网络（DNN），卷积神经网络（CNN）[25，20，23，10，26]，特别是沙漏模型[18]及其变体[12，27]在人体姿势估计方面表现出卓越的性能沙漏模块内的重复的自下而上和自上而下的处理可以可靠地提取跨尺度和观看可变性的姿势特征，并且因此有效地定位用于姿势估计的身体关键点。虽然已经取得了很大的进展，但是现有技术的基于DNN的姿态估计方法仍然存在几个问题（图1B）。1）：(1) 尺度不稳定性：由于这种主导尺度的影响，来自人检测器（诸如SSD [15]）的输入边界框的轻微扰动可能导致姿势估计的突然变化。这种尺度不稳定性导致不可靠的姿势估计，即使是最新的沙漏方法（[12，27]）也倾向于在特定尺度中过拟合身体关键点（在去卷积金字塔中的所有尺度中），这导致单一尺度的主导。处理这种尺度不稳定性的当前实践（例如，广泛用于MPII姿态估计挑战[1]）是在各种尺度的多次试验中重复执行姿态估计，并输出具有最高分数的结果。这清楚地表明，在现有方法的局限性中缺乏一致的尺度表示。这将在§3.1和§ 3.2中讨论。(2) 结构性先验不足：第二个问题是如何有效地将人体结构作为先验知识整合到pose的深层网络中基于多尺度结构感知网络的人体姿态估计3图二、建议的网络由三个部分组成：（i）多尺度监督网络（MSS-网络，§3.1），（ii）多尺度回归网络（MSR-net，§3.2），以及(iii) 使用结构感知损失的中间监督（§ 3.3）。整个网络管道使用关键点掩蔽训练方案进行微调（第3.4节）。估计这样的先验可以提供关键信息以解决具有复杂的多人活动和杂乱背景的现实世界场景中的姿态估计的挑战，其中身体关键点遮挡和匹配模糊是瓶颈。在这些挑战情况下，准确的关键点定位不是成功姿态估计的唯一因素，因为将存在关于如何最好地关联关键点（不可见的，或可能性中的多个可见的关键点）以推断全局姿态配置的问题已知的身体结构先验可以提供有价值的线索以从可见的身体部位推断隐藏的身体部位的位置。我们建议使用中间结构损失（§3.3）并通过在最后使用全局回归网络（§3.2）对骨架进行建模我们进一步开发了一个关键点掩蔽方案，以改善我们的网络在严重遮挡关键点的挑战性情况下的训练（§3.4）。在本文中，我们提出了一个整体的框架，以有效地解决现有的最先进的沙漏网络的缺点。我们的方法基于两个神经网络：多尺度监督网络（MSS-net）和多尺度回归网络（MSR-net）。在MSS网络中，在每个deconv层添加逐层损失项，以允许对网络的每个层中的尺度特定特征的显式监督。这种多尺度监督使得能够有效地学习多尺度特征，其可以更好地捕获身体关键点的局部上下文特征。另外，沿着分辨率金字塔的粗到细去卷积也遵循类似于关注机制的范例，以聚焦并细化关键点匹配。MSR-net从MSS-net的多个堆栈获取输出以通过融合关键点热图的多个尺度来执行全局关键点回归以确定姿态输出。4L.克，M. Chang，H. Qi，S.Lyu除了可以联合学习以跨多个特征尺度匹配关键点的MSS网络和MSR-net之外，我们基于人体部位的连接性和结构来显式地匹配连接的关键点对。例如，当肘部和下臂可见时，从肘部到下臂和到手腕的连接性可以在被遮挡手腕的推断中被利用。因此，我们添加了结构感知损失，旨在提高当前深度网络在建模结构先验以进行姿态估计方面的能力。这种结构损失改进了复杂的图像中被遮挡关键点的估计。或拥挤的场景。最后，我们的关键点掩蔽训练方案作为一种有效的数据增强方法，以提高MSS网络的学习和MSR-net一起，以更好地从困难的训练样本中识别遮挡姿态。本文的主要贡献可以概括如下：– 我们引入了多尺度监督网络（MSS-网）和多尺度回归网络（MSR-net），以结合丰富的多尺度特征，通过匹配所有尺度的特征来提高关键点定位的鲁棒性– MSS-net和MSR-net都是使用结构感知损失来明确地从多尺度特征中学习人类骨骼结构，这些特征可以在复杂场景中恢复遮挡时提供强大的先验– 我们提出了一个关键点掩蔽训练方案，可以通过生成有效的训练样本来微调我们的网络管道，以将训练集中在关键点遮挡和混乱场景的困难情况图2总结了我们的多尺度结构感知网络管道。实验评估表明，我们的方法达到了最先进的结果的MPII构成挑战基准。2相关工作基于图像的人体姿态估计具有许多应用，对于综合调查，参见[16]。早期的方法，如定向梯度直方图（HOG）和可变形零件模型（DPM）依赖于手工特征和图形模型[3，14，6，8，21，5]。这些方法受到有限的表示能力的影响，并且不能扩展到复杂的场景。使用深度神经网络（DNN）[25，20，23，10，26]的姿态估计近年来表现出优越的性能，这是由于更大的训练数据集和强大的GPU的可用性。由Toshev等人开发的DeepPose [4]是从观察到的图像直接估计姿势关键点位置的早期尝试。 Tompson等人[23]采用了身体关键点的热图表示，以改善训练期间的定位。马尔可夫随机场（MRF）启发的空间模型被用来估计关键点的关系。楚等人[11]提出了一种变换核方法，以使用双向树来学习高度相关的关键点基于多尺度结构感知网络的人体姿态估计5最近，Wei等人[26]使用具有大感受野的非常深的顺序conv-decov架构来直接在热图上执行姿势匹配。他们还加强了conv-decov对之间的中间监督，以防止梯度消失，因此非常深的网络变得可行，并且更深的网络可以学习具有较大感受野的关键点关系 Newell等人[18]提出的沙漏模块是Wei等人[19]的扩展。在conv-deconv子模块之间添加了剩余连接。沙漏模块可以跨尺度有效地捕获和组合特征Chu等人。 [12]采用堆叠沙漏网络从具有各种语义的多分辨率 Yang等人[27]设计了一个金字塔残差模块（PRM），通过学习各种特征尺度上的卷积滤波器来增强深度CNN跨尺度的不变性。用于姿态估计的最先进的DNN仍然受限于对人体结构进行建模以进行有效关键点匹配的能力现有的方法依赖于通过增加网络深度来隐含地丰富关键点关系建模能力的蛮力方法在这方面的一个主要弱点是由场景中的遮挡、杂乱背景或多个身体部位引起的模糊性在MPII姿态基准[1]中，许多方法[10，26，18，12，27]依赖于在各种尺度中多次重复其姿态估计流水线，以便使用结果的这表明缺乏有效的解决方案来处理建模中的规模和结构先验。3方法我们的多尺度结构感知网络由两种类型的子网络组成：多尺度监督网络（MSS-net），它可以重复用于多个堆栈，和多尺度回归网络（MSR-net）在最后，见图。二、具体来说，MSS-net基于conv-deconv沙漏模块[18]，使用多尺度损失监督进行训练。MSR-net通过匹配多尺度关键点热图及其高阶关联来执行最终姿态结构回归MSS-网和MSR-net两者共享共同的结构感知损失函数，其被设计成确保有效的多尺度结构特征学习。使用关键点掩蔽训练方案对整个流水线的训练进行微调，以专注于学习硬样本。我们描述了两个关键的意见，激励我们的方法的设计。首先，conv-deconv沙漏堆栈在外观和尺度的大变化性上捕获用于关键点检测的丰富特征然而，这种能力对多尺度金字塔中的特定尺度非常敏感，并且缺乏跨尺度的稳健且一致的响应这导致我们在MSS网络的训练中向每个deconv层添加显式其次，MSS网络沙漏模型的输出是一组热图，并且每个热图对应于每个身体关键点（肘部、手腕、脚踝、膝盖等）的位置可能性。为了训练MSS网络，热图针对典型地被配置为基于真实身体关键点热图的真实身体关键点热图进行监督。6L.克，M. Chang，H. Qi，S.Lyu图3.第三章。在多尺度监督网络中，关键点定位在上采样分辨率中的细化类似于在传统分辨率金字塔搜索中使用的“注意力”机制工作。（a）示出了胸部的关键点的多尺度热图（b）示出了在去卷积上采样期间关键点热图的细化，其中以增加的准确度细化胸部的位置（c）示出了具有关键点连接链接的可视化的人类骨骼图。使用2D高斯模糊生成。在用于姿态估计的MSS网络的测试中，所获得的热图大多是非高斯的，其根据对象的姿态而变化。原始沙漏模型[18]中的一个关键缺陷是每个关键点热图都是独立估计的，因此没有考虑关键点之间的关系。换句话说，检测到的关键点之间的结构一致性未被优化。为了确保姿势估计流水线中的结构一致性，我们在充当中间监督的目的的MSS网络沙漏模块之间引入结构感知损失，以更好地结构感知损失也用于流水线末端的MSR-net中，以全局监督所有尺度上的所有关键点热图这样，全局一致的姿势配置可以被推断为最终输出。MSR-net回归不仅匹配个体身体关键点（一阶一致性），而且匹配相邻关键点之间的成对一致性（二阶一致性）。为了说明，手/腿w.r.t.与用于最终姿势推断的分离的、不相关的个体匹配相比，具有高置信度的头部/躯干应该提供更强的假设MSR-net被训练为在所有身体关键点、所有特征尺度和联合回归中的所有成对相关性上执行这种优化3.1多尺度监测网多尺度监督网络（MSS-网络）被设计为跨多个尺度学习深度特征。我们在MSS网络的每个deconv层执行多层监督，其中每个层对应于一定的规模。图底部的灰色方框2描述了MSS网络体系结构。多尺度监督通过使用匹配尺度中的对应的下采样的地面实况热图（例如，下采样的地面实况热图）计算每个去卷积层处的残差来执行。、1/2、1/4、1/8下采样）。具体地，为了使特征图维度相等，以便计算在对应的特征图维度处的残差。基于多尺度结构感知网络的人体姿态估计7=图4.第一章多尺度关键点回归以消除关键点热图中的多个峰的歧义。（a-b）示出了来自MSS网络沙漏堆栈的（a）关键点预测和（b）热图的示例，其将被馈送到MSR-net中用于回归。（c-d）示出了（c）输出关键点位置和（d）回归之后的热图。观察到（d）中的热图峰值与（b）相比更集中。为了减少尺度，我们使用1乘1卷积核进行降维，以将高维去卷积特征图转换为所需数量的特征，其中降维的数量与身体关键点的数量另一方面，对地面实况关键点特征图进行下采样以在每个尺度下匹配对应的所提取的关键点热图以计算残差。多尺度监督网络以类似于用于图像搜索的协同控制算法中使用的“attin模型[28]”的方式定位身体关键点。低分辨率热图中的激活区域可以为后续高分辨率层中的位置细化提供3.第三章。我们描述了损失函数LMS来训练多尺度监控网络。损失LMS通过对来自所有尺度上的所有关键点的热图的L2损失求和来定义，类似于[26，18]中的多尺度损失函数为了检测N= 16个关键点（头部、颈部、骨盆、胸部、肩部、肘部、手腕、膝盖、脚踝和臀部），在每个卷积-解卷积堆栈之后生成N个热图。第i个尺度处的损失将所有关键点的预测热图与匹配尺度处的地面实况热图进行比较：i1ΣMSNΣ||第二条第一款||2,(1)n=1x，y其中Pn（x，y）和Gn（x，y）分别表示第n个关键点的像素位置（x，y）处的预测置信度图和地面实况置信度图在标准数据集中，地面实况姿态被提供为关键点位置。我们遵循如在Tompson等人中的用于地面实况热图生成的常见实践。[24]，其中使用以关键点位置（x，y）为中心的2D高斯生成第n个关键点地面实况热图Gn（x，y），标准偏差为1个像素。图图2（左下角，第一行）示出了特定关键点的地面实况热图的一些LN8L.克，M. Chang，H. Qi，S.Lyu图五.关键点掩蔽以模拟硬训练样本。（a）是人体姿态估计中的常见情况，关键点（左手腕）被对象遮挡，但是可以从肢体估计。（c）是另一种困难的情况，其中附近人因此，存在两种关键点掩蔽，（b）是背景关键点掩蔽，其裁剪背景补丁并粘贴在关键点上以模拟不可见的关键点，（d）是关键点复制掩蔽，其裁剪关键点补丁并粘贴在另一关键点上以模拟多人或多峰关键点热图。3.2多尺度回归网络我们在MSS网络conv-deconv堆栈之后使用完全卷积的多尺度回归网络（MSR-net）来全局细化多尺度关键点热图，以提高估计姿态的结构一致性。直觉是手臂和腿的相对位置w.r.t. 头部/躯干提供有用的动作先验，其可以通过考虑用于姿势细化的所有尺度上的特征图而从回归网络中学习。MSR-net将多尺度热图作为输入，并将它们与相应尺度的地面实况关键点进行匹配。通过这种方式，回归网络可以有效地组合所有尺度上的热图以细化估计的姿势。多尺度回归网络通过基于多尺度特征确定身体关键点之间的连接性来联合优化全局身体结构配置。这可以被视为卷积部分热图回归[4]的工作的扩展，其仅考虑输入图像尺度下的关键点热图回归。具有关键点热图的输入图像可以被视为注意力方法并且提供更大的分辨率。在这种情况下，多尺度回归网络学习尺度不变和基于注意力的结构模型，从而提供更好的性能。此外，我们的多尺度回归网络优化了结构感知损失，它匹配各个关键点以及估计姿势时的高阶关联（关键点对和三元组）。来自多尺度回归网络的输出是综合姿态估计，其考虑跨多个特征尺度、多个关键点关联和高阶关键点关联的姿态配置。图4示出了在MSR-net中执行的多尺度高阶关键点回归的功效。MSR-net与MSS- net携手工作，以明确地对身体部位之间的高阶关系进行建模，使得可以保持和细化姿势结构一致性。基于多尺度结构感知网络的人体姿态估计9MS3.3结构感知损失已经观察到，更深的沙漏堆叠导致更好的姿态估计。结果[18]。随着沙漏堆栈深度的增加，梯度消失成为训练网络的关键问题，其中中间监督[26，18，12，27]是缓解梯度消失的常见做法。为此，我们设计了一个结构感知的损失函数以下的图形来模拟人体骨骼结构。具体地，我们引入了人类骨架图S（参见图1B）。3（c）用于人体骨骼图的可视化来定义结构感知损耗。每个节点Sn∈ S表示人体骨架的身体关键点及其连接的关键点，n ∈ {1，…N}个。第i个尺度的结构感知损失被正式定义为：Li= 1ΣNΣN||Pi− Gi||2+ α||Pi-Gi||2.（二）SANnnn=1SnSni=1第一项是多尺度监管损失Li在等式1中，其表示单个关键点匹配损失。第二项表示结构匹配损失，其中PSn和GSn是来自图S中的各个关键点n及其邻居的热图的组合。超参数α是平衡两项的加权参数。图2（左下）示出了如何根据S在遍历关键点及其关系时计算骨架引导的结构感知损失的分解可视化。子图中的顶行示出了在各个关键点（例如，在图1中的中间点）上定义的中间损失。右脚踝、膝盖、臀部、骨盆、胸部、头部、手腕、肘部）。底部行显示了我们为一组连接的关键点定义的结构感知损失。我们考虑连接的关键点，例如、头-胸、肩-肘、腕-肘、髋-膝、髋-髋、膝-踝。二、因为肘部和膝盖具有额外的物理连接（分别到肩部和手腕以及臀部和脚踝），所以这两个关节中的结构感知损失是三向的，以包括三个连接的关键点，例如髋-膝-踝，肩-肘-腕，如图所示。2.在所有情况下，结构上连接的关键点的列表是根据人体骨架图S凭经验确定的，使得损失可以更好地捕获人体中的关键点的物理连接性以获得结构先验。结构感知损耗在我们的网络中的两个地方使用：（1）在MSS网络堆栈之间作为中间监督的手段，以在定位关键点的同时加强结构一致性;以及（2）在MSR-net中找到全局一致的姿态配置。3.4关键点掩蔽训练在多人场景的情况下，多于一个可能的身体关键点可以在视图中共存。在遮挡情况下，无法观察到关键点。10L.克，M. Chang，H. Qi，S.Lyu为了解决这些具有挑战性的情况，我们开发了一种新的关键点掩蔽数据增强方案，以增加训练数据来微调我们的网络。具体地，关键点的遮挡是强烈影响姿态估计方法的性能的方面。如图在图5（a）中，人的左手腕被杯子遮挡，然而，遮挡的手腕实际上可以通过可见的连接关键点（左肘部）或连接手腕和肘部的库来估计。另一个困难的情况是附近有另一个人，例如。在图5（c）中，几个人紧密地站立。在这种情况下，姿态估计器可以像其所呈现的那样将该树的关键点视为关键点。使用原始训练集训练网络的一个缺点是，通常存在不足量的包含遮挡情况的示例来训练深度网络以用于准确的关键点检测/定位。传统的数据增强方法，如流行的水平翻转，随机裁剪和颜色抖动的分类，在这种情况下是没有帮助的。我们提出了一个关键点掩蔽方法来解决这个问题，通过复制和粘贴身体关键点补丁的图像上的数据增强。主要思想是生成关键点遮挡训练样本以及人工插入的关键点，使得网络可以有效地改善其在这些极端情况下的学习。该数据增强从已知的地面实况关键点注释是容易可行的具体来说，我们介绍两种类型的关键点/遮挡样本生成方法：（1）如图所示。在图5（b）中，我们复制背景补丁并将其放在关键点上以覆盖它，以便模拟关键点遮挡。这种样本对于遮挡恢复的学习是有用的（2）如图所示在图5（d）中，我们复制身体关键点补丁并将其放置到附近的背景上，以便模拟多个现有的关键点，这种情况主要发生在多人场景中。由于这种数据增强导致多个相同的关键点补丁，因此成功的姿势估计的解决方案必须依赖于某种结构推理或知识。因此，微调到我们的全局关键点回归网络是特别有益的总的来说，这种关键点掩蔽策略可以有效地提高对挑战情况的学习的关注，其中重要的身体关键点被故意掩蔽或人为地放置在错误的位置。关键点掩蔽训练在改善（1）被遮挡关键点的检测和定位以及（2）全局结构识别方面的效果将在§4.3中进行评估。4实验和分析我们在工作站上训练和测试我们的模型，工作站上有4个NVIDIA GTX1080Ti GPU和两个公共数据集MPII数据集由从具有全身姿势注释的广泛的真实世界活动中拍摄的图像组成它被认为是对资产评估的“定义”。MPII数据集包括约25K图像，其包含具有注释的身体关节的超过40K受试者，其中28K受试者用于训练，并且剩余的12k是训练数据集。基于多尺度结构感知网络的人体姿态估计11用于测试。FLIC数据集由5003张从好莱坞电影中获得的精选图像组成。图像被标注在上半身，其中主体主要面向相机，因此存在较少的关键点遮挡。由于MPII的测试注释不向公众提供，因此在我们的实验中，我们在原始训练集的子集上执行训练，并且在分离的验证集上执行超参数选择，该验证集包含大约3K个对象（在原始训练集中）。我们还报告从MPII基准4.2报告的评估结果4.1执行使用SGD优化器对相应的数据集（MPII、FLIC）进行300个时期的训练。在这项工作中，我们使用8个沙漏模块堆栈进行训练和测试。培训过程可分为三个阶段：（1）MSS-Net训练，（2）MSR-Net训练，以及（3）具有关键点掩蔽的MSS-Net和MSR-Net的联合训练。我们使用与原始沙漏工作相同的数据增强技术[18]，包括旋转（+/-30度）和在整个训练过程中缩放（.75至1.25）由于GPU内存限制，输入图像被裁剪并重新缩放为256x256像素。在第一阶段，我们训练MSS网络150个epoch，初始学习率为5e-4。当性能在8个epoch之后没有改善时，学习率降低了5倍。然后，我们在固定MSS-Net参数的情况下训练MSR-Net 75个epoch。最后，整个网络管道被训练75个epoch，并进行关键点掩蔽微调。在MPII和FLIC数据集上进行测试。由于该工作集中于单人姿态估计，并且场景中通常存在多个主体。我们使用一个条件测试方法-我们首先测试姿势估计在原始规模假设主体出现在图像中心。然后，我们检查检测到的身体关键点置信度是否低于特定阈值。如果是，则没有找到成功的人类姿势。然后，我们扰动假定的人的位置，并重复姿势发现，看看是否可以找到一个细化的姿势。关键点置信度阈值T。可以是关键点相关的，并且使用验证集凭经验确定。对于执行多个姿态估计测试试验的情况，仅选择具有高于阈值τs的分数的结果用于姿态输出的融合。τs的值也根据验证集凭经验确定。我们注意到，这种测试细化可能会降低姿态估计的测试性能，因为在该过程中还考虑了输入（人边界框）的变化。4.2评价结果使用标准的正确关键点百分比（PCK）度量[22]进行评估，该度量报告了落在地面实况的归一化距离内的对于FLIC评估，12L.克，M. Chang，H. Qi，S.Lyu表1.FLIC数据集的结果（PCK=0.2）肘手腕我是你的朋友。CVPR93.192.4我们都是。CVPR97.895.0新的一天。ECCV99.097.0我们的模型99.2 97.3表2. MPII姿态数据集（PCKh= 0.5）上的评估结果。于2018年3月15日检索结果。头肩肘腕髋膝踝合计AUC我们的方法98.596.892.788.4 90.6 89.3 86.3 92.163.8我不知道。ICCV98.196.592.588.5 90.2 89.6 86.091.961.6C ouetal. arXiv98.296.892.288.0 91.3 89.184.991.863.9Chu CVPR98.596.391.988.1 90.6 88.085.091.563.8L uvizonetal. arXiv98.196.692.087.5 90.6 88.082.791.263.9不，我不知道。TMM98.196.392.287.8 90.6 87.682.791.263.6[ 18 ]第18届中国国际汽车工业展览会98.296.391.287.1 90.1 87.483.690.962.9BlatECCV97.995.189.985.3 89.4 85.781.789.759.6[ 26 ]第26话97.895.088.784.0 88.4 82.879.488.561.4InsafutdinovE CCV96.895.289.384.4 88.4 83.478.088.560.8BelagiannisFG97.795.088.283.0 87.9 82.678.488.158.8PCK被设置为检测到的姿势关键点w.r.t. 在针对躯干尺寸的一小部分进行归一化之后的地面实况。对于MPII评估，通过头部尺寸的分数来归一化这样的差异，其被表示为PCK_h。FLIC：表1总结了FLIC结果，其中肘部的PCK达到99.2%，手腕达到97.3%。请注意，肘部和手腕是FLIC数据集中最难定位的部分。与Newell等人的比较。 [18]证明了我们的方法在MSS网络和MSR-net中的结构感知设计的改进。MPII：表2总结了MPII评价结果。观察到我们的方法在MPII基准测试的所有关键点以及AUC得分上获得了最高的总得分（92.1）和最先进的结果。在图6中，我们示出了MPII数据集上的若干姿态估计结果。在图7中，我们示出一些具有高度挑战性的例子，场景拥挤，遮挡严重。在这种情况下，我们在MPII数据集中提供的每个人的边界框上运行姿势估计。我们的方法可以提取复杂的姿态为一个字符集的零件，与其他零件的姿态和存在的遮挡的情况下，与其他的零件的姿态的影响基于多尺度结构感知网络的人体姿态估计13图六、使用我们的方法在MPII数据集上的姿态估计结果的示例。（行1）具有关键点的显著比例变化的示例。(row 2.3）多个人的例子。（行4、5）具有严重关键点遮挡的示例4.3成分分析我们进行了一系列的烧蚀实验，以研究在我们的方法中的单个组件的效果。消融研究在MPII数据集的验证集[24]上进行。请注意，我们的方法可以简化为Newell等人的原始沙漏模型。[18]在所有新提出的特征被删除后。因此，我们分析每个建议的网络设计，即。，MSS-网络，MSR-net，结构感知损失和关键点掩蔽，通过与Newell等人进行比较，在PCK h = 0时基线得分为87.1%。5.多尺度监督（无结构感知损失的MSS网络）：我们首先评估了多尺度监管的效果。通过在沙漏模型[18]的deconv层添加多尺度监督，PCKh评分从87.1%提高到87.6%，并且还具有显著的计算减少。14L.克，M. Chang，H. Qi，S.Lyu图7.第一次会议。姿态估计结果与我们的方法对两个非常具有挑战性的图像从MPII数据集与拥挤的场景和严重的闭塞。我们的方法可以可靠地恢复每个目标人物的复杂姿势。这是因为原始沙漏方法[18]是用多个尺度（我们的实验中为6个尺度）的输入图像进行测试的，而我们的多尺度监督网络的评估只需要在原始尺度输入中测试一次我们的方法不需要重复运行和不同尺度的融合作为后处理。多尺度回归（没有结构感知损失的MSS-网络和MSR-net）：为了证明多尺度回归的贡献，我们评估了我们的训练管道的第二阶段（即，第二阶段）的效果。在MSS网络被训练之后的MSR-net，而没有关键点掩蔽微调）。此处PCKh评分为88.1%，多尺度回归带来0.4%的改善。结构感知损失（MSS网络和具有结构感知损失的MSR-net）：我们的消融管道中的下一个是在MSS-网络和MSR-net的训练中使用结构感知损失，与等式1中定义的原始损失相比。我们在这里获得的PCKh得分为88.3%，这是使用结构感知损失进行训练所带来的0.3%的改进关键点遮罩：经过75个epoch的关键点掩蔽微调在MSS网络和MSR-net管道与结构感知的损失，我们实现了88.4%的PCK h得分。在本消融研究中，关键点掩蔽可使PCKh改善0.1%5结论我们描述了一种改进的多尺度结构感知网络的人体姿态估计。所提出的多尺度方法（多尺度监督和多尺度回归）与结构感知损失设计携手工作，以推断检测到的身体关键点的高阶结构匹配，这可以在复杂活动、严重遮挡、多个主体和杂乱背景的挑战性情况下改进姿势估计所提出的关键点掩蔽训练可以将网络的学习集中在困难的样本上。我们的方法在MPII挑战排行榜中处于领先地位。消融研究显示了每个拟议组件的贡献和优势。基于多尺度结构感知网络的人体姿态估计15引用1. Andriluka，M.，Pishchulin，L. Gehler，P. Schiele，B.：2D人体姿态估计：新的库存和库存管理系统。 In：CVPR. pp. 36862. B elagianniss，V.， Zisserman，A. ：重新生成hummanposestimation。 FGpp.4683. Bourdev，L.Malik，J.：Poselets：使用3D人体姿势神经网络训练的身体部位检测器。In：ICCV.pp. 第13654. Bulat，A.，Tzimiropoulos，G.：通过卷积部分的人体姿态估计是一个预处理过程。 ECCVpp. 7175. Chang，M.，H.Qi，Wang，X.，郑洪，Lyu，S.：快速在线上半身姿势是从视频中提取的。In：BMVC.pp. 一百零四112个。03TheDog（2015）6. Charles，J. Pfister，T.，Magee，D.，Hogg，D.，齐瑟曼，A.：签名电视广播中的上身姿势跟踪的域适应。电影BMVC（2013）7. 陈玉，Shen，C.，Wei X.S.刘，L.，Yang，J.：对抗性posenet：一种用于人体姿态估计的结构感知卷积网络。在： 2017 IEEE Interna-tionalConferenceonComputerVision（ICCV）中。pp. 12 218. Cherian，A.，Mairal，J.，Alahari，K.，Schmid，C.：混合人体部位序列的人体模型。In：CVP R.pp. 23619. Chou，C.，Chien，J.，Chen，H.：人体姿态估计的自对抗训练CoRRabs/1707.02439（2017），http://arxiv.org/abs/1707.0243910. Chu，X.，欧阳，W.Li，H.，Wang，X.：用于姿态估计的结构化特征学习。In：CVP R.pp. 471511. Chu，X.，欧阳，W.Li，H.，Wang，X.：用于姿态估计的结构化特征学习。In：CVP R.pp. 471512. Chu，X.，杨伟，欧阳，W.马，C.，尤伊尔，A.L.，Wang，X.：人体姿态估计的多上下文注意。在：2017 IEEE Conference on ComputerVisionandPattern Recognit ion（CVP R）中。pp. 566913. Insafutdinov，E.，Pishchulin，L.Andres，B.，Andriluka，M.，Schiele，B.：DeeperCut：深度切割、存储和快速切割。ECCVpp.3414. Lafferty，J.：条件随机场：用于分段和LabelinggSeq ue nceData的概率模型。In：ICML.pp. 28215. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD：单次触发多盒探测器。In：ECCV（2016）16. 刘志， Zhu ， J. ， Bu ， J. ， Chen ， C. ：人体姿态估计综述。 JournalofVisualCommunicatinandImgeRepr ere rentin32，1017. 哥伦比亚特区吕维松Tabia，H.，Picard，D.：结合间接部位检测和上下文信息的人体姿态回归 CoRR abs/1710.02322 （ 2017 ），http://arxiv.org/abs/1710.0232218. Newell，A.，杨，K.，Deng，J.：用于人体姿态估计的堆叠沙漏网络。In：ECCV. pp. 48319. Ning ， G. ，他， Z. ：用于多人姿态估计的双路径网络。 CoRRabs/1710.10192（2017），http://arxiv.org/abs/1710.1019220. Pfister，T.，Charles，J.齐瑟曼，A.：用于虚拟机中人体姿态估计的流卷积。 In：ICCV. pp. 191321. 萨普湾Taskar，B.：人体姿态估计的多模态可分解模型。In：CVPR. pp.367422. Tompson，J.戈罗申河Jain，A.，Lecun，Y.，Bregler，C.：高效的对象本地化操作可在网络上运行。 CVPRpp. 64816L.克，M. Chang，H. Qi，S.Lyu23. J.J.汤普森Jain，A.，LeCun，Y.，Bregler，C.：卷积神经网络和图形模型的联合训练用于人体模型。 In：NIPS27。pp. 179924. J.J.汤普森Jain，A.，LeCun，Y.，Bregler，C.：卷积神经网络和图形模型的联合训练用于人体模型。 In：NIPS. pp. 179925. Toshev，A. Szegedy，C.：Deeppose：通过深度神经网络进行人体姿势估计。 CVPRpp. 165326. 魏，S.，Ramakrishna，V.，Kanade，T.，Sheikh，Y.：卷积姿势机器。CVPRpp. 472427. 杨伟，Li，S.，欧阳，W. Li，H.，Wang，X.：用于人体姿势估计的学习特征金字塔。 2017 IEEE International Conference on Computer Vision（ICCV）. pp. 129 028. Zhao，B.，Wu，X.，中国农业科学院，冯杰，彭昆，Yan，S.：用于细粒度对象分类的多样化视觉注意力网络。IEEE Transactions on Multimedia 19（6），1245

下载后可阅读完整内容，剩余1页未读，立即下载