HigherHRNet:高效尺度感知的自底向上人体姿态估计方法

96 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5386CNNCNN热图聚合CNNHRNetHigherHRNet：自底向上人体姿态估计的尺度感知表示学习程博文1，肖斌2，王敬东2，石红辉1，3，Thomas S.Huang1，Lei Zhang21 UIUC，2Microsoft，3俄勒冈大学摘要自下而上的人体姿态估计方法具有不同的由于尺度变化的挑战，在预测小人物的正确姿势方面存在局限性。在本文中，我们提出了HigherHRNet：一种新颖的自底向上的人体姿态估计方法，用于使用高分辨率特征金字塔来学习尺度感知表示。该方法采用多分辨率监督进行训练，采用多分辨率聚合进行推理，能够解决自底向上多人姿态估计中尺度变化的挑战，并能够更精确地定位关键点，尤其是对小个子人。HigherHRNet中的特征金字塔由HRNet的特征图输出和通过转置卷积的上采样高分辨率输出组成。HigherHR-Net比之前最好的自下而上方法的性能高出2。在COCO测试开发中，中等人的AP为5%，显示了其处理规模变化的有效性。此外，HigherHRNet在COCO测试开发（70。5%AP），而无需使用细化或其他后处理技术，超越了所有现有的自下而上的方法。HigherHRNet在CrowdPose测试中甚至超过了所有自上而下的方法（67. 6%AP），表明其在拥挤场景中的鲁棒性。代码和模型可在https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation上获得。(a) 图像金字塔。(b) 上采样输入。(c) 我们的方法。图1. (a)使用图像金字塔进行热图预测[33，30]。(a)通过对图像进行上采样来生成更高分辨率和空间上更准确的热图。最近的工作PersonLab [33]依赖于放大输入图像大小以生成高质量的特征图。（c）我们的HigherHRNet使用高分辨率特征金字塔。单人姿态估计的更复杂任务。由于自上而下的方法可以通过裁剪和裁剪检测到的人边界框来将所有人标准化到近似相同的尺度，因此它们通常对人的尺度变化不太敏感因此，在各种多人人体姿势估计基准1. 介绍2D人体姿态估计旨在定位人体解剖关键点（例如，、肘、腕等。）或零件。作为人类行为理解的基础技术，近年来受到越来越多的关注。目前的人体姿态估计方法可以分为自顶向下方法和自底向上方法。自上而下的方法[34，9，16，42，38，40，39，16]依赖于人检测器来检测每个具有边界框的人实例，然后将问题简化为一个简单的问题。大多是通过自上而下的方法实现的。然而，由于这样的方法依赖于单独的人检测器并且需要单独地估计每个人的姿态，因此它们通常是计算密集型的并且不是真正的端到端系统。相比之下，自下而上的方法[3，30，33，22]通过预测不同解剖关键点的热图来定位输入图像中所有人的无身份关键点该策略有效地使得自底向上方法更快并且更能够实现实时姿态估计。然而，由于自底向上方法需要处理尺度变化，自底向上和自顶向下CNN热图聚合5387方法，特别是对小规模的人。在预测小人物的关键点方面主要存在两个挑战。一个是处理规模变化，即。以提高小个子的表现而不提高大个子的表现。另一种是生成高质量的高分辨率热图，用于精确定位小人物的关键点。先前的自下而上方法[3，30，33，22]主要集中于对关键点进行分组，并且简单地使用输入图像分辨率的1/4的特征图的单个分辨率来预测关键点的热图这些方法忽略了尺度变化的挑战，并在推理过程中依赖于图像金字塔（图1（a））。特征金字塔是处理尺度变化的基本组件，然而，自顶向下特征金字塔中的较小分辨率特征图通常遭受第二个挑战。PersonLab [33]通过提高输入分辨率来生成高分辨率热图（图1（b））。虽然小个子的成绩随着输入分辨率的提高而提高，但是当输入分辨率太大时，大个子的成绩开始下降。为了解决这些挑战，至关重要的是以自然和简单的方式生成空间上更准确和尺度感知的热图以用于自下而上的关键点预测，而不牺牲计算成本。在本文中，我们提出了一个规模感知的高分辨率网络（HigherHRNet）来解决这些挑战。HigherHRNet通过新的高分辨率特征金字塔模块生成高分辨率热图。与从1/32分辨率开始并使用具有横向连接的双线性上采样以逐渐将特征图分辨率增加到1/4的传统特征金字塔不同，高分辨率特征金字塔直接从1/4分辨率开始，这是骨干中的最高分辨率特征，并通过去卷积生成更高分辨率的特征图（图1（c））。我们在HRNet的1/4分辨率路径上构建高分辨率特征金字塔[38，40]，使其高效。为了使HigherHRNet能够处理尺度变化，我们进一步提出了一种多分辨率监督策略，将不同分辨率的训练目标分配到相应的特征金字塔级别。最后，我们在推理过程中引入了一个简单的多分辨率热图聚集策略，以生成尺度感知的高分辨率热图。我们在具有挑战性的COCO关键点检测数据集[27]上验证了我们的方法，并展示了优越的关键点检测性能。具体而言， HigherHRNet 实现了 70 的 AP 。在COCO2017测试开发中，没有任何后处理，性能超过所有现有的自底向上方法。此外，我们观察到大部分增益来自中等人（关键点检测任务没有小人注释），HigherHRNet比以前最好的自下而上方法高出2。5%AP对于没有圣礼的中等人-大人物的表现（ +0 。 3%AP ）。该实验验证了HigherHRNet确实解决了规模变化的挑战。我们还为新的CrowdPose [24]数据集上的自底向上方法提供了坚实的基线。我们的 HigherHRNet 达到 AP 67 。在CrowdPose测试中获得6%的成功率，超过了现有的所有方法。这一结果表明，自下而上的方法在拥挤的场景中自然具有优势。总结我们的贡献：• 我们试图解决尺度变化的挑战，这是以前很少研究自下而上的多人姿态估计。• 我们提出了一个HigherHRNet，它在训练阶段使用多分辨率超视生成高分辨率特征金字塔，在推断阶段中的热图聚合以预测对小个子有益的尺度感知高分辨率热图。• 我们在具有挑战性的 COCO 数据集上证明了HigherHRNet的有效性我们的模型优于所有其他自底向上的方法。我们特别注意-为中等人群提供了巨大的收益。• 我们在Crowd-Pose数据集上实现了一个新的最先进的结果，表明自底向上的方法比自顶向下的方法对拥挤的场景更鲁棒。2. 相关作品自上而下的方法。自上而下的方法[42，38，40，34，16，18，15，9，31]检测单个人的关键点在一个人的边界框内。人物边界框通常由对象检测器生成[36，26，14，13]。Mask R-CNN [16]直接在FasterR-CNN [36]上添加关键点检测分支，并在ROIPooling之后重用功能G-RMI [34]和以下方法进一步将自上而下的方法分解为两个步骤，并使用单独的模型进行人员检测和姿态估计。自下而上的方法。自下而上的方法[35，19，20，3，30]检测图像中所有人的无身份身体关节，然后将其分组为个体。OpenPose [3]使用两个分支的多级网络，其中一个分支用于热图预测，另一个分支用于分组。Open-Pose使用一种名为part affinity field的分组方法，该方法学习连接两个关键点的2D向量场。通过计算两个关键点之间的线积分并将具有最大积分的对分组来完成插值Newell等人。 [30]使用堆叠沙漏网络[31]进行热图预测和分组。隐藏是通过名为associate embedding的方法完成的美国[33]538824扩展ResNet [17]并通过直接学习每对关键点的2D偏移字段来对关键点进行 PifPaf [22] 使用部分强度场（PIF）来定位身体部位，并使用部分关联场（PAF）将身体部位彼此关联以形成完整的人体姿势。特征金字塔。金字塔表示已被广泛采用在最近的对象检测和分割框架中以处理尺度变化。SSD [29]和MS-CNN [2]在网络的多个层预测对象，而不合并特征。特征金字塔网络[26]通过自上而下的路径扩展了主干模型，该路径使用双线性上采样和横向连接逐渐将特征分辨率从1/32恢复到1/4。共同的动机是让来自不同金字塔级别的特征预测不同尺度的实例。然而，这种金字塔表示在自下而上的多人姿态估计中较少被探索。在这项工作中，我们设计了一个高分辨率的特征金字塔，扩展金字塔到不同的方向，从1/4分辨率的特征开始，并生成具有更高分辨率的特征金字塔。高分辨率特征地图。生成高分辨率特征图的方法主要有4种。(1)编码器-解码器[31，16，9，37，1，25，41，10]捕获编码器路径中的上下文信息并恢复解码器路径中的高分辨率特征解码器通常包含一系列双线性上采样操作，其中具有来自具有相同分辨率的编码器特征的跳过(2)扩张的卷积[44、5、6、7、8、4、28、43、11、12]（也称为“Atrous”卷积）被用于去除几个步幅卷积/最大池化以保持特征图分辨率。扩展卷积防止丢失空间信息，但引入了更多的计算成本。(3)反卷积（转置卷积）[42]在网络末端按顺序使用，以有效地SimpleBaseline [42]证明去卷积可以生成用于热图预测的高质量特征图。(4)最近，高分辨率网络（HRNet）[38，40]被提出作为在整个网络中保持高分辨率的有效方法HRNet [38，40]由具有不同分辨率的多个分支组成。较低分辨率的分支捕获上下文信息，而较高分辨率的分支保留空间信息。通过分支之间的多尺度融合，HRNet [38，40]可以生成具有丰富语义的高分辨率特征图。我们采用HRNet [38，40]作为我们的基础网络来生成高质量的特征图。我们增加了一个反卷积模块来生成更高分辨率的特征图来预测热图。由此产生的模型被命名为由于HR-Net [38，40，40]和去卷积都是有效的，因此HigherHR-Net是用于生成用于热图预测的更高分辨率特征图的有效模型。3. 高分辨率网络在本节中，我们将介绍我们提出的使用 High-erHRNet的尺度感知高分辨率表示学习。图2说明了我们方法的整体架构我们将首先简要介绍所提出的HigherHRNet，然后详细描述其组成部分。3.1. HigherHRNetHRNet. HigherHRNet使用HRNet [38，40]（如图2所示）作为主干。HRNet [38，40]在第一阶段以高分辨率分支在接下来的每个阶段中，新分支与当前分支中的最低分辨率的1并行地添加到当前分支由于网络具有更多的阶段，它将具有更多的具有不同分辨率的并行分支，并且来自先前阶段的分辨率都在稍后的阶段中被保留图2中示出了包含3个并行分支的示例网络结构。我们使用与HRNet类似的方式实例化主干[38，40]。该网络从一个由两个跨越的3 ×3卷积组成的干开始，解决方案1/4第一阶段包含4个剩余单元，每个单元由宽度（通道数）为64的瓶颈形成，随后是一个3×3卷积，将特征图的宽度减小到C。第2、3、4级分别包含1、4和3个多分辨率块。四种分辨率的卷积宽度分别为C、2C、4C和8C。多分辨率组卷积中的每个分支有4个残差单元，每个单元在每个分辨率下有两个3×3卷积。我们前-实验中，两个网络的容量不同，C组分别为32和48HRNet [38，40]最初被设计用于自顶向下的姿态估计。在这项工作中，我们采用HRNet [38，40]，通过添加1×1卷积来预测类似于[30]的热图和标签图，采用自底向上的方法。我们只使用最高分辨率（输入图像的1为了预测。在[30]之后，我们对每个关键点使用标量标签。HigherHRNet. 热图的分辨率对于预测小人物的关键点是重要的。大多数已知的人类姿势估计方法通过准备具有应用于每个关键点位置的非归一化高斯核的添加该高斯核有助于训练网络，因为CNN倾向于输出空间平滑的响应，这是卷积操作的本质。然而，应用高斯核也在关键点的精确定位中引入混淆，特别是对于属于小人物的关键点。减少这种混乱的一个简单的解决方案是减少高斯分布的标准差53894图2. HigherHRNet的一个例子。该网络使用HRNet [38，40]作为主干，随后是一个或多个反卷积模块以生成多分辨率和高分辨率热图。多分辨率监控用于培训。更多细节见第3节。香核然而，我们的经验发现，它使优化更难，并导致更糟糕的结果。我们没有降低标准差，而是通过在不同分辨率下标准差不变的情况下以更高分辨率预测热图来解决这个问题。自下而上的方法通常在分辨率输入图像的1但是我们发现这个分辨率并不高足以预测准确的热图。受[42]的启发，它表明反卷积可以用于有效地生成高质量和高分辨率的特征图，我们通过添加第3.3节中讨论的反卷积模块，在HRNet中的最高分辨率特征图之上构建HigherHRNet，如图2所示。去卷积模块将来自HRNet的特征和预测热图两者作为输入，并生成分辨率比输入特征图大2倍的新特征图因此，反卷积模块与HRNet的特征图一起生成具有两种分辨率的特征金字塔。去卷积模块还通过添加额外的1×1卷积来预测热图。第我们按照第3.4节训练热图预测器，不同的分辨率，并使用（第3.5节）中所述的热图聚合策略进行推理。如果需要更大的分辨率，可以添加更多的反卷积模块我们发现，反卷积模块的数量依赖于数据集的个人尺度的分布。一般来说，包含较小的人的数据集需要较大分辨率的特征图来进行预测。反之亦然。在实验中，我们发现添加单个反卷积模块在COCO数据集上实现了最佳性能3.2. 分组。最近的工作[30，23]表明，分组可以通过使用关联嵌入的简单方法高精度地解决[30]。作为证据，[ 30 ]中的实验结果表明，使用具有预测标签的地面实况检测将AP从59. 2到940在COCO关键点检测数据集的500个训练图像的保持集上[27]。我们遵循[30]使用关联嵌入进行关键点分组。分组过程通过将其标签具有小l2距离的关键点分组来将无身份关键点聚类为个体。3.3. 反卷积模块我们提出了一个简单的反卷积模块，用于生成高质量的特征图，其分辨率是输入特征图的两倍。在[42]之后，我们使用4×4反卷积（a.k.a. 转置卷积），然后是BatchNorm和ReLU，以学习对输入特征图。可选地，我们可以在去卷积后进一步添加几个基本残差块[17]，以细化上采样的特征图。我们在HigherHRNet中添加4个残差与[42]不同的是，我们的反卷积模块的输入是特征图和预处理的级联。53904δ（vi>0）从HRNet或以前的反卷积模块中提取的热图。并且每个去卷积模块的输出特征图也用于以多尺度方式预测热图。3.4. 多分辨率监控与其他自下而上的方法[30，33，3]不同，这些方法仅对最大分辨率的热图进行监督，我们在训练过程中引入了多分辨率监督来处理尺度变化。我们将地面实况关键点位置转换为所有分辨率的热图上的位置，以生成具有不同分辨率的地面实况热图。然后，我们将具有相同标准差的高斯内核（默认情况下，我们使用标准差=2）应用于所有这些真实热图。我们发现重要的是不要缩放高斯核的标准差。这是因为不同分辨率的特征金字塔适合于预测不同尺度的关键点.在较高分辨率的特征图上，期望相对小的标准偏差（与特征图的分辨率一致）以更精确地定位小人物的关键点。在HigherHRNet中的每个预测尺度上，我们计算该尺度的预测热图与其相关的地面实况热图之间的均方误差。热图的最终损失是所有分辨率的均方误差之和。值得强调的是，由于以下原因，我们没有将不同规模的人分配到特征金字塔的不同级别。首先，用于分配训练目标的启发式算法取决于数据集和网络架构。很难将FPN [ 26 ]的启发式转换为HigherHRNet，因为数据集（人员与所有对象）和架构（High-erHRNet只有2层金字塔，而FPN有4层）发生变化。其次，地面实况关键点目标相互作用，因为我们应用高斯核。因此，很难通过简单地设置忽略区域来解耦关键点。我们相信模型有能力自动关注特征金字塔不同层次中的特定尺度。标记图的训练方式与High-erHRNet中的热图不同。我们只预测最低分辨率的标记图这是因为学习tagmap需要全局推理，并且更适合在较低分辨率下预测tagmap。从经验上讲，我们还发现更高的分辨率不能很好地学习预测tagmap，甚至不能收敛。因此，我们遵循[30]以输入图像的13.5. 用于推理的热图聚合我们提出了一个热图聚合策略在推理。我们使用双线性插值对所有预测的热图进行上采样，并将不同的分辨率提高到分辨率。计算输入图像的分辨率，并对所有尺度的热图进行平均，以进行最终预测。这种策略与以前的方法[3，30，33]完全不同，以前的方法仅使用来自单个尺度或单个阶段的热图进行预测。我们使用热图聚合的原因是能够实现尺度感知的姿态估计。例如，COCO Keypoint数据集[27]包含从322像素到超过1282像素的大规模变化的人。自上而下的方法[34，9，42]通过规范化每个子区域近似为单一尺度。然而，自底向上的方法需要知道尺度，以从所有尺度检测关键点。我们发现HigherHRNet中不同尺度的热图可以更好地捕捉不同尺度的关键点。举例来说，可在较高分辨率热图中恢复在较低分辨率热图中遗漏的小个体的关键点。因此，对来自不同分辨率的预测热图进行平均，使HigherHRNet成为一个尺度感知的姿态估计器。4. 实验4.1. COCO关键点检测数据集。COCO数据集[27]包含了超过20万张图像和25万个人物实例，并标记了17个关键点。COCO被划分为分别具有57k、5k和20k图像的train/val/test-dev集。本文中的所有实验都是在训练集上训练的我们报告消融研究val集的结果，并与测试开发集的其他最先进方法进行比较。评价指标。标准评估度量基于对象关键点相似性（OKS）：OKS =exp（−d2/2s2k2）δ（vi>0）伊吉岛这里d i是欧几里得距离我在检测到的关键点和其对应的地面是地面实况的可见性标志，s是对象比例，并且ki是控制衰减的每关键点常数。我们报告标准平均精度和重新调用得分 1 ： AP50 （ AP 在 OKS=0. 50 ），AP75，AP（在OKS = 0. 50，0。55，。- 是的- 是的、0. 90，0。95），APM用于中型物体，APL用于大型物体，以及AR（在OKS = 0. 50，0。55，。- 是的- 是的、0. 90，0。（第95段）。训练在[30]之后，我们使用随机旋转（[-30，30]），随机缩放（[0. 75，1。5]）、随机平移（[-40，40]）以裁剪大小为512×512的输入图像块以及随机翻转。如3.4节所述，我们生成了两个分辨率分别为128×128和256×256的真实热图。我们使用亚当优化器[21]。基本学习率被设置为1e-3，并分别在第200和260个时期下降到1e-4和1e-5我们总共训练了300个epoch。为了平衡热图损失和分组损失，我们将这两个损失的权重分别设置为1和1e−31http://cocodataset.org/#keypoints-eval5391方法骨干输入大小#参数GFLOPSAPAP50AP75APMAPLw/o多尺度试验OpenPose [3]†[30]第三十话个人实验室[33]PifPaf [22]自下而上HRNet自上而下HigherHRNet（Ours）HigherHRNet（Ours）-沙漏ResNet-152-HRNet-W32HRNet-W32HRNet-W48-5121401-512512640-277. 8M68岁7M-28.5 M28.6 M63岁8M-206.9405 5-三十八岁。9四十七9一百五十四361岁8五十六666岁。566岁。7六十四166岁。468.484. 981. 888岁0-86岁。387岁588.267 5六、817 .第一次会议。62.-70 47 .第一次会议。82.75.1五十七1四十九862. 462. 4五十七461岁264.468岁267岁0七十二3七十二9七十三。974岁274.2w/多尺度测试[30]第30话：我的世界，我的世界[33]沙漏HourglassResNet-152HRNet-W485125121401640277. 8M277. 8M68岁7M63岁8M206. 9206. 9405 5一百五十四363岁0六十五568岁770.5八十五786岁。889岁。089.368 97 .第一次会议。327 .第一次会议。45.77.2五十八0六十岁。6六十四166.6七十4七十二675. 575.8†表示使用细化。我们的实现，未在[38，40]表1.与COCO2017测试开发集上的自底向上方法进行比较所有GFLOP均以单尺度计算对于人-实验[33]，我们只计算它的主干上图：无多尺度测试。底部：w/多尺度测试。值得注意的是，我们的结果是在没有细化的情况下实现的。上而下的方法自下而上办法表2.与自顶向下和自底向上方法的比较COCO 2017测试开发结果表1总结了COCO 2017测试开发数据集的结果。从结果中，我们可以看到，使用HRNet [38，40]本身已经成为自底向上方法的简单而强大的基线（64. 1AP）。我们的HRNet基线方法仅使用单尺度测试，优于使用多尺度测试的 Hourglass[30]，而HRNet在FLOP方面的参数和计算要少得多。我们提出的 HigherHRNet （ 66. 4 AP ）的性能超过HRNet +2。3 AP，参数仅略有增加（+0。4%）和FLOP（+23。1%）。HigherHR-Net与PersonLab [33]相当，但只有50%的参数和11%的FLOP。如果我们进一步使用多尺度测试，我们的HigherHRNet达到70。5AP，大大优于我们不使用任何后处理，如在[3，30]中使用自上而下的方法进行精炼。COCO2017测试开发数据集。*表示使用细化。+的方法采用多尺度检验。方法壮举. 步幅/分辨率AP APM APLHRNet4/ 128六十四457 一百七十五。6HigherHRNet2/ 25666岁。9610757HigherHRNet1/ 51266岁。561 一百七十四。9表3. HRNetvs. COCO2017 val数据集上的HigherHRNet。使用HigherHRNet的一个反卷积模块在COCO数据集上执行得最好。试验. 我们首先将输入图像的短边调整为512，并保持长宽比。热图聚合是通过将所有预测的热图缩放到输入图像的大小并取平均值来完成的。在[30]之后，翻转测试用于所有实验。所有报告的数字都是用单个模型获得的，没有集成。方法AP AP50 AP75 APM APL AR[16]第十六话G-RMI [34][34]第九届中国国际汽车工业展览会[编辑]RMPE [15][18]第十八话尼泊尔共产党（全体）[9][42]第四十二话HRNet-W48 [38，40]HRNet-W48+额外数据[38，40]63岁1六十四967岁868岁5七十二1七十二3七十二6七十三。0七十三。775.5七十七。087岁3八十五588岁287岁191. 489岁。286岁。191. 791. 992. 592. 768岁7七十一374岁875. 5八十079岁。169岁。7八十981. 183岁384. 5五十七862. 363岁9六十五868岁768岁078岁369岁。5七十3七十一9七十三。4七十一4七十074岁0七十三。3七十七。278岁6六十四178岁1八十081.583岁1-69岁。7-七十三。378岁5--79岁。079岁。0八十582岁0OpenPose浏览器 [3][30]第三十话PifPaf [22]SPM [32]PersonLab+ [33]我们的：HigherHRNet-W 48+61岁8六十五566.766.968岁7七十584. 986岁。8-88.589岁。089岁。367岁5七十二3-72.975. 4七十七。2五十七1六十岁。662.462.6六十四166岁。668岁2七十二672.973.175.575.866岁。5七十2--75.474岁95392表2列出了自底向上和自顶向下的方法COCO2017测试开发数据集。HigherHRNet进一步缩小了自下而上和自上而下方法之间的性能差距。4.2. 消融实验我们在COCO 2017 [27] val数据集上进行了大量消融实验，以HRNet 与 HigherHRNet. 我们进行了比较 HRNet 和HigherHRNet的消融研究。对于HigherHRNet，使用没有额外残差块的反卷积模块，并使用热图聚合进行推理。结果如表3所示。使用HRNet的简单自底向上基线，特征步幅为4，实现AP =64。4.第一章通过添加一个反卷积模块，我们的特征步幅为 2 的HigherHRNet的性能比HRNet高出+2。5 AP（实现66.9AP）。此外，主要5393HRNet1/41/41/41/41/4HRNet（一）二分之一（b）第（1）款1/2（c）第（1）款1/2(d)1/2(e)图3. (a)使用HRNet [38，40]作为主干的基线方法。(b)HigherHRNet支持多分辨率监控（MRS）。(c)High-erHRNet与MRS和功能连接。(d)HigherHRNet与MRS和功能连接。(e)HigherHRNet具有MRS、特征连接和额外的残差块。对于（d）和（e），使用热图聚合。网络带MRS功能连接使用热图聚合额外保留地块APAPMAPL（一）HRNet六十四4五十七175. 6（b）第（1）款HigherHRNetC66岁。0六十岁。774岁2（c）第（1）款HigherHRNetCC66岁。3六十岁。874岁0（d）其他事项HigherHRNetCCC66岁。961岁075. 7（e）HigherHRNetCCCC67岁161岁5七十六。1表4. COCO 2017 val数据集上HigherHRNet组件的消融研究MSR：多分辨率监控。功能联系人：功能连接。res.块：剩余块。改善来自中等人群，其中AP M从57改善。HRNet为1至61。0表示HigherHRNet。这些结果表明，HigherHRNet在小尺度下的表现要好得多，这要归功于其更高分辨率的热图。我们还发现大人物姿势的AP没有下降。这主要是因为我们也使用较小分辨率的热图进行预测。这表明：1）在更高分辨率下进行预测有利于自底向上的姿态估计，2）尺度感知预测是重要的。如果我们在HRNet之后添加一系列两个反卷积模块以生成与输入图像具有相同分辨率的特征图，我们观察到性能下降到66。5AP从669AP，用于仅添加一个去卷积模块。中等人的改善是边际的（+0。1AP），但大人物的平均寿命大幅下降（-0。8AP）。我们假设这是因为特征图比例和对象缩放。更高分辨率的要素地图（要素步幅=1）对于从甚至更小的人检测关键点是好的，但是COCO中的小的人不被考虑用于姿态估计。因此，对于COCO数据集，我们默认只使用一个反卷积模块。但是我们想指出的是，级联反卷积模块的数量应该取决于数据集，我们将在未来的工作中在更多的数据集上验证这一点。更高的HRNet增益击穿。到更好为了了解所提出的组件的增益，我们对每个单独的组件进行详细的消融研究。图3-CHRNetCHRNetHRNetC特征图conv.块损失热图预测身份解卷积模块Cconcat.5394阐明了我们实验的所有架构。结果示于表4中。反卷积模块的效果。我们对添加去卷积模块以生成更高分辨率热图的效果进行了消融研究。为了公平比较我们仅使用最高分辨率的特征图来生成用于预测的热图（图3（b））。HRNet（图3（a））的基线为64。4美联社。通过增加一个反卷积模块，该模型达到了66. 0AP，1 .一、6AP优于基线。这种改进完全是由于预测更大的特征图具有更高的质量。结果验证了我们的主张，这是重要的是，在更高分辨率的特征地图预测自底向上姿态估计功能连接的效果。我们将特征图与来自HRNet的预测热图连接起来作为去卷积模块的输入（图3（c）），性能进一步提高到66。3美联社。我们还观察到，在中等人中获得较大的增益，而对于大个子人的性能降低。比较方法（a）和（c），以更高分辨率预测热图的增益主要来自中等人（+3。7APM）。而且大人物（-1）6AP）证明了我们的说法，即不同分辨率的特征图对不同规模的人。热图聚合的效果。我们进一步使用遵循热图聚合策略的热图的所有分辨率进行推断（图3（d））。与Fig相比，5395方法AP AP50 AP75 APE APM APH上而下的方法[16]第十六话[第15话]五十七261岁083岁581. 3六十岁。366岁。069岁。4七十一2五十七961岁4四十五851岁1表5. 在COCO 2017 val数据集上使用不同训练图像大小的HigherHRNet消融研究。自顶向下的细化SPPE [24]66岁。084. 2 七十一575. 5 66岁。3五十七4自下而上办法骨干#参数GFLOPSAP APM APLHRNet-W3228岁6四十七8 68岁564 3753表7.与自顶向下和自底向上方法的比较HRNet-W4044. 5一百一十769岁。2649759在CrowdPose测试数据集上。AP的上标E、M、H代表HRNet-W4863岁8一百五十四369岁。965.476. 4简单，中等和硬。+表示使用多尺度检验。表6. COCO 2017 val数据集上具有不同主干的HigherHRNet的消融研究。条例草案第3（c）（66. 3 AP），应用热图聚合策略实现了66. 9AP.比较方法（d）和（e），热图聚合的增益来自大的人（+1。7AP）。而大个子的表演甚至略好于在较低分辨率下的预测（方法（a））。这意味着使用热图聚合策略预测热图是真正的规模感知。额外残留块的影响。我们在反卷积模块中添加4个残差块，我们的最佳模型达到67岁1个AP。添加残差块可以进一步细化特征图，并且它同等地增加了中型和大型人的AP。使用较大的图像尺寸进行训练。一个自然的问题是，使用更大的输入大小进行训练是否可以进一步提高性能？为了回答这个问题，我们训练HigherHRNet使用640×640和768×768，结果如表5所示，所有三个模型都使用训练图像大小进行了测试。我们发现，通过将训练图像大小增加到640，可以获得1的显著增益。4美联社。大部分的收益来自于中间人，大的人稍微退化当我们进一步将训练图像大小更改为768时，整体AP不再改变。我们观察到中等人的边际改善以及大人的大幅退化。更大的脊椎。在以前的实验中，我们使用HRNet-W32（1/4分辨率特征映射有32个通道）作为骨干。我们使用较大的骨干HRNet-W 40和HRNet-W 48进行实验。结果示于表6中。我们发现，使用较大的骨干一贯提高- proves性能为中型和大型的人。4.3. 人群姿势CrowdPose [24]数据集由20，000张图像组成，包含约80，000人。训练、验证和测试子集按5：1：4的比例划分。Crowd- Pose比COCO关键点有更多拥挤的场景数据集，对姿势估计方法提出了更多的挑战。评价指标与COCO相同[27]。自上而下的方法假设每个人检测只包含中心的一个人如表7所示，在COCO上表现良好的自顶向下方法[16，15]在CrowdPose数据集上失败。另一方面，自底向上的方法在拥挤的场景中自然具有优势。验证HigherHRNet在拥挤场景中的鲁棒性，并为自底向上方法建立强大的基线。我们在CrowdPose训练集和val集上训练我们最好的HigherHRNet-W 48模型，并在测试集上报告性能。所有培训参数完全遵循COCO，我们使用的裁剪尺寸为640×640用于训练和测试。结果示于表7中。我们的HigherHRNet-执行简单的自上而下的方法，6.6 AP. HigherHRNet还优于之前的最佳方法[24]（其执行自顶向下方法[15]的全局细化），其健康裕度为1.6AP ，并且大部分增益来自 APM（+1.8 AP ）和 APH（+1.5 AP），其包含具有最多人群的图像。即使没有多尺度测试，HigherHRNet在APH中也优于SPPE [24]0.5。5. 结论我们提出了一种尺度感知高分辨率网络（HigherHRNet），以解决自底向上多人姿态估计问题中的尺度变化挑战，特别是用于精确定位小人物的关键点我们发现多尺度图像金字塔和更大的输入尺寸部分地解决了这个问题，但这些方法的计算成本高。为了解决这个问题，我们提出了一个高效的高分辨率的特征金字塔的基础上HR-Net和训练它与多分辨率监督。在推理过程中，具有多分辨率热图聚合的HigherHRNet能够有效地生成多分辨率和更高分辨率的热图，以实现更准确的人体姿势估计。HigherHRNet在具有挑战性的COCO数据集上的表现优于所有现有的自下而上的方法，特别是对于小个子。OpenPose [3]我们的：HigherHRNet-W48我们的：HigherHRNet--六十五967岁6-86岁。487岁4-七十6七十二662. 7七十三。375. 8四十八766岁。568岁1三十二3五十七9五十八9培训规模AP APM APL51267岁161 576.164068岁564 375376868岁564 97385396引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE TPAMI，2017年。3[2] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV，2016年。3[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。一、二、五、六、八[4] 放大图片作者：Chen Liang-jieh， Maxwell D.Collins，Yukun Zhu，George Papandreou，Barret Zoph，FlorianSchroff，Hartwig Adam，and Jonathon Shlens.搜索用于密集图像预测的有效多尺度体系结构。NeurIPS，2018。 3[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015. 3[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，2018。3[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 3[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。3[9] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun

下载后可阅读完整内容，剩余1页未读，立即下载