没有合适的资源?快使用搜索试试~ 我知道了~
……………70930面向人体姿势估计的分布感知坐标表示0Feng Zhang 1 Xiatian Zhu 2 Hanbin Dai 3 Mao Ye 1 Ce Zhu 401 中国电子科技大学计算机科学与工程学院 2 英国萨里大学视觉、语音和信号处理中心 3中国电子科技大学自动化工程学院 4 中国电子科技大学信息与通信工程学院0{ zhangfengwcy,daihanbin.ac,cvlab.uestc } @gmail.com,xiatian.zhu@surrey.ac.uk,eczhu@uestc.edu.cn0摘要0虽然热图是人体姿势估计的事实上的标准坐标表示,但尚未深入研究。本研究填补了这一空白。我们首次发现,将预测的热图解码为原始图像空间中的最终关节坐标的过程对性能有着意想不到的重要性。我们进一步探讨了标准坐标解码方法的设计限制,并提出了一种更有原则性的分布感知解码方法。此外,我们通过生成无偏/准确的热图改进了标准坐标编码过程(即将地面真值坐标转换为热图)。将这两者结合起来,我们提出了一种新颖的关键点分布感知坐标表示(DARK)方法。作为一种与模型无关的插件,DARK显著提高了现有的人体姿势估计模型的性能。广泛的实验证明,DARK在两个常见的基准数据集MPII和COCO上取得了最佳结果。此外,DARK在ICCV 2019COCO关键点挑战赛中获得了第二名。代码可在线获取[36]。01. 引言0人体姿势估计是一个基础的计算机视觉问题,旨在在无约束的图像中检测人体关节的空间位置(即坐标)[1]。这是一个非常困难的任务,因为由于服装风格的多样性、任意的遮挡和无约束的背景环境,身体关节的外观变化很大,同时需要识别细粒度的关节坐标。作为强大的图像处理模型,卷积神经网络(CNNs)在这个任务上表现出色[15]。现有的工作通常侧重于为人体姿势推断专门设计的CNN架构[20,25]。类似于图像分类中常见的one-hot向量作为对象的类别标签表示,人体姿势CNN模型还需要一种用于编码身体关节坐标标签的标签表示,以便在训练过程中可以量化和计算监督学习损失,并可以正确推断关节坐标1。事实上,标准的标签表示是坐标0源图像0分辨率降低0地面真值热图0输入图像0(a) 数据预处理0分辨率恢复0原始图像空间0输入图像0预测的热图0地面真值热图0(c) 模型训练0(d) 模型测试0(b) 人体姿势估计模型0图1.人体姿势估计系统的流程。为了提高效率,通常会对原始的人体检测边界框以及地面真值热图监督进行分辨率降低。因此,模型在低分辨率图像空间中运行,从而显著降低了模型推断成本。在测试时,因此需要相应的分辨率恢复,以获得原始图像空间中的关节坐标预测。0在图像分类中作为类别标签表示的一样,人体姿势CNN模型还需要一种用于编码身体关节坐标标签的标签表示,以便在训练过程中可以量化和计算监督学习损失,并可以正确推断关节坐标1。事实上,标准的标签表示是坐标01标签表示用于编码标签注释(例如ImageNet中的1,000个对象类标签的1,000个独热向量),与编码数据样本的数据表示完全不同。70940关节热图是由2维高斯分布/核心生成的,其中心位于每个关节的标记坐标[30]。它是通过坐标编码过程从坐标到热图获得的。热图通过在地面真实位置周围提供空间支持来描述,考虑到上下文线索和固有的目标位置模糊性。重要的是,这可以有效地减少训练中模型过拟合的风险,类似于类标签平滑正则化[28]的精神。最先进的姿势方法[20, 33, 25,38]都基于热图坐标表示。使用热图标签表示的一个主要障碍是计算成本是输入图像分辨率的二次函数,阻止CNN模型处理通常的高分辨率原始图像数据。为了在计算上可行,一个标准策略(见图1)是将所有人体边界框图像以任意大的分辨率缩小到一个预定的小分辨率,通过数据预处理过程,然后输入到人体姿势估计模型中。为了预测原始图像坐标空间中的关节位置,在热图预测之后需要进行相应的分辨率恢复,以转换回原始坐标空间。最终的预测被认为是具有最大激活的位置。我们将这个过程称为坐标解码,从热图到坐标。值得注意的是,在上述分辨率缩减过程中可能引入量化误差。为了缓解这个问题,在现有的坐标解码过程中,通常根据从最高激活到次高激活的方向执行手工制作的偏移操作[20]。尽管在模型推断中不可或缺,但是坐标编码和解码问题(即坐标表示)得到的关注很少。与当前研究更有效的CNN结构设计的关注点相反,我们揭示了坐标表示在模型性能中扮演的意外重要角色,比预期的要显著得多。例如,使用最先进的模型HRNet-W32[25],坐标编码的上述偏移操作在具有挑战性的COCO验证集上带来了高达5.7%的AP(表1)。值得注意的是,这个增益已经比大多数个体艺术方法的增益要显著得多。但是在我们的最佳知识范围内,这一点从未被很好地注意和认真调查过。与现有的人体姿势估计研究相反,在这项工作中,我们专门研究了关节坐标表示(包括编码和解码)的问题。此外,我们认识到热图分辨率是阻止使用较小输入分辨率进行更快模型推断的一个主要障碍。当将输入分辨率从256×192降低到128×96时,HRNet-W32模型在COCO验证集上的性能显著下降,从74.4%降至66.9%,尽管模型推断成本从7.1×10^9降至1.8×10^9 FLOPs。0(例如来自ImageNet的对象图像)。0(例如来自ImageNet的对象图像)。0鉴于坐标表示的重要性,我们进行了深入调查,并认识到一个关键限制在于坐标解码过程。虽然现有的标准偏移操作在本研究中被证明是有效的,但我们提出了一种基于分布感知的原则性表示方法,以实现更准确的亚像素级联合定位。具体而言,它被设计为通过基于泰勒展开的分布近似全面考虑热图激活的分布信息。此外,我们观察到生成地面真实热图的标准方法存在量化误差,导致监督信号不准确和模型性能较差。为了解决这个问题,我们提出生成无偏热图,使高斯核心位于亚像素位置。0我们的贡献在于,我们发现了坐标表示在人体姿势估计中以前未意识到的重要性,并提出了一种具有两个关键组成部分的分布感知坐标关键点表示(DARK)方法:(1)基于高效的泰勒展开的坐标解码,(2)无偏的亚像素居中坐标编码。重要的是,现有的人体姿势方法可以无需任何算法修改而无缝地从DARK中受益。在两个常见的基准测试(MPII和COCO)上进行了大量实验证明,我们的方法对现有的最先进的人体姿势估计模型[25, 33,20]提供了显著的性能改进,在COCO和MPII上实现了最佳的单模型准确性。DARK有利地使得可以使用更小的输入图像分辨率而性能降低更小,从而显著提高了模型推理效率,因此有助于嵌入式AI场景中所需的低延迟和低能耗应用。02. 相关工作0通常,在人体姿势估计中有两种常见的坐标表示设计:坐标和热图。这两种表示都被用作现有方法中的回归目标,将分别在下面进行讨论。0坐标回归直接将坐标作为模型输出目标是直观和简单的。但是只有少数现有方法采用了这种设计[31, 10, 3, 21,27]。一个可能的原因是,这种表示缺乏空间和上下文信息,由于关节位置的内在视觉模糊性,使得学习人体姿势模型极具挑战性。p = m + 0.25s − m∥s − m∥2(1)ˆp = λp(2)70950热图回归热图表示优雅地解决了上述限制。它最早在[30]中引入,并迅速成为最常用的坐标表示。一般来说,主流研究关注于设计更有效地回归热图监督的网络架构。代表性的设计改进包括顺序建模[12,2],感受野扩展[32],位置投票[16],中间监督[20,32],成对关系建模[4],树结构建模[8, 35, 7, 26,29],层次上下文学习[37],金字塔残差学习[34],级联金字塔学习[6],知识引导学习[22],主动学习[18],对抗学习[5],反卷积上采样[33],多尺度监督[14],注意机制[19,24]和高分辨率表示保持[25]。与所有先前的工作相比,我们研究了热图表示在人体姿势估计中的问题,这是文献中被忽视的一个方面。我们不仅揭示了在使用热图过程中分辨率降低的巨大影响,还提出了一种原则性的坐标表示方法,显著提高了现有模型的性能。关键是,我们的方法可以无需模型设计修改而无缝集成。03. 方法论0我们考虑人体姿势估计中的坐标表示问题,包括编码和解码。目标是在给定的输入图像中预测关节坐标。为此,我们需要从输入图像到输出坐标学习回归模型,并且在模型训练和测试过程中通常使用热图作为坐标表示。具体而言,我们假设有一个图像训练集。为了促进模型学习,我们将关节的标记真实坐标编码为热图作为学习目标。在测试中,我们需要将预测的热图解码为原始图像坐标空间中的坐标。接下来,我们首先描述解码过程,重点分析现有标准方法的限制分析和新解决方案的开发。然后,我们进一步讨论和解决编码过程的限制。最后,我们描述了将现有人体姿势估计模型与所提出的方法集成的过程。03.1. 坐标解码0在模型测试流程中,坐标解码被认为是一个不重要的组成部分,但正如我们将要展示的,坐标解码是人体姿态估计性能最重要的贡献之一(参见表1)。具体而言,它是将每个关节的预测热图转化为原始图像空间中的坐标的过程。假设热图具有相同的0如果热图的空间尺寸与原始图像相同,我们只需要找到最大激活的位置作为关节坐标预测。然而,实际情况往往并非如此。相反,我们需要通过一个样本特定的无约束因子 λ ∈R +将热图上采样到原始图像的分辨率。这涉及到一个亚像素定位问题。在介绍我们的方法之前,我们首先回顾一下现有姿态估计模型中使用的标准坐标解码方法。0标准坐标解码方法是根据模型性能经验性地设计的[20]。具体而言,给定由训练模型预测的热图 h,我们首先确定最大( m )和第二大( s)激活的坐标。然后预测关节位置为:0其中 ∥ ∙ ∥ 2定义了向量的大小。这意味着预测是在热图空间中最大激活的基础上,向第二大激活移动0.25像素(即亚像素)。原始图像中的最终坐标预测计算如下:0其中 λ 是分辨率缩减比例。0备注:方程(1)中的亚像素移位的目的是补偿图像分辨率降采样的量化效应。也就是说,预测热图中的最大激活并不对应于原始坐标空间中关节的准确位置,而只对应于一个粗略的位置。正如我们将要展示的,这种移位令人惊讶地带来了显著的性能提升(表1)。这可能部分解释了为什么它经常被用作模型测试中的标准操作。有趣的是,据我们所知,没有任何专门的研究探讨这种操作对人体姿态估计性能的影响。因此,它的真正重要性从未真正被认识和报道过。虽然这种标准方法在设计上缺乏直观性和解释性,但目前还没有进行改进的专门研究。我们通过提出一种基于原则的移位估计方法来填补这一空白,从而实现更准确的人体姿态估计。0我们的坐标解码方法探索了预测热图的分布结构,以推断出潜在的最大激活。这与上述标准方法截然不同,标准方法依赖于手动设计的偏移预测,缺乏设计合理性和理论依据。具体而言,为了获得亚像素级别的准确位置,我们假设预测热图与真实热图一样,都遵循二维高斯分布。G(x; µ, Σ) =1(2π)|Σ|12exp�−12(x − µ)T Σ−1(x − µ)�P(x; µ, Σ) = ln(G) = − ln(2π) − 12 ln(|Σ|)(5)− 12(x − µ)T Σ−1(x − µ)h′ = K ⊛ h(10)70960(b) 分布感知最大重定位0预测热图 调制热图0(a) 分布调制0� �; �, Σ 采样 � � ��, ��0(c) 分辨率恢复0原始图像空间0图2. 提出的分布感知坐标解码方法的概述。0因此,我们将预测的热图表示为:0(3) 其中 x 是预测热图中的像素位置, µ是对应于待估计关节位置的高斯均值(中心)。协方差 Σ是一个对角矩阵,与坐标编码中使用的矩阵相同:0Σ = [σ^2 0 0 σ^2]0[4]0其中,σ是两个方向上的标准差。为了降低近似难度,我们使用对数将原始的指数形式G转换为二次形式P,以便于推理,同时保持原始的最大激活位置为:0我们的目标是估计µ。作为分布中的一个极值点,众所周知,位置µ处的一阶导数满足以下条件:0D ′ ( x ) x = µ = ∂ P T0逆(x) x = µ = − Σ − 1 ( x − µ )x = µ = 00(6)为了研究这个条件,我们采用泰勒展开定理。形式上,我们用泰勒级数(二次项)在预测热图的最大激活位置m处进行近似,得到激活P(µ)的近似值:02 ( µ − m ) T D ′′ ( m )( µ − m ) (7) 其中,D ′′ ( m)表示在m处评估的P的二阶导数(即Hessian矩阵),形式上定义为:0D ′′ ( m ) = 逆(D ′′ ( x )) x = m = − Σ − 1 (8)0选择m来近似µ的直观原因是,它代表了一个接近µ的良好的粗糙关节预测。将方程(6)、(7)和(8)结合起来,我们最终得到:0µ = m − 逆(D ′′ ( m )) D ′ ( m ) (9)0其中,D ′′ ( m )和D ′ ( m)可以从热图中高效地估计得到。一旦获得µ,我们还可以应用方程(2)来预测原始图像空间中的坐标。备注:与仅考虑热图中第二个最大激活的标准方法相比,所提出的坐标解码方法充分利用了热图分布统计信息,更准确地揭示了潜在的最大值。从理论上讲,我们的方法基于一个合理的分布近似,假设热图服从高斯分布。关键是,它在计算上非常高效,只需要计算每个热图中一个像素位置的一阶和二阶导数。因此,现有的人体姿态估计方法可以轻松受益,没有任何计算成本的障碍。热图分布调制:由于所提出的坐标解码方法基于高斯分布的假设,我们有必要检查这个条件是否满足。我们发现,通常情况下,人体姿态估计模型预测的热图与训练热图数据相比,不具备良好的高斯分布结构。如图3(a)所示,热图通常在最大激活周围呈现多个峰值。这可能对我们的解码方法的性能产生负面影响。为了解决这个问题,我们提出预先调制热图分布。具体而言,为了满足我们方法的要求,我们提出利用一个具有与训练数据相同方差的高斯核K来平滑热图h的多个峰值的影响,形式上为:0其中,�表示卷积操作。为了保持原始热图的幅度,我们最终对h′进行缩放,使其最大激活与70970(a) 预测的热图 (b) 调制后的热图0示例2示例10图3. 热图分布调制示意图。 (a) 预测的热图; (b)调制后的热图分布。0图4.标准坐标编码过程中的量化误差示意图。蓝色点表示关节的准确位置(g′)。通过基于地板的坐标量化,引入了一个误差(用红色箭头表示)。其他量化方法也存在同样的问题。0h,通过以下转换:0h' = 0max(h')- min(h')* max(h)(11)0其中max()和min()分别返回输入矩阵的最大值和最小值。在我们的实验分析中,验证了这种分布调制进一步改善了我们坐标解码方法的性能(表3),并在图3(b)中展示了结果的视觉效果和定性评估。总结我们在图2中总结了我们的坐标解码方法。具体而言,序列中涉及三个步骤:(a)热图分布调制(公式(10),(11)),(b)通过泰勒展开在亚像素精度下进行分布感知关节定位(公式(3)-(9)),(c)恢复到原始坐标空间的分辨率(公式(2))。这些步骤都不会产生高计算成本,因此能够作为现有模型的高效插件。03.2. 坐标编码0前一节已经解决了根源于分辨率缩减的坐标解码问题。坐标编码也存在相同的限制。具体而言,标准的坐标编码方法从以下开始:0将原始人物图像下采样到模型输入大小。因此,生成热图之前,需要相应地转换地面真实关节坐标。形式上,我们用g=(u,v)表示关节的地面真实坐标。分辨率缩减定义为:0g' =(u',v')= 0λ =(0λv0λ)(12)0其中λ是下采样比例。通常情况下,为了便于生成核,我们经常对g'进行量化:0g'' =(u'',v'')= quantise(g')= quantise(u0λv0λ)(13)0其中quantise()指定量化函数,常见选择包括floor、ceil和round。随后,可以通过以下方式合成以量化坐标g''为中心的热图:0G(x,y;g'')02πσ2 exp � -(x - u'')2 +(y - v'')20�(14)0其中(x,y)指定热图中的像素位置,σ表示固定的空间方差。显然,以上方式生成的热图是不准确和有偏差的,这是由于量化误差所致(图4)。这可能会引入次优的监督信号,并导致模型性能下降,特别是对于本文提出的准确坐标编码。为了解决这个问题,我们简单地将热图中心放在非量化位置g'上,该位置表示准确的地面真实坐标。我们仍然应用公式(14),但将g''替换为g'。我们将展示这种无偏热图生成方法的好处(表3)。03.3. 与最先进的模型集成0DARK是与任何现有基于热图的姿势模型无缝集成的模型无关的方法。重要的是,这不涉及对先前方法的任何算法更改。特别是,在训练过程中,唯一的变化是基于准确关节坐标生成的地面真实热图数据。在测试时,我们以HRNet[25]等任何模型预测的热图作为输入,并在原始图像空间中输出更准确的关节坐标。在整个生命周期中,我们保持现有模型的原始设计不变。这样可以最大程度地提高我们方法的普适性和可扩展性。04. 实验0数据集我们使用了两个流行的人体姿势估计数据集,COCO和MPII。COCO关键点数据集[17]提供了具有挑战性的图像数据,包括各种人体姿势、不受限制的环境、不同的身体比例和遮挡模式。整个目标DMAPAP 50AP 75AP MAP LAR✗68.188.577.165.873.774.8✓68.488.677.466.074.074.9HRN32128×961.866.988.776.364.672.3 73.7DARK70.788.978.467.976.6 76.7HRN32 256×1927.174.490.581.970.881.0 79.8DARK75.690.582.171.882.8 80.8HRN32 384×28816.075.890.682.572.082.7 80.9DARK76.690.782.872.783.9 81.570980解码 AP AP 50 AP 75 AP M AP L AR0无平移 61.2 88.1 72.3 59.0 66.3 68.7 标准平移 66.9 88.776.3 64.6 72.3 73.70我们的 68.4 88.6 77.4 66.0 74.0 74.90表1.坐标解码对COCO验证集的影响。模型:HRNet-W32;输入尺寸:128×96。0包括检测人体实例和定位身体关节。它包含20万张图像和25万个人样本。每个人实例都标有17个关节。训练集和验证集的注释已经公开进行了基准测试。在评估中,我们遵循了常用的train2017/val2017/test-dev2017划分。MPII人体姿势数据集[1]包含40k个人样本,每个样本都标有16个关节。我们遵循了[30]中的标准训练/验证/测试划分。0评估指标我们使用COCO的目标关键点相似度(OKS)和MPII的正确关键点百分比(PCK)来评估模型性能。0实现细节对于模型训练,我们使用Adam优化器。对于HRNet[25]和SimpleBaseline[33],我们遵循了原始论文中相同的学习计划和轮数。对于Hourglass[20],基础学习率微调为2.5e-4,并在第90个和第120个epoch时衰减为2.5e-5和2.5e-6。总的训练轮数为140。我们在实验中使用了三种不同的输入尺寸(128×96,256×192,384×288)。我们采用了与[25]相同的数据预处理方法。0表2. 分布调节(DM)对COCO验证集的影响。骨干网络:HRNet-W32;输入尺寸:128×96。04.1. 评估坐标表示0作为本文的核心问题,首先检查了坐标表示对模型性能的影响,并与输入图像分辨率(大小)进行了关联。在这个测试中,默认情况下,我们使用HRNet-W32[25]作为骨干模型,128×96作为输入尺寸,并报告了COCO验证集上的准确性结果。0编码 解码 AP AP 50 AP 75 AP M AP L AR0有偏的 标准 66.9 88.7 76.3 64.6 72.3 73.7 无偏的 标准 68.088.9 77.0 65.4 73.7 74.50有偏的 我们的 68.4 88.6 77.4 66.0 74.0 74.9 无偏的 我们的70.7 88.9 78.4 67.9 76.6 76.70表3.坐标编码对COCO验证集的影响。模型:HRNet-W32;输入尺寸:128×96。0方法 输入尺寸 GFLOPs AP AP 50 AP 75 AP M AP L AR0表4. 输入图像尺寸对COCO验证集的影响。DARK使用HRNet-W32(HRN32)作为骨干网络。0图5. DARK(红色)与HRNet-W32(青色)的示例。0(i) 坐标解码我们评估了坐标解码的效果,特别是平移操作和分布调节。使用了传统的有偏热图。在这个测试中,我们将提出的分布感知平移方法与不进行平移(即直接使用最大激活位置)和标准平移(公式(1))进行了比较。我们在表1中得出了两个主要观察结果:(i)标准平移提高了高达5.7%的AP准确率,这是非常有效的。据我们所知,这是文献中首次报道的有效性分析,因为以前的研究很大程度上忽视了这个问题。这揭示了坐标解码对人体姿态估计的以前未见的重要性。(ii)尽管标准解码方法带来了很大的收益,但我们提出的模型进一步提高了1.5%的AP得分,其中分布调节提供了0.3%,如表2所示。这验证了我们解码方法的优越性。0(二)坐标编码我们测试了坐标编码的有效性。我们将提出的无偏编码与标准的有偏编码以及标准和我们的解码方法进行了比较。从表3中我们可以看到,我们的无偏编码与准确的核心中心带来了积极的性能提升,无论坐标解码方法如何。特别是在这两种情况下,无偏编码始终能够稳定地提高1%以上的AP值。这表明坐标编码的重要性,这在以前的研究中被忽视了。DSNT [21] 57.683.563.156.960.1 71.2IPR [27]68.088.176.565.973.8 74.4DARK70.788.978.467.976.6 76.770990DARK 基准 输入尺寸 #参数 GFLOPs AP AP 50 AP 75 AP M AP L AR0� Hourglass (4 Blocks) 128×96 13.0M 2.7 66.2 87.6 75.1 63.8 71.4 72.8 � 69.6 87.8 77.0 67.0 75.4 75.70� Hourglass (8 Blocks) 128×96 25.1M 4.9 67.6 88.3 77.4 65.2 73.0 74.0 � 70.8 87.9 78.3 68.3 76.4 76.60� SimpleBaseline-R50 128×96 34.0M 2.3 59.3 85.5 67.4 57.8 63.8 66.6 � 62.6 86.1 70.4 60.4 67.9 69.50� SimpleBaseline-R101 128×96 53.0M 3.1 58.8 85.3 66.1 57.3 63.4 66.1 � 63.2 86.2 71.1 61.2 68.5 70.00� SimpleBaseline-R152 128×96 68.6M 3.9 60.7 86.0 69.6 59.0 65.4 68.0 � 63.1 86.2 71.6 61.3 68.1 70.00� HRNet-W32 128×96 28.5M 1.8 66.9 88.7 76.3 64.6 72.3 73.7 � 70.7 88.9 78.4 67.9 76.6 76.70� HRNet-W48 128×96 63.6M 3.6 68.0 88.9 77.4 65.7 73.7 74.7 � 71.9 89.1 79.6 69.2 78.0 77.90表5. 在COCO验证集上评估我们的DARK方法对不同最先进模型的普适性。0方法 AP AP 50 AP 75 AP M AP L AR0表6.在COCO验证集上比较坐标回归方法。骨干网络:HRNet-W32;输入尺寸:128×96。0(三)输入分辨率我们通过测试不同尺寸的输入图像对模型推理效率的影响来研究输入图像分辨率/大小的重要性,因为这是与模型推理效率相关的重要因素。我们将我们的DARK模型(骨干网络为HRNet-W32)与使用有偏热图监督进行训练和标准偏移进行测试的原始HRNet-W32进行了比较。从表4中我们可以得出几个观察结果:(a)随着输入图像尺寸的减小,模型性能如预期地持续下降,而推理成本明显降低。(b)在DARK的支持下,可以有效地减轻模型性能损失,特别是在非常小的输入分辨率下(即非常快速的模型推理)。这有助于在低资源设备上部署人体姿势估计模型,这在新兴的嵌入式AI中非常需要。0(四)普适性除了最先进的HRNet之外,我们还测试了其他两种代表性的人体姿势估计模型,它们采用了不同的CNN架构:SimpleBaseline [33]和Hourglass[20]。表5的结果显示,DARK在大多数情况下都为现有模型提供了显著的性能提升。这表明我们的方法具有普适性。我们在图5中展示了定性评估结果。0(五)复杂性我们测试了我们的方法对HRNet-W32在输入尺寸为128×96时的推理效率影响。在一台配备i9-7920X CPU和Titan VGPU的机器上,运行速度从360 fps降低到320 fps。0在低效的Python环境中,即性能下降了11%。因此,DARK的额外成本相当可承受。我们相信基于本地编程语言(如C/ C ++)的版本可以进一步加速推理速度。04.2. 与坐标回归的比较0我们将我们的DARK与现有的坐标回归方法进行了比较,包括IPR [27]和DSNT[21]。在这个测试中,我们使用HRNet-W32[25]作为骨干网络,输入尺寸为128×96,并在COCO验证集上报告了准确性结果。表6验证了我们的方法在性能上优于这两种替代方法,同时具有更友好的采用和更高效的模型训练的优势。04.3. 与最先进方法的比较0(i)在COCO上的评估我们将我们的DARK方法与包括G-RMI [23],IPR[27],CPN [6],CFN [13],RMPE [11],SimpleBaseline[33]和HRNet[25]在内的最佳方法进行了比较。表7显示了最先进方法和DARK在COCO测试集上的准确性结果。在这个测试中,我们使用了[25]中的人体检测结果。我们有以下观察结果:(i)DARK在输入尺寸为384 ×288,使用HRNet-W48时,达到了最佳准确性,没有额外的模型参数,仅有微小的成本增加。具体而言,与最佳竞争对手(输入尺寸相同的HRNet-W48)相比,DARK进一步提高了0.7%的AP(76.2-75.5)。与最高效的模型(IPR)相比,DARK(HRNet-W32)在只需要16.4%(1.8/11.0GFLOPs)的执行成本的情况下,实现了2.2%的AP增益(70.0-67.8)。这些结果表明了DARK在准确性和效率方面相对于现有模型的优势和灵活性。APAP 50AP 75AP MAP LAR78.993.886.075.184.483.576.492.582.770.983.881.671000方法 骨干网络 输入尺寸 #参数 GFLOPs AP AP 50 AP 75 AP M AP L AR0G-RMI[23] ResNet-101 353 × 257 42.6M 57.0 64.9 85.5 71.3 62.3 70.0 69.7 IPR [27] ResNet-101 256 ×256 45.1M 11.0 67.8 88.2 74.8 63.9 74.0 - CPN [6] ResNet-Inception 384 × 288 - - 72.1 91.4 80.0 68.777.2 78.5 RMPE [11] PyraNet 320 × 256 28.1M 26.7 72.3 89.2 79.1 68.0 78.6 - CFN [13] - - - - 72.6 86.169.7 78.3 64.1 - CPN(集成)[6] ResNet-Inception 384 × 288 - - 73.0 91.7 80.9 69.5 78.1 79.0SimpleBaseline[33] ResNet-152 384 × 288 68.6M 35.6 73.7 91.9 81.1 70.3 80.0 79.0 HRNet[25]HRNet-W32 384 × 288 28.5M 16.0 74.9 92.5 82.8 71.3 80.9 80.1 HRNet[25] HRNet-W48 384 × 28863.6M 32.9 75.5 92.5 83.3 71.9 81.5 80.50DARK HRNet-W32 128 × 96 28.5M 1.8 70.0 90.9 78.5 67.4 75.0 75.9 DARK HRNet-W48 384 × 288 63.6M32.9 76.2 92.5 83.6 72.5 82.4 81.10G-RMI(额外数据)ResNet-101 353 × 257 42.6M 57.0 68.5 87.1 75.5 65.8 73.3 73.3HRNet(额外数据)HRNet-W48 384 × 288 63.6M 32.9 77.0 92.7 84.5 73.4 83.1 82.00DARK(额外数据)HRNet-W48 384 × 288 63.6M 32.9 77.4 92.6 84.6 73.6 83.7 82.30表7. 在COCO测试集上与最先进的人体姿态估计方法的比较。0方法 头部 肩部 手肘 手腕 臀部 膝盖 踝部 平均0PCKh@0.50HRN32 97.1 95.9 90.3 86.5 89.1 87.1 83.3 90.3 DARK97.2 95.9 91.2 86.7 89.7 86.7 84.0 90.60PCKh@0.10HRN32 51.1 42.7 42.0 41.6 17.9 29.9 31.0 37.7 DARK55.2 47.8 47.4 45.2 20.1 33.4 35.4 42.00表8.在MPII验证集上的比较。DARK使用HRNet-W32作为骨干网络。输入尺寸:256 × 256。考虑单尺度模型性能。0(ii)在MPII上的评估我们将DARK与HRNet-W32在MPII验证集上进行了比较。表8中的比较显示了我们的方法在准确性上的持续优势。在更严格的准确性测量PCKh@0.1下,DARK的性能差距更加显著。值得注意的是,MPII提供的训练数据比COCO要小得多,这表明我们的方法在不同训练数据规模下具有泛化能力。04.4. COCO关键点检测挑战0我们使用提出的DARK作为主要方法参加了ICCV 2019COCO关键点挑战。为了提高性能,我们使用了DARK模型的集成。表9显示了我们的方法在测试开发集上实现了78.9%的AP,测试挑战集上实现了76.4%的AP,用于多人姿态估计。这使我们在这个挑战中获得了第二名。有关更多详细信息,请参阅我们的技术报告[9]。05. 结论0我们首次系统地研究了被忽视但非常重要的坐标表示问题。0测试开发0测试挑战0表9. 我们基于DARK的参赛作品在ICCV2019COCO关键点挑战赛中的结果.0在无约束图像中的人体姿势估计中,我们提出了一种新颖的分布感知坐标表示(DARK),不仅揭示了这个问题的真正重要性,还为更具辨别性的模型训练和推断提供了一种新的方法.作为一个即插即用的组件,现有的最先进模型可以在几乎没有算法适应成本的情况下无缝受益于我们的DARK方法.除了通过在两个具有挑战性的数据集上进行广泛实验来验证DARK的性能优势外,我们还提供了一系列深入的组件分析,以便深入了解我们模型设计的原理.06. 致谢0这项工作得到了中国国家重点研发计划(2018YFE0203900)、国家自然科学基金(61773093)、成都市重点科技创新项目(2018-YF08-00039-GX)和四川省科技厅研究计划(17ZDYF3184)的部分支持. Mao Ye是主要通讯作者.71010参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, andBernt Schiele. 2D人体姿势估计: 新的基准和最新技术分析.在IEEE计算机视觉和模式识别会议上, 2014年. [2] VasileiosBelagiannis和Andrew Zisserman. 循环人体姿势估计.在IEEE自动面部和手势识别会议上, 2017年. [3] Joao Carreira,Pulkit Agrawal, Katerina Fragkiadaki和Jitendra Malik.迭代误差反馈的人体姿势估计.在IEEE计算机视觉和模式识别会议上, 2016年. [4] XianjieChen和Alan L Yuille.图像相关的成对关系的图形模型的关节姿势估计.在神经信息处理系统进展中, 2014年. [5] Yu Chen, ChunhuaShen, Xiu-Shen Wei, Lingqiao Liu和Jian Yang. 对抗性Posenet:用于人体姿势估计的结构感知卷积网络.在IEEE国际计算机视觉会议上, 2017年. [6] Yilun Chen, ZhichengWang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu和Jian Sun.级联金字塔网络用于多人姿势估计.在IEEE计算机视觉和模式识别会议上, 2018年6月. [7] Xiao Chu,Wanli Ouyang, Hongsheng Li和Xiaogang Wang.结构化特征学习用于姿势估计.在IEEE计算机视觉和模式识别会议上, 2016年. [8] Xiao Chu, WanliOuyang, Xiaogang Wang等. Crf-cnn:在人体姿势估计中建模结构信息. 在神经信息处理系统进展中,2016年. [9] Hanbin Dai, Liangbo Zhou, Feng Zhang, ZhengyuZhang, Hong Hu, Xiatian Zhu和Mao Ye. ICCV 2019COCO和Mapillary研讨会关键点检测挑战赛技术报告:用于人体姿势估计的分布感知坐标表示.arXiv预印本arXiv:2003.07232, 2020年. [10] Xiaochuan Fan,Kang Zheng, Yuewei Lin和Song Wang.结合局部外观和整体视图: 用于人体姿势估计的双源深度神经网络.在IEEE计算机视觉和模式识别会议上, 2015年. [11] Hao-Shu Fang,Shuqin Xie, Yu-Wing Tai和Cewu Lu. RMPE: 区域多人姿势估计.在IEEE计算机视觉和模式识别会议上, 2017年. [12] GeorgiaGkioxari, Alexander Toshev和Navdeep Jaitly.使用卷积神经网络的链式预测. 在欧洲计算机视觉会议上, 2016年.[13] Shaoli Huang, Mingming Gong和Dacheng Tao.用于关键点定位的粗细网络. 在IEEE国际计算机视觉会议上, 2017年.[14] Lipeng Ke, Ming-Ching Chang, Honggang Qi和Siwei Lyu.用于人体姿势的多尺度结构感知网络.0在《欧洲计算机视觉会议》中的估计,2018年9月。[15] YannLeCun,L´eon
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功