没有合适的资源?快使用搜索试试~ 我知道了~
自底向上人体姿态估计的非纠缠关键点回归方法
14676基于非纠缠关键点回归的自底向上人体姿态估计耿子刚1,3*,孙克1*,肖斌3,张兆祥2,王敬东3†1中国科学技术大学2中国科学院自动化研究所中国科学院大学人工智能与机器人研究中心3微软{子刚,沈先生}@ mail.ustc.edu.cn,张兆祥先生@ ia.ac.cn,{碧溪,景德先生}@ microsoft.com摘要在本文中,我们感兴趣的是自下而上的范式估计人体姿势的图像。我们研究了密集的关键点回归框架,这是严重劣于关键点检测和分组框架工作。我们的动机是准确地回归关键点位置需要学习关注关键点区域的表示。我们提出了一种简单而有效的方法,命名为非纠缠关键点回归(DEKR)。我们采用自适应卷积通过逐像素空间Transformer来激活关键点区域中的像素,并相应地从它们学习表示。我们使用多分支结构进行单独的回归:每个分支学习具有专用自适应卷积的表示,并回归一个关键点。所得到的解纠缠表示能够分别关注关键点区域,并且因此关键点回归在空间上更准确。我们的经验表明,所提出的直接回归方法优于关键点检测和分组方法,并在两个基准数据集COCO和Crowd-Pose上实现了优越的自下而上的姿态估计结果代码和模型可以在https://github.com/HRNet/DEKR网站。1. 介绍人体姿态估计是从图像预测每个人的关键点位置的问题,即,将关键点本地化,并确定关键点属于同一个人。有广泛的应用,包括动作识别,人机交互,智能照片编辑,行人跟踪等。*这项工作是在耿子刚和孙科在北京微软研究院实习时完成的。中国†通讯作者图1. 用于回归关键点的显著区域的图示。为了说明的清晰性,我们选取了鼻子和两个脚踝这三个关键点作为例子。左:基线。右:我们的方法DEKR. 可以看出,我们的方法能够聚焦于关键区域。使用工具生成显著区域[46]。有两种主要的范式:自上而下和自下而上。自上而下的范例首先检测人,然后对每个检测到的人执行单人姿势估计。自下而上的范例要么直接回归属于同一个人的关键点位置,要么检测和分组关键点,例如亲和 链 接 [7 , 31] , 关 联 嵌 入 [40] , HGG [27] 和HigherHRNet [11]。自上而下的模式更准确,但由于额外的人员检测过程,成本更高,而自下而上的模式,本文的兴趣,更有效。最近开发的逐像素关键点回归方法CenterNet [78]根据像素处的表示为每个像素一起估计K个关键点位置。直接回归到中心网[78]中的关键点位置表现合理。但是,回归的关键点在空间上是不准确的,并且性能比关键点检测和分组方案差图1(左)显示了两个示例,其中关键点的突出区域14677图2.多人姿态估计。挑战包括不同的人的尺度和取向,各种姿势等。示例结果来自我们的方法DEKR。回归广泛传播,回归质量不令人满意。我们认为,准确地回归关键点位置需要学习关注关键点区域的表示。从聚焦回归的概念出发我们采用自适 应 卷 积 , 通 过 逐 像 素 空 间 Transformer ( 空 间Transformer网络的逐像素扩展[26])激活关键点区域中的像素,然后从这些激活的像素中学习表示,以便学习的表示可以集中在关键点区域。我们进一步将一个关键点的表示学习与其他关键点解耦。我们通过多分支结构采用单独的回归方案:每个分支学习一个关键点的表示,其中自适应卷积专用于关键点,并回归相应关键点的位置。图1(右)说明了我们的方法能够学习高度集中的表示,每个表示都集中在相应的关键点区域。实验结果表明,所提出的DEKR方法提高了回归的关键点位置的定位质量。我们的方法执行直接关键点回归,而不将回归结果与从关键点热图中检测到的最接近的关键点相匹配,优于关键点检测和分组方法,并在两个基准数据集COCO和CrowdPose上实现了优于先前最先进的自下而上姿势估计方法的性能。我们对自下而上的人体姿态估计的贡献总结如下。• 我们认为,回归的关键点的位置准确的表示需要关注的关键点区域。• 所提出的DEKR方法能够通过两个简单的方案(自适应卷积和多分支结构)来学习分解的表示,使得每个表示聚焦于一个关键点区域,并且从这样的表示对对应的关键点位置的预测是准确的。• 建议的直接回归方法优于关键点检测和分组方案,并在基准数据集COCO和CrowdPose上实现新的最先进的自下而上姿态估计结果。2. 相关工作卷积神经网络(CNN)解决方案[17,35,56,70,43,45,49,74,54]对人类姿势估计,已经显示出优于传统方法的性能,例如概率图形模型或图形结构模型[72,50]。早期的CNN方法[62,2,8]直接预测单人姿势估计的关键点位置,随后通过基于热图估计的方法[5,20,13,37,1]超越。为了提高性能,研究了身体关键点之间的几何约束和结构化关系[12,71,9,60,28,75]。自上而下的范式。自顶向下的方法通过首先从图像中检测每个人来执行单人姿态估计。代表作品包括:HR- Net [57,66],PoseNet [48],RMPE [18],卷积姿势机器[68],沙漏[41],Mask R-CNN [21],[10]第23话,我的第一次ple baseline [69] , CSM-SCARB [55] , Graph-PCNN[65],RSN [6]等。这些方法利用了人员检测以及额外人员边界框标记信息的进步。自顶向下的方法虽然取得了令人满意的性能,但在每个盒子的检测中需要额外的成本。其他发展包括改进热图的关键点定位[22,73],改进姿态估计[19,39],更好的数据增强[4],开发结合检测,分割和姿态估计的多任务学习架构[30],以及处理遮挡问题[34,52,77]。自下而上的范例。大多数现有的自底向上的方法主要集中在如何将检测到的属于同一个人的关键点关联在一起。开创性的工作DeepCut [51],DeeperCut [24]和L-JPA [25]将关键点关联问题模拟为整数线性规划,但需要更长的处理时间(例如,时间的顺序开发了各种分组技术,例如OpenPose [7]中的部分亲和字段及其在Pif中的扩展14678SsisiPaf [31],关联嵌入[40],PersonLab [47]中使用hough投票的贪婪解码,以及HGG[27]中的图形聚类。最近的几项工作[78,44,42,67]密集地回归了一组姿势候选者,其中每个候选者由可能来自同一个人的关键点位置组成不幸的是,回归质量不高,局部化质量较弱。通常采用后处理方案,将回归的关键点位置与从关键点热图检测到的最近的关键点(其在空间上更准确)匹配,以改善回归结果。我们的方法旨在改善直接回归结果,通过聚焦思想探索我们的回归。我们学习K个解纠缠表示,每个表示都是针对一个关键点的,并从自适应激活的像素中学习,因此每个表示都专注于相应的关键点区域。因此,根据对应的解纠缠表示的一个关键点的位置预测在空间上是准确的。我们的方法优于[63 ],与[ 63 ]不同,[ 63]使用混合密度网络来处理不确定性,以改善直接回归结果。分解表征学习。解纠缠表示[3]已在计算机视觉[38,15,76,64,79]中得到广泛研究,例如,将表象分解为内容和姿态[15],将运动从内容中分离[64],将姿态和外观分离[76]。我们提出的解纠缠回归在某种意义上可以被视为解纠缠表示学习:从对应的关键点区域中分别学习每个关键点的表示自上而下的方法,基于部分的分支网络(PBN)[59],也探索了姿态估计的表示解纠缠的想法,该方法通过将表示解纠缠到每个部分组中来学习高质量的热图它们是明显不同的:我们的方法学习表示集中在每个关键点区域的位置回归,和PBN去相关的外观表示在不同的部分群体。3. 方法图3.分解关键点回归。每个分支通过两个自适应卷积从主干输出的特征图的分区学习一个关键点的表示,并分别使用1×1卷积回归每个关键点的2D偏移这是三个关键点的示意图,特征图被分成三个部分,每个部分被送入一个分支。在COCO姿态估计的实验中,特征图被分成17个分区,有17个分支用于回归17个关键点。关键点回归头,O=F(X),(1)其中X是从主干(本文中为HRNet)计算的特征,并且F()是预测偏移映射O的关键点位置回归头。所提出的解开的关键点回归(DEKR)头的结构如图3所示。DEKR采用多分支并行自适应卷积来学习K个关键点回归的解纠缠表示,使得每个表示聚焦于对应的关键点区域。适应性激活。一个正常卷积(例如,3×3卷积)只看到中心像素q附近的像素。几个正常卷积的序列可以看到pix-可能位于关键点区域中的远离中心像素的像素,但是可能不聚焦于这些像素并且高度激活这些像素。我们采用自适应卷积,学习表示集中在关键点区域。自适应卷积是正常卷积的修改(例如,3×3卷积):对于图像I,多人姿态估计的目的是使多个人的姿态达到最小。预测人体姿势,其中每个姿势由Ky(q)=i=1Wix(gsi+ q)。关键点,如肩膀、肘部等。图2说明了多人姿势估计问题。3.1. 非纠缠关键点回归这里,q是中心(2D)位置,并且gq是偏移,gq+q对应于第i个激活的像素。{W1,W2,. . . ,W9}是核权重。偏移{gq,gq,. . . ,gq}(表示为2 × 9 ma-第一 季第二季第九集逐像素关键点回归框架通过从K个关键点的中心像素q预测2K维偏移向量oq来估计每个像素q(称为中心像素)处的候选姿态包含所有像素处的偏移向量的偏移图O通过可以通过非参数方式的额外正常3×3卷积(如可变形卷积)解[14],或者以参数方式将空间Transformer网络[26]从全局方式扩展到逐像素方式。我们采用后者,并估计仿射适配器。conv.conv.适配器。conv.conv.适配器。conv.conv.14679SK变 换 矩 阵 Aq ( ∈R2×2 ) 和 每个像素的 平 移 向 量 t(∈R2×1)。 则Gq= AqGt+[t t. . . t]。Gt表示规则的3×3位置(意味着在变换空间中进行正常卷积是位置i的2K维估计(地面实况)偏移向量。关键点和中心热图估计损失。我们还估计K个关键点热图,每个热图对应于一个关键点-Gt=Σ Σ−1 0 1 −1 0 1 −1 0 1.−1 −1 −1 0 0 0 1 1 1点类型和指示每个像素是某个人的中心的置信度的中心热图,使用单独的热图估计分支,独立回归。[78]中的偏移回归量F是一个分支,并且从每个位置的单个特征一起估计所有K2D偏移我们建议使用K分支结构,其中每个分支执行自适应卷积,然后回归对应关键点的偏移我们将特征图X从主干(H,C)= H(X)。(六)热图用于对回归姿势进行评分和排名热图估计损失函数被公式化为预测的热度值和地面实况热度值之间的加权距离=(七)2 2分成K个特征图,X1,X2,. . . ,XK,并估计off-h从对应的特征映射中为每个关键点设置映射OkO1=F1(X1)(2)O2=F2(X2)(3).OK=FK(XK),(4)其中Fk()是第k个分支上的第k个回归量,Ok是第k个关键点的偏移映射K回归函数,{F1(),F2(),. . .,FK()}具有相同的结构,并且它们的参数是独立学习的。单独回归中的每个分支能够学习其自己的自适应卷积,并且相应地专注于激活对应关键点区域中的像素(参见图4(b-e))。在单分支的情况下,所有关键点周围的像素被激活,并且激活不集中(参见图4(a))。多分支结构显式地将一个关键点的表示学习与其他关键点的表示学习相结合,从而提高了回归质量。相比之下,单分支结构必须隐式地解耦特征学习,这增加了优化难度。我们在图5中的结果表明,多分支结构减少了回归损失。3.2. 损失函数回归损失。我们使用归一化平滑损失来形成逐像素关键点回归损失:在这里,·2是条目方向的2-范数。是元素的乘积运算.Mh有K个掩码,大小为H×W×K。第k个掩模Mh被形成为使得不位于第k个关键点区域中的位置的掩模权重为0。1,其他的是1。对于中心热图的掩模Mc也进行相同的H和C是目标关键点和中心热图。完全失去了。整个损失函数是热图损失和回归损失的总和:=其中λ是权衡权重,并设置为0。在我们的实验中。3.3. 推理将测试图像输入网络,输出每个位置的回归姿态以及关键点和中心热图。我们首先对中心热图执行中心NMS过程,以去除非局部最大值位置和中心热度值不高于0的情况。01号。然后,我们在中心NMS之后剩余的位置处对回归的姿态执行姿态NMS过程,以去除一些重叠的回归姿态,并保持最多30个候选者。在姿态NMS中使用的分数是在回归的K个关键点处的热度值的平均值,这有助于保持具有高度准确的局部化关键点的候选姿态我们使用通过共同考虑其对应的分数来估计p= Σ1i∈CZi smoothL(oi− o).(五)14680I1我输入中心热度值、关键点热度值及其形状成绩.形状特征包括一对相邻关键点1:给你Z√2 2=H+W是对应{dij|(i,j)∈E}和{pi−pj|(i,j)∈E},且k∈y点我我我person实例,Hi和Wi是实例框的高度和宽度 C是具有地面实况姿态的位置的集合。oi(oi),偏移映射O的列指示每个关键点可见性的热度值我们1相邻对(i,j)对应于COCO数据集中的一个棒,COCO数据集中有19个棒(用E表示)14681不含SR(a)(b)(c)(d)(e)图4.说明适应性激活。(a)从单分支回归中激活的像素。(b-e)来自每个人的中心像素处的多分支回归(我们的方法)的鼻子、左肩、左膝和左踝的可以看出,所提出的方法能够激活关键点周围的像素这些插图是使用主干HRNet-W32获得的。6.01e 55.85.65.45.25.05.9e-055.5e-0570带有SR6968.068676665表 1. 比 较 了 非 纠 缠 关 键 点 回 归 ( DEKR ) 、 基 线 回 归(baseline)、基线+自适应激活(+AA)、基线+分离回归(+SR)的参数和计算复杂度。头:仅计算回归头。总的来说:整个网络都被计算在内。统计结果来自主干HRNet-W32。回归损失AP图5.独立回归提高了回归质量,从而提高了性能。采用分离回归方法,使COCO训练集上的回归损失从5. 9e-5到5。5E-5 ,COCO验证集上的AP评分从65增加。4到680的情况。SR =单独回归。结果是使用后-32.最后的胜利将这三种特征输入到一个评分网络,该网络由两个全连接层(每个层后面都有一个ReLU层)和一个线性预测层组成,该层旨在学习相应预测姿势的OKS得分,并将真实OKS作为训练集上的目标。3.4. 讨论分离回归,组卷积和复杂性。在多分支结构中,我们将信道映射分成K个不重叠的分区,并将每个分区馈送到每个分支中,用于学习解纠缠表示。这个过程类似于群卷积。 差异在于:组卷积通常通过减少冗余和增加计算和参数预算内的宽度来增加整个表示的容量,而我们的方法不改变宽度,并且旨在学习关注每个关键点的丰富表示。让HRNet-W32中的标准过程将从4个分辨率获得的通道连接起来,并将连接的通道馈送到1×1卷积,输出256个通道。当应用于我们的解纠缠回归时,我们修改1×1卷积以输出255(= 17×15)个通道,因此每个分区有15个通道。此修改不会增加宽度。 参数com-回归的复杂性和计算复杂性复杂性显著降低。详细数字见表1。独立组回归。注意到,一些关键点的显著区域和激活像素可能具有一些重叠。例如,头部中的五个关键点的显著区域是重叠的,并且手臂中的三个关键点具有相似的特征。我们研究了将一些关键点分组到单个分支中而不是让每个分支处理一个关键点的性能。我们考虑两个分组方案。(1)头部的5个关键点使用一个分支,总共有13个分支。(2)头部中的五个关键点使用单个分支,左臂中的三个关键点(右臂、左腿、右腿)使用单个分支。 共有5个分支。实证结果表明,单独的组回归比单独的回归表现更差,例如,五个分支的AP分数减少0。4COCO vali- dation与骨干HRNet-W32.4. 实验4.1. 设置数据集。我们评估了COCO关键点检测任务的性能[36]。train2017集包括57K图像和150K人物实例,注释了17个关键点,val2017集包含5K图像,test- dev2017集包含20K图像。我们在train2017 set上训练模型,并在val2017和test-dev2017 set上报告结果。训练集建设。训练集由关键点和中心热图以及偏移图组成。头减少,特别是整体计算Groundtruth关键点和中心热图:65.4方法头整体#param.(男)GFLOPS#param.(男)GFLOPS基线1 .一、3121岁4830. 6563岁28+ AA1 .一、3421岁9430. 6863岁73+ Sr0的情况。193 .第三章。14第二十九章。5344个。9314682表2.COCO验证集的比较AE:关联嵌入[40]。方法输入大小APAP50AP75APMAPLARARMARL单尺度试验[第78话]51258.9−−−−- -−[第78话]51264岁0−−−−- -−PifPaf [31]−67岁。4−−−−- -−HGG [27]512六十483. 066岁2−−64岁8 −−个人实验室[47]60154号176岁。4第五十七章。7四十6七十三。3第五十七章。七四三。5七十七。4个人实验室[47]140166岁586岁。271岁。962岁3七十三。2七十。七六五。6七十七。9HrHRNet-W32+ AE51267岁。186岁。2七十三。0−−-61岁576岁。1HrHRNet-W48+ AE [1]64069岁987岁276岁。1−−-65岁476岁。4我们的方法(HRNet-W32)51268岁。086岁。774岁562岁1七十七。7七十三。066。282. 7我们的方法(HRNet-W48)64071岁。088. 3七十七。466岁778岁576岁。070。684. 0多尺度测试HGG [27]51268岁。386岁。7七十五。8−−72. 0 −−[67]第六十七话64069岁888.876岁。365岁976岁。6七十五。 670。683. 1HrHRNet-W32+ AE51269岁987岁176岁。0−−-65岁3七十七。0HrHRNet-W48+ AE [1]64072.188.478岁2−−-67岁878岁3我们的方法(HRNet-W32)512七十。787岁7七十七。166岁2七十七。8七十五。九点七十。583. 6我们的方法(HRNet-W48)64072.388.378岁668岁。678岁6七十七。 七七二。884. 9表3.代表性的顶级竞争者的GFLOPs和#参数以及我们的方法与 骨 干 : HRNet-W32 ( DEKR32 ) 和 HRNet-W48(DEKR48)。AE-HG =关联嵌入-沙漏。评价指标。我们遵循标准评估指标3,并使用基于OKS的指标进行COCO姿态估计。我们报告平均精确度和平均召回分数,50不同的阈值和不同的对象大小:AP,AP、AP75、APM,APL,AR,ARM和ARL.GroundTruth关键点 热图H为每个图像训练数据扩充遵循[40],包括随机旋转([−30 °,30 °]),随机缩放([0. 75,1。5)和随机平移([-40 , 40] ) 。 我 们 对 HRNet-W32 进 行 图 像 裁 剪 为512×512,对HRNet-W48进行图像裁剪为640×640,随机翻转作为训练样本。包含K个映射,每个映射对应一个关键点类型。我们按照[40]中的方法构建它们:使用以每个groundtruth关键点周围的一个点为中心的高斯函数分配热度值。中心热图在下文中类似地构造和描述。地面实况偏移地图: 地面实况偏移地图O 每个图像都是由所有的姿势{P1,P2,···,PN}.我们用第n个姿势Pn作为检验-Ple和其他人都是一样的。我们计算中心点-AE-HG个人实验室HrHRNetDEKR32DEKR48输入大小5121401640512640#param.(男)227. 868岁。763岁8第二十九章。665岁714683K我们使用亚当优化器[29]。基本学习速率被设置为1 e-3,并且在第90和第120个时期分别下降到1 e-4和1e-5训练过程在140个epoch内终止。试验. 我们将图像的短边调整为512/640,并保持高度和宽度之间的纵横比,并通过对原始图像和翻转图像的热图和逐像素关键点回归求平均来计算热图和姿势位置。[40]第40话,我们一起来位置p<$n=1Kk=1 pnk和偏移Tn={pn1-0级。5、1和2在多尺度测试中。我们平均p<$n,pn2−p<$n,···,pnK−p<$n}作为f集合的真值对于对应于中心位置的像素我们利用一个将中心点扩大到中心区域:{m1,m2,···,mM},它们是中心位置,在三个尺度上的三个热图,并收集来自三个尺度的回归结果作为候选。4.2. 结果n n n以中心点pn为中心,半径为4,相应地更新偏移。 不位于区域没有偏移值。每个中心位置mm具有置信度值cm,COCO验证。表2显示了我们的方法和其他最先进的方法的比较。表3给出了我们的AP的参数和计算复杂度n nproach和代表性的顶级竞争对手,如AE-指示它是中心的置信度,并使用形成地面实况中心热图C的方式。不在该区域内的位置具有零热值。[40]《易经》:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!”,13.14冉子退朝。我们的方法,使用HRNet-W 32作为骨干,达到68。0AP 评 分 。 与 具 有 类 似 GFLOPs 的 方 法 相 比 ,CenterNet-DLA [78]和PersonLab [47]2如果一个位置属于两个或更多个中心区域,我们只选择一个中心最接近该位置的中心区域3http://cocodataset.org/#keypoints-eval14684表4.COCO测试开发集的比较使用Refinement的意思AE:关联嵌入。方法输入大小APAP50AP75APMAPLARARMARL单尺度试验OpenPose浏览器 [7]−61岁。884. 967岁。5第五十七章。168岁。266岁5 −−[第40话]512五十六681岁。861岁。8第四十九章。867岁。0- -−[第78话]512第五十七章。984. 763岁152.567岁。4- -−[第78话]51263岁086岁。869岁658.9七十。4- -−[63]第六十三话−62岁985. 169岁458.871岁。4- -−PifPaf [31]−66岁7−−62岁472. 9- -−[44]第四十四话−66岁988. 572. 962岁6七十三。1- -−个人实验室[47]140166岁588. 072. 662岁472. 371岁。066。1七十七。7HrHRNet-W48+ AE [1]64068岁。488. 2七十五。164岁474岁2- -−我们的方法(HRNet-W32)51267岁。387岁974岁161岁。576岁。172.四六五。481岁。9我们的方法(HRNet-W48)640七十。089岁4七十七。365岁776岁。9七十五。 四六九。783. 2多尺度测试[第40话]51263岁085. 768岁。958.0七十。4- -−[40]第四十话51265岁586岁。872. 3六十672. 6七十。264. 678岁1[61]第六十一话80064岁887岁871岁。1六十471岁。5- -−[33]第三十三话51268岁。1−−66岁8七十。572. 1 −−HGG [27]51267岁。685. 1七十三。762岁774岁671岁。3 −−个人实验室[47]140168岁。789岁0七十五。464岁1七十五。5七十五。 四六九。783. 0[67]第六十七话64068岁。789岁976岁。364岁8七十五。374岁869. 682. 1HrHRNet-W48+ AE [1]640七十。589岁3七十七。266岁6七十五。8- -−我们的方法(HRNet-W32)51269岁889岁076岁。665岁276岁。5七十五。 169. 582. 8我们的方法(HRNet-W48)64071岁。089岁278岁067岁。176岁。976岁。七七一。583. 914685(with输入大小601),我们的方法实现了超过9. 0改善。与模型尺寸远大于HRNet-W 32的CenterNet-HG[ 78 ]相比,我们的增益为4。0的情况。我们的基准结果61. 9(表5)的预测低于采用后处理以将预测与从关键点热图识别的最接近的关键点匹配的CenterNet-HG。这意味着我们的收益来自于我们的方法。我们的方法受益于大输入尺寸和大模型尺寸。我们采用HRNet-W48作为主干,输入大小为640,获得了最好的性能71岁。0和3。0增益超过HRNet-W32.与现有的方法相比,我们的方法得到了7。0增益超过CenterNet-HG,4.5比PersonLab(输入大小1401)的增益,3. 6增益超过PifPaf [31] 其 GFLOP 是 我 们 的 两 倍 多 , 和 1 。 比HrHRNet- W48 [11]使用更高分辨率表示的1个在[40,47]之后,我们报告了多尺度测试的结果这带来了约2。7 HRNet-W 32的增益,1. HRNet-W48的3个增益。COCO测试开发我们的方法和其他最先进的方法在测试开 发 数 据 集 上 的 结 果 如 表 4 所 示 。 我 们 的 方 法 与HRNet-W 32作为骨干达到67。3AP评分,显著优于模型大小相近的方法。以HRNet-W 48为骨干网的方法获得了最好的性能。0,导致3。5比PersonLab,3。[31]第三节:1. [11]第11话通过多尺度测试,我们的方法与HRNet-W 32达到69。8,甚至比PersonLab更好,表5.消融研究中的AP评分,和四种类型的错误.自适应激活(AA)获得3分。5AP增益超过基线.分离回归(SR)进一步得到2。6AP增益。适应性激活和分离性回归主要减少了两种局部化,误差,抖动和未命中,4。6和1. 五、这些结果来自COCO验证,使用的是主干HRNet-W32。AASrAP抖动小姐反演交换61岁。9十六岁47 .第一次会议。63 .第三章。31 .一、0C63岁6十五岁27 .第一次会议。23 .第三章。31 .一、0C65岁413岁5六、73 .第三章。11 .一、1CC68岁。0十一岁8六、13 .第三章。01 .一、1模型尺寸。我们的方法与HRNet-W 48实现71. 0 AP得分,比关联嵌入好得多[40],2. 比PersonLab高3倍,比PersonLab高0倍。[11]第五节4.3. 实证分析消融研究。我们研究了适应性激活(AA)和分离回归(SR)这两种成分的效应。我们使用主干HRNet-W32作为示例。HRNet-W48的观测结果是一致的。消融研究结果见表5。我们可以观察到:(1)自适应激活(AA)实现了增益3 .第三章。5超过回归基线(61。9)。(2)单独回归(SR)进一步将AP评分提高2。六、(3)单独回归w/o自适应激活得到1。7AP增益。整体增益为6。1.一、我们通过使用coco-analyze进一步分析了每个组件对性能改进14686表6.将回归匹配到从关键点热图中检测到的最近关键点。匹配并不提高单尺度(ss)测试性能,而有助于多尺度(ms)测试。直接回归可能需要适当的多尺度测试方案,这是我们未来的工作。D-32=具有HRNet的DEKR- W32。D-48=带有HRNet-W48的DEKR。D-32(ss)D-48(ss)D-32(毫秒)D-48(毫秒)COCO Val68岁。0 -0。071岁。0- 0。071岁。0↑0。372. 8 ↑0。5COCO测试67岁。三比零。0七十。1↑0。1七十。2↑0。471岁。4↑0。4CrowdPose65岁5↓0。267岁。0↓0。367岁。5↑0。568岁。3↑0。3工具[53]。研究了四种误差类型:(i)抖动误差:小定位误差;(ii)脱靶误差:大定位误差;(iii)反转错误:实例内关键点之间的混淆(iv)交换错误:不同实例的关键点之间的混淆。详细定义见[53]。表5显示了四种方案的四种类型的误差。自适应激活(AA)和分离回归(SR)这两个分量主要影响两个局部化误差Jitter和Miss。自适应激活减少抖动误差和失误误差2. 九比零。9,分别。 单独回归进一步将两个误差减少1。七比零。六、其他两个错误几乎没有改变。这表明所提出的两个组件确实提高了本地化质量。与 对 检 测 到 的 关 键 点 进 行 分 组 的 比 较 。 据HigherHRNet [11]报道,使用HRNet-W 32的关联嵌入[40]实现了AP得分64。4关于COCO验证。 使用相同主干HRNet-W 32的回归基线得到较低的AP得分61。9(表5)。 所提出的两个组成部分导致AP得分68。0,高于关联嵌入+HRNet-W32。将回归匹配到最接近的关键点检测。CenterNet方法[78]执行后处理步骤,通过将回归的关键点吸收到从关键点热图识别的关键点中最接近的关键点来细化回归的关键点位置我们尝试了这种吸收方案。结果列于表6中。我们可以看到,在单尺度测试情况下,吸收方案并没有改善性能。原因可能是我们的方法的关键点定位质量非常接近于从热图识别关键点的质量在多尺度试验情况下,吸收方案改善了结果。这是因为关键点位置回归是针对每个尺度单独进行的,并且吸收方案使回归结果受益于多尺度改进的热图。我们目前的重点不是多尺度测试,其实用价值不如单尺度测试高。我们将寻找一个更好的多尺度测试方案作为我们未来的工作。表7.CrowdPose测试集上的比较方法输入大小 AP AP50 AP75 APE APM APH单尺度试验OpenPose [7]HrHRNet-W48[1]−640−65岁9−86岁。4−七十。662岁7七十三。3四十八。766岁532岁3第五十七章。9我们的(HRNet-W32)51265岁785. 7七十。4七十三。066岁4第五十七章。5我们的(HRNet-W48)64067岁。386岁。472.274岁668岁。158.7多尺度测试HrHRNet-W48[1]64067岁。687岁472.6七十五。868岁。158.9我们的(HRNet-W32)51267岁。085. 472.4七十五。568岁。0五十六9我们的(HRNet-W48)64068岁。085. 5七十三。476岁。668岁。858.44.4. CrowdPose数据集。我们在CrowdPose [34]数据集上评估了我们的方法,该数据集更具挑战性,包括许多拥挤的场景。训练集包含10K图像,值集包含2K图像,测试集包含20K图像。我们在CrowdPose训练集和val集上训练我们的模型,并在测试集上报告结果,如[11]所示。评价指标。采用与COCO相同的基于OKS的标准平均精度作为评价指标。CrowdPose数据集分为三个拥挤水平:容易,中等,困难。我们报告以下指标:AP,AP50,AP75,以及APE,APM和APH ,用于简单,中等和硬图像。培训和测试。训练和测试方法与COCO相同,但训练时期不同。我们使用亚当优化器[29]。基本学习速率被设置为1 e-3,并且在第200和第260个时期分别下降到1 e-4和1 e-5训练过程终止在300个纪元内。测试集结果。我们的方法和其他现有技术方法对测试集的结果如表7所示。我们的方法与HRNet-W 48作为骨干达到67。3 AP,优于HrHRNet-W 48(65. 9)这是一种关键点检测和分组方法,其主干是为改进热图而设计的。通过多尺度测试,我们使用HRNet-W48的方法实现了68.0 AP评分,并且通过进一步的匹配过程(见表6),per-turbance得到了改善,导致HrHRNet-W48的增益为0.7 [11]。5. 结论所提出的直接回归方法DEKR改进了关键点定位质14687量,并实现了最先进的自底向上姿态估计结果。成功的原因在于我们对不同的关键点进行了分解,使得每个表示都集中在相应的关键点区域上。我们认为,通过聚焦和解开关键点回归的回归思想可以使一些其他方法受益,例如用于对象检测的CornetNet [32]和CenterNet [1614688引用[1] Bruno Artacho和Andreas E.萨瓦基斯Unipose:在单个图像和视频中进行统一的人体姿势估计。在CVPR中,第7033-7042页,2020年。2[2] Vasileios Belagiannis , Christian Rupprecht , GustavoMesquiro,and Nassir Navab.深度回归的鲁棒优化。在ICCV,第2830-2838页,2015年。2[3] 作 者 : Yooney Bengio , Aaron C. Courville 和 PascalVincent。表征学习:回顾与新观点。IEEE传输模式分析马赫内特尔,35(8):1798-1828,2013. 3[4] Yanrui Bin,Xuan Cao,Nya Chen,Yanhao Ge,YingTai,Chengjie Wang,Jilin Li,Feiyue Huang,ChangxinGao,and Nong Sang.用于人体姿态估计的对抗性语义数据增强。在ECCV中,第606-622页,2020年。2[5] 阿德里安·布拉特和乔治斯·齐米罗普洛斯。通过卷积部分热图回归的人体姿势估计在ECCV,第717-732页2[6] Yuanhao Cai,Zhicheng Wang,Zhengxiong Luo,BinyiYin , Angang Du , Haoqian Wang , Xiangyu Zhang ,Xinyu Zhou,Erjin Zhou,and Jian Sun.学习多人姿态估计的精细局部表示。在ECCV,第455-472页,2020年。2[7] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行多人2d实时位姿估计。在CVPR中,第1302-1310页,2017年。一、二、七、八[8] 乔·卡雷拉,普尔基·阿格拉·瓦尔,卡特琳娜·弗拉基亚达基,吉坦德拉·马利克。基于迭代误差反馈的人体姿态估计。在CVPR中,第4733-4742页,2016年。2[9] Yu Chen , Chunhua Shen , Xiu-Shen Wei , LingqiaoLiu , and Jian Yang. Adversarial Posenet : A structure-aware convolu- tional network for human pose estimation.在ICCV,第1221-1230页,2017年。2[10] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人姿态估计的级联金字塔网络。在CVPR中,第7103- 7112页,2018年。2[11] 程博文,肖斌,王敬东,石红辉,Thomas S.黄和张磊。Higherhrnet:自底向上人类姿势估计的尺度感知表示学习。在CVPR,2020年。一、六、七、八[12] Xiao Chu,Wanli Ouyang,Hongsheng Li,and XiaogangWang.用于姿态估计的结构化特征学习。在CVPR中,第4715-4723页,2016年。2[13] 肖楚,杨伟,欧阳万里,马成,李伟。Yuille,andXiaogang Wang.人类姿态估计的多上下文注意。在CVPR中,第5669-5678页,2017年。2[14] 戴继丰、齐浩之、宇文雄、李毅、张国栋、韩虎、魏一晨。可变形卷积网络。在ICCV,第764-773页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功