没有合适的资源?快使用搜索试试~ 我知道了~
基于回归的人体姿势识别方法与热图方法的对比分析
1944基于级联变换器的李柯*1,王世杰*2,张翔*2,徐一凡3,徐伟建3,涂卓文31中国科学院大学,北京,中国2清华大学,北京,中国3加州大学圣地亚哥分校,美国{keliictcas,wang98thu,zx1239856}@ gmail.com,{yix081,wex041,ztu}@ ucsd.edu摘要本文提出了一种基于回归的级联变换器姿态识别方法对该领域现有方法进行分类的一种方法基于热图和2)。基于回归。一般来说,基于热图的方法实现更高的准确性,但受到各种启发式设计(大多不是端到端)的影响,而基于回归的方法实现相对较低的准确性,但它们具有较少的中间不可微步骤。在这里,我们利用变形金刚中的编码器-解码器结构来执行基于回归的人和关键点检测,该检测是通用的,并且与实验方法相比需要较少的启发式设计。我们展示了关键点假设(查询)在不同的自我注意层的细化过程在实验中,我们报告的竞争结果,姿态识别相比,基于回归的方法。1. 介绍我们解决了2D人体姿势识别问题[19,1,32,22],其中关键点(例如,头、肩、膝等)在RGB图像中的多个人的位置将被检测和定位。这是计算机视觉中的一个重要问题,可用于各种下游任务,包括跟踪、安全、动画、人机交互、计算机游戏和机器人。2D人体姿势识别已经取得了稳步进展[1,32,36,22,17,2,25,29,24,6,5,28,41,23]随着系统变得越来越实用而没有强约束(例如,呈现不同大小的多个人)。 然而,姿态识别是一个具有挑战性的问题*表示平等贡献。代码:https://github.com/mlpc-ucsd/PRTR.在K实习期间从事的工作。Li,S.Wang,and X.加州大学圣地亚哥分校的张。图1:在不同的Transformer解码器层中逐步细化关键点的图示。通过解码过程,PRTR预测关键点,增加置信度并减少与地面实况的空间偏差,将图像未知查询转换为最终预测。仍然没有解决。困难在于各种方面,诸如大的姿态/形状变化、人与人之间和自遮挡、大的外观变化以及背景杂波。对于输入图像中的多个人[19],姿势识别的任务是定位各个人的人体关键点(实验中的17个)。这可以通过两阶段过程来实现,其中首先检测个体,然后从检测到的图像区域/补丁进行关键点检测;这被称为自上而下的过程[28]。另一种策略称为自下而上的过程,其中直接从图像中检测人类关键点,而无需显式对象检测阶段[6]。关于自上而下和自下而上方法的讨论可以在[6]中找到。在姿势识别中划分现有文献的另一种方式是基于使用热图或回归的选择。基于热图的方法[37,28]执行密集关键点检测,然后执行后续过程CNNTransformer编码器●●●学会了第一解码器第二解码器层层第三解码器层●●●1945i=1j=1用于集群和分组;它们提供了很强的性能,但也受到许多启发式设计的影响,这些设计大多不是端到端可学习的。基于回归的方法[29,41,35]直接对具有较少中间阶段和规范的关键点执行回归。基于回归的方法通常比基于热图的方法执行得更差,但可以端到端地进行,并与其他下游任务进行读取集成基于热图和基于回归的方法存在的原因当精度是优先级时,采用基于热图的方法,而基于回归的方法可以被认为是一个方便的即插即用模块。通常,基于热图的方法采用手工或启发式预/后处理来将地面实况编码为热图并解码热图以预测关键点。这些方法引入了设计挑战和偏差,使其成为次优方法 。 它 们 也 很 难 更 新 和 适 应 。 详 细 地 说 ,SimpleBaseline [37]和HRNet [28]采用了根据[22]中的模型性能经验设计的标准坐标解码方法,在热图中从最大激活到第二个最大值经验地细化坐标0.25倍。DARK[40]提出了基于泰勒展开的坐标解码和无偏的以子像素为中心的坐标编码。UDP [15]甚至发现,在基于热图的范例中使用一个像素的翻转移位时,准确性会大幅下降对于通用回归方法,我们的目标是通过使训练目标和目标输出直接和透明来删除不必要的设计。应该直接输出坐标,并直接使用预测和地面实况坐标计算损失。考虑到这一点,我们提出了一个自顶向下的回归为基础的二维人体姿态识别方法,使用级联变压器组成的人检测变压器和关键点检测变压器。已经开发了两种替代方案,一种是两阶段过程(如图2所示),其中两个Transformer按顺序学习,另一种是顺序过程(如图3所示),其中两个Transformer以端到端的方式联合学习。我们将我们的方法命名为姿势回归变换器(PRTR)。我们将多尺度特征应用于关键点检测Transformer。在解码器中,对不同注意层的关键点查询PRTR是一种通用的方法,关键点回归,我们表现出竞争力的结果,在姿态识别时,与现有的回归为基础的方法在文学,erature。我们工作的贡献包括:• 我们提出了一种基于回归的人体姿势识别方法,通过构建级联变压器,基于通用对象检测器,端到端对象检测变压器(DETR)[3]。我们的方法名为姿态识别Transformer(PRTR),在Transformers中具有自关注层的令牌化表示,以捕获关键点的联合空间和外观建模• 已经开发了两种类型的级联变压器如图2所示,第二Transformer获取从第一Transformer检测到的图像块的两阶段;以及2)。一个是使用空间Transformer网络(SpaceX)[16]创建端到端框架的顺序框架,如图3所示。• 我们将关键点查询在各个方面的分布可视化,以展现Trans-former的内部过程,从而逐步细化检测。在COCO 2D人体姿势识别数据集[19]上,与基于回归的方法相比,观察到了竞争性结果。2. 相关工作给定图像I,姿态识别的目标是预测可能的空集,{Pi}N,其中N是图像中的人数。 对于每个人,我们需要预测其边界框位置b i,以及其骨架坐标s i={(xj,y j)}J,其中J是每个数据集中预定义的关节数。我们从几个方面讨论了相关的工作。人体姿态回归领域已经见证了持续的进步[1,32,36,22,17,2,25,29,24,6,5,28,41,23],特别是随着深度学习技术的发展[18,12,14]。姿势识别的一个值得注意的发展是HRNet系列模型的创建[28,6],其本身是一种新的卷积神经网络(CNN)架构,旨在对高分辨率特征响应进行建模。HRNet [28]在推进2D人体姿势识别/估计的最新技术方面显示出其独特的优势。基于热图的方法包括[2,13,25,21,17,24,6,5,37,28,40,39,30],其中各种技术被开发来执行多类关键点分类。分类器产生密集的热图(分类图),然后是聚类和分组过程。一方面,基于热图的方法通过密集扫描所有像素来利用对关键点的细粒度检测;另一方面,热图创建了与关键点的总体估计的断开,使得中间聚类和分组过程不能直接集成为端到端学习框架。基于回归的方法[4,41,23,35,29]旨在直接接近关键点检测,并在预测坐标和地面实况坐标之间实现直接损失最小化,因此,它们可以更容易地集成到最终目标中。学习框架。然而,整体回归本质上可能更难以优化,因为1946图2:PRTR(Pose Recognition with Transformer)的架构,两阶段变体。首先,使用全画面图像特征和绝对位置编码,人检测Transformer检测图像中的人与一组学习的人查询。过滤背景查询后,我们用预测框裁剪原始图像。裁剪后的图像与相对于相应边界框的位置编码一起送入关键点检测变换器。最后,我们用匈牙利算法从一个更大的关键点查询集中读出J个关键点。关键点检测Transformer以矢量化方式处理所有非背景关键点提议。 h(0)表示h假设(查询),通过T transformer解码r,将特征向量细化为最终预测y*。姿态识别所需的高精度。此外,基于回归的方法通常具有跳过大量候选位置的递归过程[9我们的工作遵循回归姿态估计的路线,并以分层Transformer的方式隐式地制定逐步回归[9,4变形金刚和自我注意力注意力机制[38,33,8]极大地推进了机器学习中的表示学习领域。将Transformers[33]引入对象检测是构建端到端对象检测框架的在这里,我们基于DETR [3]框架构建级联变压器来执行基于回归的姿势识别。我们的系统名为PRTR,旨在提供一个通用的关键点回归解决方案,而无需特定的逻辑驱动设计。最近,Transformer架构和自我注意力在计算机视觉任务中的应用越来越多[26,3,10],但与语言应用[7,34]的可视化工作有限。据我们所知,我们是第一个可视化的动态解码过程中的Transformer解码器,这带来了重大的见解,未来的Transformer设计。3. 方法我们认为,Transformer中的注意机制可以作为一个通用的推理引擎,通过将视觉感知写为一个贝叶斯推断P(Y|I)CUP(I|Y)P(Y),其中Y=(y∈elb,y∈knee,···,y∈nose)。在这里,用于回归的Ttransformer通过捕获comm来执行直接学习和推理输入I和预测假设(查询)之间的复杂联合关系,P(I|Y),通过交叉注意,并通过假设(查询)自我注意,对Y的配置P(Y)的先验建模。见图1在本节中,我们将此想法实例化为用于多人姿势识别的具有Transformer的姿势识别(PRTR)。总体架构如图2所示。我们首先介绍了一个级联的双Transformer架构,用于人员和关键点检测,然后是一个端到端的变体,以简化整个模型。3.1. 人员检测Transformer我们解决多人姿势识别问题,自上而下的方式,并采用Transformer架构[33]继检测Transformer(DETR)[3]作为第一阶段人员检测的骨干。在编码器阶段,由CNN生成的图像特征被平坦化并馈送到Transformer编码器中以产生上下文化的图像特征;在解码器阶段,给定一组固定的学习查询嵌入作为输入,Transformer解码器在图像特征的上下文下推理对象之间的关系,并在上下文平行的方式。最后,使用分类头将目标分类为人或背景,并使用4通道回归头预测边界框。3.2. 关键点检测Transformer在得到边界框后,我们裁剪RGB图像,并使用另一个CNN主干来获得每个……人员分类器边界框回归器骨干Transformer编码器Transformer解码器作物人物特征集位置编码中文鼻子我不知中文手^hand…中文ELB…埃塞尔关键点分类器坐标回归骨干Transformer编码器中文Transformer解码器膝^knee位置编码关键点要素集×N人……前馈交叉注意自注意前馈交叉注意Self-Attention前馈交叉注意自注意前馈交叉注意Self-Attention……前 馈 自 注 意 前馈Self-Attention前 馈 自 注 意 前馈Self-Attention……1947σ(i)人预测(G)网格生成器边界包装盒关键点预测图3:Pose Recognition with Transformer(PRTR)的架构,端到端变体。对于端到端学习,我们在骨干生成的多层特征上应用可微分双线性采样,而不是在RGB图像级别进行裁剪,从而为关键点检测Transformer提供放大和多级人.因为在计算关键点检测Transformer的损失时只涉及匹配的查询,所以我们过滤掉了不匹配的查询。与人员检测过程一样,我们使用Transformer的编码器-解码器架构以并行方式进行预测,但我们使用另一组查询(数量表示为Q)。最后,分类头在J种类型的关节和背景(背景)之间进行预测,并且2通道回归头输出每个关键点由于PRTR推断出的预测数量比地面实况(数量表示为J)大,因此我们需要找到它们之间的匹配来计算损失。我们将此匹配问题表示为最优二分匹配问题,匈牙利人al-taxim [27]可以有效地解决该问题。具体地说,我们试图找到一个内射函数σ∈[J]→[Q],首先以离散方式最小化匹配成本C在运行二分匹配算法之后,我们将匹配的J个关键点作为我们的预测。模型的损失函数通过将等式2中的负概率替换为匹配查询的负log-li k−logpσ (i)(ci)来获得。对于不匹配的查询,我们只反向传播分类损失.为了解决由低收入阶层造成的阶层不平衡问题,在[3]中,我们将其对数概率项的权重设置为0.1。3.3. 多层裁剪与裁剪在上一节中,我们介绍了一个两阶段管道。然而,在端到端的理念下,期望模型是端到端可调的,以利用人员检测和关键点识别任务之间为此,我们结合了空间Transformer网络(Space-Transformer Network,简称 SPNN ) [11] , 直 接 从 fea 中 裁 剪 出 关 键 点 检 测TransformerJC=arg minσi.ΣCyi,y<$σ(i)(一)由第一个CNN主干生成的真实地图。这种裁剪操作不仅对于特征图是可微的,而且对于边界框坐标也是可微的。,其中yσ(i)表示要与第i个关键点。在训练阶段,我们使用混合匹配查询比如说, 一个w×h 由b=(xleft,xright,ytop,xdown)生成的网格可以用公式表示为:分类概率和坐标偏差的真实性例如,第i个关键点及其匹配查询σ(i)的成本函数为:w−ixi=xWh−jy=y左我+wx右J+y(四)(五)Ci=−p<$σ(i)(ci)+<$bi−<$b<$(2)jhtoph向下其中,p∈σ(i)是查询的类概率,并且ci是第i个关键点的类标签。然而,在推断阶段,我们不能访问地面实况关键点坐标,因此我们仅使用分类概率将J个原型关键点与查询因此,第i个关键点的匹配成本简单地为:Ci=−p<$σ(i)(ci)(3)骨干样品样品样品关键点检测Transformer编码器人员检测Transformer编码器关键点检测Transformer解码器人员检测Transformer解码器1948其中b相对于原始图像,w×h是关键点检测变换器所需的特征图大小。为了减轻关键点识别中常见的分辨率挑战,我们将网格应用于在不同中间层生成的不同尺度的特征图。使用双线性内核的CNN骨干。用U表示原始W×H特征图,1949表1:COCOvalset的比较。+表示使用多尺度检验。表示端到端模型变体。方法骨干输入大小#参数GFLOPSAPAP50AP75APMAPLAR基于热图8-[22]第二十二话沙漏-8叠256× 19225.1M14.366.9−−−−−尼泊尔共产党[5]ResNet-50256× 19227.0M6.2068.6−−−−−[37]第三十七话ResNet-50384× 28834.0M18.672.289.378.968.179.777.6[37]第三十七话ResNet-101384× 28853.0M26.773.689.680.369.981.179.1[第28话]HRNet-W32384× 28828.5M16.075.890.682.771.982.881.0基于回归[35]第三十五话[35]第三十五话ResNeXt-101-DCNHRNet-W48−−−−−−65.769.885.488.871.876.3−−−−−−PRTRResNet-101−−−64.885.170.260.473.873.9PRTRHRNet-W48−−−66.285.972.161.374.472.2PRTRResNet-50384× 28841.5M11.068.288.275.263.276.276.0PRTRResNet-50512× 38441.5M18.871.089.378.066.478.878.0PRTRResNet-101384× 28860.4M19.170.188.877.665.777.477.5PRTRResNet-101512× 38460.4M33.472.089.379.467.379.779.2PRTRHRNet-W32384× 28857.2M21.673.189.479.868.880.479.8PRTRHRNet-W32512× 38457.2M37.873.389.279.969.080.980.2采样过程可表述为:ΣVij=Unmmax(0,1−|xi−m|)max(0,1−|yj−n|)(六)m,n在获得一系列相同空间大小的图像特征后,我们将它 们 连 接 成 一 个 特 征 图 , 用 于 关 键 点 检 测Transformer。这种多层裁剪变体如图3所示。4. 实验我们在COCO关键点检测任务和MPII人体姿态数据集上验证了我们提出的方法。4.1. 实验装置数据集。我们使用了两个人体姿态估计数据集,COCO和MPII。COCO数据集[19]包含超过200,000张图像和250,000个人物实例。每个实例都标记有17个关节。我们在包含57 K图像的COCO train 2017数据集上训练我们的模型,并在标准val 2017和test-dev 2017分割上评估我们的方法,分别包含5 K和20 K图像MPII单人数据集[1]由大约25K张图像和40K个分离良好的人实例组成我们按照标准的火车和山谷分开。评价指标。我们遵循惯例,[28]并使用COCO和MPII的正确关键点百分比(PCK)来评估性能。人员检测Transformer微调。我们首先通 过 从DETR [3]提供的权重初始化来调整人检测器。在分类器中,我们保留了除非人类的原型向量之外的所有权重调谐持续10个epoch,ResNet-50骨干和5e-6为其余部分。 对于姿态识别任务,不希望检测到没有任何可见关键点的人;这些人具有面积小的共同特征。事实上,所有分割区域小于322的人都不包含关键点。考虑到这一点,我们在这个阶段跳过了没有可见关键点的人物注释,用于训练和评估。在调谐之后,每个检测器的mAP得分为67。0,mAP为50。2在标准val2017集。两阶段的变体。对于我们模型的两阶段版本,我们将人体检测边界框的高度或宽度扩展到固定的长宽比(COCO为4:3)。 使用框裁剪补丁,然后调整大小为固定大小,COCO为384×288或512×384。 数据扩充遵循[37],包括随机旋转([-40,40]),随机尺度([0.七,一。(3)、翻转。MPII的数据预处理保持不变,但纵横比设置为1:1,输入尺寸为384×384或512×512。对于Transformer部分,编码器层、解码器层和关键点查询被设置为6,6,分别为100我们使用AdamW优化器[20]。ResNet主干的基本学习率为1e−5,其余的为1e−4,权重衰减为1e−4。使用多步学习率方案,其在第120步时学习率减半,第140章分别训练过程在两个数据集的200个epoch内终止。试验. 在测试时,我们使用来自调谐的人检测器的人 检 测 结 果 ( 与 AP 50. COCO val2017 套 件 上 的 2个),用于COCO val和测试开发套件。受热图范例中使用的翻转测试[5,22,37]的常见做法的启发,我们通过对原始图像和翻转图像的输出进行平均来计算关键点坐标。端到端变体。 对于端到端的变体,我们使用地面实况在人员检测Transformer之后匹配预测的人员,并丢弃不匹配的查询。1950表2:COCO测试开发集的比较,不包括使用外部数据训练的系统。 +表示使用多尺度检验。表示端到端模型变体。对于自下而上的方法和端到端的PRTR,计算开销没有显示为与两阶段方法不可比较。#为姿态估计网络计算参数和FLOP,不包括人体检测和关键点分组。[35][28][29]方法骨干输入大小#参数GFLOPSAPAP50AP75APMAPLAR基于热图:关键点热图预测和后处理以解码坐标CMU-姿势[2]3CM-3PAF−−−61.884.967.557.168.266.5[13]第十三话ResNet-50−−−63.187.368.757.871.4−G-RMI [25]ResNet-101353 ×25742.6M57.064.985.571.362.370.069.7关联嵌入。[21日]沙漏-4个堆叠−−−65.586.872.360.672.670.2PifPaf [17]ResNet-101-膨胀−−−66.7−−62.472.9−个人实验室[24]ResNet-101−−−65.587.171.461.371.570.1PersonLab+ResNet-101−−−67.888.674.463.074.874.5HigherHRNet+ [6]HRNet-W48−−−70.589.377.266.675.874.9尼泊尔共产党[5]ResNet-Inception384 ×288−−72.191.480.068.777.278.5[37]第三十七话ResNet-152384 ×28868.6M35.673.791.981.170.380.079.0[第28话]HRNet-W48384 ×28863.6M32.975.592.583.371.981.580.5黑暗[40]HRNet-W48384 ×28863.6M32.976.292.583.672.582.481.1基于回归:直接关键点坐标预测[41]第四十一话沙漏-2个堆叠−−−63.086.869.658.970.4−DirectPose [31]ResNet-101−−−63.386.769.457.871.2−SPM+ [23]沙漏-8叠384 ×384−−66.988.572.962.673.1−积分[29]ResNet-101256 ×25645.0M11.067.888.274.863.974.0−[35]第三十五话HRNet-W48−−−68.789.976.364.875.3−PRTRResNet-101−−−63.486.269.459.372.073.0PRTRHRNet-W48−−−64.987.071.760.272.574.1PRTRResNet-101384 ×28860.4M19.168.889.976.964.775.876.6PRTRResNet-101512 ×38460.4M33.470.690.378.566.277.778.1PRTRHRNet-W32384 ×28857.2M21.671.790.679.667.678.478.8PRTRHRNet-W32512 ×38457.2M37.872.190.479.668.179.079.4表3:MPII值集(PCKh@0.5)的比较。方法骨干头ShoELBWRI髋膝Ank是说哼。基于CPM [36]CPM96.295.087.582.287.682.778.487.7SBL [37]ResNet-15297.095.990.385.089.285.381.389.6[第28话]HRNet-W3297.195.990.386.489.187.183.390.3Reg. 基于积分[29]ResNet-101−−−−−−−87.3PRTR(我方)ResNet-10196.395.088.382.488.183.677.487.9PRTR(我方)ResNet-15296.494.988.482.688.684.178.488.2PRTR(我方)HRNet-W3297.396.090.684.589.785.579.089.5因为它们不会有助于训练关键点检测Transformer。对于超过5人的图像,我们随机抽取5个匹配的查询,以减少计算成本。在从骨干特征采样图像特征之前,由人检测Transformer预测的边界框在高度和宽度维度上都被放大了25%,这有助于通过获取更多的上下文信息来预测边缘处的关键点。我们使用与DETR [3]相同的数据增强,除了随机将图像的最短边从760到1024,而不超过1400。优化器设置遵循两阶段变体,除了在第25和第60个epoch将学习率减半。4.2. 结果COCO数据集上的结果。表1和表2比较了COCOval和test上的姿态估计结果。dev分别设置。定性结果如图5所示。对于端到端变体 , 它 超 越 了 竞 争 对 手 的 完 全 端 到 端 组 件 , 如CenterNet [41]和DirectPose [31]。我们的方法的两阶段变体在基于回归的类别中表现出竞争基线。我们使用ResNet-101主干的模型与PointSetNet [ 35 ]可比较,PointSetNet [35] 利 用 了 更 复 杂 的 主 干 ( HRNet-W48)。我们的模型受益于更大的输入大小和更强的特征主干。通过放大-在384×288到512×384的范围内,ResNet-50和ResNet-101的PRTR分别提高了2.2,1.9我们的最佳模型达到72.1 AP,能够模拟基于热图的HigherHRNet [6]。MPII val数据集上的结果。由于只有MPII val是公开的,我们报告了在整个MPII训练集上训练的模型的性能,如表3所示。我们的最佳模型达到89.5PCKh@0.5评分,与SimpleBaseline [37]相当由于不需要人员检测阶段,MPII不会尝试使用端到端变体。4.3. 消融研究我们对COCO数据集进行消融研究,以验证表4和表5中列出的设计选择。呈现的结果在COCO val 2017上,具有ResNet-50主干1951图4:关键点检测Transformer的PRTR解码过程的可视化。在第一行中,最后一列显示最终预测,前6列显示初始查询嵌入和中间5个解码器层的预测第二行显示了分别针对右耳和左眼的100个查询的热图的叠加。表4:消融研究w.r.t. COCO val2017上的查询数量。Fixed代表类特定的查询,即查询总是被映射到固定的关键点类型。联系我们APAP50AP75APMAPLAR10067.787.774.962.675.774.25067.687.774.863.075.474.11767.387.974.462.175.473.117(固定)56.383.761.954.260.369.6输入尺寸为384 ×288。非类特定查询。我们让Transformer解码器的查询预测关键点坐标和类别,然后通过类别概率从所有查询中选择所需的点。这样,我们就不会强制J关键点类型和查询之间的固定对应关系。因此,查询不是特定于类的,并且每次都可以用于预测不同类型的关键点在这里,我们专注于两种替代设计:a)使用不同数量的查询; b)当查询数量等于所需点数时,查询的必要性是非类特定的。从表4中可以清楚地看出,100个查询的版本仅比50个和17个查询的版本具有较小的优势。然而,使用类特定的查询将极大地阻碍模型的性能,导致AP(11.4)的大幅下降。这说明了每个查询动态预测其首选关键点类型的必要性,并在推理期间通过匈牙利匹配读取最佳估计。在推断期间排除背景预测。在推理过程中,我们在 对类 概率 进行 归一 化之 前排 除背 景类 的 logit(logit),以便为匈牙利语提供更多的关键点候选表5:COCO val2017的消融研究。’GT Box’, ’GT框∅Logit翻转测试AP AP50 AP75 APM APL AR✓✓✓✓✓✓✓✓✓✓✓✓67.1 87.674.562.6 74.7 73.769.1 90.177.066.1 73.7 73.966.2 87.273.562.1 72.8 72.868.2 89.775.565.3 72.5 72.967.7 87.774.962.6 75.7 74.270.4 91.278.367.1 75.2 74.766.4 86.973.062.0 73.4 72.868.9 89.975.865.7 73.4 73.2匹配器从表5中,我们观察到,包括背景类别的logit将导致AP下降0.9 - 1.5翻转测试。翻转是热图范例中常用的测试增强,其中输入图像是水平的翻转并馈送到模型,然后翻转回来,对齐并平均预测的热图以提高准确性。同样的技术也适用于回归模型,其结果通过直接平均预测的关键点坐标获得。由于回归在连续坐标空间上操作,因此一个优点是它不会受到热图范例中对齐误差引起的不准确性的影响,如[15]所述。从表5中可以看出,翻转测试为我们的模型提供了一致的性能提升。Oracle结果。我们还探索了改进的空间,通过用地面实况(GT)替换人检测器预测的边界框,如表5所示。是很明显,GT盒子将AP提高了2 - 2.5,这表明了更强的个人探测器的潜在好处。1952鼻子0000002000200206L眼00990000100000001R眼00000100000002013耳朵00000002000990202R耳09900021400000100左肩0000001100000000右肩00000001990000201L形弯头000000040094002103R弯头00000055001002972左手腕00000850300000202右腕000001216000098306左髋00000043300000104右髋 9900000011000003500左膝关节000000018000001103R膝关节00009823813020003043左脚踝00000005091000102右踝00098001300000503图5:不同大小和姿势的图像上的定性COCO人体姿势估计结果。4.4. 目视 用于Keypoint检测Transformer图6:COCO val2017上关键点检测Transformer中Q = 100个查询中的16个关键点(不包括背景类)预测的可视化。每个彩色点表示对应类的预测关键点。在本节中,我们将展示关键点检测Transformer的可视化效果。在图6和图7中,我们通过查询可视化了关键点预测的位置和类分布。观察到不同的查询偏向不同的关键点(例如,在我们的模型中,第89次查询的预测中有92.3%是鼻子关键点)。我们还观察到,专用于某些关键点的查询偏向于特定位置(例如,关注鼻子的查询倾向于预测图像上部的位置),而关注背景的查询所预测的点是均匀分布的。在图4中,我们在推理过程中探索和可视化不同解码器层中的查询输出第一行显示了匈牙利算法选择的查询,并演示了它们的预测如何在从低到高的解码器层中移动和细化最初,预测随机地位于图像中在通过一些解码器层之后,查询预测逐渐接近适当的位置。值得注意的是,如果查询图7:关键点检测Transformer中总共Q=100个查询中的16个的预测关键点类的分布的可视化。热图上的数字对应于各个关键点类的概率(×100)我们观察到查询学习专门化关键点类。与较低层中的地面实况相比,其预测在较高层中几乎没有变化。第二行显示特定类型的关键点的空间概率为了可视化,首先在预测的关键点位置周围生成高斯热图,其峰值与类概率成比例;然后将所有Q请注意,初始查询嵌入(第一列)产生了一个等效的关键点分布。在解码器的前几层中存在关键点位置的混淆,然而随着解码器层深入,细化继续进行并且最终产生突出的关键点概率图(最后一列)。5. 结论在 本 文 中 , 我 们 提 出 了 姿 态 回 归 变 换 器(PRTR),这是一种基于Transformer结构的基于回归的多人姿态识别方法的新设计[33,3]。与现有的基于热图的方法相比,它将姿态识别任务视为回归任务,去除了复杂的预/后处理过程,并且需要更少的启发式设计我们的方法包括两种选择,一种是两阶段的,另一种是端到端的。PRTR在具有挑战性的COCO数据集上实现了与其他现有基于回归的方法的最先进性能兼容性。关键点查询的分布和细化在未来,我们希望研究更强大的骨干网络,并以更灵活的方式将基于回归的人体检测和姿势识别结合起来。1953引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿势估计:新基准和最先进的分析。在IEEE Conf.目视模式识别第3686-3693页[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用部分仿射场进行多人2d实时姿态估计。 在IEEE Conf. Comput.目视模式识别,第7291-7299页[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳伊夫、尼古拉斯·乌索尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端物体检测。在Eur.会议记录。目视,2020年。[4] J. Carreira , Pulkit Agrawal , K. Fragkiadaki 和 JitendraMalik。迭代误差反馈的人体姿态估计。2016年IEEE计算机视觉和模式识别会议(CVPR),第4733-4742页[5] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人姿态估计的级联金字塔网络。在IEEE Conf.目视模式识别,第7103-7112页[6] Bowen Cheng , Bin Xiao , Jingdong Wang , HonghuiShi,Thomas S Huang,and Lei Zhang. Higherhrnet:自底向上人类姿势估计的尺度感知表示学习。在IEEEConf.目视模式识别,2020年。[7] 放大图片作者:A.Yuan,Been Kim,A.Pearce,F.Vi egas和M。 Wattenbe r g. 观察和测量bert的几何形状。ArXiv,abs/1906.02715,2019。[8] Jacob Devlin , Ming-Wei Chang , Wendon Lee , andKristina Toutanova. Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[9] 彼得·多尔,彼得· 韦林德和彼得·佩罗纳。级联姿态回归。 在IEEE Conf. Comput. 目视模式识别第1078-1085页[10] A.作者:A.作者:张晓鹏,张晓鹏.放大图片创作者:J.Gelly,Jakob Uszko-reit,and N.霍斯比一张图片相当于16x16个单词:用于大规模图像识别的变形金刚。ArXiv,abs/2010.11929,2020。[11] Yanyan Fang , Biyun Zhan , Wandi Cai , ShenghuaGao,andB.胡用于视频人群计数的局部受限空间Transformer网络。2019年IEEE多媒体和博览会国际会议(ICME),第814-819页[12] Ian Goodfellow,Yooney Bengio,and Aaron Courville.深度学习,第一卷。北京:清华大学出版社.[13] 凯明赫,吉奥吉亚·吉奥萨里,彼得·多尔和罗斯·吉尔希克。面具R-CNN。在国际会议计算中。目视,第2961-2969页[14] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习。在CVPR,2016年。[15] 黄俊杰,朱正,郭峰,黄关。魔鬼在细节中:深入研究人类姿势估计的无偏数据处理在IEEE/CVF会议记录中计算机视觉和模式识别会议(CVPR),2020年6月。[16] Max Jaderberg,Karen Simonyan,Andrew Zisserman,et al. Spatial Transformer networks. 神经信息处理系统的进展,第2017-2025页,2015年[17] Sven Kreiss Lorenzo Bertoni和Alexandre Alahi。Pifpaf:用于人体姿势估计的复合场。在IEEE Conf.目视模式识别,第11977-11986页[18] Alex Krizhevsky,Ilya Sutskever,and Geoffrey E Hinton.使用深度卷积神经网络进行图像网分类。神经信息处理系统的进展,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功