基于令牌表示的人体姿态估计

196 浏览量更新于2023-10-13 收藏 2.87MB PDF 举报

人体姿态估计

轻量级模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11313↓ ↓↓↓TokenPose：学习用于人体姿势估计的李艳杰*1， 2张守奎2王志成2杨森*2， 3杨婉蔻3夏树涛††1，4周二进21清华大学2美高梅科技3东南大学4PCL网络与通信研究中心，鹏程实验室lyj20@mails.tsinghua.edu.cn{zhangshoukui，wangzhicheng} @ megvii.com{yangsenius，wkyang} @ seu.edu.cnxiast@sz.tsinghua.edu.cnzej@megvii.com摘要人体姿态估计严重依赖于视觉线索和部分之间的解剖约束来定位关键点。大多数现有的基于CNN的方法在视觉表示方面做得很好，然而，缺乏显式学习关键点之间的约束关系的能力。在本文中，我们提出了一种新的方法，基于令牌表示的人体姿态估计（TokenPose）。详细地说，每个关键点被明确地嵌入为令牌，以同时从图像中学习约束关系和外观线索。大量的实验表明，小型和大型TokenPose模型与最先进的基于CNN的模型相当，同时更加轻量级。具体来说，我们的TokenPose-S和TokenPose-L达到72。5AP和75。COCO验证数据集上的8个AP，参数显著降低（80.6%;56. 8%）和GFLOPs（75. 3%;24. 7%）。代码公开1。1. 介绍2D人体姿态估计的目的是定位人体解剖学关键点，它严重依赖于视觉提示和关键点约束关系。它是计算机视觉领域的一项基础性工作，引起了学术界和工业界的广泛关注。在过去的十年中，深度卷积神经网络由于其在视觉表示和识别方面的强大能力而在人体姿态估计方面取得了令人印象深刻的性能[8，29，22，21，38，12，37，24]。由于热图表示已成为标准的LA-*这项工作是在Yanjie和Sen Yang在MEGVII Tech实习时完成的。†通讯作者。1https://github.com/leeyegy/TokenPose视觉提示-踝关节（1）令牌和视觉令牌之间的注意力映射。...层#1层#2层#3第N-2层第N-1层层数N令牌-姿势约束提示踝关节不。哎。(l)哎。(r)EA. (l)EA. (r)sh. (l)sh. (r)El. (l)El. (r)水(l)水(r)嗨(l)嗨(r)kn. (l)kn. (r)一个.图1.预测左脚踝位置的过程。对于视觉线索学习，所提出的TokenPose在前几层关注全局上下文，然后随着网络的深入逐渐在最后几层中，TokenPose依次考虑了靠近目标关键点的臀部和膝盖，并最终定位了左脚踝的位置。对于约束线索学习，TokenPose表明定位左脚踝主要依赖于左膝和右脚踝，分别对应于相邻约束和对称约束。尽管使用Bel表示来编码关键点的位置，但是大多数现有模型倾向于使用完全卷积层来维持特征图的2D结构直到网络输出。然而，通常不存在由这样的CNN模型抽象的具体变量来直接表示关键点实体，这限制了模型显式地捕获部件之间的约束关系最近， Transformer [35] 及其源于自然语言处理（NLP）的变体已经合并为各种视觉任务的新选择它对全局依赖关系的建模能力比CNN更强大，这为有效地捕获关系提供了一种有前途的方法11314在可视实体/元素之间传送。而在NLP领域，所有的语言元素，如单词或字符，通常都用固定维度的嵌入或令牌向量来符号化，以便更好地度量它们在向量空间中的相似性，就像word2vec [20]的方式一样。我们借用这样一个概念的“令牌”，并提出了一种新的基于令牌的表示人体姿态估计，即TokenPose。具体来说，我们进行两种不同类型的标记化：关键点标记和可视标记。视觉令牌是通过均匀地将图像分割成补丁并将展平的补丁映射到具有固定维度的嵌入中来产生的。同时，关键点令牌是随机初始化的嵌入，其中的每一个表示特定类型的关键点（例如，左膝、左脚踝、右眼等）。所得到的关键点令牌可以分别从与视觉令牌和其他关键点令牌的交互中学习视觉线索和约束关系。所提出的模型如何预测左脚踝位置的示例如图1所示。关键点的位置最后通过我们的网络输出的基于令牌的表示来估计TokenPose的架构如图2所示。值得注意的是，TokenPose从大量数据中学习关键点之间的统计这些信息被编码成关键点图，该关键点图可以通过向量相似性来记录它们的关系。在推断期间，TokenPose将关键点到- kens与其对应的补丁可能包含目标关键点的那些视觉令牌相通过将注意力可视化，我们可以观察它们如何相互作用，以及模型如何利用线索来定位关键点。这些贡献摘要如下：• 我们建议使用令牌来表示每个关键点实体。通过这种方式，视觉线索和约束线索学习被明确地纳入一个统一的框架。• 在这项工作中，混合和纯基于Transformer的架构进行了探讨据我们所知，提出的TokenPose-T是第一个纯基于Transformer的2D人体姿态估计模型。• 我们在两个广泛使用的基准数据集上进行实验：COCO关键点检测数据集[19]和MPII人体姿势数据集[1]。TokenPose以更少的参数和计算成本实现了具有竞争力的最先进的性能，与现有的基于CNN的同行相比。2. 相关工作2.1. 人体姿态估计深度卷积神经网络已被应用于人体姿态估计，这极大地提高了模型性能[32，13，29，38，22，17，21，4，7]。最近的基于热图的方法倾向于通过堆叠更深的网络架构来提高性能。沙漏[22]堆叠块以增强热图估计质量。SimpleBaseline [38]通过堆叠转置卷积层设计了一个简单的架构，并实现了令人印象深刻的性能。HRNet [29]建议在整个过程中保持高分辨率表示，以便提供空间精确的热图估计。然而，卷积神经网络仍然难以捕获和建模关键点之间的约束关系，这对于人体姿势估计是重要的。2.2. 视觉TransformerTransformer [35]采用基于自注意和前馈网络的编码器-解码器架构，在NLP方面取得了巨大成功最近，基于Transformer的模型[11，34，5，14，44，45，9，39，6，36，41，28]也已经在各种视觉任务中显示出巨大的潜力。侦查DETR [5]提出了一种基于Transformer的体系结构来处理端到端的对象检测，有效地消除了对许多手工设计组件的需求。可变形DETR [45]然后提出使注意力模块只关注参考周围的一小部分关键采样点，从而实现比DETR更好的性能。UP-DETR [9]通过设计随机裁剪的补丁来无监督地预训练DETR。分类. ViT [11]提出了一种具有补丁嵌入表示的纯Transformer模型，该模型在大量数据上进行预训练，然后在ImageNet数据集上进行微调DeiT [34]将蒸馏令牌引入ViT，以从教师网络中学习知识，以避免在大型数据集上进行预训练。Tokens2Token [41]将图像逐步编码为令牌，并对局部结构信息进行建模以减少序列长度。人体姿态估计。最近的几部作品[27，15，18，39，43，28]介绍了用于人体姿势估计的 Transformer。PoseFormer [43]基于视频帧中的2D姿态序列引入了用于3D姿态估计的TransPose [39]倾向于利用Transformer中内置的注意力层来揭示预测关键点的长期依赖关系然而，TransPose缺乏直接建模关键点之间的约束关系的能力. 在这项工作中，我们建议显式地表示为令牌嵌入的关键点。然后通过自我注意交互同时学习视觉线索和约束关系。11315××··×−→∈}L××--PhW图2.提议的TokenPose的示意图由CNN主干提取的特征图被均匀地分割成补丁并平坦化为1D向量。采用线性投影嵌入扁平化的向量，产生视觉令牌此外，关键点令牌被随机初始化以表示每种特定类型的关键点。然后，将视觉令牌和关键点令牌的1D序列作为Transformer编码器的输入外观线索和解剖约束线索都是通过每个Transformer层中的自我注意交互来捕获的最后，由最后一个Transformer层输出的关键点令牌用于经由MLP头来预测关键点3. 方法我们首先回顾了基于热图的全卷积网络（FCN）用于人体姿态估计，然后描述了我们基于令牌的设计。3.1. 基于模糊神经网络的人体姿态估计人体姿态估计的目标是从大小为HW3的图像I定位N个关键点或部分。如今，基于热图的全卷积神经网络-大小一致的Ph Pw。然后将每个面片p展平为一个大小为P h P w的一维向量C. 为了获得视觉令牌V，然后通过线性投影函数f将每个展平的片p映射到d维嵌入中：考虑人类构成估计是地点─在敏感视觉任务中，2D位置嵌入[35] pe_i被添加到每个特定视觉令牌 vi 以产生输入视觉令牌[visual]={v1+ pe_i，v2+ pe_2，… v L+作品[37，4，22，40，7，23，38，29]一直占主导地位pe，其中L=H×WPh×Pw 是视觉标记的数量。在解决方案，由于其高性能。广泛采用的流水线是利用卷积神经网络来产生多分辨率图像特征图，以及回归器来估计大小为H W. 为了产生N个热图，倾向于采用11个卷积层以使特征图的通道快速适应N。尽管现有的基于FCN的方法已经取得了巨大的成功，3.2. 基于令牌的关键点表示视觉标记。标准的Transformer [35]接受一个一维的令牌嵌入序列作为输入。处理2D图像，我们遵循ViT的过程[11]。图像这样，每个视觉标记被产生以表示原始图像的特定区域。Keypoint令牌。我们前置N个可学习的d维嵌入向量来表示Ntar-获取关键点。我们将关键点标记符号化为[关键点]。与从图像块处理的视觉令牌一起，关键点令牌被接受为Transformer的输入。Transformer编码器的输出处的N个关键点令牌的状态用作N个关键点表示。Transformer器给定1D令牌嵌入序列T=[visual]，[keypoint]作为输入，变换器编码器[35]通过堆叠M个块来学习关键点特征表示。每个块包含一个多头x∈RH×W ×C被划分为H×Pw补丁自注意（MSA）模块和多层感知器关键点内标识功能补丁可视内标识和2D整形MLP磁头工位埋...前馈视觉注意进化预测被遮蔽的左脚踝...Transformer层...Transformer层层规范第1层第N层…鼻眼踝多头注意层规范线性投影CNN特征图...11316−∈ΣK·∈1 2N模型CNN主干层嵌入尺寸头部贴片尺寸#参数GFLOPS代币姿势-微小-121212126241921921921921921921688881216 ×124 ×32 ×24 ×34 ×34 ×3五、8M 1 .一、3TokenPose-Small-v1茎网六、6M二、2TokenPose-Small-v2茎网六、2M11个国家。6TokenPose-BaseHRNet-W32- 3级十三岁5M五、7TokenPose-Large/D6HRNet-W48- 3级20块8M9 .第九条。1TokenPose-Large/D24HRNet-W48- 3级二十七岁5M11个国家。0表1.体系结构配置。在256×192输入分辨率的图像下计算了模型参数和GFLOPs(MLP)module.此外，对每个模块采用层范数（LN）。自我注意力（SA）可以表示为：和TokenPose-L* 分别采用stem-net2、HRNet-W32 [29]和HRNet-W 48 [29]作为主干。为了方便起见，本文使用了简明的符号（1-1）=softmax（ Tl−1W（Tl−1W）TDH）（Tl−1WV）（一）例如，TokenPose-L/D24表示具有24个Transformer层的除非另有说明，否则TokenPose-S和TokenPose-L被用作通过其中WQ、WK、WVRd×d是三个线性投影层的可学习参数，Tl−1是第（l1）层的输出，d是令牌的维度，并且dh=d。MSA是SA的扩展，具有被称为“头”的h个自注意在MSA中，dh通常设置为d/h。MSA（T）=[SA1（T）; SA2（T）;…;SAh（T）]WP⑵其中WPR（h·dh）×d. 注意，最终的热图预测基于由具有M个块的Transformer编码器输出的[关键点]令牌，其被表示为{T M，T M，… T M}。用于TokenPose-Small-v2和TokenPose-Large/D24。4.2. COCO关键点检测数据集。COCO数据集[19]由超过200，000张图像和250，000个人物实例组成，这些图像和人物实例被标记为17个关键点。COCO数据集分为train/val/test-dev集，分别包含57k，5k和20k图像。本文中报告的所有实验仅在train2017集上进行训练。这些方法在val2017集和test-dev2017集上进行评估。评价指标。我们采用标准平均精度（AP）作为我们对COCO数据集的评估指标。 AP基于对象关键点相似性（OKS）计算热图估计。来获得二维热图OKS=Σexp（−d2/2s2k2）σ（vi>0），其中d是欧盟-H×W的大小，d维[关键点]到k个iiiiσ（vi>0）i通过线性投影将Transformer编码器输出的特征向量映射为H×W×N维特征向量。然后将映射的1D向量重塑为2D热图。此外，采用MSE损失函数来比较预测的热图和地面实况热图。混合架构。代替直接操纵原始图像块，输入视觉令牌也可以从卷积神经网络输出的特征图中提取[16]。在混合架构中，CNN被采用，以更有效地提取低级别的图像特征。4. 实验4.1. 模型变体我们为TokenPose提供混合和纯基于Transformer的变体。对于混合结构，具有不同深度的卷积神经网络用于图像特征提取。配置详情见表 1 。请注意，TokenPose-T* 是纯基于 Transformer 的变体。TokenPose-S*、TokenPose-B√Q11317第i个预测的关键点坐标和相应的地面实况之间的Clidean距离，Vi是关键点的可见性标志，s是对象比例，并且Ki是关键点特定的常数。基线设置。对于模型训练，我们使用Adam优化器。对于HRNet [29]和SimpleBaseline [38]，我们只需遵循他们论文中的原始设置。实作详细数据。在本文中，我们遵循类似于[29，7，38，25]的两阶段自上而下的人体姿势估计范例。在该范例中，首先由人检测器检测单个人实例，然后预测关键点。我们在验证集和测试开发集上采用SimpleBaseline [38]提供的广泛使用的人员检测器。为了减轻量化误差，采用了精心设计的坐标解码策略[42]。对于我们的工作，基本学习率被设置为1e-3，并且在第200和260个时期下降到1e-4和1e-52它11318↓↓方法预训练输入大小#参数GFLOPSgtbbox APAPAP50AP75APMAPLARCNNTransformer[38]第38话Y-256 ×192三十四0M†8. 9†七十二4七十488岁678岁367岁1七十七。2七十六。3[38]第三十一话[38]第38话YY--256 ×192256 ×192五十三0m的68岁6百万‡12个。4十五岁7‡-74岁3七十一4七十二089岁。389岁。379岁。379岁。868岁168岁778岁178岁9七十七。1七十七。8[29]第29话第话第29话YY--256 ×192256 ×19228岁5百万§63岁6M7 .第一次会议。1§十四岁6⋔七十六。5七十七。174岁475. 1九十590.681. 982岁2七十8七十一581. 081. 879岁。8八十4TokenPose-T（纯Transformer）- 否256 ×192五、8M1 .一、3-六十五686岁。4七十三。063岁1七十一5七十二1TokenPose-S-v1TokenPose-S-v2NNNN256 ×192256 ×192六、6 M†（↓ 80.6%）六、2M‡（↓ 91.0%）二、2 †（↓ 75.3%）11个国家。6 ‡（↓ 23. 7%）75. 0七十六。1七十二5七十三。589岁。389岁。479岁。7八十368岁869岁。879岁。6八十578岁078岁7TokenPose-L/D6TokenPose-L/D24YYyNNn256 ×192256 ×192256 ×192十三岁5M§（↓52. 6%）20块8M（↓ 67.3%）二十七岁5M（↓56. 8%）五、7 §（↓ 19.7%）9 .第九条。1分（↓ 37. 7%）11个国家。0（↓24. 7%）-七十七。778.274岁775. 475.889岁。8九十0九十381. 481. 882.5七十一3七十一872.381. 482岁482.7八十0八十480.9表2. COCO验证集的比较，提供了相同的检测到的人类盒子。Pretrain是指对ImageNet分类任务中的相应部分进行预训练。TokenPose-S*，TokenPose-B* 和TokenPose-L* 分别实现了与SimpleBaseline [38]和HRNet [29]竞争的结果，具有更少的参数GFLOP。我们计算的百分比参数GFLOPs减少标记有相同的符号之间的模型。模型包埋尺寸层AP#参数TokenPose-L/D121921275.323岁0m的TokenPose-L/D241922475.8二十七岁5MTokenPose-L+/D123841275.5三十八岁。2M表 3.COCO 验证集上的模型缩放结果输入图像大小为256×192。分别总的训练过程需要300个epoch，因为Transformer结构倾向于依赖更长的训练来收敛。我们遵循[29]中的数据增强。与最先进方法的比较。如表 2 所示，我们提出的TokenPose通过更少的模型参数和GFLOP实现了与其他最先进方法相比具有竞争力的性能。与采用ResNet-50作为骨干的 SimpleBaseline [ 38 ] 相比，我们的TokenPose-S-v1将AP提高了2。1分，两个模型参数均显著降低（80。6%）和GFLOPs（75. 3%）。与使用ResNet-152作为主干的SimpleBaseline [ 38 ]相比，我们的TokenPose-S-v2实现了更好的性能，同时仅使用9。0% 模型参数。与 HRNet-W32 和 HRNet-W48 相比，TokenPose-B和TokenPose-L分别以小于50%的模型参数实现了类似的结果此外，TokenPose-T获得65。6个AP只有5个。8M模型参数和1. 3GFLOPs，没有任何卷积层。请注意，所有Transformer部件都是从头开始培训的，没有任何预先培训。此外，表5显示了我们的方法和现有的最先进的方法在COCO测试开发集上的结果。以384 288作为输入分辨率，我们的TokenPose-L/D 24达到75。9AP.4.3. MPII人体姿势估计数据集评估指标。MPII人体姿势数据集[1]包含带有全身姿势注释的图像11319××表 4. MPII 验证集（ PCKh@0. （五）。输入大小为256×256。从各种真实世界的活动中获得。在MPII数据集中有40k个具有16个关节标签的人样本。此外，数据增强与COCO数据集上的数据增强相同，除了输入图像被裁剪为256 256. 采用头部归一化的正确关键点概率（PCKh）[1]分数进行评估。验证集上的结果。我们遵循 HRNet [29] 中PCKh@0。表4中列出了一些性能最佳的方法的5个结果。所有的实验都用输入图像尺寸256 256进行。它4.4. 消融研究Keypoint令牌融合。中间监督被广泛用于帮助模型训练和提高热图估计质量，特别是当网络变得非常深时[22，37，33，2]。类似地，我们提出相应地连接由Transformer编码器的不同层输出的关键点令牌，即以具有12个Transformer层的TokenPose-L+/D12为例，在第4、8和12层中输出的关键点令牌被相应地级联生成的三倍长的关键点令牌然后被发送到[38]第38话九十六。4九十五389岁。083岁288岁484. 0 79岁。688岁5三十四0m的[38]第三十一话九十六。9九十五989岁。584. 4 88岁484. 5 八十789岁。1五十三0m的[38]第38话九十七0九十五9九十0八十五089岁。2八十五381. 3 89岁。668岁6M11320方法输入大小#参数GFLOPSAPAP50AP75APMAPLARG-RMI [24]353 ×257256 ×256384 ×288320 ×256384 ×288256 ×192384 ×288256 ×192384 ×288四十二6M57六十四9八十五5七十一362. 37069岁。7[30]第三十话四十五0m的1167岁888岁274岁863岁974-尼泊尔共产党[7]--七十二191. 48068岁7七十七。278岁5RMPE [12]28岁1M二十六岁7七十二389岁。279岁。16878岁6-[38]第38话68岁6M三十五6七十三。791. 981.1七十38079HRNet-W48[29]63岁6M十四岁674岁292. 482岁4七十979岁。779岁。5HRNet-W32[29]28岁5M1674岁992. 582岁8七十一3八十9八十1[39]第39话十七岁5M21岁875. 092. 282岁3七十一381.1八十1HRNet-W48[29]63岁6M三十二975. 592.583岁3七十一981.5八十5TokenPose-S-v2256 ×192256 ×192256 ×192256 ×192384 ×288六、2M11个国家。6七十三。191. 4八十769岁。779岁。078岁3TokenPose-B十三岁5M五、774岁091. 981.5七十679岁。879岁。1TokenPose-L/D620块8M9 .第九条。174岁992. 182岁4七十一5八十9 八十0TokenPose-L/D24二十七岁5M11个国家。075. 192. 182岁5七十一781. 1 八十2TokenPose-L/D2429岁8M二十二岁175.992. 383.472.282.180.8表5.与COCO测试开发集上最先进的基于CNN的模型进行比较模型令牌融合AP#参数工位埋#参数GFLOPSAPAR✗六、62米二、0767岁0七十三。4可学习六、67米二、23七十一4七十七。1表6.关键点令牌融合对不同模型的影响输入图像大小为256×192。MLP头以获得最终热图。我们在表6中报告了具有和不具有关键点令牌融合的 TokenPose-S 和 TokenPose-L +/D12 的结果。对于TokenPose-L+/D12，使用关键点令牌融合将结果改进0。2AP。然而，对于像TokenPose-S这样的小变体，它反而会导致性能下降。对于具有关键点令牌融合的TokenPose-Large，我们发现较低的Transformer层提供了比高层更有意义的证据来理解交互过程。我们将此归因于令牌融合，其使得最终关键点表示能够直接利用来自早期层的信息。而在没有知识融合的TokenPose-Small模型中则没有出现这种现象，注意交互逐渐表现出清晰而有意义的注意过程。我们将在第二节中进一步描述它。四点五分。请注意，关键点令牌融合仅在TokenPose-L中使用，因TokenPose-S✗七十三。5六、2MTokenPose-S✓七十二6六、7M11321为它的结构非常深入和复杂。位置嵌入。关键点定位是一个位置敏感的视觉任务。为了说明位置嵌入的效果，我们基于具有不同位置嵌入类型（即，无位置嵌入、2D正弦和可学习的位置嵌入）。如表7所示，采用位置嵌入显著地表7. TokenPose-S-v1的各种位置编码策略的结果。输入图像大小为256×192。性能提高5. 最多5个AP。特别地，2D正弦位置嵌入比可学习位置嵌入表现得更好，这是预期的，因为预测热图需要2D缩放。模型缩放是一种广泛使用的提高模型性能的方法，包括宽度缩放[35，10]和深度缩放[3，26]。如表3所示，增加深度和宽度都有助于改善结果。4.5. 可视化为了说明所提出的TokenPose如何显式地利用部件之间的视觉提示和约束提示来定位关键点，我们在推理过程中可视化细节。我们观察到，一个单一的模型具有类似的行为，最常见的例子。我们从COCO验证集中随机选择一些样本，并在图3和图5中可视化细节。出场提示。我们在图3中可视化了不同转换器层的关键点标记和视觉标记之间的注意力映射。基于关键点令牌和视觉令牌之间的注意力分数来形成注意力图。注意，我们根据注意力分数的原始空间位置来重塑注意力分数的1D序列以用于可视化。11322√膝关节膝关节踝关节膝关节膝关节踝关节层#1至层#12图3.关键点令牌之间的注意力图的可视化（例如，鼻子、肘部（l）和肘部（r）等）TokenPose-S由12个Transformer层组成请注意，我们将所有视觉标记转换为图像中相应的补丁红色区域意味着给定类型的关键点在这些补丁/视觉标记处具有较高的关注度。上文和下文所示的示例分别是非闭塞和闭塞情况。鼻眼眼耳耳靴(l)昭（r）肘（l）肘（r）wri.（l）wri. (r)髋关节膝关节（l）克涅（r）安克（l）安克（r）0.1750.1500.1250.1000.0750.0500.0250.000表8.关于随机选择的样本的一些关键点的前2个约束括号中的值表示从最终自我注意层获得的注意力分数。持久性线索到更精确的局部线索。在前几层中，多个拥挤的人可以同时给出外观线索作为干扰，但是模型可以渐进地关注目标人。在随后的铺设中-图4.学习的关键点标记的内积矩阵我们将输入到第一个Transformer层的关键点令牌，计算它们的内积矩阵，按d缩放它们，并使用softmax在列处对其进行归一化。因此，每行可以表示给定类型的关键点与其他关键点的学习到的先前约束关系在图3中，我们选择两个图像进行比较。可以看到，随着层深度的增加，关键点标记捕捉的内容逐渐从全身上下开始因此，不同类型的关键点令牌以高置信度证据关注它们的相邻关键点和关节当推断被遮挡的关键点时，模型具有不同的特性。如图3所示，我们注意到被遮挡的左脚踝关键点标记对其对称接头（即，右脚踝）以获得更多线索。关键点约束提示。第2、4、6、8、10、12个自我的关键点约束Top-1前2名左肩左肘（0. 026）右肩（0。012）左髋右髋（0。037）左膝（0. 037）右踝右膝（0。023）左脚踝（0。014）鼻子左眼（0。016）右眼（0. 016）右腕右肘（0。012）左手腕（0。011）安克（r）安克（l）克涅（r）克涅(l)髋关节希普河(r)wri.（l）肘（r）肘（l）昭（r）耳相似性11323第2层第4层第6层第8层第10层第12层图5.TokenPose-S的第2、4、6、8、10和12Transformer层中的关键点令牌之间的注意力交互注意层在图5中可视化。在前几层中，每个关键点关注几乎所有其他关键点以构建全局上下文。随着网络的深入，每个关键点往往主要依赖于几个部分来产生最终的预测。具体地，我们在表8中示出了基于最终自我注意层的一些典型关键点的前2个约束。特别地，我们观察到top-2约束倾向于目标关键点的相邻且对称的约束，这也符合人类视觉系统。例如，预测右手腕主要集中在右肘和左手腕的约束上，分别对应于其相邻和对称约束。Keypoint令牌从数据中学习先验知识。在所提出的TokenPose中，作为第一Transformer层的输入的输入[keypoint]令牌是完全可学习的参数。这种知识与来自整个训练数据集的偏差有关，但独立于任何特定图像。在推理过程中，将利用它来帮助模型从具体图像中解码视觉信息并进一步进行预测。我们指出，这样的[关键点]令牌就像DETR [5]中的对象查询一样，其中每个查询槽最终都从数据中学习了优先选择，以专门针对某些区域和框大小。在我们的设置中，输入[keypoint]令牌从数据集中学习关键点之间的统计相关性，作为先验知识。为了显示在这些输入关键点标记中编码了什么信息，我们计算它们的内积矩阵在缩放和归一化之后，矩阵在图4中可视化。我们可以看到，一个关键点往往与其对称关键点或相邻关键点高度相似比如说，左髋与右髋和左肩最相关，相似性得分为0。104和0。054分别这样的发现符合我们的常识，并揭示了模型学习的内容我们还注意到有一项工作[31]通过计算MPII数据集注释的互信息来分析关节之间的统计分布。相反，我们的模型能够自动学习先验知识，边缘从训练数据，并明确地将其编码在输入[关键点]令牌。5. 结论在本文中，我们提出了一种新的基于令牌的呈现，即TokenPose的人体姿态估计。特别是，我们将图像分割成补丁，以产生视觉令牌，并将关键点实体表示为令牌嵌入。这样，所提出的TokenPose能够通过自我注意交互明确地捕获外观线索和约束线索。我们表明，没有任何预训练的低容量此外，混合架构实现竞争力的结果相比，国家的最先进的基于CNN的方法在一个低得多的计算成本。致谢本文是科技部国家重点研究&发展计划（项目编号： 200000000 ）的部分资助项目。2020AAA0104400），部分由中国国家重点研究与发展计划 2018YFB1800204 资助，国家自然科学基金61771273资助，深圳&研发计划JCYJ20180508152204044资助，部分由国家自然科学基金61资助。773117.11324引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在 Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition，第3686-3693页二、五[2] Vasileios Belagiannis和Andrew Zisserman。循环人体姿态估计。2017年第12届IEEE自动人脸手势识别国际会议（FG 2017），第468-475页。IEEE，2017年。5[3] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。6[4] Yuanhao Cai，Zhicheng Wang，Zhengxiong Luo，BinyiYin，Angang Du，Haoqian Wang，Xinyu Zhou，ErjinZhou，Xiangyu Zhang，and Jian Sun.学习用于多人姿势估计的精细局部表示。在ECCV，2020年。二、三[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。二、八[6] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu，and Wen Gao.预训练图像处理Transformer，2020年。2[7] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在2018年IEEE计算机视觉和模式识别会议，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第7103- 7112页。IEEE计算机学会，2018年。二三四六[8] Bowen Cheng ， Bin Xiao ， Jingdong Wang ， HonghuiShi，Thomas S Huang，and Lei Zhang.上级网络：自底向上人体姿势估计的尺度感知表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第5386-5395页，2020年。1、4[9] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用变压器进行对象检测的无监督预训练arXiv预印本arXiv：2011.09094，2020。2[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。6[11] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。二、三[12] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。进行中-IEEE International Conference on Computer Vision ，第2334-2343页，2017年。1、6[13] Georgia Gkioxari Alexander Toshev和Navdeep Jaitly。使用卷积神经网络的链式预测欧洲计算机视觉会议，第728施普林格，2016年。2[14] Kai Han ， An Xiao ， Enhua Wu ， Jianyuan Guo ，ChunjingXu ， andYunheWang. 变压器中的TransformerarXiv预印本arXiv：2103.00112，2021。2[15] Yihui He，Rui Yan，Katerina Fragkiadaki，and Shoou-IYu.对极变压器。在IEEE/CVF计算机视觉和模式识别会议论文集，第7779-7788页，2020年。2[16] Yann LeCun、Bernhard Boser、John S Denker、DonnieHenderson 、 Richard E Howard 、 Wayne Hubbard 和Lawrence D Jackel。应用于手写体邮政编码识别的反向传播。神经计算，1（4）：5414[17] 伊塔·利夫希茨伊森·费塔亚和西蒙·厄尔曼。使用深度一致性投票的人体在European Conference on ComputerVision，第246施普林格，2016年。2[18] Kevin Lin，Lijuan Wang，and Zicheng Liu.端到端的人类姿势和网格重建与变压器。arXiv预印本arXiv：2012.09760，2020。2[19] 林宗义、迈克尔·梅尔、塞尔日

下载后可阅读完整内容，剩余1页未读，立即下载