TransPose：基于Transformer的人体姿态估计模型

148 浏览量更新于2023-10-16 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11802TransPose：通过Transformer东南大学自动化学院，江苏南京210096{yangsenius，101101872，niemu，wkyang}@ seu.edu.cn摘要虽然基于CNN的模型在人体姿态估计方面取得了显著进展，但它们捕获什么样的空间依赖性来定位关键点仍然不清楚。在这项工作中，我们提出了一个模型称为Trans- Pose，它引入了变压器的人体姿态估计。Transformer中内置的注意力层使我们的模型能够有效地捕获长期关系，并且还可以揭示预测的关键点依赖于什么依赖关系。为了预测关键点热图，最后一个关注层充当聚合器，其从图像线索收集贡献并形成关键点的最大位置。通过Transformer的这种基于热图的定位方法符合激活最大化的原理[19]。所揭示的依赖关系是图像特定的和细粒度的，这也可以提供模型如何处理特殊情况的证据，例如，闭塞实验表明，TransPose实现了75.8AP和在COCO验证和测试开发集上使用75.0 AP，同时比主流CNN架构更轻量级和更快。TransPose模型在MPII基准测试中也传输得非常好，在以较小的训练成本进行微调时，在测试集代码和预训练模型是公开的1.1. 介绍深度卷积神经网络在人体姿态估计领域取得了令人印象深刻的性能。DeepPose [56]是早期的经典方法，直接回归关键点的数值坐标位置。之后，完全卷积网络如[60，36，38，39]。63，12，40，61，51]已经通过预测关键点热图而成为主流，其隐式地学习身体部位之间的空间依赖性。然而，大多数先前的工作都将深度CNN作为一个强大的黑盒预测器，并专注于改进网络结构，模型内部究竟发生了什么，或者它们如何捕捉身体部位之间的空间关系，这些都还不清楚。但从*通讯作者。1https://github.com/yangsenius/TransPose图1. TransPose的示意图。下面是推理管道。上图：每个预测关键点位置的依赖区域.在该示例中，人模型使用哪个确切的图像线索来推断被遮挡的关节？注意力图（红框）给出了超越直觉的细粒度证据：这样的姿势估计器高度依赖于左脚踝、左大腿和右腿关节周围的图像线索来估计被遮挡的左脚踝的位置。科学和实际的观点、模型的可解释性可以帮助从业者理解模型如何关联结构变量以达到最终预测以及姿态估计器如何处理各种输入图像的能力。它还可以帮助模型开发人员进行调试，决策，并进一步改进设计。对于现有的姿态估计器，一些问题使得找出它们的决策过程具有挑战性。（1）深度。基于CNN的模型，如[60，38，61，51]，通常是非常深的非线性模型，阻碍了对每层功能的解释。（2）隐性关系。身体部位之间的全局空间关系被隐式地编码在神经元激活和CNN的权重内。要将这种关系与神经网络中的大量权重和并且仅可视化具有大量通道的中间特征（例如，256，512在SimpleBaseline架构[61]）提供的意义不大-图像低级卷积块关注关注关注局部第1层第2层第3层关键点11803×堆叠许多卷积层以实现大的接收野……通过一个注意力层关注任何成对Transformer中的tion层专门充当聚合器，它通过注意力得分收集来自所有图像位置的不同贡献，并最终形成热图中的最大位置。通过Transformer的这种类型的关键点定位方法与激活最大化[19，49]的可解释性建立了联系，并将其扩展到定位任务。所得到的注意力分数可以指示哪些具体图像线索对预测位置有显著贡献。有了这些证据，我们可以通过检验不同实验变量的影响来进一步分析模型的行为概括而言，我们的贡献如下：图2.CNN与关注左：接收场在更深的卷积层中扩大右：一个自我注意层可以捕捉任意一对位置之间的成对关系。充分的解释。（3）有限的工作记忆在推断各种图像。模型预测的期望解释应该是图像特定的然而，当推断图像时，静态卷积核由于有限的工作存储器而在表示变量的能力方面受到限制[23，24，27]。因此很难用于CNN捕获图像特定的依赖性，这是由于它们的内容无关参数而可变的输入图像内容。（4）缺乏工具。虽然已经有许多基于梯度或属性的可视化技术[19，64，49，48，21，39，69，2]，但它们中的大多数都专注于图像分类而不是定位。他们的目标是揭示特定类别的输入模式或显着性图，而不是解释结构变量之间的关系（例如关键点的位置到目前为止，如何开发可解释的姿态估计器仍然具有挑战性。在这项工作中，我们的目标是建立一个人类姿态估计器，可以显式地捕捉和揭示关键点之间的图像特定的空间依赖关系，如图所示1.一、由于卷积的池缩放特性[45]，我们认为卷积在提取低级特征方面具有优势，但在高级深度堆叠卷积以扩大感受野对于捕获全局依赖性并不有效。这种深度增加了解释CNN预测的难度Transformer架构[58]在绘制成对或高阶交互方面具有优于CNN的天然优势。如图注意层使模型能够捕获任何成对位置之间的相互作用，并且其注意图充当存储这些依赖关系的即时存储器。基于这些考虑，我们提出了一种新的模型称为TransPose，使用卷积提取低级别的特征和Transformer捕获高级别的全局依赖性。详细地说，我们将特征图展平为Transformer的输入，并将其输出恢复为2D结构热图。在这样的设计中，最后一个环节--• 我们引入用于人体姿势估计的Transformer来预测基于热图的关键点位置，其可以有效地捕获人体部位之间的空间关系。• 我们证明了我们基于Transformer的关键点定位方法符合激活最大化的可解释性[19，49]。定性分析揭示了超出直觉的依赖关系，这是图像特定的和细粒度的。• TransPose模型通过更少的参数和更快的速度实现了与最先进的基于CNN的模型相竞争的性能。TransPose在COCO验证集和测试开发集上分别达到75.8 AP和75.0 AP，参数比HRNet-W 48少73%此外，我们的模型转移非常好的MPII基准。2. 相关工作2.1. 人体姿态估计深度CNN在人体姿态估计方面取得了巨大成功。香草卷积核[31，30]的归纳偏差实验证明，该方法能够有效地提取图像的低层特征。对于人类姿势估计，捕获全局依赖性是至关重要的[46，55，60，40]，但是卷积的局部性使得不可能捕获长距离的相互作用。一个典型但粗暴的解决方案是扩大接收场，例如通过对分辨率进行下采样、增加深度或扩展内核大小。此外，提出了复杂的策略，例如多尺度融合[38，43，63，12，51，15，13]，堆叠[60，61，38]，或高分辨率表示[51];同时，出现了许多成功的架构，如CPM [60]，沙漏网络[38]，FPN [63]，CPN [12]，SimpleBase-行[61]、HRNet [51]、RSN [8]，甚至自动化架构-图[62，22，37，14，68]。但随着建筑变得越来越复杂，寻求人体姿态估计模型的可解释性比以往任何时候都更具挑战性，但也是必要的。相比之下，我们的模型可以以有效和明确的方式估计人体姿势。…转换1转换2转换3ConviConvjConvk11804∈∈×∈×∈∈××××2.2. 解释性可解释性意味着人类更好地理解模型如何进行预测。正如[47]所调查的那样，许多作品定义解释的目标是确定哪些输入与预测最相关，这也是我们在本文中寻求的目标。[19，32]在输入空间中执行梯度下降，以找出哪些输入模式可以最大化给定单位。[49，20]进一步考虑生成图像特定类别显著性图。[64]使用DeConvNet生成特征活动，以显示卷积层已经学习了什么一些姿态估计方法[32，67]通过选择特定的神经元或通道来可视化特征图，但结果无法揭示部件之间的空间关系。[54]估计了关键点之间的概率分布和互信息，但仅揭示了统计信息而不是图像特定的解释。还有像 Network Dissection [3] ， Feature Visualization[39]，Excitation Backprop [66]，LRP attribution method[2]，CAM [69]和Grad-CAM [48]这样的作品，旨在解释CNN分类器的预测与大多数先前的作品不同，我们的目标是揭示结构骨架中身体关节变量之间的细粒度空间依赖关系我们的模型可以直接利用注意模式来整体地解释它的预测，而不需要外部工具的帮助。我们还注意到最近的一篇论文[10]开发了基于LRP的[2]方法来计算相关性，以解释Transformer的预测。它采用ViT模型[18]来可视化特定于类的相关性图，显示合理的结果。与他们的目标不同，我们专注于揭示哪些线索有助于视觉关键点定位，并且我们模型中的注意力为预测提供了明确的证据。值得注意的是，有一些作品，如Co-ordConv [35]和Zero Padding [29]，解释了神经网络如何通过设计代理任务来预测位置并存储位置信息我们还进行了实验，以调查的重要性，位置嵌入预测的位置和它的推广上看不见的输入尺度。2.3. TransformerTransformer由Vaswani等人提出。 [58]用于神经机器翻译（NMT）任务[53]。大型基于Transformer的模型，如BERT [17]，GPT-2 [44]通常在大量数据上进行预训练，然后针对较小的数据集进行微调。最近，Vision Transformer或注意力增强层已经合并为视觉任务的新选择，例如[42，45，5，18，57，9，11，16，70，59]。DETR [9]通过引入对象查询直接预测一组对象实例。 ViT [18] 是在大数据上预训练一个纯Transformer，然后在ImageNet上进行微调DeiT [57]引入了蒸馏向老师学习知识的象征。也有作品[26，28，33]将变形金刚应用于3D姿态估计。[26]通过注意机制融合来自多视图图像的特征。[28，33]输出由姿态的关节/顶点坐标组成的1D序列。与他们不同的是，我们使用Transformer来预测用关键点的空间分布表示的2D热图，用于2D人体姿势估计问题。3. 方法我们的目标是建立一个模型，可以显式地捕捉人体部位之间的全局依赖关系。我们首先描述模型的架构。然后，我们展示了它如何利用自我注意力来捕获全局交互，并建立了我们的方法和激活最大化原则之间的联系。3.1. 架构如示于图3、TransPose模型由三部分组成：一个Transformer编码器，用于捕获跨位置的特征向量之间的长距离空间交互;预测关键点热图的头。骨干许多常见的CNN可以作为骨干。为了更好地进行比较，我们选择了两种典型的CNN架构：[ 25 ][26][27][28][29][29]我们只保留了原始ImageNet预训练CNN的最初几部分，以从图像中提取特征。我们将它们命名为ResNet-S和HRNet-S，它们的参数数量仅为原始CNN的5.5%和25%。Transformer器我们尽可能地遵循标准Transformer体系结构[58]。并且仅采用编码器，因为我们相信纯热图预测任务仅仅是编码任务，其将原始图像信息压缩成关键点的紧凑位置表示。给定输入图像 IR3×HI×WI，我们假设CNN主干输出2D空间结构图像特征XfRd×H×W，其特征维度已通过a变换为d11卷积。然后，将图像特征图展平为序列XRL×d，即，L是d维特征向量，其中L=H W。它经过N个注意层和前馈网络（FFN）。头一个头连接到Transformer编码器输出ERL×d以预测K种类型的关键点热图PRK×H*×W* ，其中H*，W*=HI/4，WI/4是默认的。我们首先将E重新整形为Rd×H×W形状。然后我们主要使用1 - 1卷积来将E的信道尺寸从d减小到K。如果H，W不等于H*，W*，则在11卷积之前使用附加的双线性插值或4 4转置卷积来进行上采样。注意，11卷积完全等同于逐位置线性变换层。11805.Σ×·×∈∈∈√d∈∈输入图像Transformer编码器层×N关键点热图图3.建筑。首先，通过CNN主干提取特征图并将其展平为序列。接下来，Transformer编码层通过查询-键-值关注迭代地从序列中捕获依赖关系。然后，使用简单的头部来预测关键点热图。Transformer中的注意力图可以揭示哪些依赖关系（区域或关节）对预测关键点热图中的激活最大位置有显著贡献。3.2. 分辨率设置。由于每个自注意层的计算复杂度为O（HW）2d，我们限制注意层以r下采样率w.r.t.原始输入，即，H，W=HI/r，WI/r. 在常见的人体姿态估计架构[60，38，61，51]中，通常采用32下采样作为标准设置，以获得包含全局信息的极低分辨率地图。相比之下，我们对ResNet-S和HRNet-S采用r=8和r=4设置，这有利于在注意层的存储器占用和详细信息的损失之间进行权衡。作为一个结果，我们的模型直接捕捉长程相互作用在一个更高的分辨率，同时保留细粒度的本地前一个序列。然后，通过值矩阵V中的所有元素与wi中的相应权重的线性和来实现增量，并将其添加到xi。通过这样做，注意力图可以被视为由特定图像内容确定的动态权重，重新加权正向传播中的信息流。自我注意捕捉并揭示了从每个图像位置聚集的预测的贡献。来自不同图像位置的这种贡献可以通过梯度[49，2，48]来反映。因此，我们具体地分析图像/序列位置j处的Xj如何通过计算最后一个注意力层的输入序列的位置j处的Xj的hiRK（K种类型的关键点）的导数来影响预测的关键点热图的位置i处的激活h i。并且我们进一步假设G：=hi为a特征信息函数w.r.t.一个给定的注意力分数xjAi，j. 我们获得：3.3. 注意是局部化关键点的依赖关系G（Ai，j）<$Ai，j·Wf·Wv<$+Wf=Ai，j·K+B（二）自我注意机制。Transformer [58]的核心机制是多头自我注意。该算法首先将输入序列X∈RL×d投影到查询Q∈ R上RL×d，密钥K∈RL×d，值V∈RL×d矩阵 Wq， Wk，Wv∈Rd×d.然后，注意力得分矩阵2A∈RN×N由下式计算：A= softmax。QKΣ。（一）令牌XiRd的每个查询qiRd（即，位置i）处的特征向量计算与所有键的相似性，以获得权重向量wi=Ai，：R1×L，该权重向量确定在[2]这里我们考虑的是单头自我注意。对于多头自我注意，注意矩阵是所有头部中的注意图的平均值其中K、B、R、K×d是静态权重（在推断时固定）并且在所有图像位置上共享。Eq.的推导2以补充方式显示我们可以看到，函数G与Ai，j近似线性，即对预测H1的贡献度直接取决于其在图像位置处的注意力得分。特别地，最后一个注意力层充当聚合器，其根据注意力收集来自所有图像位置的贡献，并在预测的关键点热图中形成最大虽然FFN和头部中的层不能被忽略，但是它们是位置方面的，这意味着它们通过相同的变换近似线性地变换来自所有位置的贡献，而不改变它们的相对比例。激活最大位置是关键点激活最大化不同类型的关键点注意层#1向前MMatMul解释工位埋注意层#2S规模Softmax注意层#N激活最大位置注意力地图依赖关系QMS骨干KV关注M添加规范位置式FFN添加规范头…11806≥∈×型号名称骨干注意力下采样上采样层数头DH#参数TransPose-R-A3*ResNet-Small*1/8双线性插值382565125.0MTransPose-R-A3ResNet-Small1/8反卷积3825610245.2MTransPose-R-A4ResNet-Small1/8反卷积4825610246.0MTransPose-H-SHRNet-Small-W321/4没有一41641288.0MTransPose-H-A4HRNet-Small-W481/4没有一419619217.3MTransPose-H-A6HRNet-Small-W481/4没有一619619217.5M表1.不同TransPose型号的架构配置关于主链的更多细节在补充中描述方法输入大小AP AR#参数FLOPsFPS简单基线-Res 50 [61]简体中文[CN]简体中文简体中文[CN]简体中文256× 192256× 192256× 19270.4 76.371.4 76.372.0 77.834.0M53.0M68.6M8.9G12.4G35.3G1149262TransPose-R-A3*TransPose-R-A3TransPose-R-A4256× 192256× 192256× 19271.5 76.971.7 77.172.6 78.05.0M（↓85%）520万（↓85%）6.0M（↓82%）5.4G8.0G8.9G137（↑20%）141（↑23%）138（↑21%）HRNet-W32 [51]HRNet-W48 [51]256× 192256× 19274.4 79.875.1 80.428.5M63.6M7.2G14.6G2827TransPose-H-STransPose-H-A4TransPose-H-A6256× 192256× 192256× 19274.2 7875.3 80.375.8 80.88.0M（↓72%）1730万（↓73%）1750万（↓73%）10.2G17.5G21.8G45（↑61%）41（↑52%）38（↑41%）表2. COCO确认集的结果，均提供了相同的检测到的人类框。TransPose-R-* 和TransPose-H-* 以更少的参数和更快的速度实现了与SimpleBaseline和HRNet竞争的结果。SimpleBaseline和HRNet报告的FLOP仅包括卷积层和线性层。(AM)[19，49]在于：可以最大化给定神经元激活的输入区域可以解释这个激活的神经元在寻找什么。在这个任务中，TransPose的学习目标是期望热图的位置i*处的神经元激活hi*被最大限度地激活，其中i*表示关键点的地面实况位置：θ*= arg max h i*（θ，I）.（三）θ假设模型已经用参数θ*进行了优化，并且它将特定关键点的位置预测为i（热图中的最大位置），为什么模型预测这样的预测可以通过以下事实来解释：其元素j具有较高的注意力分数（δ）的那些位置J是显著有助于预测的依赖关系。可以通过以下方式找到依赖关系：J={j|Ai，j（θ*，I）≥δ}，（4）其中A RL×L是最后一个注意力层的注意力图，也是关于t θ*和I的函数，即，A = A（θ*，I）.给定图像I和查询位置i，Ai：可以揭示预测位置i高度依赖于什么依赖性，我们定义它的依赖性区域。 A：，j可以揭示位置j最影响的区域，我们定义它的影响区域。对于传统的基于CNN的方法，它们也使用热图激活作为关键点位置，但是由于深度CNN的深度和高度非线性，人们不能直接找到预测的可解释模式基于AM的方法[19，32，64，49]可以提供洞察力，而它们需要额外的优化成本来学习卷积核更喜欢寻找的可解释模式与它们不同的是，我们通过Transformer将AM扩展到基于热图的定位，并且我们不需要额外的优化成本，因为优化已经在我们的训练中隐含地完成，即，A=A（θ*，I）.所定义的依赖性区域是我们寻求的模式，其可以显示特定于图像和特定于关键点的依赖性。4. 实验数据集。我们在COCO [34]和MPII [1]数据集上评估我们的模型。COCO包含200k野生图像和250k人实例。Train2017由57k图像和150k人实例组成。Val 2017集包含5 k图像，test-dev 2017包含20 k图像。在第4.2节中，我们展示了MPII [1]上的实验。我们采用这些基准的标准评估指标。技术细节。我们遵循自上而下的人体姿态估计范式。训练样本是单个人的裁剪图像。我们将所有输入图像调整为256 192决议。我们使用与[51]相同的训练策略，数据增强和人员检测结果我们还采用了[65]提出的坐标解码策略，以减少解码时的量化误差缩小的热图。前馈层使用0.1 dropout和ReLU激活函数进行训练。接下来，我们将基于ResNet-S和HRNet-S的模型命名为TransPose-R和TransPose-H，缩写为TP-R和TP-H。表1中报告了体系结构详细信息。1.一、我们对所有模型使用Adam优化器。训练时期对于TP-R是230，并且对于TP-H是240使用余弦退火学习率衰减。TP-R-A4的学习率和11807××‡†×位置嵌入#Params FLOPs AP方法输入大小#参数FLOPs FPS AP AP0.5AP0.75APMAPLG-RMI [41]积分[52]尼泊尔共产党[12]RMPE [20]353×257256×256384×288320×25642.6M57G-45.0M11.0G --一种58.8M29.2G --一种28.1M26.7G --一种64.9 85.571.3 62.3 70.067.8 88.274.8 63.9 74.072.1 91.480.0 68.7 77.272.3八十九点二79.1 68.0 78.6[61]第61话68.6M35.6G --一种73.7 91.981.1 70.3 80.0HRNet-W32 [51]HRNet-W48 [51]HRNet-W48 [51]384×288256×192384×28828.5M16.0G 26 74.9 92.582.8 71.3 80.963.6M14.6G 27 74.2 92.482.4 70.9 79.763.6M32.9G 25 75.5 92.583.3 71.9 81.5[65]第65话63.6M32.9G 25 76.2 92.583.6 72.5八十二点四反式-H-S反式-H-A4256×192256×1928.0M10.2G 45 73.4 91.681.1 70.1 79.317.3M17.5G 41 74.7 91.982.2 71.4 80.7TransPose-H-A6256×19217.5M21.8G 38 75.0 92.282.3 71.381.1表3.与COCO测试开发集上最先进的基于CNN的模型进行比较在较小的输入分辨率256 - 192上进行测试，我们的模型实现了与其他模型相当的性能。图4.微调模型时验证集上的性能5）在MPII训练集上具有不同时期。TP-H-A6模型从0.0001衰减到0.00001，我们建议对所有模型使用这样的时间表考虑到与骨干网的兼容性和内存消耗，模型[65]第六十五话TransPose-R-A4战略历元平均值@0.5平均值@0.1#参数210 90.6 42.0 28.5M100 92.0（+1.4）43.6（+1.6）28.5M230 89.3 38.6 6.0M我们调整Transformer编码器的超参数⇒↑ 100 92.0（+2.7）44.1（+5.5）6.0M使模型容量不是很大。此外，我们使用2D正弦位置嵌入作为默认位置嵌入。TransPose-H-A6230 90.3 41.6 17.5M⇒ 10092.3（+2.0）44.4（+2.8）17.5M丁我们在补充资料中对此进行了描述。4.1. COCO关键点检测任务我们将TransPose与SimpleBaseline、HRNet和DARK进行比较[65]。特别是，我们在我们的机器上训练DARK-Res 50，根据官方代码与TransPose-R-A4的数据增强，我们实现了72.0AP;当使用完全相同的数据增强和 TransPose-R-A4 的长训练时间表时，我们得到72.1AP（+0.1AP）。其他结果见Tab. 2、来自报纸我们在一个NVIDIA 2080Ti GPU上测试所有型号，并在相同的实验条件下计算平均FPS。在输入分辨率为256192的情况下显著更少的模型参数和更快的速度。选项卡. 3显示了COCO测试集上的结果。✗可学习的2D正弦（固定）4.999M 7.975G 70.45.195M 7.976G 70.95.195M 7.976G 71.7表4. TransPose模型的不同位置嵌入方案的结果。输入大小为256 ×192。4.2. 转移到MPII基准典型的姿态估计方法通常分别在COCO和MPII上训练和评估其模型[1]。受NLP和最近ViT [18]中预训练成功的激励，我们尝试将预训练模型转移到MPII。我们替换最后一层预先训练的跨-均匀初始化d×16线性层的位姿模型表5.在MPII val-to设定这意味着在没有COCO预培训的情况下对MPII进行全面培训。⇒表示在MPII上传递预训练模型并进行微调;增加↑意味着对输入分辨率384×384或256×256的MPII进行微调。方法输入大小训练数据平均值@0.5Belagiannis Zisserman，FG 248×248 COCO+MPII† 88.1Su等人， ArXiv '19 [ 50 ] 384× 384 HSSK+MPII 93.9Bulat等人， FG '20 [ 7 ] 256×256 HSSK+MPII 94.1Bin等人， ECCV '20 [ 6 ] 384× 384 HSSK+MPII 94.1我们的（TransPose-H-A6）256×256 COCO+MPII† 93.5表6. MPII基准测试集的结果。意味着在COCO数据集上进行预训练，并在MPII数据集上进行微调。意味着在MPII和HSSK数据集上训练。对于MPII。当微调时，预训练层和最终层的学习速率是具有衰减的le-5和le-4为了比较，我们用相同的设置在MPII上微调预训练的DARK-HRNet，并通过标准的完全训练设置在MPII上训练这些如Tab.所示。图5和图4，结果是有趣的：即使有更长的完整训练时期，模型的表现也比微调的模型差;即使具有大模型容量（28.5M），预训练DARK-HRNet带来的改进（+1.4AP）也小于预训练TransPose（+2.0AP）。在256 256输入分辨率和MPII训练集和值集的微调下，TransPose-H-A6在MPII测试集上产生的最佳结果是93.5%的准确度，如图所示。六、这些结果表明，预训练和微调可以显着降低训练成本并提高性能，特别是对于预训练的TransPose模型。讨论基于Transformer的模型的预训练和微调在NLP[17，44]和最近的视觉模型[18，11，16]中显示出良好的结果。我们在MPII上的初步结果还表明，在大规模姿势相关数据上训练基于Transformer的模型可能是一种有效的方法。11808×××××××256x192（培训和测试）128x96（测试）384x288（测试）512x384（测试）806040200SimpleBaseline TransPosew/o PETransPose w/LPE TransPose w/Sine PE图5.在看不见的输入分辨率上的性能。带有位置嵌入的TransPose模型泛化得更好。这是一种很有前途的方法，可以学习用于人体姿势估计及其下游任务的强大而鲁棒的表示。4.3. 消融位置嵌入的重要性。在Transformer中，由于没有为了探索其重要性，我们对具有三种位置嵌入策略的TransPose-R-A3模型进行实验：2D正弦位置嵌入、可学习位置嵌入和w/o位置嵌入。正如预期的那样，具有位置嵌入的模型表现更好，特别是对于2D正弦位置嵌入，如表1所示。4.第一章但有趣的是，无任何位置嵌入的TransPose仅损失1.3AP，这表明2D结构变得不那么重要。详见补充资料。型号层数dh#参数 FLOPs FPSAPAR表7.Transformer编码器尺寸的烧蚀研究d和h是编码器层的数量、维度d和FFN的隐藏单元的数量。4.4. 定性分析TransPose模型的超参数配置在本节中，我们选择训练模型、预测关键点的类型、注意力层的深度和输入图像作为受控变量来观察模型行为。依赖性偏好对于具有不同CNN提取器的模型是不同的。为了比较基于ResNet-S和HRNet-S的模型，我们使用训练好的模型TP-R-A4和TP-H-A4的性能作为示例。示于图6，我们选择两个典型的输入A和B作为例子，并可视化依赖区域缩放Transformer编码器的大小。我们研究了性能如何随着Transformer编码器的大小而变化，如表1所示。7 .第一次会议。对于TransPose-R模型，随着层数增加到6层，性能改善逐渐趋于饱和或退化。但是我们在TransPose-H模型上没有观察到这样的现象。缩放Transformer明显提高了TransPose-H的性能。位置嵌入有助于更好地概括不可见的输入分辨率。自上而下的范例将所有裁剪的图像缩放到固定大小。但在某些情况下，即使输入大小固定或采用自底向上范式，输入中的主体大小也会发生变化;对不同尺度的鲁棒性变得重要。因此，我们设计了一个极端的实验来测试泛化：我们在看不见的 12896 上测试SimpleBaseline-ResN 50- Dark和TransPose-R-A3模型，384 288，512 388输入分辨率，所有这些都只训练了256 192大小。有趣的是，图。5证明SimpleBaseline和TransPose-R w/o位置嵌入在看不见的分辨率上具有明显的性能崩溃，特别是在128 96; 但是具有可学习或 2D 正弦位置嵌入的TransPose-R具有显著更好的泛化，特别是对于2D正弦位置嵌入。讨论对于输入分辨率，我们主要在256 192大小上训练我们的模型，因此TP-R和TP-H模型中Transformer的更高的输入分辨率，如384 288，我们目前的模型将带来昂贵的计算成本在自我注意层由于二次复杂性。定义在Sec. 三点三我们发现，尽管来自TP-R-A4和TP-H-A4的预测是关键点的完全相同的位置，但是TP-H-A4可以利用多个较长范围的关节线索来预测关键点。相比之下，TP-R- A4更喜欢关注目标关节周围的局部图像线索。这一特征可以通过补充的可视化的受累区域来进一步证实，其中关键点在TP-H-A4中具有较大的非局部受累区域虽然这些结果并不像通常预期的那样，但它们反映了：1）姿态估计器使用来自远程关节的全局信息来定位特定关节; 2）HRNet-S在捕获远程依赖关系信息方面优于ResNet-S（可能是由于其多尺度融合方案）。对于不同类型的关键点，相关性和影响会有所不同。对于头部中的关键点，定位它们主要依赖于来自头部的视觉线索，但是TP-H-A4也将它们与肩部和手臂的关节相关联。值得注意的是，两种模型预测腕、肘、膝、踝关节的相关性有明显差异，其中TP-R-A4依赖于同侧的局部线索，而TP-H-A4利用更多来自对称侧关节的线索.如图参考图6（b）、图6（d）和图7，我们可以进一步观察到姿态估计器可以从更多部分收集强线索以预测目标关键点。这可以解释为什么模型仍然可以准确地预测被遮挡的关键点的位置，并且具有模糊位置的被遮挡的关键点将对其他预测或要依赖的较大不确定区域具有较小的影响（例如，图1的被遮挡的左脚踝-最后的图）。6（c）或图6（d））。74.372.673.173.862.766.670.359.131.614.421.63.97.949.951.739.9TransPose-RTransPose-H2 256 10244.4M3 256 10245.2M4 256 10246.0M5 256 10246.8M6 256 10247.6M46412817.0M4 192 38418.5M49619217.3百万9619217.4百万9619217.5百万7.0G 17469.675.08.0G 14171.7七十七点一8.9G 13872.678.09.9G 12672.2七十七点六10.8G10972.2 77.514.6G-75.1 80.127.0G-75.4 80.517.5G4175.3 80.319.7G 4021.8G 3875.680.675.8八十点八56AP（OKS）/%11809（a）TP-R-A4：输入A的预测关键点及其依赖性区域。(b)TP-H-A4：输入A的预测关键点及其依赖性区域。(c) TP-R-A4：输入B的预测关键点及其依赖区域。(d)TP-H-A4：输入B的预测关键点及其依赖区域。图6.不同模型的不同类型关键点的预测位置和依赖区域：TP-R-A4（左列）和TP-H-A4（右列）。在每个子图中，第一个是绘制有预测骨架的原始输入图像。其他映射由具有阈值（0.00075）的最后一层中的注意力矩阵的定义的依赖性区域（Ai，：）可视化。关键点的预测位置由每个子图中的白色五角星（）注释。红色区域表示较高的注意力分数。鼻子眼眼耳耳朵昭(l)昭（r）肘（l）肘（r）wri.（l）wri.（r）髋关节髋关节克涅(l)克涅(r)安克(l)安克(r)随机的(a) TP-R-A4：输入C的预测和依赖性区域。0.0鼻子眼眼耳耳朵昭(l)昭（r）肘（l）肘（r）wri.（l）wri.（r）髋关节髋关节克涅(l)克涅(r)安克(l)安克(r)随机的(b) TP-H-A4：输入C的预测和依赖性区域。0.0图7.通过图1B的相同可视化方法，在不同的关注层中的特定位置的依赖区域六、随着深度的增加，人们的注意力逐渐集中在更细粒度的依赖性上。观察所有的注意层（图1，2，3行）7），我们惊奇地发现，即使没有中间GT位置超视，TP-H-A4仍然可以注意到关节的准确位置，但在早期注意力层中具有更多的全局线索对于这两种模型，随着深度的增加，预测逐渐依赖于局部部分或关键点位置周围的更细粒度的图像线索（图1）。（七）.单个模型的图像特定依赖性和统计与训练后编码在CNN权重中的静态关系不同，注意力图对输入是动态的。如图参考图6（a）和图6（c），我们可以观察到，尽管预测的关键点的依赖关系具有统计共性（对于大多数常见图像具有类似的行为），但细粒度的依赖关系将根据图像上下文而略微改变。在给定图像（诸如输入B（图1B））中存在遮挡或不可见的情况下，在图6（c）中，模型仍然可以通过寻找更重要的图像线索来定位部分模糊的关键点的位置，未来的作品可能会利用这种注意力模式进行部分到整体的关联，并聚合相关特征进行3D姿态估计或动作识别。5. 结论我们探索了一个模型 - TransPose - 通过引入Transformer来进行人体姿势估计。注意层使模型能够有效和明确地捕获全局空间依赖性。我们表明，这样一个基于热图的定位实现的Transformer器使我们的模型共享的想法与激活最大化。凭借轻量级架构，TransPose与COCO上最先进的基于CNN的同行相匹配，并在以较小的培训成本进行微调时获得MPII的重大改进此外，我们验证了位置嵌入的重要性。我们的定性分析揭示了模型行为，这些行为对于层深度，关键点类型，训练模型和输入图像是可变的，这也让我们深入了解模型如何处理特殊情况，如遮挡。谢谢。本工作得到了国家自然科学基金项目（61773117和62006041）的资助。Enc.Att.Enc.Att.Enc.Att.Enc.Att.层3层2层1第0Enc.Att.Enc.Att.Enc.Att.Enc.Att.层3层2层1第011810引用[1] Mykhaylo Andriluka ， Leonid Pishchulin ， PeterGehler，and Bernt Schiele. 2D人体姿势估计：新的基准和最先进的分析。CVPR，第3686-3693页，2014。五、六[2] SebastianBach ， Ale xanderBinder， Gre' goireMon-tav on，FrederickKlauschen，Klaus-RobertMüller，andWojciech Samek.基于逐层相关传播的非线性分类器决策PloS one，

下载后可阅读完整内容，剩余1页未读，立即下载