多上下文注意力的人体姿态估计

134 浏览量更新于2023-10-16 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1831基于多上下文注意力的人体姿态估计肖楚1杨伟1欧阳万里1，4 马成2李伟。Yuille3XiaogangWang11香港中文大学，香港特别行政区，中国2清华大学，北京，中国3约翰霍普金斯大学，巴尔的摩，美国4悉尼大学，悉尼，澳大利亚1{xchu，wyang，wlouyang，xgwang}@ ee.cuhk.edu.hk2macheng13@mails.tsinghua.edu.cn3alan. jhu.edu摘要在本文中，我们建议将具有多上下文注意力机制的卷积神经网络纳入端到端的人体姿势估计框架中。我们采用堆叠沙漏网络从具有不同语义的多分辨率特征生成注意力图。利用条件随机场（CRF）对注意力图中相邻区域之间的相关性进行建模。我们进一步结合了整体注意力模型，它侧重于整个人体的全局一致性，和身体部位注意力模型，它侧重于对不同身体部位的详细描述。因此，我们的模型有能力专注于不同的粒度从局部显着区域到全局语义一致的空间。此外，我们设计新颖的沙漏（a）（b）（c）第（1）款剩余单位（HRU），以增加网络的感受野这些单元是残差单元的扩展，其具有包含具有较大感受野的滤波器的侧分支在两个广泛使用的人体姿态估计基准上评估了所提出的多上下文注意机制和沙漏我们的方法优于所有现有的方法在这两个基准的所有身体部位。代码已公开。1. 介绍由于人体四肢的关节、自遮挡、服装的多样性和透视等因素，人体姿态估计在计算机视觉中是一项具有挑战性的任务。卷积神经网络（ConvNets）已经取得了显着的改进[37，38，9，39，36，28]。然而，对于具有类似于身体部位或肢体的对象或具有严重遮挡的身体部位的*前两位作者对本书的贡献相当图1. 动机第一行显示输入图像，整体注意力地图和局部注意力地图。第2行显示了部位位置的预测热图，其中不同的颜色对应于不同的身体部位。第3行可视化预测的姿势。我们观察到（a）由于杂乱的背景和自遮挡，ConvNets可能会产生错误的估计。(b)视觉注意提供了一种显式的方式来建模人体部位之间的空间关系，这是更鲁棒的。(c)零件注意力地图可以通过解决重复计算问题来帮助进一步细化零件位置。ConvNet可能难以正确定位每个身体部位，如图所示。第1（a）段。在文献中，多个上下文信息的组合已被证明对于视觉任务至关重要，例如图像分类[25]，对象检测[15，14，49]和人体姿势估计[33，36]。直观地，较大的上下文区域捕获对象的全局空间配置，而较小的上下文区域关注局部外观。然而，以前的工作通常使用手动设计的多上下文表示，多个边界框[33]或多个图像裁剪[25]，因此缺乏灵活性和多样性。高低热图估计1832多上下文表示建模的多样性。视觉注意是人脑有效理解场景在这项工作中，我们建议生成上下文表示与注意力计划。注意力图不是由一组矩形边界框人工定义感兴趣区域，而是由注意力模型生成，该注意力模型取决于图像特征，并提供了一种原则性的方式来聚焦于具有可变形状的目标区域。例如，一个专注于人体的注意力地图如图所示第1段（b）分段。它有助于恢复丢失的身体部位（例如，腿），并区分模糊的背景。这允许增加上下文的多样性，并且因此上下文区域可以更好地适应每个图像。此外，我们没有采用传统注意力方案中广泛使用的空间Softmax归一化[47，41，46，26]，而是设计了一种基于条件随机场的新型注意力模型，该模型更好地建模了相邻区域之间的空间相关性。多个上下文信息的组合已被证明对各种视觉任务有效[48，15，33，13，34]。为了使用注意力机制来指导多上下文表征学习，我们采用了堆叠的沙漏网络结构[28]，这为构建多上下文注意力模型提供了理想的架构。在每个沙漏堆栈中，特征被汇集到非常低的分辨率，然后被上采样并与高分辨率特征组合。这种结构重复了几次，以逐渐获得更多的全球代表性。在每个沙漏堆栈中，我们首先从不同分辨率的特征生成多分辨率注意力图。其次，我们为多个沙漏堆栈生成注意力地图，这导致了具有不同语义层次的多语义注意力地图。由于这些注意力地图捕捉整个人体的配置，它们被称为整体注意力模型。虽然整体注意力模型对遮挡和杂乱背景具有鲁棒性，但它缺乏对不同身体部位的精确描述为了克服这一局限性，我们设计了一个层次化的视觉注意方案，它从整体注意模型放大到身体的每个部位，即部分注意模型。这有助于身体部位的精确定位，如图所示。第1段（c）分段。此外，我们引入了一种新的它结合了多尺度特征的表达能力，同时保留了残差学习的好处它还使深层网络能够更快地增长接收场，这对于准确定位身体部位至关重要当在“宏”沙漏网络中使用这些单元我们显示了建议的端到端的可区分的框架上的两个广泛使用的胡-人姿态估计基准，即，MPII人体姿势数据集[1]和利兹体育数据集[23]。我们的方法优于所有以前的方法在这两个基准点的所有身体部位。代码已在https://github.com/bearpaw/发布。这项工作的主要贡献有三个方面：• 我们提出使用视觉注意机制来自动学习和推断上下文表征，驱动模型聚焦于感兴趣区域我们定制的注意力计划的人体姿态估计，通过引入条件反射函数模型的空间相关性之间的邻域关节。• 我们使用多上下文注意力，使模型更强大，更准确。• 我们提出了一个通用的沙漏剩余单元（HRU），并建立了嵌套沙漏网络与堆叠的沙漏结构。2. 相关工作人体姿态估计关节式人体姿态通常通过一元项和图模型的组合来建模，例如，身体部位的混合[44，8]或绘画结构[29]。最近，通过引入ConvNets来学习更好的特征表示已经取得了重大进展[38，37，36，8，42，39，31，28]。例如，Chen和Yuille [8]引入了ConvNet来学习树结构图形模型的一元项和成对项。Tompson等[36]使用ConvNets的多个分支来融合图像金字塔的特征，并使用马尔可夫随机场（MRF）进行后处理。卷积姿势机[39]结合了对ConvNets内身体部位之间空间相关性的推断。最先进的性能是通过堆叠沙漏网络[28]及其变体[5]实现的，其使用重复的池化下采样和上采样过程来学习空间分布。我们的方法是通过将不同的图像相关的多上下文表示，以指导人类姿态估计的补充，以前的方法。多个上下文信息上下文信息通常被称为目标位置周围的区域[11，13，33]，对象-场景关系，船[20，18，12]，和对象-对象相互作用[43]。它已被证明在视觉任务中是有效的，如对象分类[25]和检测[48，11，12]。最近的作品通过连接多尺度特征[15，14]或通过门控函数来控制不同上下文的相互影响来对上下文信息进行建模[49]。然而，上下文区域被手动定义为矩形，而不考虑对象外观。在这项工作中，我们采用视觉注意机制，专注于区域，这是图像依赖和适应多上下文建模。我们1833堆栈1堆栈4堆栈8基本沙漏部件注意事项堆12345678多语义注意卷积上采样HRUs注意力图注意事项预测损失图2. 框架.基本结构是一个8层沙漏网络。在每个沙漏堆栈中，我们生成多分辨率的注意力地图。我们还将多语义注意力地图应用于每个沙漏，如堆栈1到堆栈8所示。在堆栈5至堆栈8中应用用于放大局部部分的分层注意力机制方法增加了背景的多样性。视觉注意力机制由于视觉注意力模型在计算上是高效的，并且在理解图像方面是有效的，因此它在各种任务中取得了巨大的成功，例如机器翻译[3]，对象识别[2，17，6，40]，图像字幕[47，41]，图像问题回答[46]和显着性检测[26]。现有的方法通常采用递归神经网络在每一步为图像区域生成注意力图，并随着时间的推移将来自不同步骤的信息组合起来以做出最终决策[3，2，26]。据我们所知，我们的工作是第一个使用注意力模型进行人体姿态估计。此外，我们的整体注意力地图和部分注意力地图的设计，在学习注意力的层次顺序和注意力的建模从不同的上下文和分辨率没有在这些工作中进行研究3. 框架我们的框架概述如图所示二、在本节中，我们简要介绍了嵌套沙漏架构，以及多上下文注意力模型的实现，包括多语义，多分辨率和层次整体部分注意力模型。然后，生成的注意力地图被用于对特征进行重新加权用于自动推断感兴趣区域。其沿着侧分支用于组合跨多个分辨率的特征，通过所提出的微沙漏残差单元（HRU），并获得嵌套沙漏网络，如图1所示。3.第三章。通过这种架构，我们丰富了每个构建块的输出所接收的信息，这使得整个框架对规模变化更具鲁棒性。HRU的详细信息见第4节。多分辨率注意力在每个沙漏中，多分辨率注意力地图Φr是从不同尺度的特征生成的，其中r是特征的大小，如图所示。五、注意力图然后被组合以生成细化特征，其被进一步用于生成细化注意力图和进一步细化特征，如图所示。4.第一章多语义注意不同的堆栈具有不同的语义：较低的栈关注局部外观，而较高的栈编码全局表示。因此，从不同堆栈生成的注意力地图也编码了各种语义含义。如图2，将堆栈1中的左膝与堆栈8进行比较，我们可以看到具有全局表示的更深堆栈能够恢复遮挡。层次注意机制在较低的堆栈中，即，堆栈1到堆栈4，我们使用两个整体注意力映射hatt和hatt来编码整个人的配置。1 2基线网络我们采用8层沙漏网络-[28]作为网络的基础它允许重复自下而上、自上而下的跨尺度推理，在每个堆栈的末端具有中间监督。在实验中，输入图像为256×256，输出热图为是P×64×64，其中P是身体部位的数量。我们遵循以前的工作[36，39，28]使用均方误差作为损失函数。嵌套沙漏网络我们替换剩余单元，身体在较高的堆栈中，即，第五至第八叠层，我们设计了一个分层的粗到细的注意力方案来放大到局部。4. 嵌套沙漏网络在本节中，我们将详细描述建议的沙漏残差单位（HRU）。我们还提供了全面的分析感受野。1834nnn俄4.1. 沙漏残留量单位让我们首先简要回顾一下剩余网络[19]。深度残差网络通过非常深的“残差单元”堆栈实现令人信服的准确性xn+1=h（xn）+F（xn，WF），（1）其中xn和xn+1是第n个单元的输入和输出，F是堆叠卷积、批量归一化和ReLU非线性。在[19]中，h（xn）=xn是恒等映射。在本文中，我们专注于人体姿势估计，其中较大的上下文区域被证明对于定位局部身体部位很重要[39，28]。神经元的上下文区域是其相应的感受野。在这项工作中，我们提出了一个微沙漏分支扩展原来的剩余单元。由此得到的沙漏状残余单位（HRU）具有较大的感受野，同时保留了局部细节，如图所示。3.第三章。我们在堆叠的沙漏网络中使用这个模块。这种架构被称为我们提出的HRU的数学公式如下：A. 标识映射分支B. 残留枝图3.沙漏型残差单位的图解。它由三个分支组成：（A）恒等映射，（B）剩余分支，以及(C)沙漏状残余分支。常规残余支和沙漏残余支的感受野分别为3×3和10×105. 注意机制我们将首先简要介绍传统的软注意力机制，然后描述我们提出的多上下文框架。5.1. 常规注意力用f表示卷积特征。获得软注意力的第一步是如下生成概括特征图：s=g（Wa<$f+b），（3）F P，其中n表示卷积，Wa表示卷积，xn+1= xn+ F（xn，Wn）+P（xn，Wn）.（二）每个人权股由三个分支机构组成分支（A），即（2）中的xn是恒等映射。因此，在HRU中保留了ResNet在处理消失梯度方面的属性分支（B），即（2）中的F（xn，WF）就像（1）中的ResNet分支（C），即（2）中的P（xn，WP），这是我们的新设计，它是一个2×2最大池，两个3×3卷积，然后是ReLU非线性和上采样操作的堆栈其中，f是非线性函数，g是非线性函数。 s∈RH×W汇总了f中所有通道的信息。将s（l）表示为特征图s中位置l处的特征，其中l=（x，y），x是水平位置，y是垂直位置。Softmax运算在空间上应用于s，如下所示：es（l）Φ（l）=φs（l′），（4）l∈L其中L={（x，y）|x=1，. . . ，W，y=l，. . . ，H}。Φ是注意力映射，其中l∈LΦ（l）=1。然后是注意力4.2. HRU感受野分析分支（A）中的恒等映射的接受大小为1。分支（ B ）中的剩余块是卷积（ Conv1×1+ Conv3×3+Conv1×1）的堆栈因此，神经元在输出特征中对应于在这个HRU中输入分支（C）是我们的新增分支。的该分支的结构为 Pool2×2+ Conv3×3+ Conv3×3+Deconv2×2。由于采用了最大池化，该分支的卷积分辨率是分支（A）和（B）的一半，输出特征图中的每个神经元对应于输入的一个10×10的这三个分支具有不同的感受野和分辨率，将这些数据加在一起作为HRU的输出。因此，HRU单元通过包括分支（C）来增加感受野大小，同时通过使用分支（A）和（B）来保留高分辨率信息。MAP被应用于特征F，hatt= ΦΔf，其中hatt（c）=f（c）<$Φ，（ 5）其中c是特征信道的索引。我们使用卷积来表示通道式Hadamard矩阵乘积运算。hatt是细化的特征图，其是由注意力图重新加权的特征，并且具有与f相同的大小。5.2. 我们的多情境注意力模型我们的框架对注意力模型做了以下三个首先，我们用一个CRF来代替4全局空间Softmax基于常数因子对整个图像进行归一化，忽略了局部相邻空间相关性。但我们希望注意力地图能驱动网络专注于复杂的人体结构。更多详情见第5.2.1节。其次，我们根据以下内容生成注意力地图：C.沙漏状残余分支1033102× 2池5353× 3conv33× 3conv1上采样11× 1conv31133× 3conv11× 1conv118351Z121沙漏图4. 注意力计划的一个例子。不同分辨率的特性，以使模型更健壮，如第5.2.2节所示。然后，通过为沙漏的每个堆栈生成注意力图来获得多语义注意力，如第5.2.3节所述。最后，一个分级的粗到细（即。全身到部分）的注意方案，以放大到局部部分区域，Conv.上采样HRUs注意力图注意力Feat.预测损失更精确的定位，在第节中介绍第5.2.4条。整个框架是可区分的，并通过随机初始化进行端到端训练。我们的注意力方案的一个例证4.第一章5.2.1空间CRF模型在这项工作中，我们使用条件随机场（CRF）的空间相关性建模。为了使它们可重构，我们使用平均场近似方法来递归地学习空间相关内核[50，24]。注意力地图被建模为两类问题。将yl={0，1}表示为第i个位置处的注意标签。在CRF模型中，标签分配的能量y ={yl|l∈L}如下：ΣΣ图5. 多分辨率的注意力计划在一个小时的玻璃。在每个沙漏堆栈中，我们从具有不同分辨率的特征生成多分辨率at-tension图这些图被加总到单个注意力图中，该注意力图应用于特征f以生成细化特征hatt。空间相关核Wk在不同的时间步长上共享。在我们的网络中，我们使用三个递归卷积步骤。5.2.2多分辨率注意力如图5，上采样过程生成不同大小r的特征，即，对于r=8，16，32和64，sr用于使用（8）中的过程来生成注意力图Φr注意力图Φr被上采样到大小64，E（z）= ylu（l）+yl wl，k yk，（6）l l，k记为Φ{r→64}。这些注意力地图对应着不同的决议。如图所示。5（I），Φ{8→64}，其中，k（yl）=g（h，l）是测量位置l采用注意标签yl=1的逆似然（以及因此的成本）的一元项。 wl，k是yl和yk之间的兼容性的权重。鉴于图像I，标签分配y的概率为P（y|I）=它的分辨率较低，突出了整个骗局，人体的形象Φ64，以更高的分辨率生成，聚焦于局部身体部位。所有上采样的注意力图被求和，然后应用于特征f，1exp（−E（y|其中Z是配分函数。yl=1的概率使用平均场近似迭代地获得如下：hatt=f.Σr=8、 16、32、 64ΣΦ{r→64} 、（9）Φ（yl= 1）t=σ.u（l）+ΣΣwl，kΦ（ yk=1）t−1K、（7）其中特征f是一小时内最后一层的输出玻璃堆栈如图所示五、操作说明如下：由方程式（五）、使用注意力地图的传统方法是-其中σ（a）=1/（1+exp（−a））是sigmoid函数。通过对特征h的卷积得到了εu（l）。 kwl，kΦ（yj=1）是通过将阶段t-1处的估计注意力映射Φt-1与滤波器进行比较来实现的。初始y，Φ（yi=1）1=σ（μu（i））.总之，阶段t处的注意力图Φt可以用公式表示如下：. σ（Wks）t = 0，将其直接应用于生成它的特征。然而，注意力地图细化的特征通常具有大量接近于零的值，因此许多细化特征的堆叠使得反向传播变得困难。为了在不牺牲训练效率的情况下利用来自多分辨率特征的信息，我们从具有各种分辨率的特征中生成注意力图，并将其应用于后面的特征。Φt =M（s，Wk）=σ（Wk <$Φt−1）t= 1，2，3，（八）除了多分辨率的关注，一个精致的在-张力图Φ′及其相应的细化特征hatt是其中M表示权重共享卷积序列，对于平均场近似，Wk表示从HATT产生，hatt= hattΦ′= hattM（hatt，w）.（十）21 1 1attatt沙漏+1多分辨率注意力183621pp1pp1009080706050403020100手腕1009080706050403020100脚踝Tompson等人NIPS14Carreira等人CVPR16Tompson等人CVPR15Pishchulin等人CVPR16Lifshitz 等人ECCV16Gkioxary等人ECCV16Rafi等人BMVC16Insafutdinov等人ECCV 16Wei等人CVPR16Tzimiropoulos ECCV 16Newell等人ECCV16我们00.10.20.30.40.5归一化距离00.10.20.30.40.5归一化距离图7. 比较MPII人体姿势测试集上最具挑战性的身体关节的PCKh曲线，手腕和脚踝平方误差（MSE）损失计算如下：图6. 由粗到细的部分注意模型及示例部分注意图的可视化。ΣPΣL=y（十四）5.2.3多语义注意以上过程在沙漏堆栈上重复，以生成具有多种语义含义的注意力地图。Φ ′的样品如图所示。2从堆栈1到8。在较浅的沙漏堆栈中，注意力地图捕捉到更多的本地信息。对于更深的沙漏堆栈，捕获关于整个人的全局信息，这对遮挡更具鲁棒性。5.2.4层次整体-部分注意在沙漏结构的第4到第8个堆栈中，我们使用等式中的细化特征hatt（9）生成如下的部分注意力图：sp=g（Wahatt+b），p=1l∈L其中p表示第p个身体部分，l表示第l个位置。表示部位p的预测热图，并且yp是由以身体部位位置为中心的2-D高斯生成的对应的地面实况热图。注意力地图有助于驱动网络关注硬性负面样本。经过几个阶段的训练后，注意力地图会在人体区域上开火，其中真正的阳性样本会被注意力地图突出显示。细化后的特征用于学习人体区域的分类器，通过学习的注意力图在特征级去除容易的背景区域因此，对于部分注意力图，分类器专注于基于良好定义的人体区域对每个身体关节进行分类，而不考虑背景。p1Φ =M（s，Wk），（11）PP P其中p ∈ {1，···，P}，Wa表示用于获得部分p的摘要图sp的参数，Wk表示部分p的空间相关性建模。将部件注意力图Φp与细化特征图hatt组合以获得部件p的细化特征图，如下所示：h att =h att Φp.（十二）7. 实验我们在两个广泛使用的基准上评估了所提出的方法，MPII人体姿势[1]和扩展的利兹运动姿势（ LSP ）[23]。MPII Human Pose数据集包括约25k张图像，其中包含40k个注释姿势。这些图像是从YouTube视频中收集的，这些视频涵盖了人类的日常活动，具有高度清晰的人类活动。P1男子摆姿势。LSP数据集由11k个训练图像组成和1k测试来自体育活动的图像。第p个身体关节的热图预测基于细化特征Hatt，在t时y_p=w_cls_h，（13）数据增强在训练过程中，我们以大致相同比例的图像为中心裁剪图像，并将图像补丁扭曲到p p256×256。然后，我们随机旋转（±30°），翻转im。其中，y_p是第p部分的热图，w_c_l_s是分类器。通过这种方式，我们保证注意力映射Φp对于身体关节p是特定的。部分注意图的一些定性结果如图所示。六、6. 训练模型沙漏中的每个堆栈都会生成身体关节的估计热图。我们采用[28]中的损失函数来学习模型。对于每个堆栈，年龄我们还执行随机重新缩放（0.75到1.25），颜色抖动，以使模型对比例和照明变化更鲁棒。在测试过程中，我们遵循标准例程，以MPII数据集的给定粗略位置和测试人的尺度来裁剪图像块。对于LSP数据集，我们简单地使用图像大小作为粗略尺度，图像中心作为目标人的粗略位置来裁剪图像块。所有实验结果都是由原始图像和翻转后的6个尺度的图像金字塔产生的L.HipL.KneeL.AnkleL.Shoulder检出率（%）检出率（%）1837方法头Sho. Elb. Wri.髋膝关节Mean Pishchulinet al. [30] 74.3 49.0 40.834.1 36.5 34.4 35.2 44.1Tompson等[37] 95.8 90.3 80.5 74.3 77.6 69.7 62.8 79.6Carreira等人[7] 95.7 91.7 81.7 72.4 82.8 73.2 66.4 81.3Tompson等[36] 96.1 91.9 83.9 77.8 80.9 72.3 64.8 82.0胡拉马南[21] 95.0 91.6 83.0 76.6 81.9 74.5 69.5 82.4Pishchulin等[31] 94.1 90.2 83.4 77.3 82.6 75.7 68.6 82.4Lifshitz等人[27] 97.8 93.3 85.7 80.4 85.3 76.6 70.2 85.0Gkioxary等人[16] 96.2 93.1 86.7 82.1 85.2 81.4 74.1 86.1Rafi等人[32] 97.2 93.9 86.4 81.3 86.8 80.6 73.4 86.3Insafutdinov等人[22] 96.8 95.2 89.3 84.4 88.4 83.4 78.0 88.5Wei等[39] 97.8 95.0 88.7 84.0 88.4 82.8 79.4 88.593.091.089.087.085.083.081.079.077.075.0肘腕膝踝平均值巴拉特·齐米罗普洛斯[5] 97.9 95.1 89.9 85.3 89.4 85.7 81.7 89.7Newell等人[28] 98.2 96.3 91.2 87.1 90.1 87.4 83.6 90.9我们的98.596.3 91.988.190.688.0 85.0九十一点五表1. MPII测试集上PCKh@0.5评分的比较。方法头Sho. Elb.Wri. 髋膝关节是说比利时[4]89.0 81.5 77.0 83.7 87.0 82.8 85.2Lifshitz等人[27日]96.8 89.0 82.7 79.1 90.9 86.0 82.5 86.7Pishchulin等[三十一]97.0 91.0 83.8 78.1 91.0 86.7 82.0 87.1Insafutdinov等人[22日]97.4 92.7 87.5 84.4 91.5 89.9 87.2 90.1Wei等[39]第三十九届97.8 92.5 87.0 83.9 91.5 90.8 89.9 90.5[5]第五届全国政协委员97.2 92.1 88.1 85.2 92.2 91.4 88.7 90.7我们98.193.789.386.993.4 94.0 92.592.6表2. LSP数据集上PCK@0.2评分的比较实验设置我们使用Torch 7 [ 10 ]训练我们的模型，初始学习率为2。5×10−4。参数由RMSprop [35]算法优化。我们训练MPII数据集上的模型为130个历元，LSP数据集上的模型为60个历元。我们采用[36]中使用的MPII数据集的验证分割来监控训练过程。7.1. 结果我们使用正确关键点百分比（PCK）[45]度量来比较LSP数据集，并使用PCKh度量[1]来比较MPII人体姿势数据集，其中误差容限相对于头部大小进行了归一化。MPII人体姿势表1报告了我们的方法和以前的最先进的PCKh性能在归一化距离为0的比较。五、我们的方法达到了现有技术的水平91. 5%PCKh评分。特别是对于最具挑战性的身体部位，手腕和脚踝，我们的方法实现了1。0%和1. 4%的改善，与封闭的竞争对手相比，分别如图所示7 .第一次会议。利兹运动姿势我们通过将MPII训练集添加到具有以人为中心的注释的扩展LSP训练集来训练我们的模型，这是一个标准例程[39，22，31，27，4]。表2报告了阈值为0.2时的PCK。我们的方法优于国家的最先进的所有身体关节，并获得1。平均提高9%7.2. 成分分析为了研究所提出的多上下文注意机制和沙漏剩余单元的有效性，我们图8. 成分分析MPII验证集上阈值为0.5时的PCKh评分。在MPII人体姿势数据集的验证集[36]如果没有指定，我们使用8堆栈沙漏网络[28]作为我们的总体结果如图所示。8.基于基线网络（BL），我们分析了每个建议的组成部分，多语义注意力模型（MS）、沙漏剩余单元（HRU）、多分辨率注意力模型（MR）和分层部分注意力模型（HP）。多语义注意我们首先评估多语义注意模型。通过在每个沙漏堆栈的末尾添加整体注意力模型（“BL+MS”），我们得到87分。2% PCKh评分，即1。与基线模型相比，改善2%沙漏残差单元为了探索残差池化单元的效果，我们进一步使用HRU来代替原始残差单元，当组合来自不同分辨率的特征时（“BL+MS+HRU”），如图1B所示。二、增加沙漏型残留物单位可进一步提高1%。如[28]中所讨论的，通过简单地堆叠超过八个沙漏模块不能容易地获得改进。我们提供了一种有效提高模型容量的方法多分辨率关注通过生成从具有多个分辨率（“BL+MS+HRU+MR”）的特征的衰减图分层注意我们还展示了分层整体-局部注意模型带来的改进。我们用一组从堆栈4到8的部分注意力图来替换改进的整体注意力图，并获得最高的平均PCKh得分89。百分之四我们观察到的改善主要是由身体部位的精确定位带来的在某些情况下，部分注意力模型甚至可以纠正重复计算的问题，如图2所示。第1段（c）分段。最后，我们比较了所提出的CRF空间注意力模型与传统的Softmax注意力模型的基础上的2-堆栈沙漏网络。我们比较准确率，即，PCKh为0.5，在图中随着训练的进行而设置的验证上。10个。CRF张力模型收敛快得多，BLBL+MSBL+MS+HRUBL+MS+HRU+MRB L +MS+HRU+MR+HP86.788.289.189.890.3PCKh@0.581.483.684.385.186.180.182.283.985.485.276.277.980.182.182.386.087.288.289.289.41838(a)（b）（c）图9. 定性评价。(a-b)第1行到第3行：2个输入图像、4个注意力图、6个热图和6个预测姿势。(c)MPII测试集和LSP测试集上的估计姿态示例（以4倍放大的电子形式查看90807060501 112131415161718191时代图10. 在整个培训期间MPII验证集上的PCKh@0.5。验证的准确性比Softmax注意力模型。我们可视化了这两个模型生成的注意力图，并观察到CRF注意力模型生成的注意力图比Softmax注意力模型更清晰，因为它更好地建模身体部位之间的空间关系。7.3. 定性结果为了深入了解注意力是如何工作的，我们通过可视化注意力图、分数图和估计的姿势来比较基线模型和提出的模型，如图所9（a-b）.我们观察到基线模型可能难以区分具有与肢体相似外观的对象（例如，图中的马腿 9（a）），和沉重的阴影与模糊的形状（图。9（b））。因此，整体注意力地图将有助于消除杂乱的背景和减少歧义。对于部分注意力地图，除了为身体部位提供更精确的定位外，它们甚至可以帮助减少重复计算的问题。例如，可以通过结合部分注意力图来区分左脚踝和右图图9（c）展示了通过我们的方法在MPII测试集和LSP测试集上预测的姿态我们的方法对极端困难的情况是鲁棒的，罕见的姿势，杂乱的背景，和透视。然而，如图所示(a)（b）（c）（d）图11. 失败病例由（a）重叠的人，（b）扭曲的肢体，（c）照明，和（d）左/右混淆引起。在图11中，我们方法可能在某些情况下失败，这些情况对于人眼也是困难的，即，(a)严重的遮挡和模糊，（b）肢体扭曲，（c）显著的照明变化，以及（d）由布料/照明引起的左/右身体混淆。8. 结论本文提出了将多上下文注意力和ConvNets合并到端到端框架中。我们使用视觉注意力来指导上下文建模。因此，我们的框架在上下文区域中具有很大的多样性。在空间相关性建模中，我们引入CRF代替全局Softmax.我们从三个方面建立了多语境注意力模型，多分辨率、多语义和层次整体-部分注意方案。此外，为了丰富传统残差单元的表现力，提出了沙漏残差单元所提出的多情境注意力和HRU是通用的，并将有助于其他视觉任务。鸣谢：本研究获香港研究资助局一般研究基金“善时集团有限公司”资助（项目编号：中大14213616，中大14206114，香港中文大学14205615、香港中文大学419 412、香港中文大学14203015及香港中文大学14207814）、香港创新及科技支援计划（编号ITS/121/15 FX）、国家自然科学基金委员会（编号61371192，61301269），中国博士点基金（No.20130185120039）和ONR N 00014 -15-1- 2356。SoftmaxCRFCRFSoftmaxMPIILSPPCKh@0.51839引用[1] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。二六七[2] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。2015年，国际会议。3[3] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年，国际会议。3[4] V. Belagiannis和A.齐瑟曼。循环人体姿态估计。arXiv预印本arXiv：1605.02914，2016。7[5] A. Bulat和G.齐米罗普洛斯通过卷积部分热图回归的人体姿势估计。在ECCV，2016年。二、七[6] C. Cao，X.Liu，Y.Yang，Y.Yu，J.Wang，Z.Wang，Y.黄先生，L. Wang，C.黄，W.xu等人再看再思考：用反馈卷积神经网络捕获自上而下的视觉注意力在ICCV，2015年。3[7] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计在CVPR，2016年。7[8] X. Chen和A. L.尤尔。通过具有图像相关成对关系的图形模型的在NIPS，2014。2[9] X.朱，W。欧阳，H. Li和X.王.用于姿态估计的结构化特征在CVPR，2016年。1[10] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，2011年。7[11] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。2[12] S. K. Divvala，D. Hoiem，J. H. Hays，A. A. 埃夫罗斯，还有M.赫伯特语境在宾语检测中的实证研究。CVPR，2009。2[13] X.范，K. Zheng，Y.郑氏，中国科学院植物研究所所长。Lin和S.王.结合局部外观和整体视图：双源深度神经网络-用于人体姿势估计。CVPR，2015。2[14] S. Gidaris和N.小木基于多区域和语义分割感知cnn模型的目标检测。在ICCV，2015年。一、二[15] R. 格尔希克F.Iandola，T.Darrell和J.马利克可变形零件模型是卷积神经网络。CVPR，2015。一、二[16] G. Gkioxari，A. Toshev和N.贾特利使用卷积神经网络的链式预测。在ECCV，2016年。7[17] K.格雷戈尔岛Danihelka ， A.格雷夫斯 D.J.Rezeland，以及D.维尔斯特拉Draw：用于图像生成的递归神经网络。arXiv预印本arXiv：1502.04623，2015。3[18] A.古普塔，T. Chen，F. Chen，中国粘蝇D. Kimber和L.S.戴维斯背景和观测驱动的人体姿态估计潜变量模型CVPR，2008。2[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二、四[20] G. Heitz和D.科勒学习空间背景：用东西找东西。在ECCV。2008. 2[21] P.Hu和D. Ramanan自下而上和自上而下的层次校正高斯推理。在CVPR，2016年。7[22] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B.席勒Deepercut：一个更深、更强、更快的多人姿势估计模型。在ECCV，2016年。7[23] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型在BMVC，2010年。二、六[24] P. Kr aühenbuühl和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS，2011年。5[25] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。一、二[26] J. Kuen，Z. Wang和G.王.用于显著性检测的递归注意网络。在CVPR，2016年。二、三[27] I. Lifshitz，E.Fetaya和S.乌尔曼使用深度一致性投票的人体姿态估计在ECCV，2016年。7[28] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。一二三四六七[29] L. Pishchulin，M.安德里卢卡山口Gehler和B.席勒姿态-let制约的图像结构。CVPR，2013。2[30] L. Pishchulin，M.安德里卢卡山口Gehler和B.席勒用于人体姿势估计的强外观和表达空间模型。InICCV，2013. 7[31] L. Pishchulin、E. Insafutdinov，S.唐湾Andres，M. An-driluka，P. Gehler和B.席勒Deepcut：联合子集划分和标记用于多人姿势估计。在CVPR，2016年6月。二、七[32] 联合Rafi，J. Gall，and B. Leibe一种用于人体姿态估计的高效卷积网络。在ECCV，2016年。7[33] V. Ramakrishna，D.穆尼奥斯，M。Hebert，J. A. Bagnell和Y.酋长姿势机器：通过推理机的关节姿态估计。在ECCV。2014. 一、二[34] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。2[35] T. Tieleman和G.辛顿讲座6.5-rmsprop：将梯度除以其最近幅度的运行平均值。COURSERA：Neural Networksfor Machine Learning，4（2），2012。7[36] J. 汤普森河Goroshin，A.Jain，Y.LeCun和C.布莱格勒使用卷积网络的高效对象定位C

下载后可阅读完整内容，剩余1页未读，立即下载