没有合适的资源?快使用搜索试试~ 我知道了~
深度学习的组成模型:人体姿态估计的新方法
用于人体姿态估计的唐伟、裴禹、吴英西北大学2145 Sheridan Road,埃文斯顿,IL 60208{wtt450,pyi980,yingwu} @ eecs.northwestern.edu抽象。组合模型用有意义的部分和子部分的层次结构表示模式 它们表征身体部位之间的高阶关系的能力有助于解决人类姿势估计(HPE)中的低水平模糊性。然而,先前的组成模型对子部分-部分关系做出了不切实际的假设,使得它们无法表征复杂的组成模式。此外,它们的高级部分的状态空间可以是指数级大的,使推理和学习都复杂化。为了解决这些问题,本文介绍了一种新的框架,称为深度学习的组成模型(DLCM),为HPE。它利用深度神经网络来学习人体的组成这导致具有分层组成架构和自下而上/自上而下推理阶段的新颖网络此外,我们提出了一种新的基于骨的部分表示。它不仅紧凑地编码的方向,规模和零件的形状,但也避免了他们潜在的大的状态空间。与显着较低的复杂性,我们的方法优于国家的最先进的方法在三个基准数据集。1介绍人体姿态估计(HPE)是指从输入图像中定位人体部位。它是一些实际应用的基本工具,如动作识别,人机交互和视频监控[1]。最新的HPE系统采用卷积神经网络(CNN)[2 -4]作为其骨干,并在标准基准测试[5-9]上取得了巨大的改进。然而,当存在由重叠部分、附近的人和杂乱的背景(例如,背景噪声)引起的歧义时,它们仍然容易失效。,Fig. 1.一、解决这些困难的一个有希望的方法是利用人体的组成[10,11]它意味着将整个身体表示为满足某些关节约束的部分和子部分的这种分层结构的使用使我们能够捕获部件之间的高阶关系,并表征指数数量的合理姿势[12]。基于这一原理,组成模型1[13,14]通过两个阶段推断姿势,如图1所第2段(a)分段。在自底向上阶段,更高级别部分的状态是1本文主要研究多水平组合模型。2W. Tang,P. Yu和Y. 吴Fig. 1.通过八堆栈沙漏网络[5](左)和我们的方法(右)获得的姿势预测对。一些错误的零件定位用绿色椭圆突出显示。通过利用人体的组合性,我们的方法能够减少姿态估计中的低级别模糊性。更多示例图二. (a)人体的典型组成模型。姿态估计通过两个阶段:自下而上的推理,然后自上而下的细化。(b)每个张量表示几个部分的得分图SLIS函数聚集来自空间局部支持上的输入得分图的信息以预测输出得分图。(c)我们深入学习的组成模型的概述橙色和绿色箭头分别表示由CNN在自下而上和自上而下阶段建模的SLIS函数。左侧的彩色矩形表示不同语义级别的部分的预测得分图,而右侧的热图表示它们在训练阶段从其子部件的状态递归地预测。在自上而下阶段,较低级别部件的状态由较早时更新的部件状态找到这样的全局调整使得姿态估计能够最佳地满足关系约束,并且因此减少低级图像模糊。在过去的十年中,多个HPE系统[12,15-19]采用了组合模型然而,为HPE设计的现有组成模型存在问题[12,15-19]。首先,它们通常假设子部分上的高斯分布与子部分的平均值相同。 虽然简化了它们的推断和学习[20],但是该假设通常在真实场景中不成立,例如,,在[21-23]中可视化的关节分布。因此,我们认为,它是无法描述复杂的组成关系的身体部位。其次,一组离散类型变量通常用于用于人体姿态估计的深度学习组合模型3对部件之间的兼容性进行建模。它们不仅包括部件的方向和比例,而且还跨越语义类(直臂与弯曲臂)。由于部件的不同类型可以与所有硬件驱动类型的不同组合一样多,因此用于高级别部件的空间可以非常大这使得计算和存储都很苛刻。第三,当组合结构具有循环时,必须使用近似推理算法。因此,学习和测试都会受到不利影响。为了解决这些问题,本文介绍了一种新的框架,称为深度学习的组成模型(DLCM),HPE。我们首先表明,每个自下而上/自上而下的一般组合模型的推理步骤确实是一个广义的过程,我们称之为空间局部信息求和(SLIS)的实例化如图在图2(b)中,其聚集来自空间局部支持上的输入得分图2的信息在本文中,我们利用CNN来模拟这个过程,因为它们能够通过空间局部连接来近似推理函数。因此,DLCM可以学习人体内更复杂和真实的成分模式。为了避免潜在的大的状态空间,我们建议使用状态变量,只表示位置和嵌入到得分图的类型信息。特别地,我们使用骨段来表示一个部分,并在训练阶段监督其得分图。这种新的表示不仅紧凑编码的方向,规模和形状的一部分,但也降低了计算和空间的复杂性。图图2(c)提供了DLCM的概述我们在三个HPE基准上评估了所提出的方法它具有显著更少的参数和更低的计算复杂度,优于最先进的方法。综上所述,本文的新颖之处如下:– 据我们所知,这是第一次尝试通过深度神经网络明确学习视觉模式的层次组合性。因此,DLCM能够表征身体部位之间的复杂和现实的组成关系。– 我们提出了一种新的部分表示。它对每个部分的方向、尺度和形状进行了紧凑的编码,并避免了它们潜在的大状态空间。– 与现有的深度神经网络相比,例如,CNN,为HPE设计,我们的模型具有分层组成结构和跨多个语义级别的自底向上/自顶向下推理阶段。我们在实验中表明,DLCM的组成性质有助于他们解决自下而上的姿势预测中出现的模糊性。2相关工作组成模型。组合性已经在几个视觉研究[13,24,14,25]中进行了研究,并在HPE [12,15-19,26]等任务中进行了开发2得分图的每个条目评估处于某个状态的部件的良好性例如、位置和类型。4W. Tang,P. Yu和Y. 吴语义分割[27]和对象检测[28]。然而,现有的组合模型采用简单且不现实的关系建模,例如。,基于高斯分布的成对势。他们无法模拟复杂的成分模式。我们的方法试图通过强大的CNN学习身体部位之间的组成关系来解决这个困难。此外,我们利用了一种新的部分表示压缩编码的规模,方向和形状的每个部分,并避免其潜在的大的状态空间。基于CNN的HPE。所有最先进的HPE系统都将CNN作为其主要构建块[5 Newell et. al. [5]引入一个新颖的沙漏模块来处理和整合所有尺度的特征,以最好地捕捉与身体相关的各种空间关系。Yang et. [7]结合CNN和部分的表达可变形混合物[30]来加强身体部位之间的空间和外观一致性。Hu和Ramanan [29]将分层纠正高斯的推理过程展开为双向架构,也使用自上而下的反馈进行推理。而不是预测身体关节位置直接,太阳等。[31]回归关节对之间的坐标移位以编码它们的相互作用。值得注意的是,这些方法都没有将实体分解为有意义的和可重用的部分的层次结构或跨不同语义级别的推断我们的方法与他们的不同之处在于:(1)具有层次化的复合网络结构;(2)CNN用于学习身体部分之间的组成关系;(3)它的推理包括自下而上和自上而下两个阶段,跨越多个语义层次;(4)利用一种新的局部表示法来监督CNN的训练。基于骨骼的零件表达。一些先前的作品[32,33]使用每对相邻关节之间的肢体的热图作为深神经网络的监督他们的动机是对关节对进行建模有助于捕获额外的身体约束和相关性。 与它们不同的是,我们的基于骨骼的部分表示具有(1)层次组成结构和(2)多个语义层次。它被设计为(1)对部件的尺度、方向和形状进行严格编码,(2)避免更高级别部件的指数级大状态空间,以及(3)引导CNN学习人体的组成。3我们的方法我们首先简要介绍一般的组合模型(第二节)。第3.1节)。他们的推理步骤被概括为SLIS函数,并用CNN建模3.2)。然后,我们描述了我们的新的基于骨骼的部分表示(第二节)。3.3)。最后,深入学习的成分模型在第二节中详细介绍。三点四分。3.1组合模型一个组合模型是在一个层次图上定义的,如图所示3. 它是由一个4-tuple(V,E,φandd,φleaf)表示的,其特征在于它是一个集结构(V,E)和点函数(φandd,φleaf)。我们选择以下类型用于人体姿态估计的深度学习组合模型5uu,v图三.示例组成模型(a)不具有和(b)具有部分共享和高阶团节点3:V=V且∪ V叶。节点V和将子部件的组成建模为更高级别的部件。叶节点V叶模型基元,即,最底层的部分。我们将最高层的AND节点称为根节点。E表示图的边。在本节中,我们首先使用图1所示3(a),它不共享部分,只考虑两两关系,然后将其扩展到一般的,如图所示3(b)款。状态变量wu与每个节点/部分u∈ V相关联。对于HPE,它可以是该部件的位置pu和类型tu:wu={pu,tu}。作为一个激励性的例子,Yang和Ramanan [30]使用类型来表示部件的方向,尺度设Ω表示模型中所有状态变量的集合。概率分布的吉布斯形式如下:p(Ω| I)=1 exp{−E(Ω,I)}(1)Z其中I是输入图像,E(Ω,I)是能量,Z是配分函数。为方便起见,我们使用定义为负能量的评分函数S(Ω)来指定模型并省略I。在没有部分共享和高阶势的情况下,它可以写为:S(Ω)≡ −E(Ω,I)=ΣΣφleaf(wu,I)+Σφ和(wu,wv)(2)u∈Vleafu∈V和v∈ch(u)其中ch(u)表示节点u的子节点的集合。这两项是分别对应于叶节点和与节点的 第一项的作用就像一个探测器:它确定由叶节点建模的基元u存在于位置pu并且类型为tu。第二项模拟子部分v和其父部分u之间的状态兼容性。由于树结构,输入图像I的最佳状态Ω*可以通过动态编程有效地计算我们称这个过程为合成推理。它由两个阶段组成。在自下而上的阶段3这里我们不需要或节点[13,14],因为部分变化已经通过与节点的状态变量显式6W. Tang,P. Yu和Y. 吴uuuuuuv见图4。子和父得分图之间的输入-输出关系的图示在合成推理中 在这个例子中,节点u有两个子节点v1和v2。(a) 在自下而上阶段中,较高级部分的得分图是其芯片的(b)在备份中,低级别部分的相关信息由备份的相关信息更新数据确定最大分数,即,maxΩS(Ω),可以递归计算为:(Leaf)S↑(wu)=φleaf(wu,I)(3)u uΣ(And)S↑(wu)=max[φand(wu,wv)+S↑(wv)](4)uwvv∈ch(u)u,v v其中S↑(wu)是由节点u及其所有后代形成的子图的最大得分,其中根节点u采取状态wu,并且是递归计算的由等式(4),边界条件由Eq.(三)、递归从叶级开始,向上直到到达根节点。作为一个函数,S↑(wu)为部件u的每个可能状态分配一个分数。它也可以被认为是一种方法或地图,其中通过部分的状态来确定并通过相应的分数来评估。我们也称之为“无”,即“无”,即“无”。在自顶向下阶段,我们递归地反转Eq.(4)获得产生最大得分的子节点的最优状态:(Root)w*=argmaxwS↓(wu)≡argmaxwS↑(wu)(5)(非根)w*=argmaxwS↓(wv)≡argmaxw[φand(w*,wv)+S↑(wv)](6)VVVVu,v u v其中,方程中的节点u(6)是节点 V的唯一父节点,即,{u}=pa(v),S↑(wu)和S↑(wv)是自下而上阶段获得的,S↓(wu)和S↓(wv)u v u v分别是节点u和v的细化得分图。特别地,w*和w*是u v分别是部分u和v的最优状态,并且通过等式(1)递归地计算。(6),边界条件由Eq.(五)、递归从根节点开始,向下直到到达叶级。3.2空间局部信息摘要从等式(6),对于非根节点,S↓(wv)被定义为:S↓(wv)=φ和(w↓,wv)+S↑(wv)(7)v u,v u vuu用于人体姿态估计的深度学习组合模型7uuuuu,v图五、(a)说明SLIS在成分推断中的功能每个立方体表示对应于部分或子部分的分数图输出/右得分图中的每个条目是通过将来自输入/左得分图的信息聚合在局部空间支持上来获得的(b)基于骨骼的零件表达的图示。第一排:人的右下臂、右上臂、右臂和左臂第二排:不同人其中{u}= pa(v),w*= argmax w S↓(wu)。我们可以写自底向上(BU)和自顶向下(TD)递归方程,即,方程式(4)和等式(7)作为Σ(BU)S↑(wu)=max[φand(wu,wv)+S↑(wv)](8)uwvv∈ch(u)Σu,v v(TD)S↓(wv)=φand(wu,wv)S¯↓(wu)+S↑(wv)(9) vu,v u vwu其中S¯↓(wu)是S↓(wu)的半解析式:S¯↓(wu)等于1,如果u u uwu=w*,否则为0。如示于图4,这两个方程直观地展示了分数图如何在推理过程中向上和向下传播,这最终给我们全局最优状态,即。的组合模型。在ions的底部,在ionanΣd/或在ionoperations的最大值imiz处,rΣex是tsumm状态变量,例如、v∈ch(u)maxwv且wu,以及分数地图它们可以被认为是平均池和最大池。升-根据统计学习的本质[34],池化意味着以保留任务相关信息的方式组合特征,同时去除不相关的细节,导致更紧凑的表示,以及对噪声和杂波的更好的鲁棒性。在合成推理中,一些部分的得分图被组合以获得关于其他相关部分的状态的相关信息。这个类比使我们想到Eqs。(8)和(9)作为不同种类的信息摘要。由于子部分和父部分在实践中不应相距太远,因此没有必要在整个图像中搜索它们[35,36,14]。因此,将它们的相对位移限制在一个小范围内是合理的:pv− pu∈ Duv,例如:,Duv=[−50, 50]×[−50, 50]。 对于复合模型,这个约束可以通过设置igφand(wu,wv)=0ifpv−pu∈/Duv来 实 现。对于等式1的LHS上的得分图的条目,等式2的LHS上的得分图的条目是C。在图(8)和(9)中,仅在局部空间区域内的信息被汇总在RHS上,如图1中所示的映射8W. Tang,P. Yu和Y. 吴uvvuvuvuuuL−1L第五条(a)款。注意,该映射也是位置不变的,因为具有类型tu和tv的部分u和v之间的空间兼容性仅取决于它们的相对位置,并且与它们在图像空间中的全局坐标无关。我们的分析表明,这两个递归方程可以被认为是一个更广义的过程,聚合信息的本地空间支持和位置不变的不同实例 我们称这个过程为空间局部信息汇总(SLIS),并在图中说明。第五条(a)款。在自下而上阶段,较高级别部分S↑(wu)的得分图是它们的children的s c or e map s { S ↑(w v)} v ∈ c h(u)的SLIS函数。在存储区中,低水平部分S↓(wv)是它的部分S↓(w u)的函数。v u以及在自下而上阶段S↑(wv)中估计的其自己的得分图。使用CNN对SLIS函数建模。在本文中,我们利用CNN来为SLIS函数建模有两个原因。首先,CNN使用位置不变参数聚合关于局部空间支持的信息其次,CNN以其近似推理函数的能力通过从数据中学习它们,我们期望SLIS功能能够推断真实人体内的复杂成分关系。具体地,我们替换Eqs。(8)(9)与:↑↑。 ↑↑ Σ(BU)Su(wu)= cu{Sv(wv)}v∈ch(u);Θu(十)↓↓。 ↓↑↓ Σ(TD)Sv(wv)= cvSu(wu),Sv(wv);Θv(十一)其中c↑C↓是具有Θ↑的和Θ↓作为他们各自的卷积核的集合自下而上和自上而下的SLIS函数不同,它们对应的内核也应该不同。部分共享和高阶势。我们现在考虑一个更一般的组成模型,如图所示3(b)款。在部分共享和高阶势的情况下,得分函数为S(Ω)=Σu∈Vleafφleaf(wu,I)+Σu∈V且φ和(wu,{wv}v∈ch(u))(12)当r φ和d(wu,{wv}v∈ch(u))d不满足保证部分u和其子部分{v:v ∈ch(u)}之间状态相容性的最高剩余型函数时.由于循环和子共享的存在,应在较低/较高水平上从所有部分联合估计/改进水平。通过利用动态规划的更新规则[25],类似的推导(在补充材料中可用)表明我们可以近似SLIS的功能如下:↑↑。↑↑ Σ(BU){Su(wu)}u∈VL=cL {Sv(wv)}v∈VL−1;ΘL(十三)↓↓。 ↓↑↓Σ(TD){Sv(wv)}v∈VL−1=cL−1{Su(wu)}u∈VL,{Sv(wv)}v∈VL−1;ΘL−1(十四)其中L索引语义级别,Vl表示第L级别处的节点集合↑和Θ↓卷积核在自底向上阶段,得分映射在从低一级的所有得分图联合估计较高级在在自顶向下阶段中,较低级别的得分图由较高一个级别的所有得分图Θ用于人体姿态估计的深度学习组合模型9以及它们在自底向上阶段中的初始估计共同细化10W. Tang,P. Yu和Y. 吴uu见图6。(a)我们实验中使用的人体组成结构。它有三个语义层次,分别包括16、12和6个部分假设共享一个共同父节点的所有(b)拟议DLCM的网络架构。矩形中的地图是分数地图3.3基于骨骼的零件表示现有的组合模型的另一个问题是用于更高级别部分的类型空间可能很大。例如,如果左小腿和左大腿都有N个类型,那么整个左腿的类型可能是O(N2),而左腿和右腿的组合可能是O(N4)作为结果,得分图S↑(wu)和S↓(wu)的类型维数将非常u u高,这使得存储和计算都很苛刻。为了解决这个问题,我们建议将类型信息嵌入到分数图中,并使用状态变量来仅表示位置。如图在图5(b)中,我们用其骨骼来表示每个部件,这些骨骼是通过沿着部件段放置高斯核来生成的。然后,在训练神经网络时,将它们作为得分图S↑(wu)和S↓(wu)的地面真值。具体来说,对于零件线段上的每个点,我们生成一个以其为中心的2D高斯(std=1像素)热图。然后,通过在每个位置处从这些热图中取最大值来形成单个热图。我们的新颖的部分表示有几个优点。首先,分数图现在是没有类型维度的2-D矩阵,而不是3-D张量。这降低了分数图预测中的空间和计算复杂性第二,骨骼紧凑地编码了各部分的方向、尺度和形状,如图所示5(b)。我们不再需要通过聚类将它们离散化[12,15这种表示的一个为了解决这个问题,我们增加分数地图的更高级别的部分与分数地图的结束4。通过这种方式,可以保留零件的所有重要信息3.4深度学习组合模型(DLCM)基于上述推理,我们的深度学习成分模型(DLCM)利用CNN来学习HPE的人体成分4在实践中,我们发现可以在不降低性能的情况下去除重复的末端。用于人体姿态估计的深度学习组合模型11图图6(b)示出了基于等式5的示例网络(13)和(14)。它具有分层的组成架构和自底向上/自顶向下的推理阶段。在自下而上的阶段中,目标关节的得分图首先直接从图像观察回归,如现有的基于CNN的HPE方法。然后,更高级别的部分的分数图递归地估计从他们的孩子。在自顶向下阶段中,使用较低级别部分的评分图以及在自底向上阶段中所处的当前评分图来递归地细化较低级别部分的评分图与[37]类似,应用均方误差(MSE)损失来比较预测的评分图与地面实况。通过这种方式,我们可以引导网络学习身体部位之间的组成关系。我们的DLCM在自下而上和自上而下阶段预测的分数图的一些例子第8(a)段。4实验4.1实现细节所提出的DLCM是一个通用框架,可以用任何组合体结构和CNN模块来实例化。在实验中,我们使用与[12]中类似的组成结构,但包括高阶集团和部分共享。如图6(a),它有三个语义层次,分别包括16、12和6个部分。假设共享共同父节点的所有子节点彼此链接这里不包括整个人体,因为它对整体性能的影响可以忽略,同时使模型复杂化出于两个原因,我们利用沙漏模块[5]来实例化图1中的CNN块。第6(b)段。首先,沙漏模块通过处理和整合多个尺度的特征来扩展全卷积网络[38]这使得它能够捕获与输入分数图相关联的各种空间关系。其次,由八个沙漏模块依次堆叠而成的八堆叠沙漏网络[5]在多个HPE基准测试中取得了最先进的结果它作为一个合适的基线,以测试所提出的方法的有效性。为了实例化具有三个语义级别的DLCM,我们需要五个沙漏模块,即:,图1中的五个CNN块第6(b)段。Newell et. al. [5]将用于预测部分分数图的中间特征通过跳过连接添加回这些预测,然后再将它们馈送到下一个沙漏中。我们在实现中遵循这种设计,并发现它有助于减少过拟合。我们的方法在三个难度越来越大的HPE基准数据集上进行了评估:FLIC [39], Leeds Sports Poses( LSP) [40]和MPII Human Pose [21]。FLIC数据集由取自胶片的5003个图像(3987个用于训练,1016个用于测试)组成图像在上身注释,大多数人物面向相机。扩展LSP数据集由来自体育活动的11k个训练图像和1k个测试图像组成作为一种常见的做法[6,41,9],我们通过包含MPII训练样本来训练网络。LSP数据集中的一些关节注释在错误的一侧。我们手动纠正它们。MPII数据集由大约25k张图像和40k个注释样本组成(28k用于训练,11k用于测试)。这些图像涵盖了人类日常生活的方方面面10W. Tang,P. Yu和Y. 吴表1. FLIC测试集上PCK@0.2评分的比较肘手腕总汤普森等 al. [第四十二届]93.189.091.05[43]第四十三话95.392.493.9Wei et. al. [6]美国97.695.096.3Newell et. al. [五]《中国日报》99.097.098.0我们的(3级DLCM)99.598.599.0表2. LSP测试集上PCK@0.2评分的比较头肩膀肘手腕髋膝脚踝总[8]第十八话97.292.188.185.292.291.488.790.7Insafutdinov et. al. [第四十四届]97.492.787.584.491.589.987.290.1Lifshitz et. al. [45个]96.889.082.779.190.986.082.586.7Yu et. al. [46个]87.288.282.476.391.485.878.784.3Chu et. al. [9]第一章98.193.789.386.993.494.092.592.6Chen等人 al. [47个]98.594.089.887.593.994.193.093.1Sun et. al. [ 48个]97.993.689.085.892.991.290.591.6Yang et. al. [49个]98.394.592.288.994.495.093.793.9我们的(3级DLCM)98.395.993.590.7 95.0 96.695.795.1活动和各种全身姿势。在[42,5]之后,取3k个样本根据所注释的身体位置和比例在目标人周围裁剪每个输入图像。然后将其调整为256× 256像素。基于仿射变换[50,48]的数据增强用于减少过拟合。我们使用Torch [51]实现DLCMs5,并通过RMSProp对其进行优化[52]批量大小为16。学习率初始化为2。5× 10- 4,然后在验证准确度达到平台后下降10倍。在测试阶段,我们通过网络运行原始输入和六尺度图像金字塔的翻转版本,并将估计的得分图平均在一起[49]。最终预测是由最后一个CNN模块预测的给定关节的得分图的最大激活位置。4.2评价指标.根据之前的工作,我们使用正确关键点百分比(PCK)[21]作为评估指标。它计算落在地面实况的归一化距离内的检测的百分比。对于LSP和FLIC,距离通过躯干尺寸归一化,并且对于MPII,通过头部尺寸的分数(称为PCKh)归一化。精确度。标签1-3分别比较了我们的3级DLCM和最新的最先进的HPE方法在FLIC、LSP和5http://www.ece.northwestern.edu/www.example.com~wtt450/project/ECCV18_DLCM.html12W. Tang,P. Yu和Y. 吴表3. MPII测试集上PCKh@0.5评分的比较头肩膀肘手腕髋膝脚踝总[8]第十八话97.995.189.985.389.485.781.789.7Gkioxary et. al. [五十三]96.293.186.782.185.281.474.186.1Insafutdinov et. al. [第四十四届]96.895.289.384.488.483.478.088.5Lifshitz et. al. [45个]97.893.385.780.485.376.670.285.0贝拉吉安尼斯 al. [33个] 97.795.088.283.087.982.678.488.1Sun et. al. [ 三十一]97.594.387.081.286.578.575.486.4Sun et. al. [ 48个]98.196.291.287.289.887.484.191.0Yang et. al. [49个]98.596.792.588.791.188.686.092.0Newell et. al. [五]《中国日报》98.296.391.287.190.187.483.690.9我们的(3级DLCM)98.496.992.688.7 91.8 89.486.292.3表4.参数和操作编号#参数#operations(GFLOPS)Yang et. [49](最新技术水平)26.9M45.9Newell et. al. [五]《中国日报》23.7M41.2我们的(3级DLCM)15.5M33.6MPII数据集。我们的方法明显优于八叠沙漏网络[5],特别是在一些具有挑战性的关节上。在FLIC数据集上,它在手腕上实现了1.5%的改善,并将整体错误率减半(从2%降至1%)。在MPII数据集上,踝关节、膝关节、髋关节、腕关节和肘关节分别改善了2.6%、2.0%、1.7%、1.6%和1.4%。在所有三个数据集上,我们的方法都取得了优于最先进方法的性能。复杂性。选项卡. 4将我们的3级DLCM的复杂性与八堆栈沙漏网络[5]以及当前最先进的方法[49]进行比较。显然,仅使用五个沙漏模块而不是八个[5,49],我们的模型具有显著更少的参数和更低的计算复杂性。特别是,之前在基准测试中表现最好的方法[49]有74%的参数,需要37%的GFLOPS。摘要来自Tabs如图1-4所示,我们可以看到,在显著更少的参数和更低的计算复杂度的情况下,所提出的方法具有比现有技术方法更好的4.3成分分析我们分析了MPII验证集上DLCM中每个组件的有效性 硬接头上的平均PCKh@0.5,即踝、膝、髋、腕和肘被用作评估度量。一个具有两个语义层次的DLCM作为基本模型。模型(i),i∈ {1, 2, 3, 4,5},表示图1所示的基本模型的五个变体之一第7(a)段。用于人体姿态估计的深度学习组合模型13见图7。(a)MPII验证集的成分分析。参见第4.3有关详细信息(b)通过我们的方法在MPII(顶行)和LSP(底行)测试集上获得的定性结果为了了解组合架构的重要性,我们依次去除了自上而下的横向连接和组合部分的监督,这导致了模型(1)和模型(2)。图图7(a)表明两个变体,尤其是第二个,比基本模型表现更差。在模型(3)中,我们用传统的部件表示来替换基本模型中基于骨骼的部件表示,即,Fig.第五条(a)款。在[12]之后,我们使用K-means将12个高级部分中的每一个聚类为N个类型。由于零件样本被指定为一种类型,因此其N个分数贴图通道中只有1个是非零的(高斯分布以零件位置为中心)。我们测试了N= 15[12]和N= 30,并报告了更好的结果。如图如图7(a)所示,新颖的基于骨的部分表示显著优于传统的表示。最后,我们探讨是否在DLCM中使用更多的语义级别可以提高其性能。模型(4)是我们在第二节中使用的模型。4.2.模型(5)具有4个语义层。最高层次的部分是整个人体。它的基础结构是它的骨骼图的组合(局部最大值)。图7(a)示出了3级DLCM比2级模型执行得好得多。然而,在参数增加38%和GFLOPS增加27%的情况下,4级DLCM仅略微优于3级模型。4.4定性结果图7(b)显示了通过我们的方法获得的一些姿态估计结果。图8(a)可视化了通过我们的方法在自下而上(BU)和自上而下(TD)推理阶段获得的一些分数图这些得分图的演变说明了学习的组合性如何帮助解决出现在高级姿态估计中的低级第一级合成分别解决了第一、第二和第五个例子中左脚踝、右脚踝和右肘的不确定自下而上估计在一些更具挑战性的情况下,一个组合级别不足以解决歧义,例如,在第三个例子中左下臂的自下而上预测和在第四个例子中左小腿的自下而上预测。由于层次结构的组成性,它们的不确定性可以通过更高级别的关系模型来减少图14W. Tang,P. Yu和Y. 吴图8. (a)通过我们的方法在自下而上(BU)和自上而下(TD)推理阶段中对一些看不见的图像获得的得分图这五列对应于图1中的五个推断步骤第6(b)段。由于空间限制,对于每行的示例,仅显示与六个2级部分中的一个相对应的分数图从上到下,级别2部分分别是左腿、右腿、左臂、左腿和右臂。在每个子图形中,相同级别的部分按其到身体中心的距离排序。(b)一些示例显示3级DLCM(底行)能够解决8堆栈沙漏网络(顶行)的自下而上姿态预测中出现的模糊性。错误的部件本地化用绿色椭圆突出显示图8(b)示出了我们的DLCM可以解决出现在8堆栈沙漏网络的自底向上姿势预测中的模糊性5结论本文利用深度神经网络来学习人体内复杂的成分模式,以进行姿势估计。我们还提出了一种新的基于骨骼的部分表示,以避免潜在的大状态空间的更高级别的部分。实验证明了该方法的有效性和效率谢谢。这项工作得到了国家科学基金会资助IIS-1217302,IIS-1619078和陆军研究办公室ARO W 911 NF-16-1-0138的部分支持。用于人体姿态估计的深度学习组合模型15引用1. Sarafianos,N. Boteanu,B.,Ionescu,B.,Kakadiaris,I.A.:3D人体姿态估计:文献综述和协变量分析。计算机视觉与计算机应用152(2016)12. 福岛,K.,Miyake,S.:Neocognitron:视觉模式识别机制的自组织神经网络模型。在:竞争与合作在网络中。S.P.R.G.(1982)2673. LeCun,Y.,博图湖Bengio,Y.,Haffner,P.:基于梯度的学习应用于D〇C〇m_n_t_cog_n。IEEE86(11)(1998)2278- 2324的出版物4. LeCun , Y. , Bengio ,Y. , Hinton , G. : 深 度 学 习 自 然 521 ( 7553 )(2015)4365. Newell,A.,杨,K.,Deng,J.:用于人体姿态估计的堆叠沙漏网络。In:EuropeanConferenceonCom up uterVision,Spr inger(2016)4836. Wei,S.E.,Ramakrishna,V.,Kanade,T.,Sheikh,Y.:卷积姿势机器。I : IEEEConferenceonConputerVisionandPaternRecognition 。 电 话 :(2016)47247. 杨伟,欧阳,W. Li,H.,Wang,X.:可变形混合部件的端到端学习和用于人体姿势估计的深度卷积神经网络。I:IEEEConferenceonConputerVisionandPater nRecognition。(2016)30738. Bulat,A.,Tzimiropoulos,G.:通过卷积部分热图回归的人体姿势估计。参见:欧洲计算机视觉会议,Springer(2016)7179. Chu,X.,杨伟,欧阳,W.马,C.,尤伊尔,A.L.,Wang,X.:人体姿态估 计的 多上 下文 注意。 在: IEEE计算 机视 觉与 图像 处理会 议(CVPR)中。(2017)566910. Geman,S.,Potter,D.F.,Chi,Z.:组成系统。应用材料季刊60(4)(2002)70711. Bienenstock,E.,Geman,S.,波特,D.:组合性、mdl先验和对象重组。在:Avancesi ne uralin ner mato n pocessssysssin。(1997年)83812. 田,Y.,Zitnick,C.L.,Narasimhan,S.G.:探索用于人体姿态估计的混 合 模 型 的 空 间 层 次 In : European Conference on ComputerVision ,Springger(2012)25613. Zhu,S.C.,Mumford,D.等:图像的随机文法。第2卷Now Publishers,Inc.(2007年)14. Zhu,L.L.,陈玉,Yuille,A.:用于视觉的递归合成模型:最近工作的描述和回顾。数学成像与视觉杂志41(1-2)(2011)12215. 王 玉 , Tran , D. , Liao , Z. : 学 习 人 类 解 析 的 层 次 化 poselets 。 在 :IEEEConferenceonComuterVis isonandPater nRec o gniton中。(2011)170516. Rothrock,B.公园,S.,Zhu,S.C.:整合文法与分割以进行人体姿势估计。在:IEEE计算机视觉和模式识别会议上。(2013)321417. 孙,M.,Savarese,S.:用于关节对象检测和姿态估计的基于关节部件的模型。IEEE International Conference on Computer Vision(2011年)72318. 公园,S.,Zhu,S.C.:用于联合估计人体属性、部位和姿势的属性文法IEEE International Conference on Computer Vision(2015)237216W. Tang,P. Yu和Y. 吴19. 公园,S.,Nie,B.X.,Zhu,S.C.:用于人体姿势、部件和属性的联合解 析 的 属 性 和 或 语 法 。 IEEE transactions on pattern analysis andmachineintellige nce40(7)(2018)155520. Felzenszwalb,P.F.,Huttenlocher,D.P.: 采样函数的距离变换。8(1)(2012)415- 428中描述的方法21. Andriluka,M.,Pishchulin,L. Gehler,P. Schiele,B.:2D人体姿态估计:新的基准和最先进的分析。在:IEEE计算机Visin和Pater nRec gnitin会议上。(2014)368622. Johnson,S.,Everingham,M.:学习有效的人体姿势估计从精确注释。在:IEEE计算机视觉和模式识别会议上。(20 11)146523. Tran,D.,Forsyth,D.: 使用完整的关系模型改进了人工解析。于:EuropeanConferenceonCom up uterVisin,Spr inger(2010)22724. Jin , Y. , Geman , S. : 概 率 图 像 模 型 中 的 上 下 文 和 层 次 。 In :IConferenceonComuterVisionandPater nRecognition. (2006)214525. 唐,W.,Yu,P.,周杰,吴Y:一个统一的合成模型视觉模式建模IEEE International Conference on Computer Vision (2017)280326. Duan,K.,Batra,D.,Crandall,D.J.: 一种多层复合人体模型姿态估计 在:英国机器视觉会议。(2012年)27. 王杰,Yuille,A.L.:使用形状和外观相结合的组合模型进行语义部分分割。在:IEEE计算机视觉和图形学会议上。(2015)178828. Zhu,L.,中国科学院,陈玉,Torralba,A.,弗里曼,W.,Yuille,A.:零件及外观sharing : 用 于 多 视 图 的 递
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功