没有合适的资源?快使用搜索试试~ 我知道了~
1Thin-Slicing Network:一种用于视频姿态估计的深层结构模型宋杰1王立民2范谷2奥特马尔11苏黎世联邦理工学院AIT实验室2苏黎世联邦理工学院计算机视觉实验室摘要深度ConvNets已被证明对从单个图像中估计人类姿势的任务是有效的。然而,在基于视频的情况下出现了一些具有挑战性的问题,例如自遮挡,运动模糊和训练数据中很少或没有示例的不常见姿势。颞叶信息可以提供有关身体关节位置的额外线索,并有助于缓解这些问题。在本文中,我们提出了一个深度结构化模型来估计一系列的人体姿势在无约束的视频。该模型能够以端到端的方式有效地训练关于人体的领域知识显式地纳入网络提供有效的先验规则化的骨架结构,并执行时间一致性。建议的端到端架构评估的两个广泛使用的基准视频为基础的姿态估计(Penn行动和JHMDB数据集)。我们的方法优于几种最先进的方法。11. 介绍人体姿态估计是其中的核心问题之一在生命科学、计算机动画和不断发展的机器人、增强现实和虚拟现实领域有许多应用。准确的姿态估计还可以显著提高活动识别和视频的高级分析的性能(参见图1)。[14、34、36])。最近的姿态估计方法已经开发了深度卷积网络(ConvNets),用于在单个完全不受约束的图像中进行身体部位检测[2,17,18,22,31,32,35]。虽然证明了从在一般条件下拍摄的图像进行基于检测的姿态估计的可行性,但是这样的方法仍然在包括人类外观的多样性和自对称性的几个具有挑战性的方面中挣扎。几种方法[2,37]已明确将身体部位之间的几何约束纳入此类框架,确保空间一致性。1 代 码 和 模 型 可 在 https://github.com/JieSong89/thin-slicing-network上获得。图1. 我们的方法将时空信息整合到一个端到端的可训练网络架构中,旨在处理具有挑战性的问题,如(自)遮挡,运动模糊和不 常见的姿势。以完 全无约束的图像 作为输入(a),我们使用标准ConvNet层(b)回归身体部位位置。空间推理有助于克服由于对称的身体部位(c)造成的混淆我们的时空推理层(d)可以处理空间信息只失败的极端情况(参见。11对12,15对16),并且由于通过联合位置估计的时间传播的重复测量而提高了一元项的预测精度(3对4)。tency 和 惩 罚 物 理 上 不 可 能 的 解 决 方 案 ( 参 见 图 1(c)。在本文中,我们考虑了相对较少研究的无约束视频中人体姿态估计问题[11,20,39,42]。它继承了基于图像的姿态估计的许多特性,但也带来了新的挑战。特别是,在线门户网站中的无约束视频包含许多具有遮挡、不寻常姿势和运动模糊的帧(见图1)。这些问题继续限制关节检测的准确性,即使考虑到人体骨骼的空间配置的先验知识,并且如果将这些模型直接应用于视频序列,则通常会导致可见的抖动。为了解决这些问题,我们建议把水疗中心纳入-42204221在深度学习架构中进行动态和时间建模所提出的模型基于一个简单的观察:人-人运动表现出高度的时间一致性,这可以通过光流弯曲[20,39,42]和时空推断[34,36]来捕获。 具体来说,我们将时空关系模型纳入ConvNet,并开发了一个新的深度结构化架构,我们称之为薄切片网络。我们的模型允许在统一的框架中对身体部位回归器和时空关系模型进行端到端的训练。这通过在空间和时间上正则化学习过程来提高泛化能力。我们部署了一个完整的ConvNet用于初始部件检测。流扭曲层在时间上传播联合预测热图,并引入了一种新的推理层,沿着空间和时间边缘在任意循环图上执行消息传递。因此,我们的方法可以处理在无约束视频中出现的许多chal-challening情况,并且优于纯联合位置估计方法和仅包含空间先验的方法。图1说明了我们的方法如何在完全遮挡(第3行,给定相邻帧中的可见性)或严重运动模糊(第4行,通过利用时间一致性)的困难情况下准确地预测关节位置。最后但并非最不重要的是,该模型还在相对简单的情况下改进了预测(参见图1,第1行和第2行)。 这可以解释 通过在整个体系结构中联合优化多个相关但不同的帧,不仅学习了推理层的权重,而且还细化了底层的基于ConvNet的部分回归量,从而提高了预测的准确性。率联合检测。总之,我们的主要贡献是:(i)结构化模型基于循环时空图捕获视频序列中的人类姿势的固有一致性。我们的方法不依赖于显式的人体运动先验,但利用密集的光流利用相邻帧的图像证据。(ii)一个有效和灵活的推理层沿空间和时间图形边缘执行消息传递,并显着降低联合位置的不确定性。(iii)整个架构将基于ConvNet的联合回归器和高级结构化推理模型集成在一个统一的框架中,可以以端到端的方式进行优化。(iv)我们的方法显著提高了两个广泛使用的基于视频的姿态估计基准的最新性能:Penn Action数据集[40]和JHMDB数据集[14]。2. 相关工作来自单个图像的姿态估计极大地受益于利用结构模型,例如树结构的图形模型[1]和基于部件的模型[15,21,23,38],编码铰接关节之间的关系。在捕捉运动学相关性的同时,这种模型容易出现错误,例如重复计算部分证据。为了更好地捕捉对称性和长程相关性,已经提出了更具表达力的循环图模型,允许循环联合依赖性[5,25,28,30]。由于循环图中的精确推理一般来说是难以处理的,因此通常使用近似推理方法,如循环置信传播。上述方法基于手工制作的特征,并且对它们的代表性能力(的限制)敏感最近,已经部署了卷积深度学习架构,以直接从数据中学习更丰富,更具表现力的特征[2,18,22,31,32],优于先前的工作。Toshev等人[32]直接从图像中回归关节坐标后续工作表明,回归完整图像置信度图作为中间表示可能更有效[2,31]。虽然多阶段卷积运算可以捕获大接收场中的信息,但它们仍然缺乏在预测中完全建模骨架结构的能力。已经提出了几种改进置信图的方法首先,可以添加以联合热图为输入的额外卷积层来学习隐式空间依赖性,而不需要显式的人体先验[4,31,35]。其次,[2,22]明确地采用图形模型来处理后回归置信图。然而,部分回归网络和空间推理的参数是独立学习的[2,22]。在[37]中,提出了一种端到端的可训练框架,将卷积运算和空间细化相结合。我们的工作不仅结合了空间信息,但也模型的时间依赖性。视 频 中 的 姿 态 估 计 带 来 了 新 的 挑 战 ( 如 图 1 所示),并且需要跨帧耦合部件以确保准确和时间稳定的预测。早期的工作从序列的初始帧中的几个预测姿势中检测跟踪方案已被用于更稳健地估计视频中的姿态[8,19,24]。研究人员还试图设计时空图来捕获短视频序列中的运动[3,7,16,26,29,33,34,36,39]。然而,对空间和时间依赖性进行建模明确地导致高度互连的模型(即,具有大的树宽度的循环图),并且精确推断再次变得难以处理。一种解决方案是诉诸近似推理,例如使用基于采样的方法[29,33]或循环信念传播[7,16]。或者,将原始的大循环模型近似为一个或多个简化的基于树的模型,可以实现高效的精确推理[3,39]。最近的一些深度学习方法利用来自其邻居的信息来辅助当前帧中的预测[13]。类似于我们的方法,[20]直接传播联合位置估计从以前的当前帧通过opti-4222图2. Thin-Slicing Network架构示意图。 我们的模型将少量相邻帧作为输入(a)以及全卷积层(b)回归初始身体关节位置估计(c)。我们计算相邻帧之间的密集光流,通过时间传播联合位置估计。基于流的扭曲层将联合热图与当前帧(d)对齐。空间-时间推断层执行沿着循环姿态配置图的空间和时间边缘两者的迭代消息传递(e),并且计算最终关节位置估计(f)。为了便于说明,我们只绘制一个目标帧。calflow 来自多个邻近帧的扭曲热图被组合为加权平均。链模型[11]可以捕获更长的时间依赖性,但对规则的运动模式进行了假设。我们的方法还将时空模型合并到深度ConvNets中,但不同之处在于它(i)明确地对人体姿势的空间配置进行建模;(ii)通过(iii)一个新的推理层,在一般的循环时空图上执行消息传递,使用密集光流来正则化时间联合位置;(iv)并且是端到端可训练的。3. 薄切片网络图2显示了我们提出的网络架构的概述,包括几个互连的层。给定视频序列的薄切片(即,少量相邻帧),空间完全ConvNet首先回归每个输入帧的关节位置的关节置信度图(热图)(图2(c))。这些热图被发送到流扭曲层和时空推断层中。流扭曲层(图2(d))通过密集光流扭曲身体部位热图,使其与相邻帧对齐。最后,扭曲和当前帧热图都通过时空推理层(图2(e))。该层在空间和时间上进行身体部位之间的推断,产生最终的关节位置估计(图2(f))。3.1. 全卷积联合回归层最近的几项工作通过ConvNets回归身体关节的热图[2,18,22,31,35,17]。这样的模型通常完全由卷积运算和空间池层组成。我们利用这样的ConvNet [35]作为我们架构的基础。更具体地,如图2(b)所示的接头检测层。 这些模型都有-Ready展示了捕获局部外观特性的能力,并且以较大的裕度优于手工设计的浅特征,但是遮挡、(自)对称性和运动模糊仍然构成重大挑战(参见图1)。图1)。为了缓解这些问题,一种新的时空消息传递层(Sec. 3.3)被提出并结合到网络中用于端到端训练。3.2. 流弯层虽然我们的目标是提高联合预测的时间稳定性,但我们不包含显式运动模型(因为人类运动往往过于不可预测),而是依赖于密集的光流来在时间上传播信息。由完全卷积层产生的联合检测热图通过流扭曲层,以将热图从一帧对齐到目标邻居(图2(d))。逐像素流向量用于通过沿着跟踪方向移动置信度值来将相邻帧中的置信度估计与目标帧对准。接下来,这些扭曲的热图用作时空推理层的输入。3.3. 时空推理层将特定领域的知识扩展到深度网络中已被证明在许多视觉任务中是有效的,例如对象检测[10]和语义分割[41]。在这项工作中,我们建议明确地将时空依赖性纳入端到端的可训练框架。建模设G=(V,E)是如图2(e)所示的图,其中顶点V和边EV×V表示人类姿势的时空结构。K=|V|是数字4223p′我我的身体部分,并且i∈{1,...,K}是第i部分。每个顶点对应于身体部分之一(即,头,肩),每条边代表两个这些部分的空间分布(图2(e)中的蓝色箭头)或相同部分之间的时间分布(图2(e)中的黄色箭头)。 我们将这些边分别记为Es和Ef。 给定图像I,相对于该图G的姿态p被定义为图像空间中表示不同身体的位置的2D坐标的集合部分:p={pi=(xi,yi)∈R2:i∈V}.单图像姿态估计问题然后可以公式化为:最大化姿态的以下得分S(I,p)p给定图像I:由方程式(2)对于图像序列切片,当关系图G=(V,E)是树结构图时,通过多项式时间内的一次动态规划,可以有效地实现精确置信传播然而,对于因子图不是树结构而是包含循环的情况,置信传播算法是不适用的,因为不能建立叶到根的顺序。然而,循环的信念传播算法,如最大和算法,使近似推理在易处理的循环模型[9].据报道,经验表现在各种问题上都非常出色[37,28]。更准确地说,在我们的例子中,在每次迭代中,部件i向其邻居发送消息,S( I,p)=Σφi(pi|(一)+Σn(i,j),(1)沿着G中的边的相互消息:Σi∈V(i,j)∈Esscorei(pi)← φi(pi|(一)+mki(pi),(三)其中φi(pi|I)是身体部位i的一元术语,图像I中的位置pi和i,j(pi,pj)是成对的项建模两个相邻部分i和j的空间兼容性。一元项基于局部外观提供部分i的置信度值,并且它由完全ConvNet(第二节)进行建模。第3.1节)。对于成对项,我们使用弹簧能量模型来测量变形cost , 其 中 , ni , j ( pi , pj ) 定 义 为 wi , j·d(pi−pj)。对于标准二次变形约束,d(pi− pj)= [<$x<$x2<$y其中,x=xi−xj和y=yi−yj是部分i相对于部分J. 参数wi,j编码的静止位置和刚度每个弹簧,可以从其余网络参数的数据中学习。给定视频序列I =(I1,I2,.,IT)作为如图2(a)所示,在相邻帧之间引入时间链接(图2(e)中的黄色箭头),以便为估计姿态P =(p1,p2,...,pT)。然后,具有时间约束的整个切片的客观评分函数由下式给出k∈child(i)其中,child(i)被定义为部分i的子集合。 局部得分i(pi)是一元项φi(pi)的和|I)和从其所有孩子那里收集的信息。从主体部分k发送到部分i的消息mki(pi)由下式给出:mki(pi)←max(scorek(pk)+mk,i(pk,pi)).(四)K当量(4)基于部件k的得分和i与k之间的弹簧模型,为部件i的每个位置计算其子部件k的最佳得分位置。这种成本最大化过程可以通过广义距离变换[6]有效地解决,将计算复杂度降低到可能的部件位置数量的线性,这是来自完全ConvNet的回归热图的大小(第二节)。第3.1节)。这个推理过程可以通过多次迭代直到收敛。在我们的时空信息的实现S(I,P)切片=ΣTt=1S( It,pt)+Σ(i,i∈Ef)i,i(二)对于第一次迭代,每个部分的局部得分由从回归层获得的相应一元项初始化(图2(c))。推理过程如图2(e)所示一个人的孩子这里,S(It,pt)是如等式(1)中定义的每个帧的得分函数。(一). 成对项i,i(pi,p′)正则化相邻帧中部分i的 时 间 一 致 性 。 具 体 地 , 这 里p′n=pin+fin,i(pin),并且fin,i(pin)是在pin处评估的光流。该术语表示其中应用逐像素流轨迹以将相邻帧中的置信度值我们使用与上述相同的二次弹簧模型来惩罚这些相邻帧之间的估计漂移。推理推理对应于最大化S切片定义4224节点可以是同一帧中的相邻部分或相邻帧中的相同部分。对于第一种情况,其他部分的热图直接作为广义距离变换的输入,而对于第二种情况,分数k(pk)是流扭曲后的热图(图2(d))。我们实现了消息传递在广播- ING风格的消息同时通过每个边缘在两个方向。具体地,对于每个部分i,Eq.(4)从其子节点k计算最佳得分。通过广义距离变换有效地解决了这个最大化过程的前向。存储每个像素的最大位置p类似于最大池操作,反向传播-4225∂w∂ψ(p,p)∗∗Eq.(4)通过次梯度下降实现:5. 实验乌木基 (pi).=1 如果pk=p,在本节中,我们提出的结果,从我们的实验评估所提出的架构上进行斯坦-最小值k(pk)0否则。标准数据集。首先,我们介绍了数据集和IM-乌木基 (pi).=1 如果pk=p,在我们的实验中使用的实施细节。此外,我们比较我们的方法与∂ψk,i( pk,pi)0否则。两个独立的基线:完全卷积网络,弹簧模型的参数wki的梯度为:a ConvNet with spatial空间inference推理only.最后,我们比较计算公式为mki(pi)ki=mki(pi)d(pk−pi),其中k我Ki我们的结果与其他国家的最先进的方法,数据集。d(pk−pi)是二次位移。4. 学习Thin-Slicing Network的学习分为两个阶段:(1)训练完全卷积层,(2)流扭曲和推理层的联合训练训练完全卷积层如第二节所述。3.1,我们部署完全卷积层作为基本回归量,为序列中的所有身体部位生成信念图如图2(c)所示,每个像素位置都有每个 关 节 的 置 信 度 值 部 件 i 的 真 实 热 图 被 写 为 bi(Yi=p),其通过将高斯峰放置在部件的中心位置处来产生在我们的实现中,我们将峰值设置为1,背景设置为0。我们的目标是最小化每个部分的预测和理想信念图之间的l2距离,从而产生损失函数:第二章f=。(五)i=1p我们使用随机梯度下降算法来训练这些具有辍学的完全卷积层。对于训练的第二阶段,统一的端到端模型(图2)通过使用预训练的参数初始化全卷积层的权重来进行联合训练在这个训练阶段,我们在优化过程中使用铰链损失,而不是使用l2距离最后的损失定义在Eq。如果像素位于以地面实况联合位置为中心的半径为r的圆内,则Ii(p)是等于1的指示符,否则它等于-1:5.1. 数据集我们在Penn Action [40]和JHMDB [14]数据集上进行实验,这两个数据集都是标准数据集,用于评估基于视频的姿势估计。Penn Action数据集Penn Action数据集[40]是视频中具有完整人类关节注释的最大数据集之一,包含2326个无约束视频,描绘了15个不同的动作类别,每个图像的注释包括13个人类关节。还提供了每个关节的附加遮挡标签。我们遵循原始论文[40],以大约一半一半的方式将数据分为训练和测试子集。总共有大约9万张图像用于训练,8万张图像用于测试。JHMDB数据集JHMDB数据集[14]包含928个视频和21个动作类。该数据集提供了三种不同的训练和测试分割,我们报告了这三种分割的平均性能,用于该数据集上的所有评估。我们还进行了实验,此数据集的子集(子JHMDB数据集)与其他最先进的方法进行比较。该子集包含316个剪辑,具有12个动作类别。在该子集中,整个人体都在图像中,并且所有关节都用地面实况位置进行注释5.2. 实现细节为了在训练数据中引入更多的变化,从而减少过拟合,我们通过在随机选择的-90至90度之间旋转图像并通过0.5至2之间的随机因子进行缩放来增强数据。当预训练全卷积层时,网络的输入是围绕具有随机移位的人的中心对于端到端ΣKf=i=1Σmax(0,1 − bi(p)·Ii(p))。(六)p利用流扭曲和时空消息传递层进行训练,控制序列的输入块以具有相同的预处理。推理层中的参数是可微的,因此可以通过随机梯度下降与网络中的其他权重一起进行端到端的训练4226对于完全卷积层的网络参数设置,我们基于[35]部署网络结构该模型具有多级结构,其设计目的是4227缓解梯度消失的问题。我们使用368× 368 px的输入大小,以便覆盖足够的上下文。当薄切片为5帧时,批次大小被设置为20用于预训练卷积层,并且6用于联合训练统一网络学习率对于训练的第一阶段初始化为0.0005,并且每20k次迭代下降3倍。对于端到端训练,学习率被设置为较低(0.0001),并且每5k次迭代下降3倍对于第一阶段,丢弃率被设置为0.5,对于第二阶段,丢弃率被增加到0.7,其中具有流扭曲和消息传递层,以减少过拟合的潜在影响完整的ConvNet被训练了10个epoch用于初始化。统一的端到端模型通常在3- 4个时期后收敛。流扭曲层将大小与热图相同的调整大小的光流图像作为输入,其值通过相同的缩放因子重新缩放。对于时空消息传递层,我们将广义距离变换算法的二次项的权重初始化为0.01,一阶项的权重初始化为0[6]。请注意,在收集儿童发送的消息时设置规范化术语可以帮助稳定训练过程。类似的观察也在[37]中报道。我们发现近似推理的三次迭代已经提供了令人满意的结果,如果没有指定,否则在我们的实验中,消息传递在三次迭代后停止。在图2(e)中可视化了在该实现中使用的时空循环结构。在空间上,结构化模型具有与身体肢体重合的边缘左手腕和右手腕,左膝和右膝),以减轻图像证据重复计数的问题。时间边缘连接两个相邻帧中的相同身体部位。然而,我们的推理层的实现是灵活的,可以执行近似推理的任意循环图配置。5.3. 评价方案为了与Penn Action数据集和JHMDB数据集[11,36,19]上的先前工作进行一致的比较,我们使用[38]中引入的称为PCK的度量。候选关键点预测被认为是正确的如果它落在地面实况关键点的α·max(h,w)像素内,其中h和w是问题实例的边界框,α控制考虑正确性的相对阈值 我们报告了不同α设置的结果。我们还报告了以像素为单位绘制精度与地面实况的归一化距离的结果,其中,如果关节位于距离地面实况关节中心d个像素的设定距离内,则关节被视为正确定位,其中d通过实例的大小进行归一化。方法头守Elbo里斯髋膝Ankl是说[19个]62.852.032.323.353.350.243.045.3[36个]64.255.433.824.456.454.148.048.0[12个]89.186.473.973.085.379.980.381.1[第十一届]95.693.890.490.791.890.891.591.8基线97.994.976.872.095.988.885.187.0S-推断98.090.385.286.793.793.593.691.4ST-推断98.097.395.194.797.197.196.996.5ST-推断97.991.191.390.992.594.494.592.8ST-推断97.989.784.486.593.493.793.891.0ST-推断(2)97.696.895.295.197.096.896.996.4表1. Penn Action数据集上PCK@0.2的比较。我们将我们提出的模型与基线模型、具有空间推断的基线模型和其他最先进的方法进行比较。我们还研究了独立训练(独立训练)、端到端训练(端到端训练)后的基线ConvNet和跨2帧的时间连接的性能(2)。5.4. Penn Action数据集基线比较:表1显示了Penn Action测试集的相对性能。为了与以前的工作[36,11,19]进行一致的比较,使用度量PCK@0.2 这意味着如果预测位于(α= 0. 2)×max(sh,sw).我们首先比较基线模型,空间模型,最后我们的时空推理模型的结果。基准模型核心-响应于纯完全ConvNet,如第2节所述。3.1并使用损失等式进行训练(五)、我们还报告了仅在从ConvNet获得的热图上应用空间推断后的结果,仅对应于图2(e)中的蓝色箭头。请注意,这两个设置基本上将基于视频的姿态估计视为单个图像预测的纯连接。最后,我们报告了我们提出的端到端的可训练网络的性能与完整的时空推理。我们的基线设置达到87。13个身体部位的平均准确率为0%空间推理与几何约束之间的人体部位在个别图像增加了4。百分之四通过将跨帧的时间一致性,我们观察到额外的精度增益为5。1%的空间推理。头部和肩部等身体部位通常是可见的,并且不太灵活,因此即使使用基线模型也可以实现非常高的检测精度。然而,肘部和手腕等部位是我们身体最灵活的关节。这种柔性可以产生具有非常大的变化的配置,并且这些关节也易于被身体的其他部分闭塞基线模型的低检出率表明了这一点。通过空间消息传递,准确性增加,我们提出的模型将其再次提高了大约10%。请注意,仅通过空间推断从肘部但是,部署时态信息有助于从4228所有部件1头1肩膀1肘部10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.50.50.50.40.40.40.40.30.30.30.30.20.20.20.20.10.10.10.100.05 0.1 0.150.2到GT的00.05 0.1 0.15 0.2到GT的00.05 0.1 0.150.2到GT的00.05 0.1 0.15 0.2到GT的手腕1臀部1膝盖1脚踝10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.50.50.50.40.40.40.40.30.30.30.30.20.20.20.20.10.10.10.100.05 0.1 0.150.2到GT的00.05 0.1 0.15 0.2到GT的00.05 0.1 0.150.2到GT的00.05 0.1 0.15 0.2到GT的图3. Penn Action数据集的PCK曲线。我们将我们提出的模型与两个基线进行比较-我们的算法在整个严格性范围内产生了一致的准确性改进。这样的错误。归一化距离曲线的分析图3绘制了到地面实况注释的归一化距离。一般来说,我们提出的模型优于基线模型和一个空间推理的所有级别的评估和所有关节。有趣的是,即使对于像头部这样稳定(因此易于预测)的关节,我们仍然可以看到改进。特别是当度量变得更严格时(即,较小的d)。在更灵活的身体部位,如肘部,手腕和膝盖的情况下,可以观察到宽松和严格度量的不断改善特别是在0.05到0.1的区域,我们可以清楚地观察到更准确的预测。这进一步表明,通过我们的时空网络架构从几个帧反向传播误差对一元项和成对项都有好处。我们还测试了卷积层与消息传递的联合训练保持卷积层的权重固定,我们只训练时空推理层中的参数。整体表现为92。8%(表1,用()标注的行)。它比基线模型提高了5。8%,但达不到联合训练的效果。端到端训练有助于全卷积层更好地捕捉外观特征。为了验证这一说法,我们使用来自端到端训练模型的卷积层进行相同的评估(去除时空推理层),并将结果与基线模型(训练的独立模型)进行比较。4%,每-可以观察到α增加(表1,用(α)注释的行)。我们还进行了实验与时间不仅跨越1个帧,而且跨越2个帧(表1,行方法头守Elbo里斯髋膝Ankl是说基线93.272.457.361.988.463.648.670.9S-推断93.685.172.970.187.266.252.276.5ST-推断93.694.784.880.287.768.855.281.6基线86.250.242.947.461.443.434.154.5S-推断86.162.855.251.968.348.136.760.2ST-推断85.477.669.462.676.957.442.968.7表2. 完整JHMDB数据集的结果。前三行基于PCK@0.2,而结果()则基于PCK@0.1。注(2))。然而,在这里我们没有观察到平均准确度的显著增加。与现有技术的比较表1列出了以前的方法和我们的结果之间的一致性。我们首先比较浅手工制作的功能为基础的作品[36,19]。[19]基于N-best算法,[36]采用不同的动作特定模型。我们使用[36]中报告的数字进行比较。我们在所有身体部位的表现都远远超过他们。[11]将深层特征与循环结构结合起来,以模拟帧之间的长期依赖性。虽然只在短时间内传播信息(序列的薄片),但我们仍然获得了4的整体性能提升。7%,在这个数据集上。请注意,我们一贯本地化所有关节比以前的工作更好。5.5. JHMDB数据集我们还对JHMDB数据集进行了系统的评估[14]。该数据集上三次分割的平均结果如表2所示。前三行总结了PCK@0.2指标下的性能与先前相同的三个模型和设置进行了评估,我们观察到的结果与在基线空间推断时空推断基线空间推断时空推断基线空间推断时空推断基线空间推断时空推断基线空间推断时空推断基线空间推断时空推断基线空间推断时空推断基线空间推断时空推断精度精度精度精度精度精度精度精度4229图4. Penn Action数据集的定性结果。我们想象具有挑战性的肢体(手臂和腿)之间的连接。列出了一些故障案例。我们的方法可能会由于明显的遮挡和严重的模糊(最后一行)而错过肢体。Penn Action数据集。所提出的端到端模型相对较大地提升了整体性能我们还提供了PCK@0.1的结果(表2,标有“0”的行)。与其他最先进的方法头守Elbo里斯髋膝Ankl是说[19个]79.060.328.716.074.859.249.352.5[36个]80.363.532.521.676.362.753.155.7[12个]90.376.959.355.085.976.473.073.8基线97.282.265.266.596.384.476.882.3S-推断97.087.374.971.197.589.486.086.9ST-推断97.195.787.581.698.092.789.892.1表3.子JHMDB数据集上的PCK@0.2结果。我们与其他以前的方法和我们自己的基线进行比较。结果,我们在JHMDB数据集的一个子集上进行了进一步的实验。这些子集移除具有不完整主体的序列。比较结果列于表3。我们比基于浅层特征的方法有很大的优势[19,36]。在[12]中,从深层Conv-Net中提取特征,并独立地进行基于图形模型的推理以细化结果。我们提出的方法还在所有身体部位提供了更好的性能。5.6. 定性结果图4示出了从我们的实验中获得的代表性序列的结果我们的方法可以捕捉articulated构成强烈的姿态变化,在几个帧。背景杂乱、遮挡和模糊的情况下,包括.在图4的底行中示出的故障情况通常与跨许多帧的运动模糊或遮挡这阻碍了ConvNet捕获局部外观属性,并影响了密集光流的估计。在这些情况下,可能需要在较长距离上进行时间推断。6. 结论我们提出了一个端到端的可训练网络,考虑到时空一致性,以估计自然,无约束的视频序列中的人体姿势。我们已经通过实验证明,在数据集上使用这种统一的结构化预测方法优于多个基线和最先进的方法。与时空推断层联合地训练回归层有益于显示运动模糊和遮挡的情况,而且由于误差的迭代反向传播而改善了对一元项的预测。未来工作的跨学科方向包括长距离的时间依赖性和对人群的处理。致谢这项 工作 得到 了 ERC Starting Grant OptInt 、ERCAdvanced Grant VarCity和丰田研究项目TRACE-Zurich的部分支持。4230引用[1] M. Andriluka、S.罗斯和B。席勒图片结构回顾:人物检测和关节姿态估计。在CVPR,第1014-1021页[2] X. Chen和A. L.尤尔。通过具有图像相关成对关系的图形模型的在NIPS,第1736-1744页[3] A. Cherian,J. Mairal,K. Alahari和C.施密特混合人体部分序列用于人体姿态估计。在CVPR中,第2353-2360页[4] X.朱,W。欧阳,H. Li和X.王.用于姿态估计的结构化特征在CVPR中,第4715[5] M. Dantone,J. Gall,C. Leistner和L.范古尔使用身体部位相关关节回归量的人体姿势估计。在CVPR,第3041-3048页[6] P. Felzenszwalb和D. Huttenlocher采样函数的距离变换。技术报告,康奈尔大学,2004年。[7] 诉法拉利M.Marin-Jimenez和A.齐瑟曼。用于人体姿态估计的渐进搜索空间缩减在CVPR,第1-8页[8] K. Fragkiadaki,H. Hu和J. Shi.从流动中摆姿势,从姿势中流动。在CVPR,第2059-2066页[9] B. Frey和D. J. C.麦凯一场革命:带圈图中的信念传播。NIPS,第479-485页,1998年[10] R. 格尔希克F.Iandola,T.Darrell和J.马利克可变形零件模型是卷积神经网络。在CVPR,第437-446页[11] G. Gkioxari,A. Toshev和N.贾特利使用卷积神经网络的链式预测。arXiv预印本arXiv:1605.02346,2016。[12] 联合伊克巴尔,M。Garbade和J.胆姿势换动作-动作换姿势。arXiv预印本arXiv:1603.04037,2016年。[13] A. Jain,J. LeCun和C.布莱格勒Modeep:一个使用运动特征进行人体姿势估计的深度学习框架。在ACCV,第302-315页[14] H. Jhuang,J. Gall,S.祖菲角Schmid和M. J.布莱克。对动作识别的理解。在ICCV,第3192[15] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型在BMVC,第1-11页[16] M. W. Lee和R.奈瓦提亚基于多级结构模型的单目序列人体姿态跟踪 IEEE传输模式分析马赫内特尔,(1):27[17] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络在ECCV,第483[18] W. 欧阳X.Chu和X.王. 用于人体姿势估计的多源深度在CVPR中,第2329-2336页[19] D. Park和D. Ramanan零件模型的N最佳最大解码器。在ICCV,第2627-2634页[20] T. Pfister,J. Charles,and A.齐瑟曼。用于视频中人体姿态估计的流动卷积网。在ICCV,第1913- 1921页[21] L. Pishchulin,M.安德里卢卡山口Gehler和B.席勒姿态-let制约的图像结构。在CVPR,第588- 595页[22] L. Pishchulin、E. Insafutdinov,S.唐湾Andres,M. An-driluka,P.Gehler和B.席勒Deepcut:联合子集分割和标记多人姿态估计。arXiv预印本arXiv:1511.06645,2015。[23] D. Ramanan 学习解析关节式身体的图像NIPS,第1129-1136页,2006年[24] D. Ramanan、D.A. Forsyth和A.齐瑟曼。Strike a pose:通过寻找风格化的姿势来跟踪人。见CVPR,第271[25] X. Ren,中国茶条A. C. Berg和J.马利克利用零件间的成对约束恢复人体形状。载于ICCV,第824-831页[26] B. Sapp,D. Weiss和B. Taskar使用可拉伸模型解析人体运动。在CVPR,第1281-1288页,2011年。[27] H. Sidenbladh,M.J. Black和D.J. 舰队利用二维图像运动实现三维人体的随机在ECCV,第702-718页[28] L. Sigal和M. J.布莱克。局部测量,全局推理:遮挡敏感的关节姿态估计。见CVPR,第2041-2048页[29] C. Sminchisescu和B. Triggs用协方差尺度抽样估计关节型人体运动. 国际机器人研究杂志,(6):371[30] M. Sun和S. Savarese用于关节对象检测和姿态估计的基于关节部件的模型。在ICCV,第723[31] J. J. Tompson,A.Jain,Y.LeCun和C.布莱格勒卷积网络和图形模型的联合训练用于人体姿势估计。NIPS,第1799-1807页,2014年[32] A. Toshev和C.赛格迪Deeppose:通过深度神经网络进行人体姿势估计。在CVPR,第1653-1660页[33] J. M. Wang,中国山杨D.J. Fleet和A.赫茨曼人体运动的高斯IEEE传输模式分析马赫内特尔,(2):283[34] L. Wang,Y.乔和X.唐基于关系动态姿势的视频动作检测。在ECCV中,第565-580页[35] S.- E. Wei,V.Ramakrishna,T.Kanade和Y.酋长卷积姿态机器。在CVPR,第4724-4732页[36] B. Xiaohan Nie,C.Xiong和S.-C. 竹基于视频的联合动作在CVPR,第1293[37] W. 杨,W.欧阳,H.Li和X.王. 端到端学习可变形混合部件和 深度 卷积 神经 网络 ,用于 人体 姿势 估计 。在CVPR,第3073[38] Y. Yang和D. Ramanan具有柔性部件混合的铰接姿态估计。在CVPR,第1385[39] D. Zhang和M.Shah. 视频中的人体姿态估计在ICCV,第2012-2020页4231[40] W. Zhang,M. Zhu和K. G.德尔帕尼斯从行为到行动:用于详细动作理解的强监督表示。在ICCV,第2248-2255页[41] S. Zheng,S. Jayasumana湾Romera-Paredes,V.维尼特,Z. Su,D.杜角,澳-地Huang,和P.H. 乇作为递归神经网络的条件在ICCV,第1529- 1537页[42] S. Zuffi,J. Romero,C. Schmid和M. J.布莱克。利用流动木偶估计人体姿态。在CVPR,第3312- 3319页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功