没有合适的资源?快使用搜索试试~ 我知道了~
1循环3D姿势序列机器林慕德,林亮,梁晓丹,王克泽,中山大学汇网址:linmude@foxmail.com,网址:linliang@ieee.orgxiaodanl@cs.cmu.edu,网址:chenghui9@mail.sysu.edu.cn,wangkeze@mail2.sysu.edu.cn摘要从单目图像序列中恢复3D人体关节姿态是非常具有挑战性的,这是由于不同的外观、视点、遮挡,并且人体3D姿态从单目图像中固有地是模糊的。因此,利用人体关节之间丰富的空间和时间长距离相关性进行准确的3D姿态序列预测至关重要。现有的方法通常手动设计一些精细的先验术语和人体运动学约束来捕获结构,这通常不足以利用所有的内在结构,并且不能对所有场景进行可扩展。相比之下,本文提出了一种递归3D姿态序列机(RPSM),通过使用多阶段顺序细化来自动学习图像相关的结构约束和序列相关的时间上下文 在每个阶段,我们的RPSM由三个模块组成,以基于先前学习的2D姿态表示和3D姿态来预测3D姿态序列:(i)提取图像相关姿态表示的2D姿态模块,(ii)回归3D姿态的3D姿态重现模块,以及(iii)用作模块(i)和(ii)之间的桥梁的特征自适应模块,(ii)以实现从2D到3D域的表示变换。然后将这三个模块组装成顺序预测框架,以通过多个循环阶段来细化预测的姿势。对Human3.6M数据集和HumanEva-I数据集的广泛评估表明,我们的RPSM优于所有最先进的3D姿态估计方法。1. 介绍虽然相当具有挑战性,恢复3D全身人体姿势从单目RGB图像序列已重新通讯作者为梁琳。本课题得到了国家重点发展计划项目(2016YFB 1001004 ) 、 国 家 自 然 科 学 基 金 - 深 圳 机 器 人 项 目(U1613211)、中央高校基础研究基金和广东省科技计划项目(201510010126)的资助。图1:我们的方法(RPSM)在Human3.6M数据集上的一些可视化结果。估计的3D骨架被重新投影到图像中,并从侧视图(图像旁边)显示它们自己。从左到右的图分别对应于由RPSM的第一阶段、第二阶段和第三阶段生成的估计的3D姿态我们可以观察到,预测的人类3D关节随着多阶段顺序学习而被最好用彩色观看。由于其在高级应用上的巨大潜力,最近吸引了大量的研究兴趣,这些高级应用包括人机交互[10]、监视[14]、视频浏览/索引[6]和虚拟现实[23]。除了与2D图像姿态估计共享的挑战(例如,由于外部实体和自遮挡,人的外观变化很大,任意的相机视点和遮挡的视觉),从单目图像中恢复3D关节姿态要困难得多,因为3D姿态从几何角度来看固有地是模糊的[40],如图所示。1.一、为了解决这些问题,一个较好的方法是研究如何在一个模型中同时实现二维空间关系、三维几何约束和时间一致性。最近,基于与2D变形先验耦合的2D零件模型的2D姿态估计已经取得了显著的成功,[35,37],以及深度学习技术,例如,[32、29、34、36]。然而,这些冰毒--810811ODS尚未探索对于3D姿态估计至关重要的3D姿态几何。在组合基于图像的2D部件检测器、3D几何姿态先验和用于生成3D姿态的时间模型方面存在一些有限的尝试[2,39,41,30]。 他们主要遵循两种管道:第一种[41,20]通过使用外部3D姿势库来进行基于模型的3D姿势重建,而第二种管道[4,40]则专注于通过模型训练精心这些独立的技术和先验知识使他们的模型非常复杂。因此,验证其每个组件的有效性也不是简单的。与所有这些方法相比,我们引入了一种完全数据驱动的方法,该方法学习以完全差分的方式集成2D空间关系,3D几何形状和时间我 们 提 出 了 一 种 新 的 递 归 三 维 姿 态 序 列 机(RPSM)估计三维人体姿态从序列的图像。[22]第二十二话 和卷积姿态机[34]架构用于2D姿态估计,我们的RPSM提出了一种多阶段训练,以捕获多个身体部位之间的长期依赖关系,用于3D姿态预测,并进一步加强序列帧预测之间的时间一致性。具体地,所提出的RPSM通过感测在先前阶段中已经实现的内容来递归地细化预测的3D姿态序列,即,2D姿态表示和先前预测的3D姿态。在每个阶段,我们的RPSM是由一个2D姿态模块,一个特征调整模块,和一个3D姿态递归模块。这三个模块是通过集成先进的卷积和递归神经网络来构建的,以充分利用空间和时间约束,这使得我们的RPSM具有多个阶段,这是一个可以以端到端方式训练的可区分架构。如示于图1,我们的RPSM能够通过多个顺序阶段逐渐细化每个帧的3D姿态预测,有助于无缝学习多个身体部位之间的图像相关约束和来自先前帧的序列相关上下文。具体地,在每个阶段,2D姿态模块将每个帧和在先前阶段中产生的2D特征图作为输入,并且逐步更新2D姿态表示。然后,特征自适应模块被注入以将学习到的姿态表示从2D域转换到3D域。由长短期记忆(LSTM)层构造的3D姿态递归模块因此可以通过组合三条信息线来回归3D姿态估计,即,变换后的2D姿态表示、来自前一阶段的3D联合预测以及来自过去帧的存储状态直观地,2D姿态表示以捕获空间外观和上下文信息的单目图像为条件。3D joint预测通过聚集多阶段计算来隐式地编码3D几何结构信息然后通过LSTM单元的隐藏状态捕获时间上下文依赖性,这有效地提高了3D姿态估计随时间的鲁棒性。这项工作的主要贡献是三方面的。i)我们提出了一种新的RPSM模型,该模型使用多阶段顺序细化来学习递归地整合丰富的空间和时间长距离依赖关系,而不是依赖于基于具体手动定义的身体平滑度或运动约束。ii)铸造递归网络模型以顺序地结合3D姿态几何结构信息在文献中是创新的,这也可以启发其他3D视觉任务。iii)对公开挑战的Human3.6M数据集[16]和HumanEva-I数据集[25]的广泛评估表明,我们的方法比现有的3D人体姿势估计方法性能更好。2. 相关工作相当多的研究已经解决了3D人体姿态估计的挑战从视频中进行3D单目姿态估计的早期研究涉及帧到帧的姿态跟踪和依赖于先前帧之间的马尔可夫依赖性的动态模型,例如,[33、26]。这些方法的主要缺点是初始化姿态的要求和无法从跟踪失败中恢复为了克服这些缺点,最近的方法[2,5]集中于检测每个单独帧中的候选姿态,并且后处理步骤尝试建立时间一致的姿态。Yasin等人[38]提出了一种用于从单个图像进行3D姿态估计的双源方法。他们将来自运动捕捉系统的3D姿态数据与用2D姿态注释的图像源相结合。他们将估计转换为3D姿态检索问题。这种方法的一个主要限制是时间效率。处理一个图像需要20多秒。Sanzari等人[24]提出了一种分层贝叶斯非参数模型,该模型依赖于人体骨骼关节组的特异性运动的表示,并且在重建全身姿势时考虑了连接组姿势的一致性。他们的方法在Hu-man3.6M [16]数据集上实现了最先进的性能。最近,深度学习已经在许多计算机视觉任务中证明了它的能力,例如3D人体姿势估计。Li和Chan [19]首先使用CNN从单目图像中回归3D人体姿势,并提出了两种优化网络的训练策略Li等[20]提出将结构学习集成到深度学习框架中,该框架由一个用于提取图像特征的卷积神经网络和两个后续子网络组成,用于将图像特征和姿势转换为联合嵌入。Tekin等人[30]开发812卷积特征卷积特征卷积特征不2个D2个D2个Dt−1不3D三维t二维p不二维ptr3 Dt−1tr二维姿势模块t-1不t+1功能自适应模块二维姿势模块卷积特征功能自适应模块卷积特征功能自适应模块输入图像序列第一阶段第二阶段第三三维姿态序列图2:所提出的递归3D姿势序列机器架构的概述。我们的框架预测了所有单目图像帧的3D人体姿势,然后通过多阶段循环学习依次对其进行细化在每个阶段,输入序列的每一帧被顺序地传递到三个神经网络模块中:i)2D姿态模块,提取图像相关的姿态表示; 2)特征自适应模块,用于将姿态表示从2D域转换到3D域; 3)3D姿态递归模块,预测3D坐标中的人体关节。注意,用于所有帧的3D姿态递归模块的参数被共享以保持时间运动相干性。给定来自第一阶段的初始预测的3D关节和2D特征,我们执行多阶段细化以递归地提高姿态精度。从第二阶段开始,先前预测的17个关节(51个维度)和2D姿态感知特征也分别作为2D姿态模块和3D姿态递归模块的输入。最终的3D姿态序列结果是在循环执行多级细化之后获得的。运动信息,并应用深度学习网络来回归3D姿态。Zhou等[41]提出了一种来自视频的3D姿态估计框架,该框架由基于深度学习的2D部分检测器,稀疏驱动的3D重建方法和3D时间平滑先验之间的新型合成组成。 Zhou等[40]提出将运动学对象模型直接嵌入深度学习。Du等人[9]引入了用于重建2D姿态的附加内置知识,并制定了一个新的目标函数,以根据检测到的2D姿态估计3D姿态。3. 循环3D姿势序列机器如示于图2.提出了一种新的递归3D姿态序列机(Recurrent 3D Pose Sequence Machine,RPSM)来解决单目帧的3D姿态序列生成问题。在每个阶段,RPSM由三个连续的模块组成:1)二维3.1. 多阶段优化3D人体姿势通常被表示为具有相对于根关节的3D位置的P个关节的集合(例如,骨盆关节)。图中示出了一些示例性姿势。1.一、我们的目标是学习一个映射函数来预测3D姿态,序列{S1,...,S T},用于图像序列{I1,.,I T},其中I t是包含对象的第t个帧,S t∈R3×P是其对应的3D关节位置。为了在第k阶段获得第t帧的3D姿态Sk,首先采用2D姿态模块flp,通过将图像It和先前的2D姿态感知特征ft,k-1作为输入来提取每个图像的2D姿态感知特征ft,k然后,将所提取的2D姿态感知特征ft,k馈送到特征适配模块ft,k中以生成适配特征ft,k。最后,根据3D姿态递归模块的输入来预测3D姿态Sk,3D姿态递归模块的输入由ft,k、先前预测的3D姿态Sk-1和从3D姿态递归模块学习的隐藏状态Hk组成。过去的帧形式上,第t阶段的ft,k,Sk,ft,k在姿态模块,用于提取2D姿态感知特征; 2)特点自适应模块,用于将所述表示从2D域变换到3D域; 3)3D姿态递归模块,用于估计结合图像序列中的时间依赖性的每个帧的3D姿态。这三个模块组合成2Dt3D第k级被公式化为,ft,k=<$(I,ft,k−1;W),ft,k=Wa(ft,k;Wa),(一)三维二维每个阶段都有统一的框架。单目图像序列被传递到多个阶段以逐渐细化预测的3D姿态。 我们训练网络参数-以完全端到端的方式在多个阶段重复出现S k=(f t,k,H k ,S k−1;W),其中,Wp、Wa、Wr分别是网络参数在第一阶段,ft,0,S0被设置为2Dt二维姿势模块3D姿势循环3D姿势循环3D姿势循环模块模块模块8130368图3:我们提出的RPSM在第k阶段的详细网络架构。 然后将368×368的输入帧送入2D姿态模块、特征自适应模块和3D姿态递归模块,预测17个关节点的位置(51维输出)。2D姿态模块由所有阶段的15个共享卷积层和每个阶段的2个专用卷积层组成。专用卷积层将共享特征和前一阶段的2D姿态感知特征作为输入,并将专用特征输出到特征自适应模块以及下一特征自适应模块由两个卷积层和一个具有1024个单元的全连接层组成最后,调整后的特征、LSTM层的隐藏状态和先前预测的3D姿态被连接在一起作为3D姿态递归模块的输入,以产生每帧的3D姿态符号“”表示连接操作。123456789图层名称conv1 1Conv1 2max 1conv2 1conv2 2max 2conv3 1Conv3 2conv3 3通道(内核步幅)六十四(三比一)六十四(三比一)六十四(二比二)一百二十八(三比一)一百二十八(三比一)128(2-2)256(3-1)256(3-1)256(3-1)101112131415161718图层名称联系我们max 3conv4 1conv4 2conv4 3联系我们联系我们conv4 6联系我们通道(内核步幅)256(3-1)256(2-2)512(3-1)512(3-1)256(3-1)256(3-1)256(3-1)256(3-1)一百二十八(三比一)表1:2D姿态模块中的共享卷积层的细节零的大小与其他阶段,和Hk被设置为零向量。3D姿势序列{S K,S K,. . .,S K},由最后的第K级估计和128个(更多细节请参见表1)。此外,我们在所有卷积层上附加了整流线性单元(ReLU)1 2T这是最终的预测。序贯细化过程我们的RPSM使得网络状态的逐渐更新能够更好地学习图像序列和3D姿态序列之间的映射。3.2. 二维姿势模块2D姿态模块的目标是用姿态信息的紧凑表示对单目序列中的每一帧进行编码,例如,人类的身体形状。实际上,较低的卷积层往往提取了共同的低层信息,这是人体图像的一个非常基本的表示。因此,我们将我们提出的2D姿势模块分为两个部分:跨越所有级的共享卷积层和每个级中的专用姿态感知卷积层。2D姿态模块的架构如图所示。第3(a)段。共享的卷积层,即,那些在图中所示的级联操作之前的那些。图3(a)中,由15个卷积层和4个最大池化层组成。所有共享卷积层的内核大小设置为3×3,四个最大池化层被设置为具有2×2内核步幅为2。 共享的通道数卷积层在图中从左到右。3(a)是64,64,128,128,256,256,256,256,512,512,256,256,256,256之后,共享的卷积特征和前一级的前2D姿态感知特征被级联,然后被馈送到最后两个卷积层中,以在2D姿态模块中生成更新的2D姿态感知特征。 通过在前一阶段组合先前学习的2D姿态感知特征,可以逐渐增强所提取的2D姿态感知特征的辨别能力,从而导致更好的3D姿态预测。较高的卷积层(即,图中的最后2个卷积层。3(a))的2D姿态模块通常捕获更结构敏感的信息,这些信息应在每个阶段的细化中被专门化。因此,我们训练最后2层的网络参数独立地跨所有阶段。最后,2D姿态模块将368 ×368图像作为输入,并为每个图像输出128×46×46个3.3. 功能自适应模块基于由2D姿态模块提取的特征,采用特征适配模块将2D姿态表示适配到适配的特征空间中以用于稍后的3D姿态预测。如图所示在图3(b)中,所提出的特征自适应模块由两个卷积层和一个全连接层组成。每一个convo-(c)3D姿势循环模块.. 预测3D姿态隐藏状态. 上一阶段从过去的帧368预测FC⨁102451LSTM输入帧下阶段FC128 128 12810242351151123465465(b)功能自适应模块在所有阶段之间共享权重46128128下阶段25633333⨁46…461283461283683Conv特征上一阶段368(a)二维姿势模块46814不卷积层包含128个不同的内核,大小为5×5,步长为2,并且在卷积层上附加了一个最大池化层,其内核大小为2×2最后,卷积特征被馈送到具有1024个单元的全连接层,以产生适配的fea。真向量以这种方式,特征适配器模块将2D姿态感知特征变换成1024维的经适配的特征向量。3.4. 3D姿势循环模块给定所有帧的适应特征,我们提出了一个3D姿态序列模块来顺序地预测3D姿态序列。以这种方式,帧之间的丰富的时间运动模式可以被有效地结合到3D姿态预测中。注意,长短期记忆(LSTM)[15]在许多任务中已经证明在利用时间相关性方面比普通递归神经网络更好,例如,语音识别[12]和视频描述[8]。在我们的RPSM中,3D姿态递归模块诉诸于LSTM层来捕获单目序列中的时间依赖性,以改进每个帧的3D姿态预测。如图3(c)所示,3D姿态递归模块由一个具有1024个隐藏单元的LSTM层和一个预测P=17个人体关节点特别是,隐藏状态由LSTM层学习的时间依赖性能够隐式地编码跨输入序列的不同帧的时间依赖性。如公式中所示。(1)中,将适配的特征、先前的隐藏状态和先前的3D姿态预测连接在一起作为3D姿态递归模块的当前输入在每个阶段重复先前的3D姿态预测,赋予我们的RPSM逐步细化姿态预测的能力。4. 模型训练和测试在训练阶段,我们的RPSM在所有阶段对所有帧强制执行3D姿态序列预测损失,其定义为所有P个关节的预测与地面实况之间的欧几里得距离克雷蒂埃身体关节然后,我们利用MPII人体姿势数据集[1]通过随机梯度下降算法预训练定制的2D姿态模块对于整个框架,采用ADAM [17]策略进行参数优化。为了获得足够的样本来训练3D姿态递归模块,我们提出将一个长的单目图像序列分解成几个小的相等的C帧剪辑。根据等式(2)采用多级优化的方式,对3D姿态递归模块、特征自适应模块和2D姿态模块的专用卷积层的参数进行整体微调。以这种方式,特征自适应模块可以根据等式2学习自适应特征表示。(2)用于进一步的三维位姿估计。在测试阶段,输入图像序列的每一帧都由我们提出的RPSM以逐阶段的方式进行处理。最后,在最后阶段的细化之后,我们输出3D姿态预测。5. 实验5.1. 实验设置我们对两个公开可用的数据集进行了广泛的评估:Human3.6M [16]和HumanEva-I [25]。Human3.6M数据集。Human3.6M数据集是最近发布的数据集,它在受控的实验室环境中提供了360万个3D人体姿势图像和相应的注释。它捕捉了11个专业演员在15个场景下表演的4个不同观点。在下面的实验中,我们严格遵循与以前的作品[41,20,40,30,9,24]相同的数据分区协议。来自5名受试者(S1、S5 、S6 、 S7 、S8 )的 数据 用于 训练 , 2 名受 试者(S9、S11)用于测试。注意,为了增加训练样本的数量,来自同一对象的不同视点的序列通过将帧速率从50FPS下采样到2FPS,获得了62,437张人体姿势图像(每个序列104张图像)用于训练,而21,911张图像用于测试(每个序列91张图像)。更一般地说,我们的RPSM是在所有15个动作的训练样本上训练的,而不是利用L=αk<$Sk−Sk<$,(2)t t2k=1t=1个人行动,如[41,20]。HumanEva-I数据集。HumanEva-I数据集其中K是级数,T是图像的长度序列,S是第t帧的地面实况3D姿态,并且αk是每个阶段的损失重量。2D姿势模块首先使用MPII Hu- man姿势数据集[1]进行预训练,因为该数据集提供了2D姿势数据的更大变体。具体来说,我们在2D Pose Module的公共共享层上临时建立额外的卷积层以生成热图(联合置信度),如[31]所示,其表示2D Pose Module的像素置信度图。拍摄了四个主题的视频序列,单动作(例如,步行、慢跑、拳击等),并且它还为视频序列中的每个帧提供3D姿态注释我们在主题1,2和3的训练序列上训练我们的RPSM,与Human3.6M数据集类似,来自不同相机视点的数据也被视为不同的训练样本。请注意,我们没有对视频序列进行下采样,815方法方向讨论饮食 迎接 电话构成 购买Sitting SitDown Smoke Photo等WalkDog WalkPairAvg.LinKDE [16]132.71183.55 132.37 164.39 162.12171.31 151.57 243.03 162.14 205.94 170.69 96.60177.13127.88162.14Li等[20个]-136.88 124.74------168.68 - 69.97132.17--Tekin等人[30个]102.39158.52 87.95 126.83 118.37 114.69107.61 136.15 205.65 118.21 146.66 65.86128.1177.21125.28Zhou等[41个]87.36109.31 87.05 103.16 116.18 106.8899.78124.52 199.23 107.42 118.09 79.39114.2397.70113.01Zhou等[第四十届]91.83102.41 96.9598.75 113.35 90.0493.84132.16 158.97 106.91 125.22 94.41 79.02126.0498.96107.26Du等人[9]第一章85.07112.68 139.08 105.93166.16 117.49 226.94 120.02 117.65 99.26137.36106.54126.47Sanzari等人[24日]48.8256.3195.9884.7896.47 66.30107.41 116.89 129.6397.84 105.5865.94 92.58130.46102.2193.15我们58.0268.1663.2565.7775.26 61.1665.7198.65127.6870.37 93.0568.1750.6372.9457.7473.10表2:对于受试者9和11的不同动作,使用3D姿态误差(以毫米为单位)对Human3.6M数据集进行定量比较。每个类别中具有最小3D姿势误差的条目以粗体显示。我们的RPSM实现了所有比较国家的最先进的方法,即显着改善。平均误差降低了21.52%。方法S1走S2ingS3Avg.S1慢跑S2ingS3Avg.S1博信S2GS3Avg.Simo-Serra等人[28日]99.6108.3127.4111.8109.293.1115.8108.9----Radwan等人[21日]75.199.893.889.679.289.899.489.5----Wang等人[33个]71.975.785.377.662.677.754.471.3----Du等人[9]第一章62.261.969.264.456.359.359.358.3----Simo-Serra等人[27日]65.148.673.562.474.246.632.256.7----Bo等人[3]第一章45.428.362.345.355.143.237.445.242.564.069.358.6Kostrikov等人[18个国家]44.030.941.738.957.235.033.340.3----Tekin等人[30个]37.525.149.237.3----50.561.757.556.6Yasin等人[38个]35.832.441.636.646.641.435.438.9----我们26.520.738.028.441.029.729.133.239.457.861.252.8表3:使用“行走”、“慢跑”和“拳击”序列的3D姿态误差(以毫米计)对HumanEva-I数据集进行定量比较。'-'表示相应的方法没有报告该操作的准确度。每个类别中具有最小3D姿势误差的条目以粗体显示。我们的RPSM优于所有的比较国家的最先进的方法由一个明确的保证金。获取更多样本进行训练。评价指标。在[41,9,30]之后,我们采用流行的3D姿态误差度量[28],该度量计算所有关节和所有帧上的欧几里得误差直到平移。在下面的部分中,我们将报告所有实验比较和分析的3D姿态误差度量。实施详情:我们的RPSM是使用Torch7 [7]深度学习工具箱实现的。 我们遵循[12]来构建LSTM存储单元,只是省略了单元和门之间的窥视孔连接。每个阶段的损失权重αk都设置为1。总的来说,我们所有的实验都进行了三个阶段的改进,因为使用更多的阶段只观察到不明显的性能差异。在[41,20]之后,输入图像在人周围被裁剪。为了保持人的比例,我们根据数据集提供的边界框从图像中裁剪出主题的正方形图像。然后我们调整边界框内的图像区域的将图像转换为368×368分辨率,然后再输入网络。此外,我们仅通过随机增加训练数据,在[0.9,1.1]中缩放因子。 请注意,为了将关节点的绝对位置转换为[0,1]范围,应用了最大-最小归一化策略。在测试阶段,将预测的3D位姿转换为原始比例尺根据训练帧中姿态的最大值和最小值,对训练帧中的姿态进行分类。在训练过程中,Xavier初始化方法[11]用于初始化RPSM的权重衰减被设置为1e−4,并且使用1e−3在配备12GB内存的NVIDIA GeForceGTX TITAN X上在测试阶段,处理一幅图像大约需要50 ms。5.2. 与最先进方法的与 Human3.6M 的 比 较 : 我 们 将 我 们 的 RPSM 与Human3.6M [16]和HumanEva-I [25]数据集上的最先进方法进行了比较。这些最先进的方法是LinKDE [16],Tekin等人。[30],Liet al. [20],Zhouet al. [41](基于CNN),Zhouet al. [40],Duet al. [9]和Sanzariet al. [24]第10段。结果总结在表2中。 如可以 从表2中可以看出,我们提出的RPSM模型显著优于所有比较方法,平均误差 与 [40] 相 比 减 少 了 31.85% , 与 [24] 相 比 减 少 了21.52%。注意,一些比较的方法,[20,30,9,41,40] , 也 采 用 深 度 学 习 技 术 。 尤 其 是 Zhouet al.[40]RPSM实现的这种卓越性能表明,利用多个816图4:对Human3.6M数据集进行定性比较的实证研究。从侧视图中可视化了3D姿态,还描绘了相机Zhou等[41],Zhouet al.[40],我们的RPSM和地面实况分别从左到右示出我们的RPSM实现了更准确的估计比周等人的方法。[41]Zhouet al. [40]。最好的颜色。方法方向讨论饮食问候电话 购买姿势Sitting SitDown Smoke Photo等 WalkDog WalkPairAvg.RPSM-1级62.8974.7467.86 73.33 79.76 67.4876.19100.21 148.0375.95 100.26 75.82 58.0378.7462.9380.15RPSM-2级58.9668.5065.64 68.18 78.41 62.8267.04100.63 136.7273.3596.8767.9651.6477.2759.3175.55RPSM-3级58.0268.1663.25 65.77 75.26 61.1665.7198.65127.6870.3793.0568.1750.6372.9457.7473.10RPSM 1级序列170.4683.3676.46 80.96 88.14 76.0092.39116.62 163.1485.87 111.46 83.60 65.3895.1073.5490.83RPSM 3阶段序列161.9475.8465.25 71.28 79.39 67.7377.88105.47 153.5876.01 101.84 74.1285.6364.7881.12RPSM 1级序列562.8974.7467.86 73.33 79.76 67.4876.19100.21 148.0375.95 100.26 75.82 58.0378.7462.9380.15RPSM 1级序列1066.7376.8273.57 76.56 84.80 70.5775.44110.70 143.1080.35 103.61 75.66 58.5280.5566.1982.88RPSM-3级无MPII91.58109.35 93.28 98.52 102.16 93.87118.15 134.94190.6109.39 101.82 88.69110.14105.56111.3RPSM-3级共享58.3666.5263.37 64.572.22 59.3963.990.73129.9968.2693.86 65.22 48.4770.5356.2671.44表4:前五行:不同细化阶段数的实证研究。中间两排:通过不同序列长度的经验比较(即,1、5、10)。请注意,结果由单级RPSM评估下面两行:RPSM变体的性能。对于每个类别,Human3.6m数据集上具有最小3D姿势误差的条目是粗体的。阶段RPSM在捕获图像中复杂上下文特征和学习图像序列中的时间依赖性方面是简单而强大的,这对于估计3D姿态序列是至关重要的HumanEva-I的比较:在这个数据集上,我们将我们的RPSM与依赖于几种单独处理步骤的方法进行了比较。这些方法包括判别回归[3,18],基于2D姿态检测器[28,27,33,38],基于CNN的回归[30]。为了公平的计算,我们的RPSM还预测了由14个关节组成的3D姿态,即,左/右肩、肘、腕、左/右髋膝、踝、头顶和颈部,如[38]。表3说明了我们的RPSM与比较方法之间的性能比较很明显,我们的RPSM模型获得了比比较方法低得多的3D位姿误差,并在所有步行,慢跑和拳击序列上实现了新的最先进的性能。此外,在时间效率方面,与[3](每幅图像大约需要3分钟)和[38](每幅图像需要25秒以上)年龄,我们的RPSM模型每个图像仅花费50毫秒。这证明了我们提出的RPSM模型的有效性和效率。5.3. 成分分析多阶段优化的有效性:为了验证所提出的RPSM的多阶段细化的优越性,我们进行了以下实验:采用一、二、三个阶段进行人体姿态估计,并将它们表示为“RPSM-1-阶段”、“RPSM-2-阶段”和“RPSM-3-阶段”。从定性和定量方面对Human3.6M数据集进行评价。表4的前五行示出了使用不同数量的级来估计3D姿态误差的比较。从表4中可以看出,性能在3个阶段内单调增加。此外,表中还比较了4(分别表示为如表所示。4、RPSM-3级seq 1已实现817图5:在Human3.6M数据集上不同阶段细化的定性比较。估计的3D骨架被重新投影到图像中,并从侧视图(图像旁边)显示它们自己。从左到右的数字分别对应于由RPSM的第一阶段、第二阶段、第三阶段和地面实况生成的估计的3D姿态。我们可以观察到,预测的人类3D关节随着多阶段顺序学习而逐渐校正。最好用彩色观看。比RPSM-1阶段序列1低得多的3D姿态误差(81.12 vs90.83)。这验证了即使在忽略时间信息的情况下,多阶段精化的有效性.由于利用了更丰富的上下文信息,我们的RPSM可以学习更强大的2D姿态感知特征和3D姿态序列的表示。三个不同阶段的示例性视觉结果如图所示。五、可以看出,通过执行多阶段细化来逐步校正联合预测。预训练和体重分担:为了在没有预训练的情况下评估性能,我们仅采用Hu- man3.6m 2D姿态数据和注释来训练2D姿态模块。我们将此版本的RPSM表示为“RPSM- 3-stage no MPII”。结果报告在表的底部两行中。4.第一章从桌子上可以看出。4、无MPII的RPSM-3级性能比RPSM-3级差。这可能是由于Human3.6m 2D姿态数据与MPII数据集相结合,对于CNN来说学习丰富的2D姿态呈现的挑战性较小。请注意,根据表的底行。4,在2D姿态模块中共享所有层的性能(表示为“RPSM-3阶段-共享”)略好于部分共享的性能培训时间将大大增加。因此,我们决定选择部分共享的方式。时间依赖性的重要性:为了研究结合时间依赖性的有效性,我们还使用不同的剪辑长度来评估我们的单阶段RPSM的变体,即,1、5和10,命名为注意,当C等于1时,不考虑时间信息,因此递归LSTM层在3D中,姿态误差被替换为具有与LSTM相同单元的全连接层。表4报告了使用不同结扎夹长度的结果。从比较结果中可以看出时间相关性的重要性。考虑时间依赖性方法(即,RPSM 1stage seq 5和RPSM 1stageseq 10)均以明显的裕度优于RPSM 1stage seq 1(Hu-man 3.6M数据集上的平均联合误差减少约10%)。RPSM 1stage seq 5和RPSM 1stage seq 10之间的微小性能差异可能是由于时间不一致性的影响,这在长剪辑中发生的概率更高。此外,还应该注意的是,6. 结论我 们 提 出 了 一 种 新 的 递 归 三 维 姿 态 序 列 机(RPSM)估计三维人体姿态从序列的单目图像。通过所提出的具有2D姿态、特征自适应和3D姿态递归模块的统一架构,我们的RPSM可以学习以隐式和全面的方式递归地集成丰富的时空长距离依赖性。我们还提出了采用多个连续的阶段,通过3D姿态几何信息来细化估计结果。在两个公开的3D人体姿态数据集上的广泛评估验证了我们的RPSM的有效性和优越性能。在未来的工作中,我们将扩展所提出的框架工作,其他基于序列的人类为中心的分析,如人类的行动和活动识别。818引用[1] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。5[2] M. Andriluka、S.罗斯和B。席勒单目3d位姿估计与侦测追踪。CVPR,2010。2[3] L. Bo和C.斯明奇塞斯库结构预测的孪生高斯过程。IJCV,87(1-2):28-52,2010年。六、七[4] F. Bogo、A.金泽角放大图片,P. Gehler,J. Romero和M.J.布莱克。保持它SMPL:由单一影像自动估计三维人体位姿与形状。在ECCV,2016年。2[5] X. Bur gos-Artizzu,D. Hall,P. Perona和P. 多尔拉。我在空间和时间上都能做出姿态估计。InBMVC,2013. 2[6] L. Chen,Y. Zhou和D. M.阿超视讯浏览-线上视讯点播服务使用者行为之研究。在国际计算机通信和网络会议(IC-CCN),2013年。1[7] R. Collobert,K. Kavukcuoglu和C.法拉比特Torch7:类似matlab的机器学习环境。在BigLearn中,NIPS研讨会,编号EPFL-CONF-192376,2011年。6[8] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR,2015。5[9] Y.杜,Y.黄,Y. Liu,F.汉,Y。桂,智-地Wang,M. S.Kankanhalli和W.耿。基于单目图像序列和高度图的无标记三维人体运动捕捉在ECCV,2016年。三五六七[10] A.错误。人机交互网络心理学导论,2016年,第241页。1[11] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。在Aistats,第9卷,第249-256页,2010中。6[12] A. Graves和N.贾特利用递归神经网络实现端到端语音识别。 InICML,2014. 五、六[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。7[14] C. Held,J.Krumm,P.Markel和R.P. 申克智能视频监控。Computer,3(45):83-84,2012. 1[15] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation,9(8):1735-1780,1997. 5[16] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m:大规模数据集和自然环境中三维人体感知的预测方法PAMI,36(7):1325二、五、六[17] D. Kingma和J. BA. Adam:一种随机优化方法。计算机科学,2014年。5[18] I. Kostrikov和J.胆从图像估计三维人体姿态的深度扫描回归森林。InBMVC,2014. 六、七[19] S. Li和A. B.陈基于深度卷积神经网络的单目图像三维人体姿态估计。InACCV,2014. 3[20] S. Li,W. Zhang和A. B.陈使用深度网络进行最大间隔结构化学习,用于3d人体姿势估计。在ICCV,2015年。二三五六七[21] I.拉德万A. Dhall和R.格克自
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功