没有合适的资源?快使用搜索试试~ 我知道了~
基于联合相关性的传播LSTM网络用于三维人体姿态估计
传播LSTM:基于联合相关性的三维位姿估计Kenggoh Lee,Inwoong Lee,and Sanghoon Lee()延世大学{kasinamooth,mayddb100,slee}@ yonsei.ac.kr抽象。 我们提出了一种新的3D姿态估计方法的基础上联合相互依赖(JI)获取3D关节从人体姿态的RGB图像。JI结合了基于关节的结构连接性的身体部位,以在我们的方法上学习人类姿势的高度空间相关性为了实现这个目标,我们提出了一种新的基于长短期记忆(LSTM)的深度学习架构,称为传播LSTM网络(p-LSTM),其中每个LSTM顺序连接,以通过学习内在JI来重建从质心到边缘关节的3D深度在第一个LSTM中,创建3D姿态的种子关节,并通过连接的LSTM将其重建为全身关节利用p-LSTM,我们实现了约11.2%的更高的准确性比国家的最先进的方法上最大的公开可用的数据库。重要的是,我们证明了JI大大减少了身体边缘的结构误差,从而导致了显着的改善。关 键 词 : 3D 人 体 姿 态 估 计 , 联 合 相 互 依 赖 ( JI ) , 长 短 期 记 忆(LSTM),传播LSTM网络(p-LSTM)。1介绍人体姿态估计在计算机视觉研究领域中得到了广泛的研究[1- 6 ]。在一般情况下,人类姿态估计可以被划分为2D和3D姿态估计。前者关注于从图像获得人体2D关节位置,而后者旨在通过附加地推断人体深度信息来从图像 由于各种应用需要人的深度信息,包括人的运动捕捉、虚拟训练、增强现实、康复和3D图形化身,因此3D姿态估计已经在该区域中被更好地实现[7- 12]。早期的3D姿态估计方法尝试使用han和craftefeatures将2D图像映射到3D姿态[13- 16 ]。随着设计技术的发展,[17- 19 ]中的许多方法已经应用于直接从图像中获取3D姿态而无需手工制作的特征。然而,这些直接方法将输入限制为仅在图中或在或在视图中捕获的3D姿态数据[20,21]。 另外,[4,22- 30]中的所有人都使用从广义环境导出的2D姿态,因此他们的网络已经显示出优于直接3D姿态估计方法的性能。然而,尽管如此,2K. Lee等人这些工作中的大多数忽略了称为结构连接的身体的关节依赖性,这可能导致姿态估计性能的下降在[31]中,作者将全身水平的结构连接性应用于网络的成本函数。然而,基于全身的结构连接性使得所有关节紧密耦合,因此难以反映关于关节相互依赖性的实际属性。例如,如果一个人移动右腕,右肘和肩膀被触发移动,但左臂的关节可能不受换句话说,体内部分的关节基于这一观察,我们试图将这种联合相互依赖性与联合连接性结合嵌入到我们的模型中,这将使更容易更准确地估计3D姿态。图1:3D姿态估计方法的概念卷积神经网络从输入RGB视频中提取2D姿态,该2D姿态通过p-LSTM经由隐式地推断深度线索而变成3D姿态在本文中,我们提出了一种新的三维姿态估计方法,反映身体部位的结构连接作为先验知识。图1给出了我们模型的总体概述。首先,通过采用2D姿态估计方法[2]从单目RGB图像提取2D姿态。其次,使用一种名为传播长短期记忆网络(p-LSTM)的网络来估计3D姿态,该网络基于2D姿态来估计深度信息为了将先验知识反映到p-LSTM中,我们串联了几个LSTM网络。这些连接的网络在传送被称为姿态深度线索的深度信息的同时逐渐地详细描述3D最终,p-LSTM的最后一个LSTM网络构建了整个身体的3D姿态。我们的贡献总结如下:(1)与传统的基于人体实际行为的关节依赖性模型不同,我们利用基于人体部位的结构连接性建立了一个新的模型。特别是,为了进一步细化的3D姿态,我们采用了多级架构在我们的方法。(2)我们的方法的有效性通过在最大的3D姿态数据集上的广泛实验进行了验证[21]。它显著地实现了估计精度提高11.2%,与竞争力的速度相比最先进的方法传播LSTM:基于联合相关性的3D位姿估计32相关工作从图像中估计深度是计算机视觉中最经典和最具挑战性的问题之一。许多研究人员已经尝试重建和分析3D空间闭合以恢复不同区域中的所有特征,如[10,32- 36]。 3D人体姿态估计必须对诸如外观、光和运动的视觉特性具有鲁棒性。早期的方法使用各种不变特征重建人体姿势,例如轮廓[13],形状[14],SIFT [15],HOG [16]。 由于深度学习技术可以从图像中自动提取不变特征,许多研究人员已经将该技术引入3D姿态估计[17- 19]。 Li等. [17]应用一种基于神经网络k(C_NN)的编码算法来直接从图像估计3D姿态。Grinciunaite等人。 [18]在连续帧上利用3D-CNN来获得3D姿势。尽管3D-CNN可以从多个帧获得3D姿态,但复杂3D姿态的估计仍然没有表现出良好的性能。 Pavlakos等人 [19]将现有的2D姿态估计方法[2]扩展到3D。作者使用由粗到细的策略来处理体积表示的维度增加,如3D热图。然而,由于缺乏GT 3D姿态数据,使用深度学习的直接方法在泛化方面存在为了有效地增强较差的性能,一些方法使用2D姿态作为新的变量[4,22- 27,29,30 ]。这是因为与传统特征相比,它以高精度将2D姿态此外,目前,由于丰富的数据库,可以获得可靠的2D位姿。许多研究都关注于从二维到三维的姿态提升维度。Zhou等人。 [4]根据2D姿态和稀疏驱动的3D几何先验之间的关系制定了一个优化问题,并通过使用期望最大化算法预测3D姿态Chen等人。 [22]和Yasin等人。 [23]利用最近邻搜索方法将估计的2D姿势与来自大型姿势库的3D姿势相匹配。Tome等人 [24]提出了一种迭代方法,该方法由2D姿态方法[1]和概率3D姿态模型组成然而,这些系统,这是基于优化和数据检索,需要很长的时间来获得三维位姿,甚至需要归一化的输入数据。作为另一种方法,在[25- 27 ]中,当从2D姿态估计3D姿态时,管理员使用专用的姿态模型来从数据学习隐式姿态结构。Tekin等人。 [25]通过使用CNN从图像中提取2D姿态,并通过引入用于2D到3D估计的自动编码器来估计3D姿态这种方法通过在结构上将自动编码器连接到CNN来简单地利用现有的2D姿态估计方法。Lin等人 [26]使用[1]中的方法从输入图像中提取2D姿态。此外,利用LSTM从提取的2D姿态中获得相应的3D姿态。Martinez等人 [27]提出了一个简单的模型,通过使用几个完全连接的网络来快速工作。由于使用2D姿态作为不变特征,3D姿态估计性能得到了极大的提高然而,这些方法旨在将2D和3D姿态之间的关系自动学习到深度学习模型中,而无需3D人类姿态的任何先验知识。4K. Lee等人一些作者手动地利用先验知识,诸如运动学模型、身体模型和结构原理[5,29- 31]。这种应用支持我们的信念,即当姿态的维度从2D增加到3D时,先验知识是有效训练深度学习模型的有用信息。Zhou等人。 [5]将运动模型层嵌入CNN。然而,由于模型的非线性,参数难以设置。此外,该方法需要严格的假设,如固定的骨长度和已知的规模。Bogo等人 [30]提出了一种优化过程,以将[ 3 ]中估计的2D姿势拟合到3D人体模型[37]中。 Moreno等人 [29]将输入2D姿态从基于关节位置的向量转换为基于关节的欧几里得距离的N × N矩阵。 Sun等人 [31]将成本函数从每关节误差改变为每骨骼(肢体)误差,然而,据我们所知,该方法[ 31 ]的性能目前在姿态估计误差方面最高。然而,传统的方法忽略了从人体的空间和时间行为观察到的关节的相互依赖性的角度来看的重要概念也就是说,[29,31]中的作者已经利用全身水平的结构连接性作为先验知识。与之前的工作不同,我们的新颖之处在于将基于身体部位的关节连接嵌入到深度学习结构中,以更准确地重建3D姿态。3三维位姿估计方法3.1系统架构图2说明了我们的方法的系统架构该方法由两个深度学习模型组成,分别用于2D和2D到3D姿态估计。CNN从图1中的输入RGB图像中提取2D姿态作为特征。第2段(b)分段。然后,由9个p-LSTM串联组成的所提出的p-LSTM进行源自提取的2D姿态的2D到3D姿态估计,如图1B所示。第2段(d)分段。第一个3D姿态在全连接层(FC)中构建。最后,3D姿态通过2D到3D姿态估计模块的多级架构被进一步细化,2(g)和(h)。3.2问题陈述我们的方法的主要目的是从一个给定的2D输入图像估计的3D人体姿态信息。为此,需要大量的图像和对应的3D GT姿态数据。通常,2D人体姿势给出了比原始图像中捕获的人体姿势更抽象的人体姿势表示。因此,借助于2D姿态的2D到3D姿态估计在3D姿态形成时是有效的[4,22- 27,29 - 31]。 我们采用了[2]中的二维姿态估计方法,如图1所示。第2段(b)分段。在本文中,我们的方法的目的是学习一个映射函数f*:R2J→R3J通过添加一个深度维度的2D姿态与J关节。映射函数使用2D姿态X的2J个向量作为输入,并且使用3D姿态Y的3J个向量作为输出,其中分别X =[xi,···,xi]和Y =[yi,···,yi]。我们的方法的主要目标是设计函数f作为深度回归。传播LSTM:基于联合相关性的3D位姿估计5图2:3D姿态估计的系统架构。(a)输入RGB图像。(b)CNN从输入数据中提取2D姿态。(c)从(b)提取的2D姿态。(d)用于从(c)提取深度信息的所提出的p-LSTM。(e)p-LSTM的一个单元。(f)经由p-LSTM根据基于身体部位的关节的结构连接性来构建2D到3D姿势的过程。(g)多级架构。(h)3D姿势的输出。(Best以彩色和缩放方式显示。)3.3传播LSTM网络:p-LSTM我们提出了一种基于LSTM的新的深度学习模型,用于从2D姿态估计3D姿态,如图所示第2段(d)分段。通常,仅使用单帧2D图像来估计3D姿态存在限制如果人体姿态中存在自遮挡的情况,即使是人也很难正确地回答姿态,这会显着降低估计性能。另一方面,如果利用多帧图像,则应当更容易处理自遮挡问题。因此,LSTM在具有时间相关特征的应用程序中表现出更好的性能[26,38]。 Lin等人 [26]仅考虑了输入帧的时间相关性,但所提出的方法包括空间相关性以及通过连接多个LSTM网络的时间相关性。也就是说,为了学习人体姿势的空间相关性,每个LSTM网络被顺序地连接,以在每个LSTM网络中构建人体结构。一种在时域上根据自然人类识别的中心到外围维度扩展的方式。图图2(e)示出了所提出的p-LSTM,其由一个LSTM网络和一个深度融合层组成从2D姿势,第一个p-LSTM仅构建身体的质心部分的3D关节,其用作种子关节。每个p-LSTM构建其3D姿态的一部分,同时将它们彼此连接。整个3D姿态以图中所示的顺序构造2(f)。然后,将估计的3D关节合并到第一实施例的深度融合层中的输入2D姿态中。6K. Lee等人p-LSTM合并的信息沿着下一个顺序连接的LSTM网络传播。通过传播合并的信息来创建最终的3D姿态,该合并的信息被称为合并的信息姿态深度线索。最后,传播的姿势深度线索经由FC回归到整个3D姿势。为了进一步细化3D姿态,我们在p-LSTM中采用了类似于先前工作的多级架构[1,24,26,39]。伪代码A1示出了用于p-LSTM的算法的过程。A1:p-LSTM变量k:p-LSTMK:p-LSTMYk:第k个LSTM网络的输出深度k:第k深度融合层FC:完全连接层YPred:3D姿势的输出输入:X(2D姿态)输出:Y(3D姿态)1:对于k=1至K2: if(k== l)3:Yk=LSTMk(X)4:Xk=Depthk(Yk,X)5: else6:Yk=LSTMk(Xk−1)7:Xk=Depthk(Yk,Xk−1)8:returnYPred=FC(X( K))安装连接:为了将关节相互依赖性(JI)反映到我们的方法中,基于身体部位的结构连接性被仔细处理。身体部位的运动导致其连接的身体部位的运动依赖性,但是身体的其他部位可以独立地运动。例如,右肘的运动触发其连接的手腕和肩膀的运动,但另一侧(左部分)可能不受影响。换句话说,即使整个身体在物理上彼此连接,每个身体部分的运动也是独立的。与以前的研究[29,31]不同,这些研究只是简单地解释了身体的先验知识,我们试图将基于身体部位的结构连接嵌入到深度学习结构中。由于每个身体部分具有不同的特征(运动范围),因此将其分解为几 个 LSTM 块 , 而 不 是 全 身 推断。此外,每个p-LSTM根据人体结构彼此链接以引入依赖性,因为每个身体源自全身的部分间接地相互影响。当要估计的3D姿态基于14个关节时,如图1B所示,使用9个p-LSTM来表示人体结构。2(f)。第一p-LSTM在身体的中心部分的3D关节中起作用,其中该关节被之后,从第一个p-LSTM生成第一个输出,它成为下一个p-LSTM的输入。在第二个p-LSTM中,根据人体结构构造下一个相邻部分。以这种方式,连接9个p-LSTM,并且每个输出沿着连接传播到其他部分。传播LSTM:基于联合相关性的3D位姿估计7姿态深度提示:从第二个p-LSTM到最后一个p-LSTM,p-LSTM必须完全依赖于前一个p-LSTM的输出,因为初始2D姿态信息在第一个p-LSTM之后消失当估计3D姿态时,2D姿态的空间相关性可能是有用的由于人类能够识别姿态的结构连通性(空间相关性),因此人类可以根据二维关节位置的变化很容易地重建三维姿态例如,当腕关节和肘关节的2D位置彼此接近时,两个关节的3D位置沿着深度轴移动事实上,由腕关节和肘关节连接的肢体在长度上在结构上是不变的为了防止初始2D姿态消失,每个p-LSTM使用输入2D姿态作为辅助数据,并将其与深度融合层中自己的输出合并。在所提出的方法中,通过新生成的输入特征逐渐估计深度信息,并学习人体的空间相关性因此,合并的辅助数据和输入数据被称为姿态深度线索。换句话说,通过在深度融合层中集成2D与3D姿态来创建姿态深度线索,如图1B所示2(e)和A1第4和第7可以根据2D和3D姿势如何合并来创建不同类型的姿势深度线索。1)消除和添加方法:它删除2D姿态并且仅使用一些估计的3D姿态(没有辅助数据)。2)串联方法:它简单地连接2D和3D姿态。3)更换方法:它用一些估计3D姿态替换一些2D姿态。图图3详细描绘了三个姿势深度线索建议的2D到3D图3:不同类型的姿势深度线索。(最佳变焦效果姿态估计方法由9个p-LSTM组成,如图所示图2(d)中所示的深度融合层,并且为p-LSTM的每个深度融合层创建姿态深度线索通过p-LSTM,输入姿势深度线索逐渐改变。图2(f)示出了最终姿态深度线索变为3D姿态的过程。虽然所提出的2D到3D姿态方法连接到多个LSTM网络,但该方法的学习很简单,因为它由端到端网络组成。为了训练所提出的p-LSTM,基本损失函数可以表示为L3D(Ypred,YGT)=1ΣJ|J| J(Ypred-YGT)2,(1)8K. Lee等人GTK其中Ypred和YGT分别是预测的,并且GT是3D姿态3.4训练和测试对于训练,我们用于3D姿态估计的方法的最终损失函数是ΣSΣT1ΣJΣKL3D(Ypred,YGT)=αs|J|stjt,s预测 -Y(t,s)2+λK(ws)2,(2)其中S是所提出的方法的阶段数,T是输入图像帧的长度,αs是每个阶段的权重,λ是正则化参数,wk是第k个LSTM网络的权重值,K是LSTM网络的数量当S大于2时,意味着重复该方法S倍。最终的损失函数由GT 3D关节和预测的3D关节的欧几里得距离组成,并且为了训练稳定性而添加正则化项。我们的方法是使用自适应次梯度方法(Adagrad优化器)[40]学习的在测试部分,输入图像依次进入,我们提出的模型处理它来估计3D姿态。4实验4.1实现细节为了实现我们的方法,我们使用了Tensorflow [41],这是一个开源的深度学习库。我们采用传统的CNN [2]进行2D姿态估计。2D姿势模型在 2D 姿 势 数 据 集 [42] 上 进 行 预 训 练 , 并 在 Human3.6M [21] 或HumanEVA-I [20]数据集上进行微调。p-LSTM的一个阶段由9个LSTM块、9个深度融合层和2个FC组成。一个LSTM块由一个具有100个隐藏单元的LSTM单元和一个具有150个隐藏单元的FC组成此外,在p-LSTM之后添加了具有45个隐藏单元的2个FC。在第一和第二FC中,脱落的保持概率被设定为0.9和0.6。最后,为了从RGB图像中估计3D人体姿势,我们将所有上述网络统一为端到端网络结构。在深度学习模型的训练过程中,模型的参数被初始化为均匀分布[-0.1,0.1]。衰减参数和学习率分别设置为1e−4和1e−2阶段失重αs设定为1。提出的模 型参 数 总 数为 3100万 , 其中 3000万 来自 2D零 件, 100万 来自 p-LSTM。我们花了大约2天的时间在12GB内存的GeForce TITAN X上训练了10,000个epoch训练批次大小设置为64。所提出的方法的测试时间需要约33.6毫秒每个图像(RGB到2D和2D到3D方法需要约33毫秒和0.6毫秒每个图像,分别)。(Y传播LSTM:基于联合相关性的3D位姿估计94.2数据集和评估对于性能评估,我们使用了两个公共数据集,即HumanEva-I [20]和Human3.6M [21],它们在3D人体姿态估计研究中最广泛地用于性能比较。Human3.6M:Human3.6M数据集由360万张图像和3D人体姿势组成。此外,从具有不同视图的4个相机记录数据集。3D人体姿态数据由11个主体和15个动作组成。PREVIousWorks[5,18,19,22- 24,26 - 29,31,43,44 ]根据若干不同的协议对该值进行了规范。在本文中,我们遵循2个主要协议用于性能比较。方案1用于培训5例受试者(S1、S5、S6、S7和S8)和测试2例受试者(S9和S11)。单独进行培训和测试,并使用所有摄像机视图。在[5,18,19,22,24,26- 29,31,44]中使用该方案。初始视频从50 fps降低到10 fps。方案2用于训练6名受试者(S1、S5、S6、S7、S8、S9、S10、S11、S12、S13、S14、S16、S18、S19、S1和S9)和测试1名受试者(S11)。原始视频通过keepingevery64h帧进行下采样。该方法已在[2 2- 2 4,2 9,3 1,4 3 ]中得到应用。 在预测的3D姿态和GT 3D姿态与Procrustes方法[ 45 ]中使用的刚性变换对齐后,计算误差。HumanEva-I:HumanEva-I数据集由RGB视频序列和3D人体姿势组成。使用具有不同视图的3个相机记录RGB视频序列3D人体姿势数据由具有6个动作(步行、慢跑、拳击等)的3个主体组成。我们使用训练数据集训练了所提出的方法,并使用样本中的验证数据集测试了该方法[23,26,27,46- 49]。在该实验中,我们发现了一些类似的结果,其中刚性对准被执行作为后处理。评价指标:我们使用平均每关节位置误差(MPJPE)[21]作为评估度量,这是3D人体姿势估计的最广泛使用的性能指标。MPJPE简单地从GT和预测结果之间的3D欧氏距离计算。测量以毫米为单位的误差,并使用红外传感器获得GT值。4.3与最新方法的Human3.6M上的性能比较:在表1和2中,符号S和T分别表示级数和输入帧数。我们比较了所提出的方法的性能与最先进的以前的工作在Human3.6M数据集。在表1和2的所有提出的方法中,使用姿态深度线索的替换类型。表1和表2示出了平均3D接头误差(mm)相对于方案1和2中的GT 3D关节。为了进行公平的比较,表1分别显示了影响性能的因素(如输入数据的格式或后处理的使用)的结果。10K. Lee等人方法(方案1)直接. 讨论饮食问候电话照片姿势购买。坐着D。Smoke Wait Walk.WalkT.Avg.Chen,CVPR89.897.589.9107.8 107.3 139.1 93.5 136.0 133.1 240.1 106.6 106.2 87.0114.090.5114.1Zhou,ECCV91.8102.496.998.7 113.3 125.2 90.093.8132.1 158.9 106.9 94.4 79.0126.098.9107.2[ 24 ]第二十四话64.973.476.886.486.2110.6 68.974.7110.1 173.9 84.985.7 71.386.273.188.3帕夫拉科斯,CVPR67.371.966.769.071.976.9 65.068.383.696.571.765.8 59.174.863.271.9马丁内斯,ICCV51.856.258.159.069.578.4 55.258.174.094.662.359.1 49.565.152.462.9太阳,ICCV52.854.854.254.361.8 67.2 53.153.671.786.761.5 53.4 47.161.653.459.1我们的p-LSTM(S=3,T=1)43.851.748.8 53.1 52.274.9 52.7 44.656.9 74.3 56.766.4 47.568.445.655.8Zhou,ICCV54.860.758.271.462.0 65.5 53.855.575.2 111.5 64.166.0 63.251.455.364.9马丁内斯,ICCV39.543.246.447.051.056.0 41.4 40.656.569.4 49.245.0 38.049.543.147.7我们的p-LSTM(S=3,T=1)*38.039.346.3 44.4 49.0 55.1 40.2 41.153.2 68.951.0 39.1 33.956.438.546.2Moreno,CVPR53.550.565.762.456.980.8 60.650.855.979.663.661.8 59.468.562.162.1Martinez,ICCV37.744.440.342.148.254.9 44.442.154.658.045.146.4 36.447.640.445.5我们的p-LSTM(S=3,T=1)◦34.639.737.240.945.650.5 42.039.447.348.139.538.0 31.941.537.240.9Grinciunaite,ECCV91899410210515199112151239109106101141106119Lin,CVPR58.068.263.365.875.393.1 61.265.798.7 127.7 70.468.2 50.672.957.773.1Hossain,Thesis [44]†44.246.752.349.359.9 59.4 47.5 46.259.9 65.655.850.4 43.552.345.151.9我们的p-LSTM(S=3,T=3)†40.249.247.852.6 50.175.0 50.2 43.055.873.9 54.155.6 43.358.243.352.8我们的p-LSTM(S=3,T=3)†,◦32.136.634.337.844.549.9 40.936.244.145.635.335.9 30.337.635.538.4表1:根据方案1,与用于人3.6M的现有技术方法的比较标记 *、*和*分别指示使用刚性对准作为后处理、GT 2D姿态作为输入以及多个帧作为输入的方法。在表1中,第一子表(行1至7)示出了单帧的性能比较。与[31]相比,我们的结果实现了约3.3mm(5.9%)的性能改进。下一个子表是通过使用刚性对准进一步校准3D姿态所获得的结果。与[27]相比,我们获得了1.5mm(3.2%)的预测误差。第三子表示出了当2D GT姿态用作输入数据时的结果。在以二维姿态为特征的三维姿态估计中,该方法消除了姿态估计的影响,显示了潜在的性能2D姿态方法的估计精度。我们在[27]上实现了约4.6mm(11.2%)的增益。最后,在行14至17中示出了当使用多个帧作为输入时的性能。使用多个帧的方法可以实现鲁棒的3D姿态,以对抗噪声,例如使用时间相关性的自遮挡。详细描述了所提出的方法中多帧的影响在第4.4节中给出。我们的性能在精度方面略低于[44],但参数的数量比[44]少三倍,这使得计算速度明显更快。对于协议2,我们的方法显示方法(方案2)直接. 讨论饮食问候电话照片姿势购买。坐着D。Smoke Wait Walk.WalkT.Avg.Yasin,CVPR88.472.5108.5 110.2 97.1 142.5 81.6 107.2 119.0 170.8 108.2 86.9 92.1165.7102.0 110.1[ 43 ]第四十三话---------------88.1Chen,CVPR71.666.674.779.070.093.2 67.589.390.7 195.6 83.471.1 55.785.862.582.7Moreno,CVPR66.061.684.573.765.292.5 67.160.867.2 103.4 74.769.5 71.478.073.273.9[ 24 ]第二十四话---------------70.7太阳,ICCV42.144.345.045.451.553.0 43.241.359.373.351.044.0 38.348.044.848.3我们的p-LSTM(S=3,T=1)37.438.945.643.848.554.6 39.939.253.068.551.538.4 33.255.837.845.7我们的p-LSTM(S=3,T=3)34.935.243.242.6 46.255.0 37.6 38.850.9 67.3 48.9 35.2 31.050.734.643.4表2:根据方案2与用于人3.6M的现有技术方法的比较所有方法都使用刚性对齐作为后处理。传播LSTM:基于联合相关性的3D位姿估计11除了照片和遛狗的场景,包括使用单帧的情况下,性能最好。作者在[24,43]中仅提供了平均联合误差。将结果与[31]进行定量比较,其将性能提高约2.6mm(5%)至4.3mm(9%)。照片场景包括非常复杂的姿势,但我们的方法的性能是有竞争力的。所提出的方法优于所有国家的最先进的方法平均。协议2的平均误差低于协议1,因为基于深度学习的方法在更多样化的数据集上进行了有效的训练。从实验中,它表明,学习JI是有效的正则化的角度来看。方法步行慢跑拳击(HumanEVA-I)S1 S2 S3Avg.S1 S2 S3Avg.S1 S2 S3Avg.Radwan,CVPR75.1九十九点八九十三点八89.6 79.2 89.8 99.4 89.5- --Simo-Serra,CVPR65.1 48.6 73.5 62.4 74.2 46.6 32.2 56.7- --Kostrikov,BMVC44.0 30.9 41.7 38.9 57.2 35.0 33.3 40.3- --Tekin,CVPR37.5 25.1 49.2 37.3- --50.5 61.7 57.5 56.6Yasin,CVPR35.8 32.4 41.6 36.6 46.6 41.4 35.4 38.9- --Lin,CVPR26.5 20.7 38.0 28.4 41.0 29.7 29.1 33.2 39.457.8 61.252.8马丁内斯,CVPR19.717.446.828.0 26.9十八点二十八点六21.2- --我们的p-LSTM(S=3,T=1)18.619.930.5 23.0 25.7十六点八十七点七20.1 42.848.1 53.4 48.1表3:与用于HumanEva-I的现有技术方法的比较HumanEva-I的性能比较:由于与Human3.6M相比,该数据集操作简单,序列较少,因此也被广泛用于性能比较。为了与以前的作品进行公平的比较,我们只学习和评估了用相机1记录的数据每个LSTM网络中隐藏单元的数量结果总结于表3中。以前工作的一些结果被排除在外,因为慢跑和拳击场景没有结果。我们的结果显示了所有动作的最佳性能,并且比最先进的方法从1.1mm(5%)提高到5mm由于自遮挡作用,拳击场景的平均关节误差高于其他场景对于慢跑场景,性能改善的幅度最小。4.4消融研究(p-LSTM的影响)表4和5显示了p-LSTM通过消融测试的效果。我们的基线由一个LSTM和2个FC组成,LSTM和每个FC中的隐藏单元数分别为80和45。多级架构:为了提高所提出的方法的性能,使用了多级结构,该结构由级联的12K. Lee等人多个p-LSTM。此外,下一阶段的输入包括关联初始输入2D姿态和来自当前阶段的预测3D姿态。根据多级架构的实验结果从表4的行1至7示出。多级参数S被设置为2,这意味着p-LSTM的结构被重复两次。在这个实验中方法(方案1)直接.讨论饮食问候电话照片姿势购买。坐着D。Smoke Wait Walk. WalkT.Avg.单个LSTM(S=1,T=1)97.2109.896.595.698.4134.2 93.694.8134.6 145.2 96.7 106.5 117.1 106.9100.6 108.5单个LSTM(S=3,T=1)90.498.994.891.295.2133.9 90.491.1132.6 142.1 95.998.9 104.4 105.599.1104.3单个LSTM(S=1,T=3)91.196.293.592.495.6133.5 84.888.9131.2 139.4 94.0100.3 98.499.690.4102.0单个LSTM(S=3,T=3)86.593.490.988.792.1129.8 80.186.2127.8 135.6 92.1 88.1九十二点五93.286.897.6p-LSTM(S=1,T=1)45.054.350.657.155.877.6 56.547.058.577.358.069.250.470.648.458.4p-LSTM(S=2,T=1)44.453.149.754.653.876.8 54.945.157.376.057.6 68.0四十八点二68.945.756.9p-LSTM(S=3,T=1)43.851.748.8 53.1 52.2 74.9 52.7 44.656.9 74.3 56.7 66.4 47.568.445.655.8p-LSTM(S=3,T=3)40.249.247.8 52.6 50.1 75.0 50.2 43.055.8 73.9 54.155.643.358.243.352.8p-LSTM(S=3,T=5)41.759.060.260.858.883.5 58.454.459.486.260.469.939.666.544.860.2p-LSTM(S=3,T=10)42.567.665.369.276.390.4 63.862.579.693.964.1 76.3四十三点二73.561.968.8表4:根据方案1对人3.6M的基线和变体的结果。配 置 的 级 越 多 , 训 练 时 间 越 长 , 但 性 能 越 好 , 最 多 提 高 2.6mm(4.4%)。多阶段架构细化3D姿态,该3D姿态被初始估计,并且随着相同方法的结构被重复而被重复。图4:基线和变体在Human3.6M数据集上的定性比较。3D人体姿势分别由我们的方法的基线、阶段1、阶段2、阶段3(S= 3,T = 1)和地面实况表示。图图4和图5示出了估计的3D姿态的定性结果图4、左右图w.r.t.中心虚线、重建的3D姿态示出了多级架构的效果随着阶段数量的增加,估计的3D姿态变得更接近地面实况。这种多级结构在3D姿态估计中是非常定量和定性有效的传播LSTM:基于联合相关性的3D位姿估计13mation 图5,使用Human3.6M训练的所提出的模型估计的真实世界图像的3D姿态显示出定性令人满意的结果。图5:真实世界图像的定性结果(最佳变焦效果姿态估计中的时间相关性的影响:仅使用单帧2D图像或姿态来估计3D姿态具有局限性。如果人体姿态中存在自遮挡情况,即使是人也很难正确猜测姿态,这会显著降低估计性能。另一方面,如果利用多个帧图像或姿态,则应该更容易处理自遮挡问题。为了减少这些错误,[18,26,44]中的一些作者使用顺序帧作为其方法的输入来学习时间相关性。受[26]的启发,我们使用连续帧作为所提出方法的输入在表4中,第8至10行提供了根据输入帧的数量的性能。第9行上的结果是具有3个输入帧的最佳性能当使用10个帧作为输入时,整体性能最差,并且当使用5个帧作为输入时,仅在步行场景中示出最佳性能。由简单重复动作组成的行走场景中的性能可以通过使用更多帧来改善。实验结果表明,使用适当数量的帧有助于提高性能,而使用过多的帧则会降低性能。方法(方案1)头脖子 R shldR弯头右腕 L shld L形弯头左腕右髋R膝关节右踝左髋左膝左脚踝Avg.单个LSTM(基线)79.139.188.9103.5130.390.0105.4140.679.598.5197.875.790.1200.4108.5p-LSTM(D= l,o)65.133.483.5100.4110.187.697.4108.174.580.0117.174.380.5116.287.6p-LSTM(D=2,0)63.628.681.595.9103.880.487.3102.666.174.399.664.173.097.779.8p-LSTM(D=3,0)52.4 16.234.656.674.334.158.974.944.263.583.148.458.681.455.8p-LSTM(D=3,i)69.635.485.185.596.386.684.997.576.881.7105.876.983.1105.383.6表5:Human3.6M上的关节误差。D、o和i分别是姿势深度线索的类型、向外方向的传播和向内方向的传播。p-LSTM由3个级和1个输入帧组成。如何制作姿势深度提示:在第3.2节的姿势深度提示中,我们已经描述了姿势深度提示的类型。在表5中,行2至4示出了根据姿势深度线索的类型的每个关节的性能。消去加法(D=1)是指不使用辅助数据的纯连通p-LSTM。第二个类型是使用concate- nation方法创建的,最后一个类型是使用replacement方法创建的的14K. Lee等人结果表明,第三种类型具有最好的性能,第一种类型具有最差的性能。对于第三类型的姿势深度线索,当某个2D人类姿势被某个预期的3D人类姿势替换时,输入姿势深度线索的向量将具有恒定的大小,即使它们通过p-LSTM。该类型还包括作为辅助数据保留的2D姿态。另一方面,第一类型的姿势深度提示不使用辅助数据。该结果示出了p-LSTM在纯连接结构中的性能。该消融研究表明,辅助数据带来了约36.3%的性能提高所提出的方法。第三类型的姿势深度线索在学习人类姿势的空间相关性方面非常有效。如何设置传播方向:姿势深度线索通过p-LSTM的深度融合层创建。所创建的姿势深度线索被顺序地传播到多个连接的p-LSTM。从传播的角度来看,方向是在初始种子关节生成后确定的因此,传播姿势深度线索的方向可以被划分为向外和向内方向。向外方向是将姿势深度线索从质心部分向外传播到身体的边缘相反,向内方向是将姿势深度线索从边缘向内传播到身体的质心部分的方法实验结果由表5中的第四行和第五行结果解释。向外方向的方法性能优越由于姿势深度线索由一些估计的3D和2D姿势的组合组成,因此在身体中心处估计的3D姿势递送更稳定的姿势深度线索。5结论在这项研究中,我们提
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功