没有合适的资源?快使用搜索试试~ 我知道了~
三维人体姿态估计中的时间信息应用
利用时间信息进行三维人体姿态估计作者:James J.小英属哥伦比亚{rayat137,little}@ cs.ubc.ca抽象。 在这项工作中,我们解决的问题,三维人体姿态估计从序列的二维人体姿势。 尽管深度网络最近的成功已经导致许多用于3D姿态估计的最先进的方法端到端地训练深度网络以直接从图像进行预测,但是性能最好的方法已经显示了将3D姿态估计的任务分为两个步骤的有效性:使用最先进的2D姿态估计器从图像估计2D姿态,然后将它们映射到3D姿态估计器。D空间。 他们还表明,一组关节的低维表示(如2D位置)可以具有足够的区分性,以高精度估计3D姿态。然而,由于每个帧中的独立误差导致抖动,对各个帧的3D姿态的估计导致时间上不相干的估计。因此,在这项工作中,我们利用跨序列的2D关节位置的时间信息来估计序列的3D姿态。 我们设计了一个序列到序列网络,该网络由层规范化的LSTM单元组成,具有将输入连接到解码器侧的输出的快捷连接,并在训练期间施加时间平滑度约束。 我们发现,时间一致性的知识将Human3.6M数据集上的最佳报告结果提高了约12。2%,并帮助我们的网络在一系列图像上恢复时间一致的3D姿势,即使2D姿势检测器失败。关键词:三维人体姿态;序列对序列网络;层规范化LSTM;残余连接1介绍从单目图像或视频等2D表示中估计3D人体姿势的任务是计算机视觉和图形社区长期以来的开放研究问题。对人体姿势和肢体关节的理解对于高级计算机视觉任务(诸如人类动作或活动识别、运动分析、增强现实和虚拟现实)是重要的被认为更容易估计的人类姿势的2D表示可以用于这些任务。然而,由于遮挡和透视缩短,2D姿势可能是不明确的另外完全不同的姿势2作者:James J. 小(a)(b)第(1)款Fig. 1. (a)关节的2D位置。(b)相同2D姿态的不同3D姿态解释。蓝色点表示关节的地面真实3D位置,而黑色点表示其他可能的3D解释。所有这些3D姿态都投影到完全相同的2D姿态,这取决于将它们投影到2D平面上的相机的位置和取向由于它们如图1所示的投影方式,它们在2D中看起来是相似的人体姿势的3D表示中的深度信息使其免于这种模糊性,因此可以提高更高级别任务的性能此外,3D姿势在计算机动画中可以是非常有用的,其中人在3D中的关节姿势可以用于精确地对人的姿势和运动进行建模。然而,3D姿态估计是一个不适定的问题,因为在反向投影的对象的2D视图的3D空间保持其结构的固有的模糊性。由于人的3D姿态可以以无限数量的方式投影在2D平面上,因此从2D姿态到3D的映射不是唯一的。此外,获得3D姿态的数据集是困难且昂贵的。与用户可以通过鼠标点击手动标记关键点的2D姿势数据集不同,3D姿势数据集需要具有运动捕获传感器和相机的复杂实验室设置。因此,缺乏野外图像的运动捕捉数据集。多年来,不同的技术被用来解决这个问题的3D姿态估计。早期的方法用于集中于提取特征,这些特征对于诸如来自图像的背景场景、照明和皮肤颜色的因素是不变的,并且将它们映射到3D人体姿势[2-5]。随着深度网络的成功,最近的方法往往专注于端到端训练深度卷积神经网络(CNN),以直接从图像中估计3D姿态[6-16]。一些方法将3D姿态估计任务划分为首先使用2D姿态估计器[17,18]预测2D中的关节位置,然后将它们反向投影以估计3D关节位置[19-24]。这些结果表明了解耦3D姿态估计的任务的有效性,其中2D姿态估计器抽象图像中的复杂性。在本文中,我们也采用解耦的方法来估计三维位姿。然而,单独地预测每个帧的3D姿态可能导致视频中的抖动,因为每个帧中的错误可能导致视频中的抖动。是相互独立的因此,我们设计了一个序列对序列利用时间信息进行三维人体姿态估计3具有层规范化和递归丢弃的LSTM单元隐藏状态信息流<开始>用于解码器的指示器开始预测3D构成y(t时间t时的预测3D姿态数据流(输入/输出)编码器单元+元素智能添加解码器单元x(t来自检测器的噪声2D关节位置y(0)y(1)y(2)y(t)++++..........x(t)x(t-1)x(t-2)x(0)<开始>y(0)y(1)y(t-1)图二、我们的模型。它是一个序列到序列网络[1],在解码器侧具有剩余编码器在其最终隐藏状态中编码长度为t编码器的最终隐藏状态用于初始化解码器的隐藏状态该符号告诉解码器从编码器的最后隐藏状态开始预测3D姿态。注意,输入序列如Sutskever等人所建议的那样反转[1]的文件。解码器基本上学习在给定时间(t-1)处的3D姿态的情况下预测时间(t残差连接帮助解码器从先前时间步学习扰动。在解码器侧[25]上具有预测的快捷连接的网络[1]在给定2D姿态序列的情况下,时间上一致的3D姿态序列。我们网络的每个单元都是一个长短期记忆(LSTM)[26]单元,具有层规范化[27]和循环丢弃[28]。我们还在训练期间对预测的3D姿势施加了时间平滑度约束,以确保我们的预测在序列上是平滑的。我们的网络在Human3.6M数据集上实现了最先进的结果,将之前的最佳结果提高了约12。百分之二。我们还获得了Human3.6M数据集中每个动作类的最低误差[29]。此外,我们观察到我们的网络预测了Youtube视频上有意义的3D姿势,即使2D姿势检测器的检测非常嘈杂或毫无意义。这表明使用时间信息的有效性简而言之,我们在这项工作中的贡献是:– 设计一个高效的序列到序列网络,该网络可以为Human3.6M数据集的每个动作类实现最先进的结果[29],并且可以非常快速地训练。– 利用序列到序列网络的能力来考虑过去的事件,以预测时间上一致的3D姿势。– 在训练期间对预测的3D姿态有效地施加时间一致性约束,使得预测中的误差在序列上平滑地分布。– 仅使用先前的帧来理解时间上下文,使得其可以在线和实时地部署。4作者:James J. 小2相关工作3D姿态的表示3D人体姿态的基于模型和无模型表示在过去都已被使用最常见的基于模型的表示是由一组关节的运动树定义的骨架,由每个关节相对于其父关节的偏移和旋转参数化。几种3D姿态方法已经使用了这种表示[30,31,22,10]。其他人将3D姿势建模为基础姿势的过完备字典的稀疏线性组合[21,20,19]。然而,我们选择了3D姿态的无模型表示,其中3D姿态只是相对于根节点的一组3D关节位置,如几种最近的方法[24,23,8,9]。这种表示方法简单得多,维数也低得多。从2D关节估计3D姿态Lee和Chen [32]是第一个使用二叉决策树从给定骨骼长度的2D投影推断Jiang [33]使用2D关节位置来估计一组具有3D姿态的多个点,这是使用Taylor的算法[ 34]并且使用Gupta等人[35]以及Chen和Ramanan [36]也使用了这种使用检测到的2D姿势来查询示例姿势的大型数据库以找到最近的最近邻居3D姿势的想法。在给定2D姿态的情况下估计3D关节位置的另一种常见方法是将相机姿态可变性与人体的固有变形分离,后者通过从运动捕捉数据的大型数据库学习基础3D姿态的过完备字典来建模[19,20,22,21,37]。一个有效的3D姿态定义的稀疏的线性组合的基地,并通过使用表示相机外部参数的变换矩阵变换的点。Moreno-Nouguer [23]使用2D关节的成对距离矩阵来学习3D关节的距离矩阵,他们发现该距离矩阵在与地面真实3D的刚性相似性变换之前是不变的,并使用具有姿态先验的多维缩放(MDS)来排除模糊性。Martinez等人[24]设计了一个全连接网络,每两个线性层有一个快捷连接,以估计相对于相机坐标空间中根节点的3D关节位置。随着深度网络的成功,许多人已经设计了可以端到端训练的网络,以直接从图像预测3D姿势[7,8,6,14,9,15,10,38Li等人[8]和Park等。[14]设计CNN来联合预测2D和3D姿势。梅塔等人[9]孙文,孙文。[15]使用迁移学习将2D人体姿势估计的知识转移到3D姿势估计的任务中。Pavlakos等人[7]扩展了最初设计用于预测每个关节的2D热图的堆叠沙漏网络[18],使其预测3D体积热图。Tome等人。[40]还扩展了称为卷积姿态机(CPM)[17]的 2D姿态估计器,使其预测3D姿态。Rogesz和Schmid [39]和Varol等人。[38]使用合成图像和训练的CNN来增强训练数据,以预测3D姿势利用时间信息进行三维人体姿态估计5from real真实images图片. Sun等人。[15]设计了一个统一的网络,可以在给定图像的同时回归2D和3D姿势。因此,在训练时间期间,不具有任何地面实况3D姿态的野外图像可以与具有地面实况3D姿态的数据Fang等人使用了利用野外图像来学习姿势结构的类似想法。[41]。他们学习了一种姿势语法,可以对可能的人类姿势配置进行编码。使用时间信息由于单独估计每个帧的姿态Andriluka等人[42]使用通过检测的跟踪来关联在每个帧中单独检测到的2D姿态,并使用它们来检索3D姿态。Tekin等人[43]使用CNN首先对齐连续帧的边界框,使得图像中的人始终处于框的中心,然后在时空体积上密集地提取3DHOG特征,从该时空体积中,它们回归中心帧的3D姿态。梅塔等人[11]实现了用于3D姿态估计的实时系统,该系统应用来自先前帧的跨2D和3D姿态的时间滤波来预测时间上一致的3D姿态。Lin等人[13]使用LSTM执行多阶段顺序细化,以使用先前预测的2D姿态表示和3D姿态来预测3D姿态序列。我们专注于预测时间上一致的3D姿态,通过学习的时间上下文的序列,使用一种形式的序列到序列的网络。与Lin et al.[13]我们的方法不需要多个阶段的细化。它更简单,需要更少的参数来训练,从而大大提高了性能。3我们的方法网络设计我们设计了一个序列到序列网络,在解码器端使用LSTM单元和残差连接来预测给定2D关节位置序列的3D姿态图2显示了我们网络的架构 使用序列到序列网络的动机来自于Sutskever等人在神经机器翻译(NMT)任务上的应用。[1],其中他们的模型将一种语言的句子翻译成另一种语言的句子,例如英语译成法语。在语言翻译模型中虽然我们的情况类似于NMT,但输入和输出序列总是具有相同的长度,而编码器和解码器的输入向量具有不同的维度。我们网络的编码器端采用一系列2D姿势,并将它们编码在其最终LSTM单元的隐藏状态中的固定大小的高维向量由于LSTM在记忆来自过去的事件和信息方面是优秀解码器的初始状态由编码器的最终状态初始化。一token作为初始输入传递给解码器,在我们的例子中,它是一个1的向量,告诉它开始解码。给定a处的3D姿态估计yt,6作者:James J. 小时间步长t,每个解码器单元预测下一个时间步长yt+1的3D姿态。请注意,输入序列的顺序与Sutskever等人的建议相反。[1]的文件。解码器侧上的快捷连接使得每个解码器单元估计来自先前帧的3D姿态中的扰动量,而不是必须估计每个帧的实际3D姿态。如He et al.[25],这样的映射对于网络来说更容易学习。我们使用层规范化[27]和递归dropout [28]来规范我们的网络。Ba等人。[27]提出了层归一化的想法,它从单个训练样本的隐藏层递归神经元的求和输入中估计归一化统计数据(平均值和标准差),以正则化RNN单元。类似地,Zaremba et al.[28]提出了仅在具有一定概率p的网络的非循环连接上应用dropout的想法,同时始终保持循环连接不变,因为它们对于循环单元记住来自过去的信息是必要的。损失函数给定一系列2D关节位置作为输入,我们的网络预测相对于根节点(中心髋部)的3D关节位置的序列。我们预测每个3D姿态在相机坐标空间中,而不是预测他们在一个任意的全球框架所建议的马丁内斯等人。[24]第10段。我们对预测的3D关节位置施加时间平滑度约束,以确保一个帧中的每个关节的预测与其先前帧没有太大差异。因为2D姿态检测器在各个帧上工作,即使图像中的对象移动最小,来自连续帧的检测也可能变化,特别是对于快速移动或易于遮挡的关节因此,我们假设在给定帧速率足够高的情况下,对象在连续帧中不会移动太多因此,我们在训练期间将关于时间的3D关节位置上的一阶导数的L2范数该约束帮助我们可靠地估计3D姿态,即使当2D姿态检测器在时间窗口内的几个帧失败而没有任何后处理时。根据经验,我们发现某些关节更难以准确估计,例如手腕、脚踝、肘部与其他人相比为了解决这个问题,我们将关节划分为三个不相交的集躯干头,肢体腿和肢体手臂的基础上,他们的贡献的整体误差。我们观察到关节连接到躯干和头部,例如。与属于肢体的那些关节相比,总是以高精度预测臀部、肩部、颈部,并且因此将它们放置在设定的躯干头部中四肢的关节,尤其是手臂上的关节,由于其高运动范围和咬合,总是更难以预测我们把膝盖和脚踝放在定肢腿上,把肘部和手腕放在定肢臂上。我们将每组关节的导数与基于其对总体误差的贡献的不同标量值因此,我们的损失函数由两个单独的项的和组成:3D关节位置的N个不同序列的均方误差(MSE);以及3D关节位置的N个序列相对于时间的一阶导数的L2范数的平均值,其中关节被分成三个不相交的集合。利用时间信息进行三维人体姿态估计7¨N3D关节位置的N个序列(T个时间步长中的每一个)上的MSE由下式L(Y,Y)= 1ΣΣNT¨Yi,t¨¨-Yi,t¨2 .(一)Here,Ytruth.i=1t=1表示估计的3D关节位置,而Y表示3D地面每个长度为T的3D关节位置的N个序列相对于时间的一阶导数的L2范数的平均值由下式给出:¨ ¨21ΣN ΣT . ¨ ¨2tY联系我们?N(T−1)i=1t =2¨Yi,t−Yi,t−1<$2¨ ¨ ¨ΣLL¨2¨ˆLAˆLA¨2+ ρ¨ Y i,t −Yi,t−1<$2+ τ¨Yi,t −Yi,t−1<$2.(二)在上面的等式中,YTH、YLL和YLA不表示分别属于躯干头部、肢体腿部和肢体手臂集合的关节的3D局部化。η、ρ和τ是标量超参数,以控制三组关节中的每一组的3D位置的导数较高的权重被分配给通常以较高的误差预测的关节的集合我们的网络的整体损失函数如下所示¨ ¨2ˆ¨ˆ¨L = minα L(Y, Y)+β¨tY¨Y2.(三)这里,α和β是调节损失函数中的两项中的每一项的重要性的标量超参数。4实验评价数据集和方案我们对Human 3.6M [29]数据集和HumanEva数据集[45]进行定量评估据我们所知,人类3.6M是用于人类3D姿态估计的最大的公开可用数据集。该数据集包含7个不同的专业演员进行15项日常活动的360万张图像,如走路,吃饭,坐着,打电话。数据集由每个对应图像的2D和3D关节位置组成。每个视频使用4个不同的校准高分辨率摄像机捕获。除2D和3D姿势地面实况外,数据集还提供边界框、相机参数、身体比例的地面实况以及每个演员的高分辨率身体扫描或网格。另一方面,Hu-manEva是一个小得多的数据集。它已被广泛使用来衡量过去十年的工作。大多数方法报告两种不同行动和三个行为者的结果。对于定性评估,我们使用了来自Youtube和Human3.6M数据集的一些视频。2不8作者:James J. 小协议#1直接.讨论 饮食问候手机拍照姿势采购坐SitingD 吸烟等待WalkD走 步行平均值LinKDE[29](南非)132.7183.6132.3 164.4162.1205.9 150.6171.3151.6243.0162.1 170.7177.196.6127.9 162.1Tekin等人[43](SA)102.4147.288.8 125.3118.0182.7 112.4129.2138.9224.9118.4 138.8126.355.1125.0Zhou等人[20](MA)87.4109.387.1 103.2116.2143.3 106.999.8124.5199.2107.4 118.1114.279.497.7 113.0Park等人[14](SA)100.3116.290.0 116.5115.3149.5 117.6106.9137.2190.8105.8 125.1131.962.696.2 117.3Nie等人[12](MA)90.188.285.795.6103.9 103.092.490.4117.9136.498.594.490.686.089.597.5Mehta等人[9](MA)57.568.659.667.378.182.456.969.1100.0117.569.468.076.555.261.472.9Mehta等人[11](MA)62.678.163.472.588.393.863.174.8106.6138.778.873.982.055.859.680.5Lin等人[13](MA)58.068.263.365.875.393.161.265.798.7127.770.468.272.950.657.773.1Tome等人[40](MA)65.073.576.886.486.3 110.768.974.8110.2173.984.985.886.371.473.188.4Tekin等人[16]54.261.460.261.279.478.363.181.670.1107.369.370.374.351.863.269.7Pavlakos等人[7](MA)67.471.966.769.172.077.065.068.383.796.571.765.874.959.163.271.9Martinez等人[24](马)51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Fang等[41](马)17j50.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4Sun等人[15](MA)17j52.854.854.254.361.867.253.153.671.786.761.553.461.647.153.459.1基线1([24]+中值滤波器)51.855.359.158.566.479.254.755.873.289.061.659.565.949.553.562.2基线2([24]+均值滤波器)我们的网络(MA)50.944.254.946.758.252.357.949.365.659.978.959.453.747.555.846.273.559.989.965.660.955.859.250.465.152.349.243.552.845.161.851.9Martinez等人[24](GT)(MA)37.744.440.342.148.254.9四十四点四42.154.658.045.1四十六点四47.6三十六点四40.4四十五点五我们的网络(GT)(MA)35.240.837.237.443.244.0三十八点九35.642.344.639.7三十九点七40.2三十二点八35.5三十九点二表1.结果显示了方案#1下Human3.6M [29]上的动作误差(后处理中未应用刚性对齐或相似性变换)。请注意,我们这里报告的结果是针对长度为5的序列。SA表示为每个动作训练模型,MA表示为所有动作训练单个模型GT表示网络是在地面真实2D姿态上训练的。粗体数字表示最佳结果,而下划线数字表示次佳结果。我们遵循文献中使用的Human3.6M数据集的标准方案。我们使用受试者1、5、6、7和8进行训练,并且使用受试者9和8进行训练。11进行测试,并且在预测的3D姿态上评估误差而不进行任何变换。我们将其称为方案#1。许多人用来评估他们的方法的另一种常用方法是使用相似性变换(Procrustes分析)将预测的3D姿态与地面实况对齐。我们将其称为方案#2。我们使用相对于根节点的估计3D姿态和地面实况3D姿态之间的以毫米为单位的每个关节的平均误差作为误差度量。对于HumanEva数据集,我们在与地面真实数据进行严格对齐后,按照先前方法使用的协议分别报告每个主题和动作的结果。2D检测我们微调了堆叠沙漏网络的模型[18],最初在MPII数据集[46](2D姿态估计的基准数据集)上训练,在Human3.6M数据集的图像上获得每个图像的2D姿态估计我们使用数据集提供的边界框信息,首先计算图像中人的中心,然后裁剪一个440× 440的区域,并将其大小调整为256× 256。 我们对网络进行了250次迭代的微调,并使用了3的批量大小和2的学习率。5e- 4。由于许多先前的方法是基于单帧预测,我们使用两个基线进行比较。为了表明我们的方法比朴素的后处理要好得多,我们应用了均值滤波器和中值滤波器Martinez等人的3D姿态预测。[24]第10段。我们使用5帧的窗口大小和1的步长来应用过滤器。虽然非刚性结构运动恢复真实(NRSFM)是从2D对应序列进行任何3D重建问题的最通用方法之一,我们没有使用利用时间信息进行三维人体姿态估计9协议#2直接. 讨论饮食问候手机照片构成采购 坐SitingD 吸烟等待WalkD步行 步行平均值[21]第21届中国国际航空航天博览会199.2177.6197.8176.2 186.5195.4167.3160.7173.7177.8 181.9198.6192.7 181.1Ramakrishna等人[19]*(MA)14j137.4149.3141.6 154.3157.7 158.9141.8158.1168.6175.6160.4 161.7150.0 174.8150.2 157.3Zhou等人[20]*(MA)14j99.795.887.9 116.8108.3 107.393.595.3109.1137.5106.0 102.2106.5 110.4115.2 106.7Rogez等人[9](MA)–––––––––––––––87.3Nie等人[12](MA)62.869.279.678.880.886.972.573.996.1106.988.070.776.571.976.579.5Mehta等人[9](马萨诸塞州)14 j–––––––––––––––54.6Bogo等人[22](MA)14j62.060.267.876.592.177.073.075.3100.3137.383.477.386.879.787.782.3美国(MA)14j66.161.784.573.765.267.260.967.3103.574.692.669.671.578.073.274.0Tekin等人[16](MA)17j–––––––––––––––50.1Pavlakos等人[7](MA)17 j–––––––––––––––51.9Martinez等人[24](马)17 j39.543.246.447.051.056.041.440.656.569.449.245.049.538.043.147.7Fang等[41](马)17j38.241.743.744.948.555.340.238.254.564.447.244.347.336.741.745.7基线1([24]+中值滤波器)44.146.349.650.353.260.943.743.561.274.453.048.654.743.048.551.7基线2([24]+均值滤波器)我们的网络(马萨诸塞州)17 j43.136.945.037.948.842.849.040.352.146.859.446.743.537.742.436.559.748.970.952.651.245.646.939.652.443.540.335.246.038.550.042.0表2.结果显示了在方案#2下在Human3.6M [29]数据集上的动作方面的错误(Procrustes与后处理中的基本事实对齐)。注意,此处报告的结果是针对长度为5的序列14j注释指示身体模型考虑14个身体关节,而17j意味着考虑17个身体关节。(SA)注释指示每动作模型,而(MA)指示用于所有动作的单个模型粗体数字表示最佳结果,而下划线数字表示次佳结果。方法的结果从原始论文中获得,除了(*),其从[22]中获得。因为Zhou et al.[20]没有发现NRSFM技术对3D人体姿势估计有效。他们发现NRSFM技术在相机缓慢运动时效果不佳。由于Human3.6M数据集[29]中的视频是由固定摄像机捕获的,因此数据集中的受试者不会旋转那么多以提供NRSFM算法的替代视图以良好地另一个原因是,人体姿态重建是一个专门的问题,其中来自人体结构的约束适用。数据预处理我们通过减去平均值并除以标准差来归一化3D地面实况姿态、来自堆叠沙漏网络的噪声2D姿态估计和2D地面实况[18]我们不预测根关节的3D位置,即中心髋关节并且因此零中心相对于根节点的全局位置的3D关节位置。为了获得相机坐标空间中的真实3D姿态,使用给定相机参数对全局坐标空间中的真实3D姿态应用逆刚体变换。为了生成训练序列和测试序列,我们将长度为T的滑动窗口平移一帧。因此,序列之间存在重叠。这为我们提供了更多的数据来训练,这对于深度学习系统来说总是一个优势。在测试期间,我们最初预测序列的前T帧,并将窗口滑动步长1,以使用先前的帧预测下一帧。我们对网络进行了100个epoch的训练,每个epoch都对整个Human 3.6M数据集进行了完整的遍历。我们使用Adam [47]优化器来训练网络,学习率为1e- 5,每次迭代以指数方式衰减。LSTM单元的权重由Xavieruniform initializer [48]初始化。我们使用32的小批量批量,即32个序列。对于我们的大多数实验,我们使用序列长度为5,因为10作者:James J. 小它允许以高精度进行更快的训练。我们用不同的序列长度进行了实验,发现序列长度4、5和6通常给出更好的结果,我们将在结果部分详细讨论我们为所有动作类训练了一我们的代码在Tensorflow中实现。我们对训练集进行交叉验证,以将损失函数的超参数值α和β类似地,使用交叉验证,时间一致性约束η、ρ和τ的三个超参数被设置为1、2。分别为5和4长度为5的序列的单个训练步骤仅需要大约34ms,而在NVIDIA Titan X GPU上的前向传递仅需要因此,给定来自姿态检测器的2D关节位置,我们的网络需要大约3.2ms来预测每帧的3D姿态。4.1定量结果如前所述,我们使用序列长度为5来对我们的网络进行定性和定量评估在方案#1下的Human3.6M数据集[29]的结果示于表1中。从表中我们观察到,我们的模型在协议#1下实现了每个动作类的最低错误,这与许多以前的最先进的方法不同。请注意,我们为所有动作类训练一个模型,而不是像许多其他方法那样为每个动作类训练一个模型。我们的网络显着提高了国家的最先进的结果,太阳等。[15]约12。1%(7。2毫米)。在方案#2下的结果在表2中报告,该方案在计算误差之前使用刚体相似性变换将预测与地面实况对齐。我们的网络将报告的最新结果提高了8。09%(3。7mm),并且也实现了方案#2中的每个动作的最低误差。从结果中,我们观察到利用跨多个序列的时间信息的有效性通过使用时间上下文的信息,我们的网络减少了估计3D关节位置的总体误差,特别是在电话,照片,坐下和坐下等动作上,由于严重的遮挡,大多数以前的方法都表现不佳。我们还观察到,我们的方法在两个协议上都以较大的幅度优于两个基线。这表明我们的方法学习了序列的时间上下文并预测了时间上一致的3D姿态,这是像逐帧预测上的时间均值和中值滤波器这样的幼稚后处理技术未能做到的。像大多数以前的方法一样,我们在表3中报告了HumanEva [45]数据集的动作类行走和慢跑的结果我们在六种情况中的四种情况下获得了最低误差,并且两种动作的平均误差最低我们还获得了第二个最好的结果,对科目2的行动步行。然而,HumanEva是一个比Human3.6M更小的数据集,并且在训练和测试中出现了相同的主题。对2D地面实况的评估如Martinez等人建议的。[24],我们还发现2D关节位置越准确,3D姿势的估计就越好。我们在地面真实2D姿势上训练了我们的模型利用时间信息进行三维人体姿态估计11步行S1S2S3慢跑S1S2S3AvgRadwan等人[49个]75.1九十九点八九十三点八79.289.8 99.489.5Wang等人[37]第三十七届71.975.7 85.362.677.7 54.471.3Simo-Serra等人[50个]65.148.6 73.574.246.6 32.256.7Bo等人[五十一]46.430.3 64.964.548.0 38.248.7Kostrikov等人[五十二]44.030.9 41.757.235.0 33.340.3Yasin等人[五十三]35.832.4 41.646.641.4 35.438.9[23]第二十三话19.713.0 24.939.720.0 21.026.9Pavlakos等人[七]《中国日报》22.121.929.029.826.025.5Lin等人[13]26.520.7 38.041.029.7 29.130.8Martinez等人[24日]19.717.4 46.826.918.2 18.624.6Fang等[41个]19.416.8 37.430.417.616.322.9我们19.113.643.923.2 16.9 15.522.0表3.HumanEva [45]数据集的结果,以及与以前工作的比较粗体数字表示最佳结果,而下划线数字表示次佳结果。序列长度为5。方案#1下的结果报告于表1中 从表中可以看出,我们的模型将Martinez等人的下限误差提高了近13。8%。在表4中报告了方案#2的地面真实2D关节输入的结果。当2D关节位置没有噪声时,我们的网络比Martinez等人的模型表现[24]和Moreno-Nouguer [23]。这些结果表明,从以前的帧的时间一致性的信息是一个有价值的线索,即使当检测是无噪声的估计3D姿态的任务。莫[23]第二十三话Martinez等人的24]我们GT/GT62.1737.1031.67GT/GT+N(0, 5)67.1146.6537.46GT/GT+N(0,10)79.1252.8449.41GT/GT+N(0,15)96.0859.9761.80GT/GT+N(0,20)115.5570.2473.65表4.我们的系统的性能用Hu-man 3. 6 M [29]数据集的地面真实2D姿势训练,并用不同水平的加性高斯噪声(顶部)和来自协议#2下的堆叠沙漏[18]姿势检测器的2D姿势预测(底部)进行测试对噪声的鲁棒性我们进行了一些实验,通过在2D地面真实姿势上训练我们的网络并对被不同水平的高斯噪声破坏的输入进行测试,来测试我们的模型对输入数据中不同水平噪声的容忍度。 表4显示了我们的最终模型与Moreno-Nouguer [23]和Martinez等人的模型的比较。[24]第10段。我们的网络比Moreno-Nouguer的模型明显更好[ 23]。其中,比较了Martinez等人的观点。[24]当输入噪声水平较低时,我们的网络表现得更好即标准偏差小于或等于10。然而,对于更高级别的噪声,我们的网络表现略差于马丁内斯等人。[24]第10段。我们想将其原因归因于在训练期间施加的时间平滑度约束然而,在定性结果中可以观察到其有用性(见图4.1和图3)。12作者:James J. 小估计GT估计值图3.第三章。Human3.6M视频的定性结果左边的图像是受试者11和坐下的动作。右边的图像是受试者9和动作电话。中间的3D姿态是地面实况,右侧是估计的3D姿态。烧蚀分析为了显示我们的网络的每个组件和设计决策的有用性,我们执行烧蚀分析。我们遵循方案#1进行消融分析,并针对所有动作训练单个模型结果见表5。我们观察到,结果的最大改进是由于解码器侧的残差连接,这与He等人的假设一致[25]第20段。 删除剩余的连接会使错误大幅增加50。5毫米 当我们不对LSTM单元应用层规范化时,误差增加了9。2毫米 另一方面,当不执行dropout时,误差增加6。4毫米 当不使用层归一化和递归丢弃时,结果变差7。6 mm. 虽然时间一致性约束可能看起来具有较小的影响(仅0. 8毫米)定量地对我们的网络的性能,它确保了对序列的预测是平滑的和时间上一致的,这从我们的定性结果中显而易见,如图4.1和图3所示。为了显示我们的模型对来自不同2D姿态检测器的检测的有效性我们观察到,即使是非微调堆叠沙漏检测-GT利用时间信息进行三维人体姿态估计13误差(mm)∆我们的51.9- -一种无加重接头w/o时间一致性约束52.7 0.8无经常辍学w/o layer normalized LSTM 61.1 9.2 w/o layer normandrecurrentdropout59.57.6w/oresidualconnections102.4 50.5w非微调SH[18] 55.6 3.7w CPM检测[17](14个关节)66.114.2表5.消融和超参数敏感性分析。见图4。对于不同序列长度,我们的网络的平均每联合误差(MPJE)以mm为单位。的情况下,我们的模型实现了国家的最先进的结果。对于CPM的检测,我们的模型实现了具有竞争力的预测精度。不同序列长度上的性能到目前为止报告的结果是针对长度为5的输入和输出序列。我们进行了实验,看看我们的网络在2到10的不同序列长度下的表现如何。结果如图4所示可以看出,我们的网络的性能对于不同长度的序列保持稳定即使对于仅考虑前一帧和当前帧的序列长度为特别地,对于长度4、5和6获得了最好的结果。6.然而,我们选择序列长度5来进行我们的实验,作为训练时间和准确性之间的折衷。4.2定性分析我们提供了一些视频的定性结果的Human3.6M和Youtube。我们将在Human3.6M数据集上训练的模型应用于从Youtube收集的一些视频上,Youtube视频中每个人的边界框都是手动标记的,对于Human3.6M,使用了真实边界框。使用在Human3.6M数据上微调的堆叠沙漏模型来检测2D姿势Youtube视频的定性结果如图4.1所示,Human3.6M的定性结果如图3所示。在训练期间使用时间平滑度约束的真正优点在这些图中是显而易见的。对于图4.1,我们可以看到,即使2D姿态估计器中断或生成非常嘈杂的14作者:James J. 小图五. Youtube视频上的定性结果。请注意,在顶部的序列中,我们的网络设法预测有意义的3D姿势,即使在使用过去的时间信息进行2D姿势检测时也是如此。检测,我们的系统可以恢复时间相干的3D姿态,通过利用时间一致性信息。对于图3中的Human3.6M视频也可以发现类似的趋势,特别是对于主体的坐下动作。11.我们在补充材料中提供了更多定性结果。5结论我们的网络的定量和定性的结果表明,利用多个序列的时间信息来估计3D姿态的时间平滑的有效性。我们的网络在Human3.6M数据集中的所有15个动作类上达到了迄今为止的最佳准确度[29]。特别地,大多数先前的方法与具有高度遮挡的动作(如拍照、打电话、坐下和坐下)作斗争。我们的网络在这些行动上取得了明显更好的结果。此外,我们发现我们的网络对嘈杂的2D姿势具有合理的鲁棒性。尽管时间平滑度约束的贡献在表5的消融分析中不明显,但其有效性在定性结果中清晰可见,特别是在具有挑战性的Youtube视频中(见图4.1)。我们的网络有效地展示了使用时间上下文信息的能力,我们使用序列到序列网络实现了这一点,该网络可以在相当快的时间内有效地进行训练此外,我们的网络以平均每帧3ms的速度从2D姿势进行预测,这表明,鉴于2D姿势检测器是实时的,我们的网络可以应用于实时场景。利用时间信息进行三维人体姿态估计15引用1. 萨茨克弗岛Vinyals,O.,Le,Q.V.:用神经网络进行序列到序列学习。在:神经信息处理系统(NIPS)的进展(2014)3104
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功