基于深度运动学分析的单目三维人体姿态估计

200 浏览量更新于2023-10-25 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

899步骤1可靠不可靠估算估算深度CNN步骤2步骤3分解3D估计3D轨迹完成基于投影的二维校正噪声/不可靠的2D输入基于深度运动学分析的单目三维人体位姿估计上海交通大学，上海200240，中国2上海交通大学人工智能研究所MoE人工智能重点实验室3华为海思{xjwxjw，yuzhenbo，nibingbing，jekyll4168，xkyang，zhangwenjun}@ sjtu.edu.cn，nibingbing@hisilicon.com摘要对于以2D检测为条件的单目3D姿态估计，噪声/不可靠的输入是这项任务中的关键障碍。简单的结构限制试图解决这个问题，例如，对称性损失和关节角度限制，只能提供边际改善，并且在以前的研究中通常被视为辅助损失。在这项任务中充分利用人类的先验知识仍然具有挑战性在本文中，我们提出了解决上述问题的系统观点。首先，我们表明，优化噪声的2D输入的运动学结构是获得准确的3D估计的关键其次，在修正后的二维关节的基础上，进一步明确地将关节运动分解为人体拓扑结构，从而得到更紧凑的三维静态结构，更易于估计。最后，我们提出了一个时间模块来细化三维轨迹，得到了更合理的结果。上述三个步骤被无缝集成到深度神经模型中，形成了一个深度运动学分析管道，同时考虑2D输入和3D输出的静态/动态结构。大量的实验表明，该框架实现了最先进的性能上两个广泛使用的三维人体动作数据集。同时，靶向消融研究表明，前一步是后一步获得有希望的结果的关键。1. 介绍姿态估计是计算机视觉研究中的一个热点问题[35，51，2，5]。特别地，用于单目视频的3D姿态估计在过去几十年中引起了极大的关注[21，18，37，33，1，6]，其涉及估计人类主体在3D空间中的关键点轨迹该研究课题具有几个有价值的下游应用，例如，动作识别[3，23]，人体识别，同等贡献。†通讯作者：倪冰冰图1：拟议框架概览。该模型追求三维位姿估计，结构更合理，输出空间更紧凑，将运动学分析融入到深层模型中。步骤1：使用透视投影校正噪声/不可靠的2D输入（表示为红点）。步骤2：在更紧凑的空间内以分解的方式进一步估计3D姿态。步骤3：不可靠的估计3D姿态从先前的输出（由红十字表示）中排除，其最终被细化为完成任务。结构[16，13，47]和机器人操作[34]。最近，许多作品[11，5]已经使用2D姿态检测器来促进3D人体姿态估计任务。之前的几项研究[28，25，46，38，7]将检测到的2D关键点作为输入，并从单目视频中预测相应的3D关节位置，与其他RGB图像[19，42，10，54]相比，这些研究具有良好的结果，并且需要更少的训练资源。我们的工作属于这个分支，明确纳入运动学分析，这将在后面的段落详细讨论。尽管在2D关键点条件方面取得了相当大的进展，900ℒ��2ℒ2��2D�� 2��ሚ��2ǁ2��ሚ33D日本语简体中文33��3ǁ��3Dℒ��3��ǁ3��3D��Ƹ3��2D姿态输入2D姿态校正成品2D姿态分解3D姿态估计估计3D姿态3D轨迹完成完成3D轨迹图2：拟议框架的详细架构。三个分层模块（从左到右）分别对应于2D姿态校正（φ2D）、3D姿态估计（φle n，φdir）和3D轨迹细化（φctn）。p2D校正为2D3D3D3Dpose和f′，c′是指回归的相机参数。φl3D和φd3D是根据φlen、φdir估计的长度和方向。S-3D和S_3D代表相对于水平的轨迹完成之前/之后的3D姿态。三维立体在三维姿态估计方面，仍有一些关键的挑战有待解决。一方面，由于视频序列中包含的运动模糊和自遮挡，2D检测通常是噪声和不可靠的。目前的方法[25，46，33]采用简单的结构约束，例如，对称的骨长度[33]和有限的关节角度[16]，以促进3D关节预测，这不足以为这项任务带来显著的改进。另一方面，现有的大多数方法直接将该任务表述为坐标回归问题，没有充分考虑人体固有的运动学结构，通常导致无效结果。真实世界的人体运动遵循二维/三维对应和静态/动态结构的运动学规律：（1）对于基于摄像机的视图，三维和投影的二维关节应遵循透视投影约束。(2)对于静态结构，在整个运动序列中，两个相邻3D关节（由骨架定义）之间的长度应该是恒定的。(3)对于动态结构，由同一节点形成的三维运动轨迹应是光滑连续的。因此，我们的动机是整合所有上述法律形成一个系统的分析管道，从对应到结构，这有利于追求更合理的解决方案空间内的三维姿态。在本文中，我们建议系统地将运动学分析纳入深度模型，以有效利用人类先验知识。如示于图1，我们首先改进2D输入以使其更可靠，而不是仅考虑3D关键点的估计精度[33，1]。提出了一种基于透视投影约束的二维关键点优化方案据我们所知，这是首次尝试将透视投影用于2D关节细化而不是3D对应物。实验结果表明上述2D优化方案对于随后的3D姿态估计是关键其次，从人体的静态结构出发，基于刚体假设对关节运动进行分解，将非约束的三维运动轨迹分解为二维球曲线的树结构组合，使其维数大大降低更具体地说，我们将三维坐标回归问题分为两个子任务，长度和方向估计，它们彼此互补并且大幅降低了学习难度。最后，我们注意到，并非所有部分都被相等地估计。为了追求有效的动态结构，我们从上述预测中排除了那些可靠性低的关节，整个3D轨迹基于更可靠的部件来完成。上述三个步骤无缝集成到深度神经模型中，形成了系统的分析管道，即，我们的模型同时考虑了2D输入和3D输出的运动学结构。我们进行详细的消融研究，以证明建议的框架的每个组成部分的贡献。进一步广泛的实验表明，我们的模型在两个广泛使用的三维人体运动数据集上达到了最先进的性能2. 相关工作在本节中，我们将讨论基于深度神经网络进行3D姿态估计的方法。整体3D姿态估计。利用深度神经网络的出色特征提取能力，许多方法[19，31，44，42，26，32，27，10，54，6]利用深度卷积神经网络来估计来自图像或其他源的3D姿态（例如，点云[50，22，49]）。在本文中，我们集中在图像一。Li等[19]首先应用CNN通过多任务框架联合估计3D姿态和检测身体部位。Tekin等人[42]第42话，你是我的女人！901基于投影的二维校正t=1t=1表1：2D精度对3D姿态估计的影响。两者都是通过均方误差来评估的。M= 1表示未应用2D细化不可靠的2D输入窗口长度2D关节Train/Test三维关节Train/Test校正2D关节M=10.058 /0.0780.027 /0.053M=50.042 /0.0710.024 /0.052M=90.033 /0.0670.023 /0.052相机三维关节图3：用于优化2D输入的透视投影示例。这基本上结合了用于2D姿态训练的3D监督信号，其中更好地保留了2D/3D对应性。维度潜在姿态表示并考虑联合依赖性。因此，[10]和[54]都利用中间3D表示和2D对应物来回归3D姿态。然而，直接从图像训练深度模型因此，我们的模型从检测到的2D关节作为输入开始，其管道在很大程度上是简化的，但具有可比的性能。两步姿态估计。为了避免收集2D-3D配对数据，各种工作[55，25，43，4，9，53，52，28，38，7]将3D姿态估计的任务解耦为两个独立的阶段：（1）首先使用现成的2D姿态估计方法预测图像空间中的2D关节位置 ; （ 2 ）然后学习映射将它们提升到 3D 空间。Moreno等人[28]学习从2D到3D距离矩阵。一种简单而有效的方法[25]可以通过深度CNN直接预测3D关节位置。考虑到人体结构的先验知识，Wanget al. [46]提出了一种渐进的方法，明确考虑到身体部位之间的不同自由度Sharma等人[38]通过基于深度条件变分自动编码器的模型，以估计的2D姿态为条件，合成各种解剖学上合理的3D姿态样本。图卷积网络（GCN）和连接网络（FCN）的通用组合[7]也可以提高表示能力。这些方法主要集中在第二阶段，我们的方法也属于这一分支.然而，很少有研究关注2D/3D姿势的内在有效性，在一个系统的和全面的。从单一的图像。也有关于RNN方法的工作[18]，该方法考虑了基于身体部位的结构连接的先验知识。Rayat等人[37]跨2D关节位置序列利用所述时间平滑度约束来估计3D姿态序列Pavllo等人[33]通过时间卷积变换2D姿态序列，并使计算复杂度与关键点空间分辨率无关。基于图的表示的多尺度特征[1]对于局部到全局网络架构的姿态估计是至关重要的与现有的基于时间的方法不同，我们的模型显式地将运动学分析管道用于3D姿态估计。3. 方法在这一节中，我们提出了详细的描述所提出的方法。总体框架如图所示。2.在我们的方法和实验中，我们专注于在短视频剪辑（T≤9）的姿态估计。3.1. 基于投影的2D位姿校正2D时间细化。给定具有T个时间戳长度的单眼视频剪辑，我们首先应用预先训练的2D姿态检测器（例如，CPN [5]）以获得2D关节。由于运动模糊和遮挡，单帧上的2D检测通常有噪声且不可靠[11]。我们首先利用时间CNN模型（如图2所示，表示为φ2D）（二）为了细化2D初始输入（表示为P={pt}T，K={k}T，p<$t∈RJ×2，k<$t∈RJ.）这里J是指单个人的关节数量。具体地，y，pt=[at ，bt]，其中at和bt表示2D坐标，并且kt是相应的。响应置信度得分。我们采用MSE损失加权的置信度得分K为训练如下：hensive视图，其中运动学结构和视图相对应-通常被忽略。ΣTLTem=k~t.|2个以上|bt − bt|第二条第一款|2,(1)视频姿态估计。由于大多数以前的作品在单帧设置中操作，最近更多的注意力[14，21，18，8，37，33，1，6，20，36，48]已经被从单目视频剪辑中加入时间信息。LSTM [21]已被应用于改进预测的3D姿态2D2 2t=1其中at、bt是指地面真实2D关节。直观地，该过程利用时间平滑度来细化检测到的2D关节。902t=13DzjXx2个D限制：训练/测试不平衡。然而，上述优化并不直接促进最终3D姿态估计的性能我们进行验证实验（在Human3.6M数据集[15]上）来支持我们的陈述。具体而言，我们采用单帧3D姿态估计模型[33]，其中细化的2D关节作为输入。如Tab.所1、给出了在训练集和测试集上的2D和3D关节的估计精度我们可以观察到，随着窗口长度的增加，2D和3D关节的训练精度都有所提高。但3D测试集的改进是微不足道的（最后一列）。我们将此归因于训练/测试集上的不平衡输入。训练输入和测试输入（前两列）之间的大精度差距对于以下3D姿态估计模型是未知的，这导致次优结果。解决方案：投影约束。为此，我们建议从不同的角度来细化2D输入即，2D/3D对应对于合理的姿态估计至关重要（如图所示）（3）第三章。我们将3D关节表示为67816159 10 111214132 314父关节：#100 5子关节：#11111011图4：一对父子关节的铰接运动示意图。子关节相对于父关节的运动轨迹退化为球面曲线。选择两个时间戳，其中估计的fixx和cixx用L1差进行归一化。如图2，φ2D采用编解码器结构，输出时间长度与输入时间长度相等。详细结构请参考补充材料。S={st}T，st= [xt，yt，zt]∈RJ×3. 对于每个时间请注意，我们论文中使用的数据集（Human3.6M [15]）stampt，投影2D接头p和3D接头s应遵循透视投影，如下所示：和HumanEva [39]数据集）由摄像机记录，固定且几乎相同（f，c），这表明全局Xa=zfx+cx，b=yzfy+cy，（2）所有2D和3D姿态之间存在投影关系。细化模型被训练成单个投影关系。如果视频序列被摄像头记录下来其中f= [fx，fy]和c= [cx，cy]分别是焦距和点。为了简单起见，我们省略下标t。我们的主要想法是在训练过程中从精细的2D输入和地面真实3D关节中恢复f和c。直观地，良好估计的Δf和Δc表明投影对应性通常被剩下的问题是如何有效地获得最大值和最小值。线性平方回归是一种简单而有效的方法。对上述问题进行探讨。以投影x轴坐标为例。如Eqn所示。2、配对数据points（a，x）={（aj，xj）}J在解决单个人类亚当（f，c）变化时，我们可以将（f，c）作为输入以保证模型的泛化能力。作为内参数，（f，c）的获得成本通常较低[33]。这一部分作为今后值得研究的工作3.2. 分解的3D姿态估计基于细化的2D关节，我们的第二个模型（表示为φdcm）预测相应的3D关键点。正如SEC中所1、单目视频剪辑中涉及的三维关节运动图4更明确地描绘了这种运动学定律。的运动轨迹zzzjj=1物体沿着一条直线运动，直线的截距和斜率对应于分别对fx和cx进行spond。为简单起见，我们省略了支配音，即 xj：xj. 考虑到细化的2D检测p和地面实况3D关节s，我们如下估计fx子与子，子与子，子与子与子，子与子与吨）形成球形曲线。显式姿势分解。基于此，我们将原坐标回归问题分解为两个jj2jj j互补的子任务，即，长度和方向回归-f=a¯（（j=1x）J-x'J2j=1xa，c=a，（3）2锡永具体地，对于3D序列S ∈ RT× J ×3，我们首先根据预定义的相对坐标来获得相对坐标。j=1（x）−Jx<$Ton拓扑，即， Sjc = Sjc − Sjp，其中jc表示某些其中a<$=1<$Ja<$j，x<$=1<$Jxj. 我们获得了土地子关节，jp表示其父关节（如图所示）4）.Jj=1Jj=1假设由关节对{j，j}定义的骨架是fx和cx的真值与等式1相同3与地面真值p和cpj长度ljc，可以重写为ljc={ljcrtc}T，s作为输入。我们采用L1损失进行训练，如下：t=1Lproj=|fx−fx|+的|cx−cx|.（四）其中，rtc是表示方向的单位向量在时间戳t处的（jc，jp）之间的ton。 ljc 保持恒定在整个视频剪辑中。因此，我们预测ljc，此外，在每个时间戳处估计的f和c应作为中间结果，将其组合在一起x x t对于整个单眼视频剪辑是恒定的，这也用于训练。更具体地说，我们随机根据人体骨架进行最终估计（Eqn. （五）。全局-局部组合2D输入。我们扩展输入9033D3D22j=1t=13D3D3D3D三维立体3D0.080.070.060.050.040.030.020.010平均MPJPE012345678910111213141516关节指数以组合的方式进行估计。然而，我们的工作不同于Sun等人。[41]在以下三个方面：（1）我们的工作集中在单目姿态估计而不是单幅图像。(2)与直接坐标回归方法不同，本文采用刚体结构对输出空间进行显式分解，将输出空间的维数从3×T×J降为2×T×J+J，其中第一部分是方向估计，第二部分是长度估计。Morecompact output space facilitates 3D poseestimationmodel to obtain more rational results图5：根据MPJPE的每联合估计误差。值得注意的是，四肢的估计误差（用红条标记为0/1/4/5/6/7/10/11）明显高于其他关节。黑色虚线表示所有关节的平均MPJPE。P以类似的方式与S，即， [P，P，||P||2]∈大幅度地。(3)我们基于上述长度/方向分解设计了目标损失Ldir和Llen，这大大降低了学习难度。3.3. 作为轨迹完成的姿态优化基于姿态分解，我们独立地估计每个时间戳处的骨架方向，这需要RT×J×5。P∈RT×J ×2的计算方法与S进一步细化。在本节中，我们考虑上述问题-和||P||2∈RT×J×1是每个骨架的计算像素长度。上述操作结合了全局和局部信息作为输入，这提供了更结构化的信息。形成用于3D姿态估计。长度方向估计。&我们采用双流架构进行长度和方向估计，其中两个子模块表示为 φlen 和 φdirre-estimation。对于长度估计，首先提取每个时间戳的姿态特征，然后在中间层表示上进行特征聚合，最后使用要预处理的长度为k，则长度为l={lj}J-是的相比之下，sk ele-在每个时间戳和单位向量r={rj}J通过L2获得lem作为轨迹完成任务，其中细化是ap.施加在不可靠的估计关节上。哪些关节应该细化？并不是所有的关节都是平等的。如图5所示，我们可以观察到四肢的估计误差（即，接头0/1/4/5/6/7/10/11也如图所示。4）显著高于其他。因此，我们专注于四肢正则化。平均值-同时，置信度得分K是（在第二节中提到的）。3.1）亲-由2D探测器引起的是一个信息指标，能够估计关节位置。为此，我们优化了分配有低2D置信度分数的四肢关节。具有可靠估计的。给定估计的3D关节S∈RT×J×3，我们首先应用一个tt j=1归一化层。关于φlen的详细架构，dropout层[40]直接在与四个相关的关节dir三维肢体。丢弃率是1−K，而不是一个恒定值，φ3D，请参考补充材料。到目前为止我们得到：S=R，其中R={rt}T -是的根据人类拓扑结构，通过对每个S_s_Sjc=Sjc+Sjp。（5）相应地，我们采用中间损失函数，即，将不可靠节点从S_∞∈R_T×J×3中排除，并进一步用可靠节点补充。完成模型表示为φctn，由双向LSTM [12]网络（如图所示）2）。我们将完成的输出表示为S，其训练如下：Lctn=||S−S||2个以上||H（S） −H（S）||2个以上||F （S） −F（S）||二、3D2方便培训程序。对于长度估计，我们2 2（七）使用L1损失（表示为L1en=|l−l|为了获得更多的AC-策展结果。对于方向估计，余弦相似性损失（表示为Ldir=rr，r-1）应用于R，其惩罚角度差而不是距离。进行最终组合预测，我们使用L2损失（表示为Lfin）进行训练。所有三个损失函数如下所示。有关φdir和φlen的详细架构，请参阅supple-其中H和F分别指时间轴上的直观，高阶连续性有利于更好地模拟人体主体的动态结构。3.4. 实现细节材料。三维立体我们的模型是端到端可训练的，函数为Ltem+ 0。1Lproj+ 0. 1Lpel+Ldcm+Lfin+2D2D3D3DLdcm= Llen+ Ldir， L 翅片为||S−S||二、（六）0的情况。1L纸箱我们采用PyTorch [29]来实现我们提出的三维立体3D3D2框架. 在训练阶段，学习率，学习关于Pose Decomposition的讨论与这一部分最相关的工作是Sunet al。[41]第41话，衰减和权重衰减设置为1e−3，0。93，1e−4respectively.辍学率定为0.25，但提到MPJPE/103904方案1：MPJPEDir. Disc.吃迎接电话照片 Pose Purch.坐SitD. 吸烟等待散步。WalkT.AvgMartinez等人[25]ICCV51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Luvizon等人[24]CVPR49.251.647.650.551.860.348.551.761.570.953.748.957.944.448.953.2[37]第37届中国国际汽车工业展览会 48.450.757.255.263.172.653.051.766.180.959.057.362.446.649.658.3Lee等[18]ECCV40.249.247.852.650.175.050.243.055.873.954.155.658.243.343.352.8Pavllo等人[33]CVPR47.150.649.051.853.661.449.447.459.367.452.449.555.339.542.751.8Pavllo等人[33]CVPR---------------49.8Cai等人[1]ICCV46.548.847.650.952.961.348.345.859.264.451.248.453.539.241.250.6Cai等人[1]ICCV44.647.445.648.850.859.047.243.957.961.949.746.651.337.139.448.8我们的，1帧我们的，7帧我们的，9帧40.6 47.145.7 46.6 50.745.047.7 56.3 63.9 49.4 46.5 51.9 38.1 四十九点二38.2 44.442.8 43.7 47.642.045.4 53.2 60.8 46.4 43.5 48.5 34.6 四十六点三37.4 43.542.7 42.7 46.6 59.741.345.1 52.7 60.2 45.8 43.1 47.7 33.7 四十五点六分方案2：PA-MPJPEDir. Disc.吃迎接电话照片 Pose Purch.坐SitD. 吸烟等待散步。WalkT.AvgSun等人[41]ICCV42.1 44.345.045.451.553.043.241.359.373.351.044.048.038.344.848.3Fang等人[9]AAAI38.2 41.743.744.948.555.340.238.254.564.447.244.347.336.741.745.7Pavlakos等人[30]CVPR34.7 39.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8[37]第37届中国国际汽车工业展览会 35.7 39.344.643.047.254.038.337.551.661.346.541.447.334.239.444.1Pavllo等人[33]CVPR36.0 38.738.041.740.145.937.135.446.853.441.436.943.130.334.840.0Cai等人[1]ICCV36.8 38.738.241.740.746.837.935.647.651.741.336.842.731.034.740.2Cai等人[1]ICCV35.7 37.836.940.739.645.237.434.546.950.140.536.141.029.633.239.0我们的，1帧我们的，7帧我们的，9帧33.6 37.437.0 37.6 39.2 46.434.335.4 45.1 52.1 35.5 42.1 29.8 35.3 三十八点九31.7 35.335.0 35.3 36.9 44.232.033.8 42.5 49.3 37.6 33.4 39.6 27.6 32.5 三十六点七31.0 34.834.7 34.4 36.231.633.5 42.3 49.0 37.1 33.0 39.1 26.9 31.9 三十六点二表2：在P1和P2下，Human3.6M上的估计姿态和地面实况之间的平均每关节位置误差（MPJPE）（以毫米为单位）的定量比较，其中T表示每种方法中使用的输入帧数越低越好，最好的用粗体突出显示。基线51.840.02D优化49.939.42D优化+ 3D分解47.137.52D优化+ 3D分解+ 3D完成45.636.2我们的，9帧13.2 10.229.912.6 12.3 13.0 13.2 18.1 20.4表3：HumanEva数据集[39]在方案2评估方面的预测准确性。请注意，我们用所有三个动作训练一个模型（即，Walk，Jog and Box）模型。越低越好，最好的用粗体突出显示。节中3.3.我们采用与[33]中相同的BN动量衰减策略。Adam Optimizer [17]用于所有模块。整个模型用200个epoch训练。4. 实验4.1. 数据集评估&人类3.6M数据集[15]。在我们的工作中，我们遵循以前研究中的实验设置[10，45，33]。更具体地说，我们使用受试者1 / 5 / 6 / 7 / 8进行训练，使用受试者9 / 11进行测试。在不访问动作标签和摄像机参数的情况下，所有视频序列都用于训练一个模型。表4：关于P1和P2方面拟议三个模块贡献的消融研究。注意，基线是指Pavllo等人的单帧结果。[33]第33段。HumanEva-I数据集[39]。与Human3.6M数据集[15]相比，HumanEva-I [39]更轻量，包含三个直立动作：走路慢跑拳击我们遵循[33]中用于训练/测试分割的相同数据预处理策略。我们报告的估计精度与T= 9。评估指标。根据大多数先前的工作[24，37，18，1，33]，我们根据通常表示为方案#1的平均每个关节位置误差（MPJPE，简称P1）评估我们的模型。几项研究[41，9，30，37，33，1]估计了涉及旋转和平移的对齐后的3D姿态（简称PA-MPJPE，P2），称为方案#2。这两个协议都在我们的工作中使用。协议2PA-MPJPE走慢跑框S1 S2 S3 S1 S2 S3 S1 S2MPJPE（P1）PA-MPJPE（P2）Pavlakos等人[三十一]22.3 19.5 29.7 28.9 21.9 23.8–––Pavlakos等人[30个]18.8 12.7 29.2 23.5 15.4 14.5–––Lee等[18个国家]18.6 19.9 30.5 25.7 16.8 17.7 42.8 48.1 53.49053D3D三维立体图6：单眼视频剪辑上预测的3D姿势的可视化每一行对应一个动作序列。4.2. 定量评价人类3.6M数据集的结果[15]。如Tab.所示。2，我们报告的姿态估计结果的Pro-tocol# 1和#2。请注意，以前的作品评估这一点，不同时间长度的任务。为了公平起见，我们在相同的输入下与他们进行比较。当T= 1时，轨迹完井模型φctn是非功能的.受益于2D校正和3D分解，我们的模型优于现有技术（Caiet al.[1]），当T= 1时，在P1和P2评估下。在显式运动学分析的推动下，估计精度优于Pavllo等人。[33]当T= 9时，增加8.4%（4.2mm）。与Cai等人相比，[1]T= 7时，即，46.3mm与48.8mm. 关于操作类的评估，我们的最终模型（T= 9）在大多数情况下都达到了最佳性能。特别是在几个相对较难的动作，例如，坐着和坐下来与严重的闭塞，我们的模型是足够强大的，以获得更好的结果相比，Pavllo等。[33]其仅考虑时间平滑性而不是估计可靠性。This isfurther validated in our own model.从T= 1到T= 9，在P1和P2评估下，估计精度不断提高，这主要是通过分解的3D位姿估计和3D轨迹完成来促进的。HumanEva数据集的结果[39]。如Tab.所示。3，我们报告的姿态估计结果方面的Proto-第二栏与Human3.6M数据集[15]相比，HumanEva数据集[39]相对更容易学习，其中估计精度接近饱和。尽管如此，性能增益是观察到的所有三个动作超过Pavllo等人。[33]第33段。通过将运动学分析引入到深度模型中，合理的时空结构得以保留，输出空间更加紧凑，从而提高了估计精度。4.3. 定性评价我们进一步提出了直接可视化结果monocular三维姿态估计。如示于图6、提出了三种不同动作的序列。同时，对于每个时间戳，我们展示了改进的2D姿态和表5：具有不同输入长度和根据MPJPE的预测准确度我们比较我们的模型与Pavllo等人。[33]和Caiet al. [1]的文件。对应的3D预测。我们的模型使其产生视觉上自然的估计，这主要得益于显式的运动学约束。例如，坐下序列（图中的第二行）。6）对于2D和3D关节都有很好的估计，其中四肢的结构由我们的模型正确处理（需要了解人体拓扑结构）。补充资料中提供了更多的直观结果，以供参考。4.4. 消融研究分析所有模块。回想一下，我们的模型由三个模块组成：φ2D、φdcm和φctn. 为了验证每个模块的贡献，我们在Human3.6M数据集上提供了相应的消融研究[15]。如Tab.所示。4，报告P1和P2的准确度。基线是指Pavllo等人的单帧估计模型。[33]第33段。我们可以注意到，在P1和P2的评估下，每个模块都提供了积极的贡献。值得注意的是，最显著的改进来自3D分解模块φdcm，其受益于具有更合理的2D/3D对应的φ2D，并且进一步导致更紧凑的输出空间。时间长度分析。如Tab.所示。5，我们报告了估计精度w.r.t.不同的输入长度。我们可以注意到，随着时间轴的增加-zon，我们的模型总是比那些输入较短的模型表现得更好。对于相同的输入长度，我们的模型也产生比现有技术更准确的结果，即，Pavllo等人[33]和Caiet al. [1]的文件。基于投影的二维校正分析一个仍然存在但关键的问题是：序列Seq 2Seq 11帧3帧5帧7帧9帧Pavllo等人[33个]51.80–––49.80Cai等人[1]第一章50.6249.0848.8648.78–9063D3D3D2个D3D3D3D2个D2个D全模型w/oφctn完整模型1帧3帧5帧7帧9帧7.80 5.11 4.03 3.57 3.297.80 3.70 2.45 2.13 2.01图7：基于投影的2D校正分析。A/C对应于没有/有透视投影约束的fx，cxB/D对应于无透视投影约束和有透视投影约束的两个典型的二维和三维关节之间的投影对应。0.460.450.440 10 20 30 40 50 60 70 800 10 20 30 40 50 60 70 80时间戳表6：在MPJVE [33]方面具有不同输入长度的预测准确度（Human3.6M数据集[15]）。第一行对应于没有轨迹模型φctn的训练，而第二行指的是完整模型。请注意，当T= 1时，φctn是非函数的，其估计精度与第一行相同。长到一帧。橙色圆点表示地面实况位于一条直线上。同样，图图7D描绘了用L proj训练的测试结果，而图7B没有。结果表明，基于投影对应的二维校正方法更为合理、准确。分解三维估计分析。为了分析φdcm的贡献，我们给出了长度和方向的结果，如图所示8. 红线对应于地面实况，蓝线是单帧估计，绿线是指Pavllo等人的结果。[33]橙色线是我们的对于长度估计，我们的模型对2D姿态的变化具有鲁棒性。相反，单帧估计和Pavllo等人的模型都是有效的。[33]不能产生有效的长度估计，该长度估计应该在整个视频剪辑中保持恒定。基于精确的长度估计，我们的模型能够在更紧凑的空间内找到关节角度。如图图8B中，方向被计算为左小腿和Y轴之间的角度，我们的模型比所有其他基线表现得更好，也就是说，估计的方向更接近地面实况（红线），变化更小。3D弹道完成分析。根据Pavlloet al.[33]，我们评估轨迹估计准确度。就MPJVE而言，即，速度误差，以进一步验证φctn的贡献。如Tab.所示6，通过φctn的促进，我们的模型实现了较低的速度误差与所有的ex-cut。单帧我们Pavllo等人[三十一]地面实况perimented temporal lengths (from T = 3 to T = 9).图8：分解的3D估计的分析。给出了左小腿（第4关节和第5关节之间的骨骼）的长度（上半部分）和方向（下半部分）估计。2D校正有助于3D姿态估计？如图7（A和C）所示，我们在测试集上绘制了估计/地面推力焦距fx和点cx，以进行评估。图7A对应于没有Lproj的训练，而图7C示出了用它训练的结果橙色点对应于地面实况，蓝色十字是估计结果。通过Lproj的提升，摄像机视图中投影结构的估计更加准确.此外，我们在图中给出了两个典型的2D和3D关节之间的对应关系的例子7（B和D）。遵循方程.在图2中，X轴表示x/z，而Y轴是a。符号使用与图相同7（A和C）。所有接头-5. 结论在本文中，我们提出了一个单目三维姿态估计的深度运动学分析框架。通过显式地将运动学正则化结合到深度模型中，我们以噪声2D关节作为输入实现了更可靠的估计。大量的实验表明，我们的模型在两个广泛使用的3D人体动作数据集上达到了最先进的性能。鸣谢本工作得到国家自然科学基金资助（ 61976137，61527804，U1611461，U19B2035）、STCSM（18DZ1112300）。该工作也得到了国家重点研发计划（2016YFB1001003）的支持。在此，作者对上海交通大学学生创新中心提供的GPU表示衷心的感谢斜率A BC D3D关节（关节/ 关节）斜率3D关节（关节/ 关节）Slp：2.29 / Inter：-0.11（GT）Slp：2.17 / Inter：-0.16（优化）估计的局灶GT局灶Slp：2.29 / Inter：-0.11（GT）Slp：2.02 / Inter：-.036（输入）估计的局灶GT局灶0.400.30拦截拦截长度/m方向2D关节2D关节907引用[1] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在ICCV，2019年10月。[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR中，第1302-1310页[3] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在CVPR中，第4724-4733页[4] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR中，第7035-7043页[5] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR中，第7103- 7112页[6] Yu Cheng，Bo Yang，Bo Wang，Wending Yan，andRobby T.Tan.用于视频中3d人体姿态估计的遮挡感知网络。在ICCV，2019年10月。[7] 海慈、淳于王、马小玄、益州王。三维人体位姿估计网络结构的优化。在ICCV，2019年10月。[8] Huseyin Coskun ， Felix Achilles ， Robert DiPietro ，Nassir Navab，and Federico Tombari.长短期记忆卡尔曼滤波器：用于姿态正则化的递归神经估计器。在ICCV，第5524-5532页[9] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。在AAAI，2018。[10] Ikhsanul Habibie ， Weipeng Xu ， Dushyant Mehta ，Gerard Pons-Moll，and Christian Theobalt.在野生人类姿态估计使用显式的2d特征和中间的3d表示。在CVPR中，第10905-10914页[11] Kai m ingHe，Geo r giaGkioxari，PiotrDoll a'r，andRossB.娘娘腔。面罩R-CNN。在YCCV，第2980-2988页[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NC，9（8）：1735[13] Zhongyue Huang，Jingwei Xu，and Bingbing Ni.通过交叉空间约束采样的人体运动生成。在IJCAI，第757-763页[14] Sergey Ioffe和Christian Szegedy

下载后可阅读完整内容，剩余1页未读，立即下载