提升单图像的3D姿态估计：基于联合2D和3D地标位置的方法

67 浏览量更新于2023-10-15 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2500从深处提升：从单个图像进行卷积3D姿态估计丹尼斯·托梅大学伦敦学院D. cs.ucl.ac.ukChris Russell图灵研究所和爱丁堡大学crussell@turing.ac.ukLourdes AgapitoUniversity CollegeLondonl. cs.ucl.ac.ukhttp://visual.cs.ucl.ac.uk/pubs/liftingFromTheDeep摘要我们提出了一个统一的配方的3D人体姿态估计的问题，从一个单一的原始RGB图像，原因联合2D联合估计和3D姿态重建，以提高这两个任务。我们采取了一种集成的方法，将3D人体姿势的概率知识与多级CNN架构融合在一起，并使用合理的3D地标位置的知识来优化搜索更好的2D位置。整个过程是端到端训练的，非常有效，并在Human3.6M上获得了最先进的结果，在2D和3D错误方面都优于以前的方法。1. 介绍从单个RGB图像估计人体的完整3D姿态是计算机视觉中最具挑战性的问题之一。它涉及到两个本质上的任务。首先，必须在图像中找到人体关节或界标的2D位置，这是一个由于不同相机视点、外部和自遮挡或服装、体形或照明的变化引起的视觉外观的大变化而受到模糊性困扰的接下来，将2D界标的坐标从单个图像提升到3D仍然是不适定的问题-与人的2D界标位置一致的可能3D姿态的空间是无限的找到与图像匹配的正确3D姿态需要通常以3D几何姿态先验和时间或结构约束的形式注入附加信息。我们提出了一种新的联合方法，从一个单一的RGB图像的2D地标检测和完整的3D姿态估计，利用联合推理的2D和3D地标位置的估计，以提高这两个任务。我们提出了一种新的CNN架构，该架构学习将卷积姿态机风格的2D地标检测器[44]提供的基于图像外观的预测与几何3D骨架信息输入相结合。编码在一个新的3D人体姿势的预训练模型中。由3D人体姿势模型捕获的信息作为附加层嵌入CNN架构中，该附加层将2D地标坐标提升到3D，同时使它们位于物理上合理的姿势的空间上。将由2D界标位置预测器提出的输出（纯粹基于图像表观）与由概率模型预测的3D姿态集成的优点这样，这两项任务显然是相互受益的。我们的方法的另一个优点是2D和3D训练数据源可以是完全独立的。深层架构只需要用2D姿势注释图像，而不是3D姿势。人体姿势模型是独立地和专门地从3Dmocap数据训练的。这种2D和3D训练数据之间的解耦带来了巨大的优势，因为我们可以完全独立地增加训练集。例如，我们可以利用额外的2D姿态注释而不需要3D地面实况，或者将3D训练数据扩展到进一步的mocap数据集而不需要同步的2D图像。我们的贡献：在这项工作中，我们展示了如何将预先学习的3D人体姿势模型直接集成到一个新的CNN架构（如图1所示）中，以进行联合2D地标和3D人体姿势估计。与预先存在的方法相比，我们不采用将2D地标作为给定的管道方法。相反，我们展示了如何将这样的模型用作CNN架构本身的一部分，以及该架构如何学习使用物理上可行的3D重建来寻找更好的2D地标位置。我们的方法在Human3.6M数据集上实现了最先进的结果，无论是在2D还是3D误差方面。2. 相关工作我们首先描述假设2D关节位置被提供作为输入并且专注于求解3D关节位置2501预测信念图2D融合投影姿态置信图融合信度图输入图像999输出2D姿势999阶段1阶段2级6预测信念图投影姿态置信图3D姿态最终3D姿势二维联合预测特征提取预测信念图911 1192D损失2D损失2D损失融合融合融合概率三维位姿模型三维提升投影三维提升投影三维提升投影二维联合预测二维联合预测特征提取特征提取3D/2D投影概率三维位姿模型图1：用于2D/3D人体姿势估计的多级深度架构。每个阶段产生一组置信图作为输出，2D标志的位置（每个标志一个）。来自每个阶段的信念图以及图像被用作下一阶段的输入。在内部，每个阶段都学会结合：（a）由卷积2D联合预测器提供的置信图，以及（b）由概率3D姿态模型提出的投影姿态置信图。3D姿态层负责将2D地标坐标提升到3D并将其投影到有效3D姿态的空间上然后，这两个置信图被融合到每个阶段的2D地标位置的单个输出建议集合2D和3D界标位置的准确性通过阶段逐渐增加每个阶段使用的损失仅需要2D姿势注释，而不是3D。整个架构是完全可区分的-包括新的投影姿态置信图和2D融合层-并且可以使用反向传播进行[Best以颜色看）。提升问题，并遵循学习直接从图像估计3D姿态的方法。来自已知2D关节位置的3D姿势：大量的工作集中在恢复人的3D姿态，给出完美的2D关节位置作为输入。早期的方法[19，34，25，6]利用人体骨骼或关节角度限制的解剖学知识从单个图像中恢复姿势。最近的方法[13，28，3]专注于直接从3D mocap数据学习人体的先验统计模型。非刚性运动结构方法（NRSfM）也可以恢复3D关节运动[8，4，14，20]，给定单目视频的每帧中关节的已知2D对应关系。作为非监督方法，它们的巨大优势在于它们不需要3D训练数据，相反，它们可以纯粹从2D数据学习3D姿势的线性基础。它们的主要缺点是它们需要在整个序列中显著移动相机以保证精确的3D重建。最近的工作NRSfM应用于人体姿态估计的重点是逃避这些限制，通过使用线性模型来表示人体的形状变化。例如，[10]定义了一个生成模型，该模型基于这样的假设：复杂的形状变化可以被分解为多个复杂形状变化的混合物，并获得有竞争力的结果。将人类3D姿势表示为使用3D mocap数据预训练的3D基础稀疏集的线性组合，也已证明是用于关节式人体运动的流行方法[28，43，49]，而[49]提出了凸松弛来联合估计稀疏表示的系数，并且相机视点[28]和[43]强制肢体长度约束。虽然这些方法可以从单个图像重建3D姿态，但它们的最佳结果是避免对视频序列的重建施加时间平滑。最近，Zhaoet al. [47]通过训练一个简单的神经网络从已知的2D关节位置恢复3D虽然完美的2D输入数据的结果是令人印象深刻的，在2D联合估计的不准确性没有建模，这种方法结合联合检测器的性能是未知的。来自图像的3D姿势：直接从图像推断3D姿态的大多数方法属于以下两类之一：（i）学习直接从图像特征回归3D姿态的模型，以及（ii）首先估计2D姿态的流水线方法，通常使用有区别地训练的部件模型或联合预测器，然后提升到3D。虽然基于回归的方法需要用地面实况3D姿态注释所有图像-这是一个对于这两种类型的方法至关重要的是如何将不同的身体关节之间的3D依赖关系或在推理过程中利用其他有用的3D几何信息的问题。许多早期关于从单个图像进行人体姿态估计的工作依赖于区分训练的模型来学习从图像特征（例如silhouette、HOG或SIFT）到3D人体姿态的直接映射，而不通过2D地标估计[1，12，11，24，32]。最近的直接方法利用深度学习[21，22，40，41]。基于回归的方法训练端到端网络，直接从图像中预测3D关节位置[41，21，22，48]。Li等[22]通过最大余量形式主义将模型联合依赖关系纳入CNN，其他人[48]通过嵌入不同的250222可参考的运动学模型到深度学习架构中。Tekin等人[35]提出了一种用于结构化预测的深度回归架构，该架构将用于监督学习的传统CNN与自动编码器相结合，该自动编码器隐式编码身体部位之间的3D依赖关系。随着CNN变得越来越普遍，2D联合估计[44]变得越来越可靠，最近的许多工作都试图使用管道方法来利用这一点诸如[9，16，40，26]的论文首先估计2D地标，然后使用结构化学习或图形模型在它们之间施加3D空间关系Simo-Serra等人[33]是最早提出一种方法的人之一，该方法通过建模其不确定性并将其传播通过3D形状空间，同时满足几何和运动学3D约束，自然地处理现成的身体部位检测器固有的噪声检测。该工作[31]还估计了2D关节的位置，然后使用外观预测3D姿态，并使用非参数模型预测所发现部件的可能3D姿态。另一个最近的例子是Bogoet al。[7]，他们将详细的统计3D身体模型[23]拟合到2D关节提案。Zhou等[50]解决了单目图像序列的3D姿态估计问题，该图像序列集成了2D、3D和时间信息，以考虑模型和测量中的不确定性与我们提出的方法类似，Zhouet al.的方法[50]不需要同步的2D-3D训练数据，即，它只需要2D姿态符号来训练CNN联合回归器，并且只需要单独的3D mocap数据集来学习3D稀疏基。与我们的方法不同，它依赖于时间平滑度以获得最佳性能，并且在单个图像上表现不佳。最后，Wuet al.[45]在Human3.6M数据集上进行实验评估，我们获得了最先进的结果。此外，我们还展示了MPII和Leeds数据集图像的定性结果。4. 人体姿态创建人类姿势模型的一个根本挑战在于缺乏对足够多样性为了弥补这种数据的缺乏，我们识别并消除了混淆因素，例如地平面中的旋转、肢体长度和左右对称性，这些因素导致训练数据中无法识别概念上相似的姿势。简单的预处理消除了一些因素。通过标准化数据来解决尺寸变化，使得人类骨架上的平方肢体长度之和为1;而通过在x轴上翻转每个姿势并将左重新注释为右来利用左右对称性，反之亦然。4.1. 在训练集中允许地平面中的旋转不变性更具挑战性，需要与数据模型集成。我们寻求每个姿势的最佳旋转，使得在旋转姿势之后，它们由低秩紧凑高斯分布紧密地近似。我们将其表述为一组变量的优化问题。给定一组N个训练3D姿态，每个表示为3D界标位置的（3×L）矩阵Pi，其中i ∈ {1，2，..，N}和L是人类关节/地标的数量;我们寻求平均值的全局估计3D姿态μ，一组J个标准正交基矩阵1e和噪声方差σ，以及每样本旋转Ri和基系数ai，以最小化以下估计椅子、沙发、.和我们的方法有相似之处虽然我们的方法在发展方面有共同点，ΣNarg min.||2||2（一）3D和2D训练数据的耦合以及使用来自3D的投影来改进2D预测，网络结构非常不同，并且与我们不同，它们不对3D人体姿势估计进行定量评估R，µ，a，e，σi=1+Jj=1（ai，j·σj）2+lnJ2Jj=13. 网络架构哪里有i·e=0ai，jej是一个多变量图1说明了我们的方法的主要贡献，这是一种新的多级CNN架构，可以端到端训练，以联合估计2D和3D联合位置。至关重要的是，它包括一个新的层，基于人体姿势的概率3D模型，负责将2D姿势提升到3D，并将关于骨架结构的3D信息传播到2D卷积层。以这种方式，2D姿态的预测受益于编码的3D信息。第4节描述了新的概率3D模型的人体姿势，训练的数据集的3Dmo-cap数据。第5节描述了CNN架构的所有新组件和层。第6节描述向量和矩阵之间的乘法，以及||·||2是矩阵的平方Frobenius范数这里的y轴是假设指向上，并且所考虑的旋转矩阵Ri是地平面旋转。考虑到大量的3D姿态样本（在Human3.6M数据集上训练时约为100万），以及e和σ样本之间的复杂相互依赖性，分类要求意味着不可能使用非线性求解器（如Ceres）直接求解所有变量的联合优化相反，我们仔细地初始化1当我们说e是一组标准正交基矩阵时，我们的意思是每个矩阵，如果展开成向量，是单位范数的，并且与所有其他展开矩阵正交。σΣJ2503e）、f）的d）、h）c）、b）、a)g）的图2：使用2D PCA对齐后3D训练数据的可视化（见第4.1节）。请注意所有姿势的方向都相同。站立姿势a）、b）、c）和d）都彼此靠近，而远离坐下姿势f）和h），形成另一个清晰的集群。在执行闭合形式的PPCA [38]以更新μ，a，e，σ之间交替;并使用Ceres [2]更新Ri以最小化上述误差。当我们这样做时，我们稳步地将基的大小从1增加到其目标大小J。这阻止了可以通过旋转解决的明显变形在早期阶段被锁定到基础中，并且根据经验导致更低成本的解决方案。人类姿势作为PCA基础的混合，以及相关的作品，如[42，8]，将姿势表示为样本之间的插值。这些方法非常适合于对紧密分布的姿势（例如，行走），其中测试数据中的样本可能接近于训练中看到的姿势。在我们用于评估的Human3.6M数据集中，情况显然并非如此。放大图2的边缘，可以看到许多孤立的路径，其中的运动只发生一次，就再也不会出现。然而，正是这些低密度的区域，我们感兴趣的建模。因此，我们寻求姿态空间的粗略表示，该姿态空间表示低密度区域的一些内容，但也表征姿态空间的多模态性质我们将数据表示为使用少量聚类的概率PCA模型的混合物，并使用EM算法进行训练[38]。当使用少量聚类时，正确初始化算法非常重要，因为意外地使用关于单个模式的多个聚类进行初始化可能导致较差的密度估计。为了初始化，我们使用一个简单的启发式。我们首先对对齐的姿势进行子采样（我们称之为P），然后计算各对之间的欧几里得距离d我们寻求一组k个样本S，使得点与其最近样本之间的距离最小化Σ为了初始化，我们使用Tomasi-Kanade [39]算法的变体来估计平均3D姿态μ。作为YCOM-argminSmind（s，p）（2）s∈Sp∈P分量不受平面旋转的影响，我们将y方向上每个点的平均值作为µ的y分量的估计值。对于x和z分量，每个样本的x和z分量，并将它们连接成一个大的2N×L矩阵 M ，并找到这个矩阵的秩 2 近似，使得M<$A·B。然后我们呼叫-通过用以下项替换A的每对相邻的行来计算A秩为tw o的最接近的标准正交矩阵，并且作为我们对μ的x和z分量的估计2。这种优化的最终结果是数据的紧凑的低秩近似，其中所有重建的姿势看起来具有相同的取向（参见图2）。在下一节中，我们将模型扩展为多模态分布，以更好地捕捉3D人体姿势空间中的变化。4.2. 三维人体姿态的多模态模型虽然第4.1节的学习高斯模型可以直接用于估计3D（见表1），但图2的说明表明数据不是高斯分布，而是使用多模态分布更好地描述。在这样做的时候，我们深受两种方法的启发，例如[27]，它们描述了2At是A的伪逆。我们使用贪婪选择来找到S，保持我们之前对S的估计不变，并迭代地选择下一个可以确定的s，使得{s}S最小化上述成本。使用此过程找到的3D姿态样本的选择可以可以在图2的渲染姿势中看到。在实践中，我们停止提出候选，当他们出现太接近现有的候选人，如样本（a-d）所示给定聚类中心的这些候选者，我们将每个对齐的点分配到代表其最近候选者的聚类中，然后运行[38]的EM算法，构建概率PCA基的混合。5. 一种新的用于2D和3D位姿推断的我们从单个RGB图像进行的3D姿态推断利用了一个多级深度卷积架构，经过端到端训练，反复融合和细化2D和3D姿态，第二个模块采用最终预测的2D地标并将其最后一次提升到3D空间以进行最终估计（见图1）。在其核心，架构是一个新的改进卷积姿态机的魏等。[44]，他专门在2D中进行了推理，并提出了一种架构，2504不第一阶段第二阶段第三阶段第四阶段第五阶段第六第一阶段第二阶段第三阶段第四阶段第五阶段第六9.19 6.64毫米 3.34 mm3.28 mm3.10毫米图3：架构的不同阶段返回的结果。左上：将3D点投影回2D空间后2D骨架的演变;左下角：在各个阶段中，对标志性左手的信念的演变。右：3D骨架，每个标志的相对平均误差（毫米）。即使地标位置不正确，模型也会返回物理上合理的解决方案。使用图像的知识和前一阶段的界标位置我们通过在每个阶段生成投影的3D姿态置信图来修改该架构从实现的角度来看，这是通过引入两个不同的层来完成的，即概率3D姿态层和融合层（参见图1）。图3显示了如何在架构的每个阶段降低置信图中的2D不确定性，以及如何在每个阶段提高3D姿态的准确性。5.1. 每个阶段的架构顺序架构由6个阶段组成。每个阶段由4个不同的组件组成（见图1）：预测基于CNN的置信图：我们使用一组卷积和池化层，等同于原始CPM架构[ 44 ]中使用的那些层，其将从图像学习特征获得的证据与从前一阶段（t-1）获得的信念图相结合，以预测2D人体关节位置的信念图的最新集合。将2D置信图提升到3D：将基于CNN的置信图的输出作为新层的输入，该新层使用新的预训练的概率3D人体姿势模型来将所提出的2D姿势提升到3D。投影的2D姿态置信图：由前一层估计的3D姿态被投影回图像平面以产生一组新的投影姿态置信图。这些贴图封装了身体部位之间的3D依赖关系2D融合层：每个阶段中的最后一层（在5.5节中描述）学习权重，以将两组置信图融合成传递到下一阶段的单个估计。最终提升：然后将作为最后阶段（t = 6）的输出产生的置信图提升到3D，以使用我们的算法将2D姿势提升到3D来给出姿势的最终估计（参见图1）。5.2. 基于CNN的信念图预测卷积姿态机[44]可以理解为Ramakrishna等人早期工作的更新。[29]使用深度卷积架构。在这两种方法中，在每个阶段t处并且对于每个界标p，算法返回每像素密集置信图bp[u，v]，其示出了联合中心或界标出现在任何位置中的置信度。给定像素（u，v）。对于阶段t∈ {2，. . .，T}，置信图不仅是包含在置信图中的信息的函数，图像，而且还包括由并行级计算的信息。在卷积姿态机器的情况下，以及在我们使用相同架构的工作中，卷积宽度和架构设计的总结如图1所示，[44]中给出了更多训练细节。两个[29，44]都预测了不同地标的位置因此，架构的每个阶段中的输入和输出层被替换为更大的集合，以考虑更大数量的地标。然后通过使用CPM模型中为所有先前存在的层找到的权重来初始化新架构在重新训练之后，CPM返回界标位置的每像素估计，而3D估计技术（在下一节中描述）利用2D位置。为了将这些信念图转换为位置，我们选择最有信心的像素作为每个地标Yp=arg maxbp[u，v]（3）（u，v）5.3. 将2D信念图提升到3D我们遵循[50]假设弱透视模型，并首先描述使用第4节中描述的单峰高斯3D姿态模型估计单个帧的3D姿态的最简单情况。该模型由一个平均形状μ、一组基矩阵e和方差σ2组成，从中我们可以计算出最可能的样本2505来自Human3.6M数据集来自MPII和Leeds的2.01.5Z Z1.00.50. 0Y YX X1. 5ZZ1.0YX1.5Z1.0MPII和LeedsYX2.01.50.50.0YXX1.50.50.02.0Z1.00.50.0Z1.00.50.01.5Z1.00.50.0图4：左：来自Human3.6M数据集的结果。针对从不同动作采取的每个姿势示出了所识别的2D界标位置和3D骨架：散步，打电话，打招呼，讨论，坐下。右：MPII [5]（第1至3列）和Leeds [18]数据集（最后一列）图像的结果。该模型没有在这些数据集中包含的图像上进行训练，但它经常检索正确的2D和3D关节位置。最后一行示出了该方法在2D或3D界标的识别中失败的示例情况。Human3.6M中的2D姿态优化图5：界标细化：左：2D预测界标位置;右：使用投影的3D姿势改进预测。从模型中提取出一个可以产生投影图像的图像。使用局部方法，我们在可能的旋转空间上进行迭代，并且对于每个旋转选择，我们保持这个固定值，并且在选择R的任何选择的最小成本解之前求解s和a。在固定旋转选择的情况下，可以预先计算项αERμ和αERe，并且找到最佳α变成了一个简单的线性最小二乘问题。这个过程是非常高效的，通过对旋转进行过采样，并在10000个位置进行彻底检查，我们可以保证找到一个非常接近全局最优值的解决方案。在实践中，使用20个样本并使用非线性最小二乘求解器细化最佳解的旋转和基础系数获得相同的重建，并且我们使用检查80个位置并使用最佳解作为我们的3D估计的更快选项。这使我们接近全局最优值，并具有与找到全局最优值相同的平均精度。更多-argmin ||Y − s均方根（µ + a·e）||2个以上||σ·a||2（四）over，它允许我们从稀疏的地标位置升级R，a2 2到3D使用一个高斯在大约3,000帧每秒-在标准笔记本电脑上使用Python代码。其中，E是正交投影矩阵，E是已知的外部相机校准矩阵，并且s是估计的每帧尺度。虽然，给定R，这个问题是凸的，a和s在一起3，对于未知的旋转矩阵R，问题是非常非凸的局部最优值通常在姿态空间中相距很远，并且差的最优值导致显著更差的3D重建。我们利用矩阵R而不是试图解决这个优化问题3要看到这一点，考虑我们求解的平凡重新参数化，sµ+b·e，然后设a=b/s。为了处理由高斯混合组成的模型，我们遵循[27]，简单地独立求解每个高斯，并选择最可能的解。5.4. 将3D姿势投影到2D置信图上投影姿态模型在整个架构中交错（参见图1）。我们的目标是通过融合关于3D物理可扩展性的额外信息来纠正每个阶段关于地标位置的给定来自先前分量的解R、s和a，我们估计物理上合理的投影3D姿态为Y=sER（µ+a·e）（5）1.51. 51.5Z1.0ZZ1. 01.00.50.50. 50.00.00. 0YYYXXX2. 01. 51. 00. 50. 02.01.51.00. 50. 02.01.51.00.50. 0YYXYXYXZ2506Bt102方向讨论吃问候打电话照片构成购买LinKDE [15]132.71183.55132.37164.39162.12205.94150.61171.31Li等[22日]-136.8896.94124.74-168.68--Tekin等人[37]第三十七届102.39158.5287.95126.83118.37185.02114.69107.61Tekin等人[35]第三十五届-129.0691.43121.68-162.17--Tekin等人[36个]85.03108.7984.3898.94119.3995.6598.4993.77Zhou等[50个]87.36109.3187.05103.16116.18143.32106.8899.78Sanzari等人[三十一]48.8256.3195.9884.7896.47105.5866.30107.41我们的-单一PPCA模型68.5578.2777.2289.0591.63110.0574.9283.71我们的-混合PPCA模型64.9873.4776.8286.4386.28110.6768.9374.79坐坐下来吸烟等待遛狗步行走在一起平均LinKDE [15]151.57243.03162.14170.69177.1396.60127.88162.14Li等[22日]----132.1769.97--Tekin等人[37]第三十七届136.15205.65118.21146.66128.1165.8677.21125.28Tekin等人[35]第三十五届----130.5365.75--Tekin等人[36个]73.76170.485.08116.91113.7262.0894.83100.08Zhou等[50个]124.52199.23107.42118.09114.2379.3997.70113.01Sanzari等人[三十一]116.89129.6397.8465.94130.4692.58102.2193.15我们的-单一PPCA模型115.94185.7288.2588.7392.3776.4877.9592.96我们的-混合PPCA模型110.19173.9184.9585.7886.2671.3673.1488.39表1：我们的方法在Human3.6M数据集上的3D姿态估计结果与遵循方案#1进行评估的竞争对手的比较（3D误差以mm为单位）。在平均误差方面，我们大大优于所有其他方法，比我们最接近的竞争对手平均提高了4.7 mm请注意，一些方法[37，50]使用视频作为输入，而不是单个帧。然后将其嵌入到信念图中，对于结束到结束的训练，总损失是所有.层t≤6c t.新的层被实现为普岛j1如果（i，j）=Yp0否则。（六）Caffe框架[17]内卷积姿态机[44]的已发布代码的扩展作为Python层，使用随机梯度De更新权重，然后使用高斯滤波器进行卷积5.5. 2D信念图根据以下等式，将由概率3D姿态模型预测的2D置信图与基于CNN的置信图bp有冲劲的气味在补充材料中给出了通过3d姿态空间使用提升估计的新颖梯度更新的细节6. 实验评价fp=w bp+（1−w）（七）Human3.6M数据集：模型经过训练和测试tt tttt其中wt∈[0，1]是作为端到端学习的一部分训练的权重。然后，将这组融合的置信图ft传递到下一阶段，并用作输入以引导2D重建。联合位置的估计，而不是置信图卷积姿势机器使用的。5.6. 目标与培训在[44]之后，在每个阶段最小化的目标或成本函数ct是层fp的生成的融合图与地面实况在由360万ac-策划3D人体姿势[15]。这是5名女性和6名男性受试者的视频和mocap数据集，从4个不同的视角捕获，显示他们执行典型的活动（打电话、走路、问候、吃饭等）。2D评价：图5显示了2D预测是如何通过投影姿势模型进行改进，减少过度-每个界标的所有平均误差。在[44]的估计值上使用我们的完整方法的2D误差减少在幅度上与由于从Zhou等人的工作移动的架构的变化而引起的改进相当。[50]关于pt最先进的2D架构[44]（即，减少0.59由高斯模糊稀疏每个地标pL+1像素对0.81像素）。详见表2。3D评估：不同的作者遵循了几个评估协议来衡量性能ct=||2||2p=1z∈Z（八）他们在Human3.6M上的3D姿态估计方法数据集。表1和表2显示了3D姿态=25073D误差评价（mm）协议#2Yasin等人[46个]108.3Rogez等人[30个]88.1我们的-混合PPCA模型70.73D误差评价（mm）方案#3Bogo等人[七]《中国日报》82.3我们的-混合PPCA模型79.62D像素误差Zhou等[50个]10.85[44]第四十四话10.04我们使用3D细化9.47表2：对Human3.6M数据集的进一步评价。前两个表比较了我们的3D姿态估计误差与方案#2或#3上的竞争对手。下表将我们的2D姿态估计误差与竞争对手进行了比较。我们的方法将2D地标预测提升到一个合理的3D模型中，然后将它们投影回图像中，大大减少了错误。注意[50]使用视频作为输入和动作标签的知识。估计与以前的作品，在那里我们照顾到评估- uate使用适当的协议。方案1是Human3.6M的最标准评价方案，随后是[15，22，37，35，36，50，31]。训练集由5个受试者（S1、S5、S6、S7、S8）组成，而测试集包括2个受试者（S9、S11）。50 FPS的原始帧速率被下采样到10FPS，并且对来自所有4个摄像机和所有试验的序列进行评估。报告的误差度量是3D误差，即从估计的3D关节到地面实况的欧几里得距离，在Human3.6M骨骼模型的所有17个关节上取平均值表1显示了我们的方法和使用协议#1的竞争方法之间的比较。我们的基线方法使用一个单一的单峰概率PCA模型优于几乎所有的方法在大多数动作类型，除了Sanzari等人。[31]它在整个数据集的平均表现仍然优于它。混合模型再次对此进行了改进，提供了4。比Sanzari等人的改进76mm，我们最接近的竞争对手。方案#2，然后是[46，30]，选择6名受试者（S1、S5、S6、S7、S8和S9）进行培训，并选择受试者S11进行测试。原始视频被下采样到每64帧，并且对来自所有4个摄像机和所有试验的序列进行评估。在这种情况下报告的误差度量是3D姿态误差，该3D姿态误差等同于直到相似性变换的每关节3D误差（即，使用Procrustes分析，在每帧的基础上将每个估计的3D姿态与地面真实姿态对准）。误差在14个关节上平均。表2显示了我们的方法和使用协议#2的其他方法之间的比较。尽管我们的模型仅使用协议#1中用于训练的5个受试者（少一个受试者）进行训练，但它仍然优于协议#1中的受试者其他方法[30，46]。方案#3，然后是[7]，选择与方案#1相同的受试者进行培训和测试。然而，评估仅针对从试验1的正面摄像机（“cam 3”）捕获的序列，并且原始视频未被二次采样。在这种情况下使用的误差度量是如协议#2中所述的3D姿态误差。误差在14个关节的子集上平均。表2显示了我们的方法和[7]之间的比较。我们的方法优于Bogo等人。[7]平均增加了近3mm，即使Bogo等人。它利用了一个高质量的详细统计3D身体模型[23]，该模型在数千次3D身体扫描的基础上训练，可以捕捉人体形状的变化及其通过姿势的变形。MPII和Leeds数据集：所提出的方法专门在Human3.6M数据集上训练，可用于识别不同数据集中包含的图像的2D和3D地标。图4显示了MPII数据集[5]和Leeds数据集[18]的一些定性结果，包括失败案例。注意概率3D姿态模型如何生成解剖学上合理的姿态，即使2D界标估计并不完全正确。然而，如底行所示，即使2D姿态中的小误差也会导致完全不同的3D姿态。这些不准确性可以在没有进一步的3D数据的情况下通过注释额外的RGB图像来减轻，以用于从不同的数据集进行训练。7. 结论我们已经提出了一种新的方法，从一个单一的图像，优于以前的解决方案，人类3D姿态估计。我们将其视为迭代优化的问题我们的方法显示了3D思维的重要性，即使是在单个图像内的2D姿态估计，我们的方法比[44]更好的2D准确性，它是基于2D方法。我们从2D升级到3D的新方法非常有效。当使用3个模型时，如表1和表2所示，基于CPU的Python代码中每个阶段的升级速度约为每秒1,000帧，而卷积姿势机器的基于GPU的实时方法已经宣布。集成这些系统以提供可靠的实时3D姿态估计器是自然的未来方向，将这项工作与更简单的2D方法集成以在较低功率设备上进行实时姿态估计也是如此。致谢这项工作由SecondHands项目资助，来自欧盟ChrisRussell 在 EPSRC 资助 EP/N510129/1 下得到了 AlanTuring Insti- tute的部分支持。2508引用[1] A. Agarwal和B. Triggs从单目图像中恢复三维人体姿态。 IEEE transactions on pattern analysis and machineintelligence，28（1）：44-58，2006. 2[2] S. Agarwal，K. Mierle及其他谷神星解算器网址：//ceres-solver.org网站。4[3] I. Akhter和M. J.布莱克。三维人体姿态重建的姿态条件关节角度限制。在2015年IEEE计算机视觉和模式识别会议集，第1446-1455页中。2[4] I. Akhter，Y.谢赫河Khan和T.卡纳德轨迹空间：非刚性结构运动的对偶表示 .IEEE Transactions on PatternAnalysis and Machine Intelligence，2011。2[5] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒人类姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年。六、八[6] C. 我和巴恩。A. 卡卡迪亚里斯从单个未校准图像估计人体测量和姿势计算机视觉与图像理解，81（3）：269-284，2001。2[7] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议，第561-578页。施普林格，2016年。三、八[8] C. Bregler，A. Hertzmann和H.比尔曼从图像流中恢复非刚性三维形状。计算机视觉和模式识别，2000年。诉讼IEEE Conference on，第2卷，第690-696页。IEEE，2000年。二、四[9] X. Chen和A. L.尤尔。通过具有图像相关成对关系的图形模型的神经信息处理系统的进展，第1736-1744页，2014年。3[10] J. Cho，M. Lee和S. 哦使用procrustean正态分布混合模型的复杂非刚性 3d 形状恢复 International Journal ofComputer Vision，117（3）：226-246，2016. 2[11] C. H. Ek，P.H. S. Torr和N. D.劳伦斯高斯过程潜变量模型在人体姿态估计中的应用。以. Popescu-Belis，S.Renals和H. Bourlard，编辑，MLMI，计算机科学第4892卷，第132-143页。Springer，2007. 2[12] A. Elgammal和C.李你使用活动流形学习从细柔体推断3d身体姿势。载于CVPR，2004年。2[13] X. 范，K.Zheng，Y.郑氏，中国科学院植物研究所所长。Zhou和S.王. 三维人体姿态重建中的姿态局部欧洲计算机视觉会议，第174Springer，2014. 2[14] Gotardo和A.马丁内斯计算相机的平滑时间轨迹和结构中的可变形形状。IEEE Transactions on Pattern Anal-ysis and Machine Intelligence，2011。2[15] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库人类3。6m：大规模数据集和预测方法，用于自然环境中的3D人体感知IEEEtransactionsonpatternanalysisandmachineintelligence，36（7）：1325-1339，2014. 三、七、八[16] A. Jain，J.Tompson，M.安德里卢卡湾W. Taylor和C.布莱格勒。用卷积网络学习人体姿态估计特征。arXiv预印本arXiv：1312.7302，2013。3[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。7[18] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型。2010年英国机器视觉会议的开幕式上。doi：10.5244/C.24.12。六、八[19] H.- J.Lee和Z.尘从单个视图确定三维人体姿势。计算机视觉，图形和图像处理，30（2）：148-168，1985。2[20] M. Lee、J. Cho和S.哦非刚性结构运动的普克鲁斯特正态分布。 IEEE Transactions on Pattern Analysis andMachine Intelligence，2016。2[21] S. Li和A. B.陈基于深度卷积神经网络的单目图像三维人体姿态估计。亚洲计算机视觉会议，第332Springer，2014. 2[22] S. Li，W. Zhang和A. B.陈使用深度网络进行最大余量结构化学习，用于3d人体姿势估计。在IEEE计算机视觉国际会议论文集，第2848-2856页，2015年。二七八[23] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。 Smpl ：一个皮肤的多人线性模型。 ACMTransactions on Graphics（TOG），34（6）：248，2015。三、八[24] G. Mori和J. Malik。利用形状上下文恢复三维人体轮廓。PAMI，2006年。2[25] V. Parameswaran和R.切拉帕从单个视角图像进行与视角无关的人体姿态估计.计算机视觉与模式识别，2004年。CVPR 2004。2004年IEEE计算机协会会议录，第2卷，第II-16页。IEEE，2004年。2[26] T. Pfister，J. Charles，

下载后可阅读完整内容，剩余1页未读，立即下载