多视图融合的三维人体姿态估计方法

140 浏览量更新于2023-10-12 1 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1三维人体姿态估计的跨视图融合邱海波中国科学技术大学haibo-qiu@outlook.com王春雨微软亚洲研究院chnuwa@microsoft.com微软亚洲研究院jingdw@microsoft.comNaiyanWangTuSimplewinsty@gmail.com曾文军微软亚洲研究院wezeng@microsoft.com摘要我们提出了一种方法来恢复绝对的三维人体姿态从多视图图像中，通过将多视图几何先验在我们的模型。它包括两个独立的步骤：（1）估计多视图图像中的2D姿态，(2)从多视图2D姿态恢复3D首先，我们将跨视图融合方案引入CNN中，以联合估计多个视图的2D姿态。因此，每个视图的2D姿态估计已经受益于其他视图。其次，我们提出了一个递归的图像结构模型来从多视角的二维姿态中恢复三维姿态。该方法以合理的计算代价逐步提高了三维位姿的精度. 我们在两个人公共数据集H36M和Total Capture。两个数据集上的平均每关节位置误差为26mm和29mm，显著优于最新技术水平（26mm vs52 mm，29mm vs35 mm）。1. 介绍3D姿态估计的任务由于深度神经网络的引入而取得了重大进展。大多数努力[16，13，33，17，23，19，29，28，6]已被用于从单目图像估计相对3D所估计的姿势以骨盆关节为中心，因此不知道它们在环境（世界坐标系）中的绝对位置。在本文中，我们解决了在世界坐标系中从多个相机估计绝对3D姿态的问题[1，15，4，18，3，20]。大多数的工作都遵循先估计二维位姿，然后再从二维位姿中恢复三维位姿的然而，后一步骤通常取决于第一步骤的性能，不幸的是，第一步骤在实践中通常具有较大的误差，特别是当遮挡或运动这项工作是在Haibo Qiu在微软亚洲研究院实习时完成的图像中出现模糊。这对最终的三维估计提出了很大的挑战。另一方面，使用图像结构模型（PSM）[14，18，3]进行3D姿态估计可以通过考虑其空间依赖性来减轻不准确的2D关节它通过N×N×N网格将根关节周围的空间离散化，并将每个关节分配给N3个bin（假设）中的一个。它联合最小化估计的3D位姿和2D位姿之间的投影误差，以及关节的空间配置及其以前的结构。然而，空间离散化导致大的量化误差。例如，当围绕人的空间的尺寸为2000mm并且N为32时，量化误差大到30mm。我们可以通过增加N来减少错误，但推理成本也会增加到O（N6），这通常是难以解决的。我们的工作旨在应对上述挑战。首先，我们通过使用基于CNN的方法从多个视图联合估计它们来获得更准确的2D姿态。它巧妙地解决了为2D姿态热图融合找到不同视图之间的对应位置的挑战我们通过图1所示的融合神经网络来实现这个想法。融合网络可以以端到端的方式与任何基于CNN的2D姿态估计器集成，而无需中间监督。其次，我们提出了递归图像结构模型（RPSM），从估计的多视图2D姿态热图中恢复3D姿态。与直接将空间离散为大量bin以控制量化误差的PSM不同，RPSM使用少量bins递归地将每个关节位置（在连续迭代中估计）周围的空间离散为更细粒度的因此，估计的三维姿态是一步一步地细化由于每一步中的N通常很小，因此对于单次迭代而言，推理速度非常快。在我们的实验中，RPSM减少了至少50%的错误相比，PSM的推理时间几乎没有增加。43424343照相机1检测热图融合GT融合层热图L2损失照相机2L2损失PPP我L2损失检测到的热图L2损失融合热图gt热图图2.对极几何：图像点Y u反向投影到由相机Cu和Y u定义的3D中的射线。这条线被成像图1.用于二维位姿估计的跨视图融合。这些图像首先被输入CNN以获得初始热图。然后，每个视图的热图通过融合层与来自其他视图的热图融合整个网络是端到端学习的。对于H36M数据集[11]上的2D姿态估计，所有关节的平均检测率从89%提高到96%。这种改善对于最易弯曲的“腕”关节是显著的对于3D姿态估计，将PSM改为RPSM将平均误差从77mm显著降低到26mm。即使与平均误差为52mm的最先进方法相比，我们的方法也将误差减半。我们进一步在Total Capture数据集上评估我们的方法[27]，以验证其泛化能力。它仍然优于最先进的[26]。2. 相关工作我们首先回顾了多视角三维姿态估计的相关工作，并讨论了它们与我们的工作有何不同然后讨论了特征融合的一些技术。多视图3D姿态估计提出了许多方法[15，10，4，18，3，19，20]用于多视图姿态估计。他们首先定义一个身体模型表示为简单的基元，然后优化模型参数，以对齐身体模型的投影与图像特征。这些方法在所使用的图像特征和优化算法方面有所不同。我们专注于图像结构模型（PSM），它被广泛用于对象检测[8，9]，以模拟对象部分之间的空间依赖性。该技术也用于2D[32，5，1]和3D[4，18]姿态估计，其中部分是身体关节或肢体。在[1]中，等人首先用PSM估计多视图中的2D位姿，然后通过直接三角测量获得3D位姿。后来，Burenius等人[4]和Pavlakoset al. [18]将PSM扩展到多视图3D人体姿态估计。例如，在[18]中，他们首先独立估计2D姿势，我在摄像机Cv。投影到Y u的3D点P必须位于这条射线上，因此P在相机Cv中的图像必须位于I上。多图像特征融合融合来自不同来源的特征是计算机视觉文献中的常见做法。例如，在[34]中，Zhuet al.提出根据光流将相邻帧（在视频序列中）的特征弯曲到当前帧，以便鲁棒地检测对象。Ding等[7]建议对多尺度特征进行聚合，从而对大型和小型对象实现更好的Amin等人[1]提出通过探索多视图图像之间的几何关系来估计2D姿态。它与我们的工作不同之处在于，它不会融合来自其他视图的特征来获得更好的2D热图。相反，他们使用多视图3D几何关系从“不完美”热图中选择在[12]中，多视图一致性被用作监督源来训练姿态估计网络。据我们所知，以前没有融合多视图特征以获得更好的2D姿态热图的工作，因为在不同视图中找到对应的特征是一项具有挑战性的任务，这是我们这项工作的关键贡献之一。3. 基于交叉视图融合的二维位姿估计我们的2D姿态估计器将多视图图像作为输入，分别为每个视图生成初始姿态热图，然后融合不同视图的热图，以便每个视图的热图受益于其他视图。该过程在单个CNN中完成，并且可以进行端到端训练。图1显示了两视图融合的流水线。将其扩展到多视图是微不足道的，其中每个视图的热图与所有其他视图的热图融合。我们的融合方法的核心是找到一对视图之间的假设在三维空间中有一个点P.参见图2。其在视图u和v中的投影是Yu∈Zu和Yv∈Zv，P P每个视图，然后使用PSM恢复3D姿态。我们的工作不同于[18]，因为我们将PSM扩展为递归的版本，即，RPSM，它有效地细化了3D姿态，其中Zu和Zv分别表示两个视图中的所有像素位置。视图u的热图和v是Fu={xu，···，xuu}和Fv={xv，···，xvv}。1| Z |1| Z|时间一步一步。此外，他们[18]不像我们那样执行跨视图特征融合。融合视图u中的特征（比如xu）与来自Fv的特征的核心思想是建立以下两者之间的对应关系：4344PPP我我i ij我PP1.00.70.61.00.6图3.一个通道的双视图特征融合。顶部网格表示视图A的特征图。视图A中的每个位置通过权重矩阵连接到视图B对极线上的位置的权重大多为正（黄色单元格中的数字）。视图A中的不同位置具有不同的权重，因为它们对应于不同的核线。两种观点：v|ΣZ|xu←xu+ωj，i·xv，<$i∈Zu，（1）j=1如果相应位置偏离核线，则进行训练。允许负权重表示抑制关系。在第二种方法中，我们允许网络从训练数据中自由学习权重。最终的2D姿态估计结果对于两种方法也是相似的。所以我们使用第二种方法进行训练，因为它更简单。3.2. 局限性与解决方案隐式编码极线几何信息的学习融合权重取决于相机配置。因此，在特定相机配置上训练的模型不能直接应用于另一不同配置。我们提出了一种方法来自动适应我们的模型到一个新的环境，没有任何注释。我们采用半监督训练方法，遵循以前的工作[21]。首先，我们在现有数据集上训练单视图2D姿态估计器[31]，例如具有地面实况姿态注释的MPII。然后我们将训练好的模型应用到多个摄像头拍摄的图像上其中ωj，i是一个待确定的标量。理想情况下，对于特定的在新的环境中，收获了一套假的姿势标签由于估计对某些人来说可能不准确，i，只有一个ωj，i应该是正的，而其余的都是零。具体地，当视图u中的像素i和视图v中的像素j对应于相同的3D点时，ωj，i为正假设我们只知道你，我们怎么能找到对应的-在不同视角的图像中的响应点Yv我们知道Yv肯定位于核线I上。但是由于我们不知道P的深度，这意味着它可能在由Cu和Yu定义的直线上运动，我们不能确定Yv在I上的确切位置。这种模糊性对跨视图融合提出了挑战。我们的解决方案是将xu与线I上的所有特征融合。乍一看，这听起来可能很残酷，但实际上是优雅的。由于融合发生在热图层中，因此理想情况下，xv在Yv（青色点）处应具有较大的响应，图像，我们建议使用多视图一致性来过滤不正确的标签。我们保留了在不同视图中一致的标签，如下[21]。在训练交叉视图融合网络时，我们不对过滤后的关节进行监督。我们将在实验部分评估这种方法。4. 基于RPSM的多视点三维位姿估计我们将人体表示为具有M 个随机变量J={J1，J2，···，JM}的图形模型，其中每个变量对应于身体关节。每个变量Ji将状态向量Ji=[xi，yi，zi]定义为世界坐标系中的身体关节，并取其值JP在对极线I上的其他位置处的零。这意味着直线上的非对应位置对融合没有贡献或贡献很小。因此，融合核线上的所有像素是一种简单而有效的解决方案。3.1. 执行特征融合规则（Eq. （1）可以解释为离散状态空间。参见图4。之间的边缘两个变量表示它们的条件依赖性，并且可以被解释为物理约束。4.1. 图像结构模型给定3D姿态J和多视图2D姿态热图F的配置，后验变为[3]：施加在姿态热图的每个通道上的全连接层，其中ω是可学习参数。图3说明了这个想法。对应于不同关节的特征图的不同通道共享相同的权重p（J|F）=1Z（F）YMi=1φconf（Ji，F）Y（m，n）∈E双肢（Jm，Jn），（二）因为交叉视图关系不取决于关节类型，而仅取决于相机视图中的像素位置。将特征融合视为神经网络层，可以实现权重的端到端学习。我们研究了两种训练网络的方法。在第一种方法中，4345我们在其中Z（F）是配分函数，E是图4所示的图边。基于先前估计的多视图2D姿态热图F来计算一元势函数φconf（Ji，F）。两两潜在的功能limb（Jm，Jn）编码的关节之间的肢体长度约束。434632N32×2图4.在我们的实验中使用的人体图形模型有17个变量和16条边。离散状态空间我们首先使用在所有视图中检测到的根关节的2D位置对根关节的3D位置进行然后将3D姿态的状态空间约束在以根关节为中心的3D包围体体积的边长s设定为2000mm。体积由N×N×N网格G离散。所有身体关节共享相同的状态空间G，其由N3个离散位置（仓）组成一元势每体关节假说，即.料屉在网格G中，由其在世界坐标系中的3D位置定义我们将其投影到像素坐标系中的所有摄像机视图的摄像机参数，并得到相应的联合信心从F。我们计算所有相机视图的平均置信度作为假设的一元势。L图5.递归图示结构模型的图解。假设我们在前一次迭代中分别估计了两个关节J m和J n的粗略位置Lm和Ln。然后，我们将两个关节周围的空间划分为更细粒度的网格，并估计更精确的位置。边界体积的长度增加N可以减少量化误差，但计算时间很快变得棘手。例如，如果N=64，则推理速度将慢64 =（64）6倍。而不是在一次迭代中使用一个大的N，我们建议通过多个阶段的过程，并在每个阶段使用一个小的N递归细化的联合位置。在第一阶段（t=0），我们使用粗网格（N=16）离散围绕三角化根关节的3D边界体积空间，并获得初始3D姿态估计L=（L1，···，LM）。对于接下来的阶段（t≥1），对于每个关节J i，我们将其当前位置L i周围的空间离散为2 × 2 × 2网格G（i）。这里的空间离散化与PSM有两个不同之处。第一，不同的关节有自己的但在PSM中，所有关节共享相同的网格。参见图5来说明这个想法。第二，边缘长度成对势离线为每个对关节包围体随着迭代而减小：=st−1。（Jm，Jn），我们计算训练集上的平均距离lmm，n作为肢体长度先验。期间根据推论，成对势被定义为：.1，中国这就是为什么与前一阶段相比，网格变得更细粒度的主要原因而不是单独细化每个关节，我们simul-pronounced细化所有关节考虑其空间关系。双肢（Jm，Jn）=如果 l m，n∈[l m，n−<$，l m，n+<$]0，否则，回想一下，我们知道网格的中心位置、大小和所以我们可以计算出（三）其中lm，n是Jm和Jn之间的距离。成对项有利于具有合理肢体长度的3D姿势.在我们的实验中，λ被设置为150mm。最后一步是最大化后验（Eq.（2）在离散状态空间上。由于该图是无圈的，因此可以用动态规划进行优化，并保证全局最优。计算复杂度为O（N6）.4.2. 递归图像结构模型PSM模型存在空间离散化导致的较大量化例如，当我们设置N = 32，如在以前的工作中，量化误差大到30毫米（即，其中s=2000是边网格中的每一个仓，我们可以用它来计算一元和成对电位。值得注意的是，成对势应该在运行中计算，因为它取决于先前估计的位置。然而，因为我们将N设置为一个小数字（在我们的实验中为2），所以这个计算很快。4.3. [25]第二十五话光束法平差[25]也是一种用于改进三维重建的常用工具。RPSM在两个方面与它不同。首先，由于它们独特的空间探索方式，它们达到了不同的局部最优。捆绑调整以渐进的方式探索，而RPSM以分而治之的方式探索。其次，在光束法平差中通过有限差分计算梯度是不稳定的，因为大多数热图的条目是零。L（（43471M表1.该表显示了H36M数据集上的2D“+MPII”是指我们在“H36M+MPII”上训练。由于空间限制，我们显示了六个重要关节的JDR（%）。表2.该表示出了当不同数据集用于训练时H36M上的3D姿态估计误差MPJPE（mm“+MPII”训练通过直接三角剖分获得三维位姿.方法训练数据集Shlder Elb Wri髋关节膝关节踝关节培训单H36 M 88.50 88.94 85.72 90.37 94.04 90.11合计H 36 M 91.36 91.23 89.63 96.19 94.14 90.38最大值H36M 92.67 92.45 91.57 97.69 95.01 91.88我们的H36M95.58 95.83 95.01 99.36 97.96 94.75单台+MPII 97.38 93.54 89.33 99.01 95.10 91.96我们的+MPII5. 数据集和指标H36M数据集[11]我们使用跨学科评估方案，其中受试者1，5，6，7，8用于训练，9，11用于测试。我们为所有主题训练一个融合模型，因为他们的相机参数是相似的。在一些实验中（将明确说明），我们还使用MPII数据集[2]来增强训练数据。由于该数据集只有单眼图像，因此我们不会在这些图像上训练融合层。Total Capture数据集[27]我们还在Total Capture数据集上评估了我们的方法，以验证其对其他数据集的通用性。在大量的工作之后[27]，训练集由科目1、2和3的“ROM 1、2、3”、“Walking1、3”、“Freestyle1、2”、“Acting1、2”、“Running1”组成测试集由被试1、2、3、4和5的“自由式3（FS 3）"、“动作3（A3）”和“行走2（W2）”组成在实验中我们使用了四个摄像机（1，3，5，7）的数据。我们不使用IMU传感器。在这个实验中，我们不使用MPII数据集进行训练。用于训练网络的超参数与H36M数据集上的超参数保持度量对二维位姿估计精度进行了测量联合检测率（JDR）如果估计位置和地面实况位置之间的距离小于阈值，则我们认为该关节被成功检测到。如[2]中所示，阈值被设置为头部大小的一半。JDR是成功检测到的关节的百分比。3D姿态估计精度由地面实况3D姿态y=[p3，· ··，p3]与估计的3D姿态y<$=[ p 3，···，p 3 ]之间的每关节平均位置误差（MPJPE）来测量。ΣM方法数据集Shlder Elb Wri Hip Knee Ankle单台H36M 59.70 89.56 313.25 69.35 76.34 120.97我们的H36M42.97 49.83 70.65 24.28 34.42 52.13单台+MPII 30.82 38.32 64.18 24.70 38.38 62.92我们的+MPII图像GT热图融合热图检测到的热图变形热图图6.我们方法的示例热图。“Detected heatmap” denotes 我们融合“变形热图”和“检测热图”以获得“融合热图”。对于增强图像，“检测到的热图”可能不正确。但是其他（更简单的）视图中的“扭曲热图”大多是正确的。融合多视图热图可提高热图质量。图像大小为320×320，热图的分辨率为80×80。我们使用热图作为回归目标，并在特征融合之前和之后对所有视图强制l2我们训练网络30个时期。其他超参数如学习率和衰减策略保持不变如[31]使用更新的网络结构[22]可以生成更好的2D姿势。6.2. 定量结果[p<$3，···，p<$3]：MPJPE=1<$p3−p<$3<$2We不1MMi=1ii将估计的3D姿态与地面实况对齐这是在[16，24]6. 二维位姿估计实验6.1. 实现细节我们采用[31]中提出的网络作为我们的基础网络，并使用ResNet-152作为其骨干，它是在ImageNet分类数据集上预先训练的。输入表1显示了最重要接头的结果当我们训练时，要么只在H36M数据集上训练，要么在H36M和MPII数据集的组合上训练。它将我们的方法与基线方法[31]进行了比较，称为单一方法，该方法不执行跨视图特征融合。我们还比较了两个基线计算总和或最大值的核线使用相机参数。为了公平比较，用于训练两种方法的超参数434816×2（t−1）我们的方法在所有身体关节上都优于基线Single。腕关节的改善最为显著，从85。72%到9501%，89。33%至97。20%，当模型仅在“H36M”或“H36M + MPII”上训练时。我们认为这是因为参见图6的第三列中的示例。右腕关节在当前视图中被遮挡。因此，检测到的热图质量较差。但是将这些特征与其他视图的特征融合会生成更好的热图。此外，我们的方法优于sum和max基线.这是因为热图通常是嘈杂的，尤其是当发生遮挡时。我们的方法训练了一个融合网络来处理嘈杂的热图，因此它比沿着极线获得和/最大值更鲁棒。同样有趣的是，当我们只使用H36M数据集进行训练时，单一基线的性能非常差。我们认为这是因为训练集中有限的外观变化影响了学习模型的泛化能力。然而，我们的融合方法较少受到缺乏训练数据的影响。这可能是因为融合方法要求从不同视图中提取的特征在几何变换后保持一致，这是一种强先验，可以降低过度拟合到具有有限外观变化的训练数据集的风险。改进后的二维位姿估计方法又显著降低了三维位姿估计的误差.在这个实验中，我们使用直接三角测量来估计3D姿态.表2显示了六个重要关节的三维估计误差.腕关节的误差（在2D估计中得到最大的改善）从64显著降低。18毫米到34毫米。踝关节的改善也高达15mm。所有关节的平均每个关节位置误差（参见表3中的（c）和（g））从36 mm降低到28 mm。28毫米到27毫米。当我们不将估计的3D姿态与地面实况对齐时，6.3.定性结果除了上述数值结果外，我们还定性地研究了在什么情况下我们的方法将改善基线上的2D姿态估计。图6显示了四个示例。首先，在第四个示例（列）中，检测到的热图在左肘部和右肘部都显示出强烈的响应，因为对于该图像难以区分从地面实况热图（第二行）中，我们可以看到左肘部是目标。从其他视图扭曲的热图（第五行）正确地定位了左关节。融合两个热图可以提供更好的定位精度。其次，图6的第三列示出了右腕关节的热图。因为关节被人体遮挡，所以检测到的热图是不正确的。但是从其他三个视图扭曲的热图是正确的，因为它没有被遮挡。7. 三维位姿估计实验研究7.1. 实现细节在RPSM（t=0）的第一次迭代中，我们将根关节的估计位置周围的大小为2，000mm的空间划分为16个3bin，并且通过求解等式（1）来估计粗略的3D姿态二、我们还尝试使用更大数量的bin，但计算时间变得棘手。对于t ≥ 1的后续迭代，我们将每个估计的关节位置周围的大小为t=2000的空间划分为2×2×2个bin。请注意，每个关节的空间大小st等于单个关节的大小。在上一次迭代中的bin。我们在这里使用比第一次迭代更少数量的箱，因为它可以显著减少成对势的即时计算的时间。在我们的实验中，重复上述过程十次迭代只需要大约0. 四秒。与第一次迭代（大约需要8秒）相比，这是非常轻的重量。7.2. 定量结果我们设计了八个配置来研究我们的方法的不同因素。表3显示了我们的方法的不同因素如何将误差从94.54毫米到26毫米。21毫米RPSM与三角测量：首先，当通过相对弱的模型获得2D姿态估计时，RPSM实现比三角测量显著更小的3D 误差。例如，通过比较表 3 中的方法（ a ）和（b），我们可以看到，给定相同的2D姿态，RPSM显著地减小了误差，即，从94。54毫米到47毫米。这归因于所有节点的联合优化和递归姿态细化。第二，当2D姿态估计已经非常准确时，RPSM提供了边际改进.例如，通过比较表3中的方法（g）和（h），其中通过在组合数据集（“H36M+MPII”）上训练的模型估计2D姿态，我们可以看到误差从27略微降低。90毫米到26毫米。这是因为输入的2D姿态已经非常准确，并且直接三角测量给出了相当好的3D估计。但如果我们专注于一些困难的行动，如“坐”，这得到了最大的错误，在所有行动，改善导致从我们的RPSM方法仍然是非常显着的（从40。47毫米到32毫米。12毫米）。总之，与三角测量相比，RPSM在2D姿态准确时获得相当的结果，并且在2D姿态不准确时获得明显更好的结果，这在实践中是经常的情况。4349表3.不同方法在H36M数据集上的三维位姿估计误差MPJPE（mm）。方法的命名规则遵循“A-B-C”规则，其中“A”表示我们是否在2D位“C” represents the method for estimating方向铁饼吃迎接电话照片构成Purch(a)单-H36 M-三角形71.7665.8956.63136.5259.3296.3046.67110.51(b)单-H36 M-RPSM33.3836.3627.1331.1431.0630.2828.5941.03(c)单-"+MPII”-三角形33.9932.8725.8029.0234.6326.6428.4242.63(d)单-"+MPII”-RPSM26.8928.0523.1325.7526.0723.4524.4134.02(e)融合-H36 M-三角形34.8435.7832.7033.4934.4438.1929.6660.72(f)Fusion-H36M-RPSM28.8932.4626.5828.1428.3129.3428.0036.77(g)融合-"+MPII”-三角形25.1527.8524.2525.4526.1623.7025.6829.66(h)Fusion-"+MPII”-RPSM23.9826.7123.1924.3024.7722.8224.1228.62坐SittingD烟雾等WalkD步行步行平均(a)单-H36 M-三角形150.1057.0173.15292.7849.0048.6762.6294.54(b)单-H36 M-RPSM245.5233.7437.1035.9729.9235.2330.5547.82(c)单-"+MPII”-三角形88.6936.3835.4831.9827.4332.4227.5336.28(d)单-"+MPII”-RPSM39.6329.2629.4927.2525.0727.8224.8527.99(e)融合-H36 M-三角形53.1035.1840.9741.5731.8631.3834.5838.29(f)Fusion-H36M-RPSM41.9830.5435.5930.0328.3330.0130.4631.17(g)融合-"+MPII”-三角形40.4728.6032.7726.8326.0028.5625.0127.90(h)Fusion-"+MPII”-RPSM32.1226.8730.9825.5625.0228.0724.3726.21表4. 当在RPSM中使用不同迭代次数t时的3D姿态估计误差。当 t= 0 时， RPSM 等价于 PSM. “+MPII” means we use thecombined dataset “H36M+MPII”当在估计的姿态和地面实况之间不执行刚性对准时，计算MPJPE（mm方法t=0t=1t=3t=5t=10单-H36 M-RPSM95.2377.9551.7847.9347.82单-"+MPII”-RPSM78.6758.9432.3928.0427.99Fusion-H36M-RPSM80.7761.1135.7531.2531.17Fusion-"+MPII”-RPSM77.2857.2230.7626.2626.21RPSM与PSM：我们研究了递归的三维姿态细化的效果。表4示出了结果。首先，由PSM估计的姿态，即。t=0的RPSM由于空间离散化过粗，误差较大。其次，RPSM一致地减小误差随着t的增长，并最终收敛。例如，在表4的第一行中，RPSM将PSM的误差从95减小。23毫米到47毫米。82mm，验证了RPSM的递归3D位姿细化的有效性。单次与融合：我们现在研究交叉视图特征融合对3D姿态估计精度的影响。表3显示了结果。首先，当我们使用H36M+MPII数据集（称为对于最具挑战性的“坐”动作，其误差从88下降到88，改进最为显著。69毫米到40毫米。47毫米。改善幅度应为─这主要归功于交叉视图特征融合所产生的更好的2D姿态我们观察到其他不同设置的一致改进。例如，比较方法（a）和（e），或方法（b）和（f）。与最先进技术的比较：我们还将我们的方法与表5中用于多视图人体姿势估计的最先进方法进行了比较。我们的方法远远超过了最先进的水平。首先，当我们只在H36M数据集上训练我们的方法时，MPJPE误差为31。17 mm，这已经比之前的最新技术[ 24 ]小得多，其误差为52. 如在以上部分中所讨论的，改进应当归因于更准确的2D姿态和3D姿态的递归细化。7.3. 定性结果由于很难从所有可能的视点展示3D姿态，我们建议通过使用相机参数将其投影回四个相机视图来可视化它，并在图像上绘制骨架图7显示了三个估算示例。根据3D几何结构，如果3D关节的2D投影对于多于两个视图（包括两个）是准确的例如，在第一示例中（图7的第一行），第一和第四相机视图中的右手关节的2D位置是准确的。基于此，我们可以高置信度地推断右手关节的估计3D位置是准确的。4350（一）(b)40mm(c)120mm20mm表5.在H36M数据集上比较现有技术的多视图姿态估计器的3D姿态估计误差MPJPE（mm我们不使用Procrustes算法来将估计值与地面事实对齐。在 [ 24 ] 中报告了 “Multi-viewMartinez”的结果这四种最先进的方法不使用MPII数据集进行训练。所以它们直接与我们的结果31相比较。17毫米方法平均MPJPE[27]第二十七话3毫米[16]第五十七章：你是我的女人0mmPavlakos等人 [18]第56话. 9毫米Tome等人 [24]I'm sorry. 8毫米Our approach31.17mmOur approach + MPII26.21mm图7.我们将估计的3D姿态投影回2D图像空间，并在图像上绘制骨架。每行显示四个摄影机视图的骨架。我们选取了三个典型的例子，其三维MPJPE误差分别为20、40、120mm在第一个例子（行）中，虽然右手关节在第二个视图（列）中被人体遮挡，但由于跨视图特征融合，我们的方法仍然准确地恢复了其3D位置实际上，大多数腿部关节在第一和第三视图中也被遮挡，但是正确地估计了第二个例子得到了40mm的较大误差，因为左手关节没有被准确地检测到。这是因为关节在太多（三个）视图中被遮挡，但仅在单个视图中可见。在这种情况下，跨视图特征融合的贡献很小对于大多数测试图像，MPJPE误差在20mm到40mm之间。有几个案例（约0。05%），误差高达120mm。这通常是发生“重复计算”的情况。我们在最后一行中想象一个这样的例子，图7.因为在训练期间很少看到右腿的这种特定姿势，所以对于所有视图，右腿关节的检测一致地落在左腿区域上。在这种情况下，对应于右腿关节的扭曲热图也将落在左腿区域上，因此不能将右腿关节拖动到正确的位置。表6. Total Capture数据集上不同方法的3D姿态估计误差MPJPE（mm）。我们的方法和基线报告的数字是在没有严格对齐的情况下获得的方法受试者1、2、3受试者4、5平均值W2FS3A3W2FS3A3三-CPM [30]79112106791497399PVH [27]481229484168154107[27]第二十七话309149361121070[26]第二十六话13492422714035单RPSM28423045744641Fusion-RPSM192821325433297.4. 推广到总捕获数据集我们在Total Capture数据集上进行实验，以验证我们方法的普遍适用性。我们的模型仅在Total Capture数据集上进行训练。表6示出了结果。“单RPSM”意味着我们不执行交叉视图特征融合，并使用RPSM重新覆盖3D姿势。首先，我们的方法将之前最佳模型的误差降低了约17%。第二，对于诸如“FS3”的困难情况，改进较大结果与H36M数据集上的结果一致。第三，通过对“单一-RPSM”和“融合-RPSM”两种方法的特别地，对于所有不同的子集，改进是一致的。7.5. 新相机设置的泛化我们在H36M数据集上使用NO姿势注释进行实验单视图姿态估计器[31]在MPII数据集上训练。如果我们直接将该模型应用于H36 M的测试集，并通过RPSM估计3D姿态，则MPJPE误差约为109 mm。如果我们使用收获的伪标签重新训练该模型（没有融合层），则误差降低到61 mm。如果我们使用上述伪标签训练我们的融合模型，则误差降低到43 mm，这已经小于先前的监督最先进的技术实验结果验证了我们的模型应用于新的环境，没有任何手动标签的可行性8. 结论我们提出了一种方法来估计三维人体姿态从多个校准的相机。第一个贡献是基于CNN的多视图特征融合方法，该方法显著提高了2D姿态估计精度。第二个贡献是一个递归的图像结构模型来估计从多个视图的2D姿态的3D姿态。它的改进，证明了PSM的一个很大的保证金。这两种贡献是独立的，都可以与现有的方法相结合。4351引用[1] Sikandar Amin、Mykhaylo Andriluka、Marcus Rohrbach和Bernt Schiele。用于3D人体姿态估计的多视图图像结构。InBMVC，2013. 一、二[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，第3686-3693页，2014。5[3] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构。在CVPR中，第1669-1676页，2014年。一、二、三[4] Magnus Burenius，Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图像结构。在CVPR，第3618-3625页，2013年。一、二[5] Xianjie Chen和Alan L Yuille.通过具有图像相关成对关系的图形模型的铰接姿态在NIPS，第1736-1744页，2014年。2[6] 海慈、淳于王、马小玄、益州王。三维人体姿态估计的最优网络结构在ICCV，2019年。1[7] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR，2018年。 2[8] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。IJCV，第55-79页，2005年。2[9] Martin A Fischler和Robert A Elschlager。图像结构的表现和匹配IEEE计算机学报，第67-92页，1973年。2[10] 于尔根·加尔，博多·罗森哈恩，托马斯·布罗克斯，汉斯·彼得·赛德尔.人体运动捕捉的优化与滤波。IJCV，87（1-2）：75，2010年。2[11] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。T-PAMI，第1325-1339页，2014年。二、五[12] Yasamin Jafarian ， Yuan Yao ，和 Hyun Soo Park 。莫奈：通过极线发散的多视图半监督关键点arXiv预印本arXiv：1806.00104，2018。2[13] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。端到端恢复人体形状和姿势。在CVPR，2018年。1[14] Ilya Kostrikov和Juergen Gall用于从图像估计3D人体姿势的深度扫描回归森林。在BMVC，第5页，2014年。1[15] Yebin Liu ， Carsten Stoll ， Juergen Gall ， Hans-PeterSeidel，and Christian Theobalt.使用多视图图像分割的交互角色的无标记运动捕获。在CVPR，第1249-1256页中。IEEE，2011年。一、二[16] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一个简单而有效的三维人体姿态估计基线。InICCV，page 5，2017. 一、五、八[17] Georgios Pavlakos ， Xiaowei Zhou ， Konstantinos GDerpanis，and Kostas Daniilidis.粗到细体积预处理用于单图像3D人体姿势的词。在CVPR中，第1263-1272页，2017年。1[18] Georgios Pavlakos，Xiaowei Zhou，Konstantinos G.德尔帕尼斯和科斯塔斯·丹尼利迪斯。为无标记的3D人体姿势注释获取多个视图。在CVPR中，第1253-1262页，2017年。一、二、八[19] Helge Rhodin，M

下载后可阅读完整内容，剩余1页未读，立即下载