使用IMU和移动相机进行基于图像的3D姿态估计的方法

81 浏览量更新于2023-10-13 收藏 4.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

使用IMU和移动相机放大图片作者：Timo von Marcard1，Roberto Henschel1，MichaelJ.Black2，Bodo Rosenhahn1，Gerard Pons-Moll31LeibnizUniverrsitaütHannover，Gerrmany2MPIforItell gentSystems，Tu¨bingen，Germany3MPI for Informatics，Saarland Informatics Campus，德国@tnt.uni-hannover.de，black@tue.mpg.de，gpons@mpi-inf.mpg.de抽象。在这项工作中，我们提出了一种方法，它结合了一个单一的手持摄像机和一组惯性测量单元（IMU）在身体的四肢，以估计准确的3D姿态在野外。这带来了许多新的挑战：移动的摄像机、航向漂移、杂乱的背景、遮挡以及视频中可见的许多人。我们将每个图像中的2D姿态检测与相应的配备IMU的人相关联，通过解决一个新的基于图的优化问题，该优化问题迫使帧内和跨长范围帧的3D到2D相干性。给定关联，我们共同优化统计信息的姿势-cal身体模型，相机姿态和航向漂移使用连续OUS优化框架我们在TotalCap- ture数据集上验证了我们的方法，该数据集提供与地面实况同步的视频和IMU。我们获得了26mm的精度，这使得它足够准确，可以作为基于图像的3D姿态估计的基准。野外使用我们的方法，我们记录了野外3D姿势（3DPW），这是一个新的数据集，由超过51，000帧组成，具有准确的在具有挑战性的序列中摆出3D姿势，包括在城市中行走，上楼，喝咖啡或乘坐公共汽车。我们使重建的3D姿态，视频，IMU和3D模型可用于研究目的在http://virtualhumans.mpi-inf.mpg.de/3DPW。关键词：人体姿态，视频，IMU，传感器融合，2D到3D，人体跟踪，3D姿态数据集1介绍本文讨论了两个相互关联的目标。首先，我们提出了一种能够在户外场景中准确重建3D人体姿势的方法，其中多个人与环境交互，参见图1B。1.我们的方法将来自MU的数据（在用户的边界处获取）与从手持电话相机获得的数据组合。这使我们能够实现第二个目标，即在野外收集具有准确3D重建的第一个数据集以来2T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-MollFig. 1.我们提出了视频惯性姿态（VIP），它使准确的三维人体在自然环境中捕捉姿势。VIP结合从一只手获得的视频-手持智能手机相机，数据来自身体佩戴的惯性测量单元（IMU）。通过VIP，我们收集了3D Poses in theWild，这是一个在自然视频中精确的3D人体姿势的新数据集，包含个人身份，活动和服装的变化。我们的系统使用移动摄像机，我们可以记录人们在日常环境中的活动，例如，在城市中行走，喝咖啡或乘坐公共汽车。从无约束的单个图像和视频中估计3D人体姿态一直是计算机视觉中的一个长期目标。最近，特别是在2D人体姿态估计方面已经有了显著的进展[23，4]。这一进展之所以可能，要归功于大型训练数据集和基准点的可用性，虽然在野外获得手动2D姿势注释相当容易，但手动收集3D姿势注释几乎是不可能的。这可能是在野外存在非常有限的具有准确3D姿势的数据集的主要原因。HumanEva [32]和H3.6M [8]等数据集通过提供使用与视频同步的基于标记的运动捕捉系统获得的地面真实3D姿态，促进了该领域的进展。这些数据集虽然有用且必要，但仅限于具有静态背景、服装变化很小且没有环境遮挡的室内场景。因此，到目前为止，在具有挑战性的图像中的3D人体姿态估计方法的评价主要是定性的。存在若干选项来记录户外场景中的人，其中没有一个是令人满意的。基于标记的户外捕获是有限的。像Kinect这样的深度传感器不能在强光照下工作，只能捕捉摄像头附近的物体。使用如[21]中的多个相机需要耗时的设置和校准。最重要的是，固定的录音音量严重限制了可以被捕获。基于IMU的系统有希望，因为它们不受固定空间的约束然而，在实践中，准确性受到许多因素的限制。初始姿态的不准确性引入传感器到骨骼的未对准。此外，在连续操作期间，IMU遭受航向漂移，参见图。二、这意味着，经过一段时间后，每个IMU使用IMU和移动相机的精确3D人体姿势3图二.为了在野外进行准确的运动捕捉，我们必须解决几个挑战：在较长的记录会话之后，IMU航向漂移已经累积，并且所获得的3D姿态完全关闭（左图像对）。为了估计航向漂移，我们结合IMU数据和在相机视图中检测到的2D姿态。这需要将2D姿势与佩戴IMU的人相关联，当若干人在场景中时（中间图像），这是困难的。此外，2D姿态候选可能不准确，并且应该在分配步骤（右图像对）期间被自动拒绝。而不是相对于同一世界坐标系进行测量。相反，每个传感器提供相对于缓慢偏离世界坐标系的独立坐标系的读数。此外，由于位置漂移，不能精确地获得全局位置。此外，IMU系统不提供与图像数据同步和对准的3D因此，我们提出了一种新的方法，称为视频惯性姿势（VIP），共同估计的姿态的人在现场使用6至17 IMU附加在身体的四肢和一个单一的手持移动手机摄像头。使用IMU使任务不那么模糊，但仍然存在许多挑战。首先，人需要在视频中被检测到并且与IMU数据相关联，参见图2。2.第二，IMU由于航向漂移而不准确第三，估计的3D姿态需要与移动相机的图像对准。此外，我们在这项工作中处理的场景包括完全遮挡，多个人，跟踪的人掉出相机视图和相机运动。为了解决这些困难，我们定义了一种新的基于图形的关联方法，和一个连续的姿势优化方案，集成了从序列中的所有帧的测量。为了处理噪声和不完整的数据，我们利用SMPL [14]，它结合了人体测量和运动学约束。具体来说，我们的方法有三个步骤：初始化，关联和数据融合。在初始化期间，我们通过将SMPL拟合到IMU方向来计算初始3D姿态。关联步骤通过求解单个二元二次优化问题来自动地将3D姿态与全序列的2D人检测相考虑到这些关联，在数据融合步骤中，我们定义目标函数并联合优化全序列的3D姿态具体地，当（i）模型取向和加速度接近IMU读数以及（ii）SMPL的投影3D关节接近图像中的2DCNN检测[4]时为了进一步改善结果，我们重复关联和联合优化一次。4T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Moll使用VIP，我们可以准确地估计具有挑战性的自然场景中的3D人体姿势。为了验证VIP的准确性，我们使用最近发布的3D数据集Total Capture[39]，因为它提供了与IMU数据同步的视频。VIP获得了26mm的平均3D姿态误差，这使得它足够准确，可以对处理野外数据的方法进行基准测试。使用VIP，我们创建了3D Poses in the Wild（3DPW）：一个由手持视频组成的数据集，其中包含自然视频中的地面真实3D人体姿势和形状。我们将3DPW公开用于研究目的，包括60个视频序列（51，000帧或1700秒的30Hz手机视频），IMU数据，3D扫描和18种服装变化的3D人物模型，以及所有序列中VIP的准确3D姿态重建结果。我们预计，该数据集将刺激新的研究提供一个平台，定量评估和比较方法的三维人体姿态估计。2相关工作使用IMU的姿态估计。存在用于具有IMU的MoCap的商业解决方案。[30]的方法将17个IMU集成在卡尔曼滤波器中以估计姿态。[41]的开创性工作使用定制的西装来捕捉日常环境中的姿势。这些方法需要许多传感器并且不将重建与视频对准;因此它们遭受漂移。[42]的方法将SMPL身体模型拟合到整个序列上的5-6个IMU，从而获得真实的结果。然而，该方法一次仅应用于一个人，并且运动不与视频对齐。为了补偿漂移，在[17，25]中组合了4-8个相机和5个IMU使用基于粒子的优化，在[24]中，他们使用4个相机和IMU从约束姿势的流形中采样。其他作品结合深度数据与IMU [6，47]。在[39]中，基于CNN的方法融合了来自8个相机视图和IMU数据的信息，以回归姿态。由于这些方法还使用多个静态相机，因此记录被限制为固定的记录量。最近的方法[16]还将IMU和在一个或两个相机中检测到的2D姿态相结合，但仅期望在相机中可见单个人，并且不考虑航向漂移。3D姿势数据集。用于3D人体姿势评估的最常用数据集是HumanEva[32]和H3.6M [8]，它们提供与MoCap同步的然而，这些数据集限于室内场景、静态背景以及有限的服装和活动变化。最近，已经引入了包括户外场景的单身人士数据集该方法使用来自多个相机的商业无标记运动捕获（未报告所使用的无标记MoCap软件序列显示服装的变化，但同样，由于它使用多相机设置，活动被限制在固定的记录音量。另一个最近的数据集是TotalCap- ture [39]，其具有同步视频、基于标记的地面实况姿势和IMU。为了在野外收集3D姿势，在[11]中，他们要求用户挑选在使用自动3D姿势时获得的“可接受的”记录。问题是很难从视觉上判断一个正确的姿势，事实并非如此使用IMU和移动相机的精确3D人体姿势5清楚自动方法在野外图像中的准确性。我们不认为我们提出的数据集是现有数据集的替代品;相反，3DPW用新的、更具挑战性的序列补充现有的序列。3D人体姿势。一些作品使用学习将2D检测提升到3D或几何推理[18，29，35，9，26，49，33，48，44，34，13，43，45]。这些工作的目的是恢复失踪的深度尺寸在单人图像，而我们专注于直接关联的3D到2D构成在杂乱的场景。对于多个人，工作[1]使用基于2D身体部位的短轨迹的跟踪公式来推断3D姿势。最近，已经利用2D注释来训练用于3D姿态估计任务的网络[21，28，36，38，50]。这些作品通常只预测简笔画或骨骼。一些方法使用2D监督从单个图像直接预测身体模型（SMPL）的参数与我们的方法更接近的是作品[2，11]，其将SMPL [14]拟合到2D检测。我们解决的优化很少有方法解决多人3D姿态估计[31，20]。3DPW允许在野外图像的所有这些方法的定量评估。3背景SMPL身体模型。我们利用蒙皮多人线性（SMPL）身体模型[14]，其是由身份相关形状参数和骨架姿势参数化的统计身体模型我们通过将SMPL拟合到3D扫描来优化保持形状固定，我们的目标是恢复姿态θ∈R75，包括用于全局平移和旋转的6个参数，以及由每个关节的轴角表示的23个相对旋转我们使用标准正向运动学将姿势θ映射到骨骼B的刚性变换GGB（θ）：R75→SE（3）。骨骼变换包括旋转和平移GGB={RGB，tGB}以从局部骨骼坐标系FGB映射到全局SMPL坐标系FGB。坐标系最终，我们希望找到产生接近IMU读数的骨骼取向的姿势θIMU测量（传感器盒的）局部坐标系Fs相对于全局坐标系Fl的取向。然而，该框架FI不同于SMPL的坐标框架FG，参见图1B。5.坐标系之间的偏移GGI：FI-FG通常被假定为恒定的，并且在记录会话开始时被校准我们还需要知道从传感器到其放置的SMPL骨骼的偏移RBSSMPL骨骼取向RGB（θ0）可以在假定已知姿态θ0的第一帧中获得。使用第一帧中的该骨骼取向RGB（θ0）和原始IMU读数RIS（θ0），我们可以简单地找到将它们相关的偏移，如R BS=. RGB（θ0）Σ−1RGI RIS（0）（1）其中原始IMU读数RIS（0）需要首先使用RGI映射到SMPL帧。我们假设传感器不相对于骨骼移动，并且6T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Moll分配′视频2D姿势V联合优化ΘΨ型号+IMU3D姿势ΓΘˆ图三.方法概述：通过将SMPL身体模型拟合到所测量的顶U，我们可以得到一个基本的3D模型。给定所有的2D姿态，我们在这些图像中搜索2D到3D姿态的全局一致分配我们共同优化在一些实施例中，3D姿态可以是相对于相关联的IMU和图像数据的相机姿态Ψ、航向角Γ和3D姿态Θ。在第二次迭代中，我们反馈相机姿态和航向角，这提供了进一步改进分配和跟踪结果的附加信息。因此，根据第一帧中的初始姿态θ0和IMU取向来计算Rbs航向漂移不幸的是，IMU的取向测量结果被磁干扰劣化，磁干扰向GGI引入时变旋转偏移，通常也被称为航向误差或航向漂移。这种漂移（GI′I：FI→FI′ ）移动原始全局惯性系FI到受扰惯性系FI. 更糟糕的是，每个人的漂移都不同传感器.虽然大多数以前的作品忽略航向漂移或将其视为噪声，但我们明确地对其进行建模并将其作为优化的一部分进行恢复。具体地说，我们将其建模为关于垂直轴的单参数旋转R（γ）∈SO（3），其中γ是旋转角。所有角度的集合（每个IMU传感器一个）被表示为Γ。由于航向误差通常变化缓慢，我们假设它在单个跟踪序列期间是恒定的。为了能够进行长时间的记录而无需耗时的重新校准，恢复航向方向4视频惯性姿态（VIP）为了使用手持视频和IMU执行准确的3D人体运动捕获，我们执行三个后续步骤：初始化、姿态候选者关联和视频-惯性融合。图3提供了流水线的概述，并且我们在下文中更详细地描述每个步骤。4.1初始化我们通过将SMPL骨骼取向拟合到测量的IMMU或i_tat i ons来获得初始3D姿态。对于IMU，RGB中的一个值是由RGB= RGI′RI′I（γ）RIS。RBSΣ−1，（2）使用IMU和移动相机的精确3D人体姿势7t，lF见图4。每个2D姿势表示图中的一个节点，该节点可以被分配给对应于人1或2的3D姿势（由橙色和蓝色表示）。如果在单个帧中分配了两个节点，则该图具有激活的帧内边（以黑色显示），并且跨多个帧为同一个人激活帧间边（以蓝色和橙色显示）图五.坐标系：全局跟踪坐标系FG，全局惯性坐标系FI，移动惯性坐标系FI′，骨骼坐标系FB和IMU传感器坐标系FS.其中，RBS表示恒定的骨骼到传感器偏移（等式2）。(1))，并且RGI′、RI′I和RIS的级联描述了从传感器到全局帧的旋转映射，参见图1B。五、我们将实际bone或ietationRGB（θ）与dme之间的旋转差异定义为uredbone或ietationRGB，..Σ−1Σ∨er〇t（θ）=l〇 g RGB（θ）RGB，（3）其中对数运算从RGB（θ）和R GB之间的相对关系中恢复反对称矩阵，并且对数运算对确定轴角参数的相关性进行了描述。我们在帧t处找到使所有IMU的差异之和最小化的3D初始姿态θ*=arg min 1ΣNs||2 + w p r i or E p r i or（θ t），⑷||2+wpriorEprior(θt),(4)tθNs s=1s和t其中Eprior（θ）是由w p r i or d的p riorw e e ig e deprior。如在[42]中所定义的，选择Ep r r（θ），强制θ保持接近模型姿势的多变量高斯分布并且保持在联合限制内。在第一次迭代期间，我们没有关于航向角γ的信息。为了初始化它们，我们使用惯性测量单元放置作为代理以知道局部传感器轴如何相对于身体对准。该方法利用了一个粗略的估计，或利用一个粗略的估计来计算初始航向角，通过求解方程：(1)对于γ。在下文中，我们将这种跟踪方法简单地称为惯性跟踪跟踪器（IT），其输出初始3D姿态候选者θ*对于每个跟踪的珀森湖这样的初始3D姿态需要与图像中的2D检测相关联。视频，以便有效地融合数据FBFSGBSG是GGGBF我F 我GGI′GI′IGGI8T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Mollvvvvv，v′不4.2姿势候选分配使用Cao等人[4]的CNN方法，我们获得了2D姿态检测v，其包括N个j〇int=18l的图像坐标和对应的置信度分数。为了将每个2D姿态V与3D姿态候选相关联，我们创建无向加权图G=（V，E，c），其中V包括记录序列中的所有检测到的2D姿态。表示为H（l，v）=（θl，v）的分配假设将人l∈ {1，. . .，P}到t t在同一帧t中的2D姿态v∈ V。我们引入指示符变量xl，如果选择假设H（l，v），则其取值1，否则取值0。其基本思想是为每个假设分配成本，并为序列选择使总成本最小化的分配。我们通过最小化以下目标arg minΣΣclxl+cl，l′勒勒（五）x∈F∩{0，1}| V|PV Vv ∈Vl∈{1，.，P}{v，v′}∈El，l′∈{1，…，P}v，v′xvxv′，其中可行性集合F服从：（一）ΣPl=1xl≤1（b）Σv∈Vtxl≤ 1 t，l∈ {1，. . .，P}。（六）边缘集合E包含被考虑用于分配决定的所有2D姿态对{v，v’}当量（6）（a）确保2D姿态V被分配给至多1个人，并且Eq.（6）（b）确保每个人被分配到帧t中的至多一个2D姿态检测v∈ VtV。（5）中的目标由一元组成成本CL测量2D到3D一致性，以及成对成本cl，l′测量不同假设之间的一致性。我们的公式自动输出全局一致的分配，并且不需要手动初始化。接下来，我们描述一元数和成对势-导出映射到成本cl、cl、l’的一致性特征对客观vv，v ′在（5）中通过Logistic回归。有关培训过程的详细信息，请参见第5.1节。图图4可视化了两个示例帧的图，并且还示出了对应的标记解决方案。一元成本。为了测量假设H：= H（l，v）的2D到3D一致性，我们通过最小化θ 1的3D界标与2D检测到的界标v之间的重新投影误差来获得假设相机Mh。由eimg，k（H，M，H）表示的每界标重新投影误差由置信度分数w，k加权。然后将一致性测量为所有加权残差eimg，k（H，MH）的平均值，由eimg（H，M H）表示。该测量在很大程度上取决于到相机的距离。为了平衡它，我们通过到相机中心的平均3D关节距离e_cam（M_H）对其进行缩放，并获得功能：fun（H）= eimg（H，M H）ecam（H，M H）。（七）使用IMU和移动相机的精确3D人体姿势9¨¨.L¨成对成本。我们定义特征来度量两个假设的一致性l′l′′在帧t和t中的esisH =（θt，v）和H=（θt′，v）。特别是两种边缘连接假设：（a）帧间，和（b）帧内。a) 帧间：考虑两个假设H、H′对应于同一个并且间隔少于30帧。然后，相应的根关节位置相机假设（MH）坐标中的r（θ1）和取向R（θ1）不应t t变化太大。这种变化取决于时间距离|t-t′|. 因此，我们引入了以下功能'l l'2ftrans（H，H）=||MHr（θt）−MH′r（θt′）||、（8）¨l−1Σ∨¨2l′fori（H，H）=<$ log（RH R（θt））（RH′R（θt′））¨，（9）ftime（H，H′）=||t-t′||第2条，第（10）项其中ftrans和fori测量根关节平移和取向一致性，并且ftime是适应时间距离的特征在这里，RH是的旋转部分，并且frot计算R（θl）之间的测地距离。特和R（θt′），类似于等式（三）、b) 帧内：现在考虑同一帧中不同人的两个假设H，H′由此产生的相机假设中心应该是一致的。为了测量相干性，我们通过同时最小化两个假设的重新投影误差来计算元相机假设MH则特征fintra（H，H）=||c（θl，MH）−c（θl，MH）||第二章（十一）t t测量相机c（θ1，ΜΗ）与元相机中心c（θ1，ΜΗ）的差。t t实际上，我们使用该f∈ r_a（H′，H）来进行矩阵化。图形优化。虽然（5）中提出的图标记问题是NP-Hard的，在实践中可以有效地解决[7，12]。我们通过将其应用于（5）的线性化公式来使用二进制LP求解器Guideline [5]，其中我们重新勒勒l，l′将每个乘积xvxv′与二进制辅助变量yv，v′相乘，并加上相应的ing约束，使得xlxl′=yl，l′对所有v，v′∈ V，对所有l，l′∈ {1，. . .，P}。vv′v，v′4.3视频-惯性数据融合一旦解决了分配问题，我们就可以利用相关联的2D姿态来通过最小化以下能量来联合优化模型姿态、相机姿态和航向角：E（Θ，Ψ，Γ）=E或Ri（Θ，Γ）+WaccEacc（Θ，Γ）+wimgE img（Θ， Ψ）+wpriorEprior（Θ），（十二）10T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Molls和t其中Θ是包含每个演员和帧的姿态参数的向量，Γ是IMU航向校正角度的向量，并且Ψ包含每个演员和帧的相机姿态。Eori（Θ，Γ）、Eac（Θ，Γ）和Eimg（Θ，Ψ）分别与IMU取向、IMU加速度和图像信息Epri〇r（Θ）是一种用于选择优先级的有效方法。最终，每个节点由对应的权重w表示。定向项定向项简单地扩展了等式（4）通过根据下式考虑序列的所有帧NTE或ri（Θ，Γ）=1NTNsΣNTΣNst=1s=1||二、||2.（十三）该术语还包括相机IMU，其中从相机坐标系F_C到全局坐标系F_G的相机旋转映射由相机姿态M的逆旋转部分给出。加速度项加速度项确保测得的IMU加速度与IMU所连接的相应模型顶点的加速度在时间t处传感器s的世界坐标中的IMU加速度由下式给出：aG（γ）= RGI′ RI′I（γ）RIS aS-gG，（14）s和tss，t其中gG是全局坐标中的重力。在a（θt）上的对应SMPL顶点访问由有限的离散度表示。通常，加速度项包含在所有帧N_T上的所有N_SIMU的测量加速度和估计加速度的偏差的二次范数：Eacc（Θ，Γ）=1ΣNTΣNS||二、||2.（十五）NTNSt=1s =1该项还包含相机IMU的测量加速度和相机中心在全局坐标中的对应加速度。图像项图像项简单地累积所有N个节点上的再投影误差，并且所有帧NT都是Eimg（Θ，Ψ）=1ΣNTNΣjoints焕光||e img，k（θt，Mt）||第二条，第十六条NTNcocot=1I=k其中w，k是与界标相关联的置信度分数前一项前一项与等式中的相同。(4)，现在针对所有姿态Θ累积并且通过姿态的数量NΘ缩放。使用IMU和移动相机的精确3D人体姿势114.4优化为了解决与获得等式（1）中的初始3D姿态相关的优化问题，(4)，获得相机姿态以最小化重新投影误差并联合优化等式（1）中的所有变量（12）中，我们应用基于梯度的Levenberg-Marquardt。5结果为了定量验证我们的方法（第5.1节和第5.2节），我们使用了最近的TotalCapture [39]数据集，这是唯一一个包括IMU数据和与地面实况同步的在第5.3节中，我们提供了新记录的3DPW数据集的细节，展示了VIP在具有挑战性的场景中的3D姿态重建，并评估了多人场景中自动2D到3D姿态分配的准确性。5.1跟踪器参数姿势分配：在图G中，在相距至多30帧的任何两个节点之间创建边e ∈E。从要素到成本的权重映射使用来自3DPW数据集的5个序列来学习，这些序列已为此目的被手动标记。给定第4.2节中定义的特征f和从逻辑回归中学习的权重α，我们通过c=− 将特征转化为成本，使优化问题（5）具有概率动机[37]。视频惯性融合：等式中的不同加权参数（4）和等式（12）只要平衡就能产生好的结果。然而，我们不是手动设置它们，而是在TotalCapture（seensu bjects）的建议训练集中使用贝叶斯优化[3]。所发现的值为cc=0。2，其中g=0。0001且w_p_r_r=0。006，并为所有的X射线固定。并非如此，在这种情况下，参数非常少，因此，过拟合的风险非常小，这也反映在结果中。5.2跟踪精度我们定量评估跟踪精度的TotalCapture数据集。数据集由进行若干活动（诸如行走、动作、运动范围和自由式运动）的5个受试者组成，这些活动使用8个校准的静态RGB相机和附接到头部、胸骨、腰部、上臂、下臂、大腿、小腿和脚的13个IMU来记录。使用基于标记的运动捕捉系统获得地面实况姿态所有数据都是同步的，并以60Hz的帧率运行。地面实况姿态被提供为关节位置，其不包含关于角度上的旋前和仰卧的信息;即，关节位置。e. 在这座桥的长轴上有一个裂缝。为了获得自由位姿的完整描述，我们使用类似于[15]的方法将SMPL模型拟合到原始地面实况标记。12T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Moll方法[39]第三十九届[16个]它 VIP-2D VIP摄像头VIP-IMU6 VIP-IT VIPMPJPEMPJAE70.0-（62）-55.016.915.110.125.312.139.615.328.212.026.012.1表1.在TotalCapture上评估的平均关节位置误差（MPJPE）（单位：mm）和平均每个关节角度误差（MPJAE）（单位：度）。错误度量：我们报告：平均每关节位置误差（MPJPE）和平均每关节角度误差（MPJAE）。MPJPE是髋、膝、踝、颈、头、肩、肘和腕的地面实况与估计的关节位置之间的平均欧几里得距离; MPJAE是髋、膝、颈、肩和肘的地面实况与估计关节取向之间的平均测地距离。为了独立于绝对相机位置和方向来评估姿态精度，我们将我们的估计与地面实况对齐。这是现有基准中的标准做法[8]。因此，在我们的情况下，MPJPE是独立于全球位置和定向的姿态准确度的度量。结果：我们在TotalCapture上的跟踪结果总结在表1中。我们只使用了1个摄像头和提供的13个IMUTotalCapture中的摄像机VIP的平均MPJPE非常低，为26mm，MPJAE仅为12.1◦。与最新技术水平的比较：我们比TotalCapture数据集[39]中引入的基于学习的方法高出44 mm-该方法使用所有8个摄像机并将IMU数据与概率视觉外壳融合。我们的表现也优于[16]，他们报告使用8台摄像机和所有摄像机的平均MPJPE为62mm13个IMU。不可否认，很难比较方法，因为[39]和[16]以逐帧的方式处理数据，这是相对于[39]和[16]的优势。VIP，其同时在所有帧上联合优化。然而，VIP仅使用具有未知姿势的单个相机，而竞争者使用8个完全校准的相机。为了更好地理解VIP组分的影响，我们还在表1中报告了五种跟踪器变体的跟踪精度仅与IMU比较：惯性跟踪器（IT）对应于第4.1节的单帧方法。它仅使用原始IMU方向，并且是VIP的初始化。在所有序列中，IT实现了55mm的MPJPE。VIP将此误差降低了50%以上这证明了融合图像信息和优化航向角的有用性航向漂移和失准：我们报告了VIP-IT的结果，以证明优化航向角的影响，以及源自不准确初始姿态的传感器到骨的未对准。VIP-IT与IT相同，但使用通过VIP获得的航向角和初始姿态VIP-IT的准确性仅略低于验证推断漂移和准确初始姿态的重要性的VIP更多的评价见补充材料。对2D姿态精度的鲁棒性：VIP-2D与VIP相同，但使用通过投影地面实况联合位置获得的地面实况2D姿态。使用IMU和移动相机的精确3D人体姿势13见图6。我们展示了一些具有挑战性的活动使用VIP获得的结果。使用VIP，我们使用估计的相机姿势获得与图像对齐的准确3D姿势对图像的选择。VIP-2D实现了15.1mm的MPJPE，这表明如果2D姿态估计方法不断改进，VIP可以改进对相机姿态的鲁棒性：VIP-Cam也几乎与VIP相同，但使用地面实况相机姿势而不是估计它。VIP- Cam的MPJPE为25. 3毫米，相比VIP只好了0. 7毫米更少的传感器：我们使用类似于[42]的6个IMU报告VIP的误差，表示为VIP-IMU 6。仅6个IMU和2D姿态信息的组合实现了39.6mm的MPJPE，这比VIP-13 IMU高13.6mm，但仍然非常准确。这表明我们的方法可以用于其中需要最少数量的传感器的应用。该定量评价证明了VIP的准确性理想情况下，我们也会在具有挑战性的场景中定量评估VIP，例如3DPW中的场景。然而，不存在具有可比设置和地面实况的数据集，这是这项工作的主要动机之一。5.3野外数据集中VIP让我们实现了这项工作的第二个目标：在具有挑战性的户外场景中用移动相机记录具有准确3D姿态的数据集。手持智能手机摄像头用于记录一个或两个配备IMU的演员进行各种活动，如购物，运动，拥抱，讨论，自拍，乘坐公共汽车，弹吉他，放松。该数据集包括60个序列，超过51， 000帧和7个演员，共18种服装风格。我们还扫描了受试者和非刚性拟合的SMPL，以获得类似于[27，46]的3D模型对于单个受试者跟踪，我们将17个IMU连接到所有主要骨段。我们使用每人9-10个IMU来同时跟踪多达2个受试者。在所有记录期间，将一个附加IMU附接到智能手机。视频和惯性数据通过在序列开始时的拍手运动自动同步，如[24]所示对于每个序列，受试者被要求以双臂闭合的直立姿势开始。在图6中，我们示出了说明3D模型与图像对准的跟踪结果。图7示出了更多的跟踪结果，其中我们用重建的姿势动画化3D模型。3DPW是最先进的3D姿态估计方法的最具挑战性的数据集（具有3D姿态符号），如补充材料中报告的结果所证明的。14T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Moll图7.第一次会议。我们示出了3DPW中的序列的几个示例帧该数据集包含在人的身份，服装和活动的大的变化。对于一些情况，我们还显示动画，纹理SMPL身体模型。赋值准确度：与TotalCapture相比，3DPW中的额外挑战源自场景中的多个人。因此，我们使用人工标记的2D姿势候选ID来评估我们将2D姿势自动分配到3D姿势的准确性。VIP的分配精度达到99。3%，召回率为92. 2%的人证明该方法正确地识别了绝大多数帧的被跟踪人。这是 VIP 在 3DPW 上实现的 3D 姿态精度与 TotalCapture 报告的 26mm 的MPJPE相当的强有力的指示。6结论结合IMU和移动相机，我们介绍了第一种方法，可以在具有挑战性的场景中鲁棒地恢复姿态。我们应对的主要挑战是：复杂场景中的人物识别与跟踪，以及摄像机和IMU航向漂移的2个主体的3D姿态联合恢复。我们结合离散优化，以找到关联，与连续优化，以有效地融合传感器信息。使用我们的方法，我们收集了野生数据集中的3D姿势，包括具有准确3D姿势的挑战序列，我们可用于研究目的。使用VIP可以轻松地在自然视频中记录人物，我们计划继续添加到数据集。我们预计所提出的数据集将提供在困难场景中定量评估单目方法的手段，并刺激这一领域的新研究ACNOLEDGENTS 。WethankJorgeM´arquez ， SenyaPolikovsky y ，MatveySafroshkin and Andrea Keller for the technical support.使用IMU和移动相机的精确3D人体姿势15引用1. Andriluka，M.，Roth，S.，Schiele，B.：单目3d位姿估计与侦测追踪。IEEE计算机视觉和模式识别会议（CVPR）。pp. 6232. Bogo，F.，Kanazawa，A.，Lassner，C.Gehler，P.Romero，J.布莱克，M.J.：SMPL：从单个图像自动估计3D人体姿势和形状。在：欧洲计算机视觉会议（ECCV）（2016）3. Bull ， A.D. ：高效全局优化算法的收敛速度。JournalofMachineLearngReserch12（0ct），28794. Cao，Z.，Simon，T.Wei，S.E.，Sheikh，Y.：利用局部仿射场进行实时多人二维姿态IEEE计算机视觉与模式识别会议（CVPR）（2017）5. Gurobi优化，I.：Gurobi优化器参考手册（2016）6. Helten ， T. ， Baak ， A. ， Bharaj ， G. ，穆勒， M. ， Seidel ， H.P. ，Theobalt，C.：基于实时深度的全身跟踪器的个性化和评估3D Vision（3DV）（2013）7. Henschel，R.， Leal-Taix'e，L.， Cremers，D. ，Rosenhahn，B. ：使用双探头和全身探测器进行多目标跟踪。在：计算机视觉和模式识别研讨会（CVPRW）（2018）8. 约内斯库角Papava，D.，Olaru，V.，Sminchisescu，C.：Human3.6m：大规模数据集和预测方法，用于自然环境中的3D 人体感知。IEEETransactions on Pattern Analysis and Machine Intelligence （ TPAMI ） 36（7），13259. Jahangiri，E.，Yuille，A.L.：生成与2d关节检测一致的人类3d姿态的多个不同假设在： IEEE 计算机视觉国际会议（ ICCV ）研讨会（PeopleCap）（2017）10. Kanazawa，A.，布莱克，MJ Jacobs，D.W. Malik，J.：人体形态和姿势的端到端恢复。IEEE计算机视觉与模式识别会议（CVPR）（2018）11. Lassner，C.Romero，J.Kiefel，M.，Bogo，F.，布莱克，MJGehler，P.V.：团结人民：关闭3D和2D人类表现之间的循环IEEE计算机视觉与模式识别会议（CVPR）卷2017年第212. Levinkov，E.，Uhrig，J.，唐，S.，Omran，M.，Insafutdinov，E.，Kirillov，A.，Rother，C.，Brox，T.，Schiele，B.，Andres，B.：联合图分解节点标记：问题，算法，应用。在：CVPR中。第七卷。IEEE（2017）13. Li，S.，张伟，陈A.B.：使用深度网络进行最大间隔结构化学习，用于3d人体姿势估计。在：IEEE国际计算机软件会议（ICCV）中。pp. 284814. Loper，M.，Mahmood，N.，Romero，J. Pons-Moll，G.，布莱克，M.J.：SMPL：一个类似于线性模型的多个部件。 ACMTrans. Graphics34（6），248：115. 洛珀女士Mahmood，N.，布莱克，M.J.：MoSh：从稀疏标记捕获运动和形状美国计算机学会图形学报，（Proc.SIGGRAPH Asia）33（6），220：116. Malleson，C.Volino，M.，Gilbert，A.，Trumble，M.，Collomosse，J.，Hilton，A.：从视频和imus实时捕捉全身动作。2017第五届3D视觉国际会议（3DV）17. von Marcard，T.，Pons-Moll，G.，Rosenhahn，B.：从视频和IMU中估计人体姿态。IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）38（8），153316T. 诉马尔卡河Henschel，M.J. 布莱克湾Rosenhahn，G.Pons-Moll18. Martinez，J.侯赛因河Romero，J. Little，J.J.：一种简单而有效的三维人体姿态估计基线。 IEEE International Conference on Computer Vision（ICCV）（2017）19. Mehta，D.，Rhodin，H.，Casas，D.Fua，P.，Sotnychenko，O.，徐伟，Theobalt，C.：使用改进的cnn监督进行野外单目三维人体姿态估计。在：3D Vision（3DV）中。IEEE（2017）20. Mehta，D.，Sotnychenko，O.，Mueller，F.徐伟，Sridhar，S.，Pons-Moll，G.，Theobalt，C.：从单目rgb输入的单次拍摄多人3d身体姿态估计。arXiv预印本

下载后可阅读完整内容，剩余1页未读，立即下载