人体和物体的3D运动估计及接触力和力矩恢复的方法

8 浏览量更新于2023-10-18 收藏 836KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8640从单目视频李宗勉1，2Jiri Sedlar3 Justin Carpentier1，2 Ivan Laptev1，2 NicolasMansard4 Josef Sivic1，2，31DI ENS PSL2 Inria3 CIIRC，CTU in Prague4 LAAS-CNRS摘要在本文中，我们介绍了一种方法来自动重建一个人与一个物体从一个单一的RGB视频的3D运动。我们的方法估计的3D姿态的人和物体，接触位置，和力和力矩致动的人的四肢。这项工作的主要贡献有三个方面。首先，我们介绍了一种方法来共同估计的运动和驱动力的人对被操纵的对象建模接触和他们的相互作用的动力学。这是一个大规模的轨迹优化问题。其次，我们开发了一种方法，从输入视频中自动识别人与物体或地面之间接触的位置和时间，从而大大简化了优化的复杂性。第三，我们在最近的MoCap数据集上验证了我们的方法，并在一个新的互联网视频数据集上展示了它1. 介绍例如，人们可以通过观察其他人在教学视频中执行这些任务，很容易地学会如何用大锤打破混凝土或用镰刀切割干草他们也可以很容易地执行相同的任务，在不同的背景下。这涉及高级视觉智能功能，例如识别和解释实现特定目标的复杂的人-物交互。理解这种复杂的交互是构建自主机器的关键，这些机器通过观察人来学习如何与物理世界交互。*请参阅我们的项目网页[2]获取训练模型、数据和代码。1De′partement3捷克共和国布拉格捷克技术大学捷克信息学、机器人学和控制论研究所。图1：我们的方法自动在3D中重建由单个RGB视频捕获的对象操作动作。顶部：输入视频的帧。底部：输出的人体和物体3D运动，包括恢复的接触力（黄色箭头）和力矩（白色箭头）。这项工作在这个方向上迈出了一步，并描述了一种方法来估计一个人操纵一个对象的3D运动和驱动力，给定一个单一的无约束的视频作为输入，如图1所示。这是一项极具挑战性的任务。首先，在从单个视图的2D到3D映射中存在固有的模糊性：多个3D人体姿势对应于相同的2D输入。第二，人-物体交互通常涉及接触，导致接触中的物体和人体部分的例如，在拿起锤子之前，必须将一只手放在锤子手柄上。接触运动强烈地依赖于物理量，诸如物体的质量和由手施加的接触力，这使得接触的建模成为非常困难的任务。最后，我们在这项工作中考虑的工具，如锤子，镰刀或铁锹，由于它们的结构薄，缺乏纹理，并且经常被手和其他人体部位遮挡，因此特别难以识别为了解决这些挑战，我们提出了一种方法，通过视觉识别视频中的接触来联合估计人和物体8641并对相互作用的动力学进行建模。我们专注于刚性棒状手动工具（例如，锤子、杠铃、铁锹、镰刀），并将它们近似为3D线段。我们的主要思想是，当人体关节与物体接触时，该物体可以作为人体肢体运动的约束进行整合。例如，图1中的锤子提供了对人的两只手之间的相对深度相反，与锤子接触的手的3D位置提供对锤子的深度和3D旋转的约束。为了处理接触力，我们通过模拟人和物体的动力学将物理学整合到估计中。受仿人运动研究[16]最新进展的启发，我们将人-物轨迹估计公式化为给定每个人体关节接触状态的最优控制问题我们表明，可以使用深度神经网络从输入视频中自动识别接触状态。2. 相关工作在这里，我们回顾了计算机视觉和机器人文献中相关工作的关键领域。单视点三维姿态估计的目的是从输入图像中恢复人的三维关节配置。最近的人类3D姿态估计器要么试图建立从图像像素到人体的3D关节的直接映射，要么将任务分解为两个阶段：估计输入图像中关节的像素坐标，然后将2D骨架提升到3D。现有的直接方法要么依赖于生成模型来搜索状态空间，以找到与图像证据对齐的合理3D骨架[59，26，25]，要么最近从图像中提取深度特征并学习从2D图像到3D姿态的判别回归量[37，49，53，62]。基于2D人体姿态估计的最新进展[51，50，34，14]，两阶段方法已被证明是非常有效[5，71，9，19]，并在3D人体姿势基准[35]上实现最先进的结果[47]为了处理深度模糊性，这些估计器依赖于良好的姿势先验，这些姿势先验是手工制作的或从大规模MoCap数据中学习的[71，9，37]。然而，与我们的工作不同的是，这些方法不考虑与接触的3D人-物交互的显式模型。理解人-物交互涉及动作识别和交互建模。在动作识别中，大多数现有的建模人-物体交互的方法不考虑3D，而是在2D图像空间中建模交互和接触[29，20，70，55]。最近的作品在场景理解[36，24]考虑在3D中的交互，但专注于静态场景元素，而不是操纵对象，因为我们在这项工作中。跟踪与环境交互的人的3D姿势已经被证明用于双足行走-[12，13]或在运动场景中[66]。然而，这些作品没有考虑与对象的交互。此外，[66]需要对输入视频进行手动注释。在机器人学[60]和计算机动画[10]中也有建模人-物交互的相关工作。与人类似，人形机器人通过创建和断开接触与环境交互[32]，例如，在行走期间。通常，生成人工运动被公式化为最优控制问题，转换为高维数值优化问题，寻求在接触和可行性约束下最小化目标函数[21，58]。一个已知的困难是处理由接触的创建和破坏引入的所得优化问题的非平滑性[67]。由于这种困难，接触序列通常是单独计算的，而不是作为优化器中的决策变量[38，64]。最近的工作表明，可以通过隐式计算接触约束[54]或使用不变性来平滑所产生的优化问题[48，68]来同时决定连续在本文中，我们利用刚体模型引入机器人和制定的问题估计3D人-物交互从单目视频接触约束下的最优控制问题。我们首先从视觉输入中识别接触状态，然后通过我们的轨迹估计在3D中定位接触点，从而克服了接触不规则性的困难这使我们能够处理多接触序列（如步行），而无需手动注释接触阶段。对象3D姿态估计方法通常需要深度或RGB-D数据作为输入[61，22，33]，这是限制性的，因为深度信息并不总是可用的（例如，对于室外场景或镜面物体），就像我们的教学视频一样。最近的工作也试图从RGB输入恢复对象姿态[11，56，69，39，52，28，57]。然而，我们发现，这些方法的性能是有限的，我们认为在这项工作中的棒状物体相反，我们通过在2D中定位和分割对象来恢复对象的3D姿态，然后联合恢复人体肢体和对象的3D轨迹。因此，对象和人的姿势都互相帮助，通过利用接触约束来改善其关节3D轨迹教学视频。我们的工作也与最近的学习形式互联网教学视频[46，6，6]有关，这些视频旨在将输入视频分割成包含一致动作的剪辑。相比之下，我们专注于提取对象操作的详细表示，其形式为具有接触和基本操作力的3D人-对象轨迹。8642MM输入视频人体2D姿势具有接触状态的对象2D端点重建的运动和力识别阶段估计阶段图2：所提出的方法的概述。在识别阶段，系统从输入视频中估计人人体关节和物体端点在图像中被可视化为识别为接触的人体关节以绿色显示，未接触的关节以红色显示。在估计阶段，这些图像测量值在轨迹估计器中融合，以恢复人和物体的3D运动以及接触位置和力。3. 方法概述我们得到一个视频剪辑的一个人操纵一个对象或以另一种方式与现场互动我们的方法，如图2所示，接收输入帧序列，并自动输出人体，操纵对象和地平面的3D轨迹。同时，它定位接触点并恢复驱动人和物体运动的接触力。我们的方法分为两个阶段。在第一，识别阶段，我们从输入视频中提取2D measures。这些包括人体关节的2D位置、少量预定义对象端点的2D位置以及视频过程中在第二估计阶段中，这些图像测量然后被融合，以便估计人和物体的3D运动、3D接触以及控制力。人和物体的轨迹，接触位置和接触力共同受到我们精心设计的接触运动模型，力模型和动力学方程的约束。最后，将重构的对象操作序列应用于仿人机器人的行为克隆控制。在下文中，我们从第4节开始，描述估计阶段，给出作为最优控制问题的公式的细节。然后，在第5节中，我们详细介绍了识别阶段，包括2D人体姿势估计，接触识别和对象2D端点估计。最后，我们在第6节中描述了结果。4. 接触和动力学约束我们假设我们被提供有描绘操纵对象的人类主体的持续时间T的视频剪辑我们在配置中编码人和物体的3D姿态，包括关节平移和旋转关于人和物体的矢量qh和qo。我们在人体和物体（或地平面）之间定义了一组常数K个接触点。每个接触点对应于人体关节，并且当人体关节被识别为接触时被激活在每个接触点处，我们定义接触力fk，只要接触点k是活动的，其值就不为零然后，通过控制获得完整动力系统的状态连接人类和。d对象j指向配置q以及速度qstecasx=qh，qo，qstech，qsteco。设τh为关节描述人体肌肉驱动的扭矩矢量。这是一个nq−6维向量，其中nq是人体构型向量的维数。我们将控制变量u定义为关节扭矩矢量的组合。与K个接触接头处的摩擦力一起u：= τ h，f k，k = 1，.，K. 为了处理滑动接触，我们进一步定义接触状态c，其包括所有接触点相对于3D空间中的物体（或地面）的相对位置。我们的目标是双重的。我们希望（i）估计平滑且一致的人-物体和接触轨迹x和c，同时（ii）恢复引起所观察到的运动1的控制u。这是通过在给定从输入视频获得的测量（人体关节和对象端点的2D位置以及人体关节的接触状态）的情况下联合优化3D轨迹x、接触c和控制u来实现的直觉是，人和物体详细地说，我们将人-物交互估计公式化为具有接触的最优控制问题，1在本文中，轨迹被表示为下划线变量，例如x、u或c。8643构成JKK.Σ¨¨动力学约束：在优化期间，lh最小化是为了尽量减少x，u，c联系我们e∈{h，o}0le（x，u，c）dt，（1）或更合理的人类姿势，一个。4.3.运动的物理可解释性受 κ（x，c）=0（接触运动模型），（2）xstec=f（x，c，u）（全身动力学），（三）u∈ U（力模型），（4）其中e表示损失函数le是多个成本捕获的加权和，(i)数据项测量观察到的和重新投影的2D关节和对象端点位置之间的差异接下来，我们依次描述这些成本条款以及导致其设计选择的见解。为了简单起见，当引入一个成本项时，我们忽略上标e，该成本项存在于损失的人类lh和对象lo分量中我们使用在整体问题公式（1）中使用的连续时间符号来描述各个术语问题的离散版本以及优化和实现细节将在4.5节中讨论。人-物交互涉及与交互力耦合的接触，这不包括在数据驱动成本项（5）和（6）中因此，对接触和物理进行建模对于从输入视频重建对象操纵动作是重要的。接下来，我们概述了用于描述接触的运动和接触点处的力的模型。最后，接触运动和力，以及系统状态x，通过力学定律通过动力学方程联系起来，这约束了估计的人-物体相互作用。这一全身动力学约束将在本小节的末尾详细介绍。接触动作。在识别阶段，我们的接触识别器预测，给定人体关节（例如，左手，由j表示），接触状态序列δj：{1，0}。与[16]类似，我们在任何时候都称之为接触阶段其中j是接触的，即，δj=1。我们的核心思想是，人体关节j和活动关节物体上的接触点（由k表示）在接触阶段期间应保持为零：4.1. 数据项：2D重新投影误差=0 （点接触），（7）我们希望最大限度地减少估计的三维人体关节和三维物体端点的重新投影误差，JK其中Ph和Pc是关节j和ob的3D位置在每个视频帧中获得的2D测量的方面JK详细地，令j=1，.，N是人的关节或物体的端点，P是它们在图像中观察到的2D位置。我们的目标是最小化以下数据项喷射接触点k。注意，对象接触点Pc（x，c）取决于描述人-对象配置的状态向量x和接触沿着对象的相对位置c 的位置2D接触pc服从由C表示的可行范围。为l数据=ρpj−Pcam（pj（q）），（5）JK对于锤子等棒状物体，C近似为代表手柄的3D线段对于地面，其中Pcam是相机投影矩阵，并且pj是3D，可行范围C是3D平面。在实践中，我们将-由人引起的关节或物体端点j的位置公司简介通过对对象配置向量q。为了处理离群值，我们使用鲁棒Huber损失，用ρ表示。4.2. 3D人体姿势单个2D骨架可以是多个3D姿势的投影，其中许多姿势是不自然的或不可能超过人类关节限制。为了解决这个问题，我们将类似于[9]的姿态先验纳入人类损失函数lh通过对SMPL人体模型进行拟合，得到姿态先验信息[43]到CMU MoCap数据[1]使用MoSh [44]并将高斯混合模型（GMM）拟合到所得SMPL 3D姿态。我们将我们的人体配置向量qh映射到SMPL姿态向量θ，并计算相对接触位置c.方程（7）适用于接触面积可被建模为点的最常见情况。示例包括手-手柄接触和膝-地面接触。为了模拟人体足底与地面的平面接触，我们将每个足底表面近似为一个有四个顶点的平面多边形，并在每个顶点处应用点接触模型在我们的人体模型中，每个鞋底都附接到其父踝关节，因此当δ an k le = 1时，鞋底的四个顶点接触点是有效的。由此产生的总体接触运动函数κ在prob中，lem（1）是通过统一点接触模型和平面接触模型得到的在预训练的GMMΣκ（x，c）=δ？T（kj）。hhcéh姿态LΣ8644=−log.Σp（qh;GMM）.（六）jéjk∈φ（j）pj（q）-pk（x，c）<$，（8）8645MKQnnK扭矩0Mnkn其中外部总和是所有人类关节的总和。内部和是在活动对象接触点的集合第二个来自接触力：通过映射将其映射到其对应的人体关节jφ（j）。映射T（kj）将踝关节的位置τh= .Σ ΣK6岁以上.ΣTJHfk，（11）将j连接到其对应的第k个唯一顶点;它是用于非踝关节的恒等映射。接触部队在人体关节j的接触阶段期间，环境在φ（j）中的每个有效接触点上施加接触力fk。fk总是表示为HKmk=1其中τ h是由肌肉施加的人体关节扭矩，f k是接触点k处的接触力，J h是将人体关节速度qstech映射到在k的局部坐标系中表示的接触点k的笛卡尔速度的雅可比矩阵。让我去-注意qh，qstech和qh的维数，则τh和Jh为MK在接触点k 我们区分维数nh−6和3×nh。我们模型的Q Q两种类型的接触力：（i）施加的6D空间力物体和（ii）由于地面摩擦的三维线性力。在物体接触的情况下，fk是具有3D线性力和3D力矩的无约束6D空间力。在地面摩擦力的情况下，fk被限制在三维摩擦锥K3（也称为二次洛伦兹[16]以正摩擦系数μ为特征。在实践中，我们用一个三维金字塔来近似K3，由N=4生成器的基础，这允许我们表示-人体和物体作为自由浮动的基础系统。在人体的情况下，配置向量q中的前六个条目对应于自由浮动基座的6D姿态（平移+定向），其不由任何内部致动器（诸如人类肌肉）致动通过在等式中添加零来考虑该约束。（十一）、在被操纵物体的情况下，除了人施加的接触力之外，不存在任何因此，目标扭矩表示为：重新发送fk作为凸组合fkΣNn=1 λkng（3），τo=−Σ（Jo）Tf，（12）其中λkn≥0，g（3），n=1，2，3，4，是3DKK目标接触k接触力的发生器。我们把接触力由四个鞋底-地面接触点引起，并在踝关节框架中表达统一的接触力其中，总和是在物体接触点上，fk是接触力，并且Jo表示物体雅可比矩阵，其从物体关节速度qsteco映射到笛卡尔ve。Σ4 .Ffj=kΣΣ4=ΣN λjkng（6），（9）物体接触点k的位置用k的局部表示frame.Jo是一个3×no矩阵，其中no是pk×fkknkq qk=1k=1n=1对象配置向量qo、qsteco和q？o。其中，pk是接触点k的位置，以联合表示j我们将两个人的动力学方程连接起来，并且目的是在Eq. （3）如有可能─λjkn≥0，且g（六）是f j的6D生成元。请参阅lem（1），并包括肌肉力矩项Lh=τh2kn本文件扩展版的附录在[40]中查看更多详细信息，包括g（3）和g（6）。全身动力学。人体和被操纵物体的全身运动由拉格朗日动力学方程描述M（q）q？+b（q，qstec）=g（q）+τ，（10）在总成本中最大限度地减少肌肉扭矩的作用，人体能量消耗的规律化4.4. 加强轨迹平滑性使人和物体的运动规律化。利用视频的时间连续性，我们最小化3D关节速度和加速度的平方和，以提高人和物体运动的平滑性，并去除不正确的2D姿态。我们在（1）中包括针对人和对象损失的以下运动平滑其中M是广义质量矩阵，b包括离心和科里奥利效应，g是广义引力lsmooth= Σ。vj（q，qstec）<$2+Σ、（十三）矢量，τ表示关节扭矩控制。斯捷奇和q？分别为关节速度和关节加速度。活泼地注意，（10）是一个统一的方程，对于人和物体的动力学，因此我们在这里省略了下标e。只有关节力矩τ的表达式在人和物体之间不同，下面我们给出两个表达式。对人类来说，它是两种贡献的总和：第一个对应于内部接头扭矩（由τ=8646其中νj和αj是空间速度，分别为关节j的加速度2在对象的情况下，j表示对象上的端点。通过最小化lsmoth，同时平滑每个关节/端点的线性和角度运动2空间速度（加速度）是刚体的线速度和角速度（加速度）的最小和统一表示[23]。它们是6维的。8647J使接触运动和力规则化。除了正则化关节的运动，我们还通过最小化接触点的速度和接触力的时间变化来正则化接触状态和控制。这通过在问题（1）中的成本函数中包括以下接触平滑它在MPII多人基准测试中取得了优异的性能[7]。采用预训练的Openpose模型，我们以逐帧的方式对输入视频进行前向传递，以获得人体关节的2D轨迹的估计，c光滑Σ Σ=δjjk∈φ（j）.Σωkcsteck2+γ kfsteck2dt，（14）识别联系人。我们希望认识到和当地-确定人与被操纵者物体或地面。由于视频中接触事件的大的外观变化，这是一项具有挑战性的其中Csteck和Fsteck分别表示接触点处的位置和接触力的时间变化K. ω k和γ k是正则化项csteck和fsteck 的标量权重。注意，一些接触点，例如在鞋底-地面接触期间人鞋底的四个接触点，在接触阶段，应相对于物体或地面保持固定为了解决这个问题，我们调整ωk，以防止接触点k在接触时滑动。4.5. 优化转换为数值优化问题。我们使用配置方法[8]将连续问题（1）转化为离散所有轨迹都被离散化，并且约束（2）、（3）、（4）仅在与视频帧的离散序列匹配的时间网格的“配置”节点上被强制执行。优化变量是人和物体姿态[x0.. x T]、扭矩和力控制[u1. u T]，接触位置[c0.和场景参数（地平面和相机矩阵）。由此产生的问题是非线性的，约束和稀疏（由于轨迹优化的顺序结构）。我们依赖于Ceres求解器[4]，它致力于解决稀疏估计问题（例如，光束法平差 [65] ），以及Pinocchio软件[17，18]，用于有效计算运动学和动力学量及其导数[15]。更多细节见本文扩展版的附录[40]。初始化。正确初始化求解器是摆脱糟糕的局部极小值的关键。我们通过使用人体估计器HMR [37]推断每帧的初始配置向量qk来热启动优化，该人体估计器HMR[ 37 ]从单个RGB图像估计3D关节角度。5. 从视频中提取2D测量值在本节中，我们将介绍如何在系统的第一个识别阶段从输入视频帧中提取2D测量值。特别地，我们提取了2D人体关节位置、2D对象端点位置和人体关节的接触状态。估计人体关节的 2D 位置。我们使用最先进的Openpose [14]人类2D姿态估计器，然而，我们在这里证明，通过从手动注释的联系人数据中训练联系人识别CNN模块可以实现良好的性能，这些数据结合了从互联网上获取的静态图像和视频。详细地说，接触识别器对Openpose预测的2D人体关节进行操作给定视频帧i处的2D关节，我们在一组感兴趣的关节周围裁剪固定大小的图像块，这些关节可能与物体或地面接触。根据人体关节的类型，我们将每个图像块馈送到相应的CNN，以预测块中出现的关节是否接触。接触识别器的输出是编码视频帧i处的人体关节j的接触状态的序列δji，即如果接头j在帧i处接触，则δ j i = 1，否则为零。请注意，δji是第2节中给出的接触状态轨迹δj的离散化版本4.第一章我们的接触识别 CNN 是通过将 ImageNet 预训练Resnet模型的最后一层[31]替换为具有二进制输出的全连接层来构建的。我们已经训练了五种类型的关节的单独模型：手，膝盖，脚底，脚趾和脖子。为了构建训练数据，我们使用Google图像搜索收集了人们操纵工具的静态图像。我们还从Youtube上收集了人们操纵工具的短视频片段，以便也有非接触的例子。我们在此数据上运行Openpose姿态估计器，裁剪2D关节周围的补丁，并使用接触状态注释所得数据集。估计2D对象姿态。目标是估计每个视频帧中被操纵对象的2D位置。为了实现这一点，我们建立在Mask R-CNN [30]获得的实例分割基础上。我们从不同的角度对对象模型的形状训练网络，并将训练好的网络应用于测试视频。输出遮罩和边界框用于估计每帧中的对象端点所得到的2D端点用作轨迹优化器的输入下面给出细节在杠铃、锤子和镰刀的情况下，我们为每个工具创建了一个3D模型，大致近似于视频中实例的形状，并使用透视相机从多个视角渲染。对于spade，我们在13个不同的静态图像中注释了该工具的各种实例的2D掩码。渲染的3D模型或2D掩码的形状用于训练Mask R-CNN，例如每个工具的分割。训练集是八月-L8648通过2D几何变换（平移、旋转、缩放）分割以处理视频中工具实例的形状变化此外，域随机化[42，63]被应用于处理实例的变化和由照明引起的视频中的外观变化：几何变换的形状用来自随机图像（前景）的像素填充，并粘贴在另一随机图像（背景）上。为此，我们使用了来自MS COCO数据集的随机图像[41]。我们使用在MS COCO数据集上预训练的Mask R-CNN（实现[3]）模型，并为每个工具重新训练头部层。在测试时，由重新训练的Mask R-CNN获得的掩码和边界框用于估计工具端点的坐标。如果帧中有多个候选项，则使用与估计腕关节坐标的接近度来选择掩码和绑定框。为了估计对象的主轴，通过输出二进制掩码拟合一条线。端点被计算为拟合线和边界框的边界的交点。使用输出掩码和边界框的组合补偿由遮挡引起的分割掩码中的误差。工具的相对定向（即，头与工具的手柄）由视频帧中端点的空间位置以及它们与估计的腕关节的接近度来确定。6. 实验在本节中，我们提出了定量和定性评价重建的三维人-物相互作用。由于我们不仅恢复了人体姿势，而且恢复了物体姿势和接触力，因此由于标准3D姿势基准（如 [35] ）中因此，我们在最近的生物力学视频/MoCap数据集上评估了我们的运动和力估计量化，该数据集捕获了具有挑战性的动态跑酷运动[45]。此外，我们报告了关节错误，并在我们新收集的描述手动工具操作动作的视频数据集上显示了定性结果6.1. 跑酷数据集该数据集包含捕捉人类主体执行四个典型跑酷动作的视频：双手跳、上举、引体向上和单手跳。这些是高度动态的运动，与环境有着丰富的接触相互作用地面实况3D运动和接触力是用Vicon运动捕获系统和几个测力板捕获的。3D运动和力分别以400Hz和2200Hz的帧速率重建，而RGB视频以相对较低的25Hz速率捕获，由于运动模糊，使该数据集成为计算机视觉算法的挑战方法跳上移上拉跳AvgSMPLify [9]121.75147.41120.48169.36139.69HMR [37]111.36140.16132.44149.64135.65我们98.42125.21119.92138.45122.11表1：跑酷数据集上每个动作的恢复3D运动的平均每个关节位置误差（mm）。L. 鞋底R. 鞋底L. 手R. 手力（N）144.23138.21107.91113.42力矩（N·m）23.7122.32131.13134.21表2：在跑酷数据集上施加在鞋底和手上的接触力的估计误差。评价设置。我们评估了估计的人的三维运动和接触力。为了评估恢复的3D人体姿态的准确性，我们遵循计算刚性对准后相对于地面真实的估计3D姿态的平均每关节位置误差（MPJPE）的常用方法[27]。我们在没有任何对齐的情况下评估接触力：我们表示在与数据集中提供的世界坐标系对准的接触位置处的估计的和地面实况6D力。我们将6D力分为线性和力矩分量，并报告线性力和力矩相对于地面真实值的结果我们在表1中报告了不同动作的联合误差，并将结果与HMR 3D人体姿势估计器[37]进行了比较为了进行公平的比较，我们使用相同的Openpose 2D关节作为输入。此外，我们评估了最近的SMPLify[9] 3D姿态估计方法。我们的方法优于这两个基线超过10毫米，平均在这个chal-challening数据。最后，表2总结了力估计结果。为了估计力，我们假设一个通用的74 . mass人体模型所有受试者均为6kg。尽管由于一般人体质量假设而产生系统误差，表2中的结果验证了我们在行走和跳跃过程中足底和手部的力估计的质量我们观察到估计的手部运动的误差更高在这种情况下，手可以施加显著的力和扭矩来支撑身体，并且力方向上的微小偏移可以导致显著的误差。6.2. 手工工具数据集除了在受控设置中捕获的跑酷数据之外，我们还想展示我们对“野外”互联网教学视频的方法的概括。为此，我们收集了一个新的对象操作视频数据集，我们称之为Handtool数据集。该数据集包含人们操纵四种工具的视频：杠铃、锤子、镰刀和铁锹。对于每种类型的工具，我们选择了顶级视频重新-8649图3：Handtool数据集的定性结果示例。每个示例都显示了输入帧（左）以及人和对象的输出3D姿态的两个不同视图（中，右）。输出中的黄色和白色箭头分别显示接触力和力矩。请注意，所提出的方法如何从这些具有挑战性的无约束视频中恢复人-物交互的3D配置以及接触力和力矩。转了五个视频涵盖了一系列的行动。然后，我们从每个视频中裁剪出展示整个人体和工具的短片。评估3D人体姿势。对于Handtool数据集中的每个视频，我们已经注释了人第一个、中间的和最后的膝盖和脚踝方法Mask R-CNN [30]杠铃33/42/54黑桃54/79/93锤35/44/45镰刀63/72/76frame. 我们评估的准确性恢复三维胡-我们38/71/9857/86/9961/91/9969/88/98人通过计算他们的MPJPE刚性对齐后构成表3示出了恢复的3D姿态的定量评估。平均而言，我们的方法优于强HMR [37]和SMPLify [9]基线。然而，这些方法之间的差异正在达到该数据集上手动提供的3D人体姿势注释的准确性的极限项目网站[2]上提供的视频证明，我们的模型可以产生平滑的3D运动，尊重人与物体的接触，并捕捉人与工具的这不是HMR [37]和SMPLify [9]基线的情况，这些基线应用于单独的帧，并且不对人与工具之间的交互进行建模。我们的方法的示例结果如图3所示。有关其他结果（包括主要失效模式的示例），请参见本文扩展版本的附录[40]。2D物体姿态的评估。进行质量评价在估计的对象姿态中，我们在Hand- tool数据集中的每个视频的每第5帧中手动注释2D对象端点通过将估计的3D工具位置投影回图像平面来获得2D位置。我们将结果与Mask R-CNN实例分割基线的输出进行比较[30]（它为我们的人-物交互模型提供了初始化在表4中，我们报告了两种方法的估计端点位置位于距离anno 25，50和100像素内的表4：估计的2D位置位于手动注释的地面实况位置的25/50/100像素（在600×400像素图像中）内的端点百分比。设定的地面实况端点位置。结果表明，与Mask R-CNN基线相比，我们的方法提供了更准确和稳定的对象端点位置，这要归功于对对象和人之间的交互进行建模7. 结论我们已经开发了一个视觉识别系统，作为输入的视频帧连同一个简单的对象模型，并输出一个三维运动的人和对象，包括- ING接触力和力矩由人体四肢。我们已经验证了我们的方法在最近的MoCap数据集与地面真实接触力。最后，我们收集了一个新的无约束教学视频数据集，描述了人们操纵不同的对象，并证明了我们的方法在此数据上的好处。我们的工作开辟了从互联网教学视频中大规模学习人-物体交互的可能性[6]。致谢。我们热烈感谢Bruno Watier（保罗·萨巴蒂尔大学和LAAS-CNRS）和Galo Maldonado（ENSAM Paris- Tech）建立了跑酷数据集。这项工作部分得到了ERC赠款LEAP（第100号）的支持。336845），H2020 Memmo项目，CIFAR机器大脑学习&计划，以及IMPACT项目下的欧元区区域发展基金（reg. CZ.02.1.01/0.0/0.0/15003/0000468）。有关更多视频结果，请参见项目网页[2]。方法杠铃黑桃锤镰刀AvgSMPLify [9]130.69135.0393.43112.93118.02HMR [37]105.0497.1896.34115.42103.49我们104.2395.2195.87114.22102.02表3：Handtool数据集上每种工具类型的恢复3D人体姿势的平均每个关节位置误差（mm）。8650引用[1] CMU 图形实验室运动捕捉数据库。得mocap.cs.cmu.edu余弦值.[2] 项目网页（代码 / 数据集）。https：//www.di.ens.fr/willow/research/motionforcesfromvideo/.[3] W.阿卜杜拉Mask R-CNN用于Keras和TensorFlow上的对象检测和实例分割。https：//github.com/matterport/Mask_RCNN，2017年。[4] S. Agarwal，K. Mierle及其他谷神星解算器网址：//ceres-solver.org网站。[5] I. Akhter和M. J.布莱克。三维人体姿态重建的姿态条件关节角度限制。CVPR，2015。[6] J. - B. Alayrac ， P.Bojanowski ， N. 阿格拉瓦尔岛Laptev，J.Sivic和S.拉科斯特-朱利安从叙述式教学视频中进行无监督学习。在CVPR，2016年。[7] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。[8] L. T.比格勒非线性规划：概念、算法和化学过程应用，第10卷，第10章。暹罗，2010年。[9] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。[10] R. Boulic，N. M. Thalmann和D.塔尔曼具有实时运动拟人的全球人类步行模型The Visual Computer，6（6）：344[11] E. Brachmann F. 米歇尔 A. 克鲁尔 M. 应阳：S. Gumhold等人不确定性驱动的单一rgb图像中物体和场景的6d姿态估计。在CVPR，2016年。[12] M. A.布鲁贝克D. J. Fleet和A.赫茨曼使用简化的下半身动力学的基于物理的人跟踪。CVPR，2007。[13] M. A. 布鲁贝克湖Sigal和D.J. 舰队估计接触动态。CVPR，2009。[14] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，2017年。[15] J. Carpentier和N.曼萨德刚体动力学算法的解析导数在机器人：科学和系统（RSS 2018），2018年。[16] J. Carpentier和N.曼萨德腿式机器人的多接触运动。IEEE Transactions on Robotics，2018。[17] J. Carpentier ， G.Saurel ， G.Buondonno ， J.Mirabel ，F.Lami- raux，O. Stasse和N.曼萨德Pinocchio C++在2019年系统集成国际研讨会[18] J. Carpentier，F. 瓦伦扎河 Mansard等人皮诺乔：多关节系统的快速正向和反向动力学。https://stack-of-tasks.github.io/ pinocchio，2015[19] C.- H. Chen和D.Ramanan 3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。[20] V. Delaitre，J.西维克和我拉普捷夫学习静止图像中的动作识别的人-对象交互。NIPS，2011年。[21] M. Diehl，H.博克Diedam和P. -B. Wieber 机器人最优控制的快速直接多重打靶算法在生物力学和机器人学的快速运动。2006年[22] A.杜马诺格鲁河Kouskouridas，S. Malassiotis和T.-K. Kim. 人群中的6d对象检测和下一个最佳视图预测在CVPR，2016年。[23] R.费瑟斯通刚体动力学算法。Springer，2008.[24] D. F.作者声明：A.古普塔A。A.埃夫罗斯岛Laptev和J.西维克观看者：作为单一视图几何体提示的人类行为。IJCV，110（3）：259[25] J. Gall，B. Rosenhahn，T. Brox和H.- P. Seidel人体运动捕捉的优化和滤波。IJCV，87（1- 2）：75，2010年。[26] S. Gammeter，A.埃斯，T.Jggli，K.Schindler，B.Leibe和L.范古尔自运动条件下的关节式多体跟踪ECCV，2008年。[27] J. C. 高尔广义 procrustes 分析。 Psychome- trika ， 40（1）：33[28] A. Grabner，P. M. Roth和V.莱珀蒂野外物体的三维姿态在CVPR，2018年。[29] A. 古普塔A。Kembhavi和L.S. 戴维斯观察人与物体的相互作用：利用空间和功能的兼容性进行识别。PAMI，31（10）：1775[30] K. 他，G. Gkioxari，P. Dol la'r和R. B. 娘娘腔。面罩R-CNN。CoRR，abs/1703.06870，2017年。[31] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[32] A. Herdt，N. Perrin和P. - B. Wieber走路不去想它。智能机器人与系统国际会议（International Conference onIntelligent Robots and Systems，IROS）[33] S. 欣特施托伊塞尔河谷 Lepetit ， N.Rajkumar 和K.Konolige进一步介绍点对特征。在ECCV，2016年。[34] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B.席勒Deepercut：一个更深、更强、更快的多人姿势估计模型。在ECCV，2016年。[35] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法PAMI，36（7）：1325[36] Y. Jiang， H. Koppula和A.萨克塞纳幻觉人类作为标记3d场景的隐藏上下文CVPR，2013。[37] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在CVPR，2018年。[38] J. Kuffner，K.Nishiwaki，S.卡加米山Inaba和H.井上仿人机器人的运动规划在机器人研究。第十一届国际研讨会，2005年。[39] Y. Li，G.Wang，X.吉，Y.Xiang和D.狐狸. DeepI

下载后可阅读完整内容，剩余1页未读，立即下载