没有合适的资源?快使用搜索试试~ 我知道了~
基于重力感知的无标记三维人体重建
12365. ..基于重力感知的单目三维人体重建Rishabh Dabral1,2Soshi Shimada2Arjun Jain3,4Christian Theobalt2VladislavGolyanik21 IIT Bombay2 MPI for Informatics,SIC3 IISc Bangalore4 Fast Code AI图1. 所提出的GRAVICAP方法从单目RGB视频捕获3D人体运动和3D对象轨迹。(Left:)由于基于物理的约束,我们可以消除单目环境中场景的比例的歧义,并恢复3D人体姿势和以米为单位(右图:)我们在一个新的真实多视图数据集上评估了我们的方法,该数据集具有多个主题和活动。摘要本文提出了GraviCap,即,一种新的联合无标记三维人体运动捕捉和物体轨迹估计从单目RGB视频的方法。我们专注于在自由飞行过程中部分观察到的对象的场景。与现有的单目方法相比,我们可以恢复规模,对象轨迹以及人骨长度(以米为单位)和地平面的方向,这要归功于对约束对象运动的重力的认识。我们的目标函数是参数化的对象的初始速度和位置,重力方向和焦距,并共同优化一个或多个自由飞行插曲。所提出的人-对象交互约束确保了3D重建的几何一致性,并且与无约束的情况相比,提高了人体姿势的物 理 合 理 性 。 我 们 在 一 个 新 的 数 据 集 上 评 估GraviCap,该数据集具有用于进行自由飞行的人和不同物体的地面实况注释。在实验中,我们的方法在各种度量上实现了3D人体运动捕获中的最先进的准确性我们强烈建议读者观看我们的补充视频。源代码和数据集均已发布;参见http://4dqv.mpi-inf.mpg.de/GraviCap/网站。1. 介绍从单个单目RGB相机进行无标记3D人体运动捕获具有许多公开的挑战。尽管最先进的方法已经取得了很大的进展[21,24,33,14,39],但它们仍然很难用于显示人类与环境的非平凡交互的场景,因为它们中的大多数都没有对环境约束或物理定律进行此外,很少探索人与来自单目图像的对象交互的3D重建,并且迄今为止仅提出了少数作品[19,50]。考虑与环境相互作用的大多数现有方法施加几何约束以避免不正确的相互渗透[49,15,50]。他们经常表现出强烈的抖动,难以置信的姿势与不自然的身体倾斜和深度不稳定。最近基于物理学的单目3D人体姿势估计方法[34,39]表明,重力和地面反作用力(或摩擦力)的显式建模然而,这些方法不对对象交互进行建模,并且在没有关于人体的先验信息的情况下,它们不能以绝对度量尺度估计姿势和场景尺寸。在本文中,我们提出以下观察:明确地模拟物理学并积极鼓励一个 特殊的GraviCap概述输出绝对值m或m/s]e单位[GraviCap数据集初始3D姿态估计:初始对象位置:初始物体速度,m/s:焦距:重力矢量:骨长度,m:校正根转换:3D对象轨迹:最终全局3D姿势输入:2D图像(单眼)2D对象和姿态估计2D对象轨迹和关节关键点应用3D全局姿态估计3D物体轨迹估计高度测量[m]地板法线估计焦距估计[m]12366场景中的人-对象交互的特定形式使得能够从单个单目视频以度量准确的方式进行改进的3D人和3D对象轨迹重构。 我们考虑当多达两个人与对象交互并使其自由飞行时的场景(例如,投掷或抛掷)。这样的场景经常在实际的日常生活中在练习运动或玩户外游戏时观察到。我们表明,基于物理的约束,使我们能够获得3D估计的绝对单位,其中,其他明智的,仍然无法访问的单眼设置时,没有强有力的先验假设的场景,如已知的骨骼长度。我们的核心发现是:1)假设已知相机帧速率和重力矢量,抛射体运动约束足以从2D对象坐标恢复经历自由飞行的对象的3D轨迹; 2)已知重力的大小和焦距足以解析以米为单位的观察场景的比例和地平面的取向,假设重力矢量的方向与地平面法线相反; 3)相对于重新覆盖的3D对象轨迹定位人导致改进的3D人运动捕获。关于我们的框架的概述,请参见图1。输入是对象的几何中心的2D坐标和2D人体关节位置,以及初始未约束的运动学3D人体姿势。在那之后,我们然后在多个输入帧上全局地最小化所提出的目标,并且在一个或多个自由飞行情节上获得3D对象轨迹和改进的3D人体姿势。总结起来,这项工作的贡献如下:• G RAVI C AP,即,联合三维捕捉人体运动和自由飞行物体轨迹的新方法(第2节)。3);• 新型的人-物交互约束提高了3D人体姿势的准确性和物理合理性(第12节)。3.2.2)。第一次,这些约束允许从单个单目RGB相机恢复以米为单位的移动和交互对象(包括人)的• 用于实验评估的新的人机交互数据集,具有3D人体姿势和对象轨迹的地面实况注释(第12节)。4).我们在新数据集的广泛实验中使用不同的指标实现了全球3D人体运动捕捉的最新精度(第二节)。(五)。我们的估计看起来更物理合理和时间上一致相比,没有人类轨迹定位约束的结果。此外,所提出的约束显着改善绝对根翻译。GRAVI CAP的源代码和数据集在http://4dqv.mpi-inf.mpg.de/GraviCap/网站。2. 相关工作运动学三维人体姿态估计。近年来,单目三维人体姿态估计的准确性有了很大的提高。大多数方法采用神经网络,可以分为几类。一些方法首先估计输入视图中的2D姿态,然后在3D空间中提升它们[6,21,41,27,11,8],而其他几种方法直接从图像[40,22,35]估计3D关节。几种提升算法建立在非刚性结构运动的原理上,并依赖于提升步骤的经典优化[51,45,18]。与此同时,弱监督方法获得了越来越多的关注,这是因为它提高了训练数据集之外的泛化能力[9,46,7,30]。许多其他方法结合了2D关节位置或3D关节深度的回归[29,24,31,14]。参数化身体模型提供了关于合理形状和姿势的强先验,其可以用于准确的人体姿势估计[4,16,32,17]。甚至更强的先验是人类网格,最近的几种方法展示了如何使用它来跟踪单个演员[13,12,48]。与迄今为止讨论的所有方法相比,其他几种技术适用于多个主题的场景[8,36,26,23]。几种纯运动学方法试图估计具有相机坐标空间中的绝对深度的3D人体姿势[26,37,23]。到目前为止,审查的所有方法都考虑了重建运动的几何保真度,并且不施加环境约束。基于环境先验的三维人体姿态估计Hassan等人。 [15]使用3D环境扫描来检测人与物体的碰撞并改进运动学3D姿态回归。在Zanfir等人 [49]中,有效地应用了诸如公共地平面和体积占用排除等环境约束,用于3D人体姿势和形状估计。Zhang等人。 [50]联合重建依赖于几何形状先验的人和物体,无论是对于人和物体,还是交互附近。Monszpart的iMapper及其同事[25]以数据驱动的方式联合恢复示意性3D场景布置和人类运动,依赖于3D人类-对象交互的数据库进行训练。作者表明,运动模式提供了一个强有力的线索,场景组成,这反过来,作为先验可能的人类运动。同样,我们发现在本文中,基于物理学的线索与物体Vondrak等人 [44]通过恢复模拟视频中观察到的运动的3D双足控制器来捕获3D人体运动。Li等人[19]同时估计人体骨骼关节和器械(由人使用)的3D投影,以及接触位置处的力(即,脚-地板和手-物体接触)。他们观察到该仪器提供了3D中手部的重建提示(即,对于它们在深度上的相对定位)和手123672我我--联系我们{I I I}{}我21联系我们2Bhat等人 [2]演示如何估计刚体的运动1x yz(三)位置提供了仪器3D位置的提示。相比之下,我们专注于可以释放并在重力作用下沿着弹道轨迹自由移动的物体三种最近的方法用生物物理合理性约束来约束人体运动[34,39,38]。这允许显著减少不自然的身体倾斜、脚底穿透和抖动。我们制定了基于物理的约束对象,而不是直接人类。与使用环境先验的所有回顾的方法相反,我们可以消除场景的比例并计算距离(例如,骨骼长度和3D对象轨迹)。此外,由于我们的人对象定位约束,与初始运动学估计相比,以这种方式估计的3D人姿势在物理上更合理。其他相关问题。作为一个副作用,我们的GRAVI CAP可以从单眼视频中提取绝对骨骼长度B0和重力矢量→−g=(gx,gy,gz),如在相机的参考系中所见给定帧速率r,B可以使用牛顿动力学方程表示为Bi=B0+→−ut+→−gt2,(1)其中t=i/r是对应于从自由飞行开始的帧i的接下来,假设固有相机参数(焦距f和主点c=(cx,cy))和重向量→−g已知,可以重建3D轨迹Bb.从2D观测中获得物体的位置在针孔相机模型下,视频中被观察对象XiYi几种方法使用3D配准技术提取人体测量结果,并假设3D人体扫描作为输入[42,47],而我们仅依赖于2D视频Bieler等人。 [3]使用经典力学方程从跳跃人的视频中估计人的高度请。我们可以把人类的身高作为比例尺的副产品来xi=fZ+cx,yi=fZ+cy,i,S. t. .g2+g2+g2=9. 81米/秒2Xi=X0+uxt+1gxt2,哪里Yi=Y0+uyt+2gyt,和我0zz(二)消除歧义和由于重建的对象运动。Z=Z+ut+1gt2.在自由飞行中模拟与图像一致意见假设小阶旋转对称的已知形状允许估计对象的初始位置和速度、重力方向和对象相对于相机的外部参数。相比之下,我们假设1)目标对象具有无限阶的旋转对称性(即,它们是球形的)和2)它们的直径未知。我们表明,这些假设是足以消除歧义的场景3. 方法我们现在描述我们的用于在相机的参考系中联合恢复对象和人的轨迹的GRAVICAp方法;参见图1的概述。3.1. 恢复三维物体轨迹首先,我们假设已知的相机焦距f和一组物体的弹道轨迹的2D观测值b=bl,b2,. . . b从图像中提取的N=1,2,. . . ,N,其中bi=(xi,yi)是对象在图像i,i,. . . 、N. 我们的目标是恢复对象的3D轨迹B = B1,B2,. . . 其中Bi=(Xi,Yi,Zi)表示对象在相机相对3D空间中的位置。我们称第一集为单目视频中观察到的自由飞行事件我们假设一旦释放,唯一影响物体运动的力方程组(2)具有3N个未知数。 使用通过弹道轨迹(3)的参数化,它减少到六个,即,初始位置B0=(X0,Y0,Z0)三个为→-u。因此,当N>2时,(2)有唯一解(forN=3,它有一个封闭形式的解决方案)。我们接下来考虑两种情况,即, 的方向时→−g是1)known,当它是2)unknown时,在(2)中。在第一种情况下,我们假设→−g的方向平行于y轴,并与世界坐标系中翻转的地板法线重合这在实践中是高度相关的,特别是在人工环境中。在第二种情况下,地平面相对于相机的取向仍然未知。因此,(2)包含三个未知数,如果N>4,则有解。同时,在这两种情况下,我们假设→ − g的震级是已知的,等于9。81m/s2 ,这是一个合理的 假设。Eventhough→−gdiffers取决于在地球上的位置,差异是微不足道的超出了可以提高单目视觉3D轨迹估计中可达到的精度的值在我们的设置1.如果f和→−g都是未知数,则(2)有10个未知数,N>5时可以恢复,并进行适当的初始化(参见第2节中关于“f/Z”模糊性的注释)(六)。在实践中,我们使用并推荐N>10以获得更好的确定系统(与N=5相比)。这种系统的解决方案对2D测量中的噪声和量化效应不太敏感表1总结是重力(没有空气阻力)。这个假设是--让我们使用三个参数来参数化B:初始速度→−u=(ux,uy,uz),物体的初始位置1−→g=9。81m/s2接近地球表面−→g的平均值,−→g的差值不超过≈0。7%的地区。212368我我··联系我们联系我们∥ ∥我12其中Xi、Yi和Zi如⑶中那样参数化。注意到N中心,其中tcorr=(tcorr,tcorr,tcorr)。 一旦后者在我i,xi,yi,zX¨¨模式/恢复。. .输入未知数3D对象坐标,场景比例(6自由度)+重力方向(9 DoF)+焦距(10 DoF)b,→−g,fb,→−g,fb,→−g→−u,B0→−u,B0,→−g→−u,B0,f,→−g6自由度+f(7自由度)b→−g→−u,B0,f表1. GRAVI CAP用于3D物体轨迹恢复的不同操作模式,以及输入和非输入的摘要知道了。已知owing−→u,B0,f和−→g都可以重构Bi。GRAVI CAP的操作模式和相应用于对象的轨迹重建的未知集合We求解ve(2)对于B0,→−u和y,f和→−g,通过在2-范数下最小化对象iveEb=Eb(B0,→−u,f,→−g)我们使用现成的2D姿态估计器RMPE(AlphaPose)[10]来提取人p=p1,p2,. . . p N,其中p iRK×2,在输入图像中观察到。然后可以使用现成的人类姿态估计方法如[24,26,9]来检索同一人的根相对3D姿态Pkin这些是提升方法(即,它们在p上操作)或在i上操作的直接回归方法。由于这些技术是单眼的(基于RGB),它们要么预测具有规范骨架的3D姿势,要么缺乏跨不同人的通用性(身体变化)。因此,我们的目标是恢复骨长度,l=l1,l2,. . .,lK1,使得对应的根相对3D姿态s(Pkin,l)在真实度量空间中并且与解剖长度一致。操作者s(i)通过用估计的骨长度l校正P_kin的骨长度来解析P_kin的比例。Σ¨ΣxΣΣfXi+cZiZiΣ¨2使得骨骼方向矢量被保留。 毛皮-arg min −¨¨、(四)B0,→−u,f,→−gI yifYi+cy2此外,我们还估计了修正根平移t_corr={t_corr,t_corr,. . . ,tcorr}的人从相机rec over ered B0和→−u是绝对单位,i。例如,m和m/s,因为→−g用m/s2表示,f(如果已知)和t是分别以米和秒表示备注。从(2)中,我们看到,如果没有沿着X轴(相机正在观察自由落体并且自由落体平面平行于图像平面)或z轴(自由飞行平面平行于相机平面)的运动,我们仍然可以以绝对单位恢复距离,因为重力仅影响对象轨迹的y虽然上述公式(4)足以在理想设置中恢复对象 这种噪声的来源可以可以是多个,包括丢失和错误的重心检测。接下来,我们将展示如何对象的绝对(全局)相机相对姿态一个人可以恢复为P=s(Pkin,l)+tcorr。我们接下来假设在所考虑的自由飞行情节中我们知道这个人什么时候拿着这个东西自由飞行开始了。 这就可以消除每个人的歧义。在绝对值中使用恢复的轨迹B的Son坐标 知道对象与人是必要的。在接触的时刻,人的尺度与轨迹尺度相同(回想一下,在尺度下,我们指的是与相对和绝对距离单位相关的因子)。如果没有接触,则沿着深度轴的单目设置的通常的模糊性仍然适用于人和场景的其他部分。我们通过最小化Ep = Ep(l,t_corr)来恢复主体ΣΣs(Pkin,l)[x]+tcorr2Xy我X12369F+C--i,k,x··得双曲余切值.和Pi,kkini,zCorr把物体的轨迹和人的姿势联系起来s(Pi,k,l)[y]+ti,ys(Pkin,l)¨12N我联系我们3.2. 三维人体-物体联合重建arg minΣ¨pi,ks(Pkin,l)[z]+tcorr- -(5)Fi,ki,x+cl,t校正i,k¨ pi,ky12370位置提供了额外的约束,同时还允许我们i,k12371i,z212372以估计关于一个或多个人的人体测量信息。现场有几个人,多亏了轨迹估计12373绝对距离单位。 我们先找到未-3D人体骨骼的应变运动学估计Pkin=12374P金,P金,. . . ,P kin,其中P kin RK×3 且K=16为关节的数量。 我们表示单独的3Dx-、y-和y-。z-每个关节的分量,由k∈ {1,. . .,K},其中运算符[ ]提取向量的x-、y-或z12375tor(替代符号)。 在(5)中,我们有2个NK方程和(3N+K)个未知数12376已知)、骨长度l(Kl未知)和焦点长度l(Kl未知)。长度f.然而,方程组(5),如果考虑-12377独立于Eb(4),遭受规模模糊。因为骨长度和牙根平移抵消了12378使用Pkinkini,k,ykini,k,z分别表示。Pkin可以是ei-12379对方. 此外,2D和3D的姿态估计,12380其他根相关的或还包括初始估计根翻译 在这两种情况下,分别估计Pkin12381from the object’s 3D trajectory and, hence, is not在绝对坐标中,并且在物理上是不可信的。12382由于模型的不准确性而容易出现错误;特别是,在12383闭塞的情况。 因此,估计的对象trajec-保守党和人类的姿势并不保证一致-12384是的。 因此,期望重建是自然的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功