三维场景约束解决三维人体姿态模糊问题

56 浏览量更新于2023-10-11 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2282利用三维场景约束解决三维人体姿态模糊问题Mohamed Hassan、Vasileios Choutas、Dimitrios Tzionas和Michael J.马克斯·普朗克智能系统{mhassan，vchoutas，dtzionas，black}@ tuebingen.mpg.de图1：标准3D人体估计方法预测的人体可能与3D场景不一致，即使从相机的角度来看，结果可能看起来合理。为了解决这个问题，我们利用三维场景结构，并引入场景约束的接触和相互渗透。从左至右：（1）RGB图像（顶部）和3D场景重建（底部），（2）在没有（黄色）和具有（灰色）场景约束的情况下，在原始RGB图像上叠加估计的身体，从（3）相机视图、（4）顶视图和（5）侧视图对身体和场景进行3D渲染。摘要为了理解和分析人类的行为，我们需要捕捉人类在世界中移动并与世界互动大多数现有的方法执行3D人体姿态估计没有明确考虑的场景。我们观察到世界如何约束身体，反之亦然。为了激励这一点，我们表明，目前的3D人体姿态估计方法产生的结果是不一致的3D场景。我们的主要贡献是利用静态的三维场景结构，以更好地估计从monocular图像的人的姿态。该方法使用对象排除强制执行邻近关系，称为PROX。为了测试这一点，我们收集了一个新的数据集，由12个不同的3D场景和RGB序列的20个主题移动和互动的场景。我们使用3D人体模型SMPL-X表示人体姿态，并扩展SMPLify-X以使用场景约束来估计人体姿态我们利用的3D场景信息，制定两个主要的约束。相互穿透约束使相交受到惩罚，在身体模型和周围的3D场景之间。如果身体的特定部位在距离和方向上足够接近，则接触约束鼓励身体的特定部位与场景曲面接触。对于定量评估，我们捕获具有180个RGB帧的单独数据集，其中使用运动捕获系统估计地面真实身体姿势我们定量地表明，引入场景约束显着减少3D关节误差和顶点误差。我们的代码和数据可在https://prox.is.tue.mpg.de上查阅。1. 介绍人类在3D世界中移动并与之互动。世界限制了这种运动，并提供了机会（启示）[20]。事实上，正是通过我们的脚和环境之间的接触，我们才能够移动。无论是站、坐、躺、走还是操纵物体，我们的姿势、动作和姿势都受到周围世界的影响。尽管如此，大多数关于从图像估计3D人体姿势的工作忽略了2283世界以及我们与世界的互动。在这里，我们以不同的方式制定人体姿势估计，使3D世界成为解决方案中的一流参与者。具体来说，我们估计3D人体姿态从一个单一的RGB图像条件的3D场景。我们表明，世界提供的约束条件，使3D姿态估计问题更容易，结果更准确。我们遵循两个关键原则来估计3D场景中的3D姿态首先，从直观物理学的角度来看，3D空间中的两个物体不能相互渗透并共享同一个因此，我们处罚的姿态，其中身体相互渗透的场景对象。我们将此其次，物理交互需要在3D空间中接触以施加力。为了利用这一点，我们使用简单的启发式，即身体表面的某些区域最有可能接触场景，并且当这样的身体表面接近场景表面并且具有相同的取向时，它们很可能接触。虽然这些想法已经在一定程度上被3D手-对象估计社区[38，47，51，56，67，68]探索，但它们在3D身体姿势的工作中受到的关注较少。我们制定了一个术语，实现这种接触启发式，并发现它提高了姿态估计。我们的方法扩展了SMPLify-X [49]，该方法将3D身体模型“自上而下”拟合为“自下而上”特征（例如，2D关节检测）。我们选择这种基于优化的框架而不是直接回归方法（深度神经网络），因为它更直接地纳入我们的物理激励约束。该方法使用对象排除强制执行邻近关系，称为PROX。图1显示了一个代表性的例子，其中人体姿态估计与我们的环境，没有ronmental条款。从相机的角度来看，两种解决方案看起来都很好，并且与2D图像匹配，但是当放置在3D场景的扫描中时，没有环境约束的结果可能非常不准确。将我们的约束添加到优化中可以减少相互渗透并鼓励适当的接触。有人可能会问，为什么这种限制通常不被使用？一个关键原因是，为了估计和推理接触和相互渗透，需要3D场景的模型和人体的真实前者在今天利用许多扫描技术很容易获得，但是，如果身体模型不准确，则推断接触和相互渗透是没有意义的。因此，我们使用SMPL-X身体模型[49]，它足够逼真，可以作为3D场景中真实人类的特别是，模型的脚、手和身体具有逼真的形状和自由度。这里我们假设场景的粗略3D模型是可用的。公平地问，单目人姿态估计，但假设3D场景？我们认为这是出于两个关键原因。首先，如今使用商用传感器扫描场景非常容易。如果场景是静态的，那么它可以被扫描一次，使得能够从单个RGB相机进行准确的身体姿势估计;这对于监视、工业或特殊效果应用是有用的。其次，从单个图像估计3D场景结构的方法进展非常迅速。现在有很好的方法从单个图像中推断3D深度图[15]，以及进行更多语义分析和估计场景中对象的3D CAD模型的方法[45]。我们的工作是对这个方向的补充，我们相信单目3D场景估计和单目3D人体姿态估计应该一起发生这里的工作提供了一个明确的例子，说明为什么这是有价值的。为了评估PROX，我们使用三个数据集：两个定性数据集和一个定量数据集。定性数据集包括：3D场景扫描、单目RGB-D视频和伪地面真实人体。通过将SMPLify-X扩展为使用RGB和深度数据来拟合SMPL-X。为了获得定量数据集的真实地面数据，我们在基于标记的运动捕捉环境中设置了一个起居室，扫描场景，并在MoCap数据之外收集RGB-D图像。我们使用MoSh++ [41]将SMPL-X模型拟合到MoCap标记数据，这提供了真实的3D身体形状和姿势。这使我们能够定量地评估我们的方法。我们的数据集和代码可用于研究，https://prox.is.tue.mpg.de网站。2. 相关工作人体姿态估计和3D场景重建已经深入研究了几十年，尽管大多是分开的。传统的人体姿态估计方法[43]孤立地估计身体，忽略周围的世界，而3D重建方法则专注于仅获取场景的密集3D形状[76]或执行语义分析[7，13，54]，假设没有人类存在。在这项工作中，我们专注于利用和捕捉人类世界的互动。社区在从图像中估计人体姿势和形状方面取得了重大进展[18，43，53，60]。基于深度学习的最新方法将3D人体姿势估计扩展到复杂场景[32，42，48，50]，但3D精度有限。然而，为了估计人-场景交互，需要更逼真的身体模型，包括完全铰接的手，如[31，49]。联合人类&世界模型：一些工作专注于通过观察人与对象交互的RGB图像来改进2D对象检测，2D姿势和动作识别[5，23，35，52，72]。[14，17，24]使用类似观察结果来推理3D场景，即，粗糙三维2284然而，场景线索不被另一个方向通过在场景的真实RGB图像[29]中为合成人产生幻觉来建模人-场景交互，用于一般场景标记，或者在合成3D场景中学习AF[21，33]或场景中的3D对象布局[30]，或者在场景的真实3D扫描[16]中进行场景合成。在这里，我们利用这个3D结构来更好地捕捉其中的人类姿势。在下文中，我们将重点关注[21，33，44，61，62]遵循这一思想的最新作品其中几个观察RGB-D视频中真实的人类世界互动[44，61，62]。[62]在3D人体姿势和3D对象布置上学习联合概率模型，编码为一组以人为中心的原型交互图（PiGraphs）。然后，学习的PiGraph可以用于从高级文本描述生成合理的静态3D人-对象交互配置[44]建立在PiGraphs数据集上，定义了一个“场景”数据库，最后，[61]采用类似的观察来预测3D场景中的动作地图然而，这些作品捕捉嘈杂的人体姿势，并没有利用场景的约束来改善它们。它们还将人体姿势表示为3D骨架，而不是完整的3D身体。其他作品如[21，33]使用合成的3D场景，并将虚拟人放在其中来推理启示。[21]通过使用定义的身体关键姿势并评估人类场景距离和网格交叉点来实现这一点。这些方法实际上并没有捕捉场景中的人物。我们的方法可以为这些方法提供丰富的训练数据，以推理启示。人界&限制：其他作品更明确地利用人类世界的相互作用来建立物理约束，即。接触或碰撞约束。Yamamoto和Yagishita [71]是第一个在3D人体跟踪中使用场景约束的人。他们观察到，场景可以约束关节式3D身体模型的位置、速度和加速度。后来的工作将对象接触约束添加到身体，以有效地减少身体的自由度，并使姿势估计更容易[34，58]。Brubaker等人[11]专注于步行并通过使用躯干和下半身的运动学模型作为人体运动的先验来执行3D人物跟踪，并在2D拟人步行器上调节其动力学[36]。Hasler等人[25]从多个不同步的移动相机重建粗略的3D场景，并采用场景约束进行姿态估计。上述方法都有正确的想法，但需要大量的人工干预或应用于非常有限的场景。大多数使用世界约束的现有方法都集中在与地平面的相互作用[69]或简单地约束身体沿着地平面移动[74]。最其中有趣的是Vondrak等人的工作。[69]他们利用游戏物理引擎，利用重力、马达力和与地面的相互作用来推断人类姿势。这是一个非常复杂的优化，它还没有扩展到地面接触之外。Gupta等人[22]使用GPLVM学习框架在人体姿态估计中利用上下文场景信息。对于像坐这样的动作，他们会采集坐在不同高度物体上的人的动作捕捉数据。然后，在对象高度的条件下，他们估计图像中的姿态，利用学习的姿态模型。Shape2Pose [33]学习一个模型来生成与给定3D对象交互的合理3D人体姿势首先在对象表面上推断接触点，然后估计鼓励相关身体部位与接触点紧密接近的最可能的姿势。然而，该方法仅使用合成数据。[73]在脚和估计的地平面之间建立接触约束。为此，他们首先独立地估计多人RGB视频中的人体姿势，并在踝关节位置周围拟合地平面。然后，他们使用由类似于[10，47]的形状约束组成的碰撞模型，在包含接触和时间约束以及碰撞约束的所有帧的全局优化方案中细化姿势。最近，[39]介绍了一种方法来估计接触位置，力和力矩，在人与物体的互动过程中，由人体肢体3D手部对象社区也探索了类似的物理约束，例如[37，47，51，56，67，68]。这些方法中的大多数采用碰撞模型来避免手-物体相互穿透，具有不同程度的准确性;使用底层形状基元[38，47]或在更复杂对象的凸部分中进行分解[38]，或使用原始网格检测碰撞三角形以及3D距离场[68]。三角形相交测试也被用来估计接触点和力[56]。大多数其他工作使用简单的接近度检查[64，67，68]，并在接触点处使用吸引项。最近，[27]提出了一种端到端模型，该模型利用接触损失和相互渗透惩罚，在RGB图像中重建操纵对象的手。总之，过去的工作集中在特定的身体部位（手或脚）或与有限的物体（地面或手持物体）的相互作用。在这里，我们第一次解决了与多样化，复杂和完整的3D场景交互的完整关节式身体此外，我们展示了如何使用3D场景提高单目3D身体姿态估计。3. 技术途径3.1. 3D场景表示要研究人与场景的交互，首先需要获得关于场景的知识，即。进行现场侦察2285结构由于物理交互通过表面发生，因此我们选择将场景表示为3D网格M s=（V s，F s），其中|V S|=Ns个顶点Vs ∈R（Ns×3）和三角形面Fs。我们假设一个静态的3D场景，用标准的商业解决方案重建Ms;结构传感器[4]相机和Skanect [3]软件。我们选择场景框架来表示世界坐标框架，同时表示摄像机和人体模型w.r.t. 这在第3.2节和第3.3节中分别解释3.2. 摄影机表示我们使用Kinect-One相机[1]来获取人移动和与场景交互的RGB和深度图像。我们使用公开可用的工具[2]来估计内部相机参数K c，并捕获同步的RGB-D图像;对于每个时间帧t，我们以30 FPS捕获512×424深度图像Z t和1920×1080 RGB图像I t。然后，我们将RGB-D数据转换为点云Pt。进行人体运动捕捉。首先，我们需要将RGB-D相机注册到3D场景。我们假设一个静态的摄像机，估计外部摄像机参数，即。相机到世界的刚性转换Tc=（Rc，tc），其中Rc∈SO（3）是旋转矩阵，tc∈R3是平移向量.对于每个序列，人类注释者注释3D场景Ms和点云Pt之间的3个对应关系，以获得初始估计。Tc的配合物，然后使用ICP [9，75]进行精制。摄像机外部参数（Rc，tc）在每次记录期间固定（第3.4节），人体b是在相机帧中估计的，并且也需要通过将Tc应用于人体b来将人体b配准到场景。为了简化符号，我们在变换到世界坐标系之后对相机c和身体b使用相同的符号3.3. 人体模型我们使用SMPL-X代表人体[49]。SMPL-X是一种生成模型，其捕获人类体型如何在人群中变化，从不同体型、性别和国籍的人以各种姿势的注册3D身体、面部和手部扫描的语料库它超越了类似的模型[6，26，40，57]，通过面部表情和手指关节对身体进行整体建模，这对交互很重要。SMPL-X是由形状β、姿态θ、面部表情θ和平移γ表征的可微函数Mb（β，θ，θ，γ）。其输出是一个三维人体网格Mb=（Vb，Fb），其中Nb=10475个顶点Vb∈R（Nb×3）和三角形面Fb。形状参数β∈R10是学习到从大约4000个注册的CAESAR [55]扫描。身体的姿势由具有底层装配骨架的线性混合蒙皮定义，其3D关节J（β）从网格顶点回归。骨骼共有55个关节;22个用于主体（包括一个全局骨盆关节），3个用于颈部和两个眼睛，以及15个用于手指关节的关节。位姿参数θ=（θb，θf，θh）分别由每个关节3个自由度的主体关节和面部关节的轴角表示中的θb∈R66和θf∈R9参数以及双手手指关节的低维位姿空间中的θh∈R12位姿参数组成大约1500个登记的手部扫描记录[57]。位姿参数θ和平移向量γ∈R3定义了一个函数，该函数沿运动树Rθγ变换关节。按照[10]的符号，我们用Rθγ（J（β）i）表示每个关节i的定态关节。3.4. 单目图像的人体运动捕捉为了使 SMPL-X 适合单个 RGB 图像，我们采用SMPLify-X [49]并将其扩展为包括人类世界交互约束，以鼓励接触和讨论的相互渗透。我们将我们的方法命名为 PROXforProximal Relationships with ObjecteExclusion。我们将SMPLify-X扩展到SMPLify-D，其使用RGB和额外的深度输入以更准确地将人类姿势配准到3D场景。我们还扩展了PROX以使用RGB-D输入而不是仅使用RGB;我们称这种结构为PROX-D。受[49]的启发，我们将SMPL-X拟合到单目图像作为优化问题，其中我们寻求最小化目标函数E（β，θ，ε，γ，Ms）=EJ+λDED+λθbEθb+λθfEθf+λθhEθh+λα Eα+λβ Eβ+λEEE+λPEP+λCEC（1）其中，θb、θf和θh是身体、面部（颈部，j a w）和两个手的姿势向量，θ={θb，θf，θh}是可优化姿势参数的完整集合，γ表示身体平移，β表示身体形状，并且β表示面部表情，如第3.3节中所述。EJ（β，θ，γ，K，Jest）和ED（β，θ，γ，K，Z）是下面描述的数据项EJ是所有配置中使用的RGB数据项，而ED是可选的深度数据项，当深度数据可用时使用。项Eθh（θh）、Eθf（θf）、EE（E）和Eβ（β）是手部姿势、面部姿势、面部表情和身体形状的L2先验，惩罚devi。脱离中立国。对于翼[10，49]，项Eα（θb）=i∈（肘，膝）exp（θi）是仅针对肘和膝的先验惩罚极端弯曲，而Eθb（θb）引入了一种基于VAE的身体姿势先验，称为VPoser在[49]中。项EC（β，θ，γ，Ms）鼓励身体和场景之间的接触，如3.5节所述。项EP（θ，β，Ms）是从[49]修改的穿透惩罚，以考虑自穿透和人-场景互穿透，如第3.6节所述。的2286BB我我图2：经常与世界接触的带注释的顶点，用蓝色突出显示。项EJ、Eθb、Eθh、Eα、Eβ和权重λi为de-与他们接触的场景交互，例如，站立或行走时脚接触地面。因此，我们引入术语EC来鼓励身体部位与接触区域周围的场景之间的接触和接近为此，我们在整个身体上注释了一组频繁与世界接触的候选接触点VCVb我们在整个身体上注释了1121个顶点，如图2所示。我们还探索了选择所有身体顶点作为接触顶点，但发现这种选择是次优的，评估见Sup。Mat.我们将接触顶点定义为：手有725个顶点，大腿有62个顶点，臀肌有113个顶点，背部有222个顶点，脚有194个顶点。EC定义为：”[49]中的一句话。权重λi表示每个项的转向权重。他们是在退火ΣEC（β，θ，γ，Ms）=ρC（最小值）v∈V-vs）（4）类似于[49]。对于RGB数据项EJ，我们使用重新投影损失来最小化从RGB图像I估计的2D关节Jest（I）与SMPL-X的对应的所设定的3D关节Rθγ（J（β）i）的2D投影之间的加权鲁棒距离，如第3.3节中针对每个关节i所定义的。按照[10，49]的符号，数据项为EJ（β，θ，γ，K，Jest）=vC∈VCs s其中ρC表示稳健的Geman-McClure误差函数[19]对于远离3D场景Ms的Vs中的最近顶点的Vc中的向下加权顶点。3.6. 渗透期直观的物理学表明，两个物体不能共享同一个3D空间。然而，人体姿态估计方法可能导致自穿透或身体穿透Σκi ωi ρJ（Rθγ接头i（J（β）i）−Jest，i）（2）周围的3D物体，如图1所示。因此，我们引入了一个渗透项，该渗透项将定义如下的EPself和EPinter组合在一起：其中ΠK表示具有固有相机参数K的3D到2D投影。对于2D检测，我们依赖于OpenPose [12，63，70]，它为图像中的每个人联合提供身体，面部和为了考虑检测中的噪声，数据项中每个关节的贡献由检测置信度得分ωi加权，而κi是退火优化的每个关节权重，如[49]所述。此外，ρJ表示鲁棒的EP（θ，β，γ，Ms）=EPself（θ，β）+EPinter（θ，β，γ，Ms）（5）对于自穿透，我们遵循[8，49，68]的方法我们首先使用Bounding Volume Hierarchies（BVH）[66]检测一系列碰撞体三角形Pself，并计算局部圆锥3D距离fields 然后，根据向下加权的Geman-McClure误差函数[19噪声检测。深度数据项ED使差异最小化，深度单位为mm。为了精确地定义E和EP，请读者参考[8，68]。自我（θ，β）在可见的身体顶点Vv<$Vb和分段的对于身体-场景相互渗透，点云PtB它只属于身体，而不属于滑动三角形是不够的，因为身体可能是初始的，深入3D对象内部甚至3D场景外部静态场景为此，我们使用身体分割掩码Kinect-One SDK则ED定义为：Σ为了解决这个问题，我们使用场景Ms的带符号距离场（SDF）惩罚所有穿透顶点。那个...ED（β，θ，γ，K，Z）=p∈PtρD（最小值v−p）（3）v∈Vv用具有大小的均匀体素网格来表示感测场256×256×256，它跨越场景的填充边界框。每个体素单元ci存储距其中心其中ρD表示稳健的Geman-McClure误差函数[19]对于远离Pt的降权顶点Vv。pi∈R3到Ms的最近曲面点ps∈R3，且法线ns∈R3，而符号是根据向量pi−psw.r.t.的相对方向nsas22873.5. 联系方式术语iisign（ci）=sign（（pi−ps）·ns）;（6）使用RGB项EJ而不对ii进行推理人与世界的交互可能导致物理上不合理的姿势，如图1所示;然而，当人类正号表示身体顶点在最近的场景对象之外，而负号表示它在2288国际图3：我们的PROX数据集的12个室内场景的重建3D扫描，以及我们的定量数据集的额外场景，显示在右下角。图4：我们的PROX数据集的示例RGB帧显示了人们在自然室内场景中移动并与他们互动。我们总共重建了12个场景，捕获了20个主题。图3显示了室内场景的3D重建。在最近的场景对象内部，并表示穿透。在实践中，在优化过程中，我们可以发现每个主体通过读取其落入的体素的带符号距离di∈R，相对于场景定位verte xVbi由于有限的网格分辨率影响3D的离散化，距离场，我们使用类似于[28]的相邻体素执行三线性插值。然后通过最小化损失项ΣEP=n s2.（七）di03.7. 优化我们优化方程1类似于[49]。更具体地说，我们在PyTorch中实现了我们的模型，并使用了具有强大Wolfe线搜索的有限内存 BFGS优化器（ L-BFGS ）[46]。4. 数据集4.1. 定性数据集定性数据集PiGraphs和PROX包含：3D场景扫描和人们互动的单眼视频3D场景。它们不包括地面实况身体，因此我们无法在这些数据集上定量评估我们的方法。4.1.1PiGraphs数据集该数据集作为Sava等人工作的一部分发布。[62]。该数据集包含多个3D场景扫描和RGB-D视频。它受到多重限制;颜色和深度帧既不同步也不空间校准，使得难以同时使用RGB和深度。人的姿态是相当嘈杂的，并没有很好地注册到3D场景，这是不准确的重建。该数据集具有5fps的低帧速率，仅限于5个主题，并且没有地面实况。4.1.2PROX数据集我们收集这个数据集是为了克服PiGraphs数据集的局限性。我们采用商用Struc-ture Sensor [4] RGB-D相机和附带的3D重建解决方案Skanect [3]，并重建12个室内场景，如图3所示。场景可以分为：3间卧室，5间客厅，2个起居室和2个办公室。然后，我们采用Kinect-One [1] RGB-D摄像机来捕捉与这些场景互动的20个主体（4个女性和16个男性）。受试者提供了书面知情同意书，同意将其数据用于研究目的。数据集以30fps提供100 K同步和空间校准的RGB-D帧。图4显示了我们数据集中的示例RGB帧。我们通过将SMPLify-X扩展到SMPLify-D来利用RGB-D视频来获得伪地面实况，SMPLify-D使SMPL-X同时适合RGB和深度数据，而不仅仅是RGB。4.2. 定量数据集我们的PROX数据集和PiGraphs [62]都没有用于定量评估的基础事实。为了解释这一点，我们捕获了一个单独的定量数据集，其中180个静态RGB-D帧与54个摄像头的Vicon系统同步。我们在尸体和手指上做了记号。我们将日常家具和物品放置在Vicon区域内以模拟客厅，并对场景进行3D重建，如图的右下角所示。 3.结构传感器[4]和Skanect [3]与上述相似。然后，我们使用MoSh++ [41]，这是一种将MoCap数据转换为由操纵身体模型表示的逼真3D人体网格的方法。示例RGB帧如图5（左）所示，而我们的网格伪地面实况显示为水蓝色。我们的数据集将用于研究目的。2289误差当量1条款EJEC EP EDPJEV2vp.PJEp.V2V（一）（b）第（1）款表1：公式1的消融研究;每行包含复选框指示的项。单位为mm。PROX和PROX-D以粗体显示。表（a）：使用基于Vicon和MoSh++的网格伪地面实况对我们的定量数据集进行评估[41]。表（b）：使用基于SMPLify-D的伪地面实况对我们的定性数据集的选定序列进行评估。表（a，b）：我们报告了不存在/存在procrustes对齐的平均每个关节误差，记为“PJE”/“p.PJE”，平均顶点到顶点误差记为“V2V”/“p.V2V”。5. 实验定量评价：为了评估我们的方法的性能，以及评估等式1中不同项的重要性，我们在表1中进行定量评估。作为性能指标，我们报告了分别标记为“PJE”和“p.PJE”的不具有和具有前凸对齐的平均每个关节误差，以及类似地标记为“V2V”和“p.V2V”的平均顶点到顶点误差。表中的每一行显示一个设置，其中包括复选框所指示的不同术语。表1包括不同数据集的两个子表表1（a）：我们采用了新的定量数据集，其具有基于Vicon和MoSh++ [41]的网格伪地面实况，如第4节所述。仅具有EJ的第一行是类似于SMPLify-X [49]的仅RGB基线，我们通过使用固定相机和估计身体平移γ来适应我们的需求，并给出最大的在第二行中，我们只加上接触项EC，而在第三行中，我们只加上穿透项EP。在这两种情况下，误差都下降了一点，但是对于包括EC和EP两者的第四行，下降明显更大;这对应于PROX并且达到167。08毫米166. 51mm这表明，EC和EP有助于准确性，并且是互补的。在-形成性能的上限，在第五行中，我们采用具有EJ和ED的RGB-D基线，其对应于PROX（第四行）用较少的输入数据实现了相当好的性能，即。仅使用RGB。表1（b）：我们选择了新PROX数据集的4个随机序列。我们使用SMPLify-D生成伪地面实况，它使用RGB和深度。我们显示了仅RGB基线（第一行）和PROX（第二行）与SMPLify-D的伪地面实况之间的比较。结果支持了上述发现，在PROX的场景约束有助于显着的准确性。所有配置的运行时间在Sup中报告。Mat.定性评价：在图5中，我们也显示了定量数据集的定性结果。此外，在图6中，我们显示了定性数据集的代表性定性结果;我们的PROX数据集和PiGraph数据集。在这两幅图中，缺乏场景约束（黄色）导致场景中出现严重的穿透我们的方法，PROX，包括场景约束（浅灰色）和估计机构是显着更一致的三维场景，即。真实的接触而不是穿透。更多的定性结果可在Sup中获得。Mat.6. 结论在这项工作中，我们专注于人类与世界的互动，并捕捉人类与RGB图像中的真实静态3D场景互动的运动。我们使用一个整体模型SMPL-X [49]，它将身体与面部和手指联合建模，这对交互很重要。我们发现，将基于交互的人类世界的约束优化框架（PROX）的结果显着更现实和准确的MoCap。我们还收集了一个新的数据集的3D场景与RGB-D序列涉及人的相互作用和闭塞。我们进行了广泛的定量和定性评估，清楚地表明将场景约束到3D人体姿态估计的好处。我们的代码、数据和MoCap可用于研究目的。局限性和未来工作：当前公式的一个局限性是我们没有对场景遮挡进行建模。当前的2D部件检测器不能指示关节何时被遮挡，并且可能提供不准确的结果。通过知道我们可以推断出什么是可见的，什么是不可见的。另一个有趣的方向将是通过采用[65]对整个身体的隐式公式来统一自我渗透和身体场景未来的工作可以利用最近的深度网络直接从单目RGB图像估计场景。更有趣的方向将是扩展我们的响应SMPLify-D，如第3.4节所述。在最后一行中采用等式1的所有项;我们称这种结构为PROX-D。我们观察到，使用场景约束提高了性能，即使当深度服务器租用-美国服务租用这提供了最佳的整体性能，但方法动态场景[59]，人与人的交互，并考虑场景和身体变形。致谢：我们感谢 Dorotea Lleshaj 、 Markus Höschle、MasonLandr y、AndreaKeller和TsvetelinaAlexiadis在数据收集方面提供的帮助。让-✓✗✗✗220 27 218 06七十三。24六十岁。80mm✓✓✗✗208 03 208 57七十二76六十岁。95✓✗✓✗一百九十07一百九十38七十三。7362. 38✓✗✗✗232. 29 227 4966岁。02五十三15mm2290图5：我们的定量数据集的示例，在第5节中描述。从左至右：（1）RGB图像，（2）从相机视点绘制拟合模型和3D场景;水蓝色表示网格伪地面实况，浅灰色表示我们的方法PROX的结果，黄色表示没有场景约束的结果，绿色表示SMPLify-D，（3）俯视图和（4）侧视图。更多结果可以在Sup中找到。Mat.图6：我们的方法在两个数据集上的定性结果;在我们的定性数据集（顶部集）和PiGraphs数据集上[62]第六十二话从左至右：（1）RGB图像，（2）从相机视点渲染;浅灰色表示我们的方法PROX的结果，黄色表示没有场景约束的结果，绿色表示SMPLify-D（仅适用于顶部集合），(3) 从不同的角度渲染，这表明相机视图是欺骗性的。更多结果可以在Sup中找到Mat.Claude Passy帮助使用数据收集软件。Nima Ghorbanifor MoSh++.Benjamin Pellkirk为IT支持。乔纳森·威廉姆斯管理网站。披露：MJB已经收到了来自英特尔，英伟达，Adobe，Facebook和亚马逊的研究礼物基金。当MJB是亚马逊的兼职员工，他的研究完全在MPI进行，并完全由MPI资助。MJB在亚马逊和Meshcapade GmbH拥有财务权益。2291引用[1] XboxOne的Kinecthttps://en.wikipedia.org/Kinect#Kinect_for_Xbox_One_（2013）. 四、六[2] Monocle：Kinect数据捕获应用程序。https：//github.com/bmabey/monocle. 4[3] Skanect：3D 扫描https：//skanect.occipital.com网站。四、六[4] 结构传感器： 3D 扫描、增强现实等等。https://structure.io/structure-sensor网站。四、六[5] ErenErdalAksoy，Alexe yAbramov，FlorentinWo？ r go？tter，and Babette Dellen.从语义场景图分类对象-动作关系。2010年IEEE机器人与自动化国际会议（ICRA），第3982[6] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE ：人的形状完成与动画。 ACM 图形转换（TOG），（Proc.SIGGRAPH），24（3）：408- 416，2005。4[7] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议（CVPR）中，第1534-1543页，2016年。2[8] Luca Ballan ， Aparna Taneja ， Juergen Gall ， Luc VanGool，and Marc Pollefeys.使用区别性显著点的动作中的手的运动捕获欧洲计算机视觉会议（ECCV），第640-653页，2012年。5[9] Paul J. Besl和Neil D.麦凯一种三维形状配准方法。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），14（2）：239-256，1992. 4[10] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议（ECCV）。三、四、五[11] 马库斯·A作者声明：David J.弗利特和亚伦·赫兹曼。使用仿人步行器的基于物理的人跟踪。 InternationalJournal of Computer Vision，87（1）：140，2009年8月。3[12] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2D姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年。5[13] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建在IEEE计算机视觉和模式识别会议，2017年。2[14] Vincent Delaitre，David F Fouhey，Ivan Laptev，JosefSivic，Abhinav Gupta，and Alexei A Efros.场景语义来自对人的长期观察。在 The European Conference onComputer Vision（ECCV）中，第284-298页，2012年。2[15] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度工作神经信息处理系统进展，第2366-2374页，2014年。2[16] Matthew Fisher ， Manolis Savva ， Yangyan Li ， PatHanrahan，and Matthias Nießner.以活动为中心的功能性三维场景建模场景合成。ACM Transactions on Graph-ics（TOG），34（6）：179，2015. 3[17] David F Fouhey ， Vincent Delaitre ， Abhinav Gupta ，Alexei A Efros，Ivan Laptev，and Josef Sivic.观看者：作为单视图几何图形的提示的人类动作。InternationalJournal of Computer Vision（IJCV），110（3）：259-274，2014. 2[18] 达留河加夫里拉人类运动的视觉分析：综述。计算机视觉与图像理解（CVIU），73（1）：82- 98，1999。2[19] Stuart Geman和Donald E.麦克卢尔断层图像重建的统计方法国际统计学会第46届会议记录，《统计学会公报》，第52卷，1987年。5[20] 詹姆斯·吉布森对视觉世界。霍顿·米夫林，1950年。1[21] Helmut Grabner，Juergen Gall，Luc Van Gool.是什么让椅子成为椅子？在IEEE计算机视觉和模式识别会议中，第1529-1536页3[22] Abhinav Gupta ， Trista Chen ， Francine Chen ， DonKimber，and Larry S Davis.背景和观测驱动的人体姿态估计潜变量模型。在IEEE计算机视觉和模式识别会议（CVPR）中，第1 - 8页，2008年。3[23] Abhinav Gupta ， Aniruddha Kembhavi ， and Larry SDavis.观察人与物体的相互作用：使用空间和功能兼容性进行识别。IEEE Transactions on Pattern Analysis andMachine Intelligence （ TPAMI ）， 31 （ 10 ）： 1775-1789，2009。2[24] Abhinav Gupta ， Scott Satkin ， Alexei A Efros ， andMartial Hebert.从三维场景几何到人类工作空间。在IEEE计算机视觉和模式识别会议（CVPR），第1961-1968页，2011年。2[25] Nils Hasler，Bodo Rosenhahn，Thorsten Thormahlen，MichaelWand，JürgenGall，andHans-PeterSeidel. 无标记运动捕捉与非同步运动摄像机。在IEEE计算机视觉和模式识别会议（CVPR），第224-231页，2009年6月。3[26] Nils Hasler ， Carsten Stoll ， Martin Sunkel ， BodoRosenha

下载后可阅读完整内容，剩余1页未读，立即下载