自我中心的3D姿态估计与大规模合成数据集

28 浏览量更新于2023-10-12 收藏 2.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7728xR-EgoPose：从HMD摄像机拍摄的以Denis Tome1，2，Patrick Peluse2，Lourdes Agapito1和HernanBadino21伦敦大学学院2Facebook现实实验室{D.Tome，L.Agapito}@ cs.ucl.ac.uk{patrick.peluse，hernan.badino}@ oculus.com图1：左：我们的x R-EgoPose数据集设置：（a）外部摄像机视点，其示出了戴着头戴式耳机的合成人物;（b）从以自我为中心的相机视角呈现的照片级真实感图像的示例;（c）2D和（d）3D姿态估计与我们的算法。右：真实图像上的结果;（e）用我们的HMD安装的相机获取的具有预测的2D热图的真实图像;（f）估计的3D姿态，显示出对真实图像的良好概括。摘要我们提出了一种新的解决方案，以自我为中心的3D身体姿态估计从单目图像捕获从向下看鱼眼相机安装在边缘的头戴式虚拟现实设备。这种不寻常的视角，距离用户的脸只有2厘米，导致图像具有独特的视觉外观，其特征是严重的自遮挡和强烈的我们的贡献是双重的。首先，我们提出了一种新的编码器-解码器架构，并设计了一种新的双分支解码器，专门用于解决2D关节位置的不确定性我们的定量评估，无论是在合成和现实世界的数据集，表明我们的策略导致大幅提高的准确性，最先进的自我中心的姿态估计方法。我们的第二个贡献是一个新的大规模逼真的合成dataset-城市渲染的人与肤色的多样性，身体形状，服装，在各种背景和照明条件下，执行一系列的行动。我们的实验表明，我们新的合成训练语料库中的高可变性导致了对真实世界镜头的良好泛化，并在真实世界数据集上获得了最先进的结果。此外，在Human3.6M基准测试上的评估表明，从第三人称的角度来看，我们的方法在更经典的3D人体姿势问题上的性能与顶级方法相当1. 介绍xR技术（如AR、VR和MR）的出现导致了娱乐、通信、医学、CAD设计、艺术和工作空间的生产力。这些技术主要集中于通过使用头戴式显示器（HMD）将用户沉浸到虚拟空间中，该头戴式显示器从用户的非常特定的视角呈现环境。然而，目前的解决方案迄今为止一直集中在用户感知系统的视频和音频方面，在触摸和本体感觉方面留下了空白。本体感觉问题的部分解决方案已被限制到其位置通过使用控制器设备被实时身体其余部分的3D姿势可以从头部和手部姿势的反向运动学中推断出来[16]，但这通常会导致对身体配置的不准确估计，并导致大量信号损失，从而阻碍了引人注目的社交互动[14]甚至导致晕车[36]。在本文中，我们提出了一种新的方法，从安装在HMD边缘的单目摄像机向下看，有效地距离平均大小的鼻子仅2厘米，全身3D人体姿态估计有了这个独特的相机视角，大部分下半身似乎自我封闭（见右图）。2）的情况。此外，由于鱼眼镜头和摄像机离脸部如此之近，会产生强烈的透视失真，导致上半身和下半身之间的分辨率存在巨大差异（见图1）。（3）第三章。反7729然而，根据从该第一人称视角捕获的图像来估计2D或3D姿态比从更标准的外部视角来估计要困难得多，因此，即使是最先进的人类姿态估计方法[42]在我们的输入数据上也表现不佳。我们的工作解决了上述两个主要挑战：（i）鉴于我们的输入图像的独特视觉外观和HMD安装的相机的特定场景的训练数据的稀缺性，我们已经创建了一个新的大规模真实感合成数据集，用于使用2D和3D注释进行训练;以及（ii）为了解决自遮挡和下半身和上半身之间的分辨率差异的问题，我们提出了一个新的AR-1。结构，该结构解释了身体关节的2D位置的估计中的不确定性。更具体地说，我们的解决方案采用了两步方法。我们不是直接从输入图像中回归3D姿势，而是首先训练模型以提取身体关节的2D热图，然后通过具有双分支解码器的自动编码器回归3D姿势当一个分支被训练为从编码回归3D姿态时，另一个分支重建输入的2D热图。通过这种方式，强制使用潜在向量来对2D联合估计中的不确定性进行自动编码器有助于推断包含的身体部位或具有高不确定性的那些部位这两个子步骤首先独立训练，最后端到端训练，因为所得网络是完全可区分的。训练是在真实数据和合成数据上进行的。合成数据集是用各种各样的身体形状、装饰和身体运动创建的我们的贡献可概括为：• 一种新的编码器-解码器网络，用于从配备摄像头的VR头盔拍摄的单目图像中进行以自我为中心的全身3D姿态估计5.2）。我们对具有地面真实3D注释的合成和真实世界基准的定量评估表明，我们的方法优于先前的最新技术[55]。我们的消融研究表明，我们的新解码器分支的引入，经过训练以重建2D输入热图，是3D姿态估计的大幅改善的原因• 我们表明，我们的新方法概括，没有修改，一个外部的前置摄像头的标准场景。我们的方法目前是在 Human3.6M 基准测试中，它的表现仅次于[46]。• 一个新的大规模训练语料库，由383K帧组成，将公开提供给亲，在以自我为中心的人类姿势捕捉领域取得了重大进展（见第4节）。我们的新数据集与现有的唯一一个单目自我中心数据集从一个头戴式鱼眼相机[55]在其照片逼真的质量（见图。2）、不同的视点（因为图像是从位于VR HMD上的相机渲染的），以及其在角色、背景和动作方面的高度可变性2. 相关工作我们描述了单目（单相机）无标记3D人体姿态估计的相关工作，重点是两个不同的捕获设置：由外向内的方法，其中外部相机视点用于从远处捕获一个或多个子图像-最常用的设置;以及第一人称或自我中心系统，其中头戴式摄像机观察用户自己的身体。虽然我们的论文侧重于第二种情况，但我们建立在基于CNN的人类3D姿态估计方法的最新我们还描述了将可穿戴传感器用于第一人称人体姿势估计的方法。从外部摄像机视角的单目3D姿态估计：卷积神经网络的出现以及大型2D和3D训练的可用性数据集[18，3]最近允许根据从外部相机捕获的RGB图像进行单目3D姿态估计的快速进展出现了两个主要趋势：（i）直接从图像[22，31，47，58，32，27]中对3D关节位置进行完全监督回归，以及（ii）将问题解耦为2D关节检测任务，然后进行3D提升的流水线方法[26，29，35，1，59，60，4，43]。完全监督方法及其泛化能力的进展受到野外图像3D姿态注释有限可用性的严重影响。这导致在创建逼真的合成数据集[39，51]方面做出了重大努力，这得益于最近从身体扫描[24]中学习到的人体参数密集3D模型的可用性。另一方面，两步解耦方法的吸引力来自两个主要优点：高质量现成的2D关节检测器[53，30，34，6]的可用性，仅需要易于采集的2D注释，以及使用3D mocap数据集及其地面实况投影训练3D提升步骤而不需要图像的3D注释的可能性。即使是简单的架构也能以低错误率解决此任务[26]。最近的进展是由于将2D和3D任务组合成联合估计[41，42]并使用弱[54，48，50，9，33]或自监督损失[49，38]或混合2D和3D数据进行训练[46]。第一人称3D人体姿态估计：虽然从以自我为中心的相机角度捕捉用户，近年来，身份识别受到了极大的关注[11，25，5]，大多数方法最多只检测身体上的运动（手、手臂或躯干）。从头戴式摄像机捕捉完整的3D身体运动是相当重要的7730图2：我们的xR-EgoPose数据集与竞争对手Mo 2Cap 2数据集的示例图像[55]。我们的帧的质量远远优于mo2cap2随机采样的帧，在mo2cap2中，字符的颜色与背景光线条件相匹配。更具挑战性。一些头戴式捕获系统基于RGB-D输入，主要重建手、手臂和躯干运动 [40 ， 57] 。 Jiang 和Grauman [20]通过从观察到的场景中估计自我运动，从佩戴在胸部的摄像机拍摄的镜头中重建全身姿势，但他们的估计缺乏准确性并且具有高度不确定性。[2]中提出了一个处理身体大部分不可观察的步骤，Rhodin等人。 [37]开创了第一种从头盔安装的立体鱼眼相机对进行全身捕捉的方法使用望远镜棒将相机放置在距离用户头部约25cm处用于全身姿势估计的单筒头戴式系统最近已由Xu等人证明。 [55]，他们提出了一种安装在棒球帽上的实时紧凑设置，尽管在这种情况下，以自我为中心的相机比我们提出的方法更远离用户的前额几厘米。我们的方法大大优于Xu et al. ’s method [来自可穿戴设备的3D姿态估计：由受试者佩戴的惯性测量单元（IMU）为第一人称人体姿势估计提供了无相机的替代解决方案。然而，这样的系统是侵入性的并且校准复杂。虽然减少传感器的数量会导致侵入性更小的配置[52]，但从稀疏的传感器读数恢复准确的人体姿势成为一项更具挑战性的任务。另一种方法，介绍了由Shiratori等人。[44]包括使用16个肢体安装的摄像机的多摄像机运动结构（SFM）方法仍然非常侵入，这种方法遭受运动模糊，自动白平衡，滚动快门效果和运动的场景，使其不切实际的现实sce- narios。3. 自我中心姿态估计图3提供了我们的HMD自我中心设置的独特视觉表现的可视化-顶行示出了从自我中心的观点来看哪些身体部位将变得自我封闭。从亮红色到深绿色的连续渐变对相应彩色区域的增加的像素分辨率进行编码。这种不寻常的视觉外观需要新的方法和新的训练语料库。我们的论文解决了这两个问题。我们的新神经网络架构编码了由不同分辨率、极端视角效应和自遮挡引起的上半身和下半身关节之间的不另一方面，我们新的大规模合成训练集- xR-EgoPose -包含383K渲染图像，一个新颖的视角：安装在VR上的鱼眼相机显示.与其他现有的单眼自我中心数据集[55]相比，它具有相当优越的照片真实感水平（参见图2的侧对侧比较），并且数据具有很大的可变性。为了进行定量评估，在真实世界的图像上，我们贡献了xR-EgoPoseR，这是一个用轻量级的设置-安装在VR显示器上的真实鱼眼相机-带有地面真实3D姿态注释。我们广泛的实验评估表明，我们的新方法在合成和真实世界数据集上的单目自我中心3D姿态估计[554. xR-EgoPose合成数据集数据集的设计侧重于可扩展性，增加了角色，环境和照明条件。渲染场景是从随机选择的角色、环境、照明装备和模拟动作中生成的。动画是从mocap数据中获得的。将小的随机位移添加到摄像机在头戴式耳机上的定位，以模拟当用户佩戴时头戴式人物：为了提高身体类型的多样性，从一个7731图3：同一角色的不同姿势的可视化。顶部：从外部摄影机视点渲染的姿势。白色代表遮挡，这是从自我中心的角度看不见的身体部位。底部：从以自我为中心的摄影机视点渲染的姿势。颜色梯度表示身体每个区域的图像像素密度：绿色是较高的像素密度，而红色是较低的密度。该图说明了以自我为中心的人体姿势估计所面临的挑战：严重的自遮挡、极端的透视效果和下半身的较低像素密度单个字符我们生成额外的瘦矮、瘦高、全矮和全高版本每个版本的高度分布从155cm到189cm不等。皮肤：色调包括白色（高加索人、雀斑或白化病人）、浅肤色欧洲人、深肤色欧洲人（深肤色高加索人、欧洲混血）、地中海或橄榄色（地中海人、亚洲人、西班牙人、美洲原住民）、深棕色（非裔美国人、中东人）和黑色（非裔美国人、非洲人、中东人）。此外，我们还建立了4.1. 训练集、测试集和验证集该数据集总大小为383 K帧，包含23个男性和23个女性角色，分为三组：训练集：252 K帧;测试集：115 K帧;和确认集：16 K帧。性别分布情况如下：训练组：13 M/11 F，测试组：7 M/5 F，确认组：3M/3F。表1提供了根据不同操作划分数据集的详细描述。随机肤色参数到每个字符的着色器中，行动N. 帧大小火车尺寸测试与场景生成器一起使用的角色。游戏24019111534684服装：服装类型包括运动裤，牛仔裤，打着手势2141198664206短裤，礼服裤，裙子，夹克，T恤，长袖，问候896641881739还有背心鞋子包括凉鞋，靴子，礼服鞋，较低伸展825416616543491运动鞋鳄鱼鞋每种类型都用不同的拍961544041898质地和颜色。行动：行动类型见表1。下采样颜色深度为8位。帧速率为30fps。RGB、深度、法线、身体分割和像素世界位置图像是为每帧生成的，具有用于增强照明的曝光控制选项为每个帧提供元数据，包括3D关节位置、角色高度、环境、相机姿势、身体分割和动画装备。渲染质量：最大限度地提高合成数据集的真实感是我们的首要任务。因此，我们使用实际的mocap数据[17]在Maya中为角色设置动画，并使用V-Ray标准化的基于物理的渲染设置。角色是使用全局自定义着色器设置创建的，这些设置应用于所有渲染场景的服装、蒙皮和环境照明。表1：每个动作的总帧数及其在训练集和测试集之间的差异。其他没有提到的都是验证数据。5. 架构我们提出的架构，如图所示4是一个两步的方法，有两个模块。第一个模块使用ResNet [13]架构检测图像空间中身体关节位置的2D热图。第二个模块将2D热图作为输入，并使用新颖的双分支自动编码器回归身体关节的3D这种流水线方法最重要的优点之一是可以根据可用的训练数据独立地训练2D和3D模块。比如说，上拉伸16219311444646468图像：图像分辨率为1024×1024pix-16位颜色深度。为了训练和测试，我们步行34989246039971反应26629125995104说话13685621527237732ˆ˜LL图4：我们用于以自我为中心的3D人体姿势估计的新颖两步架构有两个模块：a）2D热图估计器，基于ResNet 101[13]作为核心架构; b）3D提升模块将2D热图作为输入，并基于我们的新型双分支自动编码器。如果具有3D注释的足够大的图像语料库不可用，则可以使用3DMocap数据及其投影的热图来独立地训练3D提升模块。一旦这两个模块被预先训练，整个架构就可以端到端地进行微调，因为它是完全可区分的。这种架构的另一个优点是，第二个分支只在训练时需要（见第二节）。5.2），并可以在测试时删除，保证相同的性能和更快的执行。5.1. 2D姿态检测给定RGB图像I∈R368×368×3作为输入，而不仅仅是2D场景。其主要优点是，这些携带关于2D姿态估计的不确定性的重要信息。我们的架构的主要新颖性（见图。4），就是我们要确保这种不确定性信息不会丢失。虽然编码器将一组热图作为输入并将它们编码到嵌入z中，但解码器必须将它们转换为嵌入z。分支重建输入热图。这个分支是迫使潜在向量对估计的2D热图的概率密度函数进行自动编码器的总损失函数变为2D姿态检测器推断2D姿态，表示为一组热图HM∈R47×47×15，每个身体关节一个。对于这项任务，我们使用了标准的ResNet 101[13]架构，其中最后一次平均池化和LAE=λp（||P−P ||2+R（P，P））+λhm||HM−HM||第二章完全连接的层已经被反卷积层（deconvolutionallayer）代替，其中内核大小=3，步幅=2。权重已使用Xavier初始化随机初始化[12]。该模型使用归一化的输入图像进行训练，通过减去平均值并除以P是地面实况;HM是由下式回归的热图的集合：来自潜在空间的解码器和HM是热图由ResNet回归（参见第二节）。5.1）。最后，R是3D姿态上的损失R（P，P ）=λθθ（P，P）+λLL（P，P），其中通过标准偏差，并使用地面实况热图和预测热图之间的差异的均方误差作为损失：θ（P，P）=θLPl·Pl||P||∗||Pl||L（P，P）=||PlL-Pl||L2D= mse（HM，HM）（1）我们还训练了替代的2D姿态检测器，包括CPM [53]和堆叠沙漏网络[30]，结果以更高的计算成本获得了相当的性能。5.2. 2D到3D映射3D姿态模块将前一模块计算的15个热图作为输入，并输出最终的3D姿态P∈R16×3。请注意，输出3D关节的数量为16，因为我们包括头部，尽管头部在视野之外，但它可以在3D中回归。在大多数管道方法3D提升模块通常将检测到的关节的2D坐标作为输入。相反，类似于[33]，我们的方法从热图回归3D姿势对应于余弦相似性误差和肢体长度误差，其中Pl∈R3是姿势的第l个肢体。这种损失的一个重要优点是，模型可以同时在3D和2D数据集的混合上进行训练：如果图像样本只有2D注释，则λ p=0，这样只有热图才会导致损失。在第6.4节我们展示了如何利用更大的2D标注语料库来改善最终的3D身体姿势估计。5.3. 培训详细信息该模型已经在整个训练集上训练了3个epoch，学习率为1e-3，使用大小为16的mini-batch进行批量归一化。用于从ResNet计算的特征中识别热图的去卷积层具有内核大小=3和步幅=2。7733接近评价误差（mm）游戏打手势问候下拉伸拍打反应说话鞋面拉伸步行所有马丁内斯[26]我们的-单分支机构我们的-双分支机构上半身58.5 66.7 54.8 70.0 59.3 77.8 54.1 89.7 74.1 79.4下半身160.7 144.1 183.7 181.7 126.7 161.2 168.1 159.4 186.9 164.8平均值109.6 105.4 119.3 125.8 93.0 119.7 111.1 124.5 130.5 122.1上半身114.4 106.7 99.3 90.9 99.1 147.5 95.1 119.0 104.3 112.5下半身162.2 110.2 101.2 175.6 136.6 203.6 91.9 139.9 159.0 148.3平均值138.3 108.5 100.3 133.3 117.8 175.6 93.5 129.0 131.9 130.4上半身48.8 50.0 43.0 36.8 48.6 56.4 42.8 49.3 43.250.5下半身65.1 50.4 46.1 65.2 70.2 65.2 45.0 58.8 72.265.9平均值56.0 50.2 44.6 51.1 59.4 60.8 43.9 53.9 57.758.2表2：Martinez等人的定量评价[26]，为前置摄像头开发的最先进的方法上半身和下半身的重建也被显示出来。与我们自己的架构，使用单分支解码器的比较也包括在内。请注意，在下半身重建的不同动作中，竞争方法始终失败。这个实验强调了即使是为外部相机开发的最先进的3D提升方法也无法完成这项具有挑战性的任务。编码器的卷积和去卷积层具有内核大小=4和步幅=2。最后，编码器的所有层都使用Leakly ReLU作为0的激活函数。二是漏。损失函数中使用的λ权重通过网格搜索确定，并设置为λ hm= 10−3，λp=10−1，λθ=−1 0−2，λL=0。五、这架飞机已经用Xavier权重初始化器从头开始训练6. 实验评价我们在各种以自我为中心的3D人体姿势数据集上定量评估了所提出的方法：（i）x R-EgoPose的测试集，我们的合成语料库，（ii）测试集xR-EgoPoseR，我们的小规模真实世界数据集，用安装在VR显示器上的真实鱼眼相机拍摄游戏和地面真实3D姿势，以及（iii）Mo2Cap2测试集[55]，其中包括在室内和室外场景中捕获的两个人的2.7K帧真实图像和地面真实3D姿势此外，我们定量评估的Hu- man3.6M数据集，以表明我们的架构推广以及没有任何修改的情况下，外部摄像机的观点。评价方案：除非另有说明，否则我们报告每个关节位置误差的平均值-MPJPE：尚未公开。相反，我们与马丁内斯等人进行比较。[26]，用于传统外部相机视点的最新技术方法为了进行公平的比较，我们的xR-EgoPose数据集的训练集已被用于重新训练Martinez等人的模型。这样我们可以直接比较2D与3D模块的性能表2报告了MPJPE（公式3）这两种方法表明，我们的方法（Ours-dual-branch）优于Martinez等人。上半身重建术提高36.4%，下半身重建术提高60%，总体提高52.3%，有明显改善。第二解码器分支的效果：表2还报告了一项消融研究，以比较我们方法的两种版本的性能：带（Ours-dual-branch）和不带（Ours-single-branch）的解码器的第二分支它从编码中重建热图H_Mz.单分支编码器的总体平均误差为130。4毫米，离58毫米远。2毫米的误差实现了我们的新颖的双分支架构。每种关节类型的重建误差：表4报告了将重建误差分解为不同的个体关节类型。误差最高的是手（由于在视野之外时的硬遮挡）和脚（由于自遮挡和低分辨率）。NfNJE（P，P）=11||P（f）−P（f）||（三）Nf Njjj2f=1j =16.2. 自我中心真实数据集的评价与Mo2Cap2的比较[55]：我们比较了结果其中P（f）和P （f）是地面实况的3D点我们的方法与我们的直接竞争对手给出的方法相比，J J以及在N个f中的关节j的帧f处的预测姿态的帧和Nj个关节。6.1. 自我中心综合数据集的评价在xR-EgoPose测试集上的评估：首先，我们在我们的合成xR-EgoPose数据集的测试集上评估我们的方法。不可能与下列各项进行比较：最先进的单目自我中心人类姿势估计方法，如Mo2Cap2 [55]，其代码Mo2Cap2，在他们的真实世界测试集上，包括室内和户外场景为了保证公平的比较，[55]的作者为我们提供了来自他们的2D联合估计器的热图这样，两个3D重建网络使用相同的输入。表6报告了两种方法的MPJPE误差。我们的双分支方法在室内和室外情况下都大大超过了Mo2Cap2 [55请注意，立体自我中心系统EgoCap [37]提供的数据集不能直接用于比较，7734协议#1陈Hossain达布拉尔普莫雷诺金泽周贾汉吉里Mehta马丁内斯方孙孙我们[七]《中国日报》[15]*[8]*[48个][29日][21日][第六十一届][19个][27日][26日][10个国家][45个][46个]误差（mm）114.251.952.188.487.388.079.977.672.962.960.459.1 49.653.4协议#2Yasin Hossain达布拉尔Rogez陈莫雷诺普周马丁内斯金泽孙方孙我们[56个][15]*[8]*[39]第三十九届[七]《中国日报》[29日][48个][第六十一届][26日][21日][45个][10个国家][46个]误差（mm）108.342.036.388.182.776.570.755.347.758.848.345.7 40.6 45.24表3：与Human3.6M数据集（前置摄像头）上其他最先进方法的比较。带 * 的方法利用时间信息。由于摄像机相对于头部的位置差异很大（他们的立体摄像机距离头部25厘米）。对xR-EgoPoseR的评估：我们的小规模真实世界数据集的10000帧是从安装在VR HMD上的鱼眼摄像机捕获的，演员穿着不同的衣服，表演6个不同的动作。使用定制的mocap系统获取地面实况3D姿态。该网络在我们的合成语料库（xR-EgoPose）上进行了训练，并使用来自两个演员的数据进行了微调。测试集包含来自看不见的第三个演员输入视图和重建姿态的示例如图所示。六、MPJPE [18]误差（公式10）3）见表7。这些结果表明，该模型（主要在合成数据上训练）对真实图像具有良好的泛化能力。6.3. 前置摄像头在Human3.6M数据集上的比较：我们表明，我们提出的方法并不特定于以自我为中心的情况，但在更标准的前置摄像头情况下也提供了出色的结果对于该评估，我们选择了Human3.6M数据集[18]。我们使用了两个评估原型。方案1有5名受试者（S1、S5、S6、S7、S8）用于培训，受试者（S9、S11）用于评价。的联合误差（mm）联合误差（mm）左腿34.33右腿33.85左膝62.57右膝61.36左脚70.08右脚68.17左脚趾76.43右脚趾71.94脖子6.57头23.20左臂31.36右臂31.45左肘60.89右肘50.13左手90.43右手78.28表4：使用等式2的每个关节的平均重建误差3，在整个测试集上进行评估（参见第4）.图5：解码器重新产生2D预测的正确不确定性。MPJPE误差在每第64帧上计算。方案2包含用于培训的6个受试者（S1、S5、S6、S7、S8、S9），对受试者11的每64帧进行评价结果如表3所示，从中可以看出，我们的方法与最先进的方法相当，在非时间方法中总体得分第二。6.4. 混合2D和3D地面实况数据集我们的架构的一个重要优势是，模型可以在3D和2D数据集的混合上进行训练：如果图像样本仅具有2D注释而没有3D地面实况标签，则样本仍然可以使用，只有热图将导致损失。我们评估了在两种情况下添加2D但无3D标签的额外图像的效果：自我中心和前置摄像头。在自我中心的情况下，我们创建了两个子集，xR-EgoPose测试集。第一个子集包含50%的具有3D和2D标签的所有可用图像样本第二个包含100%的2D标签图像样本，但只有50%的3D标签。有效地，第二子集包含仅具有2D注释的图像的数量的两倍。表5a比较了子集之间的结果，其中可以看出，最终的3D姿态估计受益于附加的2D注释。在Human3.6M数据集上观察到了等效表5b显示了使用COCO [23]和MPII [3]的额外2D注释时重建误差的改善。3D 2D误差（mm）50%50%68.0450%100%63.98(a) xR-EgoPose训练数据集误差（mm）H36M 67.9H36M + COCO + MPII 53.47735(b) Human3.6M6.5. 潜在空间中的编码不确定性图5展示了我们的方法在潜在向量中对输入2D热图的不确定性进行编码的能力。输入2D热图和重建的示例表5：具有更大的2D注释语料库可以用于改进最终3D姿态估计为了比较，示出了由解码器的第二分支构造的解码器。7736室内步行坐爬行蹲拳击跳舞拉伸挥舞总计（mm）3DV48.76101.22118.9694.9357.3460.96111.3664.5076.28VCNet [28]65.28129.59133.08120.3978.4382.46153.1783.9197. 85[55]第五十五话38.4170.9494.3181.9048.5555.1999.3460.9261.40我们38.3961.5969.5351.1437.6742.1058.3244.7748.16户外步行坐爬行蹲拳击跳舞拉伸挥舞总计（mm）3DV68.67114.87113.23118.5595.2972.99114.4872.4194.46VCNet [28]84.43167.87138.39154.54108.3685.01160.5796.22113.75[55]第五十五话63.1085.4896.6392.8896.0168.35123.5661.4280.64我们43.6085.9183.0669.2369.3245.4076.6851.3860.19表6：Mo2Cap2数据集[55]的定量评估，室内和室外测试集。我们的方法在室内数据上优于所有竞争对手超过21.6%（13.24 mm），在室外数据上超过25.4%图6：使用物理安装在HMD上的相机获取的合成图像和真实图像的定性结果：（顶部）从合成图像重建的3D姿势。蓝色是地面真实姿势和红色预测;（底部）从mocap工作室中捕获的真实图像重建的3D预测（红色）与地面真实姿势（蓝色）相比，以及从mo 2cap 2 [ 55 ]重建的图像，使用相同的对齐方式显示姿势以获得更好的可视化。动作误差（mm）问候语51.78说话47.46高尔夫68.74射击52.64动作误差（mm）上拉伸61.09投掷箭88.54平均值61.71我们还介绍了xR-EgoPose数据集，这是一个新的大规模真实感合成数据集，培训，并将公开提供，以促进在这一令人兴奋的领域的研究。虽然我们的结果是国家的最先进的，有一些失败的情况下，由于极端occlu-表7：使用等式（1）的每个关节的平均重建误差3，在mocap工作室中捕获的真实数据上进行评估。7. 结论我们已经提出了一个解决方案，从安装在头戴式显示器上的单目相机的3D身体姿态估计的问题给定单个图像，我们的完全可微网络估计热图，并将其用作中间表示，以通过新颖的双分支自动编码器回归3D姿态，这是获得准确结果的基础并且当手在视野之外增加额外的摄像头以覆盖更多的视野并实现多视图感知是我们未来工作的重点。8. 致谢这项工作的部分资金来自欧盟地平线2020研究和创新计划的第643950号赠款协议下的二手项目7737引用[1] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第1446-1455页，2015年。2[2] 玛丽亚·阿梅尔，赛义德·沃苏吉·阿梅尔和A·玛丽亚。局部身体存在下的深度三维人体姿态估计。 IEEEInternational Conference on Image Processing（ICIP），2018。3[3] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月二、七[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议，第561-578页。施普林格，2016年。2[5] Congqi Cao，Yifan Zhang，Yi Wu，Hanqing Lu，andJian Cheng.使用具有时空变换器模块的循环3d卷积神经网络进行自我中心手势识别。2017年IEEE计算机视觉国际会议（ICCV），2017年。2[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。2[7] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议论文集，第7035-7043页，2017年。7[8] Rishabh Dabral， Anurag Mundhada ， Uday Kusupati，Safeer Afaque和Arjun Jain。结构感知和节奏一致的三维人体姿态估计。arXiv预印本arXiv：1711.09250，2017年。7[9] Dylan Drover 、 Ching-Hang Chen 、 Amit Agrawal 、Ambrish Tyagi和Cong Dauchoc Huynh。3d姿势可以从2d投影中学习arXiv预印本arXiv：1808.07182，2018。2[10] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。在30-2018年第二届AAAI人工智能会议。7[11] Alireza Fathi，Ali Farhadi，and James M.瑞格理解自我中心的活动。在2011年国际计算机视觉会议（ICCV）的会议记录中2[12] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。第十三届人工智能和统计，第249-256页，2010年。5[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、五[14] UrsulaHess，KonstantinosKafetsios，HeidiMauersberger，Christophe Blaison，and Daughin-LouisaKessler.面部表情感知中的信号和噪声：来自实验室生活Personality and Social Psychology Bulletin，42（8）：1092-1110，2016. 1[15] Mir Rayat Imtiaz Hossain和James J Little。利用时间资讯进行三维人体姿态估测。欧洲计算机视觉会议，第69Springer，2018. 7[16] https://medium.com/@DeepMotionInc/how-to-make-3-point-tracked-full-body-avatars-in-vr-34b3f6709782.如何在VR中制作3点跟踪全身化身，https://medium.com/@deepmotioninc/how-to-make-3-point-tracked-full-body-avatars-in-vr-34 b3 f6709782，最后访问时间2019-03-19。1[17] https：//www.example.comwww.mixamo.com/。动画3D人物，最后一次访问于2019-03-19。4[18] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEEtransactionsonpatternanalysisandmachineintelligence，36（7）：1325-1339，2014. 二、七[19] Ehsan Jahangiri和Alan L Yuille。生成与2d关节检测一致的人类3d姿态的多个不同假设在IEEE计算机视觉国际会议论文集，第805-814页，2017年。7[20] Hao Jiang和Kristen Grauman。看不见的姿势：从以自我为中心的视频中估计三维人体姿态。在2017年IEEE计算机视觉和模式识别会议，第3501-3509页。IEEE，2017年。3[21] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页，2018年。7[22] Sijin Li和Antoni B Chan.基于深度卷积神经网络的单目图像三维人体姿态估计亚洲计算机视觉会议，第332Springer，2014. 2[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 7[24] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。 ACM Transactions on Graphics（TOG），34（6）：248，2015。2[25] Minghuang Ma，Haoqi Fan，and Kris M.喜谷深入了解第一人称活动识别。2016年IEEE计算机视觉和模式识别会议（CVPR），第1894-1903页，2016年。2

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

自我中心的3D姿态估计与大规模合成数据集

xR-EgoPose:用于以自我为中心的3D人体姿势估计的新的以自我为中心的合成数据集

人脸姿态估计数据集

COCO2017姿态估计数据集

coco数据集 姿态估计 YOLO

ZED怎么实现自定义的3D姿态估计

AFLW2000-3D数据集

coco数据集 姿态估计

人体姿态估计数据集的构建

openpose 3d姿态估计模型

yolov8姿态估计数据集

如何用在mpii数据集上预训练好的HRNet人体姿态估计网络识别自定义数据集的图片，不计算损失，不需要ground-truth

2d 3d配准开源数据集

多视角3D人体姿态估计方法

coco人体姿态数据集

3d人体姿态估计指标

简要介绍一下Human3.6M数据集

多模态2D+3D人脸识别所有公开数据集数据集

人体姿态估计主流技术

kitti3d目标检测数据集

计算机毕设人体姿态估计需求分析

最新资源

coco数据集姿态估计 YOLO

coco数据集姿态估计