基于稀疏电磁跟踪器的三维人体姿态估计

121 浏览量更新于2023-10-13 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11510EM-POSE：基于稀疏电磁跟踪器的三维人体姿态估计Manuel Kaufmann 1，2赵毅2唐诚诚2陶玲玲2Christopher Twigg2宋杰1王力宏2Otmar Hilliges11ETHZürich，计算机科学系2 F acebookRealityLabs图1：重建主体虽然外部相机限制了捕获空间并且头戴式相机可能在自上而下的视图中遭受严重的自遮挡（A），但是我们的方法根据基于电磁（EM）场的感测来重建身体姿势（B）。我们利用由多达12个无线传感器组成的定制系统，测量它们相对于身体佩戴源的6D姿态。我们采用学习梯度下降（LGD）[53]来估计SMPL姿态和形状，该姿态和形状来自在新捕获的数据集上测试的少至6个 EM传感器（C）摘要AR/VR中的完全沉浸式体验取决于在不限制用户运动的情况下重建用户的全身姿势。在本文中，我们研究了使用身体佩戴的电磁（EM）场为基础的传感的任务，三维人体姿态重建。为此，我们提出了一种方法来估计SMPL参数从6-12 EM传感器。我们利用由无线EM传感器组成的定制的可穿戴系统，该无线EM传感器以120Hz测量时间同步的6D姿势。为了提供准确的姿态，即使很少的用户仪器，我们采用了最近提出的混合框架，学习梯度下降（LGD），迭代估计SMPL姿态和形状从我们的输入测量。这使我们能够利用强大的姿态先验来处理输入数据的特性并实现准确的姿态估计。所提出的方法使用AMASS合成虚拟EM传感器数据，我们表明，它推广到一个新的captured真正的数据集组成的总共36分钟的运动从5个主题。我们实现了低至31.8毫米和13.3度的重建误差，优于纯学习和纯优化的方法。代码和数据可在https://ait.ethz.ch/projects/2021/em-pose下获得。1. 介绍AR和VR（统称为XR）是一种有前途的新计算平台，用于娱乐，通信，医疗，远程呈现等。沉浸式XR系统的一个重要组成部分是一种准确重建用户全身姿势的方法。虽然基于外部照相机的姿态估计已经以快速的步伐进展（例如，[14，19，21，59]），由于需要外部摄像机，这种方法固有地限制了用户的移动性。使用惯性测量单元（IMU）[17，33，45，49，64，65]或凸轮的时代[48，51，57，69]允许自由移动，但是在IMU的情况下缺乏准确的位置测量，并且对于基于相机的系统存在严重的遮挡，从而导致可能随时间漂移的不正确的姿态估计。在本文中，我们提出了一种新的方法，身体佩戴的姿势估计，是基于电磁场（EM）传感，可以取代或补充视觉或IMU为基础的同行。在我们的方法中，EM场从佩戴在身体上的源发射，并且少量传感器测量它们相对于发射的磁场的位置和取向（参见图10）。图1）。在我们的实施中，我们利用一个完全无线的磁跟踪系统，由多达12个传感器。这些传感器体积小（大约是信用卡的一半大小），功耗低，而且11511已进行定制，以便能够以高达120 Hz的更新速率准确跟踪快速动态运动。与光学跟踪相比，我们的传感器通常在1厘米的位置和2-3度的角度误差。然而，由于若干挑战，从这些测量结果以高精度重建完整的铰接姿态仍然是困难的。首先，对于方便的系统，仅应使用少量的身体穿戴式传感器，使得姿态估计问题约束不足。我们显示出良好的准确性与少至6个传感器。第二，位置和取向测量的精度取决于传感器到源的距离。因此，在动态人体运动下，传感器精度作为姿势的函数而变化第三，必须确定皮肤到传感器的偏移。这些偏移可以由于传感器抵靠皮肤的可能滑动而变化。因此，所得到的方法应该对这些偏移的变化具有鲁棒性。面对这些挑战，我们提出了一种新的基于EM的姿态估计方法，该方法利用最近提出的学习梯度下降（LGD）[53]框架来迭代地将参数化身体模型（这里是SMPL [30]）拟合到EM测量值，其中参数更新规则由神经网络预测。该方法基于传感器测量值被动态变化的噪声源扰动的关键见解：EM-干涉、姿势相关效果和对基础关节的偏移。参数化身体模型结合学习的参数更新规则允许我们将强先验集成到姿势估计流水线中。此外，在LGD的情况下，参数更新停留在有效姿态的流形上，从而允许更大的步长，导致在几步中的快速收敛。SMPL使我们能够合成皮肤上的虚拟位置和方向，我们利用这些位置和方向通过模拟许多对虚拟EM 传感器和SMPL参考来在AMASS [32]上训练LGD。为了缩小合成数据和真实数据之间的差距，我们从指定的校准序列中提取特定于对象的皮肤到传感器偏移的估计值。这些偏移在训练期间用于调整和增强合成数据。我们的评估表明，所提出的方法推广到一个新记录的数据集，而不需要微调，即使是在训练过程中没有看到偏移的科目。为了促进这一方向的未来研究，我们发布了一个新的数据集，其中包含成对的磁测量和SMPL姿势。我们通过多视图跟踪从外向内RGB-D数据与手动注释一起获得SMPL参考姿态。该数据集由45个序列组成，总长度为36.8分钟，并由3名女性和2名男性参与者记录。在我们的评估中，我们实现了31.8毫米和13.3毫米的平均重建误差与12个传感器和35.4毫米和14.9毫米与6个传感器。在比较实验中，我们表明，这优于国家的最先进的基于优化的方法，以regis-将SMPL称为运动捕获标记[32]，这是EM数据的专门优化方法和基于硬学习的基线，受到基于IMU的先前工作的启发[17]。我们认为我们的系统是对纯视觉方法的补充。由于它重量轻，功耗低，无线和准确，它可能使野外数据集的收集成为可能-由于缺乏数据，目前基于RGB的方法当图像数据受到遮挡或运动模糊的影响时，它也可以用于收集参考姿态，例如自我中心的观点。总之，在本文中，我们贡献了i）利用定制的可穿戴EM感测系统从少至6个EM传感器估计SMPL姿态和形状参数的方法，ii）从与底层感测技术无关的几个皮肤上测量估计SMPL参数的一般框架代码和数据可在https://ait.ethz.ch/projects/2021/em-pose下获得。2. 相关工作来自惯性测量单元（IMU）的惯性跟踪它们确实会受到漂移的影响，像Xsens这样的商业系统[49]通过采用大量传感器结合生物力学身体模型来减轻。其他工作使用身体佩戴的声学传感器来提供传感器间距离测量，例如。[28，63]或将IMU与外部相机视图融合，例如，[6、11、33、44、45、58、64、71]。这工作良好，但增加了仪器，限制了捕获空间，并重新引入了LoS约束。为了简化可用性，研究人员还研究了减少所需传感器的数量，例如.[7、17、64、65]。然而，这使得姿势严重缺乏约束，需要昂贵的优化[65]，外部相机[64]或在真实数据上微调神经网络[17]。SIP/DIP[17]是最接近我们的精神工作，因为我们也杠杆年龄阿马斯[32]。然而，我们的混合方法在运行时比SIP更快，并且与DIP不同，它不需要微调，并且可以处理多个主题，同时实现低于DIP报告的错误。总之，IMU固有地受限于它们不直接观察位置并且随时间漂移- 磁力系统可以纠正的情况。光学和相关跟踪球形回射标记的光学跟踪，例如[38，62]，产生高准确性和更新速率，但需要LoS和通常许多（40+）标记。研究人员已经研究了使用基于物理的模型来解决姿势[75]，如何清理原始标记数据[4，9，16，25，41]，或使用大型11512ΣΣ2Σ标记集以捕获皮肤变形[39]。最近，统计的3D人体模型的可用性，例如。[1[29]或MoSh++[32]来将姿势和形状拟合到大约40个标记的集合，从而使多个运动捕捉数据库能够统一为名为AMASS的大规模数据集[32]。我们还从皮肤上的测量重建姿势和形状。然而，我们只需要6-12个传感器就可以做到这一点，而且没有LoS要求。这不仅是可能的，因为我们的专用硬件测量位置和方向，而且还由于AMASS，我们利用它作为我们减少的传感器组未观察到姿势和形状的先验。最近，已经出现了使用射频信号的作品，例如：[26、66、72、73]。这种模式可以穿过严重的闭塞，但再次需要外部捕获设备。EM跟踪技术的使用可以追溯到20世纪60年代的军事应用[42]。从那时起，它已经相当成熟[47]，并实现了具有毫秒延迟的6D非LoS跟踪，允许从数字输入设备[8，23，27，68]到医学[56]的应用。自然，它也被应用于全身运动捕捉。Roetenberget al.[50]有一个类似于我们的移动设置，其中磁源被放置在受试者然而，他们的系统是完全系留的，只应用于少数传感器，并且具有1-2 Hz的低更新率。基于EM的系统被调整为在给定范围和一定精度内工作。已经开发了用于全身或手的运动捕捉的各种商业系统（例如，[36，43]），但是它们的特性对于使用身体佩戴的传感器的运动捕获来说通常不是理想的。我们将在第二节中讨论定制系统的更多细节和差异。3 .第三章。图2：EM感测。（左）1D线圈正在生成磁场B场。另一个线圈可以求解其位置pw.r.t.通过比较测量电压和理论电压来确定源。（右）我们的源和传感器的示意图。3. 电磁传感硬件我们的主要贡献是一种方法来重建全身姿势少至6EM场传感器。在这里和图。2我们提供了一个简短的入门EM传感和总结，rize我们的硬件实现。节中6.1我们评估传感器3.1. 传感原理EM场感测系统由产生磁场的发射器和读取由场感应的电压以估计6D姿态的一个或多个传感器发射器包括三个正交线圈，其产生通常以kHz频率操作的三个交流磁场传感器也具有三个正交线圈，测量由跟踪体积内的每个所生成的磁场感应的电压由3个发射器线圈中的每一个感应到传感器的3个轴中的每一个的理论电压可以经由与电压和传感器的姿态相关的物理模型来解析地表示。在深度神经网络的推动下，在估计3D人体姿势方面取得了重大进展Bk（p，t）=µ03（Mk·p）p4π|p|5|2百万k|2M k|p|3e−jωkt（一）从一个或多个RGB图像，例如，[18、34、54、67]。现代方法-通常使用参数化身体模型-倾向于分为三组：神经网络的直接参数回归[13，20，37，55，59，61，70，74]、基于优化的技术[12，15，24，40，52，60]或混合组合[22，53]。我们从基于相机的文献中借用思想，并采用[53]提出的LGD来根据稀疏EM测量估计SMPL姿态和形状。使用头戴式摄像机的方法[48，57，69]Vk （ p ， R ， t ） =−jωk naBk （ p ，t）·（RN）（2）其中p和R是传感器位置和旋转，N是传感器轴线圈的方向，Mk是磁感应强度。其中，发射器轴线线圈的力矩k是时间，t是时间，并且其余参数是EM场相关的预定参数。我们可以在最小范围内求解6D姿态（p⑴，R⑴）。通过最小化测量电压V和沿每个发射器和传感器轴的模型电压V，即，与外部相比，允许受试者更大的移动性argminp（t），R（t）3k=13=1 V相机然而，设备可能是庞大的，并且图像数据可能是不可见的。可能会发生自闭塞。相比之下，我们的身体佩戴的基于EM的无线系统具有小的形状因子并且不受遮挡的影响。−Σ115133.2. 无线磁传感器磁跟踪已被用于各种动作捕捉任务，包括手部跟踪[10]和运动11514不不图3：捕获设置。（顶部）用于收集真实测试集的捕获设置概述。（底部）参考数据的示例帧。分析[5]。先前的磁跟踪系统或者包括大传感器（例如， RazerHydra ）或系到 PC （例如， PolhemusLiberty）。这两种解决方案都不是身体跟踪的理想选择，因为大型传感器和电线都会阻碍移动。我们开发了一种带有小型无线传感器的定制EM跟踪系统。我们设计的目标是在应用程序的限制（小和无线）内优化指定应用程序（身体跟踪）的准确性我们遇到了两大挑战。第一个是实现了一个小的形状因素，同时保持准确的感应，ING。为了解决这个问题，我们将3轴传感线圈小型化，并仔细选择组件，以最大限度地减少EM干扰。为了实现具有有限计算和存储器的实时速率，我们使用EM场的电压测量的分段线性近似（c.f.当量（2）译注。我们将该函数校准到我们应用的感兴趣区域第二个挑战是同步12个无线传感器，并以120Hz的频率与主机实时通信，同时最大限度地减少数据包丢失和延迟。蓝牙低功耗（BLE）协议的现成使用是不够的，因为它仅支持7个点对点连接并且没有同步。我们在BLE芯片组上设计了一个自定义通信协议，该协议在所有设备之间保持微秒级同步，网络拓扑由两个集线器组成，每个集线器连接到六个传感器。4. 系统概述在本节中，我们将介绍捕获设置以及如何使用它来获取参考数据。请参考图3的概述和视频定性的例子。4.1. 采集装置参与者穿着定制的mocap套装以连接传感器，以及定制的透视耳机。我们在身体上安装12个无线EM传感器，如图所示。3.第三章。由于EM场发生器相对较小，因此其可以附接到受试者除了粘在VR头戴设备上的头部传感器之外，所有传感器都使用可重复使用的弹性布带和尼龙搭扣进行连接。两个无线连接到12个传感器的通信集线器安装在耳机上。这些集线器可以将所有传感器测量无线传输到附近的主机。然而，由于我们同时捕获参考数据，因此我们使用有线连接到处理其他捕获相关任务的主机。为了获取参考数据，我们的捕获设置使用4个RGB-D相机从外部观察主体的运动，从捕获空间大约是4米乘4米大，所有传感设备的时间同步到微秒精度。对于每个捕获会话，我们校准耳机和RGB-D相机以及EM系统，以便所有传感设备共享相同的跟踪框架，我们选择该框架作为Optitrack框架。4.2. 参考数据采集在下文中，我们给出了我们的多阶段优化过程的概述，该过程使用4个RGB-D相机和12个EM传感器来收集参考SMPL参数。身体比例我们首先推断身体比例（即，高度和肢体长度），该专用校准序列包括T姿势以及头部和肢体旋转。为了消除手掌方向的歧义，我们在校准序列的几个手工挑选的帧然后，我们随着时间的推移跟踪该序列，并使用来自多视图RGB-D数据的2D身体地标预测和手动手部关键点注释来求解身体比例。一旦建立了比例，我们就解决了跨多个帧的优化问题，以估计要在后续阶段中使用的传感器到身体的偏移。跟踪接下来，我们固定身体比例和传感器到身体的偏移，并在受试者序列的每一帧优化身体姿势每个EM传感器提供位置和方向约束，我们用针对多视图深度数据的最近点约束来增强该位置和方向约束。融合EM跟踪和深度允许我们结合每种方法的优点：EM传感器容易处理具有挑战性的闭塞，而深度数据有助于约束诸如不存在EM传感器的肩部/肩胛骨的区域。我们使用内部身体模型，然后由[35]将其转换为SMPL。我们在图中显示了我们的参考数据的一些说明性示例。3、视频测试集我们记录了总共45个测试序列，其中5个受试者（3个女性，2个男性）。记录的序列包括上半身和下半身的运动范围类型的动作，但也包括更自然的场景，如行走、弓步、11515SS不不不不SS×||×||∈∈S图4：方法概述。给定来自具有身体参数Ω gt的AMASS序列的帧，我们随机地图5：虚拟传感器。虚拟位置和取向m_v以及将其与m~s相关的f_set的示例。5.2.虚拟传感器学习测量xt与姿态和形状（θt，β）之间的关系将需要大规模数据集拾取特定于主题的偏移不Op模拟S传感器位置与真实的EM测量和SMPL参考，这是昂贵的收购。所以，我们使用AMASS [32]来合成。方向和取向mv.RNN生成初始估计，LGD在N次迭代中细化，得出最终估计值Ω（N）。在LGD的每次迭代中，我们计算重建损失方程。（6）及其梯度大小虚拟传感器数据xv，如下所述。考虑SMPL姿态和形状参数Ω=（θ，β），为了简洁省略时间步长t我们表示函数将虚拟传感器提取为σ，即mv=σ（Ω），其中（个）∇Sv vv=10Lr/100t .该梯度被馈送到神经网络N并且用等式（1）获得新的估计量n（n+1）。（五）、在测试此时，我们简单地馈送真实传感器数据Ms而不是Mv。或跳千斤顶（c.f.补充材料，以供进一步了解ms =（ps，Rs）. 所有S传感器的过程相同并且不失一般性地讨论单个传感器S。在函数σ中，我们首先评估SMPL模型，以获得相应的网格。对于合成过程，我们已经手动预定了最接近我们的传感器的实际安装位置的那些SMPL顶点的ID。这只需要做一次。来模拟pvtails）。我们将磁性数据从120 Hz降采样到30 Hz以匹配RGB-D流。我们的测试集T我们可以简单地使用顶点位置SV的核心-约36.8分钟（约66，000帧）。5. 方法我们首先在第二节中正式定义我们的问题。第5.1条然后我们在Sec中描述。5.2我们如何在AMASS序列上合成虚拟标记以训练基于LGD的体系结构传感器s的响应顶点ID。接下来，为了模拟Rv，我们如下构造局部坐标系。首先，我们计算位置vs处的顶点法线ns，并选择一个随机但固定的单位长度的传出三角形边es。然后我们计算us=（nses）/nses2。因此，我们最终得到传感器s的p=v，R=us×ns，u，nΣ（3）Ss在第一节中显示五点三。请参考图4、一个概述。ss s||2||25.1. 问题陈述我们的目标是估计SMPL姿势和形状从序列的EM测量。令EM传感器s在世界空间中的6D姿态为ms=（ps，Rs ）。我们将 S 个传感器的测量连接成向量Xt=[m1，. . .，m[S]，表示在时间步长t处的完整测量。若干测量被概括为序列X1=[X1，. . . ，XT]。对于每个xt，我们想要推断SMPL姿态θtRJ·3和形状βR10。通过我们的传感器放置，我们不会观察手和脚的关节，I.E. J=19。虽然我们记录了词根翻译，但我们确实这里不考虑它，即，我们仅预测全局根姿态。我们总结为m~s=（p~s，R~s）。我们现在可以简单地将mv与m~s等同起来，并在这个虚拟数据上训练我们的方法。如果我们这样做，我们将几乎没有机会推广到真实数据。这是因为真实传感器位置从皮肤偏移一定量此外，传感器并不总是以完全相同的方式安装，并且因此手工拾取的顶点vs仅是粗略的近似。同样，构建的坐标系R最有可能不对应于传感器因此，对于每个传感器，我们对平移和旋转偏移进行建模，以获得最终的虚拟传感器数据：Rv=R~sR，pv=p~s+R~st（4）S s11516N不不不不美国不不S不（n）gtt tt不t t t t tt·NLLN∈LL模型MPJPE [mm]PA-MPJPE [mm]MPJAE [○]MoSh++ 12 [32]阳性+ ori 1256.9±56.144.2±30.043.5±33.623.6±13.721.8±15.415.4±9.8图6：Optitrack和我们的EM系统之间的中值位置和角度差异。计算5个测试对象和7个代表性传感器。有关视觉描述，请参阅图。五、我们将一个传感器s的偏移总结为|t]和集合对于对象p的所有S个传感器偏移，.表1：使用所有（12）个输入传感器时基于优化的基线实际测试集上的位置和角度误差。为了获得LGD的好处，我们必须训练神经网络。与[53]相反，我们的输入数据是顺序的。因此，我们首先将输入xt馈送到RNN，RNN产生初始估计Ω（0）。然后将该估计交给转移到LGD，其根据Eq.（五）以产生最终输出Ω（N）。由于我们希望支持多个受试者与单一网络，我们增加虚拟列车-请注意，这些偏移量取决于受试者，即s=1对于每个AMASS序列，具有以下参数：. 充分σ（·）的签名是mv=σ（Ω，os）。此外，Opaf-参数Ωgt，我们随机决定一个参与者p，其偏移影响姿势和S形状因此，任何方法尝试-p必须应用。一旦p被固定，我们使用它们的将它们馈送到σ，从而获得增强的vir。重建全身姿势和形状应选择p小心。我们这样做是通过从取自（c.f.秒4.1）。有关Op计算的更多详细信息，请参阅补充材料。最后，请注意，这些偏移不一定随时间完全恒定这是因为1）accu-实际传感器数据xv.在测试时，我们简单地使用与实际主题相对应的偏移量。对于训练，我们在迭代细化的每一步监督重建成本、身体姿势和形状。除了[53]之外，我们还在SMPL 3D关节Jt上添加损失。因此，时间步长t、迭代n和主题p的损失函数2）传感器可能在姿势关节运动期间在皮肤上移动，以及3）传感器可能在皮肤上移动。Ln，t=λ1L1（θt，θt）+λ2L2（β（n），βgt）+手动拾取的SMPL顶点vs不保证移入与皮肤上的真实点完美同步。λ3L3（J（n），Jgt）+λ4Lr（xt，Ω（n），Op）N T5.3.基于LGD的SMPL拟合使用LGD的自定义变体[53]，我们迭代拟合=1NTn=1t =1n，tSMPL参数到我们的输入观测值xt。在训练时，xt对应于虚拟数据xv，而在测试时，它是真实数据。LGD用总共调用N次的学习更新规则替换标准梯度下降的梯度更新规则。假设估计Ω（n）为给出在迭代n处的LGD更新规则然后声明n（n+1）=n（n）+α （nLr，n（n），x）（5）Ω（n）这是一个预先训练好的神经网络，αR是步长，r是所谓的重建函数。r衡量我们的输入可以从当前参数估计Ω（n）重构的程度。其定义为：注意，为了获得单个形状估计β（η），在将其馈送到损失函数之前，我们对形状的逐帧估计进行平均。子损耗1至3都是MSE。有关培训和超参数的更多详细信息，请参阅补充材料。6. 评价我们首先评估我们的EM为基础的系统，TEM的传感器水平上的准确性。然后，我们将我们的方法与基于优化和基于学习的基线进行比较，然后显示广泛的消融研究，突出了我们方法的贡献最后，我们将示例可视化。6.1. 磁跟踪精度Lr（xt，Ω（n），Op）=Σ||mt，s−σ（Ω（n），os）||2t2（六）为了在每个传感器级别上计算基于EM的系统的准确性，在典型的使用场景中，我们将不s=1Optrack刚体到每个传感器（参见图2）的情况。因此，对于每个传感器s和每个时间步长t，我们获得四个测量值-其中m、t、s是我们的输入，并且σ计算传感器位置。部件：根据Optitrack的6D姿态，即pO（t）和（n）Os不11517S给定Ωt（参见秒5.2）。Rs（t），并根据EM系统，即pM（t）和11518S|不不SS不L模型MPJPE [mm]PA-MPJPE [mm]MPJAE [○]ResNet 6BiRNN 639.3 ±25.436.3±21.229.6 ±20.127.7 ±17.116.6 ±11.215.4 ±10.2Ours（LGD RNN）635.4±21.327.0±16.314.9±10.0ResNet 12BiRNN 1241.5 ±27.637.3 ±24.130.9 ±21.728.5 ±18.614.6 ±9.814.1±9.1Ours（LGD RNN）1231.8±21.024.8±16.413.3±9.2表2：定量评价。我们比较我们提出的混合方法使用6和12个传感器的纯学习基线实际测试集上的位置和角度误差。RM（t）。所有测量值都校准到世界空间。通过设计，恒定刚性变换[Rt]与光学和磁性6D姿态相关。因此，我们可以通过计算磁和光学6D姿态之间的刚性变换来表征EM系统第5节所示的额外研究的对象6.4 此外，我们还在补充材料中与基于RGB的姿态估计器VIBE [21]进行了比较。最后，EM传感器有时会丢弃帧，因此我们仅在所有传感器数据可用的帧上进行评估。优化基线选项卡。1总结结果两个优化基线。为了通过MoSh++运行我们的数据，我们提供了所有12个传感器的位置数据因为MoSh++不能考虑取向。然而，结果表明 Mosh++ 在处理这类数据时遇到了困难。MoSh++被设计成从直接附着到皮肤的密集光学标记阵列产生高质量SMPL配准。仅处理12个表面点，这些表面点既不像典型的光学标记那样是皮肤紧密的也不是分布的，这对于该方法来说是具有挑战性的。随着时间的推移而改变。这归结为解决一个正交的Procrustes问题，其细节在补充材料中提供。以这种方式，对于每个时间步长t，我们获得位置和角度误差epos（t）和eang（t）。我们将每个受试者在“跳杰克”序列上计算的中值绘制在图1中。六、误差通常为大约或低于1cm的位置误差和2-3度的角度误差。远离源的传感器（即手腕、胫骨）或经历更快的运动（即，臂）经历最高的误差。相反，静态或缓慢移动的传感器（即头、肩）显示误差分别小于0.25 cm或1异常值是受试者4，有时误差很高。这可以通过校准误差和降级的光学跟踪来解释，当在动态运动下意外地发生遮挡时，例如。因为丢了衣服。6.2. 定量性能为了定量评估我们的方法，我们报告了三个常见指标：具有和不具有Procrustes对准的平均每关节位置误差（PA-MPJPE对MPJPE）和在根相对定向上计算的平均每关节角度误差（MPJAE）。我们的数据集和方法是我们所知的最好的，是同类中的第一个。因此，没有现有的基线方法可以直接应用于我们的数据。最密切相关的工作是MoSh++[32]，其从密集的光学标记位置估计SMPL姿态和形状我们通过MoSh++运行我们的数据，并在下面讨论结果SIP [65]和DIP [17]更难以应用于我们的数据，因为它们需要我们的传感器不直接测量的加速度输入。此外，SIP/DIP不能仅从测量结果估计形状。通过采用类似的体系结构并对其进行评估，我们将其与DIP进行了大致的比较。此外，我们报告了相同的度量 DIP/SIP （ PA-MPJPE，MPJAE）上计算的15个主要关节的SMPL。在我们的5名参与者中的前4名的所有序列上评估这里呈现的结果我们离开为了提供更强的基线，我们实现了我们自己的优化方法，该方法将方向和特定于主题的偏移考虑在内。我们最小化的目标是arg minΩr（xt，Ωt，Op），但为了引入先验，我们直接在VPoser提供的潜在空间中进行优化[40]并在姿势和形状上添加正则化器补充材料中提供了详细信息我们观察到，这种优化方法（Tab. 1）实现比MoSh++更低的误差和标准偏差。我们将我们的方法与纯基于学习的方法进行比较，并分别用6个和12个传感器训练两个基线。6传感器配置仅将传感器保持在手腕、小腿、头部和背部。结果见表。二、两个基线都将原始测量值作为输入，并将其映射到SMPL姿势和形状，并对姿势、形状和3D关节进行监督。我们提供与Sec类似的特定于主题的偏移Op。五点三。对所有基线进行超参数检索。第一基线ResNet是通过5个残差块馈送输入的逐帧基线。这受到[16]的启发，他们将密集的标记云映射到身体模型参数。第二个基线BiRNN是从DIP [17]中采用的双向RNN，因此明确建模了从结果表中，我们可以看到，明确地对数据的时间性质进行建模是有帮助的（BiRNN优于ResNet）。我们还观察到，我们的方法击败了纯学习和基于优化的基线。有关更多网络和培训的详细信息，请参阅补充材料。6.3. 消融在这里，我们展示了主要设计选择对12个传感器的最佳性能模型的影响，总结在表1中。3 .第三章。补充材料中提供了6个传感器的相应结果。我们首先移除向LGD提供初始估计的RNN（11519|模型MPJPE [mm]PA-MPJPE [mm]MPJAE [○]我们的12号[R|t]的范围内我们的12号tOurs 12 ori onlyOurs 12 pos onlyOurs 12 no RNN167.6 ±212.735.6 ±25.850.8 ±30.033.6 ±28.336.9 ±25.4134.3 ±113.329.0 ±19.431.2 ±20.427.5 ±20.826.5 ±19.937.5 ±34.714.4 ±10.014.3 ±9.816.2 ±11.314.3 ±10.3我们的1231.8±21.024.8±16.413.3±9.2表3：对我们的最佳性能模型的消融研究模型MPJPE [mm]PA-MPJPE [mm]MPJAE [○]BiRNN 6Ours（LGD RNN）641.1±27.042.7 ±36.934.6±22.734.3±25.531.2 ±13.428.5±12.8BiRNN 12Ours（LGD RNN）1240.7 ±31.132.1±27.536.6 ±24.225.8±19.830.9 ±12.224.9±10.4表4：受试者5的跨受试者评价no RNN”）。该架构类似于原始的逐帧LGD [53]。我们可以清楚地观察到对数据的时间性质进行扩展建模的好处。此外，我们展示了特定于主题的偏移Op在训练过程中的效果条目正如预期的那样，对旋转偏移进行建模会产生重大影响。如果没有这些，合成方向和真实方向之间的差距就太大了。最后，我们还尝试仅向我们的模型馈送位置或仅定向测量（ “ 仅pos/ori”）。在每种情况下，与可用模态匹配的误差保持合理的低（例如，“pos only”的MPJPE为33.6），但相应的其他误差增加。这证明了在我们的最佳表现模型中选择这两种模式的合理性。6.4. 跨受试者评价LGD和我们的培训计划需要获得特定科目的补偿。在本节中，我们在“看不见的”参与者上评估我们的方法，该参与者在训练期间未使用偏移。为此，我们只从受试者1-4中使用特定于受试者的偏移量来训练模型，并保留受试者5。选项卡. 4列出了我们的两个最佳模型对来自主题5的序列的性能这再次突出了我们提出的方法优于纯学习基线的优点，这对于12传感器模型更明显。这并非完全不令人惊讶，因为LGD RNN仍然需要估计迭代细化的偏移6.5. 定性结果我们在图1中示出了使用6和12个传感器的重建的视觉比较。7.第一次会议。请参阅视频和补充材料，以获得更多的视觉比较。图7：6个和12个探头的目视比较。我们展示了自我封闭的姿势（蹲下，交叉手臂）或通常具有挑战性的姿势，仅用6个传感器（蹲下，坐着）来恢复图片仅供参考。7. 局限性和结论像任何基于EM的系统一样，我们的系统容易受到由于金属物体或距离受试者小于1.5米的其他电子设备引起的磁失真的影响。在我们的捕获会话中，我们发现可以控制磁干扰，并且它也不妨碍我们在日常环境中捕获，如图所示。7.第一次会议。然而，EM数据可能是有噪声的（例如，丢帧、超出校准范围的测量、意外的磁失真等）。虽然在嘈杂的数据制度中提供姿态估计超出了本文的范围，但我们发现这是未来工作的一个有趣的AV- enue。补充材料中描述了一种处理噪声输入最后，从少至6个传感器恢复详细的形状信息是困难的，因为它在很大程度上是不可观察的。虽然肯定还有为了促进未来的研究，我们发布代码和数据。致谢我们感谢Stephen Olsen和Mark Hogan对捕获系统的大力支持。我们也非常感谢Kevin Har- ris、MishaelHerrmann、Braden Copple、Elise Campbell、ShangchenHan 、 Naureen Mahmood 、 Thomas Langerak 、 JuanZarate、Emre Aksan以及所有参与者的帮助。11520引用[1] BrettA l len，BrianCurless，andZoranPop o v ic'. 人体形状的空间：距离扫描的重建和ACM事务处理图表，22（3）：587-594，2003年7月。3[2] Brett Allen，Brian Curless，Zoran Popo vic´ ，and AaronHertz-伙计。学习身份和姿势相关的身体形状变化的相关模型以用于实时合成。在 Proceedings of the 2006 ACMSIGGRAPH/EurographicsSymposiumonComputerAnimation ， SCA'06 ，第147-156 页，Goslar ， DEU，2006年。欧洲制图协会。[3] DragomirAnguelov ， PraveenSrinivasan ， DaphneKoller，Se-巴斯蒂安·特伦吉姆·罗杰斯和詹姆斯·戴维斯Scape：人物的形状完成和动画。ACM事务处理图表，24（3）：408-416，2005年7月。3[4] 放大图片作者：Andreas Aristidou，Daniel Cohen-Or，Jessica K. 哈金斯还有阿里尔·沙米尔自相似性分析用于运动捕获清洗。Comput. Graph. Forum，37（2）：297-309，May 2018.2[5] Darmindra D Arumugam ， Joshua D Griffin ， Daniel DStan-和David S Ricketts.美式足球的磁准静态跟踪：球门线测量 [ 球门角测量 ] 。 IEEE Antennas and PropagationMagazine，55（1）：138-146，2013. 4[6] Gabriele Bleser ， Gustaf Hendeby ， and Markus Miezal.我们-以自我为中心的视觉，以实现强大的惯性体跟踪下的磁干扰。在2011年第10届IEEE混合和增强现实国际研讨会上，第103-109页，2011年。2[7] H. T.巴特湾Taetz，M. Musahl，M. A.桑切斯山口穆尔蒂和D.斯特里克磁力计鲁棒的深度人体姿势回归，使用稀疏的身体佩戴的磁惯性测量单元进行不确定性预测。IEEE Access，9：36657-36673，2021。2[8] 陈克宇，Shwetak N.帕特尔和肖恩·凯勒。Finexus：使用磁感应跟踪多个指尖的精确运动。在2016 CHIConference on Human Factors in Computing Systems的会议记录中，CHI'16，第1504-1514页，美国纽约州纽约市，2016。计算机协会。3[9] 冯银甫，季明明，金晓，杨晓松，Jian J.Zhang，Yueting Zhuang，and Xuelong Li.挖掘时空模式和结构稀疏性用于人体运动数据去噪。 IEEETransactions on Cybernetics，45（12）：2693-2706，2015. 2[10] 吉列尔莫加西亚-赫尔南多山心袁承烈白和金泰均第一人称手部动作基准标记，带有rgb-d视频和 3d手部姿势注释。在计算机视觉和模式识别（CVPR），2018年的会议记录。3[11] 安德鲁吉尔伯特马修特朗布尔查尔斯·马勒森艾德里安·希尔顿和约翰·科洛莫斯。融合视觉和惯性传感器与语义的三维人体姿态估计。国际计算机视觉杂志，127：12[12] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。2009年计算机视觉，第1381-1388页。IEEE，2009年。3[13] Riza Alp Guler和Iasonas Kokkinos。Holopose：Holistic3D human reconstruction in the wild.在IEEE计算机视觉和模式识别会议集，第10884-10894页，2019年。3[14] Rı z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos.密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页，2018年。1[15] Nils Hasler ， Hanno Ackermann ， Bodo Rosenhahn ，Thorsten托尔·麦伦和汉斯·彼得·赛德尔。从图像集对着装对象的多线性姿态和2010年IEEE计算机协会计算机视觉和模式识别会议，第1823-1830页。IEEE，2010。3[16] 丹尼尔·霍顿光学运动捕捉的鲁棒求解数据去噪。ACM事务处理图表，37（4），2018年7月

下载后可阅读完整内容，剩余1页未读，立即下载