使用声音提升3D人体姿势度量

173 浏览量更新于2023-10-25 收藏 21.91MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

131790PoseKernelLifter：使用声音进行3D人体姿势的度量提升0Zhijian Yang 1,2�，Xiaoran Fan 1，Volkan Isler 1,3�，Hyun Soo Park 1,3�01 三星人工智能中心纽约，2 伊利诺伊大学厄巴纳-香槟分校，3 明尼苏达大学双城校区0（a）单视图图像（b）音频（c）度量3D重建01米01米0图1.我们提出了一种新方法，可以从单个图像以及从消费级扬声器传输的音频信号中度量重建人体姿势的方法。我们的方法通过利用声音在固定介质中以恒定速度传播的事实来恢复度量尺度。0摘要0从单视图图像中以度量尺度重建人体的3D姿势是一个几何上不适定的问题。例如，我们无法通过单视图图像测量人与相机的精确距离，除非有额外的场景假设（例如，已知身高）。现有的基于学习的方法通过重建3D姿势来规避这个问题，但是许多应用，如虚拟远程会议、机器人技术和增强现实，需要度量尺度重建。在本文中，我们展示了与图像一起记录的音频信号提供了补充信息，可以重建人体的度量尺度3D姿势。关键观点是，当音频信号在3D空间中传播时，它们与人体的相互作用提供了关于人体姿势的度量信息。基于这个观点，我们引入了一个称为姿势核（posekernel）的时不变传递函数，即由身体姿势引起的音频信号的冲激响应。姿势核的主要特性有：（1）度量属性：其冲激响应等同于反射音频的到达时间，因此它提供了从接收器（麦克风）到的度量距离；（2）唯一性：姿势核的包络与目标人物的位置和姿势高度相关；（3）不变性：它对周围环境的几何配置不变，这使得我们可以将其推广到未知的环境中。虽然姿势核对于人体的3D姿势和位置具有很高的指示性，但它是一个时域信号。将其与空间域2D姿势检测相结合是非常困难的。此外，对新场景的推广需要精确的3D推理，而现有的音频-视觉学习任务，如图像领域的源分离和图像表示学习[13, 16, 42,59]不适用。我们通过学习融合来自多个麦克风的姿势核和从图像中检测到的2D姿势，使用一个三维卷积神经网络（3DCNN）来解决这个视觉和音频信号的3D推理挑战：（1）我们将3D中的每个点投影到图像上，以编码关键点的可能性（视觉特征）；（2）我们在3D中对时域姿势核进行空间编码，以形成音频特征。受卷积姿势机器架构[70]的启发，设计了一个多阶段的3DCNN来预测给定视觉和音频特征的关节的3D热图。这种多阶段设计使用小的卷积核（例如3×3×3）增加了有效的感受野，同时解决了梯度消失的问题。此外，我们提出了一个名为PoseKernel数据集的新数据集。该数据集包括来自六个位置的10000多个姿势，每个位置有六个以上的参与者，执行包括坐、喝、走和跳等多种日常活动。我们使用这个数据集来评估我们的度量提升方法的性能，并展示它在重建3D姿势方面明显优于包括网格回归（例如FrankMocap[49]）和关节深度回归（例如Tome等人[60]）在内的最先进的提升方法。由于现有方法存在尺度模糊性，准确性取决于目标人物的身高。相比之下，我们的方法可以可靠地恢复3D姿势。0*尽管一些作者隶属于大学，但此工作仅作为三星人工智能中心纽约的成员完成。0并学习以度量尺度重建3D姿势。我们展示了我们的多模态方法在现实场景中产生准确的度量重建结果，而这是使用包括参数网格回归和深度回归在内的最先进提升方法无法实现的。01.引言0由于将3D世界投影到图像上会丢失比例信息，因此从单个图像中重建人体姿势的3D问题是一个不适定问题。为了解决这个限制，现有的提升方法中使用了人体姿势先验知识[6, 20,31, 34, 43, 60,75]，通过预测相对深度来重建可能的3D姿势，给定2D检测到的姿势。然而，由于缺乏度量尺度，重建结果仍然缺乏度量尺度，即不能在不进行额外假设（如已知身高或地面接触）的情况下恢复度量尺度。3D姿势提升的这个基本限制阻碍了将其应用于现实世界的下游任务，例如智能家居、机器人技术和增强现实，其中与周围物体的精确度量人类活动的度量测量至关重要。在本文中，我们研究了一种从单视图图像中通过整合新的感知模态——消费级扬声器的音频信号来度量重建人体姿势的问题（图1）。我们的观点是，在穿越3D环境时，传输的音频信号经历了一个131800这是由反射物体的几何形状引起的特征变换。这种变换微妙而又高度指示了身体姿势的几何形状，可以用来推断度量尺度的重建。例如，在一个房间里播放的同一首音乐因为有人的存在与否，以及更重要的是，人的移动而听起来不同。我们使用一个称为姿势核（posekernel）的时不变传递函数来参数化这种音频信号的变换，即由身体姿势引起的音频的冲激响应，即接收到的音频信号是传输信号与姿势核的时域卷积。姿势核的三个关键特性使得它能够以可推广的方式进行度量3D姿势提升：（1）度量属性：其冲激响应等同于反射音频的到达时间，因此它提供了从接收器（麦克风）到的度量距离；（2）唯一性：姿势核的包络与目标人物的位置和姿势高度相关；（3）不变性：它对周围环境的几何配置不变，这使得我们可以将其推广到未知的环境中。虽然姿势核对于人体的3D姿势和位置具有很高的指示性，但它是一个时域信号。将其与空间域2D姿势检测相结合是非常困难的。此外，对新场景的推广需要精确的3D推理，而现有的音频-视觉学习任务，如图像领域的源分离和图像表示学习[13, 16, 42,59]不适用。我们通过学习融合来自多个麦克风的姿势核和从图像中检测到的2D姿势，使用一个三维卷积神经网络（3DCNN）来解决这个视觉和音频信号的3D推理挑战：（1）我们将3D中的每个点投影到图像上，以编码关键点的可能性（视觉特征）；（2）我们在3D中对时域姿势核进行空间编码，以形成音频特征。受卷积姿势机器架构[70]的启发，设计了一个多阶段的3DCNN来预测给定视觉和音频特征的关节的3D热图。这种多阶段设计使用小的卷积核（例如3×3×3）增加了有效的感受野，同时解决了梯度消失的问题。此外，我们提出了一个名为PoseKernel数据集的新数据集。该数据集包括来自六个位置的10000多个姿势，每个位置有六个以上的参与者，执行包括坐、喝、走和跳等多种日常活动。我们使用这个数据集来评估我们的度量提升方法的性能，并展示它在重建3D姿势方面明显优于包括网格回归（例如FrankMocap[49]）和关节深度回归（例如Tome等人[60]）在内的最先进的提升方法。由于现有方法存在尺度模糊性，准确性取决于目标人物的身高。相比之下，我们的方法可以可靠地恢复3D姿势。0无论身高如何，都适用于成年人和未成年人。为什么度量尺度？智能家居技术正准备进入我们的日常活动，特别是用于监测包括儿童、患者和老年人在内的脆弱人群。这不仅需要3D姿态重建，还需要在度量场景的背景下进行整体3D理解，这使得人工智能和自主代理能够以情境感知的方式做出反应。虽然多视图摄像机可以提供度量重建，但随着区域面积的增加，所需摄像机的数量呈二次增加。我们的新型多模态解决方案可以通过利用由消费级扬声器（例如Alexa）产生的多源音频（通常是无声的）来缓解这一挑战。贡献本文在单视图姿态估计中结合音频信号方面做出了重大的概念贡献。技术贡献包括（1）姿态核的新公式，它是身体姿态和位置的函数，可以推广到新的场景几何（2）姿态核的空间编码，有助于融合视觉和音频特征（3）一个多阶段的3DCNN架构，可以有效地将它们融合在一起（4）我们的方法表现出色，优于现有的提升方法。02.相关工作0本文主要关注将音频信号与单视图3D姿态估计中的信息整合，以获得度量尺度。我们简要回顾了这些领域的相关工作。基于视觉的提升，虽然从2D图像中重建3D姿态（一组身体标记）在几何上是不适定的，但标记之间的空间关系提供了重建3D姿态的几何线索[57]。这种关系可以通过包含2D和3D对应关系的数据集（如Human3.6M[22]，MPI-INF-3DHP [36]（多视图），Surreal[62]（合成）和3DPW[63]（外部传感器））进行学习。在有3D监督的情况下，可以通过监督学习[6，20，56，60]直接学习空间关系。已经提出了各种表示方法来有效地编码空间关系，例如体积表示[43]，图形结构[4，11，72，77]，变换器架构[31，34，75]，实时重建的紧凑设计[37，38]和逆运动学[30]。然而，这些依赖于3D地面真实监督的监督学习方法在处理分布场景和姿势的图像时显示出有限的泛化能力，这是由于领域差异引起的。弱监督、自监督和无监督学习已被用来解决这一挑战。例如，视频中的人体姿势预计会随时间连续移动和变形，从而产生时间自监督[45]。使用增加时间感受野的扩张卷积来进行预测....131810= + �0麦克风0扬声器0房间响应0姿态0摄像头0（）st0（）rt00（）k t0（）jk t0接收音频：传输音频：房间响应：姿态核：0从单视图图像预测2D姿态03D重建025厘米037厘米0图2.（左）音频信号在房间内以3D方式传播，并通过包括人体表面在内的物体进行反射。（中）给定接收到的音频信号，我们通过分解出房间冲激响应来计算人体脉冲响应，称为姿态核。（右）我们在3D空间中对姿态核进行空间编码，并使用3D卷积神经网络将其与图像中检测到的姿态相结合，以获得人体姿态的3D度量重建。0学习时间平滑性[44,61]，使用全局优化来重建时间上连贯的姿势和相机姿势[2]，使用时空图卷积来捕捉姿势和时间依赖性[4, 9,33]。多视图图像提供了几何约束，允许学习视角不变的视觉特征来重建3D姿势。预测的3D姿势可以投影到其他视图图像上[46, 47,65]，立体图像用于三角化3D姿势，可以用于其他视图的3D伪地面真值[23, 24,28]，极线几何用于学习2D视角不变特征进行重建[21,74]。对抗性学习使得3D姿势和2D图像解耦，即从2D图像重建3D姿势必须遵循3D姿势的分布，这允许从多样的图像（不一定是视频或多视图）中进行学习[8, 29,64]。数据集的特征化和可微扩充进一步改进了泛化性能[18,68]。除了一些例外，尽管性能显著，重建的姿势缺乏度量尺度，因为3D姿势估计存在基本的模糊性。我们的方法利用消费级扬声器产生的声音在3D中提升姿势的物理尺度。0多模态重建已经利用了不同的模态来进行3D感知和重建，包括基于射频的[19, 25, 26, 78, 79]，基于惯性的[54,73]和基于声学的[7, 10, 14, 15, 53, 71,76]。包括自动驾驶汽车[19]、机器人操作和抓取[40, 66,67, 69]、同时定位和建图(SLAM)[1, 12, 52, 55,58]在内的各种应用受益于多模态重建。音频由于其环境特性，在多模态机器学习中引起了独特的关注[3, 17, 32, 39,41,48]。然而，由于音频多模态几何理解的复杂性，很少有使用音频作为模态的多模态几何理解的研究工作[10, 71, 76]。0路径造成了3D理解的各种困难。人体姿势由于其多样性，对于传统的声学感知尤其具有挑战性，因此研究较少。虽然类似的信号如WiFi和FMCW无线电已被用于人体姿势估计[25,78,79]，但由于其传播速度较慢，音频信号比基于射频的方法提供了更准确的距离测量。我们解决了音频多径传播的挑战，并揭示了音频在准确的度量尺度3D人体姿势估计中的潜力。具体而言，我们提出了第一种将音频信号与2D姿势检测相结合的方法，以推理出用于度量重建的3D空间关系。我们的方法可能对智能家居、增强现实/虚拟现实和机器人等各种应用有益。03. 方法0我们利用音频信号作为度量人体姿势估计的一种新模态。我们学习一个姿势核，将音频信号转换为可以与视觉姿势预测一起编码为3D的形式，如图2所示。03.1. 姿势核提升0我们将3D姿势提升的问题视为学习一个函数gθ，该函数预测一组3D热图{Pi}Ni=1，给定输入图像I∈[0,1]W×H×3，其中Pi:R3→[0,1]是第i个地标在3D空间上的可能性，W和H分别是图像的宽度和高度，N是地标的数量。换句话说，0{Pi}Ni=1 = gθ(I)，(1)0通过可学习的函数参数化其权重θ，将2D图像提升到3D姿势。给定预测的3D热图，最优的3D姿势由X�i给出。{Pi}Ni=1 = gθ(I, {kj(t)}Mj=1),(2)rj(t) = s(t) ∗ (kj(t) + kj(t)),(3)kj(t) = F−1{Kj(f)},Kj(f) = Rj(f)S(f) − Kj(f), (4)tX = ∥sspk − X∥ + ∥smic − X∥v,(5)kj(t) =�X∈XA(X)δ(t − tX),(6)131820argmax XPi(X)，使得X�i是最优位置。0在实践中，我们使用一个规则的体素网格来表示 P。我们通过利用音频信号来扩展方程（ 1），以重建度量尺度的人体姿态，即：0其中 k j ( t ) 是从第 j 个麦克风听到的姿态核。0麦克风——与人体姿态几何形状相关的时间不变的音频冲激响应，将传输的音频信号进行变换，如图 2 所示。 M表示接收到的音频信号的数量*。姿态核将传输的波形进行如下变换：0其中 � 是时间卷积操作， s ( t ) 是传输的源信号， r j ( t ) 是在第 j 个麦克风位置接收到的信号。 k j ( t )是空房间冲激响应，考虑了源信号在没有人的情况下由于静态场景几何形状（例如墙壁和物体）的变换。 k j ( t )是在第 j个麦克风位置测量到的姿态核，考虑了由于人体姿态的信号变换。姿态核可以通过傅里叶逆变换得到，即：0其中 F − 1 是傅里叶逆变换，R j ( f ) ， S ( f ) 和 K j ( f )分别是 r ( t ) ， s ( t ) 和 k j ( t ) 的频率响应，例如， R (f ) = F{ r ( t ) }。由于姿态核主要由身体的直接反射主导，它对场景几何形状是不可知的†。场景几何形状通过空房间冲激响应 k j ( t )和源音频 s ( t ) 被接收音频 r ( t )取消掉，这使得我们可以将学习到的 g θ推广到各种场景。03.2. 姿态核的空间编码0我们将第 j 个麦克风的时域姿态核 k j ( t )编码为可以融合音频和视觉信号的三维空间域。扬声器位置s spk ∈ R 3 处的音频信号经过身体表面点 X ∈ R 3处的反射后到达麦克风位置：0*音频源（扬声器）的数量不需要与接收到的音频信号（麦克风）的数量匹配。†在减去房间响应后的残差仍然包括涉及人体的多路径效应。然而，我们观察到这些效应在实践中是可以忽略的，并且姿态核主要由身体的直接反射主导。因此，它对场景几何形状是不可知的。详见第 6节关于多路径阴影效应的讨论。0s mic ∈ R 3 . 到达时间为：0其中 t 是到达时间， v 是声音的恒定传播速度（图 3）。姿态核是身体表面反射点的冲激响应的叠加，即：0其中 δ ( t − t X ) 是Dirac函数（冲激响应），表示在 t= t X 时刻通过点 X 反射的音频信号的到达时间。 t X是音频信号在身体表面点 X 处的到达时间。 A ( X ) 是点X 处的反射系数（增益）。方程（ 5 ）和（ 6）暗示了姿态核的两个重要的空间特性。（i）由于距离麦克风和扬声器的距离之和为椭球体，方程（ 5）暗示了任何位于该椭球体上的点都可以产生相同的冲激响应。（ii）由于声音传播速度恒定，到达时间的响应可以被解释为空间距离的响应，通过在相应的到达时间 t X处评估姿态核：0Kj(X) = kj(t)|t=tX, (7)0其中Kj(X)是位置X∈R3处姿势核的空间编码。0让我们来说明姿势核的空间编码。考虑一个点物体X∈R2，它从扬声器sspkk反射音频信号，由麦克风smic接收，如图3所示。接收到的音频信号被延迟tX，可以表示为姿势核k(t)=A(X)δ(t−tX)。由于声音的速度是恒定的，这个姿势核可以被空间编码为K(X)。请注意，给定姿势核存在无限多个可能的X位置，因为椭圆（虚线椭圆）上的任意点（例如，�X）到扬声器和麦克风的距离之和是恒定的。图4说明了（a）空房间脉冲响应和（b，c，d）通过改变物体的位置和姿势而具有姿势核的完整响应。左列显示了物理空间中编码的姿势核kj(t)，右列显示了实际信号。由于音频信号中不包含方位信息，姿势核kj(t)中的每个峰值对应于椭圆上的可能反射器位置，其焦点与扬声器和麦克风的位置重合。ObjectObjectObject131830（a）空房间响应0（b）物体响应0（c）旋转物体响应0（d）平移物体响应0图4.通过声音模拟可视化时域脉冲响应的空间编码（左列）和脉冲响应（右列）。椭圆形模式可以通过空间编码观察到，其焦点与扬声器和麦克风的位置重合。（a）我们可视化了空房间脉冲响应。（b）当存在物体时，可以观察到由物体表面反射的强脉冲响应。我们显示包含姿势核的完整响应。（b）由于物体旋转，核响应发生变化。（c）由于平移，我们观察到延迟的姿势核。0通过姿势核的空间编码，我们重新定义方程（2）：0{Pi(X)}Ni=1 = gθ(ϕv(X;I), maxjϕa(Kj(X))), (8)0其中ϕv和ϕa分别是用于视觉和音频信号的特征提取器。具体而言，ϕv是在投影位置X到图像I上评估的视觉特征，即0ϕv(X;I) = {pi(ΠX)}Ni=1, (9)0其中pi∈[0,1]W×H是图像I中第i个地标的可能性。Π是2D投影操作，即pi(ΠX)是第i个地标在2D投影位置ΠX的可能性。ϕa(Kj(X))是在X处评估的第j个姿势核的音频特征。我们使用最大池化操作来融合多个接收到的音频信号，这对音频信号的位置和顺序是不可知的。这有助于场景泛化，学习到的音频特征可以应用于具有不同音频配置（例如，源的数量，位置，场景几何）的新场景。我们通过最小化以下损失函数来学习gθ和ϕa：0L = 0I, K, �P∈D∥gθ(ϕv, maxjϕa(Kj))−{�Pi}Ni=1∥2, (10)0其中，{�Pi}Ni=1是真实的3D热图，D是训练数据集。请注意，本文重点研究使用音频信号进行度量提升的可行性，其中我们使用现成的人体姿势估计器{pi}Ni=1[5]。03.3. 网络设计和实现细节0我们设计了一个3D卷积神经网络（3DCNN），用于对来自图像（使用OpenPose[5]）和四个麦克风的2D姿势检测进行编码。受到卷积姿势机器设计的启发[70]，网络由六个阶段组成，可以增加感受野，同时避免梯度消失的问题。2D姿势检测通过一组热图表示，通过逆投影编码在70×70×50体素网格中，形成16通道的3D热图。对于每个麦克风的姿势核，我们在70×70×50体素网格上进行空间编码，使用三个3D卷积滤波器进行卷积，然后在四个音频通道上进行最大池化。每个网格为5厘米，结果为3.5米×3.5米×2.5米的空间。这些音频特征与视觉特征结合，形成音频-视觉特征。这些特征经过一系列3D卷积进行变换，以预测每个关节的3D热图。预测结果与音频-视觉特征结合，形成下一个阶段的预测。网络架构如图5所示。我们使用PyTorch实现了该网络，并在一台服务器上使用4个Telsa v100GPU进行训练。使用SGD优化器，学习率为1。该模型已经训练了70个周期（约36小时），直到收敛。Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3MaxpoolConcatConv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Conv3x3x3Stage 1 predictionStage 2 predictionStage n prediction12nSpatialencoding()XPvφaφgθInverseprojection131840姿势核姿势检测0图5。我们设计了一个3D卷积神经网络，用于编码姿势核（音频）和2D姿势检测（图像），以获得姿势的3D度量重建。我们使用一系列卷积将音频和视觉特征结合起来（多个麦克风的音频特征通过最大池化进行融合）。音频-视觉特征与一系列3×3×3卷积核进行卷积，以预测关节的一组3D热图。我们使用多阶段预测，受到卷积姿势机器架构[70]的启发，可以有效地增加感受野，同时避免梯度消失。0图6。我们在不同环境中收集了PoseKernel数据集，每个位置至少有六名参与者，总共超过6,000个姿势。04. PoseKernel数据集0我们收集了一个名为PoseKernel的新数据集。它由来自六个位置（包括客厅、办公室、会议室、实验室等）的超过10,000帧同步视频和音频组成。对于每个位置，我们要求超过六名参与者按照图6所示的方式进行表演。我们使用COLMAP等商用结构运动软件对摄像机、扬声器和麦克风进行空间校准，通过使用额外的摄像机扫描环境并使用RGB-D摄像机的度量深度来估计3D重建的真实尺度。我们通过独特的音频信号（例如拍手）手动同步视频和扬声器，并且扬声器和麦克风通过采样率为96 kHz的现场录音机（例如Zoom F8nRecorder）进行硬件同步。对于每个场景，我们使用两个RGB-D AzureKinect摄像机捕获视频数据。这些经过校准的RGB-D摄像机用于使用0我们使用FrankMocap等最先进的姿势估计方法来生成训练的姿势的地面真实姿势。多个RGB-D视频仅用于训练时生成地面真实姿势。在测试阶段，只使用单个RGB视频。我们使用四个扬声器和四个麦克风生成音频信号。每个扬声器生成一个从19 kHz到32kHz频率范围内扫过的鸣叫音频信号。我们使用这个频带是因为它可以被消费级麦克风听到，但对人类来说是听不到的。因此，它不会干扰人类生成的音频。为了从四个扬声器发送多个音频信号，我们在频带内使用频分复用。每个鸣叫的持续时间为100毫秒，结果是10FPS的重建。在每次捕获会话开始时，我们在没有人的情况下捕获每个麦克风的空房间脉冲响应。我们要求参与者进行各种日常活动，例如坐、站、走和喝水，并在不同环境中进行运动范围。为了评估在身高上的泛化性能，在我们的测试数据中，我们包括了三个未成年人（身高在140厘米到150厘米之间），并得到了他们监护人的同意。数据集中删除了所有可识别个人信息，包括面部信息。05. 结果0我们通过与最先进和基准算法进行比较，在PoseKernel数据集上评估了我们的方法。评估指标我们使用平均每个关节位置误差（MPJPE）和3D中正确关键点的百分比（PCK）作为主要评估指标。对于PCK，我们报告PCK t，其中t是误差容限（以厘米为单位）。基准算法使用了三种最先进的基准算法。（1）Lifting from theDeep，或可视化：LfD[60]是一种基于视觉的算法，通过学习2D和131850方法头颈手肘肩腰膝脚平均0可视化：LfD [60] 57.49 / 34.77 52.31 / 29.89 59.09 / 45.01 57.10 / 39.30 55.22 / 32.77 56.31 / 32.81 50.76 / 51.09 54.59 / 57.89 55.76 / 41.43 可视化：Frank [49] 42.07 / 17.3343.24 / 17.87 44.38 / 18.43 44.68 / 18.79 43.70 / 18.21 44.33 / 18.55 46.12 / 19.14 48.76 / 20.98 44.60 / 18.71 可视化：MeTRo [50] 85.37 / 64.27 89.93 / 65.91 97.80 / 71.1793.18 / 69.80 91.34 / 67.17 84.36 / 64.03 87.91 / 65.35 96.82 / 75.12 89.24 / 68.62 音频 × 4 313.4 / 290.0 321.2 / 259.1 253.6 / 277.9 303.6 / 265.0 143.5 / 143.8 350.0 / 288.7240.2 / 261.0 85.3 / 145.4 255.1 / 229.5 可视化+音频 × 2 10.13 / 12.45 10.02 / 10.22 12.69 / 21.64 12.55 / 15.77 11.40 / 11.47 12.44 / 9.70 13.84 / 13.81 15.19 / 16.29 12.23 /13.46 我们的 8.56 / 14.17 8.20 / 10.83 12.21 / 20.17 11.56 / 14.30 9.81 / 11.68 10.97 / 9.50 14.29 / 13.06 16.85 / 14.66 11.28 / 13.140表1. 我们使用MPJPE（越低越好）作为评估指标，与最先进的基于视觉的算法进行比较，包括LfD（可视化：LfD[60]）、FrankMocap（可视化：Frank [49]）、MeTRo（可视化：MeTRo [50]）以及我们的消融算法，包括音频 × 4 和可视化+音频 ×2。我们在两个数据集上进行测试：一个是包含未成年参与者的数据集，一个是包含成年参与者的数据集（未成年MPJPE/成年MPJPE）。所有数字均以厘米为单位报告。0方法 t 头颈手肘肩腰膝脚平均0Vis.:LfD [ 60 ] 10 cm .000 / .068 .008 / .152 .000 / .051 .000 / .055 .000 / .131 .000 / .063 .008 / .017 .000 / .017 .001 / .064 可视化：LfD [60] 10 cm .033 / .253 .025 / .257 .016 /.245 .025 / .249 .025 / .257 .025 / .257 .025 / .232 .016 / .232 .023 / .248 可视化：Frank [49] 10 cm .000 / .017 .000 / .025 .000 / .038 .000 / .004 .000 / .025 .000 / .017 .000 / .013.000 / .013 .000 / .016 音频 × 4 10 cm .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .000 可视化+音频 × 2 10cm .590 / .409 .541/ .515 .410 / .224 .459 / .270 .557 / .464 .410 / .578 .311 / .354 .238 / .325 .436 / .417 我们的 10 cm .648 / .380 .639 / .473 .336 / .241 .369 / .367 .484 / .439 .418 / .544 .230 / .397.213 / .346 .432 / .4170可视化：LfD [60] 20 cm .000 / .405 .033 / .586 .000 / .262 .000 / .350 .016 / .468 .008 / .498 .041 / .122 .000 / .097 .011 / .320 可视化：Frank [49] 20 cm .049 / .616 .049 / .582 .049/ .586 .049 / .557 .049 / .582 .049 / .561 .049 / .544 .049 / .489 .049 / .568 可视化：MeTRo [50] 20 cm .000 / .063 .000 / .076 .000 / .072 .000 / .076 .008 / .068 .000 / .068 .000 /.059 .000 / .025 .001 / .055 音频 × 4 20 cm .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .021 .000 / .000 .000 / .000 .008 / .000 .001 / .001 可视化+音频 × 2 20 cm .861 /.819 .844 / .899 .820 / .540 .820 / .713 .811 / .840 .820 / .890 .779 / .802 .811 / .738 .815 / .794 我们的 20 cm .918 / .772 .943 / .844 .844 / .565 .885 / .768 .918 / .814 .893 / .911.779 / .831 .639 / .781 .861 / .8040Vis.:LfD [ 60 ] 30 cm .049 / .722 .066 / .827 .016 / .506 .033 / .603 .057 / .789 .057 / .776 .115 / .316 .016 / .270 .048 / .567 可视化：LfD [60] 30 cm .082 / .911 .066 / .890 .074 /.882 .074 / .852 .074 / .882 .066 / .869 .057 / .852 .057 / .789 .064 / .865 可视化：Frank [49] 30 cm .008 / .152 .000 / .156 .000 / .186 .008 / .165 .016 / .165 .000 / .139 .000 / .139.000 / .101 .003 / .134 音频 × 4 30 cm .000 / .000 .000 / .000 .000 / .000 .000 / .000 .025 / .000 .000 / .000 .033 / .004 .002 / .003 可视化+音频 × 2 30 cm .967 / .958 .975 / .966.926 / .751 .943 / .899 .934 / .970 .959 / .966 .934 / .941 .943 / .899 .954 / .928 我们的 30 cm .992 / .941 1.000 / .966 .967 / .793 .959 / .941 .992 / .983 .992 / .983 .959 / .958 .959 /.903 .980 / .9400Vis.:LfD [60] 40厘米 .074 / .878 .123 / .903 .115 / .667 .131 / .764 .115 / .861 .074 / .882 .361 / .536 .197 / .451 .156 / .725 Vis.:Frank [49] 40厘米 .418 / .987 .336 / .979 .303 / .970.270 / .970 .320 / .979 .279 / .970 .213 / .970 .131 / .954 .281 / .969 Vis.:MeTRo [50] 40厘米 .025 / .241 .025 / .228 .008 / .291 .016 / .253 .033 / .236 .016 / .249 .008 / .219 .000 /.143 .015 / .219 音频×4 40厘米 .000 / .000 .000 / .000 .000 / .000 .000 / .000 .000 / .055 .000 / .000 .000 / .000 .074 / .013 .005 / .007 视觉+音频×2 40厘米 1.000 / .987 1.000 / .992.975 / .861 .967 / .962 .992 / .983 .992 / .979 .992 / .970 .959 / .949 .986 / .965 我们的方法 40厘米 1.000 / .983 1.000 / .996 .992 / .895 1.000 / .983 1.000 / .996 1.000 / .996 1.000 /.970 .984 / .966 .997 / .9760表2. 我们使用PCK@t（越高越好）作为评估指标，将我们的方法与包括LfD（Vis.:LfD [60]）、FrankMocap（Vis.:Frank[49]）、MeTRo（Vis.:MeTRo[50]）在内的最先进的基于视觉的算法以及包括音频×4和视觉+音频×2在内的我们的消融算法进行比较。我们在两个数据集上进行测试：一个包含未成年参与者，一个包含成年参与者（未成年PCK/成年PCK）。03D关节位置。为了解决深度模糊问题，我们学习了一个统计模型来生成合理的3D重建。该算法直接预测3D姿势，我们使用Procrustes分析将其与图像投影对齐。(2)FrankMocap（Vis.:FrankMocap[49]）利用在野外图像上可以通过EFT[27]获得的伪真实3D姿势。增加3D监督可以提高3D姿势重建的性能。该算法使用SMPL参数化网格模型[35]来预测形状和姿势。包括这些基线方法在内的现有单视角重建方法都不能产生度量尺度的重建。鉴于它们的3D重建结果，我们将其缩放到度量尺度上，使用我们数据集中的平均人体身高（1.7米）进行缩放。(3) MeTRo（Vis.:MeTRo[50]）提供度量尺度的重建，但尺度是基于数据驱动的，而不是基于真实信号水平的洞见，因此是启发式的。请注意，LfD和FrankMoCap都没有包含我们自定义训练它们在我们数据集上的代码。为了公平起见，我们对所有基线模型使用预训练模型。我们相信这些模型都是在足够大的数据集上进行训练的，因此这种比较不会偏向我们自己的解决方案。0我们的消融算法除了最先进的基于视觉的算法之外，我们还通过消融我们的感知模态来比较我们的方法。(1) 音频×4使用四个音频信号重建三维关节位置，以研究二维视觉信息的影响。(2) 视觉+音频×2使用单视角图像和两个音频源在三维体素空间中预测三维关节位置。(3) 我们的方法相当于视觉+音频×4。05.1. PoseKernelLifter评估在PoseKernel数据集的六个环境中，我们使用4个环境进行训练，2个环境进行测试。训练数据包括由六个成年人（身高在155厘米至180厘米之间）和两个未成年人（身高分别为140厘米和150厘米）进行的多样姿势。测试数据包括两个成年人和一个未成年人，身高在140厘米至180厘米之间。比较我们使用在表1中总结的MPJPE指标来衡量重建准确性。如预期的那样，预测3D人体姿势的最先进的基于视觉的lifting方法（Vis.:LfD和Vis.:Frank）对被试者的身高敏感，导致成年人的平均误差为18�40厘米，未成年人的平均误差为40�601318601米 1米01米 1米0(d) 失败案例（严重堵塞）(c) 运动范围0(a) 坐姿 (b) 蹲姿0图7.定性结果。我们在不同的环境中测试了我们的姿势核提升方法，包括（a）地下室，（b）客厅，（c）实验室等。参与者被要求进行坐姿、蹲下和运动范围等日常活动。(d)：我们方法的一个失败案例：严重遮挡。0对于未成年人，即身高与平均身高1.7米差异很大的人，误差更大，即Vis.:Frank优于Vis.:LfD，因为Vis.:Frank使用了更大的训练数据，因此估计姿势更准确。然而，我们专为度量尺

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

使用声音提升3D人体姿势度量

研发效能度量的正确姿势与落地实践.pdf

3D手部姿势估计-优化InterHand2.6M基于单RGB图像进行3D手部姿势估计-优质项目实战.zip

微信账号切换的易学习性度量 使用效率度量 易记性度量 错误率度量

基于度量的元学习范式

使用余弦相似度作为距离度量的Kmeans算法

画出软件项目度量指标表，有度量目标，度量点

Cognos Transformer 度量怎么合计

ID3直接使用信息熵作为属性选择度量方法。

怎么使用Java开发工具或者其他数据分析工具，将维度和度量组合成一个数据模型。

静态可信度量根 动态可信度量根

深度度量学习详细介绍

teamcenter度量单位默认值

软件度量，基于代码行的度量方法，基于功能点度量方法

ID3使用信息增益作为特征选择的度量 C4.5使用信息增益比作为特征选择的度量

软件开发成本度量规范 2018 pdf

3dmax 场景单位转换插件

在一个软件的开发过程中，软件度量在每个阶段都度量了软件的哪些属性？

gmsk维特比译码分支度量

快速三重度量学习的介绍

最新资源

微信账号切换的易学习性度量使用效率度量易记性度量错误率度量

静态可信度量根动态可信度量根