没有合适的资源?快使用搜索试试~ 我知道了~
射线的20字中文标题:射线定位方法在绝对3D人体姿势估计中的应用
Z!S!S" = 2S!Z" = 2Z!Ground planeGround plane𝐻!𝐻" = 2𝐻!Z!Z" = 2 Z!f!f" = 2 𝑓!𝑆!𝑆" = 𝑆1131160Ray3D:基于射线的单目绝对3D定位的3D人体姿势估计0Yu Zhan Aibee公司 Fenghai Li 北京工商大学 Renliang Weng Aibee公司 Wongun ChoiAibee公司0摘要0在本文中,我们提出了一种新颖的单目射线3D(Ray3D)绝对人体姿势估计方法,配备校准相机。从单目2D姿势输入准确且具有普适性的绝对3D人体姿势估计是一个不适定问题。为了解决这个挑战,我们将输入从像素空间转换为3D归一化射线。这种转换使我们的方法对相机内参的变化具有鲁棒性。为了处理野外相机外参的变化,Ray3D明确将相机外参作为输入,并联合建模3D姿势射线和相机外参之间的分布。这种新颖的网络设计是Ray3D方法出色的普适性的关键。为了全面了解相机内参和外参变化对绝对3D关键点定位精度的影响,我们对三个单人3D基准数据集以及一个合成基准数据集进行了深入的系统实验。这些实验表明,我们的方法明显优于现有的最先进模型。我们的代码和合成数据集可以在https://github.com/YxZhxn/Ray3D上找到。01. 引言0准确的单目3D人体姿势估计在增强现实[24]、人物-物体交互[6]和视频动作识别[41]等领域中得到了广泛应用。虽然这个问题近年来得到了广泛研究,但它是一个众所周知的不适定问题[23],具有有限的泛化能力。当需要在度量空间中进行绝对3D人体姿势估计时,问题变得更加困难,因为准确地知道人体关节在世界坐标系(WCS)中的位置比估计该关节相对于参考点的相对3D偏移更具挑战性。虽然更具挑战性,但了解绝对3D姿势更加理想。0(a)0(b)0图1.如图(a)所示,如果人体尺寸和相机距离都放大了两倍,投影的2D关键点位置保持不变。在(b)中观察到了相同的现象,其中焦距和3D距离都加倍。Z1和Z2表示人到相机的距离,H1和H2表示相机离地面的高度。S1和S2是人的尺寸。f1和f2表示相机的焦距。这种歧义也在[4]中讨论过。0与实际应用中的根相对3D姿势相比,无人商店需要检测顾客拿起的商品,这依赖于世界坐标系中准确的手部定位。关键点的2D像素位置由人体尺寸、相机内参、相机外参和世界坐标系中的3D位置共同确定。这些因素为3D姿势估计引入了歧义。例如,如图1(a)所示,如果人体尺寸和相机距离都放大了两倍,投影的2D关键点位置保持不变。同样,如果焦距和3D距离都加倍,2D关键点保持不变,如图1(b)所示。通常,在图像平面上,存在多种3D关键点配置,可以生成相同的2D关键点观察结果。因此,简单地学习一个模型,将2D像素位置映射到3D世界位置,很可能会失败。131170为了解决这些歧义,已经提出了许多单目3D人体估计方法[4, 10, 29, 32, 44,47]。这些方法主要可以分为两组,即提升方法和基于图像的方法。提升方法[3, 8, 11, 25, 32, 46,50]将2D人体姿势作为输入,并将2D姿势提升到3D姿势。一些提升方法根据图像分辨率[32]和相机主点[4]对输入进行归一化。虽然这些归一化方案在一定程度上提高了泛化能力,但它们未能完全解决由于相机内参参数变化而产生的歧义。另一方面,基于图像的方法[2, 10, 16, 20, 22, 29, 43,49]根据人体尺寸的先验估计3D根位置。相比之下,[29,47]依赖于基于图像的人体深度估计来进行绝对根关键点定位。这些基于学习的深度估计方法的问题是缺乏具有视点变化的充足训练数据。例如,用前视视点训练的模型可能无法很好地推广到具有大的俯仰角的相机。此外,它们未能完全解决上述的歧义问题。0为了更有效地解决这些挑战,我们提出了Ray3D方法。首先,为了具有内参不变表示,我们将像素空间中的2D关键点转换为归一化的3D射线。通过这种简单的设计,我们的Ray3D方法在相机内参变化时仍能保持稳定的性能。受到Videopose [32]和RIE[34]的启发,我们使用时间卷积将连续帧中的3D射线融合起来,以进一步解决遮挡引入的模糊性并提高准确性。这种时间融合机制稳定了输出并生成了更准确的3D位置。其次,我们将相机外参参数嵌入到网络中。相机外参参数包含了准确的3D人体姿态估计所需的关键信息。可以说,利用相机外参参数是解决人体部位尺寸模糊性的唯一方法。例如,在图1(a)中,如果相机的高度已知接近于H1,我们可以安全地排除与S2/H2不兼容的假设。因此,将相机外参参数纳入网络对于准确的绝对定位至关重要。据我们所知,目前不存在任何现有的基于学习的3D人体姿态估计方法明确利用这些信息。相反,我们直接将相机高度和相机俯仰角作为输入,并通过多层感知机(MLP)学习一个独立的相机嵌入。然后,将该相机嵌入与时间融合的射线特征连接起来进行3D姿态估计。0为了更好地理解和诊断绝对3D姿态估计器,我们进行了一系列全面而系统的实验。具体而言,我们明确评估了这些方法对焦距、主点的鲁棒性。0在合成数据集上评估了关键点的3D位置对相机内参变化、相机俯仰角、相机高度、相机偏航角、人体尺寸变化的影响。此外,我们还评估了这些方法在三个单人基准数据集上的泛化能力。总结起来,所提出的方法具有以下贡献:0•我们将输入空间从2D像素空间转换为归一化坐标系中的3D射线。这种简单的设计有效地消除了由相机内参变化和相机俯仰角变化引入的变化。0•我们提出了一种新颖且简单的网络,该网络使用相机外参参数学习相机嵌入,并联合建模相机外参参数和三维射线0•我们对现有的3D方法进行了全面而系统的基准测试,评估其对相机姿态变化的鲁棒性以及跨数据集的泛化能力。0•在三个真实基准数据集和一个合成数据集上进行的实验清楚地证明了我们的Ray3D方法的优势。02. 相关工作02.1. 基于提升的三维人体姿态估计0基于提升的三维人体姿态估计方法学习了一个模型,将2D人体姿态映射到3D。虽然仅使用2D坐标而没有图像特征可能看起来不够优化,但这些方法在性能和成本之间取得了良好的平衡。大多数基于提升的方法都是在根相对3D人体姿态估计上工作[3, 8, 11, 25, 26, 32, 34, 46, 48,50]。[26]是引入提升设计的先驱工作。[3, 32, 34,48]利用时间信息来提高3D姿态估计的准确性,特别是对于遮挡情况。通过利用时间上下文,可以部分解决姿态的模糊性。Shan等人[34]提出了编码相对位置和时间增强表示的方法,该方法在根相对3D姿态准确性方面表现出色。受到[34]的启发,我们对相对的3D归一化射线进行编码,以改进根相对姿态模型。只有少数几种提升方法可以用于绝对3D人体姿态估计。Pavllo等人[32]采用轨迹模型来估计根关节的3D轨迹。Chang等人[4]通过减去相机的主点来对输入进行归一化,并重建到规范化的根深度。这个根深度进一步与焦距相乘,生成最终的绝对深度。虽然这些方法取得了有希望的结果,但它们未能通过使用相机内参来完全归一化输入。同时,1311802D关键点0图像平面0归一化坐标系(NCS)世界坐标系(WCS)0(� ! , � " , � ! , � " , )03D射线0定义0相机坐标系(CCS)01 × 1 × 301 × � × 301 × � × 3 � × � × 30相机嵌入0姿态估计0网络0轨迹网络0归一化0反归一化03D关键点0CCS中的基于射线的表示0NCS中的基于射线的表示0NCS中的绝对3D关节点0NCS中的轨迹0NCS中的相对根关节点0WCS中的绝对3D关节点0逐元素相加0图2.我们Ray3D架构的展示。在预处理中,我们将2D输入转换为基于射线的3D表示。这些3D射线被转换为NCS,然后输入到姿态估计网络和轨迹网络中,以预测最终的绝对3D姿态。通过反归一化,得到世界坐标系下的3D姿态。0相机外参被简单地忽略。因此,它们的性能容易受到相机内参/外参变化的影响。02.2. 基于图像的3D人体姿态估计0基于图像的方法通过直接利用图像特征来提高3D估计的准确性[1, 17, 18, 20, 21, 37-39, 45, 47,49]。Rogez等人[33]将估计问题分为姿势提议生成、提议评分和提议细化。通过最小化2D姿势和投影的3D姿势之间的距离,获得根关节点的3D位置。Moon等人[29]设计了一个网络,从裁剪的单人图像中估计根关节点的深度,但不可避免地丢失了主体的上下文信息。另外,[37-39,47]从整个图像中估计根深度,但需要大量的训练数据来使基于图像的深度估计可靠,并且不考虑相机外参,限制了它们的泛化能力。此外,[19]首次提出了估计用于3D人体姿态回归的透视相机。[19]试图同时估计姿势和相机参数,从而提高了泛化能力。02.3. 相机编码0很少有方法明确地编码相机外参以辅助视觉任务。Nerf[5,28,42]是一种流行的3D物体重建方法,直接将2D相机视角作为输入。2D视角(即俯仰角和偏航角)与物体点的3D位置连接,然后经过多层感知器网络处理。与此不同的是,我们的方法从地面平面学习了一个特定于相机俯仰角和相机高度的相机嵌入。这种嵌入在绝对3D人体姿态估计问题中很大程度上解决了歧义问题。03. 提出的方法0直观地说,准确的单目3D绝对姿态估计依赖于足够的歧义消除。我们的方法旨在通过关键点的归一化表示、时间卷积和相机嵌入来解决由相机内参参数变化、身体遮挡和相机姿态变化引入的歧义。在图2中,我们展示了提出的Ray3D框架的概述。为了消除内参参数变化的影响,将2D关键点转换为相机坐标系(CCS)中的3D射线。为了处理相机俯仰角变化,我们进一步将这些3D射线转换为(俯仰角)归一化坐标系(NCS)。同样,地面真实的3D姿态也被转换为NCS。通过这种方式,模型的输入和输出都对齐到相同的坐标系中。关键点的时间运动信息有助于解决由遮挡引入的3D姿态估计歧义[32,34]。根据[34]的方法,我们在时间上融合连续帧的3D射线,并对相对姿态射线进行编码以捕捉运动信息。与[34]不同的是,我们的Ray3D方法学习了一个相机嵌入,可以(隐式地)为绝对3D姿态估计提供强约束。具体来说,我们使用一个多层感知器网络来学习相机姿态表示的紧凑嵌入。然后,将该相机嵌入与潜在的3D射线特征连接起来进行姿态预测。这种新颖的设计在相机姿态和身体尺度变化方面大大提高了模型的鲁棒性。根据[32]的方法,我们将问题分解为两个子问题,即相对根姿态估计和根位置估计。这两个子问题分别由我们的姿态网络和轨迹网络解决。具体来说,姿态估计网络生成的相对3D姿态与轨迹网络预测的根关节点坐标相加。最后,人体姿态被反归一化。WCS𝑍Ground plane𝑍R!"#, 𝑇!"#R$"#, 𝑇$"#R$"!, 𝑇$"!CCSX𝑍YNCS𝑋𝑌XYoptical axis𝜃𝜃ℎPC = RW 2C · PW + TW 2C.(2)X𝑍Y𝜃LFEDLFEGFEDLFEGFEℎℎ𝜃131190图3.通过将相机坐标系沿着x轴旋转θ度,并沿着世界坐标系的z轴平移h距离,获得归一化相机坐标系。h是相机在WCS中的高度。这样,提升网络的输入和输出在相同的坐标系中对齐。0将其规范化为世界坐标系(WCS)03.1. 输入预处理0解耦内参0基于提升的3D姿态估计方法通过深度神经网络将预测的2D关键点{pi}Ji=1提升到3D关键点{PCi}Ji=1。pi = [xi,yi]表示输入图像坐标系中人体第i个关节的位置,PCi =[XCi, YCi,ZCi]表示相应的关节在CCS中的位置。J表示关节的索引。为了实现对相机内参变化的不变性,我们对{pi}Ji=1进行以下变换(如果需要,可以添加相机去畸变):0x射线i = x i − 0f x , y射线i = y i − c y0f y , z射线i = 1 . (1)0这样我们就得到了3D射线{prayi}Ji=1 = {[xrayi, yrayi,zrayi]}Ji=1。在公式1中,cx和cy代表相机中心点,fx和fy表示焦距。prayi是一条从相机的光学中心指向图像平面上关键点i的射线。与[4]不同,我们通过使用校准焦距明确地将射线表示规范化,完全消除了焦距的影响。与[9]相比,我们的3D射线转换为归一化射线在归一化坐标系(NCS)中,下一小节将对此进行简要讨论。0使用归一化坐标系(NCS)解耦外参0将世界、相机和归一化坐标系中的关键点分别定义为PW、PC和PN。通过准确的标定,可以获得相机的外参,包括旋转矩阵RW2C和平移向量TW2C。PW和PC之间的变换如下:0特征0增强0融合0相机嵌入网络0RIE网络03D关键点0当前姿态提取03D射线0局部特征编码器0全局特征编码器0D解码器0时间和位置增强表示0图4.我们的提升网络概览。我们的相对姿态估计和根关节估计网络共享相同的RIE架构。该网络配备了位置和时间增强表示。更多细节请参考[34]。基于MLP的相机嵌入作为插件用于生成嵌入特征,然后与潜在的射线特征连接以进行最终姿态预测。0本文旨在预测WCS中的绝对3D人体姿态。相机在3D世界中的姿态可以由其3D位置、俯仰角、偏航角和翻滚角确定。俯仰角θ描述相机光轴与地平面之间的角度。在假设相机的偏航角和翻滚角接近0的情况下,相机的俯仰角和相机的高度可以唯一确定相机的姿态,直到水平平移。为了明确地编码俯仰角以进行准确的姿态估计,我们设置了NCS,如图3所示。首先,CCS沿着x轴旋转以消除俯仰角。然后,坐标系沿着z轴平移到地平面上。可以轻松计算PC和PN之间的旋转矩阵和平移向量:0R C 2 N =0� 1 0 0 0 cos θ sin 0 -sin θ cos θ0�0�, (3)0T C 2 N = � 0 0 -h �. (4)0根据方程2、3和4,我们有:0R W 2 N = R C 2 N ∙ R W 2 C, (5)0T W 2 N = R C 2 N ∙ T W 2 C + T C 2 N, (6)0P N = R C 2 N ∙ P C + T C 2 N, (7)0P N = R W 2 N ∙ P W + T W 2 N. (8)0通过将方程7应用于{pray i} Ji =1和方程8应用于真实的3D关键点{PW i} Ji =1,我们可以得到归一化的3D射线{ˆpray i} Ji =1和归一化的3D真实值{PN i} Ji =1。因此,我们的Ray3D网络被训练为在相同的坐标系中从{ˆpray i} Ji = 1提升到{PN i} Ji =1,这减少了训练的难度并增加了模型的鲁棒性。1312003.2. 提升网络0绝对姿势估计0估计3D绝对人体姿势的任务由两个子问题组成,即根位置估计(即估计人体质心的位置)和根相对姿势估计(即每个关键点相对于质心的偏移)。我们设计了一个网络来同时学习解决这两个子问题,分别使用轨迹网络和姿势网络(参见图2)。这两个网络的输出被相加以产生绝对3D姿势。0时间运动信息提高了模型对身体遮挡的鲁棒性。受[34]的启发,我们采用RIE架构作为根相对姿势网络和轨迹网络的骨干网络。如图4所示,RIE网络通过位置和时间信息增强。输入关键点的相对位置被编码为帧内的位置信息,当前帧与相邻帧之间的2D姿势差异被视为时间信息。这样增强的输入被划分为5组(躯干、左臂、右臂、左腿和右腿)进行局部特征学习。此外,从当前帧提取全局特征以保持整体姿势的一致性。特征融合模块将所有这些特征聚合起来进行3D姿势估计。使用这种架构,我们用内在不变的归一化3D射线替换了普通的2D人体关键点作为姿势网络和轨迹网络的输入,以解决模糊性。关于RIE结构的详细信息,请参阅[34]。请注意,本文的贡献不在于具体的网络设计,而在于输入表示和相机外参参数的显式嵌入。这种新颖的设计可以轻松地融入现有的姿势估计框架中。0相机嵌入0我们认为相机外参参数对于WCS中的绝对姿势估计至关重要,并提出通过学习独立的相机嵌入来明确利用外参参数,其中θ和h作为输入通过多层感知机构建相机嵌入模块。具体来说,相机嵌入模块由两个全连接层构成,后面跟着批量归一化[14]、修正线性单元[30]和Dropout[36]。如图4所示,这个相机嵌入与相对姿势预测和轨迹网络中的时间融合的潜在3D射线特征进行连接。因此,两个网络都利用相机外参参数进行鲁棒和准确的姿势估计。04. 实验和结果0本节报告了使用不同实验设置的提出方法的评估结果。首先,介绍数据集和评估指标在第4.1节中,然后在第4.2节中描述实现的细节。第4.3节展示了我们的Ray3D与其他三个公共基准测试上的最新技术的比较。然后,在第4.4节中描述了在合成数据集上的泛化测试结果。此外,在第4.5节中通过消融研究分析了Ray3D的组成部分的有效性。最后,在第4.6节中讨论了Ray3D的局限性。04.1. 数据集和评估指标0我们在三个公共数据集上评估了我们的Ray3D,这些数据集采用了不同的相机姿势和人体姿势。所有数据集都提供了相机的内参和外参。以下数据集包含有关人类主体的个人可识别信息。这些数据集中的所有主体都已经同意创建数据集。Human3.6M(H36M)[15]是一个大规模的3D人体姿势估计数据集,其中包含了使用四个同步相机记录的360万帧视频。根据之前的工作[32,48],使用了五个主体(S1,S5,S6,S7,S8)和两个主体(S9,S11)的17个关键点定义作为训练和测试数据,用于与SOTA进行比较。Humaneva-I[35]是一个与H36M相比较小的数据集,它是在受控的室内环境中使用三个相机拍摄的。由于需要良好校准的内参和外参,所以移除了相机2和相机3。MPI-INF-3DHP(3DHP)[27]包含了130万帧视频,涵盖了比Human3.6M更多样化的人体动作。根据之前的工作[12],使用了来自相机0、1、2、4、5、6、7和8的17个关节的姿势进行训练。采用了TS1、TS3和TS4作为测试集。由于相机校准不准确或不完整,TS2、TS5和TS6被排除在外。在我们的实验中,我们采用以下评估指标:使用毫米为单位的平均关节位置误差(MPJPE)用于评估根相对姿势估计结果。为了评估绝对姿势的性能,采用了绝对MPJPE(Abs-MPJPE),它计算了预测姿势与GT姿势在WCS中的差异。使用[4]提出的根位置误差均值(MRPE)评估根关节的轨迹预测。04.2. 实现细节0对于我们的Ray3D方法,相机嵌入的维度设置为64。初始学习率为0.001。采用Adam优化器,指数学习率衰减因子为0.99。在训练和测试中都采用了水平翻转增强。对于H36M数据集,我们采用了级联金字塔网络(CPN)[7]检测到的姿势和GT 2D姿势作为输入。至于Humaneva-I和3DHP,只使用了GT 2D姿势。MPJPEDir.Disc.Eat.GreetPhonePhotoPosePurch.SitSitD.SomkeWaitWalkD.WalkWalkT.AverageHossain et al. [13]ECCV’1835.240.837.237.443.244.038.935.642.344.639.739.740.232.835.539.2Liu et al. (f = 243) [25].CVPR’2034.537.133.634.232.937.139.635.840.741.433.033.833.026.626.934.7Videopose. (f = 9) [32]CVPR’1937.040.735.237.438.444.242.337.146.548.838.940.138.529.932.639.2PoseFormer (f = 9) [48]ICCV’2149.249.738.742.740.040.950.742.247.046.143.446.739.836.438.043.5PoseAug (f = 1) [12]CVPR’21---------------38.2RIE (f = 9) [34]ACMMM’2134.838.231.134.435.437.238.332.839.541.334.935.632.927.128.034.8Ray3D (f = 9)31.235.731.433.635.037.537.230.942.541.334.636.532.027.728.934.4Abs-MPJPEDir.Disc.Eat.GreetPhonePhotoPosePurchSitSitD.SomkeWaitWalkD.WalkWalkT.AverageVideopose (f = 9) [32]CVPR’19128.9125.4124.4138.2108.2155.5116.6101.1135.8287.6128.6130.9122.1101.6110.7134.4PoseLifter (f = 1) [4]ICCV’19140.9113.2139.9148.2122.0155.3121.5121.1170.0267.6139.2142.9146.4132.1135.2146.4PoseFormer (f = 9) [48]ICCV’21112.6137.1117.6145.8113.0166.0125.5113.8128.8245.7122.7144.8125.0118.9129.3136.5RIE (f = 9) [34]ACMMM’21143.2133.2143.9142.7110.9151.4125.998.4136.4273.4127.5138.9126.8107.3116.0138.4Ray3D (f = 1)80.1100.8123.8125.5110.7111.896.199.3129.4176.3106.8129.2120.4109.1106.6.115.1Ray3D (f = 9)92.997.4139.8118.6113.8105.984.574.9148.6165.7116.6113.998.283.687.9109.5MRPEDir.Disc.Eat.GreetPhonePhotoPosePurch.SitSitD.SomkeWaitWalkD.WalkWalkT.AverageVideopose. (f = 9) [32]CVPR’19124.2115.9111.0127.397.6141.9105.796.4122.0276.5119.6123.3111.394.0101.6124.6PoseLifter (f = 1) [4].ICCV’19134.7102.3126.9135.7109.9138.5110.7110.9170.0252.4128.4133.9139.4121.6124.4135.1PoseFormer (f = 9) [48]ICCV’21104.7134.7103.9137.499.6154.6119.8108.9108.2233.7111.1141.1116.2117.9123.8127.7RIE (f = 9) [34]ACMMM’21139.1124.5129.9133.199.2141.4116.393.5124.0265.9118.4131.3117.1100.4109.2129.6Ray3D (f = 1)67.391.7113.6111.8104.596.385.894.6124.4161.797.6119.5110.9100.994.8105.0Ray3D (f = 9)83.786.8128.9104.8109.391.675.065.2143.9150.5108.6105.788.473.977.899.6131210表1. 使用GT关键点作为输入在H36M上的MPJPE定量评估结果。(f = 9)表示该方法使用了9个连续帧进行姿势估计,(f =1)表示该方法不使用时间信息。最佳结果以粗体显示。0表2. 使用CPN检测到的关键点作为2D输入在H36M上的Abs-MPJPE和MRPE定量评估结果。最佳结果以粗体显示。0在训练和测试中都采用了指数学习率衰减因子为0.99的优化器。在H36M数据集中,我们采用了级联金字塔网络(CPN)[7]检测到的姿势和GT2D姿势作为输入。至于Humaneva-I和3DHP,只使用了GT2D姿势。04.3. 在公共基准上的评估0在本节中,我们首先在H36M上将我们的Ray3D与最先进的方法进行了比较,然后通过跨数据集测试评估了这些方法的泛化能力。比较的方法包括最新的PoseFormer[48],Videopose [32],PoseLifter [4]和RIE[34]。请注意,PoseLifter是为绝对姿势估计而设计的。与Videopose和PoseLifter不同,PoseFormer和RIE都无法进行绝对姿势估计。为了测试它们的根关节定位能力,我们使用它们自己的网络结构为它们配备了一个轨迹模型。为了公平比较,我们使用它们提供的源代码在PyTorch[31]下重新训练了PoseFormer,Videopose,PoseLifter和RIE。H36M评估表1显示了专注于根相对姿势预测的方法在使用地面真实2D关键点作为输入时的性能。从表中可以看出,我们的Ray3D与SOTA方法相比取得了可比较的结果。具体而言,MPJPE超过RIE [34]0.4mm。表2显示了使用H36M数据集上的CPN[7]检测到的2D姿势的绝对姿势估计结果。可以看出,Ray3D在Abs-MPJPE和MRPE方面的性能均优于所有SOTA方法,并且差距明显。与RIE相比,我们的方法将Abs-MPJPE分别降低了28.9mm和MRPE降低了30.0mm。值得注意的是,Ray3D的性能优于PoseLifter0当不使用时间信息时,Abs-MPJPE下的误差为31.3mm。这些结果表明Ray3D是有效的,并且能够生成更准确的绝对3D位置。在这四种基准方法中,使用单帧的PoseLifter表现最差。而使用9帧的Ray3D超过了使用单帧的Ray3D。这验证了使用时间特征进行3D姿势估计的好处。另一个有趣的观察是,这些基准方法在MRPE方面表现相似。这表明网络结构设计不是绝对姿势估计的关键因素,而输入表示和相机嵌入是准确的关键点定位的关键。跨数据集测试我们在3DHP数据集上训练比较模型,并使用H36M和Humaneva-I进行评估。在跨数据集测试期间,所有数据集都使用14关节定义。对于H36M和3DHP,我们删除了中间脊柱、颈部和下巴关键点。至于Humaneva-I,原始的15个关节中删除了胸部关键点。如表3所示,在跨场景情况下,没有一个基准方法表现良好,而Ray3D在Humaneva-I和3DHP数据集中表现良好。这是因为不同场景之间的相机内部和外部差异很大。我们的Ray3D方法明确地将外部因素(即相机俯仰和相机高度)作为输入来学习相机嵌入,从而提高了泛化能力。04.4. 在合成数据集上的评估0在本节中,我们进行了深入的系统实验,以评估3D姿势估计器对相机内部、相机旋转(偏航)、相机俯仰、相机平移和人体尺度变化的鲁棒性。11000444680245658PoseFormerRIEVideoposeRay3DRay3D_w/o_CE11000150005000350PoseFormerRIEVideoposeRay3DRay3D_w/o_CE131220表3.跨数据集评估。我们在3DHP数据集上进行14关节骨架训练,然后在H36M、Humaneva-I和3DHP数据集上进行测试。报告MPJPE、Abs-MPJPE和MRPE。所有数字的单位为毫米。最佳结果0方法 \ 数据集 H36M HumanEva-I 3DHP0MPJPE Abs-MPJPE MRPE MPJPE Abs-MPJPE MRPE MPJPE Abs-MPJPE MRPE0Videopose(f = 9)[32] 81.2 1680.3 1686.6 86.2 1387.4 1387.1 58.2 149.1 143.0 PoseFormer(f = 9)[48] 97.8 1824.0 1818.9104.7 1470.4 1452.0 47.3 207.5 211.3 PoseLifter(f = 1)[4] 92.9 573.3 570.5 240.2 1263.0 1129.3 76.7 147.8 133.6 RIE(f =9)[34] 91.2 1679.9 1673.0 92.0 1375.8 1369.5 50.9 135.6 132.4 CDG(f = 1)[40] 95.6 - - - - - 90.3 - - Ray3D(f = 9)84.4243.9 246.7 83.9 477.8 468.6 46.6 103.3 95.30焦距(以像素为单位)0MPJPE0(a)0焦距(以像素为单位)0MRPE0(b)0图5.在焦距变化下,MPJPE和MRPE的性能分别在(a)和(b)中绘制。x轴表示虚拟相机的焦距(以像素为单位)。0评估合成数据集中3D姿势估计器对相机内部、相机旋转(偏航)、相机俯仰、相机平移和人体尺度变化的影响。我们使用H36M的相机进行相机增强。合成后,模拟相机的焦距范围从1100到1180,而训练数据的焦距范围从1143到1150。相机旋转范围从0到360度。相机俯仰范围从0到40度。相机平移范围从9到14米。人体肢体的总长度范围从2.5到4.5米(大致上,人的身高范围从1到2米)。具体而言,我们生成了100个具有固定外部参数的虚拟相机进行内部泛化测试,并生成了126个具有固定内部参数的虚拟相机进行外部泛化测试。我们还额外模拟了324个相机进行训练。请注意,训练和测试相机姿势不重叠。我们使用了五个主体(S1、S5、S6、S7、S8)和两个主体(S9、S11)进行训练和测试,关节定义为14个。训练和测试的相机增强设置详见补充材料。为了评估相机嵌入的有效性,我们添加了一个名为Ray3D w/oCE的新基准线,其中移除了Ray3D的相机嵌入分支。内部泛化为了验证方法对相机内部变化的鲁棒性,我们改变了具有固定分辨率的相机的焦距。如图5(a)和(b)所示,焦距的变化对VideoPose、PoseFormer和RIE在MPJPE和MRPE指标下产生不同程度的影响。例如,仅有4%的焦距变化,基准方法的MRPE增加超过50%。相反,Ray3D和Ray3D w/oCE都能够稳定地得到结果。这个结果清楚地展示了我们基于射线的输入表示的优点。外部泛化为了评估相机外部因素的影响0为了研究外参变化对模型泛化性能的影响,我们分别改变相机姿态的旋转、俯仰角度和平移。需要注意的是,平移是通过相机与目标之间的欧几里得距离来衡量的。此外,我们为根关节定位设计了一种新的基准方法。具体来说,我们使用H36M数据集中的被试者的平均身高(93.95厘米)来估计根关节的高度。根据这个高度假设,我们可以沿着根关节的3D射线定位根关节。我们将这种方法称为射线固定根高度(RFRH)。为了评估模型对旋转变化的鲁棒性,我们围绕场景中心旋转相机,同时保持相机高度和相机俯仰角度不变。如图6(a)和图7(a)所示,Ray3D在MPJPE和MRPE上的表现均远远优于基准方法,这表明Ray3D不仅能够准确地在世界坐标系中定位关节,还能够稳健地估计根关节的相对姿态。Ray3D w/oCE的结果比RIE更好,这表明归一化射线表示法比普通的2D关键点更有效。在基准方法中,基于学习的方法的结果比RFRH更好。这表明学习方法确实通过数据驱动的方式在一定程度上解决了模糊性问题。由于在评估数据集中违反了根关节高度假设,RFRH的性能较差。例如,当被试者坐在地板上时,根关节的高度可能接近于0。为了评估模型对相机俯仰角变化的鲁棒性,我们改变相机的俯仰角度,同时保持相机与目标之间的距离不变。如图6(b)和图7(b)所示,Ray3D在MRPE和MPJPE上在所有俯仰角度上均优于基准方法。类似地,为了评估模型对相机平移的鲁棒性,我们生成一批相机,保持相机的俯仰角度不变,逐渐改变与被试者之间的距离。如图6(c)和图7(c)所示,基准方法在相机远离被试者时性能下降。相反,Ray3D取得了令人满意的结果。人体尺度的泛化性为了验证模型对人体尺度模糊性的鲁棒性,我们将H36M数据集中的人体姿势的骨骼长度调整为0.6-1.1倍,类似于PoseAug[12]。实验结果如图6(d)和7(d)所示。当身体尺寸较小时,所有对比方法的准确性明显下降。例如,对于最小的身体形状,PoseFormer、RIE和Videopose的MRPE达到了4米,甚至高于基于规则的RFRH。Ray3D的MRPE增加到800毫米,仍然比基准方法好得多。通过对合成数据集进行这些系统实验,我们可以得出以下结论。通过将2D关键点转换为归一化射线,我们的Ray3D和Ray3D w/oCE在相机内参变化的情况下均能稳定准确地工作。通过添加相机嵌入,Ray3D在大多数测试情况下明显优于Ray3D w/oCE,除了图7(c)中的一些相机设置。这验证了相机嵌入对于根关节相对姿态估计和根关节绝对定位的有效性。3540505560PoseFormerRIEVideoposeRay3DRay3D_w/o_CE035.037.50.02.55.07.550.052.5PoseFormerRIEVideoposeRay3DRay3D_w/o_CE37.540.02.55.07.50.052.555.0PoseFormerRIEVideoposeRay3DRay3D_w/o_CE4060800020140160PoseFormerRIEVideoposeRay3DRay3D_w/o_CE1002000000500600PoseFormerRIEVideoposeRay3DRay3D_w/o_CERFRH010203PoseFormerRIEVideoposeRay3DRay3D_w/o_CERFRH1002000000500600PoseFormerRIEVideoposeRay3DRay3D_w/o_CERFRH010000000004000PoseFormerRIEVideoposeRay3DRay3D_w/o_CERFRHRIE���1079.2RIE w IND���448.9Ray3D w/o CE���311.6Ray3D���307.4131230相机旋转角度0MPJPE0(a)0相机俯仰角度0MPJPE0(b)0欧几里得距离(以米为单位)0MPJPE0(c)0肢体长度(以米为单位)0MPJPE0(d)0图6.图(a)、(b)、(c)和(d)展示了在旋转、相机俯仰、平移和身体尺度变化情况下使用MPJPE指标的性能。x轴分别表示相机旋转角度、相机俯仰角度、相机与目标之间的欧几里得距离(以米为单位)和人体肢体的总长度(以米为单位)。0相机旋转角度0MRPE0(a)0相机俯仰角度0MRPE0(b)0欧几里得距离(以米为单位)0MRPE0(c)0肢体长度(以米为单位)0MRPE0(d)0图7.图(a)、(b)、(c)和(d)展示了在旋转、相机俯仰、平移和身体尺度变化情况下使用MRPE指标的性能。x轴分别表示相机旋转角度、相机俯仰角度、相机与目标之间的欧几里得距离(以米为单位)和人体肢体的总长度(以米为单位)。0为了研究模型对人体尺度模糊性的鲁棒性,我们将H36M数据集中的人体姿势的骨骼长度调整为0.6-1.1倍。实验结果如图6(d)和7(d)所示。当身体尺寸较小时,所有对比方法的准确性明显下降。例如,对于最小的身体形状,PoseFormer、RIE和Videopose的MRPE达到了4米,甚至高于基于规则的RFRH。Ray3D的MRPE增加到800毫米,仍然比基准方法好得多。通过对合成数据集进行这些系统实验,我们可以得出以下结论。通过将2D关键点转换为归一化射线,我们的Ray3D和Ray3D w/oCE在相机
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Google Test 1.8.x版本压缩包快速下载指南
- Java实现二叉搜索树的插入与查找功能
- Python库丰富性与数据可视化工具Matplotlib
- MATLAB通信仿真设计源代码与应用解析
- 响应式环保设备网站模板源码下载
- 微信小程序答疑平台完整设计源码案例
- 全元素DFT计算所需赝势UPF文件集合
- Object-C实现的Flutter组件开发详解
- 响应式环境设备网站模板下载 - 恒温恒湿机营销平台
- MATLAB绘图示例与知识点深入探讨
- DzzOffice平台新插件:excalidraw白板功能介绍与使用指南
- Java基础实训教程:电子商城项目开发与实践
- 物业集团管理系统数据库设计项目完整复刻包
- 三五族半导体能带参数计算器:精准模拟与应用
- 毕业论文:基于SSM框架的毕业生跟踪调查反馈系统设计与实现
- 国产化数据库适配:人大金仓与达梦实践教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功