多模态变分自动编码器用于基于RGB的手部姿势估计

148 浏览量更新于2023-10-16 收藏 12.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Aligning Latent Spaces for 3D Hand Pose EstimationLinlin Yang∗1, Shile Li∗2, Dongheui Lee2,3, Angela Yao4∗Equal contribution1University of Bonn, Germany 2 Technical University of Munich, Germany3German Aerospace Center, Germany 4National University of Singapore, SingaporeAbstractHand pose estimation from monocular RGB inputs is ahighly challenging task. Many previous works for monocu-lar settings only used RGB information for training despitethe availability of corresponding data in other modalitiessuch as depth maps. In this work, we propose to learn ajoint latent representation that leverages other modalitiesas weak labels to improve RGB-based hand pose estimation.By design, our architecture is highly ﬂexible in embeddingvarious diverse modalities such as heat maps, depth mapsand point clouds. In particular, we ﬁnd that encoding anddecoding the point cloud of the hand surface can improvethe quality of the joint latent representations. Experimentsshow that with the aid of other modalities during training,our proposed method boosts the accuracy of RGB-basedhand pose estimation systems and signiﬁcantly outperformsstate-of-the-art on two public benchmarks.1. IntroductionHand pose estimation plays an important role in areassuch as human activity analysis, human computer interac-tion, and robotics. Depth-based 3D hand pose estimationmethods are now highly accurate [25, 10, 28] largely dueto advancements from deep learning. Despite commoditydepth sensors being more commonplace, high-quality depthmaps can still only be captured indoors, thereby limitingthe environments in which depth-based methods can be de-ployed. Furthermore, simple RGB cameras, as well as ex-isting RGB footage are still far more ubiquitous than depthcameras and depth data. As such, there is still a need foraccurate RGB-based 3D hand pose estimation methods, es-pecially from monocular viewpoints.To tackle the ambiguities associated with monocularRGB inputs, previous works have relied on large amounts oftraining data [31, 12]. Gains from purely increasing datasetsize tend to saturate, because it is very difﬁcult to obtainaccurate ground truth labels, i.e. 3D hand poses. Anno-tating 3D hand joint positions accurately is a difﬁcult taskFigure 1: Latent space interpolation. The far left and far rightcolumns (dashed boxes) are generated poses and point clouds frommonocular RGB images sampled from the training data. Othercolumns are generated from linear interpolations on the latentspace. The smoothness and consistency imply that different cross-modal latent spaces can be embedded and aligned into one sharedlatent space.23350人类注释者之间往往很难达成共识[20]。虽然已经开发了几种生成RGB图像的方法[12]，但合成数据与真实世界数据之间仍存在很大的领域差距，限制了合成数据的实用性。尽管准确的RGB数据的真实标签很难收集，但存在大量未标记的RGB-D手部数据，可以与标记的深度图一起利用。Cai等人首次提出使用标记的深度图作为正则化器来提升基于RGB的方法[2]。Yang等人引入了一种解耦表示，使视点可以用作弱标签[27]。受到这些工作的启发，我们旨在利用多模态作为弱标签来增强基于RGB的手部姿态估计。在本文中，我们考虑手部数据的不同模态（例如RGB图像、深度图、点云、3D姿态、热图和分割掩模），并将基于RGB的手部姿态估计形式化为跨模态推理问题。具体而言，我们提出使用多模态变分自动编码器（VAE）。VAE是一种吸引人的深度生成模型，可以在大规模、高维度的数据集上进行学习。它们已经被证明可以捕捉多个模态之间的高度复杂的关系[21,24,26]，并且过去也已经应用于基于RGB的姿态估计[19,27]。然而，[19]和[27]都学习了一个共享的单一潜空间，因此必须在姿态重建精度上做出妥协。在本文中，我们提出了对齐来自各个模态的潜空间。具体而言，我们为三种不同的模态（即3D姿态、点云和热图）推导出不同的目标，并展示了两种不同的方法来对齐它们的关联手部潜空间。虽然这种解决方案可能不如直接学习一个共享的潜空间那样优雅，但它具有几个实际优势。首先，它收敛速度更快，并且产生一个结构良好的潜空间；相比之下，[19]的多模态共享潜空间在从多个模态中提取数据时往往会波动。此外，通过对齐进行的学习方案在处理非对应数据和弱监督方面更加灵活。由此产生的潜在表示允许从单眼RGB图像中估计高精度的手部姿态和合成逼真的手部表面点云（见图1）。本文的主要贡献如下：tive class of deep generative models which can be learnedon large-scale, high-dimensional datasets. They have beenshown to capture highly complex relationships across mul-tiple modalities [21, 24, 26] and have also been applied toRGB-based pose estimation in the past [19, 27]. However,both [19] and [27] learn a single shared latent space and asa result must compromise on pose reconstruction accuracy.In this work, we propose to align latent space from in-dividual modalities. More speciﬁcally, we derive differentobjectives for three diverse modalities, namely 3D poses,point clouds, and heat maps, and show two different waysto aligning their associated hand latent spaces. While sucha solution may appear less elegant than learning one sharedlatent space directly, it is has several practical advantages.First and foremost, it is much faster to converge and re-sults in a well-structured latent space; in comparison, themultimodal shared latent space of [19] tends to ﬂuctuateas one draws data from the multiple modalities. Addition-ally, the learning scheme through alignment offers moreﬂexibility in working with non-corresponding data and alsoweak supervision. The resulting latent representation al-lows for estimating highly accurate hand poses and synthe-sizing realistic-looking point clouds of the hand surface, allfrom monocular RGB images (See Fig. 1).The main contributions of this paper are as follows:23360•我们将基于RGB的手部姿势估计形式化为多模态学习，跨模态推理问题，并提出了三种策略，用于学习来自不同模态的不同手部输入。0•我们探索了非传统输入，如点云和热图，用于学习潜在的手部空间，并展示了它们如何用于提高基于RGB的手部姿势估计系统的准确性。我们的框架的一个副产品是我们可以从RGB图像中合成逼真的手部点云。0•通过在两个公开可用的基准测试上进行评估，我们展示了我们提出的框架在训练过程中充分利用了辅助模态，并提高了RGB姿势估计的准确性。我们估计的姿势超过了单目RGB基于手部姿势估计的最先进方法，包括在具有挑战性的RHD数据集[31]上的惊人改进19%。02. 相关工作0根据生成方法或判别方法的不同，可以将手部姿势估计方法分为两类。生成方法使用手部模型，并使用优化方法将手部模型拟合到观察结果中。0[17，14，22]。它们通常需要良好的初始化；否则它们容易陷入局部最小值。判别方法学习从视觉观察到手部姿势的直接映射[23，27，10，13，31，2]。由于大规模注释数据集[31，29，23]，基于深度学习的判别方法在手部姿势估计任务中表现出非常强大的性能。0特别是使用深度或3D数据作为输入的方法最准确。Oberweger等人[13]使用2DCNN从深度图像中回归手部姿势，使用瓶颈层将姿势预测规范化到特定的先验分布。Moon等人[11]使用3D体素作为输入，并使用3DCNN回归手部姿势。最近的研究[10，5]将3D点云作为输入，可以估计非常准确的手部姿势。0在训练或测试中，并不总是有3D数据可用。一些最近的研究开始探索使用单目RGB数据。例如，Zimmermann等人[31]从RGB图像中回归每个手部关键点的热图，然后使用全连接层从这些热图回归3D手部姿势。Mueller等人[12]采用类似的方法，但通过使用运动骨骼模型来拟合预测热图的概率分布来获得最终的3D手部姿势。0最近的单目RGB方法利用深度信息进行训练[2，19]，尽管测试仅使用RGB图像。我们提出的方法也属于这一领域。Cai等人[2]提出了一个额外的解码器，用于从对应姿势生成深度图，以规范学习基于RGB的姿势估计系统。这个架构本质上是两个独立的网络，共享一个手部姿势层。然而，这个共享层无法利用没有姿势注释的数据。Spurr等人[19]提出了一种基于VAE的方法，从RGB和深度图像中学习手部姿势的共享潜在空间。然而，它从不同模态的交替训练策略忽略了相应数据的可用性，并导致收敛速度较慢。03. 方法论0跨模态方法的目标是捕捉不同模态之间的关系，以便在观察到某些其他模态的情况下获取目标模态的信息。在本节中，我们首先介绍跨模态VAE（CrossVAE）[15，19]及其扩展，以处理来自多个模态的输入和输出（第3.1节）。然后，我们介绍两种潜在空间对齐操作策略（第3.2节）以及它们如何应用于基于RGB的手部姿势估计（第3.3节）。log p(y, w1) ≥ ELBOcVAE(x, w1; y, w1; φx,w1, θy, θw1)=Ez∼φx,w1log pθy(y|z) + λw1Ez∼φx,w1log pθw1 (w1|z)wiwizxwizwizx3.2. Latent Space AlignmentAn alternative solution is to learn qφx,w1(z|x,w1) andqφx(z|x) jointly and ensure that they correspond, i.e. areequivalent, by aligning the two distributions together. Notethat equivalence between the two distributions follows natu-rally from our originally assumption that x, y and wi are allconditionally independent given z. Inspired by multimodallearning work of [1], we propose joint training objectives toalign the latent spaces learned from single modalities to theone learned with joint modalities to improve inference ca-pabilities. More speciﬁcally, we would like to align zx (thelatent representation learned only from x), with the joint la-tent representation zjoint learned from both x and w so asto leverage the modalities of w. One can also regard thisas bringing together qφx,w1(z|x,w1) and qφx(z|x) as close aspossible.KL divergence Loss. An intuitive way of aligning onelatent space with another is to incorporate an additional lossterm to reduce the divergence between qφx,w1(z|x,w1) andqφx(z|x). This was ﬁrst proposed by [21] for handling miss-ing data from input modalities in multimodal setting. Whilewe have no missing data in our cross-modal setting, weintroduce a similar KL-divergence term DKL with hyper-233703.1. 交叉模态VAE及其扩展0给定来自某个输入模态的数据样本x，交叉模态VAE旨在通过最大化证据下界（ELBO）来估计其对应的目标值 y，其中使用了潜在变量 z。0log p ( y ) ≥ ELBO cVAE ( x ; y ; θ, φ ) (1) = E z � q φ log p θ ( y | z ) − βD KL ( q φ ( z | x ) || p ( z )) .0这里，D KL ( ∙ )是Kullback-Leibler散度。β是由[8]引入的超参数，用于平衡潜在空间容量和重构准确性。p ( z ) = N ( 0 , I )是潜在变量 z 上的高斯先验。变分近似 q φ ( z | x ) 是从 x到 z 的编码器，p θ ( y | z ) 是从 z 到 y的解码器或推理网络。除了 x 和 y，我们假设还有来自 N个其他模态 { w 1 , . . . , w N }的相应数据，并且这些模态在给定潜在表示 z的条件下是条件独立的。为了清晰起见，我们将推导限制在N =1 的情况下，但理论也适用于更高的N。为了编码这些额外的模态，我们可以扩展公式1中的ELBO如下：0− βD KL � q φ x , w 1 ( z | x , w 1 ) || p ( z ) � , (2)0其中 λ w 1 是一个调节 w 1 和 y之间重构准确性的超参数。原始交叉模态VAE及其扩展的图形模型如图2a和图2b所示。我们预期从公式2中的变分近似q φ ( z | x , w 1 ) 中采样的 z 比从公式1中的 q φ ( z | x )中采样的 z 更具信息量，因为它是在 z 和 w 1的条件下进行采样的。此外，解码器 p θ w 1的期望项可以被视为一个正则化项，防止潜在空间过度拟合到 y 的模态。从现在开始，我们将 z joint 定义为公式2中的z。注意，公式2假设始终可用来自模态 x、w 1的相应数据。虽然这对于训练是一个合理的假设，即具有相应的0算法1：带有一个编码器的扩展交叉模态。0要求：x，y，w 1，T 确保：φx，θ y，θ w 1 1：初始化 φx，θ y，θ w 1 2：对于 t =1，...，T 个时期 3：将 x04: 将 z x 解码为 p θ x ( y | z x ) , p θ w 1 ( w 1 | z x ) 5:通过最大化 ELBO cVAE ( x ; y , w 1 ; φ x , θ y , θ w 1 )的梯度上升来更新 φ x , θ y , θ w 1 6: 结束循环0x0z0y0z0y0x0N0z0y0x0N0z0y0x0N0(a) (b) (c) (d)0图2：图形模型。 (a) 交叉模态；(b) 扩展交叉模态；(c)带有KL散度损失的潜在对齐；(d)带有高斯专家乘积的潜在对齐。阴影节点表示观测变量，未阴影节点表示潜在变量。红色和黑色实线分别表示变分近似 q φ或编码器，生成模型 p θ或解码器。虚线表示将交叉模态潜在空间嵌入到共享潜在空间的操作；对于(c)是KL散度优化，对于(d)是高斯专家乘积。最佳观看颜色。0来自多种模态的数据样本，这严重限制了适用性。0一种可能性是简化编码器，只接受来自 x的输入，这样公式2简化为 ELBO cVAE ( x ; y , w 1 ; φ x ,θ y , θ w 1 )。相关算法如Alg.1所示。请注意，这会降低潜在空间的丰富性，从而降低解码能力。parameter β′ to align the latent spaces.L(φx,w1,φx, θy, θw1)(3)= ELBOcVAE(x, w1; y, w1; φx,w1, θy, θw1)+ ELBOcVAE(x; y, w1; φx, θy, θw1)− β′DKL�qφx,w1 (zjoint|x, w1)||qφx(zx|x�).Note that the decoders θy, θw1 are shared in the above EL-BOs in Eq. 3. This implicitly forces zjoint and zx to be em-bedded to the same space (see Fig. 2c and Alg. 2).The above formulation suffers from two major draw-backs on the encoding side. Firstly, as the number of modal-ities or N increases, the joint encoder qφx,w1 becomes dif-ﬁcult to learn. Secondly, with only the two encoders qφxand qφx,w1 , we are not able to leverage data pairs (w1,y).To overcome these weaknesses, we introduce the productof experts (PoE) as an alternative form of alignment.Product of Gaussian Experts. It was proven in [26]that the joint posterior is proportional to the product of in-dividual posteriors, i.e. q(z|x, w1) ∝ p(z)q(z|x)q(z|w1).To that end, we can estimate the joint latent representationfrom unimodal latent representations. Recall that in the for-mulation of the VAE, both p(z) and q(z|·) are Gaussian; assuch, we arrive at q(z|x, w1) through a simple product ofGaussian experts, q(z|x) and q(z|w1) [3, 26] (see model inFig. 2d). With the help of shared decoders, we arrive at ajoint latent representation through the following objective:L(φx, φw1, θy, θw1) = ELBOcVAE(x; y, w1; φx, θy, θw1)+ ELBOcVAE(w1; y, w1; φw1, θy, θw1)(4)+ ELBOcVAE(x, w1; y, w1; φx, φw1, θy, θw1)= Ezx∼qφx log pθ(y, w1|zx) + Ezw1∼qφw1 log pθ(y, w1|zw1)+ Ezjoint∼GProd(zx,zw1) log pθ(y, w1|zjoint)− β(DKL (qφ(zx|x)||p(z)) + DKL (qφ(zw1|w1)||p(z))),where the GProd(·) is the product of Gaussian experts. Notein this formulation, we do not need a joint encoder φx,w1for x and w1 as was the case for alignment with KL diver-gence in Eq. 3. Instead, we use q(z|x) and q(z|w1) as twoGaussian experts. Suppose that q(z|x) = N(µ1, Σ1) andq(z|w1) = N(µ2, Σ2). The product of two Gaussian ex-perts is also Gaussian with mean µ and covariance Σ, where23380µ = ( µ1T1 + µ2T2 ) / ( T1 + T2 ) ，以及 (5)0σ = 1 / ( T1 + T2 ) ，其中 T1 = 1 / Σ1，T2 = 1 / Σ2。 (6)0高斯专家乘积中的所有操作都是逐元素进行的。通过这种方式，我们可以建立起z joint和z x、zw1之间的连接，将它们全部置于一个共享的潜在空间中。这种对齐策略比算法2更加灵活，因为不同模态的编码器可以分别训练，甚至可以来自不同的数据集，而对于算法2，联合编码器必须在完整的x、w1对上进行训练。学习算法可以在算法3中找到。03.3. 应用于手部姿态估计0在基于RGB的手部姿态估计中，x代表RGB图像，y代表3D手部姿态。其他模态，如热图、深度图、点云和分割掩码可以在训练过程中用作w以提高对RGB输入的潜在空间学习，从而实现更准确的手部姿态估计。在本文中，我们使用点云（C）和热图（H）作为额外的模态w，以改善从RGB到3D姿态的跨模态推断。在本文的其余部分，我们使用“A2B”格式表示从输入模态“A”估计目标模态“B”。例如，R2CHP表示从RGB输入估计点云、热图和3D姿态。请注意，除非另有说明，测试设置使用RGB图像作为源模态或输入，3D手部姿态作为目标模态或输出。04. 实现细节04.1. 数据预处理和增强0算法2 使用方程3进行潜在对齐。0要求：x，y，w1，T 确保：φ x，φ x，w1，θ y，θ w11：初始化 φ x，φ x，w1，θ y，θ w1 2：对于 t =1，...，T个epochs执行 3：将 x 编码为 q φ x ( z x | x )4：将 x，w1 编码为 q φ x，w1 ( z joint | x，w1 ) 5：将 zx 解码为 p θ x ( y | z x )，p θ w1 ( w1 | z x ) 6：将 z joint解码为 p θ x ( y | z joint )，p θ w1 ( w1 | z joint )7：构建 D KL ( q φ x，w1 ( z joint | x，w1 ) || q φ x ( z x| x )) 8：通过梯度上升法更新 φ x，φ x，w1，θ y，θ w1的值，使其符合方程309: 结束循环0算法3 使用方程4进行潜在对齐。0要求：x，y，w1，T 确保：φ x，φw1，θ y，θ w1 1：初始化 φ x，φw1，θ y，θ w1 2：对于 t =1，...，T个epochs执行 3：将 x 编码为 qφ x ( z x | x ) 4：将 w1 编码为 q φ w1 (z w1 | w1 ) 5：构建 z joint = GProd ( zx06：将 z x，z w1，z joint 解码为 p θ x ( y |∙ )，p θ w1 (w1 |∙ )，分别 7：通过梯度上升法更新 φ x，φ w1，θy，θ w1 的值，使其符合方程408: 结束循环23390使用提供的相机内参将点云转换为点云。对于每个训练步骤，随机抽样不同的256个点作为训练输入。视点校正。在从RGB图像中裁剪出手部后，图像中的手部中心从一些任意坐标移动到图像的中心。因此，必须旋转3D手部姿态和相关的点云，使其观察角度与光轴对齐。如[10]所示，这种校正是为了消除多对一的观测-姿态配对。我们遵循[10]中给出的方法。有关视角校正的详细方程可以在补充材料中找到。数据增强是在训练过程中在线进行的。图像的缩放在[1，1.2]之间随机进行，平移[-20，20]像素，围绕相机视角轴旋转[-π，π]。此外，图像的色调随机调整[-0.1，0.1]。点云围绕相机视角轴随机旋转，3D姿态标签也相应旋转。04.2. 编码器和解码器模块0我们提出的方法非常灵活，可以整合许多不同的模态来构建一个共同的潜在空间。在当前工作中，我们学习了RGB图像和点云的编码器，以及3D手势姿势，点云和RGB图像上2D手关键点的热图的解码器。我们选择将2.5D深度信息转换为3D点云，而不是标准深度图，因为它在手势姿势估计中具有更好的性能，如先前的工作所示[10, 4,6]。热图被选择为第三种解码模态，以促进RGB编码器的收敛，因为热图与RGB图像上的激活区域密切相关。对于编码RGB图像，我们使用[7]中的Resnet-18和两个额外的全连接层来预测潜在变量的均值和方差向量。对于编码点云，我们采用ResPEL网络[10]，它是一种将无序点云作为输入的学习架构。虽然我们使用与[10]中相同数量的PEL层，但隐藏单元的数量减少了一半，以减轻计算负载。为了解码热图，我们遵循DC-GAN[18]的解码器架构。用于热图的损失函数是预测和地面真实之间的像素差异的L2损失函数：0L热量 =0j = 1 || ˆ H j - H j ||，（7）0而H j是第j个手关键点的地面真实热图，ˆ Hj是预测。对于解码点云，我们遵循FoldingNet架构[28]并尝试0用于重建表示手的可见表面的点云。为了学习解码器，我们使用基于Chamfer距离和EarthMover's距离（EMD）的两个不同损失项。Chamfer距离是一组点之间的欧几里德距离与另一组点中最近点之间的距离之和：0L Chamfer =1 | P |0p ∈ P min ˆ p ∈ ˆ P|| ˆ p - p || + 10| ˆ P |0ˆ p ∈ ˆ P min p∈ P || ˆ p - p ||。0（8）对于EarthMover's距离，建立了两个点云之间的一对一双射对应关系，并将它们之间的欧几里德距离求和：0L EMD = min φ：P →ˆ P01 |P |0p ∈ P || p - φ(p) ||，（9）0在Eq. 8和9中，ˆ P，P ∈ R3表示预测的点云和地面真实点云，两个点云中的点数均为256。3D姿势解码器由4个全连接层组成，每个层有128个隐藏单元。为了学习姿势解码器，我们使用L2损失：0L姿势 = || ˆ y - y ||，（10）0其中ˆy，y是预测和地面真实手势，描述21个关键点的3D位置。将Eq.7-10中的所有损失组合起来，我们得到以下重建损失函数：0L重建 =0L姿势 + λ热量L热量 + λ云（L Chamfer + LEMD）。（11）0训练的整体损失是重建损失及其相应的基于Eq. 2-4的DKL损失的总和。05. 实验0在实验中，我们将潜在变量z的维度设置为64，λ热量为0.01，λ云为1，对于所有情况，β'为1，对于Eq.3。我们的方法使用Tensorflow实现。对于学习，我们使用Adam优化器，初始学习率为10-4，批量大小为32。在收敛后，我们将学习率降低10倍两次。β的值从10-5退火到10-3。05.1. 数据集和评估指标0我们的方法在两个公开可用的数据集上进行评估：渲染手部姿势数据集（RHD）[31]和立体手部姿势跟踪基准（STB）[30]。RHD是一个合成数据集，包含20个角色执行39个动作的320×320分辨率的渲染手部图像。23400图3：RHD（左）和STB（右）数据集的3D姿势估计和点云重构。从上到下：RGB图像，蓝色为真实姿势，红色为从zrgb估计的姿势，真实点云，从zrgb重构的点云。点云的颜色编码了深度信息，越接近的点越红，越远的点越蓝。请注意，真实点云不用于推断，这里仅用于比较目的。0图4：潜空间插值。从潜空间线性插值重构点云和手部姿势的两个示例。最左列和最右列是RGB图像及其对应的真实姿势。其他列是在潜空间上进行线性插值时生成的点云和姿势。0动作。它由41238个训练样本和2728个测试样本组成。对于每个RGB图像，提供了相应的深度图、分割掩模和3D手部姿势。由于多样的视觉场景、光照和噪声，该数据集具有很高的挑战性。STB包含了一个人左手在六个不同的真实背景前的视频。该数据集提供了640×480分辨率的立体图像、彩色深度对和3D手部姿势注释。每个数据集包含1500帧。为了使RHD的3D姿势注释一致，我们遵循[31,2]的方法，将STB中的手掌关节修改为手腕点。与[31, 2, 19,27]类似，我们使用10个序列进行训练，另外2个序列进行测试。为了评估估计的手部姿势的准确性，我们使用常见的指标平均端点误差（EPE）和正确关键点（PCK）曲线下的面积（AUC）。EPE被测量为平均欧氏距离，预测和真实关节点之间的距离。0数据集中的序列包含1500帧。为了使RHD的3D姿势注释一致，我们遵循[31,2]的方法，将STB中的手掌关节修改为手腕点。与[31, 2, 19,27]类似，我们使用10个序列进行训练，另外2个序列进行测试。为了评估估计的手部姿势的准确性，我们使用常见的指标平均端点误差（EPE）和正确关键点（PCK）曲线下的面积（AUC）。EPE被测量为平均欧氏距离，预测和真实关节点之间的距离。0.700.750.800.850.900.951.003D PCKR2P w/o vc (AUC=0.869)R2P w/ vc (AUC=0.898)R2CHP (AUC=0.905)RC2CHP(Eq.3) (AUC=0.931)RC2CHP(Eq.4) (AUC=0.943)23410策略编码器解码器平均EPE[mm]0S1（公式1）R P 16.610S2（算法1）R H+P 16.10 R C+P 15.91 RC+H+P 15.490S3（算法2）R+C C+H+P 14.930S4（算法3）R+C C+H+P 13.140表1：RHD数据集上不同训练策略的比较。平均EPE值是从单目RGB图像中获得的。（R：RGB，C：点云，P：姿势，H：热图）。通过在训练过程中增加不同的编码器和解码器的数量，可以改善从单目RGB图像估计的姿势。0欧氏距离表示预测关节点与真实手部关节点之间的距离，而AUC表示与真实姿势相比，预测关键点在一

下载后可阅读完整内容，剩余1页未读，立即下载