关键点变换器：解决手部和物体交互中的关节识别，实现准确的3D姿势估计

109 浏览量更新于2023-10-26 收藏 18.62MB PDF 举报

CNN特征

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110900关键点变换器：解决具有挑战性的手部和物体交互中的关节识别，实现准确的3D姿势估计0Shreyas Hampali（1），Sayan Deb Sarkar（1），Mahdi Rad（1），Vincent Lepetit（2,1）0（1）奥地利格拉茨理工大学计算机图形与视觉研究所，格拉茨，奥地利（2）法国马恩河谷大学巴黎东部高等桥梁学校，CNRS，马恩河谷，法国0{.}@icg.tugraz.at，vincent.lepetit@enpc.fr0摘要0我们提出了一种稳健而准确的方法，可以从单个彩色图像中估计两只手在紧密交互中的3D姿势。这是一个非常具有挑战性的问题，因为可能会出现大量遮挡和关节之间的混淆。最先进的方法通过为每个关节回归一个热图来解决这个问题，这需要同时解决两个问题：定位关节和识别关节。在这项工作中，我们提出通过依靠CNN首先将关节定位为2D关键点，并在这些关键点的CNN特征之间使用自注意力将其与相应的手关节关联来分离这些任务。所得到的架构被称为“关键点变换器”，它非常高效，因为在InterHand2.6M数据集上只使用了大约一半的模型参数就实现了最先进的性能。我们还展示了它可以轻松扩展到高性能地估计由一只或两只手操纵的物体的3D姿势。此外，我们创建了一个包含超过75,000张两只手操纵物体的图像的新数据集，并将其公开提供。01. 引言03D手部姿势估计有潜力使虚拟现实、增强现实以及与计算机和机器人的交互更加直观。最近，在使用深度图和甚至单个RGB图像进行单手姿势估计方面取得了显著进展。能够处理RGB图像特别有吸引力，因为它不需要耗电量大的主动传感器。已经提出了许多方法，主要基于不同的卷积网络架构[15，18，29，36，44，49，61]对3D关节位置或角度进行直接预测，或者依靠渲染进行精细姿势估计和跟踪[2，12，32，40，50]。与单手姿势估计相反，双手0图1.我们的方法可以准确地从单个RGB图像中预测3D手部和物体姿势，包括复杂的手部交互（顶部）和两只手与物体交互，手部可能被严重遮挡（底部）。底部的示例来自我们在本文中引入的H2O-3D数据集，该数据集包含了两只手操纵物体的具有挑战性、完全和准确的3D注释的视频序列。0姿势估计受到的关注要少得多。这个问题确实更加困难：两只手的关节之间的外观相似性使它们的识别变得极其困难。此外，在紧密交互中，一只手的一些关节很可能被另一只手或自身遮挡。因此，首先检测左手和右手，然后独立预测它们的3D姿势[13，36]在紧密交互场景中表现不佳。自下而上的方法[30，54]直接估计每个关节的2D关节位置和深度，使用一个热图来表示。然而，如图2所示，关节的外观相似性和严重遮挡会降低热图的质量，无法准确地定位关节。更多相关示例请参见补充材料。Many approaches have already been proposed for handor object pose estimation from either RGB images or depthmaps. Here we focus mainly on works that estimate handposes during hand-hand or hand-object interactions.Wealso discuss recent advances in Transformer architecturesfor computer vision as they are highly relevant to our work.110910从[30]右手姿势恢复的输入热图，我们的方法通过[30]恢复的右手食指图像0图2.关节之间的相似外观和部分遮挡使以前的方法容易失败。互联网最先进的方法[30]为每个关节预测一个热图，但预测的热图可能变得模糊，导致在预测手部姿势时失败（本示例中的后面的手）。我们的方法明确地建模了关键点之间的关系，从而得到更准确的姿势。更多示例请参见补充材料。0最近的研究[10, 22,58]尝试通过利用关节分割、关节可见性或增加更多的细化层来缓解这个问题，从而增加了网络的整体复杂性。我们的方法仅利用关键点，就能在模型更小的情况下大幅度优于这些方法。如图3所示，我们的方法不是同时定位和识别手部关节，而是通过三个阶段估计手部的三维姿势：（1）我们首先通过预测单个热图来检测“关键点”，即图像中潜在的关节位置。这些关键点不必完全匹配所有的手部关节：我们预测的三维姿势仍然是正确的，即使某些关节没有被检测为关键点，某些关键点也不对应关节。（2）然后，我们根据关键点的位置和图像特征将关键点与相应的关节或背景关联起来，以处理误检的情况。这是为了同时处理所有关键点以利用相互约束，使用了自注意机制。（3）最后，我们使用交叉注意模块预测三维手部姿势，该模块选择与每个手部关节相关联的关键点。我们的方法对姿势的参数化是不可知的，并考虑了三种不同的手部姿势表示。因此，我们的架构被称为“关键点变换器”，旨在明确消除关键点的身份，并在复杂配置下表现出色。图1展示了它在两个具有挑战性的示例上的输出，使用MANO[41]网格作为输出表示。我们的架构与“检测变换器”（DETR）[8]架构相关。DETR使用低分辨率CNN特征图的所有空间特征，结合学习的位置查询来检测图像中的对象。变换器的高计算复杂性限制了DETR使用更高分辨率的CNN特征图。正如我们在实验中展示的，使用DETR风格的架构进行手部姿势估计会导致较低的准确性，我们假设这是由于使用较低分辨率的特征图和整个图像的特征所致。我们在最近的InterHand2.6M手-手[30]和HO-3D手-物[12]交互数据集上训练和评估我们的架构。我们还引入了一个具有完整和准确的三维标注的两只手与物体交互的视频数据集，该数据集基于[12]的工作，我们称之为H2O-3D。我们的方法在现有的手部交互数据集上实现了最先进的性能，并为H2O-3D数据集提供了强大的基准。我们的实验表明，在InterHand2.6M上，我们的方法在模型参数数量减少了约一半的情况下实现了最先进的性能。我们进行了多个消融研究，并与强基线进行了比较，以证明我们方法的有效性。0已经提出了许多方法来从RGB图像或深度图中估计手部或物体的姿势。在这里，我们主要关注估计手部在手-手或手-物体交互过程中的姿势的方法。我们还讨论了计算机视觉中Transformer架构的最新进展，因为它们与我们的工作高度相关。02. 相关工作02.1. 交互式手部姿势估计0手部姿势估计方法可以广泛分为生成式、判别式或混合式方法。生成式方法[12, 26, 33-35,52]通过将参数化的手部模型拟合到观察到的图像或深度图中，通过在某些约束下最小化拟合误差来实现。判别式方法[5, 14, 15, 20, 30, 36, 49,62]主要直接从单帧预测手部姿势。生成式方法往往严重依赖跟踪，并容易漂移，而判别式方法往往对未见过的图像泛化能力较差[1]。混合式方法[4, 7, 13, 31, 43, 45, 47, 48,51, 54,55]试图将这两个世界的优点结合起来，通过使用判别式方法在图像中检测视觉线索，然后进行模型拟合。早期的生成式手部姿势估计方法[26, 33,34]在交互过程中使用复杂的优化方法将参数化的手部模型拟合到RGBD数据上。[12]提出了多帧优化方法，将手部和物体模型拟合到多个RGBD相机的RGBD数据上。单独的生成式方法往往在紧密交互或遮挡时丢失跟踪，因此与判别式方法结合以引导优化过程。[4,51]检测指尖作为判别点，并将其与碰撞项和物理建模一起用于优化。最近，[43]提出了在多视角设置下对手-手交互进行高保真度的手部表面跟踪，其中回归的三维手部关节位置用于初始化跟踪。[7, 13, 31, 36, 54]从单个RGB或110920深度图像结合起来，并使用物理约束和关节角度约束拟合手部模型[41]。完全判别方法[14，15，30，49]通过在训练中结合接触和相互渗透来共同估计两只交互手或交互手和物体的3D关节位置或手部模型参数。[20]使用隐式表示估计手-物体表面，自然地允许对手和物体之间的接触区域进行建模。[10，22]通过结合关节可见性和部分分割线索，提高了手-手交互场景中3D姿态估计的准确性，而[58]利用细化层来迭代地改进估计的姿态。与上述专门针对手-手或手-物体交互场景的方法相比，我们在这项工作中提出了一种统一的判别方法，适用于所有手部交互场景。此外，许多先前的判别方法在近距离手部交互中表现不佳，因为关节的外观相似。在这项工作中，我们对图像中所有检测到的关节之间的关系进行建模，从而实现更准确的姿态估计，同时保持模型复杂度低。判别方法的成功取决于训练数据的变化性，已经提出了几个手部交互数据集。[11]首次使用RGBD相机提供了基于标记的手-物体交互数据集。[12，62]和[15]分别提出了真实和合成的单手-物体交互数据集，其中单只手操纵一个物体，而[25]最近开发了一个双手和物体交互数据集。[5]提出了使用红外摄像机进行接触注释的单手和双手物体交互数据集。[30]使用半自动注释过程开发了一个大规模的双手交互数据集，其中包含许多近距离交互。[46]使用MoCap在交互过程中获得全身、手部和物体的姿态，并用它来生成对未见过的物体的真实抓取。在这项工作中，我们还介绍了一个具有挑战性的双手和物体交互数据集，我们使用了[12]的优化方法创建了该数据集。我们的数据集由不同主体操纵YCB数据集[56]中的物体的两只手的视频组成，并注释了手和物体的3D姿态。我们的架构在这个数据集上表现良好，并构成了一个强大的基准。02.2. 计算机视觉中的变压器0最近，变压器在视觉相关问题中越来越受欢迎[21]。通常从CNN主干中提取特征，并提出了不同的架构来解决目标检测[8，60]、图像分类[9]、姿态估计[6，17，27，28]和低级图像任务[24，57]。详细调查请参阅[21]。[8，60]提出将CNN主干与0变压器用于检测图像中的对象。[27]提出使用多个Transformer编码器层从RGB图像中重构单个人体或手部的顶点，并取得了最先进的性能。[28]在Transformer编码器中使用图卷积改进了[27]。[17]使用Transformer编码器-解码器架构从手部点云数据中估计3D姿态，并提出从输入点云生成查询嵌入，而不是像[8，60]中那样学习它们。虽然这些工作旨在进行单手姿态估计，将其扩展到双手是非常困难的，而我们的架构旨在从输入的RGB图像中估计单手和双手的姿态以及物体的姿态。在一个密切相关的工作中，[6]使用检测到的关键点和人体中心解决多人2D姿态估计问题，通过使用注意力将关节关键点与正确的人体中心关联起来。然而，存在几个关键差异：在我们的情况下，手中心在密切交互过程中非常接近，而[6]中的方法无法转移。更重要的是，与“身体关节”相比，手关节更加模糊，它们彼此非常相似。我们的方法对未检测到和错误检测到的关键点也具有鲁棒性，正如我们在讨论中所展示的，而[6]无法处理未检测到的关键点。此外，我们展示了通过在物体上随机采样关键点，我们可以轻松地将我们的方法扩展到手-物体交互过程中的3D物体姿态估计。03. 方法0如图3所示，我们的架构首先检测可能对应于手关节2D位置的关键点，并将其编码为关键点-关节关联阶段的输入。关键点使用它们的空间位置和这些位置上的图像特征进行编码。关键点变换器中的自注意力层消除关键点的歧义，并将它们与不同的关节类型和背景类关联起来。然后，（单个）交叉注意力层选择这些“身份感知关键点”来预测两只手的根关节相对姿势参数，以及手之间的平移和手形参数等其他参数。我们在下面详细介绍关键点检测和编码步骤，以及如何使用关键点变换器来预测手部姿势，我们考虑的3D手部姿势表示，以及用于训练的损失。我们还解释了如何将我们的方法扩展到手-物体交互场景中的物体姿势估计。03.1. 关键点检测和编码0给定输入图像，我们首先提取可能对应于2D手关节位置的关键点。为此，我们从输入图像预测一个单通道热图H。NkptNkpt Nkpt x NfeatQj3.2. Keypoint-Joint Associationtween the keypoints and create global context-aware featureGi ∈ R256, for each keypoint. Such context-aware featuresare necessary to associate the keypoints with different jointtypes using a “keypoint-joint association” loss we denoteLKI. As a result of LKI, the keypoint features also now en-code the joint identity information along with the localizedCNN image features.The identity of keypoint k is defined by (hk, jk), wherehk is the hand identity (left or right) and jk is the joint in-dex. We also use an additional ‘background’ identity forkeypoints that are falsely detected. The keypoint identity ispredicted using a feed-forward network (FFN) consisting ofa 2-layer MLP, a linear projection layer and a softmax layer.We use the cross-entropy loss for LKI:110930N kpt x 2560xM0特征图02D关键点0位置0输入图像0单通道0关键点热图0多头自注意力0注意力0采样和0连接0 Q FFN0N x 2240空间0位置编码0N kpt x 2560N kpt x 320U-Net0矩阵乘法0SoftMax0矩阵乘法0FFN0256 x 10关节j的3D预测0学习的关节j的查询0N kpt x 2560姿势估计关键点采样0256 x 10W0图3.我们方法的概述。我们检测可能是关节位置的关键点，并使用CNN图像特征和空间嵌入对其进行编码（第3.1节）。根据这些信息，自注意模块创建上下文感知的关键点特征，这对于将每个关键点与相应的关节关联起来至关重要（第3.2节）。交叉注意力模块最后使用学习的查询为每个关节预测计算手部姿势所需的值（第3.3节）。这些值的确切性质取决于所选择的手部姿势表示（第3.4节）。并不是所有的关键点都必须对应一个关节，也不是所有的关节都必须被检测为关键点，这使得我们的方法非常健壮，但仍然准确，因为它依赖于关键点（如第2节所讨论的）。0使用标准的U-Net[42]架构放置图像，并使用非可微、非最大抑制操作保留其局部最大值。在这个阶段，我们不尝试识别哪个关键点对应哪个关节，因为这是一个困难的任务，并且预测的热图只有一个通道。在实践中，我们保留最多N个手关键点，其中N手=64，而2只手的手关节总共有42个。2D关键点位置被归一化到[0,1]范围内。通过在每个真实2D关节位置上应用方差为σ的2D高斯核，可以获得真实热图H*，并且通过最小化L2损失来训练U-Net来预测热图。我们为每个检测到的关键点计算外观和空间编码，以表示关键点作为下一阶段的输入。如图3所示，对于外观部分，我们从U-Net网络的解码器中提取图像特征。更准确地说，我们使用双线性插值在归一化关键点位置处对U-Net解码器的多个层的特征图进行采样，并将它们连接起来形成一个3968维的特征向量，然后使用3层MLP将其减少到一个224维的编码向量。对于空间编码，我们获得与关键点的2D位置相对应的32维正弦位置编码，类似于[8]。最后，我们将外观和空间编码连接起来形成一个256维的关键点向量表示。在微调整个流程之前，关键点检测器进行了预训练。0对于每个关键点 K i ，我们现在有一个编码向量 F i ∈ R 256 。我们将这些向量作为输入传递给具有 N SA层的多层多头自注意力模块。自注意力[53]有助于建模关键点之间的关系和创建全局上下文感知特征 G i ∈ R 256，用于每个关键点。这样的上下文感知特征对于使用我们称之为“关键点-关节关联”损失的不同关节类型关联关键点是必要的。作为 L KI 的结果，关键点特征现在还编码了关节身份信息，以及局部CNN图像特征。关键点 k 的身份由 ( h k ,j k ) 定义，其中 h k 是手的身份（左手或右手），j k是关节索引。我们还为错误检测到的关键点使用了额外的“背景”身份。关键点身份是使用由2层MLP、线性投影层和softmax层组成的前馈网络（FFN）进行预测的。我们使用交叉熵损失进行 L KI ：0L KI =0i CE (( h i , j i ) , ( h � i , j � i )) , (1)0其中 ( h � i , j � i ) 是真实的身份，CE表示交叉熵损失。为了获得检测到的关键点的真实身份，在训练时，我们将它们与最接近的一个真实3D关节的投影关联起来，如果距离低于阈值 γ 。如果在距离 γ内没有投影关节，则将关键点分配给背景类别。在我们的实验中，我们经验性地将 γ设置为3个像素。类似于[8]，关键点的身份是在每个自注意力模块的每一层之后预测的，使用具有共享权重的FFN，并且损失应用于每一层的预测结果。预测可能导致多个关键点被分配给同一个关节身份，以及一些关键点被分配给背景类别。正如我们在第5节中讨论的那样，与背景相关的关键点被忽略，而与给定关节相关的所有关键点都被用于估计相应关节的姿势。Object KeypointsHand Keypoints(a)(c)(b)(d)110940交叉注意力模块。03.3. 从身份感知关键点进行姿势估计0关键点-关节关联损失使得关键点特征能够编码关节身份信息，同时也包括图像特征和空间嵌入。我们使用一个带有学习的关节查询的单个交叉注意力层来预测哪些关键点与查询的关节身份匹配。对于一个学习的关节查询 Q j ∈ R 256和特征 {G i} i ，交叉注意力操作[53]的计算如下：0CA × Q j , G =softmax0Q T j W KG0( W V G ) T , (2)0其中 G 是一个矩阵，其列包含特征向量 {G i} i，而 W K 和W V 是可学习的维度为 256 × 256的矩阵。类似于[53]，交叉注意力特征被添加到 Q j中以创建一个残差连接。通过一个3层MLP将结果特征转换为姿势空间。关节查询的数量取决于姿势表示。我们考虑3种不同的表示，并在第3.4节和补充材料中对其进行描述。例如，当使用2.5D姿势表示时，我们为每只手的21个关节使用21个关节查询。除了关节查询外，我们还使用一个额外的学习查询来预测手之间的相对平移 T L → R，以及10维的MANO手形参数 β。这些参数使用L1损失进行学习。在使用MANO关节角度表示预测姿势时，MANO形状参数是有用的。03.4. 手部姿势表示和损失0我们考虑三种主要的手部姿势表示：3D关节位置、2.5D[18, 30]关节位置和MANO关节角度[41]。先前的方法[14,15, 19, 38,40]指出，回归关节角度等模型参数在关节误差方面比直接回归关节位置不够准确。然而，回归MANO关节角度可以获得完整的手部网格，用于建模接触和相互渗透[5, 15,46]，或者用于弱监督设置中的学习[3, 14,23]，这对于我们方法的未来扩展可能是有趣的。正如我们后面在实验中展示的，关键点变换器使得MANO关节角度表示在性能上能够与关节位置表示相媲美。我们遵循这三种表示的标准做法。为了完整起见，我们在补充材料中详细介绍它们及其相应的损失。0图4.手和物体的关键点检测。我们训练一个U-Net解码器来预测（b）所有关节的热图和（c）物体的分割图，从中我们提取随机位置的关键点。03.5.物体姿势估计0我们的方法很容易推广到同时预测物体的3D姿势和手部的3D姿势。如图4所示，除了手部关键点的热图外，我们还通过在U-Net解码器中添加一个额外的预测头来预测物体的分割图。然后我们从该分割图中随机选择N obj =20个点，并将它们称为“物体关键点”。我们还尝试估计物体网格上固定点的2D重投影的热图，并选择它们的局部最大值作为物体关键点，结果类似。我们将物体关键点的外观和空间位置编码为一个256维向量，与手部关键点完全相同。这些关键点编码共同涵盖了物体的外观，使我们能够预测物体的3D旋转和平移。 N obj 个物体关键点和N hand个手部关键点的编码一起提供给自注意力模块。除了手部关键点的身份（hk，jk）和第3.2节中描述的背景身份外，我们还依赖于物体的额外身份。在关键点关联阶段，所有来自物体的关键点都与“物体”身份相关联，这样交叉注意力模块在估计物体姿势时只会关注物体关键点。除了估计手部姿势的联合查询外，我们在交叉注意力模块中考虑了2个额外的查询，并以与手部姿势类似的方式预测相对于右手的3D物体旋转和3D物体平移。物体旋转使用[59]中提出的方法进行参数化。我们使用类似于[37]的对称感知物体角点损失来训练网络：0L obj-pose =min R ∈S 1 80i =1 || P ∙ Bi - P� ∙ R ∙ Bi || 2 2 , (3)0其中P和P�分别表示估计的和真实的物体姿势，Bi表示物体静止姿势下的第i个角点的3D边界框，S是一组旋转矩阵，当应用于物体时，不会改变其外观。4.1. InterHand2.6M1109503.6.端到端训练0我们通过最小化上述引入的损失之和来训练我们的架构：0L = L H + L KI + L T + L hand-pose + L obj-pose , (4)0其中L hand-pose是手部姿势的损失（详见补充材料），L T是两只手之间相对平移的L1损失。注意，在训练整个网络之前，关键点检测器是预训练的。更多优化细节也在补充材料中给出。04.评估0我们在三个具有挑战性的手部交互数据集上评估了我们的方法：InterHand2.6M，HO-3D和我们在本文中介绍的H2O-3D数据集。我们在下面进行讨论。0训练和测试集。InterHand2.6M[30]是一个最近发布的具有许多具有挑战性姿势的双手交互数据集。它是半自动标注的，包含1.36M个训练图像和849K个测试图像。0指标。我们报告平均关节位置误差（MPJPE）和平均相对根位置误差（MRRPE）来评估相对根位置的手部姿势和手之间的平移，如[30]所述。0基线。我们考虑了两种基于Transformer的基线架构。第一个基线（'CNN+SA'）将低分辨率（32×降采样）的CNN特征图展平后作为输入传递给包含自注意力（SA）模块的Transformer编码器。编码器的输出令牌被连接起来，然后使用MLP预测姿势。第二个基线（'CNN+SA+CA'）更类似于DETR[8]，其中低分辨率的CNN特征图提供给Transformer编码器-解码器架构。Transformer解码器包含SA和交叉注意力（CA）模块。解码器中的查询被学习，并且姿势被预测。0MPJPE（毫米） MRRPE 单手双手总体（毫米）0CNN+SA 13.53 16.87 15.31 33.84 CNN+SA+CA（DETR [8]）12.81 15.9414.48 32.87 InterNet [30] 12.16 16.02 14.22 32.57 我们的方法 10.99 14.3412.78 29.630Dong等人[22] - - 12.08 - 我们的方法 9.10 11.98 11.30 21.890Fan等人[10] 11.32 15.57 - 30.51 我们的方法 11.08 15.33 13.41 30.870表1. 在InterHand2.6M[30]数据集上与2个基线和最先进方法的比较。我们使用它们的训练/测试划分进行比较。0使用类似于我们的关键点变换器的FFN进行预测。我们在补充材料中提供了有关基线的更多细节。这些基线有助于理解关键点采样和选择对姿态估计的重要性。0结果。表1比较了我们的方法在使用2.5D姿态表示时与最先进方法InterNet[30]和两个基线的准确性。我们的方法的准确性比InterNet高10%，InterNet是基于CNN的架构，比两个基线分别高16%和12%。‘CNN+SA+CA’相对于‘CNN+SA’基线的更高准确性表明解码器通过对图像特征进行软选择来提高准确性。此外，我们的关键点变换器相对于‘CNN+SA+CA’架构的更高准确性（12%）表明，使用关键点特征而不是整个图像的特征进行姿态估计可以提高整体准确性。我们使用它们的训练和测试划分与[22]和[10]进行比较。[10，22]使用每个关节的热图结合关节可见性和分割引导特征来提高姿态估计的准确性，因此模型复杂度高于InterNet[30]。我们的方法与与InterNet[30]相同的模型复杂度（见第5节）相比仍然优于这些最先进方法。我们在图5和补充材料中展示了定性结果。04.2. HO-3D0训练和测试集。HO-3D [12]数据集包含来自YCB[56]数据集的自动注释的右手和物体的手物交互序列。它包含66K个训练图像和11K个测试图像。我们仅考虑训练集中出现的物体进行评估。0度量标准。与[12]相同，我们报告根关节经过尺度平移对齐后的平均关节误差和曲线下面积（AUC）度量来评估手部姿态。物体姿态是相对于手部参考坐标系计算的，并使用标准的最大对称感知表面距离（MSSD）[16]进行评估，因为它考虑了物体的对称性。0结果。我们使用3D关节表示来估计手部姿态。表2比较了提出的手物姿态估计方法与其他方法的准确性。关键点变换器的性能明显优于之前的方法[12，14，15]。由于[12，14，15]在训练和评估过程中没有考虑物体的对称性，我们还以类似的设置报告了我们的结果。定性结果显示在图6和补充材料中。04.3. H2O-3D0训练和测试集。我们引入了一个名为H2O-3D的数据集，其中包含两只手操作一个物体的序列，并自动注释了物体的3D姿态。 H2O-3D110960图5. 在InterHand2.6M[30]数据集上的定性结果。我们的方法能够准确地估计复杂交互过程中的手部姿态。我们展示了从不同视角估计的MANO模型。0HO0D HO-3D0HO-3D H2O-3D0图6.H2O-3D和HO-3D数据集上我们方法的定性结果。我们的方法能够在物体发生大幅遮挡的情况下恢复姿态，并在HO-3D数据集上取得了最先进的结果，同时也为我们的新数据集H2O-3D提供了一个强有力的基准。注意，某些物体（第2列和第4列）被认为沿z轴具有旋转对称性。0相机内参图像裁剪关节误差平均关节AUCMSSD（物体姿势误差）0[12] 是是 3.04 0.49 - [15] 否是 3.18 0.46 - [14] 是否 3.69 0.3711.99 我们的方法否是 2.57 0.54 7.020表2.我们的方法在HO-3D数据集上进行手部和物体姿势估计的准确性。我们的方法大大优于以前的方法。0通过扩展[12]的工作来考虑两只手，我们实现了手和物体之间的交互。图1和图6显示了一些图像。五个不同的受试者使用功能意图使用两只手操纵来自YCB的10个不同物体。我们使用5个RGBD相机多视角设置捕获了60,998个训练图像和15,342个测试图像。H2O-3D测试集包含训练集中看到的7个物体和1个未见过的物体。更多细节请参见补充材料。由于手和物体之间存在许多大面积遮挡，H2O-3D比以前的手部交互数据集更具挑战性。0指标和结果我们使用3D关节表示进行手部姿势评估，并使用MPJPE和MRRPE指标（参见第4.1节）评估手部的准确性，使用MSSD指标（参见第4.2节）评估物体的准确性。关于在训练和评估过程中考虑的不同物体的对称角度的详细信息请参见0由于手部对物体的大面积遮挡，一部分图像不适合用于物体姿势估计。我们将这些图像识别为其地面真实物体分割区域小于裁剪图像面积的2％的图像，并在训练和评估过程中将其排除在物体姿势估计之外。我们还使用了HO-3D的训练集，并在训练过程中随机镜像图像，以获得仅包含右手和左手图像，然后与H2O-3D的训练集结合。我们的方法在该数据集上实现了3.09厘米的MPJPE和8.28厘米的MRRPE。由于物体的大面积遮挡，估计两只手之间的平移更具挑战性，MRRPE比不包含物体的InterHands2.6M差了约2.5倍。在物体上，我们的方法实现了7.96厘米的MSSD值。我们在补充材料中提供了特定物体的MSSD值。图6显示了定性结果。05. 讨论0我们在这里报告了我们使用InterHand2.6M（V0.0）进行的实验结果，以更好地理解我们的方法。交叉注意力的可视化。我们在图7中可视化了左手食指的两个关节查询的交叉注意力权重。当关节没有被遮挡时，如第一行所示，每个关节查询都会关注与对应关节位置在裁剪图像中重合的关键点位置。 110970关键点热图输出姿势输入图像左食指MCP 左食指DIP0图7.可视化左手两个关节查询的交叉注意力权重。红色圆圈的半径与权重成比例。当关节被遮挡时，如第二行的DIP关节，注意力机制会选择附近可见的关键点进行姿势估计。0(a)0(b)0(c)0(d)0图8.对噪声关键点的鲁棒性。在这个例子中，我们在中指PIP关节周围添加了噪声关键点。大多数噪声关键点被预测为属于背景类别（红色），而一些关键点与PIP关节相关联（蓝色）。与PIP关节相关联的噪声关键点具有更高的交叉注意力权重（c），并被考虑用于最终的姿势估计。0无0w/0输出姿势指数 DIP指数 MCP输入图像0图9. 具有关键点-关节关联损失 L KI 的交叉注意力。L KI使关键点具有“身份感知”，从而提高准确性。0图像。换句话说，使用关节位置处的局部图像特征来估计该关节的姿态。我们认为，使用局部图像特征的这种属性有助于实现比其他基于CNN的方法[14, 15,30]更高的准确性。在图7的第二行中，除了MCP关节外，左手食指被遮挡，不可见关节没有检测到关键点。交叉注意力模块选择附近可见的关键点，从而为估计关节姿态提供更全局级别的特征。对噪声关键点的鲁棒性。为了证明我们方法的鲁棒性，我们在检测到的关键点周围添加了错误的关键点。如图8和补充材料所示，这些关键点中的大多数被标记为背景，并且所有分配给同一关节的关键点都被视为同等重要，用于姿态估计。关键点-关节关联损失 L KI 的重要性。LKI帮助交叉注意力模块选择适当的特征进行姿态估计，如图9所示。此外，L KI将交叉注意力模块的MPJPE提高了10％（17.08毫米对比18.91毫米），并将MRRPE提高了15％（33.14毫米对比38.96毫米），适用于交互手部图像。不同姿态表示的准确性。表30相机内参 MPJPE（毫米）MRRPE（毫米）单手双手全部03D No 12.42 17.08 14.76 33.14 2.5D Yes 11.73 17.69 14.73 34.40 θNo 15.36 20.61 18.01 37.910表3.使用3种不同的姿态表示获得的准确性。0N CA = 1，变化 N SA N SA = 6，变化 N CA [30] 0 3 6 1 360单手 12.34 11.77 11.24 11.24 11.14 11.08 12.63 双手 16.93 15.55 15.4415.44 15.35 15.33 17.360表4.不同自注意力（N SA）和交叉注意力（NCA）层数的3D姿态准确性（MPJPE，以毫米为单位）。0Resnet-18 Resnet-34 Resnet-50 [30]（Resnet-50）0总参数 28M 38M 48M 48M0单手 11.67 11.99 11.28 12.63 双手 16.78 16.41 15.32 17.360表5.不同骨干网络的3D姿态准确性（MPJPE，以毫米为单位）。0我们展示了通过将关键点检测器集成到Transformer架构中，我们可以从非常具有挑战性的图像中预测手部和物体的3D姿态，比标准的Transformer架构更准确。由于我们依赖于关键点，我们认为我们的方法更加通用，可以应用于其他问题，如人体和其他关节对象的姿态预测和物体类别姿态预测[39]。0比较了我们考虑的3种手部姿态表示的准确性。虽然3D和2.5D表示的准确性相似，但关节角度表示的准确性较低，与先前的研究[14, 15, 19, 38,40]的观察结果一致。自注意力（SA）和交叉注意力（CA）层的数量的影响。表4报告了不同SA和CA层组合的MPJPE。即使没有任何SA层，我们的方法也优于[30]。增加更多的CA层对准确性几乎没有影响。参数数量的影响。表5报告了不同CNN骨干网络的MPJPE。尽管更大的骨干网络可以提高准确性，但我们的方法即使使用Resnet-18骨干网络，参数总数约为一半，也优于[30]。0参考文献0致谢。这项工作得到了由Qualcomm Inc和ChisteraIPalm部分资助的语义3D计算机视觉基督教多普勒实验室的支持。ReferencesIn Conference on Computer Vision and Pattern Recognition,2018. 3[16] Tom´as Hodan, Martin Sundermeyer, Bertram Drost, YannLabb´e, Eric Brachmann, Frank Michel, Carsten Rother, andJiri Matas. BOP Challenge 2020 on 6D Object Localization.In Computer Vision - ECCV 2020 Workshops - Glasgow, UK,August 23-28, 2020, Proceedings, Part II, 2020. 62, 3110980[1] Anil Armagan, Guillermo Garcia-Hernando, SeungryulBaek, Shreyas Hampali, Mahdi Rad, Zhaohui Zhang, ShipengXie, Ming-xiu Chen, Boshen Zhang, F. Xiong, Yang Xiao,Zhiguo Cao, Junsong Yuan, Pengfei Ren, Weiting Huang,Haifeng Sun, Marek Hr´uz, Jakub Kanis, Zdenek Krnoul,Qingfu Wan, Shile Li, Linlin Yang, Dongheui Lee, Angela Yao,Weiguo Zhou, Sijia Mei, Yunhui Liu, Adrian Spurr, UmarIqbal, Pavlo Molchanov, Philippe Weinzaepfel, RomainBr´egier, Gr´egory Rogez, Vincent Lepetit, and Tae- KyunKim.测量对未见过的视角，关节，形状和物体的泛化性能，用于手部姿态估计中的手-物体交互。在计算机视觉欧洲会议上，2020年。0[2] Seungryul Baek,

下载后可阅读完整内容，剩余1页未读，立即下载