GCN-basedIntagHand:ANovelApproachforSingle-ImageDual-HandReconstruction

136 浏览量更新于2023-10-25 收藏 19.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Interacting Attention Graph for Single Image Two-Hand ReconstructionMengcheng Li1, Liang An1, Hongwen Zhang1, Lianpeng Wu2, Feng Chen1, Tao Yu1, Yebin Liu11Tsinghua University2Hisense Inc.AbstractGraph convolutional network (GCN) has achieved greatsuccess in single hand reconstruction task, while interact-ing two-hand reconstruction by GCN remains unexplored.In this paper, we present Interacting Attention Graph Hand(IntagHand), the first graph convolution based networkthat reconstructs two interacting hands from a single RGBimage.To solve occlusion and interaction challenges oftwo-hand reconstruction, we introduce two novel attentionbased modules in each upsampling step of the originalGCN. The first module is the pyramid image feature at-tention (PIFA) module, which utilizes multiresolution fea-tures to implicitly obtain vertex-to-image alignment. Thesecond module is the cross hand attention (CHA) modulethat encodes the coherence of interacting hands by build-ing dense cross-attention between two hand vertices. Asa result, our model outperforms all existing two-hand re-construction methods by a large margin on InterHand2.6Mbenchmark.Moreover, ablation studies verify the effec-tiveness of both PIFA and CHA modules for improvingthe reconstruction accuracy.Results on in-the-wild im-ages and live video streams further demonstrate the gen-eralization ability of our network. Our code is available athttps://github.com/Dw1010/IntagHand.1. IntroductionInteracting two-hand reconstruction is one of the fun-damental tasks towards manifold industrial applicationssuch as virtual reality (VR), human-computer-interaction(HCI), robotics, holoportation, digital medicine, etc. Re-cently, monocular single hand pose and shape recovery haswitnessed great success owing to deep neural networks [3,12,21,49,52] and large scale datasets [13,16,25,26,53,54].However, two-hand reconstruction is more challenging andremains unsolved for two reasons. First, severe mutual oc-clusions and appearance similarity confuse the feature ex-tractors, making it difficult for networks to align hand poseswith image features. Second, the interaction context be-tween two hands is difficult to be effectively formulatedduring network design and training.Figure 1. Illustration of our IntagHand for two-hand reconstruc-tion. Top: results on InterHand2.6M [25] dataset. Bottom: real-time two-hand motion capture results on live video streams. Ourmethod produces high quality two-hand mesh reconstruction offlexible hand poses under severe occlusions.Monocular depth-based two-hand tracking [22, 27, 28,38–40] has been studied for years and promising resultshave been demonstrated.However, the energy demandand algorithm complexity restrict the ubiquitous applicationof depth-based methods. Recently, Wang et al. [40] con-tributes a monocular RGB based two-hand reconstructionby tracking dense matching map. However, the trackingprocedure itself is inherently sensitive to fast motion, anddoes not take full advantage of prior knowledge betweeninteracting hands.Since the proposal of the large scaletwo-hand dataset InterHand2.6M [25], learning based sin-gle image two-hand reconstruction methods have emerged.Existing methods[11, 18, 25, 46] either employ 2.5Dheatmaps to estimate hand joint positions [11, 18, 25], oruse them as attention maps to extract sparse image fea-tures [46]. However, such sparse local image features en-coded in the heatmaps could not effectively model handsurface occlusions, and could not extract dense interactioncontext. In contrast, vertex-based graph convolutional net-276127620工作(GCN)在单手重建方面取得了巨大的成功[12, 23, 24,37]，但在双手条件下尚未得到证明，并且前面提到的挑战仍需解决。在本文中，我们提出了一种新颖的基于GCN的单图像双手重建方法IntagHand。作为基本流程，我们首先使用GCN以粗到细的方式回归每只手的网格顶点，类似于传统的GCN[12]。然而，对于双手任务，简单地使用两个流的GCN生成两只手的顶点无法利用两只手之间的交互上下文，使得网络在处理两只手相互遮挡的部分时感到困惑。此外，没有任何图像特征反馈，网络很难将顶点与图像特征对齐，正如[24,47]所建议的。为了解决这些问题，我们为GCN配备了两个新颖的注意力模块。第一个模块是金字塔图像特征注意力(PIFA)模块，它使用变换器编码器将潜在的顶点特征与修补后的图像特征进行更新。与基于投影的顶点-图像对齐[47]不同，PIFA利用了注意机制的全局感知能力，帮助每个顶点在所有图像补丁上寻找对齐。此外，由于GCN以粗到细的方式上采样网格顶点，我们设计了一个基于编码器-解码器的图像特征提取模块来提取金字塔特征，强制高分辨率网格利用细粒度特征。第二个模块是交叉手注意力(CHA)模块，它将交互上下文编码到手部顶点特征中。CHA模块允许每只手的顶点对另一只手的顶点特征进行密集的注意力，以消除手部之间的遮挡。由于GCN结构和基于注意力的新模块的优势，IntagHand在InterHand2.6M[25]上的表现优于现有方法(8.8mm对13.5mm)。此外，我们的方法对于实时应用非常高效，在野外图像和实时视频流上产生对齐良好的双手结果，如图1和我们的项目页面所示。总的来说，我们的贡献可以总结如下：0•我们提出了基于GCN的网格回归的第一个双手重建方法，名为IntagHand，展示了GCN在双手重建任务中的有效性。0•我们提出了金字塔图像特征注意力（PIFA）模块，通过全局图像补丁注意力提取局部遮挡信息，从而更好地对齐手部顶点和图像特征。0•我们提出了交叉手注意力（CHA）模块，隐式建模双手互动上下文，提高了紧密互动姿势的重建准确性。0• 我们的方法取得了新的最先进结果0并且在InterHand2.6M基准测试中大幅超越现有解决方案。此外，我们展示了我们的方法在野外图像上的泛化能力。02. 相关工作02.1. 单手重建0自上世纪以来，手势估计和手势识别一直受到广泛关注[15,42,43]。在深度学习时代，从单张图像中估计3D手部骨架取得了巨大成功[4, 26, 35,53]。自从流行的参数化手部模型MANO[30]和各种大规模数据集[16, 25, 33, 54]的提出以来，重建手部姿态和形状[1,5, 12, 21, 23, 24, 37, 48, 49,52]已成为主流方法。在所有这些方法中，最近的基于transformer的模型[23,24]取得了最好的结果，展示了注意力机制学习任意两个顶点之间的非局部关系的能力。这种出色的性能启发我们使用注意力机制来改善网格-图像对齐和模型-模型互动。02.2. 双手重建0虽然几乎所有单手重建方法都可以扩展到双手重建任务，但很少有研究展示了近距离互动手部的结果。双手重建是人类整体动作捕捉的关键挑战之一。之前的身体和手同时重建方法[6, 17, 31, 44, 50,51]都是将每只手单独处理，因此无法处理像手指打结这样的近距离手部互动情况。最近的基于多视角跟踪的方法[34]可以重建高质量的互动手部动作，但其硬件设置昂贵，算法耗时。基于单目运动学跟踪的双手运动估计方法，无论是否使用深度传感器[22, 27, 28, 38,39]或RGB相机[40]，都对快速运动和可能的跟踪失败敏感。然而，它们的密集映射策略，即查询手部顶点和图像像素之间的对应关系，启发我们使用密集特征进行网格-图像对齐。相比之下，基于深度学习的方法，如[11, 18, 25, 32,46]直接重建每帧的双手互动。不幸的是，所有这些方法要么使用2.5D热图来估计手部关节位置[11,25]，要么将其用作注意力图来提取稀疏图像特征[46]，要么分别重建每只手，然后进行微调[18,31]。由于手是自然的3D表面，编码在热图中的稀疏局部图像特征可能无法有效捕捉手部表面遮挡和手部互动上下文。因此，我们提出了一种基于密集特征的网格-图像对齐方法。27630上述方法通常无法获得与图像对齐的双手重建。02.3. 卷积网格回归0卷积网格回归（CMR）是一种通过图卷积网络（GCN）从图像特征中以粗到细的方式直接回归网格顶点的方法，已被证明在生成与图像对齐的3D对象[7,41]、面部[29]、身体[20]或手部[12]方面取得了成功。典型的CMR流程通过两个或更多级联的图卷积和上采样层将全局图像特征向量传递，并生成目标对象的每个顶点的3D坐标。与基于关节或旋转参数的方法相比，CMR方法具有更密集和更语义的模型表示，因此能够以顶点级的方式更好地对齐图像特征。然而，现有的CMR方法在没有明确的图像特征反馈策略的情况下构建单个前向传递，限制了它们的网格-图像对齐性能，正如[47]所建议的。一些最近的单手重建工作[24,37]也采用了GCN作为网络结构的一部分；然而，它们舍弃了CMR的粗到细的特性，只是使用单个GCN来增强局部感知能力。03. 公式03.1. 双手网格表示0与以前的双手重建方法不同[18，0[25, 32,46]使用关节或关节模型作为手部表示，我们只需要具有两只手的固定网格拓扑的表面顶点。为了方便起见，我们采用了每只手的流行MANO[30]模型的相同网格拓扑，其中包含 N = 778个顶点。为了辅助注意机制，我们为每个顶点定义了类似于[40]的密集匹配编码作为位置嵌入。具体来说，我们为不同的顶点分配不同的颜色，同时保持相邻顶点之间的平滑性，表示为 { c i ∈ R 3 , i = 0 , 1 , ..., N}。如图2所示，我们的IntagHand具有分层架构，使用三个粗到细的块重建手部网格，每个块后面跟随上采样层。为了构建每个块的粗到细网格拓扑，我们利用[9]引入的图形粗化方法，并构建了 N b = 3 个级别的子网格，其中顶点数为N 0 = 63，N 1 = 126，N 2 =252，并保留相邻级别之间的拓扑关系以进行上采样。在第三个块之后，我们使用简单的线性层将最终的子网格（N 2= 252）上采样到完整的MANO网格（N =778），生成最终的双手顶点。03.2. 系统概述0我们的系统包含两个主要部分：图像编码器-解码器（图2中的红色虚线框架）和交互注意图（蓝色虚线框架）0作为注意图形（图2中的蓝色虚线框架），给定单个RGB图像，我们首先将其输入到一个图像编码器-解码器结构中，产生一个中间全局特征向量 F G 和几个捆绑特征图 { Φ t ∈ R C t × H t × W t , t = 0 , 1 ..., N b − 1 }，其中 t表示第 t 个特征级别对应于第 t 个IntagHand块，N b = 3是块数，H t × W t 是逐渐增加的特征图的分辨率，C t是特征通道。然后，IntagHand接收全局特征向量 FG，并生成左右手的顶点。注意，In-tagHand的每个块由3个子模块组成：一个用于每只手的图卷积网络（GCN）和金字塔图像特征注意力模块（PIFA），以及两只手之间的交叉注意力模块（CHA）。这些模块在图2中说明，并将在第4.1节、第4.2节和第4.3节中讨论。04. 交互注意图04.1. 用于双手建模的图卷积0为了直接生成双手顶点，我们的IntagHand基本上是基于之前的GCN[12]构建的，通过将一个手流扩展为两个手流。然而，与将潜在向量 F G 转换为更大的不共享的每个顶点特征的传统GCN[12]不同，我们利用全连接（FC）层 g h ( ∙ ) 将 F G映射到更紧凑的特征向量 g h ( F G)，该特征向量在顶点之间共享，并将第 i个顶点的密集匹配编码（位置嵌入）c i与共享向量连接起来形成每个顶点特征 F iV（图2），可以表示为：0i = 0 , 1 ..., N 0 ; h = L, R, (1)0其中 F i V ∈ R f 是初始图形特征，N 0 = 63是最粗糙的子网格顶点数，f = 512 是特征长度，h表示左手（L）或右手（R）。这种操作作为注意机制的一部分，可以减小模型大小以加快训练速度。通过堆叠 F iV，我们得到 F t V ∈ R N × f，t =0。之后，类似于[12]，我们在每个 t th（t = 0, 1,2）块上执行Chebyshev谱图CNN[7]操作（在图3中简称为GraphConv），将输入顶点特征 Ft V 转换为 F t GCN。0FtGCN = σ(0k=0 Ttk(ˆLt)FtVWtk), (2)0其中ˆLt是缩放的拉普拉斯矩阵，Ttk是第k个K阶切比雪夫多项式的项，Wtk是可学习参数，σ是非线性激活函数。FtGCN表示传递给PIFA的中间特征。Directly reconstructing model mesh from a single globalfeature FG without any feedback has difficulty in guarantee-ing pixel alignment with the input image [47]. Additionally,a GCN is suggested to pay more attention to local vertexfeatures [24]. To solve these issues, we progressively in-sert hierarchical image features {Φt ∈ RCt×Ht×Wt, t =0, 1, 2} into GCN to guarantee better mesh-image align-ment using both local and global context. Note that, eachimage feature is a combination of both encoder feature andintermediate decoder feature for alignment to richer con-text (see Fig. 2). Specifically, the output from encoder’slast layer is passed through different convolutional layers topredict certain 2D information similar to [37,47]. In our im-plementation, our model predicts (1) the heatmaps of jointsH, (2) the foreground mask of each hand ML, MR and (3)the dense matching encoding of each hand DL, DR.To effectively use image features, we evenly divide theimage feature map Φt ∈ RCt×Ht×Wt into Nt × Nt im-age patches at tth block, and the size of each patch is27640图2. 我们的网络结构。给定一个RGB图像作为输入，我们的网络首先提取全局特征向量FG，一系列金字塔图像特征{Φt, t=1, 2,3}以及其他辅助预测（2D姿势、分割、密集映射编码）。然后我们的模型通过三个IntagHand块和上采样直接回归出两只手表面顶点的3D坐标。每个IntagHand块包含一个GCN模块、一个金字塔图像特征注意力（PIFA）模块和一个交叉手注意力（CHA）模块。0图3.IntagHand块。我们的IntagHand块由三个部分组成：1.残差GCN模块，2.金字塔图像特征注意力（PIFA）模块，3.交叉手注意力（CHA）模块。0模块。受ResNet[14]的启发，我们为每两个GraphConv操作添加了残差连接，以帮助梯度传播和增强学习能力；参见图3。04.2. 金字塔图像特征注意力模块0Nt。然后，这些补丁通过线性层被展平和压缩，得到一个特征向量序列FtI∈R(Nt∙Nt)×f，其中f是与顶点特征相同的特征大小。然后，图像特征FtI与顶点特征FtGCN进行拼接，并输入到多头自注意力（MHSA）模块中，使用以下方程产生增强的注意力顶点特征FtPIFA0FtPIFA = MHSA(concat(FtGCN, FtI)). (3)FR→L = softmax(QLKTR√d)VR,FL→R = softmax(QRKTL√d)VL,(4)F′L = fp(FL + FR→L),F′R = fp(FR + FL→R),(5)LV =N∥Vh,i − V GTh,i ∥1 + ∥Π(Vh,i) − Π(V GTh,i )∥22,LJ =V�i=1∥J Vh,i − J V GTh,i ∥1+V�i=1∥Π(J Vh,i) − Π(J V GTh,i )∥22.(7)27650虽然MeshGraphformer[24]也使用了图像特征注意力（称为“网格特征”），但他们在整个网络中使用相同的低分辨率图像特征（7×7），而我们的图像特征是多尺度的（8×8→16×16→32×32）。虽然低分辨率图像特征编码了更紧凑（或全局）的信息，高分辨率特征包含更多语义（或局部）的知识，因为它们更接近输入和输出。因此，金字塔结构强制稀疏网格关注全局图像特征，而密集网格关注局部图像特征，并且可能产生更好的顶点-图像对齐。为了展示PIFA的功能，我们计算了顶点域和图像域之间的注意力图（请参考ViT[10]了解详情）。通过累加三个块的PIFA注意力图，我们观察到我们的PIFA模块可以在图像像素上区分左手和右手，并且我们注意到PIFA更加关注紧密交互的区域。这意味着PIFA模块学习了我们期望的正确的顶点-图像映射。0图4.伪彩色的注意力图可视化。展示了六个独立的例子。在每个例子中，从左到右依次是输入图像、PIFA注意力图叠加在图像上、CHA注意力图。对于PIFA注意力图，红色表示来自右手的注意力，蓝色表示来自左手的注意力。颜色越亮表示注意力越强。对于CHA注意力图，红色越深表示交叉手的注意力越强。为了更好地可视化，所有的注意力图都经过了归一化处理。04.3. 交叉手注意力模块0已经证明两只相互作用的手的姿势是相关的[46]；因此，对于双手重建来说，建模手的相互作用上下文非常重要。我们使用对称的交叉手注意力（CHA）模块来隐式地表达两只手之间的相关性，而不是简单地将交互表示为一只手的关节在另一只手的坐标系中[25,46]。为了简化，我们在FtPIFA中忽略了t，并使用FL和FR分别表示左手和右手的FPIFA。如图3所示，我们首先对每只单独的手进行MHSA操作，得到表示每只手的查询、键和值特征Qh、Kh、Vh（h∈L，R）。然后我们使用0通过多头注意力（MHA，见图3）从一只手的查询特征 Q h中获取另一只手的关键特征 K h 和值特征 V h ，如下所示：0其中 F R → L 和 F L → R是编码两只手之间相关性的跨手注意力特征，d是一个归一化常数。然后，通过逐点的MLP层 f p ( ∙ )将跨手注意力特征合并到手部顶点特征中，如下所示：0其中 F ′ L 和 F ′ R 是输出的手部顶点特征，它们作为下一个t + 1 个块（ t < N b ）中两只手的 F t +1 V，如图4所示。可以看出，跨手注意力模块还更加关注紧密交互区域，特别是指尖。这表明跨手注意力模块有助于隐式解决手部之间的相互碰撞问题。04.4. 损失函数0对于图像编码器-解码器的训练，我们使用平滑的L1损失来监督2D密集匹配编码，并使用均方误差（MSE）损失来监督2D热图。对于IntagHand的训练，我们使用了（1）顶点损失，（2）回归关节损失和（3）网格平滑损失。顶点损失。我们使用L1损失来监督手部顶点的3D坐标，并使用MSE损失来监督顶点的2D投影：0(6) 其中 V h,i 是第i个顶点，h = L, R表示左手或右手，Π是2D投影操作，下同。顶点损失应用于每个子网格，为了简化，此处忽略了子网格。回归关节损失。通过将预定义的关节回归矩阵 J与预测的手部顶点相乘，可以从预测的手部顶点回归出手部关节。我们通过以下损失函数惩罚关节误差：Ln =F�f=13�e=1∥ef,i,h · nGTf,h∥1,(8)Le =E�e=1∥ei,h − eGTi,h ∥1.(9)27660网格平滑损失。为了确保预测顶点的几何平滑性，我们应用了两种不同的平滑损失。首先，我们规范了预测网格和真实网格之间的法线一致性：0其中 f 是手部网格的面索引，e f,i ( i = 1 , 2 , 3) 是面 f的三条边，n GT f是从真实网格计算出的该面的法线向量。其次，我们最小化了预测网格和真实网格之间每条边长度的L1距离：0需要注意的是，图像编码器-解码器和IntagHand同时以端到端的方式进行训练。05. 实验05.1. 实验设置0实现细节。我们的网络使用PyTorch实现。我们使用在ImageNet上预训练的ResNet50[14]作为骨干网络来编码图像特征。根据[45]，我们的图像解码器使用三个简单的反卷积层来预测2D关节热图、2D分割和密集映射编码。训练细节。我们使用Adam优化器[19]在4个NVIDIA RTX 2080TiGPU上训练模型，每个GPU的批量大小设置为32。整个训练过程需要100个epochs，持续2.5天，学习率在第50个epoch时从初始学习率1×10^-4衰减到1×10^-5。训练过程中应用了缩放、旋转、随机水平翻转和颜色抖动等数据增强技术。需要注意的是，我们使用姿态MANO网格预训练了GCN的最后一个上采样层（见图2），并在进一步训练过程中固定其权重。评估指标。为了评估重建手部的姿势和形状准确性，我们比较了平均关节位置误差（MPJPE）和平均顶点位置误差（MPVPE），单位为毫米。为了公平比较，我们按照Zhang等人的方法[46]将每只手的中间掌骨长度缩放为9.5厘米进行训练，并在评估过程中将其重新缩放为真实骨长。这是在对齐每只手的根关节之后进行的。我们还报告了正确关键点的百分比（PCK）曲线和线性跨度在0到50毫米之间的曲线下面积（AUC），以比较重建准确性。05.2. 数据集0InterHand2.6M数据集。作为唯一具有双手网格注释的数据集，本文中的所有网络都是在InterHand2.6M[25]数据集上进行训练的。由于我们只关注双手重建，我们挑选出与人类和机器（H+M）注释相互作用的双手（IH）数据，并根据[25]提供的有效手类型注释丢弃无效标注。最终，我们使用了来自InterHand2.6M的36.6万个训练样本和26.1万个测试样本。在预处理中，我们根据手顶点的2D投影裁剪出手部区域，并将其调整为256×256的分辨率。RGB2Hands和EgoHands数据集。RGB2Hands[40]数据集包含4个不同类型的双手交互视频序列，而EgoHands[2]数据集包含48个捕捉到的复杂双人交互（如下棋）的自我中心视频。这两个数据集都没有网格注释，因此我们只用它们进行定性评估。05.3. 定性结果0我们在InterHand2.6M[25]上的定性结果如图5和图6所示。如图5所示，我们的方法可以在严重遮挡和各种交互背景下生成高质量的双手重建结果。与之前的最先进方法[46]相比，我们的方法产生了更真实的手指交互和更少的双手相互碰撞（见图6）。除了现有的只在圆顶设置[25]中显示结果的方法[11，25，46]之外，我们还进一步展示了我们的方法在野外图像上的泛化能力。如图7所示，我们的方法在由普通USB相机捕获的真实数据上表现良好。此外，在没有额外训练的情况下，我们的模型在RGB2Hands数据集和EgoHands数据集的图像上产生了出色的结果，显示出在第三人称/自我中心视角条件下应用的潜力。此外，我们的模型在推理过程中在单个NVIDIARTX 3090GPU上以30fps的速度运行，为未来的实时应用提供了可能性。05.4. 定量比较0我们首先将我们的IntagHand网络与最先进的单手重建方法进行比较，如表1所示。在单手重建方法中，每只手都通过真实边界框从图像中裁剪出来并分别处理。结果显示，由于严重遮挡和外观混淆，单独重建每只手的效果很差。我们进一步将IntagHand与最近的双手重建方法进行比较。其中一个是Moon等[25]，它直接推断两只手的3D骨架。另一个是Zhang等[46]，它预测两个MANO[30]模型的姿势和形状参数。为了公平比较，我们在与我们使用的InterHand2.6M的相同子集上运行了他们发布的源代码（参见第5.1节）。01 我们使用的是InterHand2.6M的v1.0 5fps版本，其采用CC-BY-NC4.0许可。27670图5.我们方法在InterHand2.6M测试数据集上的定性结果。我们的方法在各种交互情况下都能很好地工作。请注意，我们的方法甚至可以在没有明确碰撞检测的情况下产生正确的手指级交互。0图6. 在InterHand2.6M数据集上与Zhang等[46]的定性比较。我们的方法产生了更准确的双手姿势，而Zhang等[46]产生了更多的碰撞并错误计算了左右手之间的相对深度。0MPJPE MPVPE0† Zimmermann等[53] 36.36 - † Zhou等[52]23.48 23.89 † Boukhayma等[3] 16.93 17.98† Spurr等[36] 15.40 -0Moon等[25] 16.00 - Zhang等[46] 13.4813.950我们的方法 8.79 9.030表1.InterHand2.6M的比较。†表示单手方法的结果来自[46]。我们以毫米为单位报告MPJPE和MPVPE，数值越低越好。我们的方法在性能上超过了所有其他方法。0另一个是Zhang等[46]，它预测两个MANO[30]模型的姿势和形状参数。为了公平比较，我们在与我们使用的InterHand2.6M的相同子集上运行了他们发布的源代码（参见第5.1节）。比较结果显示，我们的方法直接超过了所有其他方法。0表1和图8显示了定量结果。从表1可以清楚地看出，我们的方法显著降低了MPJPE和MPVPE。我们将这一成功归因于GCN的密集网格推理能力和我们的新颖基于注意力的模块，它们更好地将网格与输入图像对齐。图8中的PCK曲线进一步证明了我们的方法在所有误差阈值水平上的卓越性能。05.5.消融研究0基线GCN。我们通过直接修改Ge等人的GCN解码器来训练基线GCN模型，用于两只手的输出（参见表2中的'GCN基准'）。尽管直接利用GCN结构显示出优秀的数值性能，但在没有注意力模块的情况下，交互重建仍然存在不准确的问题。添加注意力模块。基于'GCN基准'，我们首先添加CHA模块来建模交互上下文（+CHA），然后添加PIFA模块以进一步增强顶点-网格对齐（+CHA +PIFA），如表2所示。27680图7.野外图像上的定性结果。左侧4个案例是使用USB摄像头捕获的真实数据。右上方的2个案例来自RGB2Hands[40]视频。右下方的2个案例来自EgoHands [2]视频。0图8. 在InterHand2.6M数据集上的比较。'Zhang etal'指的是[46]，而'InterNet'指的是[25]。0通过使用CHA对建模交互上下文，我们实现了超过0.6mm的性能提升，证明了CHA在处理遮挡方面的有效性。通过添加PIFA，我们的方法进一步实现了超过0.5mm的性能改进，验证了PIFA在顶点-图像对齐方面的能力。定性比较结果如图9所示。金字塔结构与否。请注意，我们的模型利用具有逐渐增加分辨率的金字塔图像特征（8×8→16×16→32×32）。通过去除金字塔结构，我们在所有三个IntagHand块中使用一致的小（8×8）或大（32×32）图像特征（参见表2中的'IFA-8'和'IFA-32'）。与[24]类似，我们发现使用小图像特征比使用大图像特征效果更好。更多的实验结果可见于附录。0图9. InterHand2.6M的定性消融研究。'w/oPIFA'表示从完整模型中删除PIFA模块，'w/oCHA'表示删除CHA模块。可以看出，PIFA有助于对齐顶点和图像特征（顶部行），而CHA有助于解决相互遮挡问题（底部行）。0MPJPE MPVPE0GCN基准 9.97 10.63 GCN + CHA 9.34 9.59GCN + CHA + IFA-32 8.90 9.16 GCN + CHA+ IFA-8 8.83 9.07 GCN + CHA +PIFA（我们的） 8.79 9.030表2.在InterHand2.6M上的模块选择消融研究。0更重要的是，我们的金字塔结构通过利用全局和局部信息进行网格回归，进一步提高了重建精度。06.讨论0结论。我们提出了交互式注意力图手（IntagHand）方法，从单个RGB图像中重建两只交互的手。具体而言，我们引入了一种新颖的金字塔图像特征注意力（PIFA）模块，用于建立手网格和图像特征之间的注意力关系，以及一种新颖的跨手注意力（CHA）模块，用于编码两只手之间的交互上下文。全面的实验证明了我们的网络在InterHand2.6M数据集和野外图像上的卓越性能，并验证了我们的PIFA和CHA模块的有效性。局限性和影响。我们方法的主要局限性是缺乏明确的网格碰撞处理，导致手之间偶尔出现网格交叉。请注意，我们的方法可以与两只以上的手一起工作，其中需要一个初步的检测网络来提取手区域并预测每个区域中的手数量。只要将主体编码为顶点特征，我们的方法也可以扩展到其他二向交互（手-物体，人-人等）。致谢：本文由NSFCNo.62125107，NSFCNo.62171255和中国国家重点研发计划（2021ZD0113503）资助。[16] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan,Lin Gui, Sean Banerjee, Timothy Godisart, Bart Nabbe,Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser27690参考文献0[1] Seungryul Baek, Kwang In Kim, and Tae-Kyun Kim.通过神经渲染推动基于RGB的密集三维手部姿态估计的发展.在CVPR, 2019. 20[2] Sven Bambach, Stefan Lee, David J. Crandall, and ChenYu. 伸出援助之手: 在复杂的自我中心互动中检测手部并识别活动.在ICCV, 2015. 6, 80[3] Adnane Boukhayma, Rodrigo De Bem, and Philip H. S.Torr. 野外

下载后可阅读完整内容，剩余1页未读，立即下载