拓扑感知Transformer网络用于三维手部姿态估计

125 浏览量更新于2023-10-16 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5675HandGCN Former：一种新的拓扑感知Transformer网络用于三维手部姿态估计王燕彤1、2、陈丽丽1、2、*、李嘉茂1、2、3、张小林1、2、3、4、51中国科学院上海微系统与信息技术研究所传感器技术国家重点实验室仿生视觉系统实验室，上海200050 2中国科学院大学，北京1000493雄安创新研究院，中国，4中国科学技术大学安徽合肥2300275上海科技大学，上海201210{wytong，lilichen，jmli，xlzhang}@ mail.sim.ac.cn摘要尽管在3D手部姿态估计方面取得了实质性进展，但在存在严重自遮挡和高自相似性的情况下推断合理且准确的姿态仍然是一个固有的挑战。为了减少不可见和相似关节引起的歧义，我们提出了一种新的拓扑感知Transformer网络HandGCNFormer，将手部运动学拓扑的先验知识结合到网络中，同时建模远程上下文信息。具体来说，我们提出了一种新的Graphformer解码器，它具有额外的节点偏移图卷积层（NoffGConv），优化了Trans former和GCN的协同作用，捕获了长程依赖关系以及关节之间的局部拓扑连接。此外，我们用一种新的拓扑感知头来代替标准的MLP预测头，以更好地利用局部拓扑约束来获得更合理和准确的姿态。我们的方法在包括Hands 2017，NYU，ICVL和MSRA在内的四个chal-challening数据集上实现了最先进的性能1. 介绍准确和鲁棒的3D手部姿态估计是各种人机应用（包括增强现实、虚拟现实和第三人称模仿学习）中的关键组成部分手部姿态估计旨在从单个深度图像或RGB图像估计手部关节的位置随着商品深度相机越来越多的自动对焦-*通讯作者(a) 自封闭（b）自相似性(c)HandGCNFormer图1：HandGCNFormer的图示。 (a)和(b) 分别表示AWR（左）和我们的HandGCNFormer（右）在自遮挡和自相似下的定性比较。红色的姿势是地面的真相。绿色姿势表示预测结果。(c)表示HandGCNFormer中Transformer和GCN的互补特征表示。基于深度的方法已经取得了令人印象深刻的进步[4，14，9，37，35，19，17，46]。然而，如图1a和图1b所示，在手部部件之间存在严重的自闭塞和高自相似性的情况下，这仍然是非常具有挑战性的。人类有能力在复杂的场景中预测准确的手部姿势，这要归功于他们的深层次，5676场景的站立和手部运动学结构的强先验知识，这提供了足够的上下文以减轻由不可见和相似关节产生的歧义。尽管基于CNN的手部姿势估计方法[4，37，19，46]一直是主要框架，但由于在固定大小的窗口上操作，它们无法对长期依赖性进行为了打破这一限制，最近的方法[17，18]利用了Transformer卓越的全局建模能力，并产生了更好的性能。然而，它只隐含地提取了关节特征相似性的长期依赖性，而忽略了手部拓扑结构的自然运动学约束。手部的运动学拓扑揭示了关节之间固有的关节连接。一些有意义的工作[1，42，50]表明，图卷积网络（GCN）具有很强的拓扑表示能力。最近，姿势引导的分层图卷积（PHG）方法[35]试图通过堆叠多个GCN层来对手部部件之间的然而，级联的GCN导致图的长期元素中的误差积累和过平滑问题。如图1c所示，我们认为Transformer的全局atten- tion和GCN的局部拓扑感知构建了一个有效且互补的特征表示。为了最大限度地发挥它们的协同作用，我们提出了一种新的拓扑感知Transformer网络HandGCN-Former，它将用于建模深度图像的上下文信息和关节之间的远程依赖关系的非自回归Transformer与图卷积网络（GCN）相结合，该网络自然地将手部拓扑先验纳入我们的网络中，并显式地学习局部连接关节之间的相对关系。具体来说，我们提出了一个Graphformer解码器。每个解码器块包含一个新的节点偏移图卷积层（NoffGConv）在前面，其次是标准组件，包括自注意层和交叉注意层。与vanilla GCN不同，NoffGConv将节点特征映射和偏移特征映射合并，增强了其自身位置信息在特征聚合过程中的指导作用。此外，大多数基于变换器的方法利用由完全连接的层组成的多层感知（MLP）头来独立地预测手部关节的坐标，忽略关节之间的局部连接我们引入了一种基于语义图卷积层（SemGConv）的拓扑感知头[50]，它在不增加模型复杂性的情况下整合了拓扑信息。通过学习邻接矩阵，SemGConv能够捕获手部拓扑引导的关节之间的复杂局部空间约束，鼓励拓扑感知头部获得更合理和准确的姿势。总之，本文的贡献有四个方面：• 我们提出了一种新的HandGCNFormer网络用于3D手部姿态估计。Transformer和GCN层被深度集成，以模拟场景的全局理解和手部关节的局部拓扑连接。• 提出了一种新的NoffGConv层来解耦节点特征映射和偏移特征映射，该层在3D手部姿态估计任务中的性能优于流行的GCN。• 拓扑感知头模块被设计为自适应地建立空间拓扑约束，其性能优于标准MLP预测头。• 我们的方法在四个具有挑战性的数据集上实现了最先进的性能。特别是，它比性能最好的方法高出3.2%，Hands2017中看不见的主题的参数减少了7.6%，显示了其出色的泛化能力。2. 相关工作2.1. 3D手部姿态估计基于深度神经网络的3D手势估计方法已经表现出高质量的预测结果，根据模型输出的类型可以分为基于回归的方法、基于检测的方法和混合方法。基于回归的模型[2，4，14，13，15，26，33，32，46]从输入图像学习映射，Oberweger等人提出了DeepPrior[33]和Deep-Prior ++[32]来学习具有瓶颈层的姿势先验，并使用完全连接的层回归姿势。为了更好地利用细粒度特征，Pose-REN[4]应用多级级联回归来迭代地改进预测，而其他方法[13，26，14，46]利用特征级局部集合。尽管有出色的性能，这样的方法遭受从一个大的模型复杂性。基于检测的方法[30，11，37，36，31]通常从深度图像、点集或体素集预测每个关节的密集概率图。DenseReg[44]使用编码器-解码器模块生成3D热图和单位向量场，保持更丰富的空间上下文。然而，由于从热图获得关节坐标的后处理是不可微的，因此基于检测的方法通常不能端到端地训练。后来，通过结合两种方法的优点，进一步提出了混合方法[35，27，19，39]AWR[19]以可微的方式将3D手部关节坐标转换为3D热图和单位向量场，实现关节位置的直接监督然而，纯基于CNN的方法由于其5677图2：HandGCNFormer的概述。该方法通过NoffGConv和SemGConv层引入手部运动学拓扑的先验知识，并采用自注意机制对全局理解进行建模，提供了丰富的消歧证据。ResNet和Transformer编码器组成图像编码器模块，捕获图像的全局-局部上下文（第3.1节）。Graphformer解码器结合了NoffGConv和注意力模块，在不忽略关节拓扑连接的情况下全局捕获关节相互作用（第3.2节）。最后，拓扑感知头对最终姿态进行回归，在回归过程中构造有效的拓扑约束（第3.3节）。有限的感受野，使得难以处理严重的自遮挡和自相似的情况下，这是常见的3D手姿态估计。2.2. 计算机视觉中的Transformer最近，Transformer架构[43]已应用于图像分类[7，24]，对象检测[3，51]，和姿态估计[48，28，22，23，15]。特别是，PRTR[21]和TFPose[28]可视化了Transformer解码器中的动态解码过程，并证明了Transformer对人体姿势建模的适用性。在密切相关的工作中，Hand-Transformer[17]应用非自回归Transformer解码机制来并行本地化每个关节。与自回归译码方法相比，非自回归译码方法不受序列相关性的限制，满足实时性要求。然而，单独检测关节忽略了关节之间固有的相邻关系，导致性能较差，特别是在不可见和相似的关节。2.3. 图卷积网络GCN越来越多地用于基于骨架的动作识别[29，42，47]和2D到3D姿态估计任务[34，20]，因为它可以有效地表示任意拓扑数据。SemGCN[50]被提出用于捕获人体邻近关节之间的复杂语义关系。HOPE-Net[6]建议一个自适应图形U-网络，从2D关键点推断3D空间中的关节位置。这些是二维到三维的升降机结果表明，拓扑信息对于减轻深度模糊是必不可少的。PHG[35]试图通过利用级联GCN模块构建手部关节的远程依赖关系，实现最先进的性能。然而，级联的GCN模块在构建全局关系时指数地引入来自扩展的邻近节点的噪声信息，导致模型的过度平滑。在本文中，我们利用Transformer直接建模全局上下文信息，而不受感受野的限制，同时结合GCN捕获手部运动学拓扑，这大大提高了空间结构特征的表示。3. 方法我们提出的HandGCNFormer的概述如图2所示。它将深度图像作为输入，并预测一组3D关节坐标。整个框架由ResNet和Transformer编码器形成的图像编码器、Graphformer解码器和拓扑感知头组成。3.1. 图像编码器图像编码器从输入深度图像中提取局部和全局特征。我们的图像编码器受到DETR[3]的启发，DETR由ResNet[16]和Transformer 编码器。给定一个裁剪的手深度图像I∈RH×W，其中H和W表示图像5678∈.ΣGHW×HWGG{}×∈∈∈21图3：NoffGConv的图示NoffGConv在聚合信息期间将节点特征映射和偏移特征映射合并。灰色线表示节点之间的连接，彩色线表示特征转移。高度和宽度分别，利用ResNet提取降采样特征FR32 × 32 ×2048。然后，特征图在通道中经由11卷积层缩减，并在空间上平坦化，以获得将被馈送到标准变换器编码器中的序列特征TR 1024 ×256。为了保留空间位置信息，正弦位置嵌入被添加到输入序列。最后，输入序列的上下文特征通过一系列的自注意和前馈网络（FFN）捕获。3.2. Graphformer解码器香草Transformer解码器由自注意层、交叉注意层和前馈网络组成，这些层不知道可以由手部运动学拓扑描述的关节之间的固有连接（参见图2的左下角）。为了克服这一局限性，我们设计了一个Graphformer解码器，强调注意机制和GCN技术的融合，同时利用关节的长程依赖和局部拓扑连接。具体来说，我们构建一个图=V、E它由一组节点V和边E组成。图形中的每个节点表示一个手部关节。我们将手部运动学拓扑的先验知识通过邻接矩阵的形式引入到模型中当且仅当两个相应的关节在手部运动学拓扑中连接时，节点i和j在三维手势估计任务中，节点特征包含了丰富的位置信息。另一方面，相邻节点也提供了有用的特征来估计相对偏移，这对于不可见的和相似的关节可以起到关键作用。受此启发，我们提出了一个节点偏移图卷积层（NoffGConv）。如图3所示，NoffGConv实现了节点特征映射和偏移特征映射。前者仅依赖于节点特征，而后者汇聚了从邻居节点流向中心节点的细化信息节点和自身。为了更好地补充后续的自注意层并加快模型收敛速度，NoffGConv应用了固定的邻接矩阵。形式上，设NoffGConv中第l层的输入为X（l）RJ×Dl，J表示节点的数量， Dl 表示输入维度。第 1 层的NoffGConv可以用公式表示如下：X（l+1）=σW1X（l）+W2X（l）A（1）其中σ是作用函数，A是归一化邻接矩阵r ix，由A=D−1（A+I）D−2计算。 D是一个对角次矩阵。 A是一个覆盖的内部连接的邻接矩阵。I是单位矩阵。使用不同的权重W1和W2，NoffGConv将对节点要素和偏移的映射进行简化功能.注意，普通GCN仅具有等式1中的第二项，其基于度矩阵将注意力分配给当前节点及其邻居，从而削弱了其位置信息的指导。Graphformer解码器包含N个解码器块。每个块由NoffGConv层组成，然后是标准的自注意层和交叉注意层。我们的解码器将学习到的关节查询作为输入，这表示关节的位置嵌入。关节查询和手部关节之间存在一对一的匹配，因此匈牙利匹配[3]是不必要的。此外，由于NoffGConv实现了联合查询的非线性映射，因此我们能够移除通常跟随注意力模块的前馈网络。3.3. 拓扑感知头手部关节的拓扑结构对于准确预测手部姿态起着至关重要的作用，特别是在严重自遮挡和自相似的情况下。为了克服现有MLP头缺乏空间结构线索的缺点，我们提出了一种基于GCN技术的拓扑感知头。如上所述，GCN自然地提供了一种方法来引入手部运动学拓扑的先验然后，GCN在拓扑的指导下聚合关于节点及其对应的邻居节点的信息然而，vanilla GCN只关注关节之间的因此，我们基于三个语义图卷积层（SemGConv）和11卷积投影层来配置我们的拓扑感知头与vanilla GCN相比，SemGConv增加了一个学习的加权矩阵MRJ×J来自适应地建模关节之间的连接强度，其被写为：X（1+ 1）=σ。WX（l）ρi（M<$（A+I））<$（2）其中，W是变换矩阵;ρi是Softmax非线性度，其将连接的权重归一化为-5679∗∈∈ N∈2个D3D3Dy2个D3DN方法NYU ICVL MSRAHands2017FPS表1：使用3D距离误差的平均值（毫米）与NYU、ICVL、MSRA和Hands2017上的最新方法进行比较““SEEN”和“UNSEEN”表示测试对象是否涉及训练集的情况。“AVG”表示所有测试帧上的3D距离误差的平均值。最好用粗体。节点i和相邻节点j（i）之间的距离;表示逐元素乘法。根据之前的工作[50]，我们利用残差连接来缓解堆叠多个SemGConv层期间的过度平滑问题此外，我们将所有 Graphformer 解码器层的输出嵌入凭借SemGConv的出色特性，我们的回归头将姿势约束到由手部拓扑引导的更精确的空间。3.4. 总损失函数对于姿态估计任务，预测结果的分布相对稀疏。由于拉普拉斯分布是稀疏数据的更合适的假设，因此该模型使用平滑L1[19]损失进行训练，以最大限度地减少估计和地面真实姿态之间的误差考虑2D和3D姿势。设y为二维RJ×2和y3DRJ×3是地面真理构成。回归损失可以用公式表示为：Lreg=smoothL1（yn，y2D）+smoothL1（yn，y3D）三个完全连接的层。采用辅助损耗来引导骨干学习更强的特征并提高整体性能，其计算如下：aux=smoothL1（p=2D，y =2D）+smoothL1（p=3D，y= 3D）（四）其中，p2D和p3D分别表示与初始姿态相对应的2D/3D坐标。最后，总损耗是回归损耗和辅助损耗的总和：L总体=Lreg+Laux（5）4. 实验4.1. 数据集Hands2017数据集包含957K训练和295K测试图像。21手关节注释。NYU数据集[41]包含72K训练和8.2K测试图像，标记有36个关节位置。根据常见惯例[35，30]，我们从正面视图中选择14个关节的子集进行评价。ICVL数据集[40]包含22K训练图像和1.6K测试图像。训练数据增加到330Kn=1（三）通过利用平面内旋转操作来采样安-其中，表示来自输出的预测3D姿态姿势的符号包含16个关节。第n层解码器层。n是通过预测n与相机的内在。此外，我们在ResNet骨干上应用MLP来预测3D初始姿态，其中MLP是LyAVG看到看不见[44]第四十四话10.217.247.23米---27.8POSE-REN[4]11.816.798.65----HandPointNet[10]10.546.948.51---48[第11话]9.056.337.71---41.8V2V-PoseNet[30]8.416.287.599.956.9712.433.5[8]第十八话10.086.737.869.687.3011.67124.5A2J[46]8.616.46-8.576.929.95105.6SRN[37]7.796.277.178.396.0610.33263.1AWR[19]7.485.987.207.485.219.36-PHG[35]7.395.976.947.145.068.8758.8HandGCNFormer7.435.486.736.804.648.5972.8[35]第三十五话6.755.945.82---58.8HandGCN前处理器6.744.725.575.533.747.0272.85680MSRA数据集[38]包含76.5K图像，具有17个几何图形。地面实况姿势将注释21个关节。我们使用常见的leave-one-subject-out交叉验证策略评估该数据集[4，19]。5681−×∗图4：我们的框架与NYU（左列），ICVL（中列）和MSRA（右列）数据集上最先进的作品的比较。顶部：每个关节的3D距离误差的平均值。底部：在不同阈值上成功帧的百分比。4.2. 实验设置实施详情：我们在一个NVIDIA A100 Tensor Core GPU上以端到端的方式实现我们的模型。我们的方法使用AdamW优化器[25]使用PyTorch框架进行训练，初始学习率为0.0001。培训过程包括40个阶段。我们杠杆年龄的多步学习率的时间表，这衰减的学习率分别在第30和37的epoch的0.1采用ResNet-50作为我们的骨干，它在 ImageNet 上进行了预训练，其余的权重使用Xavier init初始化[12]。我们采用8个头的自我注意和四层的Transformer编码器和Graphformer解码器。在推理过程中，我们利用最后一个解码器层的预测作为最终结果。在former工作[37，35，19]之后，我们利用V2V-poseNet[30]中提出的定位网络来获得3D空间中手部区域的中心坐标裁剪后的图像大小调整为256 256，深度值归一化为[1，1]。在世界坐标系中，我们采用随机缩放、随机旋转和随机平移来进行数据扩充根据标准实践，我们使用自己的训练集为每个基准训练一个模型。评估：我们使用与以前的作品中相同的指标来评估我们的模型：1）3D距离误差的平均值和2）成功帧的百分比。前者是在总体测试集上计算的地面实况和预测之间的每个联合的后者表示其中所有联合误差都低于阈值的成功帧的数目与所有测试帧的数目的比率。基线：我们的基线遵循DETR[3]框架没有匈牙利匹配算法解码器的输入查询与手部关节一一对应此外，基线应用与我们的方法相同的损失函数。其结构详见补充材料。4.3. 与最新技术水平的我们将我们的 HandGCNFormer 与各种现有方法[44，4，11，10，30，8，46，37，19，35]在标准NYU，ICVL，MSRA和Hands2017基准上进行比较。表1显示了以3D距离误差的平均值作为度量的比较结果。为了公平比较，以前工作的结果可以分为两组。上一组结果采用V2 V-PoseNet提供的中心坐标作为手部区域中心进行图像裁剪。底部组报告利用地面真实关节的平均值作为手部区域中心的结果，其由““指示此外，图4报告了NYU、ICVL和MSRA数据集上每个关节的平均误差和超过不同阈值的成功帧的百分比实验结果表明，HandGCNFormer获得了与其他方法相当或更好的性能，在单个GPU上实现了72.8 FPS的实时速度。注意，与具有35.71M参数的PHG相比，我们模型中的参数数量具体而言，在Hands2017数据集上，我们的方法优于其他方法，平均联合误差为6.80 mm。对于看不见的主体手，我们的方法实现了最小的mum平均联合误差为8.59毫米，基本上证明了我们的方法的优秀的泛化能力。此外，HandGCNFormer的尺寸比5682方法AVG看到看不见参数（触发器）基线7.355.099.2437.37M（5.81G）+ Graphformer解码器6.944.778.7433.18M（5.72G）+ 拓扑感知头6.904.678.7737.24M（5.80G）HandGCNFormer（+both）6.804.648.5933.04M（5.71G）表2：HandGCNFormer中不同模块有效性的消融研究ChebGConv（K=1）[5]6.96 4.77 8.87ChebGConv（K=2）[5]6.944.838.69SemGConv[50]6.934.788.72NoffGConv（我们的）6.804.648.59表3：Graphformer解码器中不同GCN方法有效性的消融研究。K表示ChebGConv中卷积核的阶数。在AVG测试用例中使用HandGCNFormer，反映了手部区域中心坐标的准确性限制了模型的性能。在NYU数据集上，我们的方法与PHG的结果相当。这主要是因为纽约大学数据集的注释是嘈杂的，这限制了我们的方法在所有联合平均误差方面的性能尽管如此，我们的方法仍然获得了成功帧的百分比方面的最佳性能，如图 4 的左下角所示。在 ICVL 数据集上，HandGCNFormer和HandGCNFormer的性能分别比之前的最佳结果高出8.2%和20.5%。事实上，HandGCNFormer比PHGFormer实现了更好的准确性。对于每个关节的错误和成功帧的百分比，我们的方法显着优于其他方法在所有的关节和阈值。在MSRA数据集上，我们的方法分别优于PHG和PHG的 3.0%和4.3%。我们的方法减少了每个关节的错误，并达到了最佳百分比的成功帧在15毫米阈值。总的来说，HandGCNFormer本质上优于最先进的方法，在有效性和效率之间进行了适当的权衡4.4. 消融研究在本节中，我们进行了广泛的消融，以评估Hands2017上的HandGCNFormer。HandGCN成形器模块：如表2所示，我们进行实验以量化我们提出的模块（Graphformer解码器和拓扑感知头）的贡献。我们的基线在“AVG”测试项上实现了7.35 mm的平均误差，该测试S-N-C 6.86 4.67 8.69S-C-N 6.86 4.68 8.68表4：针对图形形成器解码器中的三个组件之间的不同连接顺序的有效性的消融研究。N、S和C分别表示NoffGConv、自注意和交叉注意。图5：（a）：解码器中自注意力的注意力图(b)：NofGConv的归一化邻接矩阵，着重于节点间连接强度固定的局部拓扑感知。(c)SemGConv的学习权重矩阵，自适应地对相邻关节之间的复杂依赖关系在所有测试帧上的Tance误差，其仅比PHG稍差，反映了Transformer框架可以更好地捕获用于手部姿势估计的长距离上下文信息然后，我们用Graphformer解码器替换baseline的解码器。得益于NoffGConv和自我注意机制的协同作用，具有Graphformer解码器的模型将平均联合误差降低了0.41 mm，并且在未看到的主体手方面提高了5.4%接下来，我们只将拓扑感知头合并到基线中。性能有显着的收益，表明空间结构感知是必不可少的回归准确和鲁棒的姿态。此外，可以看出，我们的头实现了优良的性能，而不增加模型参数。最后，HandGCNFormer结合了我们的解码器和回归头，以最小的模型大小实现了最佳性能。特别地，HandGC-NFormer对于未看见的主体手以0.69 mm的边缘优于基线，这表明我们的方法具有推广优势。方法AVG看到看不见方法AVG看到看不见香草GCN[45]6.954.838.73N-S-C6.804.648.595683图6：AWR、我们的基线和HandGCNFormer在Hands2017数据集上的定性比较。左：自遮挡图像的定性结果右：具有自相似性的图像的定性结果红色姿势代表地面实况。绿色姿势是预测结果。NoffGConv：我们将NoffGConv与其他GCN变体进行了比较，包括 vanilla GCN [45] ， ChebGConv [5] 和SemGConv [50]。表3报告了比较结果，其中K表示ChebGConv中卷积核的阶数。我们的方法实现了优于其他方法的性能，证明了我们的NoffGConv与自我注意力合作的有效性。此外，我们比较了Graphformer解码器中三个组件之间的三种不同连接顺序，并在表4中报告结果，其中N、S和C分别表示NoffGConv、自注意和交叉注意。“N-S-C”表示图2所示的解码器的结构。 “S-N-C” 表示 NoffGConv 在中间， “S-C-N”表示NoffGConv在交叉关注之后。实验结果表明，4.5. 可视化我们可视化的权重矩阵的自注意力在解码器，NoffGConv，和SemGConv在信息聚集。如图5所示，自我注意机制动态地捕获关节之间的长距离依赖关系，但忽略了手部的固有拓扑信息。NoffGConv和SemGConv主要研究手部运动拓扑的局部连通关系。由于自我注意力动态灵活地学习关节之间的依赖程度，我们的NoffGConv通过归一化的相邻矩阵将固定的注意力分配给相邻关节相比之下，SemGConv利用学习的权重矩阵自适应地提取相邻关节之间的复杂关系，这为姿势回归提供了更丰富的空间图6展示了一些定性结果的自我-Hands2017上的遮挡和自相似样本。为了公平比较，AWR的结果是在与我们的方法相同的输入大小和相同的手区域中心报告的可以看出，与AWR[19]和我们的强基线相比，HandGCNFormer实现了更准确和更合理的姿势。特别地，AWR对于极端的自遮挡情况将失败，而HandGCNFormer可以成功地识别关节的位置，并通过对输入数据的全局理解和手部拓扑的先验知识来获得更合理的姿态。5. 结论在本文中，我们提出了一种新的拓扑感知的Trans-former网络命名为HandGCNFormer推断合理和准确的3D手部姿势。在HandGCNFormer中，我们设计了一个Graphformer解码器和一个拓扑感知头，以最大限度地发挥Transformer和GCN的协同作用。我们的方法全面模拟图像和关节的全局理解以及内在的手部运动学拓扑结构，有效地减少了不可见和相似关节引起的歧义。大量的实验结果表明，HandGCNFormer在四个公共数据集上实现了由于GCN中包含了Transformer网络，该方法也可以推广到其它结构化数据的回归问题谢谢。本研究得到了中国科学院战略重点研究计划（XDC08050100）、上海市科技重大专项（张江实验室） 2018SHZDZX01 和上海市学术带头人（22XD1424500）的资助5684引用[1] Ruwen Bai ， Min Li ， Bo Meng ， Fengfa Li ， JunxingRen，Miao Jiang，and Degang Sun. Gcst：用于动作识别的图形卷积骨架 Transformer 。 arXiv 预印本 arXiv ：2109.02860，2021。[2] Razvan Caramalau、Binod Bhattarai和Tae-Kyun Kim。基于主动学习的人体3d手部姿态估计。在IEEE/CVF计算机视觉应用冬季会议论文集，第3419-3428页[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[4] Xinghao Chen ， Guijin Wang ， Hengkai Guo ， andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。神经计算，395：138[5] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统，29，2016。[6] Bardia Doosti ， Shujon Naha ， Majid Mirbagheri ， andDavid J Crandall.Hope-net ： A graph-based model forhand-object pose estimation.在IEEE/CVF计算机视觉和模式识别会议论文集，第6608- 6617页[7] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[8] Kuo Du，Xiangbo Lin，Yi Sun，and Xiaohong Ma.跨信息网：基于多任务信息共享的手部姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第9896-9905页[9] Linpu Fang ， Xingyan Liu ， Li Liu ， Hang Xu ， andWenxiong Kang. Jgr-p2 o：基于联合图推理的像素到偏移预测网络，用于从单个深度图像估计3d手部姿势欧洲计算机视觉会议，第120-137页。Springer，2020年。[10] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。2018年IEEE/CVF计算机视觉和模式识别会议，第8417-8426页。IEEE，2018年。[11] 六号戈，周仁，袁俊松。点到点回归点网络用于三维手姿态估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第475-491页，2018年[12] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在第十三届人工智能和统计集，第249JMLR Work-shop and Conference Proceedings，2010.[13] Hengkai Guo ， Guijin Wang ， Xinghao Chen ， andCairong Zhang.深度3d手部姿势估计的良好实践。arXiv预印本arXiv：1707.07248，2017。[14] Hengkai Guo，Guijin Wang，Xinghao Chen，CairoongZhang，Fei Qiao，and Huangzhong Yang.区域集合网络：改进卷积网络用于手部姿态估计。2017年IEEE图像处理国际会议（ICIP），第4512-4516页IEEE，2017年。[15] Shreyas Hampali，Sayan Deb Sarkar，Mahdi Rad，andVin- cent Lepetit.关键点Transformer：解决具有挑战性的手和物体交互中的关节识别，以实现精确的3d姿态估计。在 Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition，pages 11090[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] 林煌、谭建超、季柳、袁俊松。手动- Transformer：非自回归结构化建模于三维手部位姿估计。欧洲计算机视觉会议，第17-33页Springer，2020年。[18] 林煌、谭建超、孟晶晶、季柳、袁俊松。Hot-net：用于3D手部对象姿态估计的非自回归Transformer第28届ACM国际多媒体会议论文集，第3136-3145页，2020年[19] Weiting Huang，Pengfei Ren，Jingyu Wang，Qi Qi，andHaifeng Sun. AWR：用于3D手部姿势估计的自适应加权回归。在AAAI人工智能会议论文集，第34卷，第11061- 11068页[20] Deying Kong，Haoyu Ma，and Xiaohui Xie. Sia-gcn：一个用于手部姿势估计的具有2d卷积的空间信息感知图神经网络。arXiv预印本arXiv：2009.12473，2020。[21] Ke Li，Shijie Wang，Xiang Zhang，Yifan Xu，WeijianXu，and Zhuowen Tu.使用级联变压器进行姿势识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第1944-1953页[22] Wenhao Li，Hong Liu，Hao Tang，Pichao Wang，andLuc Van Gool. Mhformer：用于3D人体姿态估计的多假设Transformer。在IEEE/CVF计算机视觉和模式识别会议论文集，第13147-13156页[23] Kevin Lin，Lijuan Wang，and Zicheng Liu.端到端的人类姿势和网格重建与变压器。在IEEE/CVF计算机视觉和模式识别会议的Proceedings中，第1954-1963页[24] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Lin ， and Baining Guo. SwinTransformer：使用移位窗口的分层视觉Transformer。IEEE/CVF计算机视觉国际会议论文集，第10012-10022页，2021年[25] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。[26] 我是萨姆·马达迪，埃斯卡莱拉先生，X a vierBa ro'，还有乔迪·冈萨雷斯。端到端全局到局部卷积神经网络5685用于深度数据中的手部姿势恢复的网络学习。IET计算机视觉，16（1）：50[27] Jameel Malik 、 Ibrahim Abdelaziz 、 Ahmed Elhayek 、Soshi Shimada 、 Sk Aziz Ali 、 Vladislav Golyanik 、Christian Theobalt和Didier Stricker。Handvoxnet：基于深度体素的网络，用于从单个深度图进行3D手部形状和姿势估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第7113[28] 毛伟安，葛永涛，沈春华，田智，王新龙，王志斌。Tfpose：直接人类姿态估计与变压器。arXiv预印本arXiv：2103.15320，2021。[29] AngelMart'ınez-Gonza' lez，MichaelVillamizar和Jean-MarcOdobez。位姿变换器（potr）：用非自回归变换器进行人体运动预测。在IEEE/CVF计算机视觉国际会议论文集，第2276-2284页，2021年[30] 文京植，张朱勇，李京武。V2v-posenet：体素到体素预测网络，用于从单个深度图进行准确的3d手部和人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第5079-5088页[31] 文京植，张朱勇，徐玉民，李启武。三维人体姿态估计的整体平面

下载后可阅读完整内容，剩余1页未读，立即下载