CrossInfoNet：多任务信息共享提升手势估计精度

PDF格式 | 1.24MB | 更新于2025-01-16 | 65 浏览量 | 举报

本文主要探讨了在手势估计领域中的一种创新网络设计——CrossInfoNet，由大连理工大学的杜国、林祥波、孙毅和马晓红共同提出。针对手部姿态估计这一复杂且具有挑战性的任务，研究人员试图通过多任务信息共享来提高估计的准确性和效率。 CrossInfoNet的核心创新在于其网络架构的设计。传统的手部姿态估计通常处理单一任务，但CrossInfoNet将其分解为两个子任务：手掌姿态估计和手指姿态估计。这种分解式方法利用了并行处理的优势，让两个子任务在共享信息的同时独立进行，有助于提升估计精度。网络采用两分支交叉连接结构，使得子任务之间的信息得以交互，从而增强特征提取和理解。值得注意的是，作者受到了多任务学习的启发，这是一种较少在手部姿态估计文献中讨论的策略。通过多任务信息共享，CrossInfoNet能够更好地利用深度数据，这是现代计算机视觉和机器人技术中不可或缺的数据类型。深度数据提供了丰富的几何信息，对于处理手部关节的复杂运动至关重要。为了优化特征提取，研究者引入了一种热图引导的特征提取结构。这种结构旨在生成更精确的特征图，这对于姿态估计的准确性有着显著的提升。同时，整个网络采用了端到端的训练方式，简化了训练过程，提高了模型的性能。作者通过一系列广泛的研究和自我比较实验，对CrossInfoNet的有效性进行了深入评估。他们在四个公开的手姿势数据集上与当前最先进的方法进行了对比，这些数据集涵盖了各种复杂的场景和光照条件，展示了CrossInfoNet在处理手部姿态估计任务上的优越性能。 CrossInfoNet的设计不仅革新了手部姿态估计的网络架构，还引入了多任务信息共享和深度数据的高效利用，为该领域的研究提供了一种新的、有效的解决方案。这项工作的重要性在于，它不仅提升了手部姿态估计的精度，而且为后续研究者提供了宝贵的实践经验和参考框架。读者可以通过提供的GitHub代码进一步了解和探索这一创新成果。

9896

CrossInfoNet：基于多任务信息共享的手势估计

杜国

林

祥波2

孙

毅

马晓红

大连理工大学

dumyy2728@mail.dlut.edu.cn，

{linxbo，lslwf，maxh}@dlut.edu.cn

摘要

本文主要研究了基于视觉的卷积神经网络（

CNN

）

手部我们的主要贡献在于设计了一个新的姿态回归网

络架构命名为

CrossIn-foNet

。

CrossInfoNet

将手部姿态

估计任务分解为手掌姿态估计子任务和手指姿态估计

子任务，并采用两分支交叉连接结构，实现子任务间

有益的我们的工作受到多任务信息共享机制的启发，

这在以前的出版物中很少讨论使用深度数据的手部姿

态估计。此外，我们提出了一个热图引导的特征提取

结构，以获得更好的特征图，并训练完整的网络端到

端。提出的

CrossInfoNet

的有效性进行了评估，广泛的

自我比较实验，并在与国家的最先进的方法在四个公

共的手姿势数据集。代码在

中可用。

介绍

基于视觉的三维手势估计是计算机视觉、虚拟现实

和机器人领域的研究热点。它已经被研究了几十年，

近年来取得了重大进展[3，6，19]。然而，由于高关

节灵活性、局部自相似性和严重遮挡等问题的挑战，

该问题仍然远未得到解决。在基于视觉的手部姿态估

计中已经做出了不同的努力。输入数据从单RGB [2，

7]、立体RGB [24，27]变为深度图

他们有许多成就[26，30，39]。最近，似乎有一个新

的兴趣RGB图像[24，48，18，25]。已发表的手部姿

势估计方法可以分为两大类，即基于生成模型的方法

[29，35]或基于判别学习的方法[11，32，36，38]。受

益于数据量和计算能力的增加，

https://github.com/dumyy/handpose

CNN已经显示出强大的能力，成为目前的主导手段。

2017 年， Hands in the Million Challenge

（HIM2017）[44]基于深度图的手部姿势估计吸引了许

多研究团队的关注。竞争摘要文件[43]中讨论的问题

也是我们关注的问题。

首先，将深度图视为2D图像并直接回归3D关节坐标

是常用的手部姿势估计流水线。虽然将2.5D深度图转

换为3D体素化形式将保留更多的信息[12，17]，但它

遭受沉重的参数负载并且仍然存在信息缺陷。在我们

的工作中，我们倾向于与[39]的论点保持一致，以利

用2D CNN的进步，并尝试从2D输入中挖掘更多信

息。

其次，设计有效的网络受到最多的在机器学习中，

通过共享信息，多任务学习比单任务学习具有保留更

多内在信息的优点。同时学习多个任务将有助于执行

具有更好泛化能力的模型[28]。然而，在基于CNN的

手势估计中，多任务学习还没有得到足够的重视.正如

[39]所声称的那样，他们首次尝试在多任务设置中融

合整体回归和热图检测的手部姿势估计结果。受他们

成就的启发，我们设计了一种新的CNN结构，用于多

任务设置中的手部姿势估计。层次模型是手部姿态估

计网络的一种它通常通过分别处理不同的手指或不同

类型的关节将姿态估计问题划分为子任务[4，16，

47]。直觉上，很容易理解手掌关节比那些更灵活的手

指关节有更紧密的联系。全局手部姿态将主要由手掌

关节的状态确定，而局部手部姿态将由手指关节的动

作反映。基于这些知识，我们设计了一个新的层次模

型在多任务设置。所提出的架构有两个分支，分别对

应于手掌关节回归子任务和手指关节回归子任务。通

过交叉连接，

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

CrossInfoNet：多任务信息共享提升手势估计精度

基于卷积神经网络的多任务学习手势识别.pdf

ios 4.3.2 4.3.2 多任务手势

基于伪三维卷积神经网络的手势姿态估计

运动约束级联自动编码器，用于实时手势估计

基于卷积神经网络的手势识别算法设计与实现.pdf

伪三维卷积神经网络在手势姿态估计中的应用

ICVL数据集手势估计深度学习Python代码解析

深度学习组件实现手势估计-开源代码详解

基于sEMG的手势估计与深度学习预测技术

卷积神经网络在手势识别中的Python实现

最新资源