改进PointNet网络在三维手姿估计中的应用

需积分: 13 112 浏览量更新于2024-08-13 收藏 1.16MB PDF 举报

"基于改进PointNet网络的三维手姿估计方法" 本文提出了一种创新的三维手姿估计方法，特别针对单幅深度图像中的手部姿势识别难题。传统的三维手姿估计方法在处理手部复杂结构时往往精度不足且鲁棒性较差。为了解决这些问题，研究者们设计了一种基于改进PointNet网络的解决方案。首先，该方法使用一个边界框定位网络来预测手部的三维边界框，以精确地裁剪出手部区域，减少背景干扰，提高后续处理的准确性。这一步骤至关重要，因为它能够确保网络只关注于手部的深度信息，而不会被无关的图像元素分散注意力。接着，手部深度图像被转换为点云数据，这种表示方式可以有效地模拟手部的可见表面，充分挖掘深度图像中的三维信息。点云数据具有空间坐标，使得网络可以直接处理三维数据，而不是仅仅依赖二维图像的投影信息。核心在于改进的PointNet网络。原始的PointNet网络是一种直接处理点云数据的神经网络架构，能够学习点云中的几何特征。在此基础上，研究者引入了跳跃连接（skip connection），使得网络能更好地捕获和融合不同层次的特征。跳跃连接允许低层的细节信息直接传递到高层，从而增强了网络对复杂手部结构的理解和表示能力。在NYU手姿数据集上进行的实验结果显示，这种方法相比于现有大多数方法表现出优越的性能。不仅在精度上有所提升，而且由于其网络结构简洁，训练过程更高效，运行速度也更快。这使得该方法在实时应用中具有很大潜力。此外，本文还介绍了研究团队的成员及其背景，包括主要研究人员马利、金珊杉和牛斌，他们在计算机视觉、嵌入式系统以及图像处理等领域有深入的研究。该工作得到了2017年辽宁省科技厅博士科研启动基金指导计划的支持。总结来说，这项研究为三维手姿估计提供了一个新的有效途径，特别是通过改进的PointNet网络，提高了处理单幅深度图像中手部姿势的准确性和鲁棒性。这种方法对于手势识别、虚拟现实、人机交互等领域的应用有着重要的意义。

收稿日期：２０１９０６１２；修回日期：２０１９０７１８　　基金项目：２０１７年辽宁省科技厅博士科研启动基金指导计划资助项目（２０１７０５２０２７６）

作者简介：马利（１９７８），女，辽宁黑山人，讲师，博士，主要研究方向为计算机视觉、嵌入式系统；金珊杉（１９９４），女，辽宁营口人，硕士，主要研

究方向为计算机视觉；牛斌（１９６３），男（通信作者），黑龙江宾县人，教授，硕导，主要研究方向为嵌入式系统设计、图像处理及模式识别

（ｎｉｕｂ＠ｌｎｕ．ｅｄｕ．ｃｎ）．

基于改进ＰｏｉｎｔＮｅｔ网络的三维手姿估计方法



马　利，金珊杉，牛　斌



（辽宁大学信息学院，沈阳１１００３６）

摘　要：针对单幅深度图像三维手姿估计中由于手部复杂结构捕捉困难导致的精度低和鲁棒性较差的问题，提

出一种基于改进ＰｏｉｎｔＮｅｔ网络的三维手姿估计方法。该方法首先采用边界框定位网络预测三维边界框，从而准

确裁剪手部区域。然后将手部深度图像表示为点云，模拟手部可见表面，有效地利用深度图像中的三维信息。

最后将手部点云数据输入改进的ＰｏｉｎｔＮｅｔ网络，准确地进行三维手姿估计。改进的ＰｏｉｎｔＮｅｔ网络通过引入跳跃

连接，充分利用不同层次的特征，更好地捕捉手部的复杂结构。在ＮＹＵ手姿数据集上进行验证，实验结果表明，

提出的方法优于现有的大部分方法，并且网络结构简单、易于训练，运行速度快。

关键词：三维手姿估计；单幅深度图像；ＰｏｉｎｔＮｅｔ；神经网络

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）１００６３３１８８０５

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．０６．０１７１

３ＤｈａｎｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｍｐｒｏｖｅｄＰｏｉｎｔＮｅｔ

ＭａＬｉ，ＪｉｎＳｈａｎｓｈａｎ，ＮｉｕＢｉｎ



（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎ，ＬｉａｏｎｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ１１００３６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｄｕｅｔｏｔｈｅｄｉｆｆｉｃｕｌｔｙｏｆｃａｐｔｕｒｉｎｇｃｏｍｐｌｅｘｓｔｒｕｃｔｕｒｅｏｆｈａｎｄｓ，３Ｄｈａｎｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｉｎｓｉｎｇｌｅｄｅｐｔｈｉｍａｇｅｓｔｉｌｌ

ｓｕｆｆｅｒｓｆｒｏｍｔｈｅｉｓｓｕｅｓｏｆｌｏｗａｃｃｕｒａｃｙａｎｄｐｏｏｒｒｏｂｕｓｔｎｅｓｓ．Ｉｎｏｒｄｅｒｔｏｓｏｌｖｅｔｈｅｓｅｐｒｏｂｌｅｍｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａ３Ｄｈａｎｄ

ｐｏｓｅｅｓｔｉｍａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｉｍｐｒｏｖｅｄＰｏｉｎｔＮｅｔ．Ｔｈｅｍｅｔｈｏｄｆｉｒｓｔｌｙｕｓｅｄａｂｏｕｎｄｉｎｇｂｏｘｌｏｃａｌｉｚａｔｉｏｎｎｅｔｗｏｒｋｔｏｐｒｅｄｉｃｔａ

３Ｄｂｏｕｎｄｉｎｇｂｏｘ

，ａｎｄｔｈｅｒｅｂｙａｃｃｕｒａｔｅｌｙｃｒｏｐｐｅｄｔｈｅｈａｎｄｒｅｇｉｏｎ．Ｔｈｅｎ，ｉｔｒｅｐｒｅｓｅｎｔｅｄｔｈｅｄｅｐｔｈｉｍａｇｅｏｆｔｈｅｈａｎｄｗｉｔｈｐｏｉｎｔ

ｃｌｏｕｄ．Ｔｈｅｐｏｉｎｔｃｌｏｕｄｔｈａｔｕｓｅｄｔｏｍｏｄｅｌｔｈｅｖｉｓｉｂｌｅｓｕｒｆａｃｅｏｆｔｈｅｈａｎｄ，ｃｏｕｌｄｅｆｆｅｃｔｉｖｅｌｙｕｔｉｌｉｚｅｔｈｅ３Ｄｉｎｆｏｒｍａｔｉｏｎｉｎｔｈｅ

ｄｅｐｔｈｉｍａｇｅ．Ａｔｌａｓｔ

，ｔｈｅｈａｎｄｐｏｉｎｔｃｌｏｕｄｗａｓｉｎｐｕｔｉｎｔｏｔｈｅｉｍｐｒｏｖｅｄＰｏｉｎｔＮｅｔｔｏａｃｃｕｒａｔｅｌｙｅｓｔｉｍａｔｅ３Ｄｈａｎｄｐｏｓｅ．Ｂｙｉｎｔｒｏ

ｄｕｃｉｎｇａｊｕｍｐｃｏｎｎｅｃｔｉｏｎ，ｔｈｅｉｍｐｒｏｖｅｄＰｏｉｎｔＮｅｔｍａｄｅｆｕｌｌｕｓｅｏｆｔｈｅｆｅａｔｕｒｅｓｏｆｄｉｆｆｅｒｅｎｔｌｅｖｅｌｓ，ｓｏｉｔｃｏｕｌｄｃａｐｔｕｒｅｔｈｅｃｏｍ

ｐｌｅｘｓｔｒｕｃｔｕｒｅｏｆｔｈｅｈａｎｄ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎＮＹＵｈａｎｄｐｏｓｅｄａｔａｓｅｔｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｏｕｔｐｅｒｆｏｒｍｓｍｏｓｔ

ｏｆｔｈｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓ，ａｎｄｔｈｅｎｅｔｗｏｒｋｉｓｓｉｍｐｌｅｉｎｓｔｒｕｃｔｕｒｅ，ｅａｓｙｔｏｔｒａｉｎ，ａｎｄｆａｓｔｔｏｒｕｎ．

Ｋｅｙｗｏｒｄｓ：３Ｄｈａｎｄｐｏｓｅｅｓｔｉｍａｔｉｏｎ；ｓｉｎｇｌｅｄｅｐｔｈｉｍａｇｅ；ＰｏｉｎｔＮｅｔ；ｎｅｕｒａｌｎｅｔｗｏｒｋ

０　引言

近年来，手姿估计作为人机交互手段应用于各个领域，特

别是在虚拟现实和增强现实应用中，通常以深度相机所得到的

深度图像为信息输入进行实时三维手姿估计，因此该方向的研

究日益增长。然而，由于三维手姿自由度高，方向变化大，并且

手指具有高度自相似性和严重的自遮挡，导致三维手姿估计仍

然存在精度和鲁棒性的问题。

手姿估计方法可以分为生成方法、判别方法和混合方法。

生成方法设定一个预先定义的手部模型，通过最小化人工定义

的代价函数将其与输入的深度图像匹配，例如采用粒子群优化

算法（

ＰＳＯ）

［１］

等。判别方法从输入的深度图像中定位手部关

节。最近提出的许多三维手姿估计方法都是基于卷积神经网

络（ＣＮＮ）。Ｔｏｍｐｓｏｎ等人

［２］

通过估计每个手部关节的二维热

图，首次应用ＣＮＮ来定位手部关键点。Ｇｅ等人

［３］

扩展了该方

法，利用多视图ＣＮＮ估计每个视图的二维热图。Ｇｅ等人

［４，５］

将深度图像映射到三维，并应用３ＤＣＮＮ进行三维手姿估计。

文献［６］提出以伪三维卷积替代标准３ＤＣＮＮ，加快手姿估计

的速度。文献［７，８］提出一种区域集合网络（ＲＥＮ），能够准确

地估计手部关键点的三维坐标。Ｃｈｅｎ等人

［９］

通过对估计手姿

的迭代优化改进了该网络。Ｏｂｅｒｗｅｇｅｒ等人

［１０］

利用最新的网

络架构、数据扩充和更好地确定手部定位来改进他们之前的工

作

［１１］

。而混合方法是生成方法和判别方法的结合，例如Ｚｈｏｕ

等人

［１２］

通过ＣＮＮ回归手部模型参数，并通过前向运动学推断

手姿。Ｗａｎ等人

［１３］

将两个具有共享潜在空间的深度生成模型

结合用于三维手姿估计。

然而，２ＤＣＮＮ以二维图像作为输入，不能充分利用深度

图像中的三维信息，３ＤＣＮＮ的时间和空间复杂度随着分辨率

呈立体增长，限制该方法只能在低分辨率情况下应用，从而造

成手部细节特征的缺失。而深度图像本质上是由手的可见表

面上的一组无序三维点表示的，实际上可以看做

２．５Ｄ数据。

采用点云表示既可以很好地利用深度图像中的三维信息，又避

免了数据过于庞大。

ＰｏｉｎｔＮｅｔ网络

［１４］

是最近提出的一种直接

将点云作为网络输入的神经网络，但该方法不能很好地捕捉点

云的局部结构。文献［１５］在ＰｏｉｎｔＮｅｔ网络基础上添加多尺度

网络，改进了ＰｏｉｎｔＮｅｔ提取局部特征的能力，并将其应用在Ｌｉ

ＤＡＲ点云地物分类中。ＰｏｉｎｔＮｅｔ＋＋

［１６］

将ＰｏｉｎｔＮｅｔ网络递归

地应用于输入点云，以层次化的方式进行局部特征提取，因而

具有良好的泛化能力，该方法在三维分类和分割等任务中表现

出了良好的性能。Ｇｅ等人

［１７］

首次将层次化的ＰｏｉｎｔＮｅｔ网络应

用于三维手姿估计，通过随机决策森林

［１８］

分割手部深度图像，

然后将其转换为点云，模拟手部的可见表面，利用层次化的

第３７卷第１０期

２０２０年１０月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３７Ｎｏ１０

Ｏｃｔ．２０２０

下载后可阅读完整内容，剩余4页未读，立即下载

Cisco789

粉丝: 10
资源: 930

改进PointNet网络在三维手姿估计中的应用

【含操作视频】基于pointNet的三维点云目标分类识别matlab仿真,输出混淆矩阵验证识别率

【路径规划】基于改进差分实现三维多无人机协同航迹规划matlab源码.md

基于opencv的三维重建代码

C#基于DirectX开发的画出三维点显示的图像

三维多无人机协同航迹规划：基于改进差分算法的Matlab实现

基于泰森多边形的空间品位三维插值方法

深度学习三维点云处理：PointNet++精讲及PyTorch实现

基于三维点云的零部件识别与位姿估计：硕士论文研究

基于简单二维平面靶标的三维视觉测量结构光平面标定方法

基于CNN的图像序列自动分割方法提升三维重建效率

最新资源