收稿日期:20190612;修回日期:20190718 基金项目:2017年辽宁省科技厅博士科研启动基金指导计划资助项目(20170520276)
作者简介:马利(1978),女,辽宁黑山人,讲师,博士,主要研究方向为计算机视觉、嵌入式系统;金珊杉(1994),女,辽宁营口人,硕士,主要研
究方向为计算机视觉;牛 斌 (1963),男 (通 信作 者),黑 龙 江宾 县 人,教 授,硕 导,主 要 研究 方 向 为 嵌入 式 系 统 设计、图 像 处 理及 模 式 识 别
(niub@lnu.edu.cn).
基于改进 PointNet网络的三维手姿估计方法
马 利,金珊杉,牛 斌
(辽宁大学 信息学院,沈阳 110036)
摘 要:针对单幅深度图像三维手姿估计中由于手部复杂结构捕捉困难导致的精度低和鲁棒性较差的问题,提
出一种基于改进 PointNet网络的三维手姿估计方法。该方法首先采用边界框定位网络预测三维边界框,从而准
确裁剪手部区域。然后将手部深度图像表示为点云,模拟手部可见表面,有效地利用深度图像中的三维信息。
最后将手部点云数据输入改进的 PointNet网络,准确地进行三维手姿估计。改进的 PointNet网络通过引入跳跃
连接,充分利用不同层次的特征,更好地捕捉手部的复杂结构。在 NYU手姿数据集上进行验证,实验结果表明,
提出的方法优于现有的大部分方法,并且网络结构简单、易于训练,运行速度快。
关键词:三维手姿估计;单幅深度图像;PointNet;神经网络
中图分类号:TP391 文献标志码:A 文章编号:10013695(2020)10063318805
doi:10.19734/j.issn.10013695.2019.06.0171
3DhandposeestimationmethodbasedonimprovedPointNet
MaLi,JinShanshan,NiuBin
(CollegeofInformation,LiaoningUniversity,Shenyang110036,China)
Abstract:Duetothedifficultyofcapturingcomplexstructureofhands,3Dhandposeestimationinsingledepthimagestill
suffersfromtheissuesoflowaccuracyandpoorrobustness.Inordertosolvetheseproblems,thispaperproposeda3Dhand
poseestimationmethodbasedonimprovedPointNet.Themethodfirstlyusedaboundingboxlocalizationnetworktopredicta
3Dboundingbox
,andtherebyaccuratelycroppedthehandregion.Then,itrepresentedthedepthimageofthehandwithpoint
cloud.Thepointcloudthatusedtomodelthevisiblesurfaceofthehand,couldeffectivelyutilizethe3Dinformationinthe
depthimage.Atlast
,thehandpointcloudwasinputintotheimprovedPointNettoaccuratelyestimate3Dhandpose.Byintro
ducingajumpconnection,theimprovedPointNetmadefulluseofthefeaturesofdifferentlevels,soitcouldcapturethecom
plexstructureofthehand.TheexperimentalresultsonNYUhandposedatasetshowthattheproposedmethodoutperformsmost
oftheexistingmethods,andthenetworkissimpleinstructure,easytotrain,andfasttorun.
Keywords:3Dhandposeestimation;singledepthimage;PointNet;neuralnetwork
0 引言
近年来,手姿估计作为人机交互手段应用于各个领域,特
别是在虚拟现实和增强现实应用中,通常以深度相机所得到的
深度图像为信息输入进行实时三维手姿估计,因此该方向的研
究日益增长。然而,由于三维手姿自由度高,方向变化大,并且
手指具有高度自相似性和严重的自遮挡,导致三维手姿估计仍
然存在精度和鲁棒性的问题。
手姿估计方法可以分为生成方法、判别方法和混合方法。
生成方法设定一个预先定义的手部模型,通过最小化人工定义
的代价函数将其与输入的深度图像匹配,例如采用粒子群优化
算法(
PSO)
[1]
等。判别方法从输入的深度图像中定位手部关
节。最近提出的许多三维手姿估计方法都是基于卷积神经网
络(CNN)。Tompson等人
[2]
通过估计每个手部关节的二维热
图,首次应用 CNN来定位手部关键点。Ge等人
[3]
扩展了该方
法,利用多视图 CNN估计每个视图的二维热图。Ge等人
[4,5]
将深度图像映射到三维,并应用 3DCNN进行三维手姿估计。
文献[6]提出以伪三维卷积替代标准 3DCNN,加快手姿估计
的速度。文献[7,8]提出一种区域集合网络(REN),能够准确
地估计手部关键点的三维坐标。Chen等人
[9]
通过对估计手姿
的迭代优化改进了该网络。Oberweger等人
[10]
利用最新的网
络架构、数据扩充和更好地确定手部定位来改进他们之前的工
作
[11]
。而混合方法是生成方法和判别方法的结合,例如 Zhou
等人
[12]
通过 CNN回归手部模型参数,并通过前向运动学推断
手姿。Wan等人
[13]
将两个具有共享潜在空间的深度生成模型
结合用于三维手姿估计。
然而,2DCNN以二维图像作为输入,不能充分利用深度
图像中的三维信息,3DCNN的时间和空间复杂度随着分辨率
呈立体增长,限制该方法只能在低分辨率情况下应用,从而造
成手部细节特征的缺失。而深度图像本质上是由手的可见表
面上的一组无序三维点表示的,实际上可以看做
2.5D数据。
采用点云表示既可以很好地利用深度图像中的三维信息,又避
免了数据过于庞大。
PointNet网络
[14]
是最近提出的一种直接
将点云作为网络输入的神经网络,但该方法不能很好地捕捉点
云的局部结构。文献[15]在 PointNet网络基础上添加多尺度
网络,改进了 PointNet提取局部特征的能力,并将其应用在 Li
DAR点云地物分类中。PointNet++
[16]
将 PointNet网络递归
地应用于输入点云,以层次化的方式进行局部特征提取,因而
具有良好的泛化能力,该方法在三维分类和分割等任务中表现
出了良好的性能。Ge等人
[17]
首次将层次化的 PointNet网络应
用于三维手姿估计,通过随机决策森林
[18]
分割手部深度图像,
然后将其转换为点云,模拟手部的可见表面,利用层次化的
第 37卷第 10期
2020年 10月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No10
Oct.2020