书书书
收稿日期:20180902;修回日期:20181107 基金项目:国家自然科学基金资助项目(61571045);北京成像技术高精尖创新中心项目
(BAICIT2016002);北京市教委科技计划一般项目(KM201811417002);北京联合大学研究生资助项目
作者简介:张宏源(1993),男,河南郑州人,硕士,主要研究方向为深度学习、图像处理;袁家政(1971),男(通信作者),湖南湘潭人,教授,博
导,博士,主要研究方向为视觉计算(jiazheng@buu.edu.cn);刘宏哲(1971),女,河北保定人,教授,硕导,博士,主要研究方向为数字图像处理;原
春锋(
1981),女,山 东 烟 台 人,副 研 究 员,博 士,主 要 研 究 方 向 为 模 式 识 别;王 雪 峤 (1986),女,讲 师,博 士,主 要 研 究 方 向 为 模 式 识 别;
邓智方(1992),男,河南安阳人,博士研究生,主要研究方向为深度学习、图像处理.
基于伪三维卷积神经网络的手势姿态估计
张宏源
1
,袁家政
2
,刘宏哲
1
,原春锋
3
,王雪峤
1
,邓智方
1
(1.北京联合大学 北京市信息服务工程重点实验室,北京 100101;2.北京开放大学,北京 100081;3.中国科
学院自动化研究所 模式识别国家重点实验室,北京 100190)
摘 要:大多数现有的基于深度学习的手势姿态估计方法都使用标准三维卷积神经网络提取三维特征,估计手
部关节坐标。该方法提取的特征缺乏手部的多尺度信息,限制了手势姿态估计的精度。另外,由于三维卷积神
经网络巨大的计算成本和内存需求,这些方法常难以满足实时性要求。为了克服这些缺点,提出以空间滤波器
和深度滤波器级联的方式模拟三维卷积,减少网络参数量。同时,在各个尺度上提取手势姿态特征并加以整合,
充分利用手势的三维信息。实验表明,该方法能有效提高手势姿态估计精度,减小模型尺寸,且在具有单块 GPU
的计算机上能以超过 119fps的速度运行。
关键词:手势姿态估计;伪三维卷积神经网络;三维特征;深度图像;深度学习
中图分类号:TP391.41 文献标志码:A 文章编号:10013695(2020)04058123004
doi:10.19734/j.issn.10013695.2018.09.0772
Handposeestimationusingpseudo3Dconvolutionalneuralnetwork
ZhangHongyuan
1
,YuanJiazheng
2
,LiuHongzhe
1
,YuanChunfeng
3
,WangXueqiao
1
,DengZhifang
1
(1.BeijingKeyLaboratoryofInformationServiceEngineering,BeijingUnionUniversity,Beijing100101,China;2.BeijingOpenUniversity,Beijing
100081,China;3.NationalLaboratoryofPatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,Beijing100190,China)
Abstract:Mostoftheexistingdeeplearningbasedmethodsforhandposeestimationuseastandardthreedimensionconvolu
tionalneuralnetwork(3DCNN)toextract3Dfeaturesandestimatethe3Dcoordinatesofhandjoints.Thefeaturesextracted
bythesemethodslackthemultiscaleinformationofthehand
,whichlimitstheaccuracyofhandposeestimation.Inaddition,
duetothehugecomputationalcostandmemoryrequirementsofthe3DCNN,thesemethodsareoftendifficulttomeetthereal
timerequirement.Toovercometheseweaknesses,theproposedmethodusedaspatialfilterandadepthfiltertosimulate3D
convolutions
,whichreducedtheamountofparameters.Itextractedandintegratesfeaturesatvariousscales,makingfulluseof
the3Dinformationofhandpose.Experimentsshowthatthismethodcanimproveestimationaccuracy,reducemodelsize,and
runatover119fpsonastandardcomputerwithasingleGPU.
Keywords:handposeestimation;pseudo3Dconvolutionalneuralnetwork;3Dfeatures;depthimage;deeplearning
基于视觉的手势姿态估计研究近年来取得了显著的进展,
作为人机交互的核心技术之一,该技术为用户提供了一种自然
的交互方式。由于深度图像可以有效解决单目 RGB输入中存
在的复杂背景干扰等问题,手势姿态估计任务几乎完全转为仅
使用深度数据作为输入
[1~6]
。其次,深度学习改变了视觉问题
的解决方式,深度神经网络的使用已经成为手势姿态估计方法
中的常态
[7~9]
。在众多基于深度神经网络姿态估计的方法中,
深度图常被视为二维图像,输入二维卷积神经网络(convolu
tionalneuralnetwork
,CNN),输出三维关节位置
[8,10]
、手部模型
参数
[7]
或热图
[12]
。直观上来说,由于缺乏 3D空间信息,2D
CNN提取的基于图像的特征并不适用于 3D手势姿态估计。鉴
于此,最近有几种基于 3DCNN的方法被陆续提出
[1,12,13]
,然而
这些方法只是简单地应用 3DCNN提取特征,并未充分利用三
维信息,同时三维网络的训练需要巨大的计算成本,相比于 2D
CNN,模型大小也几乎增加了一倍。为了达到实时性的要求,只
能使用较浅的网络结构,这使姿态估计的效果大打折扣。
针对 3DCNN巨大的计算成本和内存需求问题,文献[14]
提出了一种新的网络结构,称为伪三维残差网络 (
pseudo3D
residualnetworks
,P3DResNet),这种创新的模块设计在保证准
确率的前提下大幅减小了模型尺寸。文献[
15]提出了一种新
型的堆栈式沙漏网络用于人体姿态估计任务,该设计提取和合
并不同尺度下的人体姿态特征,从而显著提升了姿态估计的精
度。本文受此启发,提出了一种基于伪三维卷积神经网络的手
势姿态估计方法,整体网络结构如图 1所示。首先将手势姿态
的深度图编码为
3D体积表示,并将手部区域从体积表示中分
割出来,将其馈送到由基础伪三维残差模块组成的完整网络
中,最终输出手部关节的空间坐标。
本文方法使用改进的手势姿态体积表示方法,训练简单的
CNN获得更准确的手部区域,去除无效区域的影响;使用伪三
维卷积替代标准三维卷积,大幅减小模型尺寸,加快了手势姿
态估计速度;使用三维沙漏结构网络,提取并融合手势姿态多
尺度特征,充分利用三维信息,提高了手势姿态估计精度。
1 相关研究
11 基于深度图像的手势姿态估计
从深度图像中进行手势姿态估计的方法可分为模型生成方
第 37卷第 4期
2020年 4月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No4
Apr.2020