基于深度图的手势识别方法对比

64 浏览量更新于2023-12-04 收藏 489KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2014 Peter Sykora，Patrik Kamencay，Robert Hudec.出版社：Elsevier B.V.由美国应用科学研究所可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 9（2014）19 - 242014年AASRI电路与信号处理会议（CSP 2014）基于深度图Peter Sykora，Patrik Kamencay，Robert Hudec*电信和多媒体系，电气工程学院，日利纳大学，8215/1，01026日利纳斯洛伐克摘要在本文中，两个流行的特征提取方法之间的比较。尺度不变特征变换（或SIFT）是第一种方法。加速鲁棒特征（SURF）作为第二个。这两种方法在一组深度图上进行了测试。在这些深度图中有十个定义的左手手势。微软Kinect摄像头用于拍摄图像[1]。采用支持向量机（SVM）作为分类方法。结果是SVM对所选图像的预测精度。© 2014作者。出版社：Elsevier B. V.这是CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。美国应用科学研究所科学委员会负责同行评议关键词：SIFT; SURF; SVM; Kinect;深度图;手势;识别1. 介绍手势识别是人机非语言交流的发展方向之一。非语言交流在许多生活情况下都是有用的（例如：在人类不能使用语言的情况下）。在手势识别的主题上公开了几种方法[2][3][4]。其中很多研究都是从彩色图像中提取特征并进行分类。为此，重要的是要获得最准确的* 彼得·西科拉联系电话：+421-41-513-2238。电子邮件地址：peter.sykora@fel.uniza. sk2212-6716 © 2014作者出版社：Elsevier B.诉这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。美国应用科学研究所科学委员会负责的同行评审doi：10.1016/j.aasri.2014.09.00520Peter Sykora等人/ AASRI Procedia 9（2014）19特征向量最常用的局部视觉描述符是SIFT和SURF [5]。本文第一章介绍了这些描述子的理论基础和实验描述。最后给出了实验结果和结论2. 特征提取和分类方法在本实验中，创建了深度图像数据库。SIFT和SURF应用于该数据库的图像。将得到的特征向量分为训练集和测试集。为了创建SVM模型，训练集用于称为训练的过程。接下来，测试集用于预测。结果是SIFT和SURF的所有测试图像的预测精度。2.1. SIFT算法尺度不变特征变换是最常用的局部视觉描述符之一。该方法分两步进行。特征点的检测作为第一步。特征描述作为第二步。在程序开始时，计算梯度幅度和像素的方向。这是通过使用点的尺度在关键点的邻域中完成的。这将决定使用什么样的高斯内核来模糊图像。特征向量是根据特征点周围子区域内直方图的方向组合计算的。特征向量至少被归一化。有关SIFT的更多信息，请参见[6]。2.2. SURF算法快速鲁棒特征描述子利用Hessian矩阵的行列式检测特征点H（X，σ）定义如下LxxHX，LX，LX，（一）yx yy其中L是在尺度σ中的点X（x，y）处的图像的高斯二阶导数的卷积，并且对于Lxy和Lyy类似。对于分类，函数的最大值和最小值是使用判别值。描述开始于围绕检测到的特征点构造窗口。窗口方向与可再现方向相同。从该区域中的像素计算得到的特征向量。关于SURF的更多信息，请参见[7]。2.3. SVM支持向量机作为基于模型的分类器的一部分，使用模型进行预测。这个模型是在称为训练的过程中创建的。模型将每个类表示为向量空间中的模式。每个特征向量表示为特征空间中的点。在图1中，为了简单起见，仅示出了两个维度。A类表示为图中的灰点图案，B类表示为绿点。Peter Sykora等人/ AASRI Procedia 9（2014）1921图1.计算最佳分离度。在训练过程中搜索分离线。两个闭合点到线之间的间隙越大，训练过程越好。从图中可以看出，线p2表示比线p1更好的列车过程，因为线p2的间隙v2比线p1的间隙v1更大。如果两个模式不能线性分离，则使用核方法。这将把向量转换到更高维的空间中，在那里它们是可分离的。这个过程将允许多个类别的分类[mata6]。在本实验中，使用RBF核方法。有关SVM的更多信息，请参见[8]。3. 实验结果本章描述了所使用的深度图像输入数据库和实验结果。编程环境Matlab被用来执行这个实验。3.1. 图像数据库捕获手的彩色图像，其后续分割可能需要大量的计算时间以及处理能力。一些分割方法是针对肤色的，如检测手部区域.这样的过程的结果可以根据特定人的光照条件或色调而变化。微软Kinect摄像头的优势在于它使用红外光谱的光线。因此，它对光照条件和皮肤颜色是不变的。Kinect系统可以跟踪检测到的人体部位。22Peter Sykora等人/ AASRI Procedia 9（2014）19图2. 从cass 1到5（第一行）和从6到10（第二行）的手势表示履带式车身（或Sceleton）有其部分左手和右手。通过在图像中定位左手，可以创建手的区域。该区域被定义为以手的位置为中心的150x150像素的正方形。这相当于简单的位置分割。产生的深度图像（分辨率为150x150像素）通过阈值过滤器。这里，所有值低于阈值的像素都被设置为零。在这个过程中，拍摄了1500张照片。有150张图片10类（见图2）。对于SVM方法，数据库被划分为训练集的每类100张图片和测试集的每类50张图片。总共有1000张火车照片和500张测试照片。3.2. 实验结果表1包含描述符SIFT的性能矩阵，表2包含描述符SURF的数据。该矩阵中的每个字段包含由其列号表示的类别的图片的总和，以被识别为由行号表示的类别。例如，在表1中，对于第8行，即对于类别8的输入图像，两个图片被错误地识别为类别1的图片，并且四十八个图片被识别为类别8的图片。表1.SIFT描述符的结果精度性能矩阵输出类/目标类123456789101240002022102041000025000302500000000410050100001252120045030016000004700107020000200028230010048109000013004711020000000034Peter Sykora等人/ AASRI Procedia 9（2014）1923从结果可以清楚地看出，SIFT描述符的旋转不变性在这里是一个缺点。一些手势，主要是1和5，波形相似，并作为一个动作出现，只是方向不同。对于人类的头脑来说，很明显，由类别1表示的手势具有与类别5不同的解释。另一个主要错误发生在类7和类2。在两张照片上，手的形状是不一样的，但它是非常相似的形状。对于SURF（表2），结果与SIFT方法相似。错误发生在形状太相似的类中，例如类2和类7的图片。另一个错误发生在具有相同形状但具有旋转的类，如类4和类10的图片。SIFT的总体准确度为81.2%，SURF为82.8%。显然，如果采用旋转非不变的特征提取方法，则准确率会更高.表2. SURF描述符输出类/目标类123456789101400000002402046000027001300480003000400050000001659110500800360000050004070100001200081210000482090000000040010000000000304. 结论本文对两种特征提取方法进行了比较。SIFT方法为第一种方法，SURF方法为第二种方法。它们被应用于左手手势的深度图图像集。有10个手势。为了拍摄这些图像，使用了Microsoft Kinect相机。对于图像分类，使用支持向量机。实验结果表明，SVM方法对每个描述子的测试集图像的预测精度。从所获得的实验结果是显而易见的，最好的结果，使用SURF方法的准确度为82.8%。捕捉相同手形但具有不同取向的两个图像可以被解释为两个手势。这些方法，SIFT和SURF是不变的方向，因此他们不适合这样的手势识别系统。其他视觉描述符的比较对于为我们的实时手势识别系统找到最佳候选人至关重要[Sykora 2013]。在未来的工作中，我们计划在更大的测试数据库和修改后的特征提取方法（SIFT，SURF），使他们将是非不变的方向上测试这些方法。确认这是斯洛伐克科学项目赠款机构支持的项目1/0705/13“图像元素分类用于语义图像描述”的成果。24Peter Sykora等人/ AASRI Procedia 9（2014）19引用[1] 沈宇杰，郝中华，王鹏飞，马世伟，刘万全，一种基于Kinect深度图的人体检测方法。计算机视觉和模式识别研讨会（CVPRW）; 2013年IEEE会议，卷，不，第535，541页，2013年6月23日至28日。[2] 潘华M，基于形状参数的手势识别。计算，通信和应用（ICCCA）; 2012年国际会议，卷，不，第1、6、22-24页2012年。[3] Jalal A，Uddin M Z，Kim T-S，基于深度视频的人类活动识别系统，使用平移和缩放不变特征用于智能家居的生活记录。Consumer Electronics; IEEE Transactions on，第58卷，第3期，第863，871页;2012年8月。[4] 王文军，王成东，张淑英，李军，基于运动轨迹和关键帧的动态手势识别。高级计算机控制（ICACC）; 2010年第2届国际会议，第3卷，第11号，第163、167页，2010年3月27日至29日。[5] S Matuska，R Hudec，M Benco，M Zachariasova，对象识别中的对手颜色描述符。第15届国际电信技术研究会议;斯洛伐克塞内克; ISBN 978-80- 227-4026-5; 9月11-13日2013年。[6] Han X，Wenhao H，Kui Y，Feng W，基于SIFT关键点和一种新描述符的嵌入式系统实时场景识别。机电一体化和自动化（ICMA）; 2013年IEEE国际会议，卷，不，第1317、1324页，8月4日至7日2013年。[7] 张宏基于改进SURF算法的快速图像匹配。电子;通信和控制（ICECC），2011年国际会议，卷，不，第1460、1463页，9-11日2011年。[8] 孙伟，张晓刚，等.基于支持向量机的遥感图像分类系统.北京：科学出版社，2000，21（3）：100 - 101.信息学与系统（INFOS），2012年第8届国际会议，卷，不，第BIO-181、BIO-187页，2012年5月14-16日。[9] 徐文，张文，等.三维形状运动检测.北京：计算机科学出版社，1999. TRANSCOM 2013; Zilina;ISBN：978-80- 554-0692-3; pp.111，114; 2013年6月24-26日。

下载后可阅读完整内容，剩余1页未读，立即下载