深度学习驱动的计算机视觉手势识别：胶囊网络与算法创新

需积分: 0 188 浏览量更新于2024-06-30 收藏 3.56MB PDF 举报

本文主要探讨了基于计算机视觉的手势识别方法，由电子工程学院2016级硕士研究生莫伟珑在罗晓曙教授指导下完成。研究背景是随着科技发展，人机交互的自然化和多样化需求日益增长，手势识别作为一种非接触式的控制方式，具有巨大的潜力。作者关注的重点在于如何利用深度学习，特别是Tensorflow框架，以及Ubuntu 16.04操作系统，克服手势识别中的复杂挑战，如人手变形的不确定性、目标定位、动态变化和环境干扰。研究的核心内容包括两个部分： 1. 卷积神经网络理论基础：作者首先深入阐述了卷积神经网络(CNN)的基本原理，包括其工作机制、卷积层和反卷积层的功能、目标函数优化以及残差技术。这些理论基础为后续的手势图像识别算法设计提供了坚实的理论支撑。 2. 改进胶囊网络的应用：针对传统图像处理方法的局限性，作者提出了一种创新的手势识别方法，即结合胶囊网络与U-net网络和残差技术。首先，构建了U型残差胶囊分割网络，利用改进的胶囊网络算法对手势图像进行分割，提高了对手势的定位精度。接着，通过优化矩阵胶囊网络结构，实现了对手势的高效识别。这种方法旨在通过对手势进行分割、定位和识别，提高手势识别的准确性和鲁棒性。本文通过实验验证了所提算法的有效性，尤其是在实时性方面，达到每秒7-8帧的速度，这对于实际应用中的实时手势交互具有重要意义。整体来看，这项研究不仅提升了计算机视觉在手势识别领域的技术水平，也为未来人机交互的自然化提供了新的可能性。总结来说，本文是一篇深入探讨计算机视觉在手势识别中的应用研究，通过深度学习方法解决了手势识别中的关键问题，并提出了一种高效的手势分割与识别策略，为该领域的进一步发展做出了贡献。

第

章绪论

算出手势轮廓并确定指尖特征，最终将特征采用

DTW

算法实现动态手势识别，但是这种

人工设计特征的方法在增加手势类别的情况下，识别率会大幅下降。

在 2018 年，杜新怡使用 Kinect 深度摄像头来获取深度图像

[21]

，然后使用 Canny 算子

对分割后的图像进行边缘检测，并求出手势轮廓以及相应的重心矩，最后根据指尖坐标点

识别出石头剪刀布，但这种方式只能做一些简单的识别，仍然不能满足日常生活的应用。

吴晴使用 CNN 进行特征提取，并使用 SVM 进行分类

[22]

，对 Sebastien Marcel 手势数据集

和

Jochen Triesch

手势数据集进行识别，分别达到了

98.7%

和

98.6%

的识别精度，该方法减

少了模型的复杂度，取得了良好的效果，但还需要进一步改进。

1.3 主要研究工作

本文基于深度学习 Tensorflow 框架和 Ubuntu16.04 操作系统，研究两种方式实现了手

势识别，并比较两者的性能优劣。本文完成的主要研究工作有以下几个方面：

（1）阐述手势识别在国内外研究发展历程、研究现状和研究的意义，并简述了本文

的总体框架设计。

（

）对卷积神经网络的基础理论做了阐述，包括卷积神经网络的原理、目标函数的

优化、卷积层和反卷积层的特征输出以及残差技术原理，为后续手势图像识别算法的研究

和实现奠定了理论基础。

（

）设计了基于改进胶囊网络与算法的手势图像分割与识别方法，即通过手势分割、

手势定位和手势识别的方式实现了手势识别。

（4）设计了基于 Tiny Yolo v3、Deep-sort 和 DenseNet 多模型与算法综合的手势识别

方法，实现了一种在复杂背景下对手势的检测、追踪和姿态的识别，算法流程速度达到每

秒 7~8 帧。

（5）对本文两种手势识别算法的优缺点做了比较和总结，并对未来的算法的改进和

功能的进一步完善进行了展望。

1.4

论文的组织结构

本文一共分为 5 章，各个章节具体安排如下：

第 1 章阐述手势识别在国内外的研究发展历程、研究现状和研究的意义。

第

章阐述对卷积神经网络的基础理论，包括卷积神经网络的原理、卷积层和反卷积

层的特征输出、目标函数的优化以及残差技术原理。

第 3 章研究基于改进胶囊网络的手势分割和改进矩阵胶囊网络的手势识别方法。实现

整个视频流截帧、图像增强、手势图像分割、手势定位的计算和手势具体分类的流程。

第 4 章研究基于 Tiny Yolo v3、Deep-sort 和 DenseNet 多模型和算法整合的手势识别算

法,通过制作自己的数据集进行模型的训练,实现整个算法流程。

第

章对论文的完成的工作进行分析总结，分析本文算法的优缺点，并对今后的进一

第

章卷积神经网络相关理论

第 2 章卷积神经网络相关理论

卷积是图像处理常用的操作，而卷积神经网络是一种多层感知器，利用局部感受和权

重共享的方式实现对待识别图像特征的提取，最初用于对二维图形图像的识别，已经成为

当前图像识别、检测和分割等计算视觉领域的研究热点。由于其网络结构本身可以提取图

像的多层次特征，在很多的物体识别任务上都取得了很好的效果。深层卷积神经网络为了

识别二维图像，设计了多层感知器，可以从大数据中自动学习图像数据的分布规律，具有

强大的学习和特征表达能力，从而可大大提升图像的识别准确率。

2.1

卷积神经网络的原理

卷积层是卷积神经网络

[23]

进行特征抽取的关键部分。卷积层的输出如公式 2.1 所示，

式中的



表示第

1l

层的第

个特征图，

-1

i j

表示卷积核矩阵，符号

表示卷积操作，

-1

表示

第

1l 

层的偏置，

( )y 

表示非线性的激活函数

[24]

。

1 -1 -1

, i

( * )

l l l l

i j i j

j M

x y x w b





 



（2.1）

池化层

[25]

可用于降维、实现非线性和可以扩大感知野。池化层如公式 2.2 所示，式中

的



和

分别为权值和偏置参数，

( )down 

和

( )y 

分别为下采样函数和激活函数。

1 1

i i

( (x ) b )

l l l l

i i

x y down



 

 

（2.2）

全连接层原理如公式（2.3）所示，全连接层的每个神经元将和上一层的全部神经元进

行全连接，其主要目的是维度变换，把高维的特征变成低维的样本标记。每个神经元可使

用

Relu

[26]

、

Sigmoid

[27]

或

Tanh

等激活函数，最终输出结果为分类结果。

1 1 1

i , i

( b )

l l l l

j i j

x y x w

  

 



（2.3）

网络通过前向传播得到预测输出值后，求出损失函数，再通过反向传播

[28]

对网络的参

数进行更新，修正误差。当网络训练完成，即可得到输入与输出之间的非线性映射关系。

目标函数定义为公式（

2.4

），式中的右边第一项是误差函数，常用的误差函数有均方误差

函数、交叉熵损失函数;公式第二项是以



为权重的 L2 正则化，用于避免训练后会造成过

拟合的问题。

1 1

( (W,b;x ,y ) || ||

i i

J J W





 



W,b)

（2.4）

2.2 卷积层和反卷积层的特征输出

卷积层使用了卷积核对上层的特征图做了卷积运算，从而输入相应的特征图，特征图

按公式 2.5 计算出相应的尺寸大小，具体如图 2.1 所示。

剩余61页未读，继续阅读

马李灵珊

粉丝: 41

深度学习驱动的计算机视觉手势识别：胶囊网络与算法创新

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源