Fig. 1. 用于手势和动作识别的深度学习方法的分类(Asadi-Aghbolaghi等人, 2017年)。
图二.说明性示例时间序列建模(经由LSTM)(Asadi-Aghbolaghi等人, 2017年)。
为了避免这个问题,已经提出了其他类型的网络,例如
LSTM
(长短
期记忆)网络(
Gers
等人,
2002
年)。这些网络主要用作双向
RNN
的隐藏层,其代表
RNN
用于识别人类动作的成功扩展,例如(
B-
RRN
)(
Pigou et al.
,
2015 b
)、分层
RNN
(
H-RNN
)(
Du et
al.
,
2015
)和差分
RNN
(
D-RNN
)(
Veeriah
等人,
2015
年)。
阻碍也是时间建模工具的其他例子,也应用于这种情况下(吴和
邵,
2015
年)。我们在图中展示了第四种方法的一个例子。
2
这四
类方法的性能可以通过将它们的输出与人工辅助函数相结合来提高
(
Ji
等人,
2015
),例如改进的密集轨迹(
iDT
)(
Wang
等人,
2015
年)。
3.
相关作品
特征提取在视频理解和识别中具有重要作用。在早期阶段,广泛用
于传统手工特征提取的方法是基于形状表征的角/IP检测,诸如SIFT
(Lowe,2004)、SURF(Bay等人, 2008)、ORB(Rublee等人,
2011)、定向纹理的直方图(HOG)(Dalal和Triggs,2005)、颜色
/纹理表征如局部二进制模式(LBP)(Ojala等人,1996年)。对于视
频数据,由于动态手势识别具有时间方面,因此这些方法中的一些被扩
展以处理时空信息。Schmid等人(Dalal等人,2006; Laptev等人,
2008) 提 出 了用于 描 述手势的 光 流直方 图 ( HOF)。 Kläser等人
( 2008 ) 提 出 了 一 种 用 于 动 作 识 别 的 3D HOG 特 征 。 Wan 等 人
(2014)将尺度 不变特征变换( SIFT)描 述符扩展到3D增强运动
SIFT。同时,其他技术也采用光流法描述 运动信息。Caetano等 人
(2016)提出了一种基于共生矩阵的时空描述符,作为使用光流幅度和
方向信息计算的纹理描述符。最终特征(OFCM)是纹理特征提取方法
与基于光流的方法相结合的产物. Belgacem等人(2017)提出了一组名
为“手势签名”的9个描述符
的 突破 的 深 学习 对 图像识别
(
Sornam
等人,
2017; Islam et al.
,
2018
)启发了研究使用基于
学习时空特征的算法来处理手势识别。一般来说,像卷积
神经网络
(CNN)这样的深度学习算法自动学习高级语义特征
,而不是需要手
工特征(
Lin et al.
,
2017
年)。因此,已经提出了各种深度神经网
络用于手势识别。
Karpathy
等人(
2014
)提出了一种基于
CNN
的
模型来对大规模数据集上的视频进行分类。
Simonyan
和
Zisserman
(
2014
)提出了一个双流
ConvNet