Grassmann流形上学习匹配核的动作识别方法

需积分: 17 0 下载量 91 浏览量 更新于2024-08-13 收藏 1.69MB PDF 举报
"在《IEEE Transactions on Image Processing》2019年1月第28卷第1期的‘在Grassmann流形上学习比赛核以进行动作识别’(Learning Match Kernels on Grassmann Manifolds for Action Recognition)这篇研究论文中,作者Lei Zhang, Xiantong Zhen, Ling Shao (IEEE高级会员) 和 Jingkuan Song提出了一个新的动作识别方法。" 文章主要介绍了动作识别在计算机视觉领域的核心问题,即如何有效地建模动作并计算它们之间的相似性。为解决这一挑战,作者创新性地提出在Grassmann流形上学习动作间的匹配核。Grassmann流形是一种用来表示线性子空间的数学结构,特别适合处理具有时序动态的数据,如视频中的动作。 具体来说,他们将动作建模为在Grassmann流形上的线性子空间。这个子空间由语义视频剪辑中帧上的卷积神经网络(CNN)特征向量集合构成,这些特征向量能够捕捉到局部判别模式和运动的时间变化。为衡量动作间的相似性,作者引入了基于线性子空间典型相关性的Grassmann匹配核(GMK)。GMK能直接对视频进行匹配,从而实现动作识别。这种方法通过监督学习优化内核目标,以增强不同类别动作之间的区分能力。 该文提出的方法结合了CNN的强大特征提取能力和核方法的相似性度量优势,构建了一个通用的学习框架,适用于动作识别的匹配核学习。为了验证方法的有效性,作者在五个具有挑战性的现实数据集——包括YouTube、UCF50、UCF101、Penn Action和HMDB51上进行了广泛实验,结果显示,所提方法表现出高精度,并显著优于现有最新算法。 这篇研究论文提出了一种新颖的Grassmann流形上的匹配核学习策略,为动作识别提供了一种有效且有潜力的方法,展示了在复杂视频数据中理解人类行为的先进思路。