线性动态系统在动作识别中的新应用

1 下载量 133 浏览量 更新于2024-08-26 1 收藏 638KB PDF 举报
"本文提出了一种使用线性动态系统(LDS)进行动作识别的新方法。通过引入LDS,研究人员能够有效地捕捉视频中动态纹理的时间平稳性。LDS被用于建模从视频序列中提取的时空补丁,因为这些补丁更接近线性时不变系统。由于LDS不处于欧几里得空间,故采用了核主角(Kernel Principal Angle, KPA)来衡量不同LDS之间的相似度,并利用多类谱聚类(Multiclass Spectral Clustering)生成特征表示的码本。此外,文章还提出了一个监督式码本剪枝策略,旨在保留区分度高的视觉词汇,减少动作类别内部的噪声。这种方法在UCF体育和故事片等具有挑战性的数据集上展示了优越的性能,证明了其在复杂场景中处理动作识别的有效性。" 在动作识别领域,线性动态系统(LDS)提供了一个新的视角。传统上,许多方法依赖于时空特征,如光流或深度信息,但LDS能更好地捕捉动态过程的连续性和稳定性。LDS模型通过对连续时间序列的线性状态方程进行建模,可以描述系统的演化。在动作识别任务中,视频序列可以看作是一系列随时间变化的动态纹理,LDS则能够捕获这些纹理的动态特性。 核主角(KPA)在LDS之间的相似度测量中起着关键作用。由于LDS的非欧几里得性质,直接比较变得困难。KPA引入了核方法,使得非线性空间中的角度可以在高维特征空间中进行计算,从而提供了一种有效比较不同LDS的方法。这种方法使得即使在非线性情况下,也能对LDS进行相似度评估。 接着,多类谱聚类用于生成特征表示的码本。谱聚类是利用图论中的谱分解来寻找数据集的最佳分割,它在处理大规模、高维度数据时特别有效。在这里,谱聚类将LDS的表示聚集到不同的簇中,每个簇代表一个视觉词汇,形成码本。码本是特征表示的基础,用于后续的分类步骤。 监督式码本剪枝策略是文章的另一个创新点。传统的码本生成可能包含噪声或不区分性的视觉词汇,这会影响分类效果。通过监控类间和类内的距离,该策略选择那些最大化类间差异同时最小化类内差异的视觉词汇,以增强分类器的性能和鲁棒性。 实验结果在UCF体育和故事片数据集上验证了该方法的先进性。这些数据集因其复杂的背景、动作的变化性和多样性而具有挑战性。所提出的LDS方法在这些数据集上的表现优于其他方法,表明其在真实世界复杂场景中的应用潜力。 这项工作为动作识别提供了一个基于线性动态系统的新框架,结合了核主角和谱聚类等技术,实现了更精确的动作识别。这种方法不仅可以应用于体育和电影场景,还可以推广到其他领域,如监控视频分析和人机交互,对动作识别技术的进步有着积极的推动作用。