无约束视频中的人类动作识别:轨迹协方差描述符方法

0 下载量 197 浏览量 更新于2024-08-26 收藏 535KB PDF 举报
"本文主要探讨了在无约束视频中的人类动作识别技术,特别是通过基于轨迹的协方差描述符来提升识别效果。作者提出了一个新颖的Trajectory-Based Covariance (TBC) 描述符,该描述符是在稠密轨迹的基础上构建的。为了将描述符矩阵映射到向量空间并减少数据冗余,采用了对数主成分分析(LogPCA)将TBC描述符矩阵投影到欧几里得空间。在具有挑战性的Hollywood2和TV Human Interaction数据集上进行了测试,实验结果显示,提出的TBC描述符优于传统的基于方向梯度直方图、光流直方图和运动边界直方图的基线描述符,并且在动作识别方面表现出更优的性能。" 本文的研究重点在于解决无约束视频中的人类动作识别问题,这是一个在多媒体事件检测和理解中至关重要的任务。作者提出的TBC描述符是针对这一领域的一个创新性贡献。它利用稠密轨迹作为基础,这通常包括跟踪视频中的运动物体,尤其是人体的关键部位,如关节或身体中心,以捕捉动作的连续变化。 在计算描述符时,TBC方法考虑了轨迹的统计特性,如协方差,以捕获运动模式的复杂性和多样性。然而,原始的协方差矩阵可能维度较高且包含大量冗余信息。为了解决这个问题,文章引入了对数主成分分析(LogPCA)。LogPCA是一种降维技术,能够将高维的协方差矩阵转换为低维空间,同时保留关键信息,这有助于提高识别效率并减少计算复杂性。 实验部分,作者选取了两个具有代表性的数据集——Hollywood2和TV Human Interaction。这两个数据集包含了多种复杂、多样且非结构化的人类交互动作,是评估无约束视频中动作识别算法的理想平台。通过对比实验,TBC描述符在这些数据集上的表现优于其他常用的描述符,如HOG(方向梯度直方图)、HOF(光流直方图)和MBH(运动边界直方图),这表明TBC在处理真实世界视频中的复杂动作识别时更具优势。 这项工作展示了基于轨迹的协方差描述符在无约束视频人类动作识别中的潜力,为未来的研究提供了新的视角和方法。其贡献不仅在于提出了一种有效的特征表示,还在于通过LogPCA进行降维处理,以实现更高效的动作识别系统。