Actor-Transformer模型在群体活动识别中的应用

需积分: 5 0 下载量 59 浏览量 更新于2024-08-05 1 收藏 1.5MB PDF 举报
"Actor-Transformers for Group Activity Recognition.pdf" 这篇CVPR论文提出了一种新的方法,即“Actor-Transformers”,用于从视频中识别个体动作和群体活动。现有的解决方案通常依赖于对个体演员位置的时空关系建模,而Actor-Transformers模型则能够学习并选择性地提取对群体活动识别至关重要的信息。 论文的核心是将2D姿态网络和3D卷积神经网络(CNN)的静态和动态特征表达为丰富的演员特定表示,并将其作为输入馈送给Transformer。2D姿势网络提供关于演员位置和姿态的静态信息,而3D CNN则捕捉视频中的时间序列动态信息,两者结合为理解复杂的运动模式提供了全面的视角。 作者通过实验研究了不同方式组合这些表示的方法,揭示了哪些信息对于Transformer来说是重要的,以及如何有效地转换这些信息。实验结果表明,这种信息的选择性和转换对于群体活动识别具有显著的互补优势。 在两个公开的群体活动识别基准测试上,Actor-Transformers模型取得了最先进的结果,超越了之前发表的最佳成绩。这表明,通过Transformer的注意力机制,模型能够有效地处理和理解多个演员之间的复杂交互,从而更准确地识别群体活动。 这篇论文为视频分析领域的群体活动识别带来了创新性的技术,通过Actor-Transformers模型,为理解和处理多目标动态交互提供了一个强大的工具,对于体育赛事分析、监控视频理解等多个领域有潜在的应用价值。