行为识别模型演进:从iDT到S3D

5星 · 超过95%的资源 需积分: 36 22 下载量 130 浏览量 更新于2024-07-15 1 收藏 6.72MB PDF 举报
"这篇文章主要总结了行为识别领域中的一些基础模型和关键技术,涵盖了从早期的iDT算法到近年来的深度学习方法,如Two-Stream Networks、TSN、C3D、RPAN、CDC、R-C3D、I3D、S3D、CBAM、CoST、TSM、NLNet、SENet以及DANet等。这些模型在3D卷积、时空建模、特征编码和分类等方面进行了深入探索,以提升视频行为识别的准确性和效率。" 行为识别是计算机视觉领域的核心任务之一,其目标是自动检测和理解视频中的行为。随着深度学习的发展,这一领域已经取得了显著的进步。以下是各模型的关键点: 1. iDT算法(2013):引入了密集采样和特征点轨迹跟踪,通过计算descriptor来提取行为特征,然后进行编码和分类。 2. Two-Stream Networks (NIPS2014):由两个独立的CNN流分别处理RGB图像和光流图,弥补了对长范围时间结构建模的不足。它在短片段上表现出色,但对全局行为理解有限。 3. TSN (ECCV2016):提出了时空稀疏采样策略,可以处理长视频,增强了对全局行为的理解。相比Two-Stream,TSN改进了时间跨度的覆盖,提高了识别效果。 4. C3D (ICCV2015):首次应用3D卷积神经网络(3D-CNN)来直接学习时空特征,区别于传统的2D-CNN,它在三维空间和时间维度上同时进行卷积操作。 5. RPAN (ICCV2017)、CDC (CVPR2017) 和 R-C3D (ICCV2017):这些模型进一步优化了网络结构,以提升行为识别的性能。 6. I3D (CVPR2017):引入了Inflated 3D ConvNets,将2D卷积核转换为3D,同时考虑空间和时间维度,提高了行为识别的准确性。通过Bootstrapping 3D filters和Pacing receptive field growth等技术,提升了网络对时空特征的捕获能力。 7. S3D (arXiv2018):对I3D进行手术,将3D卷积替换或分解为2D和1D卷积,提出了Spatio-temporal feature gating,减少了计算复杂性,同时保持识别性能。 8. CBAM (ECCV2018)、SENet (CVPR2018)、DANet (CVPR2019):这些模型引入注意力机制,如Squeeze-and-Excitation模块和Convolutional Block Attention Module,增强网络对重要特征的聚焦能力,提高了识别精度。 9. CoST (CVPR2019) 和 TSM (CVPR2019):提出了协同时空卷积(CoST)和时移模态(TSM),通过改进卷积操作,增强了模型在时空域的建模能力。 10. NLNet (CVPR2018):利用非局部注意力机制,增强了模型对长距离依赖关系的理解。 以上模型代表了行为识别领域的发展历程,从最初的特征工程到深度学习的广泛应用,再到注意力机制的引入,不断推动着行为识别技术的进步。这些方法不仅在视频理解方面有重要应用,也为其他计算机视觉任务提供了宝贵的经验和借鉴。