行为识别模型演进：从iDT到S3D

5星 · 超过95%的资源需积分: 36 130 浏览量更新于2024-07-15 1 收藏 6.72MB PDF 举报

"这篇文章主要总结了行为识别领域中的一些基础模型和关键技术，涵盖了从早期的iDT算法到近年来的深度学习方法，如Two-Stream Networks、TSN、C3D、RPAN、CDC、R-C3D、I3D、S3D、CBAM、CoST、TSM、NLNet、SENet以及DANet等。这些模型在3D卷积、时空建模、特征编码和分类等方面进行了深入探索，以提升视频行为识别的准确性和效率。" 行为识别是计算机视觉领域的核心任务之一，其目标是自动检测和理解视频中的行为。随着深度学习的发展，这一领域已经取得了显著的进步。以下是各模型的关键点： 1. iDT算法（2013）：引入了密集采样和特征点轨迹跟踪，通过计算descriptor来提取行为特征，然后进行编码和分类。 2. Two-Stream Networks (NIPS2014)：由两个独立的CNN流分别处理RGB图像和光流图，弥补了对长范围时间结构建模的不足。它在短片段上表现出色，但对全局行为理解有限。 3. TSN (ECCV2016)：提出了时空稀疏采样策略，可以处理长视频，增强了对全局行为的理解。相比Two-Stream，TSN改进了时间跨度的覆盖，提高了识别效果。 4. C3D (ICCV2015)：首次应用3D卷积神经网络（3D-CNN）来直接学习时空特征，区别于传统的2D-CNN，它在三维空间和时间维度上同时进行卷积操作。 5. RPAN (ICCV2017)、CDC (CVPR2017) 和 R-C3D (ICCV2017)：这些模型进一步优化了网络结构，以提升行为识别的性能。 6. I3D (CVPR2017)：引入了Inflated 3D ConvNets，将2D卷积核转换为3D，同时考虑空间和时间维度，提高了行为识别的准确性。通过Bootstrapping 3D filters和Pacing receptive field growth等技术，提升了网络对时空特征的捕获能力。 7. S3D (arXiv2018)：对I3D进行手术，将3D卷积替换或分解为2D和1D卷积，提出了Spatio-temporal feature gating，减少了计算复杂性，同时保持识别性能。 8. CBAM (ECCV2018)、SENet (CVPR2018)、DANet (CVPR2019)：这些模型引入注意力机制，如Squeeze-and-Excitation模块和Convolutional Block Attention Module，增强网络对重要特征的聚焦能力，提高了识别精度。 9. CoST (CVPR2019) 和 TSM (CVPR2019)：提出了协同时空卷积（CoST）和时移模态（TSM），通过改进卷积操作，增强了模型在时空域的建模能力。 10. NLNet (CVPR2018)：利用非局部注意力机制，增强了模型对长距离依赖关系的理解。以上模型代表了行为识别领域的发展历程，从最初的特征工程到深度学习的广泛应用，再到注意力机制的引入，不断推动着行为识别技术的进步。这些方法不仅在视频理解方面有重要应用，也为其他计算机视觉任务提供了宝贵的经验和借鉴。

4. 最后对于多个片段上提取到的特征做一个融合。

3.4. 细节：

由上图所示，一个输入视频被分为 K 段（segment），一个片段（snippet）从它对应的段

中随机采样得到。不同片段的类别得分采用段共识函数（The segmental consensus

function）进行融合来产生段共识（segmental consensus），这是一个视频级的预测。然

后对所有模式的预测融合产生最终的预测结果。

具体来说，给定一段视频 V，把它按相等间隔分为 KK 段。接着，TSN按如

下方式对一系列片段进行建模：

其中：

(T1,T2,⋯,TK)代表片段序列，每个片段 Tk从它对应的段 Sk中随机采样得到。

F(Tk;W)函数代表采用 W作为参数的卷积网络作用于短片段 Tk，函数返回 Tk 相对于所

有类别的得分。

段共识函数 G（The segmental consensus function）结合多个短片段的类别得分输出以

获得他们之间关于类别假设的共识。

基于这个共识，预测函数 H 预测整段视频属于每个行为类别的概率（本文 H 选择了

Softmax函数）。

结合标准分类交叉熵损失（cross-entropy loss），关于部分共识的最终损失函数 G 的

形式为：

其中，C 是行为总类别数，yi 是类别 i 的groundtruth，实验中片段的数量 K 设置为3。本

工作中共识函数 G 采用最简单的形式，即 Gi=g(Fi(T1),…,Fi(TK))，采用用聚合函数

g（aggregation function）从所有片段中相同类别的得分中推断出某个类别分数 Gi。聚合

函数 g 采用均匀平均法来表示最终识别精度。

TSN是可微的，或者至少有次梯度，由 g 函数的选择决定。这使我们可以用标准反向传播

算法，利用多个片段来联合优化模型参数 W。在反向传播过程中，模型参数 W 关于损失

值 L 的梯度为：

其中，K是TSN使用的段数。TSN从整个视频中学习模型参数而不是一个短的片段。与此

同时，通过对所有视频固定 K，作者提出了一种稀疏时间采样策略，其中采样片段只包含

一小部分帧。与先前使用密集采样帧的方法相比，这种方法大大降低计算开销.

4. C3D(ICCV2015)

Learning spatiotemporal features with 3d convolutional networks

github:Caffe

C3D是除了Two-Stream后的另外一大主流方法，但是目前来看C3D的方法得到的效果普

遍比Two-Stream方法低好几个百分点。但是C3D仍然是目前研究的热点，主要原因是该

方法比Two-Stream方法快很多，而且基本上都是端到端的训练，网络结构更加简洁。该

方法思想非常简单，图像是二维，所以使用二维的卷积核。视频是三维信息，那么可以使

用三维的卷积核。所以C3D的意思是：用三维的卷积核处理视频。

4.1. 3D-CNN和2D-CNN的区别

此部分采用C3D网络架构提取视频序列帧的特征，类似于2D卷积，3D卷积的形象描述如

下图3(c)所示。3D卷积对H、W和L三个维度都进行卷积，而2D卷积（多通道(b)）只对H

和W两个维度进行卷积，因此3D卷积得到的是三维输出，而2D卷积得到的是二维输出。

区别：

a)和b)分别为2D卷积用于单通道图像和多通道图像的情况（此处多通道图像可以指同

一张图片的3个颜色通道，也指多张堆叠在一起的图片，即一小段视频），对于一个滤

波器，输出为一张二维的特征图，多通道的信息被完全压缩了。

而c)中的3D卷积的输出仍然为3D的特征图。

如果输入一段视频，其大小是 ,其中C是通道数(一般是3),

，h和w分别是每帧的高和宽，3D卷积的卷积核和

池化核也是3D的，很容易想象得到，就是比2D的往里扩展一个维度，所以核大小是

d是核的时间深度，K*K是空间上的大小。

4.2. 网络结构

网络结构也特别的简单：

C3D共有8次卷积操作，5次池化操作。其中卷积核的大小均为，步长为

。池化核为，但是为了不过早的缩减在时序上的长度，第一层的池化大小和步长

为。

最后网络在经过两次全连接层和softmax层后得到的最终的输出结果。网络的输入为

，其中3为RGB三通道，16为输入图像的帧数，是图像的输入

尺寸。

剩余31页未读，继续阅读

鹏RPZ

粉丝: 15
资源: 1

行为识别模型演进：从iDT到S3D

基于Bi-LSTM-Attention模型的人体行为识别算法

Python-PyTorch行为识别模型库

基于深度学习模型人体行为识别

视频行为识别一些总结方法描述

交通标志识别模型文件

基于卷积神经网络的自行车骑行行为识别.pdf

基于决策树的邮件过滤行为识别模型研究

基于DenseNet模型的狗动作行为识别方法

改进LSTM模型提升车辆轨迹预测精度：行为识别与优化策略

表格转换器结构识别的模型文件

最新资源