时空渐进学习：提升视频动作检测的精确度

146 浏览量更新于2025-01-16 收藏 1.33MB PDF 举报

"时空渐进学习的动作检测器" 在视频分析领域，时空动作检测是一项关键任务，旨在识别视频中的特定动作并精确定位其在空间和时间上的位置。随着图像对象检测技术的发展，许多方法采用了两阶段框架来处理这一问题。然而，视频动作检测面临着比静态图像检测更为复杂的挑战，尤其是考虑到时间维度和动作的空间位移。时空渐进学习（Spatio-Temporal Progressive，STEP）动作检测器是针对这些挑战提出的一种新框架。该框架从粗糙的初始动作建议开始，逐步通过多个步骤进行细化，以生成高质量的动作提案。在每一步中，模型利用前一步的回归输出来改进当前的建议，同时自适应地调整时间跨度，以便包含更多的相关时间上下文。这种方法能够自然地处理动作在空间中的移动，而无需在每个步骤中重新初始化。传统方法通常在剪辑级别进行动作检测，即对短视频片段进行分析。尽管这些方法可以利用时间信息，但它们往往假设空间边界在剪辑内保持不变，这并不适用于具有显著空间位移的动作。相反，STEP框架允许动态调整时间和空间范围，以适应动作的变化。在技术实现上，STEP可能采用了深度学习模型，如卷积神经网络（CNNs），结合循环神经网络（RNNs）或门控循环单元（GRUs）来捕获时间序列信息。这样的模型可以学习捕捉动作的连续性和动态特征，从而提高检测的准确性。在性能评估方面，STEP在UCF101和AVA这两个标准数据集上取得了显著的成果，分别达到了75.0%和18.6%的平均精度（mAP），并且在3个渐进步骤中只使用了相对较少的初始建议。这表明，通过逐步学习和优化，STEP能够在减少计算资源消耗的同时提升检测性能。总结来说，时空渐进学习的动作检测器是一种创新的视频动作检测方法，它有效地解决了视频中动作的空间位移和时间上下文的建模问题。通过逐步学习和自适应时间扩展，STEP提高了检测的准确性和效率，为视频分析提供了强大的工具。

266

我

（

，

）

算法

：针对剪辑

的

STEP

动作检测

输入：视频剪辑

，初始建议

，最大步长

max

Max

最大

值

输出：检测结果

（

，

）

图2：11个初步提案的示例：随着时间的推移复制2D

盒以获得长方体。

提取视频片段的卷积特征

for

←1 to

max

如果s== 1，则

4 //初始提案

−

←

其他

//时间延长（第二节）3.3）

根据最大进度，用

帧剪辑

步骤

Smax

，我们首先提取卷积特征

−

←

Extend

（

−

）

对于一组剪辑

={I

t−S

Max

，

...

，我

...

Max

−

}

端部

使用诸如VGG16 [29]或I3D [4]的骨干网络。

10 //空间细化（第二节）3.2）

S s

100

- 1

渐进式学习从M预定义建议

开始

（

，

）

←

优化（

）

的情况

。

K×

12 //更新建议（等式12）第一章

长方体

且

∈

，它们是稀疏的

.. Σ

从一个粗略的盒子网格中取样，

形成初步提案。我们实验中使用的11个初始提案的示

例如图2所示。然后，这些初步建议将逐步更新，以更

好地对行动进行分类和定位。在每个

←更新

的端

S s

i i

在步骤s中，我们通过依次执行以下过程来更新建议：

•

扩展：提议在时间上扩展到广告剪辑以包括较长范

围的时间上下文，并且时间扩展适应于动作的移

动，如第3.3节中所描述的。

•

细化：扩展的建议被转发到空间细化，空间细化输

出分类和回归结果，如第3.2节所示。

•

更新：使用简单的贪婪算法更新所有建议，即，每

个建议被具有最高分类分数的回归输出替换：

获取不同类型的信息。为了准确的行动

分类，它需要在空间和时间上的上下文特征，而对于

鲁棒的定位回归，它需要在帧级别上更精确的空间线

索。因此，我们的双分支网络由一个

全局分支和一个

局部分支组成，全局分支

对整个输入序列执行时空建

模以进行动作分类，

局部分支

在每一帧执行边界框回

归。

给定当前步骤的帧级卷积特征和tubelet建议，我们

首先通过ROI池化提取区域特征[8]。然后我们将区

域特征带到全局分支进行时空建模，生成全局特征。

每一个全局特征都对一个整体的上下文信息进行

（

）

，

arg max

（

）

，

（

1）

tubelet，并进一步用于预测分类，

把

。此外，全局特征与

其中c是一个动作类，

∈ R

（

）

是第i个建议在C

个

动

作类加上背景上的概率分布，

∈

表示其参数化

坐标（用于计算等式中的局部化损失）3）在

每个帧用于每个类别，并且

指示解码

。

光栅坐标我们总结了我们

算法1中的检测算法。

3.2.

空间精度

在每个步骤s，空间细化解决了涉及动作分类和定位

回归的多任务学习问题因此，我们设计了两个-

我

在每个帧处的相应区域特征以形成

局部特征，其用于生成类特定的回归输出

。我们的

局部特征不仅捕获了tubelet的时空背景，而且还提取

了每帧的局部细节。通过联合训练这两个分支，网络

学习了两个独立的特征，这两个特征具有信息性，并

且能够适应自己的任务。

训练损失。我们强制执行多任务损失，以联合训练

动作分类和tubelet回归。设P

表示步骤s中选定的阳性

样本集，N

表示

步骤s中的阴性样本集（采样策略见第

3.4节）。我们将训练损失L

定义为：

分支体系结构，它为这两个任务学习单独的特性，如

图3所示。我们的动机是

ΣΣ

cls

（

，

）+λ

loc

（

）

，

）

，

（

）

这两项任务的目标有很大的不同，

剩余10页未读，继续阅读

cpongm

粉丝: 6

时空渐进学习：提升视频动作检测的精确度

时空范围学习：深度动作检测新方法

TubeR：视频动作检测的时空小管变换器

SE-STAD：端到端时空动作检测新方法

学习人类动作的时空范围以进行动作检测

基于时空渐进特征模型的抗遮挡多目标跟踪

C#winform基于yowov2深度学习算法部署时空动作检测演示源码.7z

监督时空邻域拓扑学习的动作识别

12周文献阅读思路大纲分析（2）-动作识别 时空对比学习 动作编码 GCN 对比性代理任务 对比学习 三维动作识别

基于深度学习的时空特征融合人体动作识别.pdf

TACNet: 解决时空动作检测的过渡状态问题

最新资源

12周文献阅读思路大纲分析（2）-动作识别时空对比学习动作编码 GCN 对比性代理任务对比学习三维动作识别