冗余减少注意力机制在细粒度视频分类中的应用

91 浏览量更新于2024-06-20 收藏 1.73MB PDF 举报

"冗余减少注意力的细粒度视频分类" 在细粒度视频分类领域，视频数据由于其丰富的时空信息，通常比静态图像更能提供有价值的区分特征。然而，视频序列中往往存在大量的冗余和不相关帧，这给关键信息的提取带来了挑战。针对这一问题，"冗余减少注意力（RRA）"网络结构被提出，旨在通过抑制冗余特征通道，更加高效地聚焦于视频中的关键模式。 RRA网络的核心在于它的注意力机制。首先，网络通过对选定帧的特征图进行时空软注意力的加权求和来生成视频摘要。这一过程能够捕捉到视频中的动态变化和关键瞬间。接着，网络预测哪些特征通道应该被抑制或增强，这依赖于学习到的非线性变换与先前生成的视频摘要的交互。抑制冗余特征是通过调整特征图并去除弱激活的通道来实现的。这一操作有助于提炼有效信息，去除无用噪声。经过特征通道的更新后，网络在下一次迭代中使用更新后的特征图，进一步优化信息提取。最终，网络基于多个这样的摘要对整个视频进行分类，从而提高了分类的准确性。 RRA方法在多个视频分类数据集上表现出卓越的性能，证明了其在处理细粒度分类任务时的有效性。为了推动该领域的进一步研究，作者还贡献了两个大规模的视频数据集——YouTube-Birds和YouTube-Cars，这两个数据集可供研究者在细粒度视频分类领域使用，数据集可在http://www.cs.umd.edu/~chenzhu/fgvc上获取。细粒度视觉识别任务，如鸟类和汽车模型的识别，需要精确区分类别间的微小差异。传统的特征提取方法可能不足以捕捉这些微妙的区别，因此，RRA网络的注意力机制为解决这一难题提供了新的思路。通过抑制冗余特征，网络能更专注于那些对区分类别至关重要的特征，从而提高分类精度。这种方法对于提升在复杂和相似类别之间的识别能力具有重要意义，尤其是在自动识别系统和人工智能应用中。

C. Zhu

，

谭，

F.Zhou

，

X.Liu

，

K.Yue

、红腹锦鸡儿

E.丁氏Y.马

2.2

视频分类

已经发现，仅使用单个帧的卷积特征的视频分类的准确性已经具有竞争

力

[15

，

24]

。

2D ConvNets

的自然扩展是

3D ConvNets [13]

，它在空间和

时间上都进行卷积

P3D ResNet [24]

将

卷积滤波器分解为使用预训练的

2D ConvNets

初始化的时间和空间卷积滤波器的张量积

I3D [2]

将预训练的

2D ConvNets

注入

3D ConvNets

，在主要视频分类数据集上实现最先进的

准确性。

RNN

是捕获时间维度中的依赖关系的替代方案

[20

，

28]

。

到目前为止，许多性能最好的模型都采用了双流集成

[27]

，它分别在

RGB

图像和光流场上训练两个网络，并将它们的预测融合在一起进行分类。

TSN

[32]

通过融合几个等分的时间段的分数来改进

[27]

另一个方向是考虑区域或帧的重要性。注意力池

[7]

将基于软注意力的

分类器解释为低秩二阶池。注意力集群

[22]

认为，整合一组独立的局部

一瞥比考虑长期的时间模式更重要

[37]

提出了一种关键卷挖掘方法，该

方法学习识别关键卷并同时进行分类

AdaScan [14]

预测视频帧

[26]

利用

层

LSTM

在每一步预测一帧上的注意力图上述两种方法只利用前一帧来

预测重要性或关注度，而忽略了传入的帧。此外，上述所有方法都缺乏

一种能够明智地区分视频中的信息位置和帧的机制。值得注意的是，

Attend and Interact [23]

考虑了对象的交互，而我们专注于通过抑制冗余

特征来提取多

方法

图

示出了所提出的网络的总体结构。相同的结构可用于处理

RGB

和光流输

入，除了改变第一卷积层以适应堆叠光流。一般来说，我们的模型通过软注

意力和通道抑制来学习关注最具区分力的视觉特征进行分类。对于输入，我

们从每个均匀切片的时间片段中取出一帧来表示视频。对于训练，每个剪辑

由其帧的随机样本表示，以增加训练数据的种类。对于测试，在每个剪辑的

相同索引处获取帧是

在进入细节之前，我们列出了在整个论文中使用的一些符号。将特征图

的宽度和高度表示为

和

。xi

∈

是

在该矩阵的一个映射

[

，

…

，

]

∈

所有

帧的映射的组合

。

sthe

dundan

简化

将在第

3.1

节中描述。我们用

表示

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

冗余减少注意力机制在细粒度视频分类中的应用

基于springboot的在线答疑系统文件源码（java毕业设计完整源码+LW）.zip

最简单，最实用的数据库文档生成工具，支持SqlServer/MySQL/Oracle/PostgreSQL/DB2/SQLite数据库

基于springboot的微服务的旅行社门店系统的设计实现源码（java毕业设计完整源码+LW）.zip

“书籍导航”：构建高效的图书管理系统

电子手轮Ver1.1（位置跟随，X轴或Y轴） 1.200smart、威纶通触摸屏 2.手轮或编码器+PLC+伺服驱动器 3.手轮接入PLC，伺服接Q0.0或Q0.1，手轮转动，伺服电机准确跟随 4

wzb剧集爬虫程序代码1.txt

(180384612)Python数据结构与算法-PPT课件.rar

收到防护服快快快啊啊啊啊啊

西门子s7 200smart与3台欧姆龙E5cc温控器通讯控 功能：可以直接应用现场 实现西门子s7 200smart对3台欧姆龙E5cc温控器进行485通讯控制，在触摸屏上设定温度，读取温度，设定探

光伏-电池充电模型，可以很好的稳定直流输出电压 采用最大功率跟踪MPPT算法，通过boost电路输出电压，电池侧采用电压电流PI双闭环控制，通过双向电路给电池充放电 直流侧参考电压为48v

最新资源

西门子s7 200smart与3台欧姆龙E5cc温控器通讯控功能：可以直接应用现场实现西门子s7 200smart对3台欧姆龙E5cc温控器进行485通讯控制，在触摸屏上设定温度，读取温度，设定探

光伏-电池充电模型，可以很好的稳定直流输出电压采用最大功率跟踪MPPT算法，通过boost电路输出电压，电池侧采用电压电流PI双闭环控制，通过双向电路给电池充放电直流侧参考电压为48v