少镜头视频分类：CMN结构与多显着性嵌入算法

91 浏览量更新于2024-06-20 收藏 3.42MB PDF 举报

本文主要探讨了在视频分类领域，特别是在少镜头视频学习情境下，如何利用先进的存储器网络结构和多显着性嵌入算法来提高模型的性能和效率。作者朱林超和杨毅，来自悉尼科技大学，提出了一种创新的复合记忆网络（CMN）架构，该网络设计旨在解决传统深度学习模型在处理少量标记数据时面临的挑战。 CMN的核心贡献包括： 1. 复合记忆网络：作者构建了一个基于键值记忆网络的框架，其中每个关键记忆单元不再仅仅依赖单一的键，而是涉及多个组成键的协同工作。这种设计允许网络在更大维度的特征空间中捕捉视频的复杂表示，从而提升视频分类的准确性。 2. 多显着性嵌入算法：为了处理视频序列的可变长度并将其转化为固定大小的表示，研究者提出了一种算法，能发掘出视频中的多种显著特征，比如在汽车拍卖场景中，关注汽车的人和关注拍卖活动的人可能会有不同的兴趣焦点。这种方法增强了模型对视频内容的理解和编码能力。 3. 抽象记忆结构：CMN采用抽象的记忆体和组成键形成层次结构，既提高了模型的效率，又保持了对多种关键信息的编码，确保了模型的扩展性和灵活性。 4. 应用与比较：论文通过将CMN与当前最先进的少镜头视频分类数据集上的基准模型进行对比，证明了其在新类别泛化方面的有效性，尤其是在仅有少量样本的情况下，相较于传统的微调方法，CMN展现出更好的性能。这篇论文旨在推动视频分类任务向更少数据、更高效率的方向发展，为解决少镜头视频学习问题提供了一种新颖且有效的解决方案。关键词如“少镜头视频学习”、“视频分类”、“记忆增强神经网络”和“复合记忆网络”都突出了文章的核心内容。

L. Zhu

和

杨

作为预测。Ravi和Larochelle [21]基于长短期记忆（LSTM）[10]训练了

一个元学习器，以生成分类器的更新，元学习器还学习任务公共权重

初始化，其捕获跨任务的共享知识。Finn等人。[5]使用随机梯度下降

作为元学习器来更新学习器的参数，该学习器仅学习权重初始化。

Snell等人[26]将类似的模型应用于Vinyals [32]，但他们使用欧氏距离

与嵌入函数。Hariharan和Girshick [7]提出在测试时生成Xu等人[37]提出

了一种键值记忆网络，通过从外部知识库中提取知识来促进少量学

习，例如，嘈杂的Web图像。然而，他们的设置不是元学习范式。这

些工作主要集中在图像少镜头识别，而我们的目标是学习一个少镜头

的视频模型，这需要建模复杂的视频数据。

视频分类视频分类方法已经从使用手工制作的特征（例如，改进的密

集轨迹[33]，到深度模型，例如，双流卷积神经网络（ConvNets）[24，

34]，3D ConvNets [30]，双流3D ConvNets [3]。递归神经网络也被用于

对视频序列进行建模[38，39]。已经做出了许多努力来使用大量视频数

据来训练视频分类模型，然而，收集大数据集并重新训练所有新类别

的分类器将是昂贵的少镜头视频分类任务在现实世界的场景中更现

实，其中模型将遇到在训练期间从未见过的新类别。应对网络进行培

训，以适应新的任务。

记忆增强神经网络。随着注意力机制[2]、神经图灵机[6]和记忆网络

[35]的成功，记忆增强神经网络获得了越来越多的关注在RNN中，在

步骤之间传输的状态可以被解释为输入的内部存储器表示。最后一步

的状态向量通常用作整个输入序列的最终表示固定大小的向量表示不

能以有效的方式编码长序列。相反，注意力机制保留序列向量作为基

于内容的寻址的上下文。RNN中的状态可以在几步内快速变化，而外

部存储器可以长期保留信息。神经转向机[6]是一种类似计算机的网

络，其增强了外部存储器，可以通过内容和位置进行寻址。读和写操

作是完全可区分的，并且通过反向传播的权重更新被应用于每个存储

器槽。存储器网络[35]和改进的端到端存储器网络[27]具有用于通过

基于内容的寻址进行事实搜索和检索的大型存储器组件键值记忆网络

[19]将记忆分解为键和值部分，引入结构记忆组件以灵活的方式存储

问题-答案对在所有这些工作中使用软寻址，随着存储器大小的增

长，这在计算上是昂贵的Kaiser等[11]最近提出了一种键值记忆模块，

它对记忆进行硬更新，并使用排名损失来训练模型，

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

少镜头视频分类：CMN结构与多显着性嵌入算法

一种改进的嵌入式存储器测试算法

存储器层次结构：替换算法详解及常用策略

理解存储系统：LRU替换算法与存储器分级结构解析

存储器管理：分区分配算法详解及层次结构

深入理解计算机存储器层次结构

冯·诺依曼计算机解析与存储器层次结构

理解计算机组成原理：存储器体系结构详解

虚拟存储器模拟：FIFO与LRU页面置换算法实现

多层存储器结构中的纠错码存储技术研究

C语言模拟虚拟存储器管理：FIFO与LRU页面置换算法

最新资源