枢轴相关神经网络在多模态视频分类中的应用

196 浏览量更新于2024-06-20 收藏 1.56MB PDF 举报

"本文主要介绍了基于枢轴相关神经网络（Pivot CorrNN）的多模态视频分类方法，该方法旨在通过结合不同模态的信息来提升视频分类的准确性。文章详细阐述了Pivot CorrNN的架构和三个核心模块：最大化枢轴相关模块、上下文门控递归单元（cGRU）模块和自适应主动聚合模块。通过在FCVID和YouTube-8M这两个大规模多模态视频数据集上的实验，Pivot CorrNN展现出了优秀的性能，特别是在FCVID数据集上达到了最佳效果，在YouTube-8M上的表现也与当前最先进的技术相当。" 文章首先提出了多模态视频分类的重要性，这是一个利用不同模态输入（如视觉、音频、文本等）来预测视频类别的任务，广泛应用于视频监控、推荐系统、自动驾驶等领域。传统的深度学习方法，如深度卷积神经网络（CNN），往往专注于单一模态，但多模态处理能提供更全面的理解。 Pivot CorrNN的核心架构包含两部分：模态特定流和模态不可知枢轴流。模态特定流专门处理某一特定模态的信息，而枢轴流则对所有模态的信息进行综合处理。为了强化不同模态之间的相互作用，Pivot CorrNN设计了三个关键组件： 1. **最大化枢轴相关模块**：这个模块旨在增强网络中模态不可知枢轴流和模态特定流的隐藏状态之间的相关性，通过这种方式提高预测的精确度。 2. **上下文门控递归单元（cGRU）模块**：cGRU扩展了通用门控递归单元（GRU）的功能，使其能够处理多模态输入，动态地更新枢轴隐藏状态，从而更好地捕捉时间序列中的信息。 3. **自适应主动聚合模块**：最后，该模块将所有模态特定预测与枢轴预测融合，生成最终的分类结果，确保了不同模态信息的有效整合。实验部分，Pivot CorrNN在FCVID和YouTube-8M数据集上进行了评估。在FCVID数据集上，Pivot CorrNN的表现优于其他方法，证明了其在多模态视频分类上的优势。而在大型的YouTube-8M数据集上，尽管未取得最佳结果，但性能依然可与现有最优技术相媲美，显示了其在处理大规模数据时的潜力。基于枢轴相关神经网络的多模态视频分类方法为视频理解领域提供了一个新的视角，通过有效地融合不同模态信息，提高了视频内容识别的准确性和鲁棒性。这种技术对于未来的多模态视频分析和应用有着重要的启示意义。

S. Kang等人

多模式学习

在本节中，对多模态学习进行简要回顾。介绍了多模态表示学习的一

些相关工作

深度学习已被证明有能力为有用的表示建模多种模态[3，24，

27]。一般来说，多模态表征学习的主流方法分为两种：联合表征学

习和协调表征学习。联合表示学习。它学习可以获得的输入模态的联

合表示通过级联、逐元素求和和逐元素乘法，作为神经网络的输

出。第二种方法是基于相似性的分离表示。它学习每个输入模态的单

独表示，而每个表示被约束为与其他模态相似。

第一种方法的研究重点是利用特征之间的各种一阶和二阶相互作

用进行联合表示。Ngiam

等人。

[24]提出了一种基于深度自动编码器

的架构，用于视频和音频模态的联合表示学习。利用自重构和交叉重

构学习联合表示，实现了音视频语音识别。 Srivastava

等人

[

27]提出了

一种基于深度玻尔兹曼机（DBM）的架构，以学习多模态输入空间上

的联合密度模型。通过Gibbs采样，即使存在一些缺失模态，也可以

得到Antol

等人

[4]提出了基于深度神经网络的VQA架构。通过元素乘

法融合图像特征和文本特征，得到联合表示。外积也用于融合输入模

态[6，13，20]。由于完全参数化的双线性模型（使用外积）由于参

数的数量而变得难以处理，因此需要模型复杂性的简化或近似。 Fukui

等人

[

13]使用计数草图投影将外积投影到低维空间，Kim

等人。

[20]限制

所得张量的秩，Ben-Younes

等人。

[6]利用塔克分解来减少参数的数

量，同时保持模型的复杂性。

第二种方法的研究重点是对图像进行分离表示，并引入损失函数

来减小表示之间的距离。诸如内积或余弦相似性的相似性度量可以用

于协调表示。 Weston

等人

[

32]提出了WSABIE，它使用内积来度量相

似性。计算图像特征和文本特征的内积并使其最大化，从而使对应的

图像和注释之间具有较高的相似度。 Frome

等人

[

12]提出DeViSE用于

视觉语义嵌入。DeViSE使用类似于WSABIE的铰链排名损失Huang

等

人。

[16]利用余弦相似度来度量查询和文档之间的相似度该方法直接

利用文档间的相似度对协调表示的研究重点是基于典型相关分析

（CCA）[15]。CCA是旨在学习每种模态的单独表示的方法，同时最

大化它们之间的相关性。一个-

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

枢轴相关神经网络在多模态视频分类中的应用

基于自组织神经网络的多模态MRI图像分割.pdf

用matlab基于神经网络进行多模态分类

基于神经网络多模态数据融合方法 多个神经网络组合

基于注意力神经网络的多模态情感分析.pdf

基于深度神经网络的多模态情感识别（英文）.pdf

基于多模态卷积神经网络的脑血管提取方法研究

基于多模态卷积神经网络的脑血管提取方法研究.pdf

基于多模态深度神经网络的应用层DDoS攻击检测模型.docx

基于张量表示的直推式多模态视频语义概念检测

深度学习驱动的多模态视频分类

最新资源

基于神经网络多模态数据融合方法多个神经网络组合