JSFusion: 视频问答与检索的联合序列融合模型创新

154 浏览量更新于2024-06-20 收藏 1.74MB PDF 举报

视频问答与检索的联合序列融合模型（JSFusion）是一种创新的深度学习方法，它旨在解决多模态序列数据（如视频和文本）之间的复杂关联。JSFusion由韩国首尔国立大学计算机科学与工程系的Youngjae Yu、Jongseok Kim和Gunhee Kim提出，其主要目标是提高在视频语言任务中的性能，包括多模态检索和视频问答。该模型的核心是构建一个多模态匹配网络，该网络由两个关键组件构成。首先，联合语义张量（Joint Semantic Tensor）将视频剪辑和语言句子转换为3D张量，将两个序列数据有效地整合在一起。这种结构允许捕捉和比较不同模态之间的深层语义信息。其次，卷积积分层解码器（Convolutional Integrative Decoder，CID）是另一个核心部分，它通过分层注意力机制来解析这两个序列模态。分层注意力机制不仅能够学习到表示模式之间的关联，还能够自动忽略不相关的部分，从而提高匹配的精确性。这个自下而上的过程有助于剔除不匹配的特征，使得模型更加专注于有用的信号。尽管JSFusion设计为一个通用模型，能够处理多种多模态序列数据，论文的重点在于视频和语言的交互，比如在LSMDC数据集上进行的多模态检索和视频问答任务。结果显示，JSFusion模型在这些任务上实现了迄今为止最佳的性能，显示出其在处理复杂视频语境中的强大能力。此外，为了进一步验证模型的有效性，研究者还在MSR-VTT数据集上进行了多项选择和电影检索任务，结果表明，相比于众多先进的方法，JSFusion方法展现出更高的精度和效率。视频问答与检索的联合序列融合模型提供了一个有效的框架，用于深入理解和处理多模态数据，为视频理解领域的研究开辟了新的可能性。

Y. Yu，J.Kim和G. 金

m=1

QA数据集最近已经从社区中出现，使用对各种数据源的众包（

例如

，

MovieQA [10] 的电影和TGIF-QA [11] 的动画 GIF ）。Rohrbach等人[1] 将

LSMDC电影描述数据集扩展到VQA域，引入了多项新任务，如多选[12]

和填空[34]。

多项选择问题是，给定一个视频查询和五个描述性句子，在候选中选

择一个最佳答案。为了解决这个问题，利用深度表示[9，11，12]上的排

名损失或联合空间[30]上的最近邻搜索。Torabi等人[12]在查询视频和答

案选择句子之间的联合表示上使用时间注意力。Yu等人[9]使用LSTM顺

序地馈送查询和基于检测到的概念词的答案嵌入条件。填空任务是，给

一个视频和一个句子，其中有一个空格，选择一个合适的词填空。为了

在视频上下文中对句子查询语句进行编码，提出了MergingLSTM[35]和

LR/RL LSTM[36]。Yu等人[9，29]尝试从视频中检测语义概念词，并将它

们与编码语言查询的双向LSTM集成。然而，大多数以前的方法往往过

于关注句子信息，容易忽略视觉线索。对另一方面，我们的模型专注

于学习视频和句子之间的多级语义相似性，因此在这两个QA任务中获得

了迄今为止报道的最佳结果，如将在第4节中呈现的。

联合序列融合模型

我们首先在3.1节中解释描述视频和句子的预处理步骤，然后在3.2我们在

第3.5节中介绍了我们模型的训练过程，并在第 3.6节中将其应用于三个

视频语言任务。

3.1

预处理

句子表示

。我们把每个句子都编码成一个单词。我们首先通过收集在数

据集中出现超过三次的单词来定义词汇字典

（例如字典大小为

|V|

，

824

（对于LSMDC）。我们忽略字典里没有的单词。接下来，我们使用

预训练的手套.42B.300d [37]来获得单词嵌入矩阵E∈ R

×| V|

哪里

300

是单词嵌入维数。我们表示每个的描述

句子：

其中

是句子中的单词数我们限制

每个句子的最大字数为

max

= 40。如果句子太长，我们会丢弃剩余的

多余单词，因为只有0.07%的训练句子超过了这个限制，并且对于较

大的

max

没有观察到性能增益。在本文中，我们使用

表示单词索

引。

视频表示

。我们以5 fps的速度对视频进行采样，以减少帧冗余，

同时最大限度地减少信息丢失。我们采用CNN来编码视频中的视觉和

听觉信息对于视觉描述，我们提取

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

JSFusion: 视频问答与检索的联合序列融合模型创新

视频融合

一种基于神经网络模型的多检索词用户兴趣模型.pdf

大幅超越DALL·E 2和Imagen，斯坦福发布RA-CM3模型，融合检索与生成.rar

视频内容理解与智能检索.pptx

小波矩和HMM的三维CAD模型归类与检索算法.pdf

基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别.docx

(2+1)D多时空信息融合模型及在行为识别的应用.docx

CRAFT模型：剧本到视频的生成，通过组合、检索与融合技术

层次序列嵌入：视频与文本检索的创新方法

从0开始训练Phi2中文小模型，融合LangChain与RAG技术实现知识检索增强

最新资源