ZJB-VQA：先验注意力机制在视频问答中的应用

需积分: 0 54 浏览量更新于2024-06-30 收藏 8.23MB DOCX 举报

"许振雷的一篇硕士学位论文，探讨了ZJB-VQA，即先验注意力机制在视频问答（Video Question Answering）领域的应用，旨在解决该领域中的挑战，如视频内容理解、特征提取效率和问题处理策略。论文指出当前方法存在的不足，并提出了改进方案。" 在深度学习领域，视频问答是一个关键问题，它在安全监控和广告系统等应用场景中发挥着重要作用。准确的视频问答系统能够提升视频内容的理解，例如在识别监控视频中的人类行为或在自动化商店中分析顾客行为。然而，由于视频数据量庞大且具有时间结构，理解视频内容仍然是一个极具挑战性的问题。近年来，注意力机制在自然语言处理中取得了显著进展，并被引入到视频问答任务中。尽管这种机制能够捕获视频的全面信息，但同时也面临着训练成本高、信息冗余的问题。此外，一些方法通过提取片段帧信息来描述视频，但帧信息的选取平衡（过多或过少）是个难题。再者，当前处理问题的方式相对简单，通常未去除停用词，影响了问题理解的精确性。最后，现有的模型往往忽视了视频问答任务的复杂性和逻辑性，这限制了模型的泛化能力和实际应用效果。许振雷的硕士论文针对以上问题，提出了ZJB-VQA方案，该方案可能包含了对先验注意力机制的优化，以更高效地提取视频特征，减少冗余信息，同时改进问题处理策略，考虑停用词过滤和任务的逻辑结构。论文可能还涉及了模型的设计和实验验证，以证明所提方法在提高视频问答准确率和泛化性能方面的有效性。这篇论文对于理解视频问答领域的现状和未来发展方向提供了有价值的见解，同时为研究人员提供了改进现有模型的思路，有助于推动视频问答技术在工业界的应用。

第 1 章绪论

还有大量岗位在做人工鉴黄）、视频推荐、语音生成（Facebook 将机器学习应用

在社交软件上，将短视频理解并生成音频，并朗读给视觉残障人士，来更好的丰

富他们的上网体验）。随着相关技术的不断成熟，尤其是深度学习，视频问答任

务不断进步，提高视频问答的性能，将会给人们带来更大的帮助，带来更多的科

研价值以及现实意义。

1.2 视频问答的国内外研究现状

由于视频问答是比较前沿的研究，目前学术界和工业界在该任务上的研究并

不是很多，但是有关其父任务（图像问答[1]）上研究的却非常多，而且获得了

前所未有的进展。

从模型的角度来看，图像问答的趋势主要集中在将图像特征与文本特征进行

融合，从而达到端到端的训练。从图像领域来说，随着层出不穷的网络结构的提

出，使用卷积神经网络进行图像特征表达已成为主流。同样自然语言处理也发展

迅速，从早期的词袋模型[2]、Word2vec[3]到今年的自然语言处理预训练模型

Bert[4] 、XLNet[5]等等，计算机能够抽取语法以及语义特征，从而抽象地提取

文本特征。在两者结合的任务（图像问答任务）上，如何将文本的特征以及图像

的特征抽取出来并进行有效的结合，成为近年来的发展方向。2015 年 Zhou 等人

[6]提出了图像问答的基线，如图1-4所示引入了 iBOWIMG 模型，首次用 VGGNet[7]

网络对图像进行特征提取，对问题以及答案进行词袋编码[2]，继而将图像特征

与问题特征进行拼接，经过分类层输出每个答案的概率，与真实答案进行误差计

算，从而实现梯度回传，达到训练的目的，开启了图像问答的先河。

图 1-4 iBOWIMG 模型

2017 年 Aishwarya 等人[1]正式提出了图像问答的任务，提出了使用进行图

像特征提取，使用循环神经网络 LSTM[8]进行问题文本的特征提取，将两者特征

进行拼接的方法从而达到训练的目的。Aishwarya 等人使用语言模型从 COCO[9]

的图像标注中自动生成了问答题，同时规定答案必须是一个单词，包含了 4 个主

江南大学硕士学位论文

题:物体、数量、颜色和位置，但是只支持一个问题且答案只能是一个单词，不

具有现实意义。2017 年 Vaswani 等人[10]提出注意力机制，将注意力机制应用

在图像问答领域也成为焦点。Xu 等人[11]将问题进行特征表达后形成卷积核与

图像进行卷积操作，从而得到图像空间上的区域关注图，可更准确地提取特征。

Peter 等人[12]提出了自上而下和自下而上相结合的注意力模型方法，应用于视

觉场景理解和视觉问答系统等相关问题。其中基于自下而上的关注模型（一般使

用 Faster R-CNN [13]）用于提取图像中的兴趣区域，获取对象特征；而基于自

上而下的注意力模型用于学习特征所对应的权重，实现对视觉图像的深入理解。

在 2017 VQA（Visual QA） Challenge

比赛中取得了第一名，证明了该方法的有

效性。以上都是图像问答的国内外研究现状，可见，图像问答方面进展显著。直

到 Jang 等人[14]提出将 C3D [15]与 ResNet [16]特征与问题和答案进行 Glove

[17]提取的 Word2vec 特征进行结合，进行注意力机制端到端的训练，视频问答

才渐渐成为研究的热点。

目前国内外对视频问答的研究方法主要有 3 种分别为：联合嵌入，视频描述

以及注意力机制。

（1）联合嵌入方法是视频问答任务中最常见的一种方法，方法为使用卷积

神经网络（即 CNN）提取视频的特征，同时利用递归神经网络来提取问题文本的

特征表达，接下来将视频提取的的特征与问题的特征拼接直接输入到模型中，从

而生成每个答案的概率。对于视频特征而言，目前主流方法是采用 ImageNet[18]

中的预训练（ Pre-train ）模型（如 VGGNet[19] 、 ResNet[16] 以及

GoogleNet[20]）来提取图像特征。对于问题文本而言，采用 LSTM 和 GRU[21]等

来提取文本特征。Xue[22]等人提出了 Re-watching 和 Re-watcher 两种机制，来

模仿人类阅读问题时不断观察视频的行为，并将它们组成起来称之为

forgettable-watcher 模型。

（2）视频描述方法。视频描述将一段视频转换成自然语言描述的句子，是

视频分析领域中的一个研究任务。视频描述方法将视频转换成文本，从而利用自

然语言处理的方法得到问题的答案。Wang[23]等人提出了一种称之为分层记忆网

络（Layered Memory Network，LMN）的模型，从电影或者电视剧字幕中提取单

词和句子，利用 LMN 生成视频表达，最后通过语义匹配将问题与视频转换后的文

本从而生成答案。Lie[24]等人则是使用在 ImageNet 上预训练的 Faster R-

CNN[13]模型先获取出每一帧图像中的目标和位置信息属性，并且将视频中的字

幕信息进行学习，得到相关的视觉标签，将获取的区域特征（目标和位置属性）、

视频特征和问题文本特征输入到模型中，从而输出问题的答案。

（3）注意力机制模型，首先在机器翻译[25]任务中被提出来，在循环神经

https://visualqa.org/

第 1 章绪论

网络中识别句子中不同部分的权重，从而让神经网络注意不同的单词。注意力机

制在机器翻译中取得了很大的进展，因此在视频问答任务上的研究也比较火热。

Yu[26]等人提出了一种被称之为联合序列融合的模型（Joint Sequence Fusion,

JSFusion）。联合语义张量（Joint Semantic Tensor，JST）在多模块序列之间

采用密集的 Hadamard 积来生成 3D 的张量，然后采用学习的自注意力机制来突出

3D 的匹配向量。卷积分层解码器（Convolutional Hierarchical Decoder，

CHD）通过卷积以及卷积门模块来发现 JST 模块生成的 3D 张量的局部对准分数。

该方法作为一种通用的模型，能够应用于各种多模态的序列数据对，能够用于视

频检索，视频问答多项选择以及空白填空等任务。Ye[27]等人使用将视频特征与

问题特征融合的双重注意力机制来解决视频问答问题。Xu[28]等人使用利用

Appearance 和 Motion 两种不同的注意力机制来加强问题和视频之间的关系，再

使用 RNN 的变体 AMU（Attention Memory Unit）来对问题进一步处理，从而提高

模型的预测性能。

1.3 课题的来源及研究内容

2018 年，作者参加了阿里巴巴下面的之江实验室举办的全球人工智能大赛

，受该大赛的吸引，作者对该课题非常感兴趣，并进行研究，最终拿到了该大

赛视频问答组的冠军，并作为作者的攻读学术型硕士研究课题。比赛结束后，数

据集仍然可以继续下载，供学术研究。

在现有的视频问答任务方法中，要么只是将视频的帧进行全部提取出来进行

训练，这对机器的要求非常高，因为一个短视频帧数是非常多的，因此将一个视

频中所有的帧全部提取进行深度学习训练是不现实的；要么将视频使用 3D 卷积

进行训练，这对机器的要求也非常高，尤其是显存，3 维卷积的参数量比 2 维卷

积多一个数量级，因此迭代速度慢且精度不高。

针对这种情况，本文提出了两个模型，分别为先验 MASK 的多注意力机制网

络模型以及先验 MASK 的图注意力机制的网络模型。在先验 MASK 的注意力机制的

模型中，首先采用 FFmpeg[29]进行视频的关键帧的提取，然后采用 bottom-up-

attention[30]进行关键帧特征的提取，这一步的提取仅仅能够得到帧的特征，

更能够得到帧中所有对象的特征以及标签，对于文本的处理本文采用了

word2vec 进行词嵌入，然后采用双向 LSTM[31]进行问题文本的特征表达，当获

得视频以及问题文本的特征以后，本文提出了 3 中注意力机制以及先验 MASK 进

行不同角度的加权，使得神经网络从各种方向获得视频与文本的信息。在先验

MASK 的图注意力机制的模型中，采用 Faster R-CNN 抽取视频的物体标签并建立

https://tianchi.aliyun.com/competition/entrance/231676/introduction

剩余62页未读，继续阅读

Msura

粉丝: 698
资源: 323

ZJB-VQA：先验注意力机制在视频问答中的应用

许振雷_大论文1

题目4论文11

福建省级教改实验区基地大学生创新实践项目（校级创新项目）情况表.docx

绑定halcon显示控件，可实现ROI交互，用于机器视觉领域.zip

PPSSPP-macOS.dmg

session身份认证Demo

纯c版本的协程实现汇编切换调度器实现包含服务器端案例客户端并发测试案例.zip

留言墙 - 副本.zip

(源码)基于MQTT协议的远程控制插座系统.zip

GNB是开源的分散式SDVN，实现三层网络.zip

最新资源