没有合适的资源?快使用搜索试试~ 我知道了~
首页ZJB-VQA:先验注意力机制在视频问答中的应用
ZJB-VQA:先验注意力机制在视频问答中的应用
需积分: 0 0 下载量 18 浏览量
更新于2024-06-30
收藏 8.23MB DOCX 举报
"许振雷的一篇硕士学位论文,探讨了ZJB-VQA,即先验注意力机制在视频问答(Video Question Answering)领域的应用,旨在解决该领域中的挑战,如视频内容理解、特征提取效率和问题处理策略。论文指出当前方法存在的不足,并提出了改进方案。" 在深度学习领域,视频问答是一个关键问题,它在安全监控和广告系统等应用场景中发挥着重要作用。准确的视频问答系统能够提升视频内容的理解,例如在识别监控视频中的人类行为或在自动化商店中分析顾客行为。然而,由于视频数据量庞大且具有时间结构,理解视频内容仍然是一个极具挑战性的问题。 近年来,注意力机制在自然语言处理中取得了显著进展,并被引入到视频问答任务中。尽管这种机制能够捕获视频的全面信息,但同时也面临着训练成本高、信息冗余的问题。此外,一些方法通过提取片段帧信息来描述视频,但帧信息的选取平衡(过多或过少)是个难题。再者,当前处理问题的方式相对简单,通常未去除停用词,影响了问题理解的精确性。最后,现有的模型往往忽视了视频问答任务的复杂性和逻辑性,这限制了模型的泛化能力和实际应用效果。 许振雷的硕士论文针对以上问题,提出了ZJB-VQA方案,该方案可能包含了对先验注意力机制的优化,以更高效地提取视频特征,减少冗余信息,同时改进问题处理策略,考虑停用词过滤和任务的逻辑结构。论文可能还涉及了模型的设计和实验验证,以证明所提方法在提高视频问答准确率和泛化性能方面的有效性。 这篇论文对于理解视频问答领域的现状和未来发展方向提供了有价值的见解,同时为研究人员提供了改进现有模型的思路,有助于推动视频问答技术在工业界的应用。
资源详情
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/86360590/bgb.jpg)
第 1 章 绪论
3
还有大量岗位在做人工鉴黄)、视频推荐、语音生成(Facebook 将机器学习应用
在社交软件上,将短视频理解并生成音频,并朗读给视觉残障人士,来更好的丰
富他们的上网体验)。随着相关技术的不断成熟,尤其是深度学习,视频问答任
务不断进步,提高视频问答的性能,将会给人们带来更大的帮助,带来更多的科
研价值以及现实意义。
1.2 视频问答的国内外研究现状
由于视频问答是比较前沿的研究,目前学术界和工业界在该任务上的研究并
不是很多,但是有关其父任务(图像问答[1])上研究的却非常多,而且获得了
前所未有的进展。
从模型的角度来看,图像问答的趋势主要集中在将图像特征与文本特征进行
融合,从而达到端到端的训练。从图像领域来说,随着层出不穷的网络结构的提
出,使用卷积神经网络进行图像特征表达已成为主流。同样自然语言处理也发展
迅速,从早期的词袋模型[2]、Word2vec[3]到今年的自然语言处理预训练模型
Bert[4] 、XLNet[5]等等,计算机能够抽取语法以及语义特征,从而抽象地提取
文本特征。在两者结合的任务(图像问答任务)上,如何将文本的特征以及图像
的特征抽取出来并进行有效的结合,成为近年来的发展方向。2015 年 Zhou 等人
[6]提出了图像问答的基线,如图1-4所示引入了 iBOWIMG 模型,首次用 VGGNet[7]
网络对图像进行特征提取,对问题以及答案进行词袋编码[2],继而将图像特征
与问题特征进行拼接,经过分类层输出每个答案的概率,与真实答案进行误差计
算,从而实现梯度回传,达到训练的目的,开启了图像问答的先河。
图 1-4 iBOWIMG 模型
2017 年 Aishwarya 等人[1]正式提出了图像问答的任务,提出了使用进行图
像特征提取,使用循环神经网络 LSTM[8]进行问题文本的特征提取,将两者特征
进行拼接的方法从而达到训练的目的。Aishwarya 等人使用语言模型从 COCO[9]
的图像标注中自动生成了问答题,同时规定答案必须是一个单词,包含了 4 个主
![](https://csdnimg.cn/release/download_crawler_static/86360590/bgc.jpg)
江南大学硕士学位论文
题:物体、数量、颜色和位置,但是只支持一个问题且答案只能是一个单词,不
具有现实意义。2017 年 Vaswani 等人[10]提出注意力机制,将注意力机制应用
在图像问答领域也成为焦点。Xu 等人[11]将问题进行特征表达后形成卷积核与
图像进行卷积操作,从而得到图像空间上的区域关注图,可更准确地提取特征。
Peter 等人[12]提出了自上而下和自下而上相结合的注意力模型方法,应用于视
觉场景理解和视觉问答系统等相关问题。其中基于自下而上的关注模型(一般使
用 Faster R-CNN [13])用于提取图像中的兴趣区域,获取对象特征;而基于自
上而下的注意力模型用于学习特征所对应的权重,实现对视觉图像的深入理解。
在 2017 VQA(Visual QA) Challenge
1
比赛中取得了第一名,证明了该方法的有
效性。以上都是图像问答的国内外研究现状,可见,图像问答方面进展显著。直
到 Jang 等人[14]提出将 C3D [15]与 ResNet [16]特征与问题和答案进行 Glove
[17]提取的 Word2vec 特征进行结合,进行注意力机制端到端的训练,视频问答
才渐渐成为研究的热点。
目前国内外对视频问答的研究方法主要有 3 种分别为:联合嵌入,视频描述
以及注意力机制。
(1)联合嵌入方法是视频问答任务中最常见的一种方法,方法为使用卷积
神经网络(即 CNN)提取视频的特征,同时利用递归神经网络来提取问题文本的
特征表达,接下来将视频提取的的特征与问题的特征拼接直接输入到模型中,从
而生成每个答案的概率。对于视频特征而言,目前主流方法是采用 ImageNet[18]
中 的 预 训 练 ( Pre-train ) 模 型 ( 如 VGGNet[19] 、 ResNet[16] 以 及
GoogleNet[20])来提取图像特征。对于问题文本而言,采用 LSTM 和 GRU[21]等
来提取文本特征。Xue[22]等人提出了 Re-watching 和 Re-watcher 两种机制,来
模 仿 人 类 阅 读 问 题 时 不 断 观 察 视 频 的 行 为 , 并 将 它 们 组 成 起 来 称 之 为
forgettable-watcher 模型。
(2)视频描述方法。视频描述将一段视频转换成自然语言描述的句子,是
视频分析领域中的一个研究任务。视频描述方法将视频转换成文本,从而利用自
然语言处理的方法得到问题的答案。Wang[23]等人提出了一种称之为分层记忆网
络(Layered Memory Network,LMN)的模型,从电影或者电视剧字幕中提取单
词和句子,利用 LMN 生成视频表达,最后通过语义匹配将问题与视频转换后的文
本从而生成答案。Lie[24]等人则是使用在 ImageNet 上预训练的 Faster R-
CNN[13]模型先获取出每一帧图像中的目标和位置信息属性,并且将视频中的字
幕信息进行学习,得到相关的视觉标签,将获取的区域特征(目标和位置属性)、
视频特征和问题文本特征输入到模型中,从而输出问题的答案。
(3)注意力机制模型,首先在机器翻译[25]任务中被提出来,在循环神经
1
https://visualqa.org/
![](https://csdnimg.cn/release/download_crawler_static/86360590/bgd.jpg)
第 1 章 绪论
5
网络中识别句子中不同部分的权重,从而让神经网络注意不同的单词。注意力机
制在机器翻译中取得了很大的进展,因此在视频问答任务上的研究也比较火热。
Yu[26]等人提出了一种被称之为联合序列融合的模型(Joint Sequence Fusion,
JSFusion)。联合语义张量(Joint Semantic Tensor,JST)在多模块序列之间
采用密集的 Hadamard 积来生成 3D 的张量,然后采用学习的自注意力机制来突出
3D 的匹配向量。卷积分层解码器(Convolutional Hierarchical Decoder,
CHD)通过卷积以及卷积门模块来发现 JST 模块生成的 3D 张量的局部对准分数。
该方法作为一种通用的模型,能够应用于各种多模态的序列数据对,能够用于视
频检索,视频问答多项选择以及空白填空等任务。Ye[27]等人使用将视频特征与
问题特征融合的双重注意力机制来解决视频问答问题。Xu[28]等人使用利用
Appearance 和 Motion 两种不同的注意力机制来加强问题和视频之间的关系,再
使用 RNN 的变体 AMU(Attention Memory Unit)来对问题进一步处理,从而提高
模型的预测性能。
1.3 课题的来源及研究内容
2018 年,作者参加了阿里巴巴下面的之江实验室举办的全球人工智能大赛
2
,受该大赛的吸引,作者对该课题非常感兴趣,并进行研究,最终拿到了该大
赛视频问答组的冠军,并作为作者的攻读学术型硕士研究课题。比赛结束后,数
据集仍然可以继续下载,供学术研究。
在现有的视频问答任务方法中,要么只是将视频的帧进行全部提取出来进行
训练,这对机器的要求非常高,因为一个短视频帧数是非常多的,因此将一个视
频中所有的帧全部提取进行深度学习训练是不现实的;要么将视频使用 3D 卷积
进行训练,这对机器的要求也非常高,尤其是显存,3 维卷积的参数量比 2 维卷
积多一个数量级,因此迭代速度慢且精度不高。
针对这种情况,本文提出了两个模型,分别为先验 MASK 的多注意力机制网
络模型以及先验 MASK 的图注意力机制的网络模型。在先验 MASK 的注意力机制的
模型中,首先采用 FFmpeg[29]进行视频的关键帧的提取,然后采用 bottom-up-
attention[30]进行关键帧特征的提取,这一步的提取仅仅能够得到帧的特征,
更能够 得 到 帧中所有对 象 的 特征以及标 签 ,对于文本的 处 理本文采用了
word2vec 进行词嵌入,然后采用双向 LSTM[31]进行问题文本的特征表达,当获
得视频以及问题文本的特征以后,本文提出了 3 中注意力机制以及先验 MASK 进
行不同角度的加权,使得神经网络从各种方向获得视频与文本的信息。在先验
MASK 的图注意力机制的模型中,采用 Faster R-CNN 抽取视频的物体标签并建立
2
https://tianchi.aliyun.com/competition/entrance/231676/introduction
剩余62页未读,继续阅读
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![exe](https://img-home.csdnimg.cn/images/20210720083343.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://profile-avatar.csdnimg.cn/fe758c420edb45ccb51e54bf62e0806e_weixin_35755562.jpg!1)
Msura
- 粉丝: 69
- 资源: 323
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 电力电子系统建模与控制入门
- SQL数据库基础入门:发展历程与关键概念
- DC/DC变换器动态建模与控制方法解析
- 市***专有云IaaS服务:云主机与数据库解决方案
- 紫鸟数据魔方:跨境电商选品神器,助力爆款打造
- 电力电子技术:DC-DC变换器动态模型与控制
- 视觉与实用并重:跨境电商产品开发的六重价值策略
- VB.NET三层架构下的数据库应用程序开发
- 跨境电商产品开发:关键词策略与用户痛点挖掘
- VC-MFC数据库编程技巧与实现
- 亚马逊新品开发策略:选品与市场研究
- 数据库基础知识:从数据到Visual FoxPro应用
- 计算机专业实习经验与项目总结
- Sparkle家族轻量级加密与哈希:提升IoT设备数据安全性
- SQL数据库期末考试精选题与答案解析
- H3C规模数据融合:技术探讨与应用案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)