没有合适的资源?快使用搜索试试~ 我知道了~
2917再论视频语言理解中的Sh yamalBuch1,Cristo' balEyzaguirre1,AdrienGaidon2,JiajunWu1,LiFei-Fei1,JuanCarlosNiebles11斯坦福大学,2丰田研究所{shyamal,ceyzagui,jiajunwu,feifeili,jniebles} @ cs.stanford.edu,adrien. tri.global摘要是什么让视频任务特别适合于视频,而不是从单个图像中可以理解什么?基于自我监督图像语言模型的最新进展,我们在视频和语言任务的背景下重新审视这个问题。 我们提出了一种新的视频语言分析模型--无时态探测器(ATP),它为受图像级理解约束的多模态模型的基线精度提供了更强的约束。通过将该模型应用于标准的区分性视频和语言任务,如视频问答和文本到视频检索,我们描述了当前视频语言基准测试的局限性和潜力。我们发现,理解事件的时间性通常不是实现强大或最先进的性能所必需的,即使与最近的大规模视频语言模型相一致,并且在旨在基准更深层次的视频水平理解的上下文中。我们还演示了ATP如何可以改善视频语言数据集和模型设计。我们描述了一种利用ATP来更好地解开具有更高浓度的时间上连续的数据的数据集子集的技术,从而提高了因果和时间理解的基准测试功效。此外,我们表明,有效地将ATP整合到完整的视频级时间模型中可以提高效率和最先进的准确性。11. 介绍视频不仅提供了理解可以从单个图像(例如场景,人和物体)中识别出的内容的承诺,而且还提供了多帧事件的时间性,因果性和动态性(图1(a))。相应地,视频研究的核心问题是:是什么让视频任务特别适合视频,而不仅仅是从单个图像中可以理解什么?作为一个领域,视频分析在视频中的动作分类的背景下深入考虑了这个问题[3,17,43,50]。强卷积模的出现1项目网址:https://stanfordvl.github.io/atp-revisit-video-lang/图1. (a)视频的前景在于有可能超越图像层面的理解(场景、人物等)。捕捉事件的时间性、因果性和动态性。(b)在这项工作中,我们提出了一个无时间探测(ATP)模型,以重新访问视频问答和文本到视频检索的标准基准[29,53,55]中的视频,提供了一个更强大的以图像为中心的例如,ATP发现可以用(c)仅图像级理解而不是(d)完整视频级理解来回答的“因果”问题的非平凡子集用于图像分类的ELS [15]使研究人员能够更好地表征用于识别动作的单帧理解的限制[17,50]。该分析的一个关键发现是,在当时的许多标准视频数据集[24,47]中,根本不需要时间理解2918在这些基准上表现良好。例如,识别静态场景上下文(如游泳池的存在)足以从单个帧中识别这种分析的影响是巨大的:后来的数据集被设计为捕获时间理解的更丰富的分布[6,13,46],更好地分配这些线索[33],模型设计进一步发展,以更好地捕获现在必要的动态来处理这些改进的任务[9与此同时,最近出现的自监督图像-语言模型[20,41]与标准图像分类模型[7,15]具有竞争力的性能,这意味着我们有一个独特的机会在标准区分视频语言任务的背景下重新考虑这个基本问题,例如视频问答[29,53,55]和视频语言检索[16,23,55]。特别地,我们现在可以超越先前的(仅视频)分析工作,主要限于相对较短片段中有限原子动作的识别设置,朝着更长视野、多模态设置中更复杂(时间、因果)的事件理解,其中自然语言的表达能力可以潜在地描述更丰富的事件空间。我们工作的主要动机是通过重新审视视频来分析这些现有的视频语言基准,并获得有助于指导该领域进一步发展的见解。我们的主要问题是,从单个帧(精心挑选,没有时间背景)获得的图像级理解在多大程度上可以解决当前的视频语言任务?为了实现这一目标,我们做出了以下主要贡献:首先,我们引入了无时间探测(ATP)模型,以提供比传统随机帧和平均池基线更强的视频语言设置中图像级理解能力的边界[50]。 在这里,我们利用冻结的自我监督图像语言模型(例如CLIP [40])来提取一组图像和语言表示:我们的ATP模型必须学习选择对应于单个帧的单个重要的是,我们的框架被限制为不能进行时间推理,并且其输出最终受到冻结图像语言模型可以从个体的、去上下文化的视频帧中辨别出的内容的瓶颈。其次,我们应用ATP来分析广泛的视频语言数据集,主要关注视频问题回答,并扩展到文本到视频检索(如图1(b))。令我们惊讶的是,我们发现许多标准和最近的基准可以很好地解决单帧图像理解。特别是,虽然这不是我们的主要目标,但我们发现,我们学习的ATP模型能够在标准视觉语言基准测试中超越最近最先进的视频语言模型[16,23,29,53,55],尽管其存在实质性的瓶颈。对模型容量、能力和输入的限制。我们发现,即使是最近的基准,明确设计的时间和因果关系的理解(例如,[53]),可以具有可由简单的单帧事件识别回答的问题的非平凡子集。如图1(c)所示,虽然询问“为什么”事件发生的问题最后,我们将研究ATP及其提供的见解如何帮助改进数据集和视频级时序建模设计。作为一个案例研究,我们仔细检查了NExT-QA基准[53]。我们发现,ATP能够更好地识别“因果”和“时间”问题的集合在图1(d)中,ATP努力回答这个问题,因为它需要跨时间的多事件反应。 通过改善解缠结 基准数据中的视频和图像级理解的改进,我们可以更好地理解最先进的视频技术的进展,这些技术利用了以图像为中心的模型上的运动特征和事件推理架构,这一结果在原始设置中并不明显我们通过在ATP选择器之上训练时间视频级模型来进一步综上所述,我们的分析表明,我们的ATP技术可以指导视频语言数据集和模型在未来的工作中继续发展的关键途径。2. 背景及相关工作我们的工作涉及视觉和视觉语言研究的许多不同领域,包括特定于视频和特定于图像的设置。在本节中,我们讨论了激励我们做出贡献的先前工作的关键相关领域视频语言理解(任务)。在多模态视觉语言背景下理解事件是计算机视觉界长期面临的挑战。标准的视频语言任务包括区分性任务,如视频问题回答[12,19,26,27,29,53,55,57,58],文本到视频/时刻检索[16,23,42,55,61],和生成任务,如视频帽,[2019 - 04 - 15][2019 - 04- 15][2019 - 04- 15][2019 - 04 -15]在上下文中,我们选择了这些视频语言基准的一个代表性子集,非常适合研究事件的时间性和因果关系。特别是,我们选择专注于区分性任务,因为具有因果描述的生成任务的自动度量(没有人在回路中)仍然是一个开放的研究挑战[38]。此外,许多视频语言任务涉及对辅助文本输入(如脚本)的大量推理[8,58]。这些令人兴奋的方向是对我们目标的补充:我们专注于重新审视现实世界视频本身的事件时间性。2919--视频语言理解(方法)。用于解决这些任务的标准方法[21,23,28,34,48,54]通常对图像导出的外观[7,15]和视频导出的运动特征[3,35,39,45]的组合进行操作,作为对架构[49,60]的输入,该架构[49,60]在最终任务的时间维度上虽然这些模型传统上相当繁重,采用从许多帧中提取的密集特征,但最近的工作[25]表明,通过稀疏性实现端到端训练可以提高准确性。我们提出的方法旨在通过采取不同的方法来补充这些先前的工作:而不是明确地专注于提高最先进的准确性,我们施加了强大的可学习性和表示约束,以更好地分析当前基准真正需要完整视频级理解的程度,以帮助指导未来的模型和数据集设计,以捕获更深层次的事件理解。视频中的时间性(动作识别)。动作和事件识别是视频理解的基本任务,也是关于动作分类中时间性作用的反复深入分析的主题[3,17,43,50,60],对数据集[6,13,46]和随后的模型设计[9我们从这一基础性的先前工作中汲取灵感,同时还旨在将分析扩展到表征有限的原子动作集之外,以实现更长时间范围的时间和因果事件理解,多模态视频语言上下文有可能更好地捕获[53]。图像语言理解。新的自监督视觉语言模型的出现在规模训练[20,40],其中模型学习视觉的联合嵌入空间 [7,15]和语言[5,32]没有明确的低级别标签,已被证明对图像和图像语言理解任务具有破坏性[1,40,44]。我们利用这些模型,包括视觉和语言组件,作为我们分析技术的基础,以更好地描述图像语言理解在多大程度上可以解决当前的视频语言任务。我们的工作是对先前图像语言分析工作的补充[14],该工作揭示了无意的语言偏见:我们的目标是描述这种多模态环境中无意的视频特定偏见高效的以图像为中心的视频建模。最后,我们注意到,我们的技术方法的各个方面从高效的以图像为中心的视频建模文献中汲取灵感,这些文献旨在提高效率并用于动作识别[52]和本地化[56]通过学习如何选择性地处理来自输入视频的稀疏数量的帧。3. 技术途径在本节中,我们描述了我们的非时间探针(ATP)的技术方法,ATP是一种新的建模工具,用于在标准判别视频语言任务的背景✓ 清晰的图像级语义?噪声(运动模糊等)…时间图2. 激发更强的以图像为中心的基线。视频是嘈杂的,相关的帧集合[31]:虽然一些帧具有清晰的图像级语义(上图:一只人手中的小狗),但很大一部分帧可能包含摄像机运动模糊,难以透视和无信息帧。标准的非时间技术,如评估图像级模型的随机帧或平均池,可能容易受到这种噪声,因此不一定代表一个真正的边界上的图像级语义理解的视频语言的上下文中。这激发了我们的无时探针(ATP)模型(第二节)。(3)第三章。3.1. 分类:视频语言任务我们首先简要介绍了我们在这项工作中考虑的符号和区分视频语言任务,即视频问答和文本到视频检索:视频问答。我们的主要分析设置是关于视频问题回答:给定视频CV和语言问题和答案CL=CQ,CA的配对集合,目标是每个(视频,问题)配对(V,Q)提供A中的正确答案。视频语言检索我们还研究了视频语言检索,以评估我们的方法的一般性。在文本到视频检索中,目标是互补的:给定视频CV和语言解压缩CL的配对集合,目标是使用语言L来检索它最初对应的特定视频V我们注意到,在这两种设置中,存在每个任务共同的视频V和语言L(=(Q,A))输入。虽然我们的工作最终分析了这些下游任务的输入和指标的性能,但我们这项工作的核心目标是提供一种改进的分析工具,用于表征这些任务的特定实例。3.2. 激发更强的以图像为中心的基线传统上,视频模型和基准通过使用基于单个(最中心的、随机的等) 选择视频帧[50]。 因为视频可以被认为是有噪声的帧集合,所以这样的基线可能并不真正代表图像约束理解在视频语言上下文中可以实现的范围(图2)。特别是,我们试图回答这个问题:如果我们可以选择一个直观,设置只有场景级描述2920| |--------∈联系我们∈图3. 无颞叶探针(ATP)。我们建议ATP:- 新的、更强的基线,用于表征视频语言任务可以专门利用从仅图像设置(即,针对图像M I和语言M L联合学习的预训练编码器)导出的视觉语言理解来解决的程度。(a)在视频语言任务的更广泛背景下,例如视频问答,我们的ATP模型必须学会选择一个单一的(冻结的,图像衍生的)嵌入,可以为最终任务提供尽可能强的信号。 (b)放大,我们强调我们的ATP模型不使用任何时间信息作为选择的一部分,具有置换不变自注意操作的帧级嵌入(没有时间位置编码)的无序(混洗)集合。此外,可学习的非时间选择器编码器保持低容量。更多详情请参见第3.3被评估的动作应该可以从单个帧中寻址,就像简单的事件识别一样(根据动作识别领域的先前分析,第2节)。然而,根据同样的直觉,试图全面评估更深层次事件动态、因果关系或时间理解的问题/任务原则上应该无法单独从单个框架中回答,需要对不一定在时间上处于同一位置的多个事件进行推理因此,一个有效限制图像级理解的令人信服的基线可能有助于区分这些设置。3.3. 无时态探针(ATP)模型概况. 有了上述激励性的见解,我们提出了一个非时间探针(ATP)模型:一个新的,更强大的分析方法,用于表征视频语言任务可以专门用来自仅图像设置的视觉语言表示来解决的程度。ATP模型(图3)的任务是从视频中找到一个(冻结的,图像衍生的)嵌入,并将其转发给下游的视频语言任务。我们的ATP模型不使用任何时间信息来执行这种选择,用置换不变的自注意操作处理无序的帧嵌入(没有任何序列位置信息)。此外,我们确保ATP的可学习部分保持低容量,只有几个小的层和头数。ATP(上下文)。我们在图3(a)中说明了我们的ATP模型在更大的视频语言任务背景下的概述。对于每个视频V C V,我们绘制帧的随机稀疏(混洗)子集F = v1,. - 是的- 是的 ,v nV,其中通常n<
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功