视频和语言推理：一个用于多模态理解的新任务

76 浏览量更新于2023-10-23 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10900VIOLIN：一个用于视频和语言推理刘景洲1刘文虎陈文虎2刘玉成3哲甘3于立成3杨一鸣1刘晶晶31卡内基梅隆大学2加州大学圣巴巴拉分校3微软Dynamics 365人工智能研究{liujingzhou，yiming}@ cs.cmu.edu，wenhuchen@ucsb.edu{于.成，于哲.甘，李成.于，景杰}@ microsoft.com摘要我们介绍了一个新的任务，视频和语言推理，联合多模态理解的视频和文本。给定具有对齐字幕的视频剪辑作为前提，与基于视频内容的自然语言假设配对，模型需要推断该假设是否与给定视频剪辑相关联或相矛盾。为此任务引入了一个新的大规模数据集，名为V IOLIN（视频和语言推理），它由来自15，887个视频剪辑的95，322个视频假设对组成，跨越582小时的视频。这些视频片段包含丰富的内容，具有不同的时间动态、事件转移和人与人之间的互动，这些视频片段从两个来源收集：（i）流行的电视节目，以及（ii）来自YouTube频道的电影片段。为了解决我们新的多模态推理任务，需要一个模型拥有复杂的推理技能，从表面水平的基础（例如，识别视频中的对象和人物）到深入的常识推理（例如，推断视频中事件的因果关系）。我们对数据集进行了详细的分析，并对许多强基线进行了广泛的评估，为这项新任务的挑战提供了有价值的见解。1. 介绍视觉和语言联合理解是计算机视觉和自然语言处理（NLP）的核心，并引起了两个社区的迅速增长的关注。流行的任务包括视觉问题回答[4，20]，指涉表达理解[69，68]，视觉对话[12]，视觉推理[27，52，25]，视觉常识推理[72]，NLVR2 [52]和视觉蕴涵[61]。这些以大规模人类注释数据集为基准的多样化Vi- sion+Language任务的出现[39，34]推动了巨大的进步这项工作是在作者在微软实习时完成的联合多模态嵌入学习[53，42，10，51]。然而，大多数这些数据集和模型都集中在静态图像上，留下了视频及其对齐的文本信息（例如，，视频和语言理解）相对未被开发的领域。视频问答是当前视频和语言理解研究中最热门的任务之一。视频问答模型旨在回答给定视频片段的自然语言问题。现有的视频QA数据集包括MovieFIB [44]，MovieQA [54] ， TGIF-QA [26] ， PororoQA [32] 和TVQA [35，36]。而这些数据集已经覆盖了丰富的视频内容池（例如，、卡通、短GIF和电视节目），它们仅限于QA任务。另一方面，在NLP领域，自然语言理解的一个重要基准是自然语言推理（NLI）[5，60]，其中模型由一对句子（前提和假设）表示，并判断这对句子之间的关系（例如，假设和假设）。、矛盾、中立和蕴涵）。受NLI的启发，我们提出了一个新的任务，视频和语言推理，以促进更深入的调查，在视频和语言的理解。具体地，给定具有对齐的字幕的视频剪辑作为前提，并且自然语言陈述作为描述视频内容的假设，期望模型推断该陈述是由给定的视频剪辑引起的还是矛盾的这一新的任务很容易评估，因为只衡量二元分类;而且解决起来也具有挑战性，因为需要对视觉和文本线索进行彻底的解释，以便实现对复杂视频场景的深入理解和推断。我们引入了一个大规模的数据集，这个新的任务，VI德O-和L语言推理（VIOLIN）2，建立在自然的视频内容，丰富的时间动态和社会的互动。从不同来源收集视频剪辑，以涵盖逼真的视觉场景，并2项目网页：https://github.com/jimmy646/violin。109012019 - 02 - 15 00：00：00加文·米切尔办公室瑞秋·格林办公室2019 - 02 - 15 00：00：00把电话给我。2019 - 02 - 18 00：00：00你好，我是瑞秋·格林.有什么可以帮你的吗？2019 - 02 - 16 00：00：17Uh-huh.那好我把你交给你儿子。2019 - 01 - 18 00：00：21嘿妈妈不，那只是我的秘书。（积极）当男人接电话时，女人变得心烦意乱，因为他假装这是他自己的办公室。（否定）当男人接电话时，女人变得心烦意乱，因为她在等妈妈的电话。（正）女人意识到是男人的母亲打来的，她把电话还给了男人。（否定）男人意识到是女人的母亲打来的，他把电话还给了女人。电话铃响了，一个男人接了起来，一个女人把她的手放在桌子上，要求男人把电话给她。戴眼镜的人正在和那两个人谈话，他们需要了解一些情况。推断原因识别特征全球视频理解图1.一个来自VIOLIN数据集的例子。前两行显示带有对齐字幕的视频剪辑。第三行包含三对肯定/否定语句。任务是独立地决定每个陈述是支持还是反驳给定的字幕视频。前两个否定陈述是通过修改部分肯定陈述（用红色标记）来编写的，第三个是通过对抗匹配来策划的（第二节）。第3.1节）。每对陈述下面的文本框指示推断每个陈述的判决所需的推理技能。通过亚马逊机械土耳其人（AMT）3从众包工作者那里收集，他们观看了带有字幕（对话，场景描述等）的视频我们的目标是提供一个数据集，可以测试一个模型为此，我们要求AMT工作人员基于对视频和字幕的共同理解来编写语句，这些语句不仅描述视频中的明确信息（例如，对象、地点、人物、社会活动），而且还揭示了对复杂情节的深入理解（例如，解释人的情感和关系、理解事件、推断整个视频中事件的因果关系）。这将我们收集的陈述与视频/图像字幕数据集中的直接字幕区分开来[39，33，59]，后者由明确的事实描述主导，没有更深层次的推理。为推理任务写否定陈述是一种挑战[5，72]。为了在没有人为暗示或偏见的前提下收集高质量的负面陈述，我们在数据收集中采用了两种策略：（i）规定注释者在撰写否定陈述时，只须更改肯定陈述中的数个字或词组，以确保陈述的风格及篇幅维持不变;（ii）进行对抗性匹配[72]：对于每个视频，从其他视频的陈述池中选择具有挑战性和令人困惑的陈述作为负面陈述。第一个策略确保收集的语句可以测试模型第二种策略更侧重于测试模型对视频的全局理解，以区分视频之间具有高级场景差异的当3https://www.mturk.com/结合在一起，这两种策略产生具有最小视觉或文本偏差的数据集。通过这项工作，我们收集了95 322对视频陈述，其中包含15 887个视频片段，跨度超过582小时。每个视频有6个语句，平均时长为35.2秒。本文的主要贡献有三个方面。（i）我们提出了一个新的任务，视频和语言推理，它需要一个模型来推断一个书面声明是否需要或矛盾的给定视频剪辑。(ii) 我们为此任务引入了一个新的数据集VIOLIN，为测量联合视频和语言理解模型提供了一个可靠的基准。（iii）我们对VIOLIN数据集进行了详细分析，并对强基线进行了评估，并为这项新任务提出了未来的方向。2. 相关工作自然语言推理（NLI）理解句子之间的蕴涵和矛盾关系（即自然语言推理）是自然语言理解的基础。已经开发了几个大规模数据集作为NLI基准，例如SNLI [5]和MultiNLI [60]。NLI也包含在用于评估一般语言理解的GLUE基准中[57]。最近引入的大规模预训练语言模型，如BERT [14]，XLNet [63]和RoBERTa [41]，推动了NLI的重大进展。多任务学习和对抗训练[40，73]也被证明有助于提高模型性能。受NLI的启发，我们提出了视频和语言推理的任务来评估系统然而，与NLI不同的是，我们的任务更具挑战性，因为同时提供视频和文本（字幕）;因此，推理需要对这两种模式有全面的共同理解。10902i=1源发作次数剪辑数量平均剪辑镜头平均位置语句透镜平均阴性语句透镜平均字幕镜头朋友2342,67632.89s17.9417.8572.80绝望主妇1803,46632.56s17.7917.8169.19How I Met Your Mother2071,94431.64s18.0818.0676.78现代家庭2101,91732.04s18.5218.2098.50电影剪辑5,8855,88540.00s17.7917.8169.20所有6,71615,88735.20s18.1018.0476.40表1.用于创建数据集的不同视频源的统计数据视觉蕴涵视觉蕴涵（VE）[61]是最近提出的将NLI扩展到视觉领域的任务在这个任务中，给出了一个自然图像前提和一个自然分配了三个标签：蕴涵、中立和矛盾。该数据集基于Flickr30k图像标题[66]和SNLI [5]创建。类似地，NLVR2 [52]被提出来研究给定图像与自然语言描述之间的我们提出的任务与虚拟企业在以下几个方面有所不同。（i）VE将图像视为输入，而我们的任务则专注于视频。与静态图像相比，视频包含复杂的时间动态，这使得视频和语言推理任务更具挑战性，因为模型需要理解不同视觉场景之间的关系（ii）我们拟议的任务需要更深入的视觉理解。VE任务中的图像大多是自然图像，而VIO-LIN中的视频则是从流行的电视节目和电影片段中收集的这就要求模型不仅要理解明确的视觉线索，还要推断场景背后的深层原理（iii）我们的任务需要更复杂的语言理解。VE是Flickr30k [66]和SNLI[5]的组合，不涉及crowdsouringVE任务中的假设仅由标题组成，包含可以从视觉内容中我们的VIOLIN数据集也使用电视节目作为视频源之一，类似于TVQA [35]。主要区别总结如下：（i）我们的数据集包含更丰富的视频内容，除了TVQA使用的电视节目外，还包括5，885个电影片段。（ii）我们的数据集需要来自模型的更复杂的推理技能，例如推断原因和解释人类情感，而TVQA中的大多数QA对专注于识别显式信息。视觉问题分类我们提出的任务也与视觉问题分类（VQA）有关[4，20]。CLEVR数据集[27]是一个流行的综合诊断数据集，用于测试模型的组合推理能力。最近，GQA [25]被引入到对真实世界的视觉推理进行基准测试，VCR [72]用于视觉常识推理。许多神经网络模型已经被提出用于这些任务，例如更先进的注意力机制[64，43，70]，更好的多模态融合方法[15，71，31，30]，使用多步推理[24，17，7]，结合关系[49，38，45]和神经模块组合推理的网络[2，28，23，9]。我们提出的任务可以提供一个新的角度对这些模型进行基准测试。3. 视频和语言推理数据集在我们用于视频和语言推理的VIOLIN数据集中，输入是由以下序列组成的视频剪辑V：图像中另一方面，VIOLIN主要由视频帧{vi}，与其对齐文本S=不深入研究就无法解决的隐式语句{si，t（0），t（1）}n（si是时间跨度（t（0）→理解视频和文字，专门我（一）i i=1i来评估模型视频和语言研究随着大规模视频数据集的出现[6，1，29，11，58]，已经提出了几个视频和语言任务，如视频字幕[21，56，62，18，33，16，47，59]，定位视频片段，来自自然语言查询的内容[19，3，8，37]，视频推理[65]和视频问答[54，35]。视频字幕是一个有条件的文本生成任务，而其他三个属于视频和语言的理解。特别是，MovieQA [54]，TGIF-QA [26]和TVQA[35，36]，其中包含真实世界的视频和人类生成的问题，最近被提出用于视频问答。我不是）和自然语言语句H作为该假设旨在描述视频剪辑。每（V，S，H）三元组，系统需要执行二进制分类：f（V，S，H）→ {0，1}，决定状态H是从给定视频剪辑中导出（标签1）还是与给定视频剪辑矛盾（标签0）为了增加覆盖面和多样性，我们收集了来自不同来源的视频，包括4个不同类型的热门电视节目和数千部电影的YouTube电影片段。为确保高质量的视频，我们还提供精心设计的协议，以指导众包工作人员选择具有代表性的视频片段，为其撰写正面/负面陈述。数据集收集的程序详见第2.2节。3.1、第3.2对数据集进行了全面分析。10903负面陈述#1：10到40个字正面陈述#1：10到40个字数据集视域源字幕推理任务#图片/视频样本数量[54]第五十四话视频电影✓✗QA6.8K6.5K[44]第四十四话视频电影✗✗QA118.5K349千TVQA [35]视频电视节目✓✗QA21.8K152.5K录像机[72]图像电影✗✓QA110K290KGQA [25]图像室内✗✓QA113K22MSNLI-VE [61]图像自然✗✓蕴涵31.8K565.3KNLVR2 [52]图像自然✗✓蕴涵127.5K107.3KVIOLIN（我们的）视频电视节目/电影✓✓蕴涵15.9K95.3K表2. VIOLIN与其他现有视觉和语言数据集之间的比较。3.1. 数据集集合我们从两个来源收集视频：（i）4个受欢迎的电视节目，以及（ii）来自YouTube频道4的电影片段，涵盖数千部电影。这两个来源都包含丰富的人类互动和活动。电视节目的每一集是20-40分钟长，我们分成90秒长的片段（同时避免在中间分裂对话）。这些90秒长的剪辑可能包含一个以上的场景，然后将其呈现给众包工作者，以选择包含单个独立场景的视频片段，他们可以为其编写语句。此外，我们将所选间隔的长度限制为 15-40 秒，以保持任务的合理难度。对于来自YouTube频道的电影片段，原始长度约为两分钟，通常仅包含电影的一个场景因此，工作人员不需要从所提供的电影剪辑中手动选择视频片段。我们只是从每个电影片段中选择前40秒进行注释，以保持与电视节目片段的图2显示了AMT工作者的界面。通过拖动视频播放器下方的滑块，用户可以调整他们想要选择的片段的开始和结束时间戳（对于影片剪辑，滑块被禁用）。在视频片段被选择之后，它们被呈现给另一组注释器以写入肯定/否定状态。每个工作人员都被分配了一个视频剪辑，并被要求编写三对描述视频的肯定/否定语句（在图2中的文本框中）。我们不要求AMT工作人员遵循任何模板，因为我们的目标是收集多样化和自然的表达。我们确实有几条写积极声明的规则/指南：（i）我们不允许注释者在视频中以名称引用角色。相反，他们应该使用接地的引用表达式（例如，，这样做的目的是保持数据集在不同视频源之间的一致性（并非所有视频剪辑都有角色名称），并减少潜在的偏差（在电视节目中，角色名称的数量非常少）。（ii）我们要求工作人员尽量减少从字幕（例如：，“有人说...”）或描述明确的视觉-4https://www.youtube.com/user/movieclips图2.注释器的用户界面每个注释者都提供了一个视频剪辑，需要首先拖动视频播放器下方的滑块，从视频中选择一个单一场景的剪辑，然后在文本框形成（例如，对象、颜色），并鼓励他们结合来自视频剪辑和字幕的信息来写陈述。（iii）我们鼓励工作人员在不同的陈述对中写下给定视频剪辑的不同方面，这可能需要不同类型的推理，例如推断人物情感/关系/意图以及推断复杂事件中的因果关系。在实践中，我们观察到，当让人类注释者在没有任何约束的情况下编写否定语句时，结果语句显示出严重的偏见（即，模型可以学习对肯定/否定陈述进行分类，甚至不需要从视频或字幕中吸收信息）。当故意在没有任何参考的情况下编写虚假内容时，人类倾向于使用统计模型可以轻松拾取的微妙模式。因此，在收集负面状态时，我们提出了两种策略来缓解偏见问题。首先，我们要求注释者使用一个肯定的陈述作为参考，只修改其中的一小部分使其成为否定的。在这种情况下，声明的大部分内容仍然适用于视频内容，人为引入的偏见被保持在最低限度。这种严格的设置使得通过模型区分语句更具挑战性，并且需要深入的推理来识别虚假内容。对于质量控制，只有位于英语国家的工人10904i=1i=1终身任务批准率大于98%的人可以参与我们的研究。此外，在数据收集过程中，我们会手动检查每位员工VCR [72]提出了对抗性匹配，通过选择与当前问题最相似的正确答案（来自另一个问题）来构建多项选择QA的错误答案。在我们的任务中，我们使用类似的策略。对于视频Vi的人类生成的肯定陈述Hi，我们选择为另一个视频Vj收集的与Hi最相似的肯定陈述Hj，并使用（Hi，Hj）作为视频Vi的一对肯定/否定陈述。使用这种策略，收集的陈述的一部分作为积极和消极的样本，这有助于消除人为偏见。与前面提到的第一种策略不同，以这种方式构建的状态对更多地关注视频的全局理解。例如，在图1中，前两个否定语句是通过修改肯定语句来编写的（修改的部分用红色标记），第三个否定语句是通过对抗匹配获得的。在最终的数据集中，2/3的否定陈述是按照第一种策略构建的，剩下的1/3是按照第二种策略构建的。3.2. 数据集分析VIOLIN数据集包含15，887个视频片段，每个视频片段都用3对肯定/否定语句进行注释，总共产生95，322个（V，S，H）完整数据集的统计数据见表1。每个陈述平均有18个单词，肯定和否定陈述的长度几乎相同，没有显示出明显的长度偏差。如第3.1，我们使用两种策略来收集负面陈述：一种是对抗性匹配，测试模型的全局视频理解能力;另一种是修改视频剪辑的肯定陈述的一小部分，这需要模型的深入推理技能来区分肯定和否定陈述。为了更详细地研究，对于每一对肯定和否定陈述，我们将其分为6种所需的推理技能，如图3所示。“视觉识别”、“识别字符”和“动作识别”的类型“Human dynamics” includes而“推理原因”是关于复杂事件中因果关系的推理。这三种类型的陈述需要深入的理解和常识推理。总的来说，图3.推理类型的分布。“视觉识别”、“识别字符”和“动作识别”侧重于外显视觉信息;其他三个需要高级推理。使我们的数据集平衡，对多方面的视频和语言理解提出了新的挑战。与其他数据集一样，我们的V IOLIN数据集更侧重于推理，而不是表层基础（例如，在TVQA [35]中，只有8.5%的问题需要推理）。4. 模型在本节中，我们将介绍用于对VIOLIN数据集进行基准测试并评估不同特征选择的有效性的基线模型该模型的概述如图4所示。4.1. 视频和文本编码器我们首先从视频帧中提取一个视觉特征序列V∈RT×dV，其中T是时间步数，dV是每个特征的维数。视觉特征的选择将在后面的章节中讨论第5.1条视频编码器由双向LSTM实现，以捕获连续帧之间的时间相关性通过将视频特征传递到视频编码器并从两个方向堆叠隐藏状态，我们获得视频表示为HV∈RT×2d，其中d是LSTM编码器的隐藏状态维数。语句和副标题共享相同的文本编码器。语句被分解成一个顺序{wi}nstmt。字幕中的每一行都是标记化的，所有行都连接在一起成为一个单词序列{ui}nsubtt.这里，nstmt和nsubtt分别是状态和子标题的长度。我们实验了两种类型的文本编码器：LSTM编码器和BERT [14]编码器。对于LSTM编码器，每个单词标记都被转换为它的单词嵌入，然后馈送到LSTM 编码器，产生文本表示 Hstmt∈Rnstmt×2d 和Hsubtt∈Rnsubtt×2d。对于BERT编码器，我们使用预训练的BERT基础模型，对VIOLIN训练语句和字幕进行微调。BERT编码器在每个位置的输出是768维，然后将其投影到2维，也表示为Hstmt和Hsubtt。10905j=1stmtstmtstmtstmtstmtstmtstmtΣT视频声明字幕正确错误图4.视频和语言推理任务的拟议模型概述该模型将视频（一系列帧），其对齐的字幕和陈述假设作为输入，并产生一个标量来测量输入陈述为正的概率4.2. 组合多模态流该模型采用三种信息流作为输入：视频、字幕和声明。我们的目标是确定声明是否与视频和字幕相矛盾在我们的模型中，声明表示联合建模与视频和字幕通过一个共享的融合模块。融合模块采用双向注意力实现，采用[50，67，35]，用于查询上下文匹配。为了简单起见，我们仅描述组合视频流和状态流的过程字幕和声明以类似的方式融合在一起语句表示Hstmt∈RNstmt×2d用作上下文，视频表示HV∈RT×2d用作查询. 因此，语句中的每个词都涉及视频表示中的每个时间步长设ai∈ RT是语句中第i个词的注意力权重，ai，j= 1而不是仅仅定位视频/字幕中与查询最相关的位置（如TVQA [35]）。因此，在我们的模型中，语句中的每个单词都被融合模块中的视频和字幕处理，然后组合并馈送到最终的bi-LSTM来进行预测。5. 实验为了进行评估，我们将我们的模型与数据集上的几个基线进行比较，并对结果进行详细分析。在所有实验中，我们将VIOLIN数据集分为80%用于训练（76，122（V，S，H）三元组），10%用于验证（9，600三元组）和10%用于测试（9，600三元组）。模型性能通过二进制分类精度进行评估。5.1. 对比型号对于所有i = 1，. - 是的- 是的，nstmt，a ∈Rnstmt× T. 输出是视频感知语句表示：首先，我们定义以下输入Rnstmt×2dstmt. 同样，我们将字幕和声明来源，以评估不同模式的重要性流以获得字幕感知语句表示Msubtt∈ Rnstmt×2d。这两组表示通过以下方式进一步融合：流：仅声明：仅使用声明，不吸收视频或字幕中的信息。这个选项是为了测试积极/消极陈述的先天偏见。Mall= [Hstmt;MV;Msubtt;Hstmt 第五章;Hstmt [001pdf1st-31files]视频：仅使用视频功能。其中， Σ 代表元素级乘积。生成的矩阵Mall∈Rnstmt×10d组合了来自所有三个模态流的信息，然后将其馈送到另一个双向LSTM中。来自两个方向的最后隐藏状态被连接并通过具有1维输出的全连接层，随后是S形激活函数，预测输入状态为正的概率。建议的基线模型与[35]中的模型相似主要的区别是，我们的模型使用语句表示作为上下文和视频/字幕表示作为查询的融合模块。直觉是，在我们的视频和语言推理任务中，完整的陈述需要得到来自视频或细节的证据的支持，以便判断陈述是积极的/消极的，字幕：仅使用字幕。视频+字幕：同时使用视频和字幕功能，这是任务的完整设置。单帧+字幕：使用字幕功能加上视频中的一帧。此选项用于测试视频中时间信息的有用性。在V IO-LIN任务中还评估了不同的视觉特征：（i）图像功能：我们使用在ImageNet [ 13 ]上训练的ResNet101 [ 22 ]来提取每帧的全局图像特征;（ii）C3 D功能：我们使用三维卷积神经网络（C3 D）[55]来提取视频特征;(iii) 检测功能：我们运行在Visual Genome [ 34 ]上训练的Faster R-CNN [ 48 ]来检测每帧中的对象，并使用它们的区域特征作为输入。对于图像特征，我们首先将每个视频下采样到每秒3帧视频编码器融合模块当男人接电话时，女人变得心烦意乱，因为他假装这是他自己的办公室。文本编码器+LSTMFC乙状2019 - 02 - 15 00：00：00加文·米切尔办公室瑞秋·格林办公室…2019 - 01 - 18 00：00：21嘿妈妈不，那只是我的秘书。融合模块文本编码器10906源测试准确度（%）声明51.38副标题+声明73.85视频+声明77.19视频+字幕+声明85.20表4.在不同输入源的测试集上进行人工评估的准确性。方法注释对抗匹配Stmt+Subtt61.0566.05Stmt+Vis57.0859.26Stmt+Subtt+Vis61.9967.60表3.不同方法在VIOLIN测试集上的准确度。Subtt= Subtitle，Vis = Video，Stmt = Statement，SglFrm = singleframe，Img = Image features，Det = Detection features，C3D= C3D fea- tures ， BERT = BERT features ， LXMERT =LXMERT features。然后为每一帧提取2048-dim特征。类似地，对于检测特征，我们使用相同的采样率并提取特征，然后由池化层输出每个帧的2048-dim特征。对于C3 D特征，我们在原始视频上每16帧提取4096-dim特征（没有下采样）。为了将文本输入编码为特征，我们使用（i）在训练集中对VIOLIN语句和字幕进行微调的预训练的BERT基础模型[14]，以及（ii）GloVe [46]嵌入。为了进行彻底的评估，我们还测试了一个大规模的预训练模型LXMERT [53]，该模型联合学习多模态特征。5.2. 实验结果表3总结了基线方法和我们提出的模型（使用全长视频剪辑，字幕和声明）的结果。我们还使用不同的视觉/文本特征进行了一组实验，并在表3中比较了结果。基线比较第0行是随机猜测基线，精确度为50%.当仅使用状态来决定自身是正还是负时，具有BERT特征的最佳模型仅达到54.20，在数据集中呈现出很小的偏差。通过添加字幕或视频，所有的模型都比“仅限状态”版本获得了显着的收益值得注意的是，具有BERT的Stmt+Subtt和具有Det+BERT的Stmt+Vis分别达到66.05（行4）和从3-4和12-17排，我们可以表5.包含通过不同策略收集的负面陈述的测试集的准确性（%）。实验中使用了图像和BERT特征和12-17）并不像添加字幕那样重要。这可能是由于视觉特征不能很好地捕获视频信息。仅使用一个帧作为视频特征（行11）比使用完整视频（行13）更差，这显示了利用视频中的时间信息总体而言，通过使用所有源，以及BERT和检测功能（第17行），可以实现最佳性能。模型变体我们首先评估不同视觉特征的有效性。在大多数情况下，检测功能比图像和C3D功能更好，这表明从视觉基因组中提取的区域信息和外部知识对这项任务很有用在所有的文本特征中，BERT [14]是预期中最强的。在所有设置中，与GloVe [46]等非上下文嵌入相比，基于BERT的版本通常将准确度提高联合多模态嵌入（LXMERT，第18行）达到66.25，略差于最佳基线模型（第17行），表明VIOLIN对现有基于单图像的联合预训练模型提出了更多挑战。通过AMT的人的性能呈现在表4中。正如预期的那样，当同时提供视频和字幕时，人类实现了最佳性能（85.20）5。在没有上下文（视频和字幕）的情况下，人类只能达到51.38%的准确率。有趣的是，我们发现添加视频比添加字幕带来更多的增益，显示视觉信息在VIOLIN任务中的重要性。5.3. 进一步分析不同问题类型的准确性为了更好地理解数据集，我们在表6中检查了测试集上不同语句类型的模型的准确性。与Stmt+Subtt模型相比，Stmt+Subtt+Vis模型主要在“视觉识别”和“动作识别”方面有所观察到添加字幕可以提高性能，非常漂亮但是，添加视频的增益（第5-10行）5我们自己重复了人类评估，准确率为93%。#方法视觉文本精度0随机--50.001Stmt-手套53.942Stmt-伯特54.203Stmt+Subtt-手套60.104Stmt+Subtt-伯特66.055Stmt+VisImg手套55.306Stmt+VisImg伯特59.267Stmt+VisC3d手套55.918Stmt+VisC3d伯特58.349Stmt+VisDet手套56.1510Stmt+VisDet伯特59.4511Stmt+Subtt+SglFrmImg伯特66.6012Stmt+Subtt+VisImg手套60.3313Stmt+Subtt+VisImg伯特67.6014Stmt+Subtt+VisC3d手套60.6815Stmt+Subtt+VisC3d伯特67.2316Stmt+Subtt+VisDet手套61.3117Stmt+Subtt+VisDet伯特67.8418Stmt+Subtt+Vis公司简介66.25109072019 - 01 - 15 00：00：032019 - 02 - 15 00：00：22我看到我们的目标了杰你抓住他了吗2019 - 01 - 15 00：00：032019 - 01 - 15 00：00：26大约70层楼高就在那儿！就在那儿！2019 - 02 - 18 00：00：002019 - 01 - 15 00：00：26他们在大楼标志的上面抓住他！2019 - 09 - 15 00：00：112019 - 02 - 18 00：00：38艰难的一天待在那儿别动！该死！2019 - 02 - 13 00：00：132019 - 02 - 18 00：00：38我们走吧。趴下！2019 - 02 - 15 00：00：1700：00：38--> 00：00：40，000洛杉矶警局离开窗户！来啊！来啊！警察下了电梯，开始向大楼里的人大声发号施令大楼里的人下了电梯，开始大声向警察发号施令（pos）在电梯里，红胡子的警察和黑胡子的警察说话下了电梯后，红胡子的警察和黑胡子的警察说话警察开始向爬下大楼的人开枪。穿牛仔背心的女人很关心那个金发女人，因为她对她的妹妹感到不安。2019 - 01 - 12 00：00：052019 - 02 - 18 00：00：23菲比，所以你们不明白对我父母来说，那时候是，“是啊，什么一起？其他是新的？”2019 - 01 - 15 00：00：082019 - 02 - 25 00：00：24基本上都是些愚蠢的姐妹间的事，你哦知道吗？2019 - 02 -15 00：00：282019 - 01 - 15 00：00：00菲比，对不起。我得走了我有每个人都认为她是心理助产课。漂亮的一个。2019 - 02 - 18 00：00：312019 - 02 - 15 00：00：00我还有地球科学课哦哦她是第一个走路...在体育馆2019 - 02 - 15 00：00：1800：00：35，047--> 00：00：36，160... 即使我在当天晚些时候做了就你和卡萝尔住吗（pos）穿格子衬衫的男人起身离开，因为他要去上心理助产课。穿格子衬衫的男人起身离开，因为金发女人对她的妹妹感到不安。（pos）那个金发女人正在向她的朋友抱怨，因为她和她的妹妹相处得不（阴性）金发女人正在向她的朋友抱怨，因为穿格子衬衫的男人（pos）穿牛仔背心的女人很关心金发女人，因为她对她的妹妹感到不安。黑人男子解释说，他无法使用服务站的洗手间，(a)（b）第（1）款图5.定性分析结果。每个陈述开头的阳性/阴性表示基础事实。每个语句末尾的“”或“”表示模型预测。“否”表示系统将语句判断为肯定，“否”表示否定。声明推理类型Stmt+SubttStmt+VisStmt+Subtt+VisImgDetImgDet视觉识别67.1967.4167.4167.9767.97识别字符57.7864.4465.1862.2262.22动作识别70.7566.0466.0473.5873.58人类动力学63.3958.0458.0460.7161.48会话推理76.2358.2058.2076.2376.23推断原因59.5250.0050.3159.5260.18表6. VIOLIN测试集中每种语句类型的准确度（%）。所有方法都使用BERT特征。对于“推断原因”和“识别字符”等类别，包括视频获得了一些改进。在“对话推理”和“人类动力学”上模型识别动作、推断情感、识别被推荐人以及理解视频中的时间动态的能力。在（b）中，错误案例表明我们的模型在推断原因和人际关系方面效果不佳。6. 结论我们介绍了一个新的任务，视频和语言推理（VIOLIN），它需要智能系统捕捉丰富的时间信号的活动/事件在视频和文本，以获得多模态推理的推理技能。我们提供了全面的基线实验，用于在大规模数据集上对不同模型进行基准测试，以及对数据集的全面分析。基线模型和人类表现之间的差距是显著的。人工书写 vs.逆向采样为了进行比较，我们创建了一个新的语句集，用原始的人类书写的否定语句替换反向采样的否定语句。结果示于表5中。在取样底片上的表现要高于人类书写的。我们的解释是，人类书写的内容具有更高的意图理解和深入推理的倾向，这使得状态对模型更具挑战性。定性分析图5展示了我们的模型中使用语句、视频和字幕的一些预测示例。图5（a）中的正确案例证明了我们鼓励社区参与这项任务，并发明更强大的方法来推动多模态推理的发展。未来可能的发展方向包括开发定位关键帧的模型，以及更好地利用视频和字幕之间的对齐来提高推理能力。致谢我们要感谢Yandong Li，Liqun Chen，ShuyangDai，Linjie Li，Chen Zhu，Jiacheng Xu和Boyi Li对项目提供了有用的反馈我们感谢所有的评论者提供的有益的意见。第一个作者部分由NSF资助IIS-1546329。10908引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。3[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在CVPR，2016年。3[3] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。InICCV，2017. 3[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在ICCV，2015年。第1、3条[5] Samuel R Bowman，Gabor Angeli，Christopher Potts，and Christopher D Manning.一个用于学习自然语言推理的大型注释语料库。在EMNLP，2015年。一、二、三[6] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。3[7] Remi Cadene、Hedi Ben-Younes、Matthieu Cord和Nico-las Thome 。Murel：Multimodal relational reasoning forvisual question answering.在CVPR，2019年。3[8] 陈静媛，陈新鹏，马林，杰泽群，蔡达生.视频中的自然句子的时间在EMNLP，2018年。3[9] Wenhu Chen，Zhe Gan，Linjie Li，Yu Cheng，WilliamWang，and Jingjing Liu.用于组合视觉推理的Meta模块网络。arXiv预印本arXiv：1910.03230，2019。3[10] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu. Uniter：学习通用的图像-文本表示。arXiv预印本arXiv：1909.11740，2019。1[11] Yu Cheng ， Quanfu Fan ， Sharath Pankanti ， and AlokChoud- hary.用于视频事件检测的时间序列建模CVPR，2014。3[12] Abhishek Das 、 Satw

下载后可阅读完整内容，剩余1页未读，立即下载