2021基于视觉证据的可解释视频蕴涵

160 浏览量更新于2023-10-14 收藏 958KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2021基于视觉证据的可解释视频蕴涵陈俊文和孔宇罗彻斯特理工学院计算与信息科学学院关闭NY，USA{jc1088，yu.kong}@ rit.edu摘要视频蕴涵旨在确定假设文本陈述是否被前提视频蕴涵或矛盾。视频蕴涵的主要挑战是，它需要细粒度的推理来理解复杂和长的基于故事的视频。为此，我们建议通过明确地将陈述中描述的实体与视频中的证据联系起来，将视觉基础纳入蕴涵。如果实体在视频中接地，我们通过关注实体出现的帧来增强蕴涵判断。此外，在蕴涵数据集中，蕴涵/矛盾（也称为真/假）语句以具有细微差异的方式成对形成，这允许附加解释模块预测哪些词或短语使语句与视频矛盾，并使蕴涵判断的训练规则化实验结果表明，我们的方法优于国家的最先进的方法。1. 介绍弥合计算机视觉和自然语言处理之间的差距是各种任务中快速增长的研究领域，包括视觉字幕[40，34]，VQA[20]，1，33]和视觉文本检索[22，23]。Liu等人。[25]引入了一个新的视频蕴涵问题来推断前提视频和文本假设之间的语义蕴涵。如图1，视频蕴涵[25]任务旨在确定文本陈述是否被视频蕴涵或矛盾。在图1中，具有前提的第一陈述的标签是蕴涵，因为该陈述可以从其中出现“穿牛仔裤的女人”的第一剪辑的对话中得出结论。相反，第二个陈述被贴上矛盾的标签，因为前提没有证据来结束陈述。在本文中，我们的目标是解决视频的需要，一个忠实的解释。视频蕴涵的主要挑战是它重新-视频对话[2019 - 01 - 19 00：01：01][2019 - 01 - 12 00：00：00][00 12.920，00：16.430[00：30.390，00：32.479]“学过小马嗨我很酷嘿“请给我一个“赛季结束了不一个小时我听到”你帮我个忙接地至线夹1 4聚焦线夹1 4声明（a）穿牛仔裤的女人有几个孩子，每小时都有小马课。蕴涵（b）穿牛仔裤的女人有孩子明天要上学。矛盾图1.视频蕴涵旨在判断陈述是否被视频及其对齐的文本对话所蕴涵或矛盾。一对真实和虚假的陈述具有相似的结构和适当的差异（由红色虚线标记）。我们将视觉基础纳入蕴涵判断。实体接地，例如 “A woman wearing jeans” guides theentailment judgment module最好用彩色观看。需要细粒度的推理来理解复杂的基于故事的视频，然后做出正确的判断。基于故事的视频还伴随有文本对话（字幕）（参见图1B）。①的人。在用于视频蕴涵的现有方法[25]中，视频帧比dialog更少地被利用，因为它缺乏对视频的细粒度理解，并且模型不知道长视频中的哪些帧与语句相关。然而，文本陈述中的实体通常是具有其专长的人，例如， 1），这应该隐含在视频帧中而不是对话中。为此，我们建议通过引入一个视觉基础模型，将陈述中描述的实体与视频中的证据联系起来，来增强蕴涵判断这是由陈述通常仅与长且未修剪的视频的一小部分相关的事实激发的。在此基础上，开发了语句中描述的实体的视觉基础模块，以定位实体出现的片段，并引导判断集中于实体例如，图1B中的陈述。1链接到第一和第四剪辑和句子，考虑到-2022将实体“穿牛仔裤的女人”。通过突出显示相关剪辑和句子，与没有基础指导并平等考虑所有帧的[25]相比，可以更好地理解细节在许多视频+语言任务中尝试了视觉基础，例如图像字幕[38]和VQA [21]。然而，它不能直接推广到蕴涵任务，因为在蕴涵数据集中没有提供接地的边界框注释。因此，我们求助于现有的弱监督对象接地方法[15，5]来解决接地模块的训练。但是这些方法限于明确的自然对象（例如，“apple”，“river”）。我们的基础要求更高，因为我们的目标是具有细粒度属性的描述实体，例如头发，衣服和性别，以适应具有挑战性的讲故事视频。此外，我们的目标是提高的蕴涵模型的可信度一个忠实的蕴涵模型不仅应该告诉陈述是否与视频矛盾，而且应该告诉陈述中的哪些词或短语使其与视频矛盾。一对真/假语句通常具有相似的结构，只有非常细微的差别，只有少量的单词图中用红点线标出的“每小时小马课”和“明天上学”。1.因此，我们建议通过鼓励对语句中的单词的贡献的局部解释以符合微妙的差异来规则化蕴涵判断模块的训练。我们的主要贡献有三方面。首先，我们提出了一种新的方法来解决视频蕴涵与视觉接地的证据。其次，我们利用成对的真/假陈述来增加蕴涵模型的可解释性，该模型可以告诉使陈述与视频矛盾的特定单词或短语。第三，大量的结果表明，我们的方法优于国家的最先进的视频蕴涵方法。2. 相关工作2.1. 视觉蕴涵自然语言推理[9，8，26，3]是理解假设句是否被前提句所蕴涵或受文本蕴涵的启发，最近提出了视觉蕴涵，将NLI扩展到视觉领域。在视觉蕴涵中，前提是图像或视频。其目标是预测文本假设是否能在视觉前提下得到证实。近年来，研究者们开始以图像为前提来解决视觉蕴涵问题。[35]这是一种视觉上的。组合文本蕴涵[2]和Flickr30k图像标题[36]的尾集。它还提供了利用ROI生成并对细粒度的跨模态信息建模的解决方案模型。然而，假设（例如，“两个女人拿着包裹”）比我们的视频蕴涵中的假设要简单得多。e-SNLI-VE-2.0 [12]通过人类书面语言假设对SNLI-VE[35]进行了补充和修正。它还提供了为什么假设被前提所包含/矛盾的解释基础事实。NLVR2 [32]是另一个需要定量和比较推理的图像蕴涵数据集。但与SNLI-VE [35]类似，它也主要关注自然图像中的对象。最近，刘等人[25]提出了V IOLIN数据集，专注于视频蕴涵。视频蕴涵是一个具有挑战性的任务，因为复杂的时间动态发生在视频。对社会关系、人的动作和意图的细粒度推理对于理解基于故事的内容并做出正确的判断是必要的。2.2. 视频+语言推理最近，许多视频+语言任务一直在尝试将语言句子与视频中的证据明确联系起来。Zhou等人。[38]提出了一种视频描述数据集，其中包含所引用对象的边界框的注释。有了这个数据集，一个好的字幕模型是可取的，参加适当的视频区域。对于视频问答，Lei etal.[21]建立了一个具有时空基础注释的数据集，这需要模型定位时间时刻，检测所引用的对象并回答问题。与字幕和VQA不同，视频蕴涵需要对具有详细属性的实体进行细粒度的理解。同时，现有的视频蕴涵不提供接地注释。因此，我们建议以弱监督的方式实现实体接地2.3. 弱监管实体接地视觉定位是将被描述的实体在视觉上定位到由于绑定框的注释非常昂贵，因此已经做出了各种努力来以弱监督方式实现对象接地[15，5，29]，主要基于多实例学习。它也已经扩展到视频域[39，30，14，7，6，4]，以实现未修剪视频中实体的时空接地在视频蕴涵任务中，视觉上相关的实体主要是人物，而现有的背景化方法主要针对自然对象。我们的基础需要对人类的性别、服饰、头发和其他属性有一个精细的理解因此，我们无法直接生成-2023i=1j=1Nl- -Ns问题设置方法视频[00[2019 - 01 - 29 00：04：57]“我听说一个小时内有小马课对话…“please声明穿牛仔裤的女人的孩子明天上学实体接地视频聚焦特征关键帧输出：蕴涵声明保险丝输出：关键对话矛盾对话判断嵌入基于证据的蕴涵判断穿牛仔裤的女人有孩子明天要上学。输出：热图矛盾局部解释图2.给定一个视频，其对齐的文本对话，以及作为输入的视频的文本语句，我们的目标是预测该语句是否与视频和对话相关联或相矛盾。我们的模型由三个子网络组成：实体基础、有基础证据的蕴涵判断和矛盾的局部解释。实体基础模块帮助发现所描述的实体是否出现在视频剪辑中。此外，实体接地引导判断模块关注对话中的实体相关片段和对应的如果被判断为将现有的接地方法推广到视频蕴涵。2.4. 多模态VQA与图像蕴涵不同，视频蕴涵应该理解基于故事的视频内容，例如电影。这比普通视频更具挑战性，因为出现了诸如人类交互、情感、动机和场景等多个因素。类似于现有的视频QA数据集[21，22]，我们的蕴涵任务的输入是多模态的，包括视频和文本字幕。对于多模态VQA，早期融合通常用于合并不同模态[27]。最近的方法主要利用后期融合方法[18，16]。另一个方面[17]是利用QA对的内容转移到相关模态并限制不相关模态的贡献。视频蕴涵需要细粒度的理解。该声明可能仅涉及长且未经修剪的视频中的细节。因此，我们建议将所描述的实体接地到它们发生的剪辑，并突出显示与这些剪辑对齐的对话句以进行蕴涵判断。3. 我们的方法给定与文本对话（字幕）和假设陈述对齐的故事式视频，蕴涵任务是预测假设陈述是否被前提视频蕴涵或矛盾（参见图1的左侧2）的情况。图的右边部分。2示出了所提出的方法的总体流水线。我们将模型分解为三个子网络：实体接地，蕴涵判断与接地evi-证据和矛盾局部解释，以模块化的方式解决蕴涵。陈述中描述的接地实体的动机（例如，“a womanwearingaredcape”)toframescomesfromtheobservation that video modality isnot well exploitedcompared to dialog modality in the existing method 然而，许多矛盾的陈述，例如不正确的属性，应该从帧而不是对话中确定，（例如， 3.第三章。此外，陈述是关于视频的不同方面[25]编写的，并且陈述通常与视频帧的一个小子集实体接地帮助找到实体相关的框架，然后引导蕴涵判断模块突出显示这些框架。为了学习一个可信的蕴涵判断模型，我们建议不仅要判断语义蕴涵，还要通过热图来解释哪些词或短语使陈述与视频矛盾，热图指示陈述中每个词对模型预测的贡献。3.1. 预赛文本表示。在VIOLIN [25]之后，我们使用VIOLIN提供的BERT编码器[10]来表示语句和对话框，从而为每个单词生成768维向量。然后使用双向LSTM用于语句和对话，每个单词也被嵌入到d维。语句被标记为长度为Nl的单词序列。文本对话也被标记化并表示为单词序列。然后，通过编码，语句被表示为R=ri，其中ri指示第i个词的表示。对话框表示为H={hj}，其中hj表示第j个声明解析器穿牛仔裤2024人物检测一个穿红衬衫的男人走过一家着火的商店。一名身穿红色斗篷的男子抱着另一名男子飞行。∈k=1n=1KnK1KnKNe--正实体en阴性实体en′金色阴性实体en*一名身穿蓝色斗篷的男子抱着另一名男子飞行。enen′en*V匹配分数1 2 3Ks（V，en）>s（V，en′）s（V，en）>s（V，en*）图3.实体接地模块培训。我们从与视频对齐的语句中提取正实体e n，从与视频未对齐的语句中提取负实体e ′ n。此外，真实和虚假的陈述是成对形成的。因此，fake语句中的实体可以用作黄金ng ativ e实体e*n，它与en略有不同，并且是增强基础模型训练的硬样本训练过程鼓励正实体的匹配分数大于任何负实体。最好用彩色观看。词Ns表示长对话中的单词数量开始时间tj和结束时间tj实体的时空注释通常不可用于蕴涵任务，使得现有的完全S e也提供了第j个句子的第j个句子，其可以与视频帧对齐。视频表示。在VIOLIN [25]之后，我们从视频帧中提取一系列视觉特征，然后通过双向LSTM层对视觉特征进行编码。然后将视频表示为CRT×d，其中T是帧的数量，d是每帧的特征尺寸。为了实现接地，我们首先检测输入视频中的人。具体地说，我们提取对应于每个句子（tj+tj）/2的中间时间戳的帧不能直接利用基于监督接地的视频QA方法[21]我们采用多实例学习[39]以弱监督方式实现实体基础第二，详细的视觉属性（例如，衣服和头发）对于蕴涵任务是必不可少的，但是它们通常被现有的对象基础方法忽略[30，39，4]。为了从文本语句中提取实体及其属性，我们采用了构成解析方法[19]。例如图2、从对应的语句“The”中提取的实体S e并应用在COCO [24]上预训练的Faster R-CNN [28]来检测每帧中的所有人并提取他们的特征。每个人由4096维向量表示，表示为vk。然后，每个视频被形成为一组人V={v，k}，其中v，k对第k个人进行编码。一个穿牛仔裤的女人的孩子们都在上小马课小时”。语句中提取的实体表示为E=e n其中，Ne是实体的总数，并且En指示第n个实体。为了将实体接地到其出现的帧，我们计算视频V和实体之间的匹配分数s（V，en3.2. 实体接地模块在现有的视频蕴涵方法[25]中，所述性能与直径相比，视频模态的增益有限如：1Σs（V，e）=σ（FC（v ||e））（1）k=1日志模态。视觉信息需要细粒度的理解，但现有的工作平等地考虑所有的帧，即使帧是不相关的声明。视频模态应该负责在陈述中描述的大量信息，性别和服装）。我们建议利用视频模态中的实体基础来以模块化的方式改进蕴涵判断（参见图1B）。2）的情况。首先，我们的接地模块的开发，以实现时空接地的陈述中所描述的主题实体。实体的预测时间出现被用于指导以下跨模态蕴涵判断。然而，需要处理两个技术挑战以利用蕴涵任务的视觉基础。第一、其中FC1是全连接层，σ是S形激活。我们取K个人的得分的平均值作为实体-视频匹配得分s（V，en）。继现有的视觉-文本匹配工作[23]之后4，39]，我们将接地的弱监督学习公式化为：Lga=−log（1−s（V，e′n））−log（s（V，en）），（2）其中e’n是从来自另一视频的随机采样语句中提取的当量2鼓励对齐的视频-实体对（V，e，n）更好地匹配，而未对齐的对（V，e，n）更不匹配。VV12Kv1不v1ttv2t不V V2 vN2025LL||Ⓢ与弱监督视频接地不同[4，39]，蕴涵任务由成对的真实/虚假陈述组成。因此，我们有机会获得硬否定样本，这是在假状态中描述但在真实语句中未描述的实体如图3、反面版是“一个穿蓝色斗篷的男人”，这与正面版的红斗篷”但与视频相矛盾我们将其命名为Lgb=−log（1−s（V，e*n））−log（s（V，en）），（3）gb鼓励视频V更多地匹配到其对齐的实体en，而更少地匹配到iv e实体e*n处的黄金n e g。综上所述，我们通过接地损耗g来训练接地模型，该接地损耗g通过β来平衡负实体和金负实体。Lg=Lga+βLgb，（4）在推理过程中，如果一个人vk和一个实体en之间的匹配分数s（vk，en）=σ（FC1（vken））超过一个阈值，则认为第k个人是en.临时接地结果将用于指导第3.3节中的3.3. 基于证据的蕴涵判断语句通常与视频的一个小子集相关，而不是整个视频。例如图2、“明天上学的孩子们”这句话中的从句应该从对话的第一句开始判断。因此，我们利用实体基础结果来突出显示实体出现的时间范围中的帧和对应的文本对话，因为帧和对话通过时间边界对齐。突出显示的帧和对话框嵌入被连接并标记为键嵌入CO，HO。该模型采用不同模态的三个流作为输入：视频帧、对话框和语句。我们利用视觉上的基础证据，使我们的模型将注意力集中在实体出现的帧上。然后，我们融合多模态数据，并预测陈述是否与视频相矛盾。为了弥合视频帧和文本内容之间的模态差异，我们使用异构推理[37]将语句表示R与不同的上下文嵌入融合，分别包括视频嵌入C、对话嵌入H和密钥嵌入CO、HO（见图4）。异构推理基于图卷积层[7]：P*=A* →sX*W*s，（5）其中 * 表示视频C、对话D和键CO，HO和邻接矩阵A* →s包含图4.我们的多任务学习框架蕴涵判断及其解释。给定视频和对话嵌入，我们使用异构推理来融合它们并更新状态表示。然后，语句表示被并入两个分支：判断分支用于预测它是否是必然的或矛盾的，而解释分支用于生成热图，该热图示出陈述中的词在使其成为假的方面的贡献。GT是地面实况的缩写。陈述R和嵌入X*的上下文之间的相似性。当量5将上下文X*投影到一个R形嵌入P*，嵌入P *是一个可学习的线性层W*s。然后，为了避免忘记，我们通过线性运算W*，b*和约束激活sigmoid学习门函数z*，z*=sigmoid（W*[R，P*]+b*），（6）并通过以下方式将不同上下文的投影嵌入P*合并到语句表示中：Q*s=z*R+（1−z*）P*。（7）等式7分别产生三个语句表示Qcs、Qhs、Qcos、Qhos特定于视频、对话和键上下文。表示元素级乘积。我们将它们连接起来，并将语句表示更新为：Q=[R;Qhs;Qcs;Qhos;Qcos]，（8）更新的语句表示Q通过函数f传递，该函数f包含具有1维输出的线性层和S形激活以预测语句的得分是真实的。3.4. 可解释蕴涵判断一个文本陈述的局部解释被定义为每个词的贡献，这是在形式上2026∈∈ΣL--e--e表1.蕴涵精度比较。我们报告所有陈述的准确性（%），真实陈述，虚假陈述，人类书面陈述和对抗性抽样陈述。三分之二的虚假陈述是人类写的，剩下的三分之一是对抗性抽样。并不是说方法视觉精度房假人工书写高级采样VIOLIN [25]C3d67岁2374岁66五十七7361岁9967岁60我们C3d68岁1579岁。21五十七0861岁3379岁。43VIOLIN [25]ResNet67岁6079岁。10五十六10五十九1584. 49我们ResNet68岁3979岁。52五十七25六十岁。1184. 94一个句子的热图我们的方法旨在通过其局部解释来规范蕴涵判断的训练，以提高模型的忠实性和泛化能力（见图中的解释分支）。4）[13]。我们鼓励蕴涵模型更多地关注实际上使声明与视频矛盾的单词，而不是记住特定于数据集的工件。在VIOLIN数据集[24]中，超过一半的虚假状态是通过修改真实陈述的一个小子集以与视频[25]相矛盾来收集的，这使得真实陈述和虚假陈述之间的差异变得微妙并减轻了偏见。我们建议利用微妙的差异，作为一种监督信号的本地解释。在训练期间，我们可以访问成对形成的真实/虚假状态例如，一对真假语句分别是：“一个穿黑色夹克的人从他的白色摩托车上下来”和“一个穿黑色夹克的人从铃巾上分别通过在它们之间进行简单的通过“diff”运算得到的真假语句之间的差异词的索引我们将其标记为二元向量oeRNl×1，其长度为语句的长度。具体来说，我们将蕴涵判断（见3.3节）及其解释形成为多任务学习。图中的解释分支。图4将更新的语句表示Q作为输入，并且生成指示每个单词对模型预测f（Q）的贡献的热图。解释损失Lr定义为：NlLr=o i（−log（u e））+（1 − o i）（−log（1 − u e）），（9）平坦化模块将被触发以生成语句的热图。4. 实验4.1. 数据集据我们所知，VIOLIN [25]是视频蕴涵任务的唯一数据集。VIOLIN包含15，887个视频片段，并且每个视频片段用3对真实/虚假陈述进行注释，总共产生95，322个陈述。语句的长度是随机的，平均有18个单词。每个视频的前两个假语句是通过修改相应的真实语句的一小部分来编写的。因此，人类书写的真/假语句有非常细微的差异，例如一两个单词的替换。第三否定陈述是逆向采样的，并且与真实陈述相比根据原始论文，我们将VIOLIN数据集分为80%用于训练，10%用于验证，10%用于测试。4.2. 实现细节我们使用[25]提供的对话字幕和语句的预训练Bert[11]特征。为了接地，应用具有VGG-Net [31]作为在COCO [24]上预训练的骨干的Faster R-CNN框架[28]实体基础阈值设置为0。五、视觉和文本输入都是i=1其将所生成的热图UE与局部解释地面实况OE对准。总目标函数e被定义为：Le=Lcls+λLr，（10）其中Lcls是用于蕴涵判断的二进制交叉熵损失。它通过约束λ来平衡蕴涵判断及其解释。如果一个陈述被证明是真实的，那么每个词都应该被前提所蕴涵因此，在训练期间，我们只规则化假语句。在推理过程中，如果一个陈述被预测为我们对每个句子的中间时间对应的帧进行采样-夯实以进行接地。使用学习率为1e3的Adam接地模块β的约束权重被设置为1。我们在训练中将批量大小设置为8。将该批次中其他视频的语句中的实体作为负样本进行采样，用于训练实体接地模块。对于矛盾解释模块，我们只使用人类书写的样本进行训练。学习率为1e4的Adam用于优化。多任务学习的约束权重λ被设置为1。嵌入到d维中用于融合，并且d被设置为256。2027LLL表2.蕴涵的实体基础消融研究（%）。方法精度实际准确度虚假准确性v166岁。72七十三。60五十九83v267岁6075. 50五十九71v366岁。53七十七。78四十八01我们68岁3979岁。52五十七254.3. 比较方法我们比较我们的方法与唯一现有的方法提出的视频蕴涵任务，我们最好的知识边缘。VIOLIN [25]数据集提供了一个视觉/语言融合模型来解决蕴涵判断。通过基于注意力的融合模块将语句表示与其视频和子标题联合建模。在VIOLIN数据集上的实验结果示于表1中。我们提出的可解释蕴涵模型以及我们的方法给出的接地证据优于以前的视频蕴涵方法。因为我们精确地建模视频帧和对话之间的对齐基于接地证据。我们还评估了VIOLIN后不同视觉特征的影响 [25]。结果表明，我们的方法适用于基于图像的功能“Resnet”和基于运动的功能“C3D”。4.4. 消融研究4.4.1根植如何帮助蕴涵？为了展示实体接地的有效性，在蕴涵判断，我们比较我们提出的方法与以下变种。(1)vl：从实体接地模块中移除第一矛盾判断。然后，实体接地仅用于提供时间指导。(2)v2：删除蕴涵判断的时间基础指南。我们用Eq代替。8由Q=[R;Qhs;Qcs]。每个帧都对状态有贡献，而不被高亮显示。(3)v3：移除g.接地模块在没有黄金否定状态的情况下进行训练。表2总结了上述变体的结果。比较比较做出准确的判断。来自实体接地模块的矛盾判断也通过将“Ours”与v1进行比较而带来性能增益4.4.2解释如何帮助蕴涵？为了探索附加蕴涵解释模块的贡献，我们使用以下变体进行消融研究：（1）v4：使用对抗状态-表3.蕴涵附加解释模块的消融研究（%）。方法精度实际准确度虚假准确性v467岁6578岁75五十六54V567岁32八十63五十四02我们68岁3979岁。52五十七25表4.矛盾解释的定量结果（%）。方法解释准确性V6七十二42我们75. 20在训练解释模型中使用文本和人类书面陈述。（2）v5：移除解释正则化器r，只使用cls。表3示出了解释模块上的消融研究的结果所提出的方法优于没有解释模块的变体v5 0. 83%，这表明多任务学习提高了蕴涵判断的绩效。通过优于variantv4的性能，仅用人类书写的样本而不是对抗性样本来训练解释模型是明智的，因为对抗性样本在句子结构中与其配对的真实陈述非常不同。4.5. 矛盾解释结果由于真实和虚假的陈述是成对形成的，我们可以访问使陈述与视频矛盾对于人类书写的假语句，注释者手动地改变真实语句中的一小部分单词或短语，这使得成对的真实语句和假语句具有相似的语法和非常微小的差异。因此，矛盾项的地面实况可以通过真/假对之间的简单“diff”操作来获得但在对抗性样本对中，真实陈述和虚假陈述在结构上大多不同因此，我们只使用人类书写对来训练解释模块。但是我们测试了所有的陈述，无论是人类写的还是对手采样的。我们定量地评估当地的解释是人类写的假语句。评估指标被定义为正确解释的单词数量占陈述中单词总数的百分比。解释结果如表4所示。我们达到75。2%的矛盾准确度解释，这表明超过四分之三的假词可以通过我们的解释模型找到。我们还比较了所提出的解释方法与变体V6。V6是通过找到矛盾的构成而不是矛盾的词来解释陈述的蕴涵的变体。构成分析方法[19]，用于在第3.3节中获取实体202800：04.249 00：05.579嘿宝贝'00：07.769 00：09.219“我是个打工妹”00：09.249 00：11.179bree邀请我加入她的公司。'00：15.049 00：16.739你还是会给我做饭的对吧'00：16.779 00：18.759“你在开玩笑吗？你是我的小白鼠接地实体：女人，男人穿金衣服的女人真实的陈述这位妇女正在把卡片放进盒子里，这时她的丈夫预测（包括在内）虚假陈述当她丈夫到达时，那个女人正在做晚饭预测（矛盾）到家了回家0.69140.7039 0.91120.5803那个男人在看杂志的时候手里拿着一本杂志（包括在内）那个人手里提着一个手提箱（矛盾）到家了到家了0.9164当男人听到女人找到工作时，他亲吻了她的后脑勺。（包括在内）这个游戏的目的是为穿金裙子的女人的孩子挑选教父教母。（矛盾）00：08.130，00：17.080不，你好，吉姆，你以为我是妈妈00：19.770 00：22.370卷发厕所给妈妈弄晚饭00：22.380，00：26.500她感觉不太好00：26.510，00：29.120你在干什么放下枪00：29.130，00：40.000她掉了是的我最好收拾一下固定实体：穿深色夹克的男人，穿浅蓝色西装的男人金发女孩真实的陈述那个穿深色夹克的男人和一个穿浅蓝色西装、系着黄色围裙的男人对着一盘掉在地上的食物大笑。预测（矛盾）虚假陈述一个穿深色夹克的男人和一个穿浅蓝色西装、系着黄色围裙的男人在笑一个滑稽的喜剧演员的笑话。预测（矛盾）0.99800.9219 0.9880穿深色夹克的那个人正在厨房（包括在内）穿深色夹克的那个人正在厨房（矛盾）他听到楼上传来一声巨响他听到外面有黑暗的0.9409 0.6374 0.95400.5863（矛盾）穿深色夹克的男人上楼时，误把一个穿浅蓝色西装的男人当成了他的母亲。（包括在内）金发女孩想回家睡在自己的床上。图5.蕴涵判断的可视化及其基于证据的解释。删除线表示视频不包含所描述的实体，因此被判断为“矛盾”。矛盾的项目用预测分数的下划线标记。用于从语句中提取构成。结果表明，一个简单的词级解释比使用构成更好。4.6. 可解释蕴涵结果图5给出了应用该方法的几个蕴涵判断实例我们的模型可以成功地将所描述的实体接地到特定区域和相关帧，即使在训练中没有提供接地注释。我们的模型还具有对视频中不存在的虚假陈述中的实体的弹性。这两个伪语句包含丢失的实体（例如，预测的假项目由具有解释分数的下划线标记。我们发现，如果正确地判断陈述为假的，则解释结果更可靠。5. 结论在本文中，我们提出了一种新的方法，视频蕴涵及其本地解释。实体接地是从两个方面高度融入到我们的工作中。首先，我们训练了一个弱监督实体视频接地模块，如果陈述由视频中不存在的实体组成，则将陈述判断为“矛盾”。然后，如果实体存在于视频中，则我们推断该实体的时间出现以引导蕴涵判断模块聚焦于实体相关剪辑。除了蕴涵判断，我们的方法也被开发来解释哪些词或短语使陈述与视频相矛盾。为了提高模型的可信度，我们将局部解释作为蕴涵决策在VIOLIN数据集上的大量结果表明，所得模型始终优于现有方法。鸣谢：该项目部分得到NSF SaTC奖1949694和陆军研究办公室的支持本文件中包含的观点和结论是作者的观点和结论，不应被解释为代表陆军研究办公室或美国政府的官方政策，无论是明示的还是暗示的。政府的2029引用[1] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在ICCV，2015年。[2] Samuel R Bowman，Gabor Angeli，Christopher Potts，and Christopher D Manning.一个用于学习自然语言推理的大型注释语料库。在EMNLP，2015年。[3] 瓦纳玛丽亚卡姆·布鲁TimRockta¨ schel，托马斯·卢卡西维茨和菲尔·布朗森 e-snli：具有自然语言解释的自然语言推理。在NIPS，2018年。[4] 陈俊文，包文涛，孔宇。来自未修剪视频的活动驱动的弱监督时空基础。在ACM Multimedia，第3789-3797页，2020中。[5] Kan Chen，Jiyang Gao，and Ram Nevatia.弱监督短语接地的知识辅助一致性。在CVPR，2018年。[6] Lei Chen，Jiawei He，Jiawei Zhang，Greg Mori.通过迭代上下文推理的对象基础。2019年ICCV工作坊[7] Zhenfang Chen，Lin Ma，Wenhan Luo，and Kwan-YeeK Wong.视频中弱监督的时空接地ACL，2019年。[8] Cleo Condoravdi ， Dick Crouch ， Valeria De Paiva ，Reinhard Stolle，and Daniel Bobrow.蕴涵、内涵与语篇理解。在NAACL，2003年。[9] Ido Dagan ， Oren Glickman ， and Bernardo Magnini.pascal识别文本蕴涵的挑战。机器学习挑战研讨会。Springer，2005年。[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在ACL，2019年。[12] Virginie Do，Oana-Maria Camburu，Zeynep Akata，andThomas Lukasiewicz. e-snli-ve-2.0：用自然语言解释纠正了视觉-文本蕴涵。arXiv预印本arXiv：2004.03744，2020。[13] 杜梦楠，刘宁浩，杨凡，胡夏。使用合理正则化学习可信的深度神经网络。在ICDM，2019年。[14] De-An Huang*，Shyamal Buch*，Lucio Dery，AnimeshGarg，Li Fei-Fei，and Juan Carlos Niebles.找到“它”：教学视频中的弱监督、参考感知视觉基础。在CVPR，2018年。[15] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义CVPR，2015。[16] Junyeong Kim、Minuk Ma、Kyungsu Kim、Sungjin Kim和Chang D Yoo。电影故事问答的渐进式注意记忆网络。在CVPR，2019年。[17] Junyeong Kim、Minuk Ma、Trung Pham、Kyungsu Kim和Chang D Yoo。用于多模态视频问答的模态转移注意网络在CVPR，2020年。[18] Kyung-Min Kim 、 Seong-Ho Choi 、 Jin-Hwa Kim 和Byoung-Tak Zhang。视频故事问答的多模态双注意记忆。在ECCV，2018。[19] 尼基塔·基塔耶夫和丹·克莱因。使用自我关注编码器的选区分析。在ACL中，第2676-2686页[20] Jie Lei，Licheng Yu，Mohit Bansal，and Tamara L Berg.Tvqa：本地化的合成视频问答。在EMNLP，2018年。[21] Jie Lei，Licheng Yu，Tamara L Berg，and Mohit Bansal.Tvqa+：用于视频问题回答的时空基础。ACL，2019年。[22] Jie Lei ， Licheng Yu ， Tamara L Berg ， and MohitBansal.Tvr：用于视频字幕时刻检索的大规模数据集。arXiv预印本arXiv：2001.09099，2020。[23] Kunpeng Li，Yulun Zhang，Kai Li，Yuanyuan Li，andYun Fu.图文匹配的视觉语义推理。在ICCV，第4654-4662页[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV[25] Jingzhou Liu ， Wenhu Chen ， Yu Cheng ， Zhe Gan ，Licheng Yu，Yiming Yang，and Jingjing Liu. Violin：用于视频和语言推理的大规模数据集。在CVPR，2020年。[26] 比尔·麦卡特尼和克里斯托弗·D·曼宁自然逻辑的扩展模型。在Proceedings of the Eight International Conferenceon Computational Semantics，2009中。[27] Seil Na，Sangho Lee，Jisung Kim，and Gunhee Kim.一种用于电影故事理解的读写存储网络。InICCV，2017.[28] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS[29] Anna Rohrbach 、 Marcus Rohrbach 、 Ronghang Hu 、Trevor Darrell和Bernt Schiele。通过重构的文本短语在图像中的基础。在ECCV。施普林格，2016年。[30] 静诗、贾诩、公伯庆、许辰良。并非所有帧都相等：具有上下文相似性和视觉聚类损失的弱监督视频基础。在CVPR，2019年。[31] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[32] Alane Suhr，Stephanie Zhou，Ally Zhang，Iris Zhang，Huajun Bai，and Yoav Artzi.基于照片的自然语言推理语料库。在ACL，2019年。[33] Makarand Tapaswi，Yukun Zhu，Rainer Stiefelhagen，Antonio Torralba ， Raquel Urtasun ， and Sanja Fidler.Movieqa：通过问答理解电影中的故事在CVPR，2016年。[34] Oriol Vinyals， Alexander Toshev ，Samy Bengio ，andDu- mitru Erhan.展示和讲述：神经图像字幕生成器。CVPR，2015。[35] Ning Xie，Farley Lai，Derek Doran，and Asim Kadav.视2030觉蕴涵：一种新的细粒度图像理解任务。arXiv预印本arXiv：1901.06706，2019。2031[36] 彼得·杨，爱丽丝·赖，米卡·霍多什，茱莉亚·霍肯迈尔.从图像描述到视觉标识：事件描述语义推理的新相似性度量。TACL，2014年。[37] Chuxu Zhang，Dongjin Song，Chao Huang，AnanthramSwami，and Nitesh V Chawla.异构图神经网络。2019年第25届ACM SIGKDD知识发现数据挖掘国际会议论文集。[38] 周罗伟，Yannis Kalantidis，陈新蕾，Jason J.科尔索和马库斯·罗尔巴赫固定视频说明。在CVPR，2019年。[39] Luowei Zhou，Nathan Louis，and Jason J Corso.弱监督的视频对象从文本接地通过减肥 - ing 和对象交互.BMVC，2018年。[40] Yuanen Zhou ， Meng Wang ， Dahling Liu ， ZhenzhenHu，and Hanwang Zhang.通过提取图像-文本匹配模型，实现了更接地气的图像字幕。在CVPR，2020年。

下载后可阅读完整内容，剩余1页未读，立即下载