视频推理：证据和常识的深入理解

165 浏览量更新于2023-10-25 收藏 19.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

212730从表征到推理：走向视频问答的证据和常识推理0李江通1，牛力1*，张立清1�01. 计算机科学与工程系，人工智能教育部重点实验室，上海交通大学0{ keep moving-Lee,ustcnewly,lqzhang } @sjtu.edu.cn0摘要0视频理解在表征学习方面取得了巨大的成功，例如视频字幕、视频对象定位和视频描述性问答。然而，当前的方法在视频推理方面仍然存在困难，包括证据推理和常识推理。为了促进对视频推理的深入理解，我们提出了因果-VidQA任务，其中包括从场景描述（描述）到证据推理（解释）和常识推理（预测和反事实）的四种类型的问题。对于常识推理，我们通过回答问题并提供适当的理由来建立一个两步解决方案。通过对现有的VideoQA方法进行广泛的实验，我们发现最先进的方法在描述方面表现出色，但在推理方面表现较弱。我们希望因果-VidQA能够引导视频理解的研究，从表征学习到更深层次的推理。数据集和相关资源可在https://github.com/bcmi/Causal-VidQA.git获得。01. 引言0视频通常作为沿时间维度排列的图像序列组织，通常比简单的图像包含更丰富的时间和因果关系[2]。借助先进的神经网络，视频理解在表征学习方面取得了巨大的进展，例如视频字幕[23]、视频动作识别[38]、视频关系定位[45]、视频描述性问答[48]和视频实例分割[50]。因此，对于计算模型来说，识别视频中的一些独立动作或分割一些特定实例相对容易[12, 31,57]，然而，从视频剪辑中进行推理仍然是一个巨大的挑战。相反，人类很容易回答推理问题。0*通讯作者。0图1.我们的因果-VidQA数据集中的示例视频、问题和答案。因果-VidQA旨在评估模型是否能够理解视频内容（描述）、解释动作或过程的意图（解释）、预测未来会发生什么（预测）以及想象不同条件下的情景（反事实）。0从视频剪辑中，例如解释为什么某件事情发生，预测即将发生的事情，以及想象在不同条件下会发生什么[39]。例如，在图1的视频剪辑中，一个人沿着绳子爬下来。识别像“abseiling”这样的人类动作或者分割和跟踪“[person1]”对于最先进的视觉系统来说很容易[8,51]。然而，对于证据推理（解释）和常识推理（预测和反事实）（例如，为什么[person 1]紧紧抓住绳子？[person2]会去哪里？如果绳子断了会发生什么？），人类能够将[person 1]和[person 2]的位置和趋势相关联起来。212740回答上述问题并给出适当理由，但当前模型在推理任务上仍然存在困难[46,52]。考虑到大多数视频任务主要集中在表征学习[23, 38,45]，推理也较少探索，现在是探索视频推理的合适时机。通常，视觉推理可以分为两组，证据推理（即答案的所有线索在视觉内容中可见）和常识推理（即答案的一些线索需要超越视觉内容进行想象）。基于这个定义，一些工作已经考虑了视觉推理。作为视觉推理的图像数据集，VCR[55]旨在在回答特定问题时提供适当的理由，然而，图像中没有足够的时间关系和动作来进行常识推理。还有一些用于视觉推理的视频数据集。Social-IQ[54]专注于理解复杂的人类社会行为和丰富的因果推断，但范围非常有限，规模也太小（只有1250个视频和7500个问答对）。CLEVRER[52]专注于基于对象动态和物理交互的因果关系，但它只针对虚拟场景，忽略了现实中的推理。NExT-QA[46]专注于因果和时间动作，同时确保答案可以从视频剪辑中推断出来。然而，NExT-QA[46]只关注证据推理，缺少适当的扩展（即常识推理）。为了促进对视频推理的更深入理解，我们提出了因果-VidQA任务。给定一个视频剪辑，我们的因果-VidQA任务要求模型回答包括场景描述（描述）、证据推理（解释）和常识推理（预测和反事实）在内的四种类型的问题，以全面理解视频内容。此外，对于常识推理问题（即预测和反事实），模型不仅需要提供正确答案，还需要提供适当的理由来证明为什么该答案是正确的，参考一些视频细节和常识知识。我们的新数据集因果-VidQA包含26,900个独特的视频剪辑和107,600个问题-答案对，包括描述性、解释性、预测性和反事实性问题，使因果-VidQA成为这个领域中第一个大规模的数据集。与现有数据集不同，我们的数据集侧重于现实世界行为中的证据和常识推理，包括大规模的行为类别和各种类型的问题，以满足对更深入视频理解的要求。考虑到推理问题可能对应多个合理的答案和理由，我们的所有任务都被构建为多项选择问答。在构建我们的数据集时，我们考虑了两个关键问题。首先，行为类别的数量应足够大，以防止学习一种推理的捷径。0通过将动作类别与问题和答案相关联来推理。因此，我们研究了几个不同的视频数据集，并最终决定使用Kinetics-700[20]作为我们的视频数据集，其中包括700个不同的现实世界中的动作类别。此外，我们还通过视频动作类别将训练/验证/测试集进行了划分。其次，视频剪辑中的实例应该被准确而简洁地描述，以确保我们任务的核心是Causal-VidQA而不是视频对象定位。为了解决这个问题，我们将图像实例分割和视频实例分割结合在一起，用一些明确的参考来替换所有帧的文本描述，如图1中的“[person1]”和“[person1]”。数据集构建的详细过程在第3.2节中。基于Causal-VidQA，我们评估了不同的最先进的VideoQA方法[6, 9,16-18, 26,34]。尽管一些方法在描述性和解释性问题上取得了满意的结果，但它们在预测和反事实问题上的表现远远不如人意。这些实验结果表明这些模型并没有真正理解因果关系，并且无法推理常识现象。因此，Causal-VidQA为更深入的视频理解提供了新的挑战。我们的贡献可以总结为0•我们探索证据和常识推理，将VideoQA推向超越表示学习的更深层次推理；0•我们贡献了Causal-VidQA，这是一个新的具有挑战性的VideoQA基准，包含四种类型的问题（即描述、解释、预测和反事实）；0•我们在我们的Causal-VidQA数据集上广泛评估了一些最先进的视频推理方法，提供了详细的比较和深入的分析。02. 相关工作0我们的工作与两个最近的研究方向相关：语言引导的视频理解基准和视觉问答技术。02.1. 语言引导的视频理解0随着互联网上视频数据的快速增长[13,20]，语言引导的视频理解任务近年来引起了相当大的关注。在这个领域的早期，研究人员更多地关注视频字幕[10]、从自然语言查询中定位视频片段[14]和描述性视频问答[30,32,48]。他们主要需要表示学习来完成相应的任务。最近，研究人员已经探索了不同的方法来处理各种视频推理任务。其中，TGIF-212750QA [17]和ActivityNet-QA[53]分别手动注释了短视频和长视频，以探索证据推理，特别是时空推理。然而，TGIF-QA中的视频通常太短（少于3秒），而ActivityNet-QA的规模也相对较小。MovieQA[40]和TVQA[27]基于电影或电视节目提出了因果和时间问题。MovieQA中的答案偏向于文本情节理解[46]，而TVQA中的QA对偏向于演员对话理解[44]，这严重削弱了它们在视觉推理方面的挑战[18,26]。与主要关注视频中时空关系推理的这些方法不同，我们的Causal-VidQA数据集从日常生活中的一般解释中探索证据推理，并针对更丰富的日常生活中的动作类别。0一些工作还探索了基于图像的常识推理[43,55]。例如，Motivation[43]旨在预测静态图像中某个动作的动机。VCR[55]针对电影中静态图像的常识推理，采用了两步解决方案（回答-推理）。我们的数据集与之本质上不同，我们要求模型对日常视频中的真实世界动作和互动进行推测或进行常识推理，静态图像[43,55]无法包含足够的动态信息进行常识推理，而电影场景[55]也远离日常生活。0另一类工作集中在物理世界推理上，通常在模拟环境中收集数据。例如，COG [49]和MarioQA[33]使用模拟环境生成合成数据。作为扩展，CLEVRER[52]关注物理世界中的因果关系，并强调逻辑上的组合性。我们的工作不同之处在于，我们从日常视频中探索真实世界的行动和互动的视频推理。Social-IQ[54]是一个新提出的基准，讨论了人类社交互动中的因果关系，涵盖了三种模态（视频、转录和音频）。然而，该数据集规模较小，只关注有限的场景，包括三种模态（视频、转录和音频）。最近，V2C [7]和NExT-QA[46]从常识字幕和证据推理探索视频理解。与V2C[7]相比，我们的工作中的常识推理是基于具体问题的，并以两步方式（答案-推理）进行探索。此外，我们的常识推理是基于真实世界的视频而不是电影片段，使我们的目标更接近日常生活。NExT-QA[46]关注动作的时间结构和证据推理，以确保问题的答案可以在视频内容中找到。作为NExT-QA[46]的补充研究方向，因果-视频问答进一步强调了常识，以想象潜在的答案和原因。02.2. 视频问答技术0视觉问答可以分为三个部分：视频表示、文本表示和视频与文本之间的信息融合。视频表示受到图像分类[12]、目标检测[37]和视频动作识别[3]的推动。现有的工作[6, 26, 29,34]通常应用2D卷积神经网络（如ResNet [12]和FasterR-CNN[37]）提取帧级外观特征或物体特征，应用3D卷积神经网络（如C3D [41]、I3D [3,11]）提取片段级运动特征。文本表示也受到词嵌入[35]和预训练语言模型[5,42]的改进推动。根据视频和文本之间信息融合的方式，现有方法可以分为时间注意力和时空注意力。对于时间注意力，Li等人[28]学习了问题特征和外观特征之间的共同注意力，Li等人[29]提出了使用自注意力[42]增强共同注意力的方法。Jin等人[19]提出了一种新的细粒度时间注意力，能够学习帧之间的物体-问题交互。Huang等人[16]进一步扩展了物体-问题交互，通过物体特征和问题之间的位置感知共同注意力来实现。Jang等人[17]首次提出了同时使用运动特征和外观特征的双流结构后，更多的研究工作集中在学习外观、运动和问题交互的时空共同注意力上。为了将运动特征、外观特征和问题整合在一起，已经提出了许多推理模块并取得了很大进展，例如异构融合记忆[6]、共同记忆注意力[9]、分层注意力[26,56]、多头注意力[22]、多步渐进注意力[21,40]和图神经网络[16, 18,34]。在我们的工作中，我们对因果-视频问答的一些相关方法进行了全面分析，提供了一些启发性的观察。03. 因果-视频问答数据集0在本节中，我们将详细介绍我们提出的因果-视频问答数据集，该数据集研究了现实世界中的证据推理和常识推理。在第3.1节中，我们为我们的因果-视频问答数据集中涉及的不同类型的问题提供了全面的定义。在第3.2节中，我们介绍了构建我们数据集的过程。在第3.3节中，我们揭示了关于我们的因果-视频问答数据集的一些统计信息。在第3.4节中，我们将我们的因果-视频问答数据集与其他视频问答数据集进行了比较。03.1. 任务定义0在我们的因果-VidQA数据集中，我们设计了四种不同类型的问题来研究三个视频理解任务。212760包括场景描述（Description）、证据推理（Explanation）和常识推理（Prediction和Counterfactual）。在接下来的章节中，我们将逐一介绍它们。描述。描述性问题侧重于对视频剪辑的场景描述（例如地点、物体、动作、顺序等）。场景描述是视频理解的基本任务，并与其他推理任务进行比较。这些问题的要求是答案可以从当前视频剪辑中明显推断出来，并且是客观的。具体而言，问题包括位置（在哪里）、计数（有多少）、二元选择（是/否）、时间关系（在...做什么时候...？在...之后做什么？）和其他自由形式的问题。示例可以在图1（描述）中找到。解释。解释性问题旨在解释动作的意图和达到特定目标的过程。此外，为了解释基于视频剪辑的问题的答案，我们确保问题是可见事件，答案是负责问题的可见线索。因此，解释性问题可以分为：1.为什么物体以某种方式行动（为什么）；2.物体如何实现观察到的效果（如何），其中视频中的原因和效果都是可见的。示例可以在图1（解释）中找到。预测。预测性问题侧重于预测超出当前视频剪辑的未来动作。未来动作作为当前动作的延伸，通常由动作之间的时间关系和物体的运动信息（动作顺序、运动趋势）决定。因此，预测性问题的目的是评估模型在具有时间和运动信息的常识推理方面的能力。由于并非所有线索都是可见的，我们还要求模型根据常识知识给出解释为什么答案是正确的。示例可以在图1（预测）中找到。反事实。反事实问题旨在想象在不同条件下会发生什么。在本文中，条件的变化限于具体和真实的（绳子断了，他的脚滑了）条件，而不是抽象或想象的（他迷失了思维，一个人有翅膀）视频剪辑中的条件，这更强调场景分析和现实世界的运作方式。由于在3.1节预测中的类似原因，我们还要求模型根据常识知识给出解释为什么其答案是正确的。示例可以在图1（反事实）中找到。03.2. 数据集构建03.2.1 视频来源0在这项工作中，我们的目标是实现对真实世界视频的理解，没有对场景或动作进行任何限制。根据这个目标，我们回顾了多个不同的视频数据集。0图2.多项选择问题回答的示例。加粗显示的答案和原因是正确的答案和原因。通过放大查看效果最佳。0我们发现人类动作视频数据集Kinetics-700（2020版本）[20]很好地符合我们的要求。具体而言，作为最大的人类动作视频数据集，Kinetics-700包含来自700种不同人类动作的647,907个视频，包括单人动作、人物-物体互动和人物-人物互动。考虑到一些视频很短或损坏，我们选择了546,882个持续时间超过9秒的未损坏视频进行进一步的注释。03.2.2 注释0我们的注释可以分为三个阶段：实例分割注释、合理的视频选择和问题-答案注释。具体而言，实例分割注释旨在为整个视频剪辑中的不同实例分配语义标签，以便于文本描述。合理的视频选择旨在手动选择不仅具有正确分割标签，而且还适合提出高质量问题的合理视频。问题-答案注释旨在设计一个全面的过程，能够确保提出高质量的问题以及适当的答案和原因。在这三个注释阶段之后，我们有来自666个动作类别的26,900个视频剪辑，以及107,600个问题、107,600个答案和53,800个原因。有关注释的详细信息可以在补充材料中找到。2127703.2.3 数据集划分0在获得了包含所有问题、答案和原因的合理视频片段之后，下一步是将它们分成训练集、验证集和测试集。考虑到每个动作类别中的视频场景是相似的，如果我们随机将视频分成这三个集合，推理过程可能会通过简单地将动作类别与问题和答案相关联来缩短。为了防止这种情况发生，我们根据动作类别将数据集随机分成训练/验证/测试集，比例为7:1:2，结果是18,776个训练视频，2,695个验证视频和5,429个测试视频。03.2.4 多选项生成0在多选题中，干扰项应该彼此不同，语义上与回答问题一致，并且在意义上与正确答案不同。因此，我们遵循NExT-QA[46]中的类似过程来生成多选答案和原因。对于答案生成，步骤如下：a)按问题类型对问题进行分组；b)根据句子级别的BERT[5]特征的余弦相似度，检索与同一问题组中的每个问题相似的前50个问题，并将相应的答案视为干扰项候选；c)通过以下方式过滤冗余和相似的答案：1）词形变体相同；2）特征向量的余弦相似度大于0.9；d)随机选择四个合格的候选答案作为干扰答案；e)随机均匀地插入正确答案以形成5个选项；f)手动检查所有问题-答案元组，确保每个问题对应一个正确答案。对于原因生成，我们采取与答案生成类似的步骤。唯一的区别在于步骤b)，在该步骤中，原因的干扰项候选是通过测量问题和答案的相似度获得的。请注意，我们分别对训练、验证和测试集匹配答案和原因，以确保没有问题/答案重叠。示例如图2和附录所示。03.3. 数据集统计0Causal-VidQA包含26,900个视频片段，包括18,776个用于训练，2,695个用于验证和5,429个用于测试。对于我们Causal-VidQA数据集中的每个视频片段，它有四种不同类型的问题，包括描述、解释、预测和反事实。问题和答案的分布如图3所示。从图3(a)可以看出，描述中的时间、位置、计数和自由形式的问题具有相似的比例。此外，在预测性问题中，以“为什么”和“如何”开头的问题分别占13%和12%。0图3. 数据统计。 (a) 问题类型的分布。 (b)平均问题长度为9.5，描述、解释、预测和反事实问题的具体长度分别为7.5、9.6、8.9和11.9。 (c)平均答案/原因长度为9.8。描述、解释、预测(A)、预测(R)、反事实(A)和反事实(R)的具体长度分别为7.3、9.6、9.6、11.3、9.2和11.5。0问题词和答案词长度的分布如图3(b)所示。总体而言，我们的问题平均长度为9.5个词，比NExT-QA[46]（11.6）要短，这主要是因为我们使用分割标签来指示视频片段中的每个实例。此外，描述性问题最短，而反事实问题最长。因为反事实问题通常需要更多的词来描述额外的条件。比较答案和原因，描述性问题的答案也是最短的，而两种类型的原因都是最长的，这是因为原因包含相对复杂的常识，以阐明答案为什么是正确的。03.4. 数据集比较0与其他数据集相比，我们的因果-VidQA具有几个独特的特点（详细的比较见补充材料）。首先，因果-VidQA是第一个在VideoQA中结合场景描述、证据推理和常识推理的数据集。其次，对于每个视频剪辑，我们为主要实例分配了像素级分割和对象标签，这不仅使任务聚焦于推理，而且丰富了视觉-文本交互。最后，因果-VidQA中的视频剪辑都来自包含666个动作类别的Kinetics-700，这些类别在对象和动作方面丰富多样，并且与日常生活密切相关。这与基于一些不真实场景（例如电视节目、电影片段、游戏引擎）的流行数据集TVQA [27]、MovieQA [40]和CLEVRER [52]不同。4.3. Existing MethodsIn this section, we evaluate our Causal-VidQA datasetwith several existing VideoQA in Table 2, which includeBlindQA [15], EVQA [1], CoMem [9], HME [6], HGA[18], HCRN [26], and B2A [34].Before evaluating the models specifically designed forVideoQA, we first study a blind version baseline [15] byconsidering the question-answers only and ignoring thevideo clips.For this baseline, we model the concatena-tion of question and each answer/reason with LSTM to getthe text vector, during which the words/tokens representa-tions are initialized with either GloVe [35] or off-the-shelfBERT [5]. Then we also evaluate the EVQA [1], whichis a simple extension of BlindQA by processing video fea-ture with another LSTM and then adding the video vectorto the text vector for answer prediction. Comparing the per-212780设置文本特征准确率D 准确率E 准确率P 准确率C0随机-20.07 20.08 3.99 4.02 12.04 最长-18.92 20.26 4.30 3.9011.84 最短-19.22 19.52 4.38 4.79 11.98 Sim-AA BERT 19.1118.92 3.97 4.01 11.50 Dissim-AA BERT 21.41 19.81 3.97 3.7812.24 Sim-QA BERT 20.15 18.55 4.42 4.39 11.88 Dissim-QABERT 20.41 19.81 4.16 3.74 12.030表1.因果-VidQA测试集上诊断设置的结果。准确率D，准确率E，准确率P和准确率C分别表示描述、解释、预测和反事实问题的准确率。04. 实验04.1. 实验设置0评估。考虑到答案和原因都是以多项选择的问答形式形成的，我们报告了四种类型问题的准确性。需要注意的是，对于预测性和反事实性问题，每个问题都有候选答案和原因。因此，“正确性”被定义为同时选择正确的答案和原因。配置。在视频方面，我们对每个视频剪辑均匀采样8个片段，每个片段有16个连续的帧。对于帧级表示，我们使用在ImageNet上预训练的ResNet-101[12]提取外观特征。对于段级表示，我们使用在Kinetics-400上预训练的膨胀的3DResNeXt-101[11，47]提取运动特征。Huang等人[16]用帧级外观特征和对象特征表示视频。因此，我们还使用在VisualGenome上预训练的Faster-RCNN[37]提取对象特征。在语言方面，我们研究了GloVe[35]和现成的BERT[5]用于单词/标记表示。此外，对于文本中的分割标签，例如图1中的“[person1]”，我们首先使用相同的Faster-RCNN从所有帧中提取相应实例的对象特征，然后将它们平均作为分割标签特征向量。接下来，将分割标签特征向量映射到与文本嵌入相同的维度，然后添加到相应的单词/标记嵌入中，其中映射的参数在训练中学习。在训练和推理过程中，候选答案和原因被连接到问题中，并应用铰链损失来最大化正确和错误对之间的边界。04.2. 数据集诊断0在这一部分中，我们在表1中设计了一些特殊设置，包括随机选择、长度选择和基于相似性的选择，以诊断我们的因果-VidQA数据集中可能出现的一些潜在偏差。随机选择。在这种设置中，我们随机选择一个候选答案/原因作为选择的答案/原因，然后计算0在表1的随机行中，随机选择的准确率为20%（描述性和解释性问题为4%），这表明正确答案和原因在所有选项中均匀分布。长度选择。在这种设置中，我们针对正确答案是否存在长度偏差进行评估，即最长或最短候选答案的概率更高。因此，在这部分中，我们评估了两个设置，即最长和最短，即始终选择最长或最短的答案/原因。从表1的最长和最短行中可以看出，描述性和解释性问题（预测性和反事实性问题）的准确率接近20%（4%），因此模型不能仅通过答案/原因的长度直接在因果-VidQA上取得满意的结果。基于相似性的选择。在这种设置中，我们旨在评估多项选择生成中使用的句子级BERT[5]特征是否引入特征偏差，例如，正确答案/原因与问题或其他选项之间的最接近或最远距离。因此，我们验证了四种基于特征的检索设置（即Sim-AA，Dissim-AA，Sim-QA，Dissim-QA），其中Sim-AA（分别为Dissim-AA）表示答案/原因与其他选项的余弦距离最接近（分别为最远），Sim-QA（分别为Dissim-QA）表示答案/原因与问题的余弦距离最接近（分别为最远）。从表1的Sim-AA，Dissim-AA，Sim-QA和Dissim-QA行中可以看出，描述性和解释性问题（预测性和反事实性问题）的准确率接近20%（4%），这表明仅仅基于答案之间的语义相似性或问题与答案之间的语义相似性不能简单地推断出正确的答案和合适的原因。MethodText FeatureVideo FeatureAccDAccEAccPAccCAccQ → AQ → RQ → ARQ → AQ → RQ → ARBlindQA [15]GloVe-38.6630.5828.6830.4813.9121.2921.616.5622.43EVQA [1]GloVeApp.+Mot.42.8838.2936.8936.2318.2927.7227.5710.6327.52CoMem [9]GloVeApp.+Mot.59.2654.2343.9345.3726.3242.9742.2422.2540.51HME [6]GloVeApp.+Mot.47.2543.8041.0242.5323.2535.2934.1915.3432.41HCRN [26]GloVeApp.+Mot.58.8953.5343.1445.0726.1743.6943.4722.7540.33HGA [18]GloVeApp.+Mot.60.3255.0246.5547.2128.5344.0044.0423.6341.88B2A [34]GloVeApp.+Mot.61.2956.4346.8248.1730.0145.1244.9925.2943.26BlindQA [15]BERT-60.7859.4644.0145.7326.8147.9749.5428.7143.94EVQA [1]BERTApp.+Mot.63.7360.9545.6846.4027.1948.9651.4630.1945.51CoMem [9]BERTApp.+Mot.64.0862.7951.0050.3631.4151.6153.1032.5547.71HME [6]BERTApp.+Mot.63.3661.4550.2947.5628.9250.3851.6530.9346.16HCRN [26]BERTApp.+Mot.65.3561.6151.7451.2632.5751.5753.4432.6648.05HGA [18]BERTApp.+Mot.65.6763.5149.3650.6232.2252.4455.8534.2848.92B2A [34]BERTApp.+Mot.66.2162.9248.9650.2231.1553.2756.2735.1649.11Human--95.2494.7492.3893.6689.3093.8992.7790.0592.33Table 2. Results of existing methods and human on test set of Causal-VidQA. App., Mot., and Obj. represent the appearance feature,motion feature, and object feature mentioned in Sec. 4.1. The best result from model is highlighted in bold.formance between BlindQA [15] and EVQA [1] with dif-ferent text features, we can find that EVQA [1] improvesBlindQA baseline quite significant, since the visual infor-mation is quite important to guide the question answering.To further enhance the visual-language interaction,CoMem [9] applies additional spatio-temporal attentionmodules with memory bank to fuse the appearance and mo-tion features with the text features. Based on the modelarchitecture of CoMem [9], HME [6] extend the spatio-temporal attention with memory module by a multi-cycleinteraction among appearance, motion and text features.From Table 2, we can also find that CoMem [17] and HME[6] improve the performance of EVQA [1] by a large marginin all four types of questions, especially in description.HCRN [26] is a hierarchical model with the proposedconditional relation networks (CRN) to aggregate visualand language information in two stages. In the first stage,CRN blocks aim to aggregate the frame-level appearancefeatures conditioned on the segment-level motion featuresand text features as the segment representation.In thesecond stage, CRN blocks further aggregate segment rep-resentation conditioned on the video-level motion featuresand text features. The stage-wise feature aggregation cap-tures multi-granularity text and motion features in a coarse-to-fine manner. In Table 2, we can also find that HCRNachieves comparable results on all four types of questions,especially in predictive reasoning.Graph Convolution Network (GCN) is employed amongHGA [18] and B2A [34] for inter- and intra-modality in-teraction and visual-language reasoning. Specifically, HGA[18] first utilizes co-attention to align visual representation(motion and appearance) and the language representation,and then applies GCN by regarding the feature in bothvisual and language modality into a same heterogeneousgraph. B2A [34] combines the inter- and intra-modality in-212790然后，B2A[34]通过首先在文本特征、运动特征和外观特征之间构建图形，然后利用问题到视觉的交互和视觉到视觉的交互来获得最终的文本、运动和外观表示。如表2所示，HGA[18]和B2A[34]在两种类型的文本特征下都表现出优秀的性能。此外，我们还可以发现BERT相对于GloVe的改进非常显著，这表明BERT表示可以在语言方面提供更丰富的语义信息并防止过拟合。此外，比较预测性和反事实问题，我们可以发现BERT在反事实问题上的改进更大，这是因为BERT预训练中使用的“下一句预测”（NSP）任务可以整合常识知识并有助于常识推理。04.4. 定性结果0我们在图4中提供了预测性和反事实问题的定性示例。从这个例子中，我们可以发现没有一个模型能够正确回答反事实问题，因为现有的方法很难将“摔倒”与“受伤”相关联。此外，反事实问题的正确原因可能仅通过在视频和语言中相关联的“[床1]”来实现。我们进一步用词“床”替换分割标签“[床1]”，发现HME、HGA和B2A都对这个问题给出了错误的原因。这揭示了我们数据集中多选问题回答的一个局限性，即答案或原因可能是通过在视频和文本之间相关联的分割标签来选择的。然而，考虑到HGA在所有类型的问题上相对于BlindQA的改进，这个问题也不会主导性能。01 关于消融研究的更多实验见补充材料。212800图4. EVQA [1]、HME [6]、HGA [18]、B2A[34]在预测性和反事实问题上的定性示例。蓝色框中的数字表示预测-答案、预测-原因、反事实-答案和反事实-原因的模型选择，其中红色（分别为绿色）数字表示方法选择错误（分别为正确）。正确的答案和原因以粗体显示。05. 讨论和限制0在本节中，我们讨论了我们数据集的当前解决方案、未来方向和限制。讨论。对于语言表示，我们可以发现现成的BERT [5]表示在证据推理和常识推理方面远远优于GloVe[35]嵌入，尤其是在证据推理和常识推理方面。一方面，这种现象表明预训练的BERT在语言表示方面具有很强的能力。另一方面，它也表明语言预训练[5]已经对语言中的一些因果关系进行了建模。因此，在未来，我们强烈建议进一步探索预训练的语言模型，如ELMo [36]、BERT [5]、ALBERT[25]等。对于视频表示，现有的研究已经证明了结合运动和外观特征的价值。然而，目前对外观和运动特征的使用仍然局限于注意力或图形交互，这对于充分利用这两种特征中的信息来说还不够。此外，对象特征在图像问答中已经显示出其能力[55]，然而，在视频问答中，它还没有引起足够的关注，因为视频场景在0当前的数据集相对简单，对象级运动特征也很难提取。在未来，将外观和运动特征扩展到对象级外观和运动特征可能对视频表示至关重要。对于跨模态交互，当前的解决方案已经探索了基于注意力的解决方案[17]、基于记忆的解决方案[6]和基于图形的解决方案[18,34]。目前来说，基于图形的解决方案，特别是稀疏图[34]，在所有类型的问题中都表现出优越的性能，然而，与人类（47.46%对92.33%）相比，性能仍然存在很大差距，因此还有很大的改进空间。除了之前提到的解决方案，未来还应进一步开发更多新技术。例如，因果结构图可以从人类那里带来因果先验，知识库可以引入更丰富的背景知识进行推理。限制。正如我们在第4.4节中讨论和分析的那样，多选问题回答的格式受到了视频和文本之间分割标签相关性的影响，然而，在我们的因果-VidQA数据集中，这种现象并不严重。此外，对于预测性和反事实问题，这些问题的答案/原因是主观的。尽管我们确保至少有5个不同的人对所有干扰项达成一致，但干扰项可能仍然不能满足每个人的逻辑。此外，我们的数据集只支持多选QA，因为对于预测性和反事实问题，可能有多个正确答案。在未来，将预测性和反事实问题扩展为基于原因的开放式问题可能是一个可行的解决方案。06. 结论0我们在视频问答中探索了证据和常识推理，以推动对视频的深入理解。因此，我们贡献了Causal-VidQA，这是一个包含四种类型问题的新的具有挑战性的视频问答基准。我们对一些最先进的视频问答方法在我们

下载后可阅读完整内容，剩余1页未读，立即下载