NExT-QA：视频理解和推理下一阶段

74 浏览量更新于2024-01-22 收藏 949KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9777NExT-QA：解释时间行为的下一阶段新加坡国立大学计算机科学系{junbin，shangxin，ayao，chuats}@ comp.nus.edu.sg摘要我们介绍了NExT-QA，一个严格设计的视频问答（VideoQA）基准，以推进视频理解从描述到解释的节奏动作。基于数据集，我们建立了多选择和开放式问答任务，目标是因果动作推理，时间动作推理和常见场景的理解。通过对基线和既定VideoQA技术的广泛分析，我们发现表现最好的方法擅长浅层场景描述，但在因果和时间动作推理方面较弱。此外，在多选择QA上有效的模型，当适应开放式QA时，仍然难以概括答案。这引起了对这些模型推理能力的怀疑，并突出了改进的可能性。通过对不同问题类型的详细结果和对未来工作的详细观察，我们希望NExT-QA将指导下一代VQA研究超越肤浅的描述，走向对视频的更深入理解。 (The 数据集和相关资源可在https://github.com/doc-doc/NExT-QA.git上获得）1. 介绍视频中的动作通常不是独立的，而是与因果关系和时间关系相关[3]。例如，在图1的视频中，一个蹒跚学步的孩子因为摔倒而哭泣，一位女士跑向蹒跚学步的孩子，以便把他抱起来。识别对象然而，能够推理它们的因果关系和时间关系并回答自然语言问题（例如，“孩子怎么哭了？小孩摔倒后，那位女士有什么反应？”), which lies at the core of human intelligence [在这项工作中，我们研究因果和时间的行动rea-为什么（36%）如何（12%）上一页/下一页（16%）目前（13%）二进制（7%）位置（5%）计数（4%）其他（7%）图1：NExT-QA是一个针对视频内容解释的问答基准它挑战QA模型对因果和时间行为的推理，并理解日常活动中丰富的对象交互。在视频问答（VideoQA）中使用语音，并贡献NExT-QA，这是一个基准，用于促进下一代VQA模型，以解释简单的Temporal操作。NExT-QA包含5，440个视频和大约52K个手动注释的问题-答案对，这些问题分为因果问题、时间问题和描述性问题。典型问题及其分布的概述见图1。为了体现推理的挑战，并为视频QA模型提供有效的诊断，我们设置了两个不同难度的任务。在第一级，多项选择问答为每个问题提供五个候选答案，并要求模型挑选出正确的答案。在第二个层次，开放式QA要求模型仅使用来自视频和问题的提示以简短的短语生成答案（即，没有候选选项）。使用 NExT-QA ，我们评估了几种最先进的（SOTA）视频QA技术[9，11，18，19，23，26]。虽然表现最好的方法在常见的描述性问题上取得了令人信服的结果，但它们在因果和时间问题上的表现远远不能令人满意。此外，在调整有效的模型时，因果关系（48%）问题颞叶（29%）描述性（23%）幼儿向后跌倒女士跑向蹒跚学步的蹒跚学步的孩子在哭女士拿起幼儿起来- 为什么视频最后那个穿红衣服的小孩哭了？向后倒。- 这位女士是如何帮助最后摔倒的蹒跚学步的孩子的？把孩子抱起来。- 穿红衣服的小孩从石头上掉下来之前，那位女士在做什么？好好照顾孩子。- 红衣小孩从石头上摔下来后，那位女士有什么反应？跑去接蹒跚学步的孩子-当小孩从石头上向后摔倒时，男孩在做什么？变成了石头。- 视频里穿红衣的小孩哭了是的- 这段录像是在哪里拍的？公园- 视频里有多少孩子两个.- 这是什么视频？家庭度假。9778从多项选择问答到开放式问答，我们发现他们都在努力自动回答问题。这引发了一个根本性的问题，即这些模型并没有真正理解行为的因果和时间结构因此，NExT-QA提供了新的挑战和充足的机会来激发未来的研究，以更深入地了解视频内容。总结我们的贡献：1）我们在VideoQA中探索因果和时间动作推理，以促进视频理解，超越浅层描述，走向更深层次的解释; 2）我们贡献了NExT-QA，一个严格的cur- rated VideoQA基准，带有手动注释，以进一步研究因果和时间动作推理;3）对NExT-QA的基线和已建立的视频推理技术进行了广泛的分析，为不同的问题类型提供了详细的结果，并为未来的工作提供了启发式2. 相关工作基准。早期的VideoQA基准测试[31，51，53，54，59，64]依赖于视频描述[27，52]（例如，一一个男人正从斜坡上滑下来。）以自动生成问题-答案对（例如，谁在斜坡上滑雪？个男人）.他们很少需要超越对物体和行动的认识来回答问题。特别是TGIF-QA [18，17]，挑战了动画GIF中的时空推理。但GIF是短视频（约3秒），动作大多是描述单个对象的重复或过渡的琐碎动作。此外，问题是自动填充从简单的句子模板。因此，SOTA方法[17，19，23]表现良好，导致对视频理解中的机器智能的乐观情绪膨胀。最近，ActivityNet-QA [56]被手动注释以理解更长的网络视频。然而，它具有与TGIF-QA相同的问题，即，缺少对象交互和因果关系。社会智商[57]是一个新提出的社会智力理解的基准虽然它具有丰富的因果关系和交互作用，但它是小规模的，并且侧重于从多个模态（视频、文字记录和音频）中整合复杂的人类社会行为。我们的数据集更大，目标是日常生活中更丰富的因果和时间行为，超越了人类社会行为（例如，狗对猫叫是因为猫抓狗。）. 此外，它需要视频作为唯一的信息来源。MovieQA [42]和TVQA [25]也可以调用因果和时间相关的问题。尽管如此，他们要么偏向于文本情节理解，要么偏向于演员对话理解[47]，严重削弱了他们对视觉推理的挑战。最近，CLEVRER [55]专门研究了模拟环境中物理运动的时间和因果关系我们的数据集本质上是不同的，因为我们探索因果和时间更深入地了解真实世界的视频。其他作品如Motivation [46]、VCR [58]和V2C[10]也可以考虑因果关系，无论是视觉描述还是质量保证。尽管如此，他们强调共同感来想象预测。我们的工作不同之处在于，我们专注于理解行为的因果和时间结构。具体地说，我们确保在视频内容中找到问题的答案，例如，对于因果问题，我们确保因果动作都是可见的。这样的设置在静态图像中是不可能的[46，58]，静态图像需要模型进行规范或进行常识推理，这与我们的目标正交。最后，我们注意到，关于因果和时间事件的问答在文本理解中已经研究了很长时间[12，34]。然而，这些作品专注于检测词汇句法模式，表达新闻事件的因果关系，而不是推理特定的视频的因果/时间的行动技术.在对象/动作识别的巨大进步的推动下，像VQA这样的图像引导视觉推理已经取得了显著的进展[4，13，14，40，自然语言理解[5，7，15，35，45]。大多数改进都是在图像QA [1，2，30]中进行的，尽管视频QA最近受到越来越多的关注。已建立的作品[18，42，59，51]应用2D卷积神经网络（CNN）（例如，ResNet [14]）来学习帧级外观特征，以及3D CNN（例如，C3D[44]，I3D [4，13]）或光流来捕获剪辑级（或片段级）运动信息。最终的视频级表示可以通过简单的池化或更复杂的聚合模型来获得，诸如时间关系网络（例如，TCN [24]，TRN [62]和CRN [23]），序列模型（例如，RNN与LSTM [15]，GRU [5]及其变体）和注意力[26，20]。在聚合过程中，来自问题侧的文本线索（通常由RNN建模）被集成用于语言引导的视频推理，并通过额外的推理模块实现，例如空间和时间注意力[17，18，20，60]，共同注意力[19，26，30]，多周期推理，理论[9，11]，图神经网络[16，19]和条件关系网络[23]。在这项工作中，我们将深入分析NExT-QA的相关技术，提供有效的基线和启发式观察。3. NExT-QA数据集3.1. 标准和任务定义因果关系问题是用来解释行为的，要么揭示先前行为的意图，要么说明后续行为的原因。在这项工作中，因此，因果组的问题要么问为什么，9779物体以某种方式或如何（它们做了什么）产生观察到的效果。因此，原因和结果都应该在视频中可见。示例见图1（顶部）。时态问题评估模型对动作之间的时态关系进行推理的能力。时间行为虽然与因果关系有关，但仅由发生的顺序决定。因此，这种类型的问题问关于以前的（什么... 做之前...），present（什么...在......的时候做什么）或下一步行动（什么/如何.在...之后做/反应）.与以前的作品[18，56]不同，它专注于推理问题中单个对象的时间动作，我们更强调对象的相互作用。示例见图1（中）。描述性问题集中于视频的场景描述（例如，地点、对象/属性和主要动作/ events）。这些问题补充了因果和节奏问题，以构成整体的视频理解，并允许不同类型的问题之间的比较。具体来说，问题涵盖了二选一的选择（是/否，或者答案在问题中指明，例如，“我......累了还是精力充沛？”), location (where), counting (how many) 自由形式问题的唯一示例见图1（底部）。多项选择与开放式问答。我们根据上述问题类型定义了两个任务。在多项选择问答中，模型有五个选项（一个正确答案加上四个干扰项答案），他们需要从中选择正确的答案。提供候选答案为预测评估带来了方便。然而，它减少了推理的挑战，因为模型倾向于纯粹地学习正确和不正确答案之间的差异;当生成的错误答案没有足够的挑战性时，尤其如此。此外，它免除了答案生成的需要，在我们看来，这应该是一个有趣的和开放的QA研究领域因此，我们还研究了开放式问答系统，其中没有提供候选答案，模型必须解释问题和视频内容，并自动生成以前的作品[2，18，56]将开放式QA公式化为分类问题，将视频问题对分类为固定的答案集。我们将其设置为生成问题，因为NExT-QA中的答案大多是简单的短语。基于世代的开放式问答具有较高的实用价值，近年来也受到广泛关注[53，60，61]。3.2. 数据集构建视频来源。我们的目标是自然的视频，展示日常生活中的物体互动，不限制某些演员和活动。考虑到这些目标，我们发现视频关系数据集VidOR [38]1很好地满足了我们的要求。我们从VidOR中选择了6,000个视频，这些视频更长，对象和交互更丰富。虽然我们不限制内容，但这些视频主要是关于家庭时间，孩子们玩耍，社交聚会，户外活动，宠物和音乐表演。我们以7：1：2的比例将视频随机分为训练集/验证集/测试集。NExT-QA数据集的注释由100名本科生在一年内分3个阶段完成。注释者在每个阶段都受到以下原则的监督，以确保高质量的注释。 1）全部注释器在进行实际注释之前被严格训练2)问题和答案注释由单独的注释器完成。答案注释者应该首先检查问题通过这种方式，我们可以模拟评估过程，并确保问题是可回答的，而不是主观的。3)建议问题和答案的最大长度分别为22和6个单词，请重复。我们特别鼓励简洁的答案，以避免句子释义，并促进答案的评价。4）问题类型在下拉菜单中设置，必须由提问者选择，以确保问题的分布满足每个视频5）提问者可以报告难以提出有效问题的视频已确认的无聊视频将从数据库中删除。后处理。我们在验证和测试集中删除了一些“是”回答的问题，以确保“是”和“否”的答案数量平衡。此外，我们删除了答案值大于20的有限数量的计数问题。剩下的是5，440个有效视频和52，044个问答对;详细统计数据在第二节中列出。三点三多选择生成。为了有意义，多项选择问答中的反对者应该是彼此唯一的，在回答问题时语义一致，并且相对于正确答案在意义上本最后，我们先根据题注的题目类型（二元题除外）对题目进行分组。然后，对于每个问题，我们根据基于Sentence-BERT的现成特征的余弦相似性检索了同一组中与查询问题相似的前50个问题[36]。这50个问题的答案作为干扰项候选返回，然后过滤以获得与正确答案的重复性和相似性两个答案是冗余或相似的，如果1）它们的词元化变体是相同的，其中不考虑停用词，或2）它们的特征向量的余弦相似度大于0.9。到1视频取自YFCC-100 M [43]，并从Flickr抓取2在一个阶段中注释所有问题对于质量控制和补偿是有问题的。我们首先对因果问题进行注释，然后是时间问题;描述性问题是最简单的，也是最后完成的。支付与问题的数量和难度相称9780<=4个56789101112131415161718192021>=22500040003000200010000>6654321因果描述性时间问题长度(b)分发问题因果时间描述图2：多项选择QA的示例。视频任务问题火车 Val 测试培训确认测试总计3，870 570 1，0005，440多项选择QA 34，132 四千九百九十六八千五百六十四四万七千六百九十二开放式QA 三万七千五百二十三5,3439,17852,044表1：NExT-QA数据集的统计数据为了确保硬否定，我们还丢弃与正确答案的相似度低于0.2的候选。之后，我们抽样了四个合格的候选人作为每个问题的分散答案，并随机（但均匀）插入正确答案，形成5个选项。最后，我们手动检查所有的问题-答案元组，并修改一些选项，以确保生成的多项选择的有效性。我们在图2中展示了一些例子;更多的例子可以在附录中找到。3.3. 数据统计NExT-QA包含5，440个视频，其中3，870个用于培训，570个用于验证，1，000个用于测试。详细统计数字载于表1。问题和答案的分布如图3所示。从图3(a) 我们可以看到，因果问题的数量约占整个数据集的一半（48%）;以“为什么”开头的理解现在或推断过去或未来的时间问题占整个数据集的29%。除了因果关系和时间问题外，还有23%的描述性问题侧重于描述视频中的位置，对象/属性和主要事件。问题词长度的分布如图3（b）所示问题平均为11.6个单词，比现有的VideoQA数据集长得多（例如，8.7在活动-QA [56]中）。我们发现三种题型的分布有明显的差异描述性问题最短，而因果和时间行为的问题这是合理的，因为大多数描述性问句的句法结构简单，而因果和时间组中的问句大多是复合式的。因此，描述性问题的答案（图3相比之下，对因果关系和时间问题的回答相对较长。然而，广大0 5000 10000 15000 20000回答次数(a) 问题类型的分布（c）答案图3：数据统计。(a)问题类型的分布。(b)平均问句长度为11.6，因果问句、时间问句和描述问句的长度分别为12.1、13.4和8.0。(c)平均答案长度为2.6。因果、时间和描述性答案的具体长度分别为3、2.8和1.4。大多数问题可以用6个字回答。3.4. 数据集比较与其他数据集相比，NExT-QA有几个有吸引力的属性（见表2;附录第1部分给出了更详细的分析）。首先，NExT-QA的独特之处在于，它超越了描述性QA，可以在现实视频中对因果和时间动作推理进行基准测试，并且还具有其次，它是最大的VideoQA数据集之一，手动注释以支持多选择和开放式QA，允许对不同的VQA技术进行全面比较。最后，NExT-QA中的视频在对象、动作和事件方面丰富多样，并且都反映了真实的日常生活，这与流行的TVQA [ 25 ]数据集不同，TVQA [25]数据集偏向于理解电视节目中主要人物之间的对话。4. 实验评价对于多项选择QA，我们报告正确回答问题的准确度或百分比。对于开放式问答，我们首先删除答案中的停用词并将其他词缩写为le-matize。然后，我们确定Wu-Palmer相似性（WUPS）评分3[32]以评估生成的答案的质量。对于描述性组中的二进制和计数问题，我们使用准确性。由于准确性很容易集成到WUPS中（作为硬版本），为了简洁起见，我们不单独报告它们。配置.我们为每个视频统一采样16个片段（片段），每个片段有16个连续的帧。从ResNet-101中提取每帧外观特征[14]在ImageNet上预训练[6]，从卷积3WUPS根据单词在WordNet中的深度[33]计算单词的Wu-Palmer相似度[48]。它可以被看作是一个软版本的准确性，在同义词和其他语义因素[53，61]为什么男孩只拿了一件礼物然后挪到沙发上0. 与女孩分享1. 走近坐在那里的女士2. 打开它3. 玩玩具火车4. 做手势当球被击中时，扔给他的吗0. 弹它1. 走开2. 把孩子们围起来3. 捡起来扔回去4. 追着那个穿白短裤的男人跑一些问题答案长度9781数据集视频源目标注释#视频#QA对视频长度QA任务MSVD-QA [51]MSVD描述性QA汽车1,97050,50510OC[51]第五十一话MSRVTT描述性QA汽车10,000243,69015OCTGIF-QA [17，18]TGIF时空推理汽车71,741165,1653MC OC[25]第二十五话电视节目字幕概念理解人21,793152,54576MC[56]第五十六话ActivityNet描述性QA人5,80058,000180OC社会智商[57]YouTube社会智力理解人1,2507,50060MCNExT-QA（我们的）YFCC-100M因果时间动作相互作用人5,44052,04444MC OG表2：数据集比较。OC和OG分别将O笔式问答问题表示为分类问题和生成问题。MC是Multi-Choice QA的缩写。（Conv）层或全连接（FC）层，具体取决于具体型号。剪辑级运动信息由在Kinetics [21]上预训练的充气3D ResNeXt-101 [13，50]捕获。在语言方面，我们研究了GloVe [35]的单词表示和最近的BERT [7]的句子嵌入。除非另有说明，否则对于多选择QA，候选答案与相应的问题相连，并且通过使用铰链损失最大化正确和不正确QA对之间的裕度来优化模型。对于开放式问答，视频问题传达了fea-答案将被馈送到答案解码器以逐字生成答案。通过最小化softmax交叉熵损失来优化模型。所有实验遵循表1中的数据分割。我们在各自的训练集上训练模型，在此期间，在验证集上探索最佳4.1. 多项选择问答我们首先讨论了设计用于诊断NExT-QA中任何潜在偏差的基线，然后分析了建立的视频推理技术。4.1.1基线随机该基线随机选择一个选项作为正确答案，并对所有问题保持相同。表3显示了始终选择第一个选项作为代表的结果不同问题类型的随机准确率约为20%，因为正确答案均匀分布在五个选项中。最长，最短，最流行。顾名思义，最长/最短基线总是选择最长/最短的答案作为正确答案。我们可以看到，这两种方法在随机基线上的改进都很小。当我们通过选择最受欢迎的答案（即，每种问题类型的最常见答案），如果它是五个选项之一，否则选择最短的一个，如弹出窗口中所示。短基线，描述性组的问题有明显改善。然而，结果只是稍微好一点的因果关系的问题，甚至更糟的时间问题。这是可以理解表3：验证集的基线和人体结果。AccC、AccT和AccD分别表示因果关系、时间和描述性问题的准确度因为描述性问题更容易得到频繁的回答。所有这些基线都验证了有根据的猜测很难在NExT-QA上获得良好的结果。SimAA和SimQA。我们具体分析了基于检索的方法，因为否定答案主要是通过搜索数据集上问题的最近邻居来生成的。具体地说，SimAA基线被设计成检查正确答案是否在语义上远离干扰项答案。为此，我们为答案提取句子BERT [36]表示（Se-BERT），并找到距离其他四个选项最远的选项作为每个问题的正确答案。如表3所示，该基线在所有方法中表现最差，揭示了答案在没有看到问题和视频的情况下难以消除歧义。同样，我们设计了SimQA基线，以重新检索与特征空间中相应问题最接近的答案。该基线在因果和时间问题上的表现相对好于先前引入的基线，但其在描述性问题上的表现仍然比流行+最短基线由于描述性组的问题和答案之间语义重叠较少，因此结果是合理的同样，这些结果表明，问题不能简单地基于问题和答案之间的语义相似性而被排除。方法文本代表加速度C加速度T附件DACC随机-20.5220.1019.6920.08最长-21.7121.4617.8921.04最短-22.0919.6722.7821.42Pop.+短-22.2520.4132.4323.24SimAASe-BERT18.1119.2318.1518.47SimQASe-BERT27.1226.6726.6426.90BlindQA手套26.8930.8342.6030.60BlindQA伯特23.7824.2635.2625.72BlindQABERT-FT42.6245.5343.8943.76人类-87.6188.5690.4088.389782方法文本代表为什么加速度C如何所有上一页下加速度T本所有计数附件D位置处所有ACCEVQA [2]手套28.3829.5828.6929.8233.3331.2743.5043.3938.3641.4431.51PSAC [26]手套35.8129.5834.1828.5635.7531.5139.5567.9035.4148.6535.57PSAC+[26]手套35.0329.8733.6830.7735.4432.6938.4271.5338.0350.8436.03[第11话]手套36.1232.2135.1034.0441.9337.2839.5567.1240.6650.4538.19[18]第十八话手套37.5832.5036.2533.0940.8736.2945.7671.5344.9255.2139.21HGA [19]手套36.3833.8235.7135.8342.0838.4046.3370.5146.5655.6039.67HME [9]手套39.1434.7037.9734.3540.5736.9141.8171.8638.3651.8739.79HCRN [23]手套39.8636.9039.0937.3043.8940.0142.3762.0340.6649.1640.95EVQA [2]BERT-FT42.3142.9042.4646.6845.8546.3444.0746.4446.2345.8244.24[18]第十八话BERT-FT45.3743.0544.7647.5251.7349.2643.5065.4253.7755.8647.94[第11话]BERT-FT46.1542.6145.2248.1650.3849.0741.8167.1251.8055.3448.04HCRN*[23]BERT-FT46.9942.9045.9148.1650.8349.2640.6865.4249.8453.6748.20HME [9]BERT-FT46.5245.2446.1847.5249.1748.2045.2073.5651.1558.3048.72HGA [19]BERT-FT46.9944.2246.2649.5352.4950.7444.0772.5455.4159.3349.74表4：验证集的多项选择QA结果。+：添加运动功能。* ：连接问题和答案以适应BERT表示。(The最佳和次佳结果分别用粗体和下划线表示）。盲态QA。我们通过只考虑问题-答案而忽略视频部分来研究深度模型的盲版本。为此，我们使用LSTM对QA进行建模，在此期间，使用GloVe或GloVe初始化单词[35]或BERT [7]表示。作为一种流行的时尚，我们提取令牌表示从倒数第二层的BERT基础模型。如表3所示，BlindQA模型稳步改善了所有问题类型的结果。有趣的是，使用GloVe的模型比使用BERT的模型我们认为这是因为现成的BERT表示严重偏向于它所训练的语料库，因此在文本主要与视觉内容相关的场景中推广效果很差因此，我们通过最大化每个多选择QA中正确QA对的概率来进一步微调多选择QA从表3中，我们可以看到BERT-FT显着提高了现成的BERT表示和GloVe的结果。尽管如此，结果仍然比人类的表现差得多，因此表明理解视频的必要性。4.1.2已建立的VideoQA模型我们在表4和表5中分析和基准测试了几种已建立的VideoQA方法，涵盖了不同的网络架构和视觉推理技术。EVQA [2]通过添加由另一个LSTM建模的视觉流来扩展BlindQA基线。视觉和文本特征然后被逐元素添加以预测答案。在模型中没有任何推理模块，它的表现比BlindQA基线要好。STVQA [18，17]通过将两个双层LSTM应用于视频和问题建模，以及用于视觉推理的附加时空注意力模块来推进EVQA。我们可以看到，它稳步提高了EVQA基线同样是[11]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！两者都共享类似的视频和问题编码器在STVQA，但使用内存模块的视觉外观，运动和语言reasoning在一个多周期的时尚4。与上述应用RNN对视频表示进行上下文化的方法不同， PSAC [26] 在 CNN 特征之上利用自注意力（Transformer架构的构建块[45]）并取得了巨大成功[18]《易经》中的“道”，只有“道”。由于Transformer本质上是将全连接层与短路连接堆叠在一起，因此它训练速度很快，但数据量很大;在NExT-QA上，它存在过拟合问题，并且在其他方法中表现最差。我们推测数据集可能不够大，不足以直接学习变换风格的视觉模型。尽管如此，它将是预训练架构的一个很好的测试平台[41，65]。HCRN [23]是一种以条件关系网络（CRN）为构建块的分层模型。它操作的视频帧/段集的各种长度的条件下，无论是运动或文本线索在一个阶段明智的方式，以reason上的视频在多个粒度。如表4所示，当考虑GloVe表示时，它在因果和时间动作推理方面表现出很强的性能。然而，当它适用于BERT表示时，结果并不总是好的。这种差异可能是模型的大小比其他模型大一个数量级，因此易于过拟合，因为BERT表示的大小大约是GloVe的大小的2.5倍（768vs.300）。HGA [19]引入了一个异构图推理模块和一个共同注意单元，以捕获视频片段、语言概念4我们使用[8]提供的实现，因为CoMem没有官方视频编码器是一个双层GRU [5]，而不是原始论文中使用的TCN [249783方法加速度C加速度T附件DACC方法WUPSCWUPSTWUPSDWUPSEVQA [2]43.2746.9345.6244.92受欢迎9.738.9528.3913.40STVQA [17]45.5147.5754.5947.64BlindQA12.1414.8540.4118.88表5：测试集的多项选择QA结果。所有这些都基于微调的BERT表示。HGA [19]14.7614.9046.60 21.48表6：验证集的开放式QA结果。605550454004816202432视频片段（一）所有DTCRes+I3DRes+C3Di3DC3dRes40 45 50 55 60准确度（%）(b)方法WUPSCWUPSTWUPSDWUPS受欢迎12.1910.7931.9416.12BlindQA14.8718.3545.7822.66STVQA [17]15.2418.0347.1123.04HCRN [23]16.0517.6849.7823.92HME [9]15.7818.4050.0324.06UATT[53]16.7318.6848.4224.25HGA [19]17.9817.9550.8425.18表7：测试集的开放式QA结果。我们提供图4：（a）不同夹子数量的结果（b）重新-不同的视频表现。C、T和D分别代表因果问题、时间问题和描述性问题以及它们的跨模态对应。该方法更适合于因果和时间动作推理，并表现出优越的性能与BERT表示，实现SOTA结果NExT-QA。然而，人类表现之间的差距仍然很大（例如，46.26%，87.61%的人回答因果关系问题，50.74%的人回答因果关系问题，88.56%的人在时间问题上，59.33%的人在时间问题上，59.33%的人在时间问题上。90.40%的描述性问题），因此提供了充分的改进机会。4.1.3视频采样率和表示。我们基于混合遗传算法，以BERT-FT为语言表示，分析了视频采样率和特征表示的影响。首先，我们将采样视频剪辑（片段）的数量从0变化到32，其中0代表各自的BlindQA基线。如图4（a）所示，我们可以看到所有类型的问题都有明显的改进。具体来说，描述性问题的改善是显着的，超过15%。此外，我们还观察到，16个分段就足以获得良好的整体准确性，而在因果问题上，需要相对在图4（b）中，我们研究了视频帧和片段的不同特征从结果中，我们可以得出结论，对于所有类型的问题，最好的性能是使用ResNet作为外观特征以及I3DResNeXt 作为运动特征（ Res+I3D ）。当用 C3D（Res+C3D）代替I3D时，所有问题的结果都会下降，尽管我们在本实验中没有观察到C3D和I3D之间的绝对弱点。我们推测，改进主要归因于1）I3 D在因果问题上表现更好，这占了NExT-QA的大部分; 2）ResNeXt来自ResNet两个参考答案的一半测试问题，并报告最高的WUPS分数之间。因此在特征空间中比C3D更好地与ResNet匹配。在[17]中也有类似的观察。4.2. 开放式QA我们将多项选择问答中表现最好的几种方法转移到开放式问答中。为此，我们首先通过选择那些在数据集中出现超过五次的单词来构建3，392个单词的词汇集。问题和答案被截断为最大长度23和6，请注意。由于BERT表示不方便适应生成场景，我们使用GloVe作为本实验方法的文本表示视频问题编码器保持与多选择QA中相同对于应答解码器，我们研究了几种体系结构;我们发现，GRU对问题的软关注表现良好（详见附录第2部分），我们将其用于从多选择QA改编的所有模型。为了更好地进行比较，我们还通过设计一个保持顺序的共同注意模块来重现UATT [53]，该模型被提出用于基于生成的开放式QA如表6和表7所示，尽管这些方法可以有效地提高BlindQA基线的结果，但总体改善微不足道（小于3%），主要是为了深入研究原因，我们首先在图5中可视化了一些结果（在附录第3部分中找到更多），从中我们可以看到模型在自动回答问题时遇到了困难，特别是那些挑战因果和时间动作推理的问题。我们进一步详细介绍了HGA [19]（作为代表）对不同长度的问题和答案的结果。如图6（左）所示，因果和时间问题的表现随着问题长度的增加而下降。然而，对于描述性C T D全部准确度（%）STVQA [17]12.5214.5745.6420.08HME [9]12.8314.7645.1320.18HCRN [23]12.5315.3745.2920.25UATT[53]13.6216.2343.4120.65[第11话]45.8550.0254.3848.54HCRN [23]47.0749.2754.0248.89HME [9]46.7648.8957.3749.16HGA [19]48.1349.0857.7950.019784C：为什么那个穿蓝色衣服的女孩在开始时停下来并转过身来？0. 把配料倒进去。 1. 害怕2. 在等那位女士3.第三章。取出蔬菜。四、跳舞吧第七章）当宝宝开始爬走后，大人会怎么做？0. 爬走了 1. 跟着宝宝2. 看着镜头 3. 站起来4. 推玩具车。））D：这个男孩在拉什么？0. 玩具桌。 1. 狗的尾巴。2. 玩具车。 3. 沙子4. 绳子STVQA1看看这个。（4.41）HME1为了。（0.00）HCRN1看看这个。（4.41）UATT-看看这个。（4.41）HGA2到达终点。（5.7STVQA1爬走（4.71）HME1抱起宝贝。（3.57）HCRN1推婴儿。（13.33）UATT-跟着宝宝。（100）HGA1改变沃克。（7.14STVQA4null. （0.00）HME4绳子（100）HCRN4棍子（66.67）UATT-秋千玩具（11.83）HGA4耳机。（55.56）图5：答案预测结果的可视化对于多选问答，正确答案和预测以红色突出显示。对于开放式QA，附加每个预测的WUPS评分。'null'表示方法无法生成任何有效的单词。（C：因果关系。T：暂时的。D：描述性。）6050403020100<=5个 6 810121416>=18问题长度605040302010012345 >=6回答长度NExT-QA的首选第二，在多选择问答中有效的方法在自动回答开放式问题时很困难（见表4，5与表5）。表6、7;定性分析见图5）。这引起了我们的根本关注，即这些方法并没有真正理解行为的因果和时间结构。相反，他们可能更善于学习所提供的正确图6：问题和答案的结果分布。问题，结果相对稳定，受影响较小此外，它们始终优于因果和时间问题。关于图6（右）中的答案，所有类型的问题的性能都会随着答案的增加而下降。通过联合考虑数据集中问题和答案的分布（参见图3），我们可以得出模型在因果和时间推理方面本质上很弱，并且对于语言理解和生成来说不够强大。5. 讨论和结论我们总结了以下几点，并将其作为社区其他人的公开挑战首先，SOTA方法在描述性问题上表现良好。然而，他们在因果和时间动作推理方面仍然很弱-尽管如此，我们的实证结果表明，图模型在因果关系和时间关系推理方面更优越（参见HGA [19]），并且是一个很有前途的探索方向。关于视觉特征表示，运动特征是重要的，但天真地将外观和运动特征连接起来通常会导致次优结果（参见EVQA [2]，PSAC+[26] ”[27]《明史》：因此，我们鼓励研究更有效的建模和合并两种类型的功能的方法。在语言表示方面，预训练的BERT表示[29]严重偏向于TextQA，并且比GloVe [35]更差。然而，经过微调的BERT在回答因果和时间问题方面表现出绝对的优势（参见表3，4），因此我们推荐BERT作为文本表示和不正确的答案，可以说，挑战更多的接地，而不是推断视频中的答案[49]。因此，我们希望NExT-QA将支持下一代VQA研究，不仅在多选择QA，而且在开放式QA。最后，开放式QA不仅受到推理组件的挑战，还受到语言生成的挑战，这些问题本身就是开放的研究问题。我们的分析表明，目前的VQA模型在理解复杂问题和生成更长的答案方面仍然很薄弱。鉴于视觉语言表示学习[41，65]的进步，未来的工作可能会更好地通过使用预先训练的架构来服务。然而，他们需要仔细平衡，以纳入和条件的视觉证据。我们相信这也是一个令人兴奋的研究领域，NExT-QA可以为进步做出贡献。此外，合并明确的关系信息可能是有趣的，因为NExT-QA确认我们非常感谢评论者的积极评价和一些有价值的建议。这项研究由新加坡国家研究基金会在其新加坡国际研究中心基金倡议下以及在其NRF人工智能奖学金（NRF-NRFFAI 1 -2019-0001）下支持本材料中表达的任何观点、发现和结论或建议均为作者的观点，并不反映新加坡国家研究基金会的观点。D不CWUPSC T DWUPS9785引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问题回答。在CVPR中，第6077-6086页2[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.VQA：可视化问答。在CVPR，第2425-2433页二、三、六、七、八[3] Daphna Buchsbaum ， Thomas L Griffiths ， DillonPlunkett，Alison Gopnik，and Dare Baldwin.在连续的人类动作序列中推断动作认知心理学，76：30-77，2015。1[4] Joao Ca

下载后可阅读完整内容，剩余1页未读，立即下载