动态环境下视觉理解与视频问答数据集Env-QA及模型的研究

170 浏览量更新于2023-10-14 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1675Env-QA：全面理解动态环境高迪飞1，2，王瑞平1，2，3，白紫怡1，2，陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京，1000493北京人工智能研究院，北京，100084{difei.gao，ziyi.bai} @ vipl.ict.ac.cn，{wangruiping，xlchen} @ict.ac.cn摘要视觉理解远远超出了对网络上的图像或视频的研究。为了在动荡的情况下完成复杂的任务，人类可以深入了解环境，快速感知周围发生的事件，并持续跟踪对象的状态变化，这对于当前的为了使AI系统具有理解动态ENV的能力，我们构建了一个名为Env-QA的视频问答数据集。Env-QA包含23 K以自我为中心的视频，其中每个视频由关于在环境中探索和交互的一系列事件组成。它还提供了85K问题，以评估理解视频中事件所呈现的环境的组成，布局和状态变化此外，我们提出了一个视频QA模型，时间分割和事件注意力网络（TSEA），它引入了事件级的视频表示和相应的注意力机制，以更好地提取环境信息和回答问题。综合实验表明，该框架是有效的，同时也显示了Env-QA在长期状态跟踪、多事件时态推理和事件计数等方面的巨大挑战。1. 介绍在过去的几十年中，大量的工作[9，30，45，17，58，10，49]为计算机视觉系统带来了革命性的进步，用于理解网络数据，例如，照片、视频和电影，而对于在人类生活环境中部署机器（即，构建具身人工智能），我们将在视觉能力上遇到全新的1)从互联网人工智能的研究重点是使系统从数十个对象类别[29，34]到数千个类别[9，43，19]（更广泛）进行识别。怎么-在环境中探索和交互自我中心视频：代理将罐移至工作台10：轨迹=将锅移至水槽=打开水龙头捡拾罐打开水龙头捡拾罐锅搬到==拿起锅将锅移到桌上问题答案图1.Env-QA数据集包含关于探索和与环境交互的以自我为中心的视频，以及从各种角度评估理解动态环境的模型的以往，互联网AI主要关注图像中显示的显著为了完成现实世界环境中的任务，例如做饭，系统需要深入了解环境的每个细节（更深），例如，知道厨房中所有器具和配料的位置。2)从静态到动态的视觉理解。真实世界环境的本质特征之一在于其动态性。人与环境之间的相互作用将触发环境系统必须学会感知和记忆状态变化，以完成一些长期任务，例如，家务机器人可能需要连续跟踪家中物体的状态以计划清洁任务。然而，很少有作品纯粹研究这些视觉能力下的体现人工智能设置。一些视频QA数据集，如TVQA [32]和MovieQA [49]，评估模型查询事件查询时态关系Q3：把锅移到水槽后，发生了什么Q4：把锅移到水槽后，哪一个先发生？还是打开水龙头A3：打开水龙头A4：打开水龙头查询对象状态Q2：在哪里锅，在视频的结尾？A2：在桌子查询环境属性Q1：您的手机号码是多少？A1：棕色1676表1. Env-QA与其他相关视频QA和嵌入式QA数据集的比较。该表显示了现有数据集中涉及的模态的基本信息。括号中的内容表示视觉材料的主要特征。数据集愿景对象中心交互以人为本的行动语言行动剪辑数量QA数量[49]第四十九话-电影（情节）问题+字幕+脚本-6.8K6.5KTGIF-QA [22]-社交媒体（行动）问题-56.7K103.9KTVQA [32]-电视节目（剧情）问题+字幕-21.8K152.5KTVQA+[33]-电视节目（剧情）问题+字幕-4.2K29.4K社会智商[59]-YouTube（社会状况）问题+文本+音频-1.2K7.5K聪明[57]合成视频（对象碰撞）-问题-10.0K305.0K具体QA [8]AI栖息地（静态环境）-问题导航-1.1K[14]第十四话AI 2-THOR（接近静态环境）-问题导航+操作-75.0KEnv-QA（我们的）AI 2-THOR（动态环境）-问题-23.3K85.1K视频.在表1中，我们展示了相关数据集的主要特征。虽然这些任务探索视觉的动态，但它们更关注以人为中心的行动、社会活动或情节发展所引入的动态，而不是与环境的相互作用相应地，这些任务主要要求人的姿态识别、对话理解和社会知识理解能力。虽然其他一些相关的任务，如视觉导航和操纵[61，48]和具身QA [8，14]，涉及对环境的理解，但它们更侧重于如何在环境中计划行动的综合能力环境理解的视觉能力隐含地由执行动作的质量来评估此外，这些任务通常要求模型在接近静态的环境中执行，因此它们也很难研究环境的动态特性。因此，我们建议把问题回答作为一个代理任务，纯粹研究所理解的动态环境该任务需要观看由关于在环境中探索和交互的一系列事件组成的以自我为中心的视频，例如，移动锅，打开水龙头，如图1所示。然后，它必须回答一个问题，该问题需要1）理解环境为了支持这样的任务，我们构建了一个大规模的数据集Env-QA，包含23.3K视频和85.1K问题。构建这种规模的数据集的一个关键挑战是如何控制样本的分布最新的QA数据集与现成的视觉材料从互联网包含非预期的偏见[24，1]。这些偏见可能在自然场景中的家务劳动中更加明显，比如烹饪，导致模型在不看视觉材料的情况下猜测答案的风险很高。为了应对这一挑战，我们求助于最近提出的虚拟模拟器AI 2- THOR[27]来生成具有严格控制内容的视频。具体来说，我们设计了一种半自动的数据采集方法。我们设计的算法是负责控制样本分布和自动生成自然语言引导信息。然后，注释者遵循指导在模拟器中进行操作以生成视频并收集问题-答案对。从一系列交互事件中理解动态环境需要从事件中提取关键环境信息，并执行时间推理以捕获状态变化。而这两种能力的基础都是在事件级表示视频，即根据视频内容将视频分割成片段，使模型更容易定位关键事件。然而，先前的视频QA方法[21，33]主要使用由时间CNN [50，23]提取的具有预设间隔的网格级视频特征为了解决这个问题，我们引入了时间分割和事件注意力网络（TSEA），它将首先根据内容将视频分割为灵活的持续时间片段，然后执行多步时间推理来定位给定问题的关键事件并输出答案。在Env-QA上的实验表明了该方法的有效性，并揭示了Env-QA在捕获长期状态变化、多事件时态推理和事件计数等方面的挑战性。2. 相关工作2.1. 嵌入式AI任务20世纪90年代，[51，11]提出了具身认知和具身人工智能的概念，强调了身体在认知学习中的重要性。近年来，许多先锋作品在构建强大的虚拟环境模拟器方面花费了巨大的努力，这些虚拟环境模拟器可以被探索和交互以用于具体的AI研究，例如，Matterport3D [6] ， AI2-THOR [27] ， Virtu-alHome [40] ， AIHabitat [46]和UnrealCV [41，42]。研究者还提出了相应的具体化AI任务，例如，对象导航、视觉语言导航、视觉语言操纵、具体化QA和重排。对象导航任务[61]需要在环境中探索以找到指定的对象，其评估基于以自我为中心的视觉观察[55，54，47]做出决策的能力。视觉语言导航1677任务[3，7，52]要求模型根据自然语言指令在环境中行动。这类作品[12，55，25，16，28，52，53，18，18，37]主要研究视觉-语言-动作的综合能力，例如，将自然语言指令解释为具体的移动动作[12]。[48]提出了一个更具挑战性的任务，AL-FRED，它还需要模型根据详细的指令实现复杂的操作。实体问题回答[8，14]需要模型在环境中进行探索[8]并操纵对象[14]，例如，打开冰箱，找到问题所问的对象，回答关于对象属性的问题。重排[5]是最近提出的一种高级认知任务，它需要操纵对象以使给定的物理环境进入指定的状态。以往的具身人工智能任务主要是评估视觉和动作的综合能力，很难对视觉能力进行纯粹的诊断。此外，这些规划任务通常只需要根据当前的环境状态做出行动决策，因此很难研究环境的动态性。因此，Env-QA收集具有不同事件的以自我为中心的视频以纯粹研究视觉挑战，并引入新类型的问题以评估对环境状态变化的整个轨迹的理解。更多的说明在补充。2.2. 视频QA任务随着图像问答的发展[4，15，35]，近年来许多工作开始研究视频问答任务[49，22，36，26，38，59，57]。早期任务之一，TGIF-QA [22]提出回答有关短视频的问题（例如，GIF图像）。该任务检查模型对短期动作的理解，例如识别动作、计数动作。另一种类型的任务[33，32]查询电影或电视连续剧的内容。这些任务的主要特征是需要理解以人为中心的情节，例如，理解字幕和更先进的背景常识。最近的CLEVERER数据集[57]使用渲染器来构建包含一系列对象碰撞事件的视频。这项任务的核心困难在于因果关系的推理，例如，该碰撞事件引起另一个碰撞事件。虽然现有视频QA数据集中的视觉样本，例如，电影、电视剧涉及很多场景，这些视频中的大部分时段并不关注环境。此外，大部分的问题都考察了对人类行为、对话和社会习俗的理解.相比之下，我们收集的视频都是关于在环境中探索和交互的，并且提出的问题从不同的角度评估动态环境的理解能力。2.3. 视频表示与时间推理早期的工作[50，23]将2D卷积扩展到3D卷积，其使用类似的机制来处理时间和空间维度。[10]认为时间和空间维度的处理机制应该是不同的。因此，它提出了一种双向机制来分别捕获外观信息和运动信息。这些视频表示方法主要用于单动作视频识别任务。对于需要时间推理的任务，例如，动作定位、视频字幕或视频QA，该模型需要时空注意机制来表示多动作视频的关键内容。[60，33]提出了帧级时间注意和区域级空间注意机制，根据自然语言查询定位视频另一个视频QA工作[13]提出使用记忆网络来进行时空注意力机制。为了实现更好的事件推理能力，[31]建议将视频分成等长的片段，然后分层提取帧，片段和整个视频的特征。现有的视频表示方法主要提取时间维度上具有预设间隔的网格级特征，例如，每个框架[60，33]的特征或夹子特征[31]。相比之下，为了更好地执行- ING多事件的时间推理，在Env-QA，我们提出了一个事件级的视频表示，分割成片段的视频根据其内容。3. 数据集构建本节描述我们如何为Env-QA数据集收集视频和问答对，这些数据集具有多样的内容和可控的分布。我们设计了一种半自动构建方法，用AI 2- THOR [27]模拟器采集样本，如图2所示。关键问题是控制样本分布并自动生成自然语言指导;然后，注释者遵循指导来操纵模拟器以生成视频并收集QA对。3.1. 视频采集Env-QA使用最近发布的AI 2-THOR模拟器来收集关于在环境中探索和交互的以自我为中心的视频AI 2-THOR提供了四大类，共120个室内模拟环境，包括厨房、客厅、卧室和浴室。这些环境包含115种类型的对象，并支持多种类型的交互操作，例如打开、抛出等。对于Env-QA数据集，总共定义了15种基本动作，如图2所示（注意，整理一个对象被定义为将所有对象移出该对象）。1678所有法律事件生成物体在环境中面包生菜杯椅子微波接收器咖啡机指令生成所有法律事件基于视频类型的示例事件说明：以对象为中心的视频×个行动推断开投掷切片填充/清空打开/关闭打开/关闭清洁/脏污整理用完...所有法律环境事件移动到.........打开打开...问题模板：- Object1<>在之前在哪里？...根据说明填空生成所有候选人问题- 在把面包搬到椅子上之前，面包在哪里？1. 样题2. 根据视频重新措辞、检查并回答最终QA对- 问：在把面包搬上椅子之前，在哪里可以找到面包？- A：在水槽里：算法实现的功能：注释器实现的功能视频集锦问题集锦录制视频和Meta注释在AI 2-THOR中操作移动3.把面包搬到椅子密切推推推搬到1.将面包移至水槽2.推面包3.把面包搬到椅子图2.所提出的Env-QA数据集的半自动构建的流水线流水线中的算法负责生成辅助注释，例如，说明和候选问题，用于指导注释者控制样本的分布和难度注释者负责收集视频和QA对，以确保样本给定存在于虚拟环境中的对象，算法将在环境中生成所有可执行的法律事件。然后，我们设计了五种类型的视频，探索，随机，以对象为中心，以动作为中心和综合任务，以评估模型的不同能力，如图3（a）所示。收集探索型视频需要注释者在环境中行走以找到一些指定的对象。这种类型的视频旨在检查模型随机类型视频包含环境中的一系列完全随机的事件，主要考察模型对以对象为中心的视频包含围绕一些选定对象的一系列事件。这种类型的视频主要检查模型跟踪对象状态的能力。以动作为中心的视频包含具有类似动作的事件，用于测量事件计数的能力。综合任务视频是关于完成复杂的日常生活任务，例如，热土豆，洗锅。这种类型的视频研究了对人类日常生活中复杂事件的为了收集一个特定类型的视频，我们设计了一个采样器，以自动采样的一些行动，从所有的法律事件下，根据特定的约束，以产生的指令，如图2和3（b）。最后，注释器根据提供的指令操纵我们开发的基于Web的AI 2-THOR注释平台中的环境。平台将记录视频和环境Meta数据，包括深度图、实例分割图和环境元数据（对象的姿态和状态）。通过上述方法，我们收集了4,720个长时间视频，每个视频主要包含5到10个左右的事件。这些视频的视频类型分布如图3（a）所示。这些长时间视频可以评估模型为了提供一些更简单的示例来测试对短期变化的理解，我们将部分视频拆分tal，它均匀地覆盖了四类环境。3.2. 问题收集在收集视频后，我们首先设计了一个基于模板的问题生成器，根据指令输出均衡的候选问题。具体地说，Env-QA定义了五类问题，从不同的角度评价动态环境理解，包括查询对象属性、对象状态、事件、事件的时序、事件或对象的计数在图3（c）和（d）中，我们显示了每种类型的问题和示例。然后，对于每种类型的问题，我们收集一组问题模板，例如，在之前在哪里？，是否在视频结束时关闭？.生成器将根据说明自动填写空白。然后，生成的问题馈送到过滤器中以平衡答案分布。最后，注释者根据视频内容对自动生成的问题进行重新措辞、修改和检查，以确保问题的多样性和准确性，并对答案进行注释。3.3. 数据集统计数据Env-QA收集总共23，261个以自我为中心的视频、85，072个问答对和视频的丰富注释，诸如实例分割图、深度图、环境元数据1。这些样本被分为三个部分，训练（ 70% 的样本），验证（ 15% ）和测试（15%），其中验证和测试部分中的60%的视频被记录在新环境中，这些新环境不会出现在训练部分中，以评估模型的跨环境平均视频时长约为20秒。此外，我们通过以4FPS（每秒4帧，如在[33]中类似地完成的）提取视频帧来对视频进行下采样。在图3（e）中，我们显示了Env-QA中视频的事件数量分布分成主要包含约1至4个事件的较短视频最后，我们收集了23，261个不同长度的视频-1该数据集可在www.example.com上获得http://vipl.ict.ac.cn/resources/envqa。转1679| ||∪|--i=11−ε，否则，（2）(a) 视频类型分布(c)问题类型分布(b) 所有视频类型第一步：将苹果移至水槽;第二步：推苹果;第三步：...第一步：把杯子移到台面上;第二步：打开冰箱;第三步：第一步：扔书;第二步：扔杯子;第三步：第一步：找到肥皂条;第二步：找到蜡烛;第三步：第一步：将锅移到炉子上;第二步：打开炉子燃烧器;第三步：(d) 问题类型示例对象的位置类型状态，例如，破碎的，被切成薄片的Ab-缩写为Adj.），编号和是/否。Env-QA中的每个答案都可以映射到角色-值格式，如图6所示。请注意，对于特定答案，某些角色可能为空。这种格式提供了一个更好的评估，哪一部分的答案是错误的。此外，预测答案的准确度可以计算为预测值和地面实况值的IoU样得分：S=|C||P ∪ G|（一）(e) 视频分发的事件数（f）回答长度分布图3. Env-QA数据集的统计。视频涵盖了广泛的难度，其中包含1至10个事件。对于问题，其中42%是关于包含1到4个事件的视频，其余的是关于更复杂的视频。在图3（f）中，我们还比较了Env-QA和其他包含开放式问题的数据集的答案长度分布。可以看出，Env-QA中的大部分答案包含多个单词。这些答案主要是描述一个事件。在图6中，我们展示了数据集中的一些样本。更多样本及统计数字载于补充资料。3.4. 评估指标如图3（f）所示，短语形式的答案在Env-QA数据集中很常见如果使用传统的方法[4]来评估答案，则难以精确地测量地面实况和预处理之间的相似性口述答案。例如，“把平底锅移到台面上”比“把盘子移到台面上其中P_G表示预测角色集合P或地面实况角色集合G中非空的角色的数量，并且C表示非空并且在P集合和G集合中具有相等值的角色的数量。4. 方法本节介绍用于动态环境理解的TSEA的细节。为了更好地从视频中的事件中提取环境信息，该模型提出了一种事件级视频表示和多步时间注意机制。具体地，TSEA由三个模块组成：1）事件级视频特征提取模块，2）多步时间注意模块，以及3)答案预测模块，如图4所示。事件级视频特征提取模块。该模块将视频V分割成片段并提取每个视频片段的特征。具体来说，我们使用更快的R-CNN模型[44]来提取区域特征，然后将它们馈送到时间CNN [33]中，以将短时间的时间信息编码到每帧的特征中预测的对象名称和边界框也被附加到相应的对象特征，并且我们获得最终的对象特征t1，…，其中N指示帧中的对象的数目。此外，对于以自我为中心的视频，对象i的中心cti（边界框中心的坐标）与图像中心ct之间的距离自然地因此，为了使模型更加关注关键对象，我们设计了一个窗口函数来计算帧中每个对象oti上的注意力值αti（表示为焦点注意力）：. ε，d（cti，ct）<τ“切苹果”，它应该得到更高的分数。因此，受情境识别工作的启发[56]，Env-QA以角色-价值格式评估答案具体来说，Env-QA的答案将涉及以下七个方面其中，d指示欧几里得距离函数，ε是指示关注值的超参数，并且τ是指示图像中的聚焦区域的大小的超参数。然后，帧特征vt是加权和角色：动作（例如，移动、打开等），Object1（对象物体特征vt=（αti/ΣNαti）〇ti，被操纵）、Prep.（指示对象的位置，例如，on、near等），对象2（一些动作可以涉及两个对象，例如，把鸡蛋移到盘子里。此角色表示第二个对象。），形容词（表示属性或非在获得帧特征后，我们设计了一种启发式算法来分割视频，以生成事件级视频特征，而不使用额外的分割注释。该算法是基于这样的假设而在推杯子之前和切苹果之后，发生了什么？铅笔在哪里，在视频的最后？哪个先发生的，打破窗户还是打开水龙头？这本书被移动？沙发是什么颜色的αti=16801...简体��中文简体��中文动作角色分类器Object1角色分类器...是/否角色分类器∈联系我们∈∩∈⊙t=（3）Σ事件事件级功能0最后活动角色价值预测器关闭编码关注水龙头问：发生了什么自助提问功能1...多步在清洗锅后和用水装满碗之前？GRU多步自我关注完整问题功能2事件关注2没有一图4.我们提出的TSEA模型的管道。TSEA首先提取事件级视频特征，然后对事件进行多步时间关注，最后预测角色值格式的答案。算法1视频的时间分割输入：数组S[1，…T]，其中每个S[t]是其成员是对象的名称的集合。N满足d（cti，ct）<τ;输出：数组p，每个元素为视频的一个分段点;1：初始s= l;p=[];2：对于t= 1至T，do3：如果S[s]S[s +1]… S[t]thenp.append（t）;5：s=t;6：如果结束第七章：端8：returnp;当做一个动作时，视觉观察中心的物体是一致的。具体地，该算法从帧的开始到结束进行迭代，以找到图像中心的对象集合的交集不为空的每个最长视频剪辑，如算法1所示。该算法输出视频的分段点p然后，我们将其转换为矩阵ART×M，以表示视频片段，其中T表示帧编号，M表示视频中事件的数量。元素aij指示第i帧是否属于第j事件。Specifi-调用y，aij=1，当i[p j，pj+1]，否则aij=0。然后，每个事件的特征被计算为：ΣT1atjvtej=.q2以找出问题中所提及的事件在-倾向的事件特征表示为H1和H2。最后，我们将h1、h2和完整问题特征q连接起来，并使用连接起来的特征来参加与回答问题最相关的事件。最后参与的视频特征被表示为hv。答案预测模块。我们设计了七个分类头来预测七个角色的值，这七个角色在相同的体系结构中，但不同的标签大小和参数。它们将参与视频特征hv和完整问题特征q作为输入，然后预测值，表示为：P（yi|hv，q）=Softmax（Wi（Wvhv⊙Wqq））（4）其中，Wi、Wv和Wq是可训练参数，yi指示第i个角色的值，并且指示逐元素乘法。最后，我们计算的交叉熵损失的所有预测值的角色来训练整个模型。有关该模型的更多详细信息，请参见补充文件。5. 实验5.1. 基线• Q-ONLY：此基线仅使用问题特征作为输入来预测答案。• 仅I：该基线仅使用视觉特征作为输入来预测答案。• CNN-LSTM：这个基线简单地连接视频和问题特征来生成答案。不t=1阿TJ• ST-VQA：ST-VQA [21]是最先进的多步骤时间注意力模块。在获得事件级视频表示后，我们设计了一个多步骤的时间注意机制，根据问题的关键部分来参与事件。为了对文本输入进行编码，我们首先使用GloVe嵌入[39]以及GRU来获得问题中每个单词的特征。由于问题有时会提到多个事件，我们设计了一个两步自我注意机制[20]来获得问题的关键部分q1和q2的特征。然后，执行软注意力机制[2]以使用q1和q2。TGIF-QA任务。ST-VQA引入了基于双LSTM的时空机制，以更好地表示视频内容。由于该模型不支持区域特征，输出机制与Env-QA任务不兼容，我们保留了其注意机制的精神，并对其输入处理和输出模块进行了修改• STAGE：STAGE [33]是TVQA+任务的最新模型。STAGE提出了一种基于CNN的视频内容和字幕的帧级时空注意机制。我们还做了一些修改，例如：帧编码更快的R-CNN→时间时间CNN →分割焦点注意力...怎么了...1…清洗盘而且… before1681表2.与Env-QA检测拆分的基线方法的比较该表显示了每种类型的问题和每个角色的准确性模型问题类型准确度（%）角色准确度（%）去除字幕处理分支，修改输出模块以适应Env-QA。5.2. 结果和消融在表2中，我们显示了基线方法和我们提出的模型的结果。 Q-ONLY 方法仅达到低水平的准确度，32.48%，表明Env-QA数据集相对平衡并且包含有限的语言先验。I-ONLY方法要低得多，表明视觉内容是多样的。其他视频问答任务上的先前最先进的模型最多达到42.53%的我们提出的TSEA获得了4.5%的准确性比以前的方法最好的提升。尽管如此，所有模型的整体精度还远远不能令人满意，而且还有很大的余量。此外，从表2中的问题类型准确度可以看出，与Q-ONLY方法相比，现有技术方法和TSEA主要在查询属性、事件和状态问题中实现性能改进。相比之下，数字和顺序问题的性能改进有限。这表明多事件推理对于现有的方法仍然是相当具有挑战性的。研究人员需要进一步设计更复杂的符号推理机制，例如，模块化网络来有效地解决这个困难。从表2中的角色值准确度，我们可以看到，与Object和Adj相比，引入视觉特征的性能增益在Action角色识别上相对较小。角色动作角色识别需要理解较长的视频剪辑，而Object和Adj.角色可能只需要找到关键帧。这表明理解与长期剪辑相关的概念也很困难。视频长度的影响。在图5中，我们显示了不同视频长度中各种方法对查询事件问题的性能我们展示这类问题是因为它涉及所有长度的视频，并且它的答案空间更大，这可以更好地反映模型视频长度由视频中包含的事件的数量来测量。Q-ONLY的表现反映了参与回答不同视频长度的问题的语言先验的程度随着视频长度的增加，先前利用的语言几乎不断增加。这是因为+视频长度（事件数量）图5.查询事件问题在不同长度视频上的表现视频的长度是由其中的事件数量来衡量的短视频的问题通常包含可用于猜测答案的有限信息，例如，“视频里发生了什么？“.当长度太大（视频长度>5）时，会有轻微的减少。可能的原因是，当视频的内容丰富得多时，答案更不确定，更难猜测。此外，可以看出，随着视频长度的增加，所有基于视觉的方法的性能下降，并且基于视觉的方法和Q-ONLY之间的性能差距正在显著缩小。对于最长的视频，几乎所有型号在图6中，我们显示了TSEA模型的定性结果。可以看出，对于需要长期跟踪的视频（Q5和Q6），TSEA在应答和事件注意方面都失败。这些结果表明，现有的视频QA方法都很难从长时间视频中提取有用的信息。我们可能需要一个更结构化的视频表示来记录丰富的视频内容。消融术我们提出了一个广泛的实验，比较我们的模型TSEA如上所述，其变体，删除一些核心模块，以确定哪些组件是最重要的。具体地，我们累积消融TSEA的一些部分，并在Env-QA测试分割上对其进行评估。在表3中，我们展示了这些变体的性能。从结果可以看出，所有组分都获得了期望的增益，表明它们适应Env-QA的挑战。此外，研究结果还表明，事件特征是TSEA的核心，对绩效的贡献最大准确度（%）属性状态事件秩序Number整体行动对象1 2制备型Adj.是/否Number仅限Q37.2932.1724.2651.7937.8432.4842.0536.4851.0334.1550.5337.83仅限I3.513.763.560.572.123.054.607.8719.422.840.011.08CNN-LSTM38.2142.2629.9453.3738.1238.0545.8943.0754.1537.9043.2738.07ST-VQA [21]41.6648.9833.8754.0938.5441.9745.0845.0654.5041.0755.4438.51舞台[33]39.4949.9334.5255.3237.9842.5345.6947.2454.3542.7152.0737.66TSEA42.9656.7339.8455.5339.3547.0647.6150.5155.3344.9357.5639.351682找到床查找图书打开落地灯整洁的沙发找到碗Q1：你的碗是什么颜色的？GT：蓝色预测角色价值：查找CD开放膝上将遥控器移至垃圾桶Q3：打开笔记本电脑和移动遥控器，哪件事先发生控制到垃圾桶？预测角色价值：GT：打开笔记本电脑Q2：你看了多少本书GT：3预测角色价值：Q4：遥控器在哪里，在整理沙发之前？GT：在垃圾桶中抛布弄脏布打开水龙头把锅移到炉子推式皂条用完卫生纸移动布到水槽把锅放在水槽把锅装满水Q5：在哪里布，扔布之前？GT：在垃圾桶附近预测的角色值：问题7：发生了什么，把锅附近水槽和之前往锅里加水预测角色价值：GT：打开水龙头Q6：推完肥皂后，用完之前发生了什么卫生纸？GT：投掷布料预测角色值：Q8：在把锅移到炉子上之前，水龙头是关着的吗GT：没有预测角色价值：模型作用行动Object1 制备型 Object2Adj.Number是/否值----蓝色--作用行动Object1 制备型 Object2AdjNumber 是/否值开放笔记本----作用行动Object1 制备型 Object2Adj.Number是/否值-----2-作用行动Object1制备型Object2AdjNumber是/否值-垃圾桶在----作用行动Object1 制备型 Object2AdjNumber是/否值-水槽在----作用行动Object1 制备型 Object2AdjNumber是/否值打开水龙头-----作用行动Object1制备型Object2AdjNumber是/否值移动皂条到水槽---作用行动Object1 制备型 Object2AdjNumber是/否值------没有图6.来自TSEA的示例预测我们在示例视频中显示一些关键帧，并提供相应的问题、地面实况答案（表示为GT）和预测的角色值答案。右侧的大图是TSEA预测的出席活动中的帧曼斯。在看不见的环境中进行泛化。如第3.3节所示，Env-QA的测试分割视频有两部分，一部分在与训练集相同的环境中收集，另一部分在不可见的环境中收集。在表3中，我们分别显示了方法在可见环境和不可见研究发现，非视觉环境问题与视觉环境问题的表现非常相似。这表明，在视觉理解的水平，目前的框架的泛化性能是相对有前途的。这可能是因为在不同的大规模web数据上预训练的当前特征提取器对于处理Env-QA任务中的跨环境泛化足够强大更多结果见补充资料。6. 结论在本文中，我们提出了一个新的视频问答任务的动态环境的理解，并相应地构建了所提出的任务要求智能系统观看关于在环境中探索和交互的视频，然后提取有用的信息并执行时间推理来回答问题。我们进一步提出了一种新的视频QA方法与事件级视频表示，TSEA，处理上述任务。综合实验证明了TSEA的有效性另外，结果表3.测试拆分时TSEA网络的累积消融。表格行的消融从上到下累积。准确度（%）见环境不可见环境总体TSEA46.8547.2047.06-多步注意45.41 45.60 45.46-活动特色43.05 43.61 43.39-集中注意力41.84 41.79 41.80−对象名称特性41.05 40.32 40.60揭示了当前模型的Env-QA任务的主要挑战：1）查询事件、数量问题的较低准确率2)在长视频上的不令人满意的结果表明，长时间跟踪对象的状态是一个艰巨的挑战所有这些都意味着需要探索一些创新的想法，例如，环境级表示（如3D场景图）、更强大的事件特征提取器（如video Transformer）或符号时间推理机制（如模块化网络）。我们希望Env-QA能够为理解动态环境的研究提供支持，并有助于推动视频分析，QA和嵌入式AI领域的发展。鸣谢。本研究得到国家重点研发计划（2020 AAA0105200）、国家自然科学基金项目（2010 - 2011）、国家自然科学基金项目（2010 - 2011）的部分资助。U19B2036、61922080、61772500和61390510。此外，我们认为，我们衷心感谢匿名评审员和地区主席的宝贵意见。1683引用[1] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第4971-4980页，2018年。二个[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第6077-6086页，2018年。六个[3] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton Van Den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第3674-3683页，2018年。三个[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议（ICCV）的会议录中，第2425-2433页三、五[5] Dhruv Batra，Angel X Chang，Sonia Chernova，AndrewJ Davison，Jia Deng，Vladlen Koltun，Sergey Levine，Jiten- dra Malik，Igor Mordatch，Roozbeh Mottaghi，etal.重新排列：嵌入式人工智能面临的挑战。arXiv预印本arXiv：2011.01975，2020。三个[6] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niebner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：室内环境中rgb-d数据的学习。在3D视觉国际会议，第667-676页二个[7] Howard Chen ， Alane Suhr ， Dipendra Misra ， NoahSnavely，and Yoav Artzi.着陆：视觉街道环境中的自然语言导航和空间推理。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第12538-12547页，2019年。三个[8] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第1-10页，2018年。二、三[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition（CVPR），第248- 255页，2009中。一个[10] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在IEEEInternational Conference on Computer Vision（ICCV）的论文集中，第6202-6211页，2019年。第1、3条[11] 斯坦 · 富兰克林。自主代理体现 ai 。 Cyber-neticsSystems，28（6）：499-520，1997. 二个[12] Daniel Fried ， Ronghang Hu ， Volkan Cirik ， AnnaRohrbach ， Jacob Andreas ， Louis-Philippe Morency ，Taylor Berg-1684Kirkpatrick ， Kate Saenko ， Dan Klein ， and TrevorDarrell.用于视觉和语言导航的说话者跟随者模型。神经信息处理系统进展，第3318-3329页，2018年三个[13] Jiyang Gao ， Runzhou Ge ， Kan Chen ， and RamNevatia.用于视频问答的运动-外观共记忆网络。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第6576- 6585页三个[14] Daniel Gordon ， Aniruddha Kembhavi ， MohammadRaste-gari ， Joseph Redmon ， Dieter Fox ， and AliFarhadi. Iqa：交互环境中的可视化问题

下载后可阅读完整内容，剩余1页未读，立即下载