没有合适的资源?快使用搜索试试~ 我知道了~
视频问答中的组合一致性测量
...50460衡量视频问答的组合一致性0Mona Gandhi 1*, Mustafa Omer Gul 2*, Eva Prakash 2, Madeleine Grunde-McLaughlin 3, Ranjay Krishna 3, Maneesh Agrawala20Veermata Jijabai Technological Institute 1, Stanford University 2, University of Washington 30{mbgandhi b18}@ce.vjti.ac.in, {momergul, eprakash, maneesh}@stanford.edu,0{mgrunde, ranjaykrishna}@cs.washington.edu0摘要0最近的视频问答基准表明,最先进的模型在回答组合性问题时存在困难。然而,目前尚不清楚哪种类型的组合推理导致模型错误预测。此外,很难判断模型是通过组合推理还是利用数据偏见得出答案。在本文中,我们开发了一个问题分解引擎,将组合性问题程序化地分解为子问题的有向无环图。该图的设计使得每个父问题都是其子问题的组合。我们提出了AGQA-Decomp,一个包含2.3M个问题图的基准,每个图平均有11.49个子问题,总共有4.55M个全新的子问题。使用问题图,我们使用一套新的组合一致性度量标准评估了三个最先进的模型。我们发现模型要么无法正确推理大多数组合,要么依赖于错误的推理来得出答案,在中间推理步骤失败时经常自相矛盾或达到高准确性。01. 引言0组合推理是人类表示视觉事件的基础[20, 26, 32,38]。例如,图1可视化了一个由拍照和拿着瓶子等动作组成的视频;拿着瓶子的动作涉及到一个演员最初扭动瓶子,然后后来拿着它。这种组合互动和动作的能力反映在人们用来交流他们所看到的内容的组合性语言的本质中[5,28]。为了衡量视觉事件的组合推理能力,计算机视觉界提出了多个使用问答形式的视频基准[12, 23,39]。这些基准提出了诸如“手机是否是拍照后的第一个物体”之类的问题0* 同等贡献0图例:物体关系动作时间0Q. 拍照后人首先触摸的是什么?0Q. 拍照后人是否首先触摸手机?0Q. 手机是否存在?0Q. 人是否在触摸某物?0Q. 人是否在拍照?0Q. 人是否存在?0Q. 人是否在拿东西?0Q. 图片是否存在?0组合问题分解0Q. 拍照后人触摸的是什么?0Q. 拍照后人是否在触摸某物?0Q. 拍照后人是否存在?0A: 是的, PRED: 不0A: 是的, PRED: 是的0A: 手机, PRED: 瓶子0A: 是的, PRED: 不0A: 是的, PRED: 是的0A: 是的, PRED: 不0A: 是的, PRED: 是的0A: 是的, PRED: 是的0A: 是的, PRED: 是的0A: 是的, PRED: 是的0图1。我们引入了一个问题分解引擎,从关于视觉事件的组合性问题中生成子问题的有向无环图。子问题被设计为包含原始问题推理步骤的子集。我们的引擎生成了一个基准,其中包含与9.6K个视频相关联的4.55M个问题答案对。我们为每个子问题设计了手工程序和模板,以及将子问题组合在一起的组合规则。我们使用我们的有向无环图使用一套新的组合一致性度量标准分析现有模型。我们的有向无环图可以分离出导致错误预测的组合规则(错误路径由粉色箭头表示)。它们还突出显示了模型可能出现自相矛盾的情况(蓝色箭头)。0人在拍照后触摸什么?模型需要将动作(拍照)与关系(触摸)和物体(手机)组合起来得出正确答案。使用这些基准,研究人员最近得出结论,最先进的模型[8,22,25]在组合推理方面存在困难。不幸的是,现有的基准无法解释为什么视频问答模型在组合推理方面存在困难。50470表1.我们可视化了我们设计的一些子问题,这些子问题包括AGQA基准[12]中的一些推理步骤的子集。每个子问题由一个功能程序和一个自然语言模板组成。括号表示进一步分类。0子问题类型 描述 示例0对象存在 验证对象是否存在,门口是否存在?0关系存在 验证是否存在关系,人是否拿着东西?0互动 验证人和物体之间是否存在特定关系,人是否触摸盘子?0互动时间位置 互动类型问题的过滤器,人是否拿着一本书,同时对着某个东西微笑?0存在时间位置 对对象/关系存在问题的条件,镜子后面是否存在手机?0首个/最后一个 获取给定物体的首个/最后一个实例,人在走过门口之前在上面的第一个物体是什么?0最长/最短动作 获取最长/最短的动作,人做什么动作的时间最长?0合取 通过将两个互动问题与合取连接词组合成一个新的存在问题,人是否在镜子前面,在桌子后面,同时看着镜子?0选择 在两个对象、动作、关系或时间长度之间进行比较0门把手还是盘子是人拿着的第一个物体?0等于 比较两个对象并验证它们是否相同,验证给定的动作是否比另一个动作长/短0门口是他们与之互动并拿着盘子的物体吗?0组合推理。在图1中,模型错误地将根问题的答案回答为“否”,而不是正确答案“是”。然而,这些信息并不能解释模型出错的原因:模型是否在处理需要时间推理的词语(如“首先”或“之后”)时遇到困难?它是否无法检测到手机或识别触摸关系?或者它是否在将关系与物体组合时遇到困难?即使我们假设模型正确回答了问题,仍然不确定这种行为是由于正确的组合推理还是依赖于虚假的相关性来“作弊”。0标准的评估方案不仅在这方面存在不足,而且现有的解剖模型行为的方法也难以解决这种不确定性。归因方法,如GradCAM [35]或LIME[34],可以突出输入数据的重要方面,但对于组合推理的结构是不可知的。依赖于反事实来阐明模型行为的方法,如对比集[9],主要关注模型决策边界,通过对输入进行微小的局部变化。然而,这些局部变化无法捕捉到回答组合视觉问题[12]所需的完整组合推理步骤的全部范围,这些问题同时评估多个常常相互依赖的推理能力。0在本文中,我们开发了一个问题分解引擎,将组合问题分解为子问题的有向无环图(DAG)(见图1)。子问题隔离出原始问题所需的推理步骤的子集,暴露模型在中间推理步骤的子集上的性能。这种暴露使我们能够识别困难的子问题,并研究哪些组合导致模型困难。它还允许我们测试模型是否有正确的原因。0例如,前面提到的根问题不仅可以分解为中间推理步骤,确定“拍照后人是否接触到某物”,还可以分离基本的感知能力,例如确定“手机是否存在”。使用我们的引擎,我们构建了AGQA-Decomp数据集1,将最新版本2的平衡AGQA基准测试[12]中的2.3M个组合问题分解为1.62M个唯一的子问题,涉及9.6K个视频,共计4.55M个子问题。为了生成子问题,我们手动设计了21个子问题,每个子问题都有一个功能程序和自然语言模板(表1)。为了在DAG中组合子问题,我们手动设计了13个组合规则(表2)。最后,我们创建了一套新的度量标准来评估组合推理。其中一个度量标准——内部一致性——用于衡量模型在回答DAG内的问题时是否自洽。为了实现这个度量标准,我们还在子问题之间手动设计了10个一致性规则(见附录中的表5)。我们使用我们的DAG和度量标准评估了三个最先进的视频问答模型,分别是HCRN [22],HME [8]和PSAC[25]。我们的分析结果显示,在大多数组合推理步骤中,模型要么无法成功完成步骤,要么依赖错误的推理机制。它们经常自相矛盾,即使在中间步骤失败时也能取得很高的准确率。当被要求在两个选项之间进行选择或比较时,例如物体或关系,模型甚至也会遇到困难。最后,我们发现对于HCRN和PSAC来说,内部一致性与准确性之间没有相关性01项目页面:https://tinyurl.com/agqa-decomp 2 AGQA2.0:https://tinyurl.com/agqavideo50480输0接触的物elationExi0接触什么?”是询问一个人是否存在以及他们是否在接触某物之间的互动)。父问题对子问题的依赖性使我们能够衡量模型的一致性。0第一个接objects(ohing))))03.子问题:人是否在接触某物ching)0问题:人第一个接触的物体是什么?程序:first(objects(objExists(person), relationExists(touching)))0程序:objects(objExists(person), relationExists(touching))0叶子程序:objExists(person)0叶子程序:relationExists(touching)0输入 输出0遍历参数0遍历参数0程序: 对象( 人 , 接触 )0s2: 是否存在一个人?0s3: 人是否接触到某物?0q: 第一个人接触的对象是什么?程序: 第一个(人接触的对象 )0s1: 人接触的是什么?0返回间接引用0使用模板生成子问题0图2.我们的问题分解引擎需要一个组合根问题作为输入,并输出一个子问题的有向无环图。根问题有一个相关的功能程序,解释了回答问题所需的推理步骤。我们递归地迭代函数的参数,直到达到叶子函数。我们为每个叶子函数设计自然语言模板,将其转换为子问题。一旦叶子函数转换为问题,我们将答案的间接引用返回给其父节点。父节点使用组合规则将来自其子节点的间接引用组合起来,类似地生成问题。0DAGs。然而,对于HME,存在一个弱的负相关,表明模型经常不准确,并由于其内部一致性而传播这种不准确性。我们相信,我们分解的问题DAGs可以进一步促进未来的研究方向:从通过一致性提高透明度到开发交互式模型分析工具。02. 相关工作0我们将我们的贡献与最近在机器学习中提出的评估方法进行对比,特别关注视频问答。我们还将问题分解的思想与计算机视觉和自然语言处理(NLP)的相关工作进行了背景说明。视频问答。尽管视频问答作为一个基准任务很受欢迎 [ 10, 12 , 15 , 23 , 39 , 46 , 47],但一些知名基准中的问题依赖于对话和情节摘要,而不是视频的视觉内容 [ 18 , 23 , 39 , 49],专注于短视频剪辑或只有少数对象 [ 29 , 45],或者受到人类生成问题的偏见 [ 15 , 23 , 39 , 47]。这些限制降低了基准在组合视觉事件推理方面的有效性。鉴于这些限制,我们专注于最近的AGQA基准 [ 12],用于组合视觉推理的问题-答案对。评估一致性。我们关注提供超出标准任务准确性的评估指标,这与最近的努力朝着对机器学习模型进行更多元化评估的方向是一致的 [ 2 , 9, 24]。虽然我们可能是迄今为止唯一提出视频问答的一致性度量方法,但一致性的作用已经在图像问答 [ 2 , 11 , 14 , 31 ,33 , 36 , 37 , 48 ] 和文本问答 [ 9 , 43 ]中得到了探索。现有的指标衡量模型是否能够一致地回答给定问题逻辑上蕴含的问题集合。0tion [ 11 , 14 , 31 , 33 ]或者回答有不同答案的反事实问题 [ 9 , 43]。为了实现这些指标,研究人员通过要求人类标注者生成与推理问题相关的感知性问题来收集数据集 [ 36],使用大型语言模型生成反事实问题 [ 43],或者要求领域专家编制规则来生成对比集 [ 9]。相比之下,我们通过手动设计与问题相关的程序组合规则,以编程方式分解问题。将问题回答分解为更简单的任务已经在计算机视觉 [ 1 , 3 ] 和自然语言处理社区 [ 42 ]中出现。在计算机视觉领域,神经模块网络和相关架构 [ 1 ,4 , 13 ]将问题分解为定义神经网络架构的模块化程序,以回答问题。ACMN [ 3 ]使用依赖解析将问题分解为模块化架构。GQA [ 14 ]和AGQA [ 12 ] 基准使用与每个问题相关的程序从场景图 [19 ] 和时空场景图 [ 16 ]计算答案;然而,这些程序在数据集生成之外没有被使用。在自然语言处理中,“多跳”推理问题被分解为“单跳”问题(例如,将“Which team does the player named2015 Diamond Head Classic’s MVP playfor?”分解为更简单的“Which player was named 2015Diamond Head Classic’sMVP?”)。多跳模型回答更简单的问题,并将它们的答案组合起来最终回答原始的多跳问题 [ 27 , 30]。类似地,解释方法将语言陈述分解为树状的前提集合,这些前提集合蕴含了原始陈述(例如,“eruptions blocksunlight”蕴含“eruptions can kill plants”)[ 7]。虽然Break-ItDown [ 42 ] 将HotPotQA [ 44 ]的问题分解为程序以设计神经架构,但我们将问题分解为设计评估指标。50490表2. 我们手动设计组合规则,使用由其子问题产生的间接引用生成问题q。{s1,s2,...}。0组合规则描述示例0交互验证是否存在交互0q:人物是否握住门口?s1:人物是否存在?s2:人物是否握住物体?s3:门口是否存在?0时间位置(之后,之前,同时,之间)使用时间定位器组合两个交互或存在的问题0q:人物在微笑之前触摸门口吗?s1:人物是否触摸门口?s2:人物是否微笑?0第一个/最后一个从一组对象/动作中获取第一个/最后一个出现的物体q:人物握住的第一个物体是什么?s1:人物握住的是什么?0连词(And,xor)使用连词组合两个交互问题0q:人物是否在走过门口之前穿衣服并站在书后面?s1:人物是否在走过门口之前穿衣服?s2:人物是否在走过门口之前站在书后面?0选择(选择(物体/时间)更长/更短选择)从两个可能的选项中选择q:门口或书是他们面前的第一个物体吗?s1:门口是他们面前的第一个物体吗?s2:书是他们面前的第一个物体吗?0等于比较两个对象/动作以验证它们是否相同0q:人物携带的第一个物体是一本书吗?s1:一本书是否存在?s2:人物携带的第一个物体是什么?0组合推理。虽然存在多种组合性定义,但我们使用更通俗地称为自下而上的组合性——“整体的含义是其部分含义的函数”[6]。在我们的情况下,对于问题“人物触摸手机之后是否握住了一个瓶子?”的推理意味着能够回答更简单的问题(例如“人物是否触摸了手机?”),这些问题可以进一步分解为感知问题(例如,“手机是否存在?”)和时空关系检测(例如,“人物是否触摸了某物?”)。最近的研究认为组合性在使模型能够推广到新的领域、类别和逻辑规则[21,40]以及发现当前模型在多步推理方面存在困难[8,12]方面具有重要意义。这些研究激发了我们的贡献。03. 问题分解引擎0给定一个问题q作为输入,我们的引擎输出一个有向无环图(DAG)(Nq,Eq)∈Gq,用于该问题的子问题。节点Nq是问题q的子问题列表,而有向边标识用于从节点的子问题组合问题的组合规则。例如,“人物触摸的第一个物体是什么?”的分解将产生以下子问题列表:{s1:“人物触摸的是什么?”,s2:“人物是否存在?”,s3:“人物是否触摸了某物?”}。边缘是:{(q,s1,first),(s1,s2,interaction),(s1,s3,interaction)},其中“first”和“interaction”是组合规则。为了生成DAG,我们首先将问题q表示为一个功能程序,该程序由回答q所需的各个推理步骤组成。程序结构定义了DAG的结构(如图2所示)。我们递归地迭代这个程序及其参数以生成DAG。虽然我们的组合规则和模板是针对AGQA[12]量身定制的,但我们的引擎可以推广到其他0涉及问题与功能程序配对的数据集,例如GQA[14],CLEVR [17]或CLEVRER[45]。这将需要根据数据集的功能程序定义组合规则和模板。03.1. 将问题表示为程序0我们假设所有问题都有相应的功能程序,包含多个推理步骤。例如,q的程序是first(objects(objExists(person),relationExists(touching)))。直观地说,这个特定的程序搜索给定视频的所有帧,以找到存在人物的实例:objExists(person)。类似地,它找到一个人正在触摸某物的帧:relationExists(touching)。从这些帧中,它提取正在被人触摸的物体:objects(objExists(person),relationExists(touching))。最后,它返回被识别的物体列表中的第一个物体:first(∙)。每个推理步骤都是由多个参数组成的函数:例如,函数objects(∙)包含以下参数:objExists(∙)和relationExists(∙)。我们在AGQA中使用了2.3M个问题,每个问题都使用与217个自然语言模板相关联的27个唯一函数生成。03.2. 使用程序分解问题0为了分解q,我们在拓扑上迭代所有顶层推理函数的参数,并递归分解每个参数。例如,q的顶层推理函数是first(∙)。我们迭代它的参数objects(∙),然后递归迭代它的两个参数:objExists(∙)和relationExists(∙)。最终,我们将到达一个没有进一步函数作为参数的“叶子”程序(例如,Using the sub-question types and composition rules wehandcrafted, we design novel metrics that measure mod-els’ compositional accuracy, test whether models are rightfor the wrong reasons, and identify whether models are in-ternally consistent.Our metrics are complementary andshould be used together to guide error analysis. Formal def-initions for the metrics can be found in the Supplementary.Compositional accuracy (CA): A model reasoning com-positionally should be able to answer a given parent ques-tion q correctly when it answers its sub-questions cor-rectly. We operationalize this intuition with the CA metric,which measures parent question accuracy across composi-tions where a model answers all immediate sub-questionscorrectly. Low CA scores for a given category indicate dif-ficulty performing that intermediate reasoning step.Right for the wrong reasons (RWR): Given that the sub-questions of a given question q represent intermediate rea-soning steps, a model reasoning compositionally should an-swer all sub-questions correctly if it answers q correctly.Failure to do so implies the model is relying on faulty deci-sion mechanisms to reach correct answers. The RWR met-ric aims to determine to what extent such faulty reasoningoccurs. To compute this, we measure parent question ac-curacy across compositions where a model answers at leastone sub-question incorrectly. High RWR scores for a givencategory imply that the model’s reasoning is faulty for thoseintermediate steps. For granularity, we additionally com-pute parent question accuracies across compositions wherea model answers exactly n sub-questions incorrectly, wheren is an integer. We denote this variant RWR-n and presentits results in the Supplementary (Tables 6, 7).Delta: We derive additional insights by computing the dif-ference between RWR and CA values. Ideally, RWR willbe lower than CA, leading to negative Delta values. A posi-tive Delta value implies incorrect reasoning since the modelperforms better when it errs on a sub-question.Internal Consistency (IC): A model that reasons composi-tionally should produce answers that don’t contradict eachother, regardless of accuracy. Unlike most past work on50500objExists(person))。为了将叶子程序转换为DAG中的节点,我们为每个程序设计自然语言问题模板(见表1)。例如,objExists(∙)具有模板:“是否存在一个[object]?”创建子问题s2。我们检查在遍历另一个参数时是否已经添加了s2∈Nq。如果s2∈Nq,则使用模板创建一个新节点s2=“是否存在一个人?”并将其添加到Nq。一旦我们将叶子函数转换为s2,我们解析模板以提取间接引用并将其发送回其父函数。父函数,在这种情况下是objects(objExists(person),relationExists(touching)),使用其参数s2和s3以及组合性规则生成节点s1=“人物正在触摸什么?”。我们设计了一组组合性规则,列在表2中,以将传回的间接引用(s2→“person”和s3→“touching”)输入到相应的模板中:““What is the [object][relationship]?””。接下来,我们使用组合规则interaction将s1和其两个参数之间的边添加到Eq。这个过程继续,直到我们返回到原始的顶层函数first(∙)。我们的递归分解过程为平衡的AGQA问题中的每个问题平均生成11.49个子问题,创建了4.55M个子问题。03.3. AGQA答案生成0一旦所有问题被分解为子问题的DAG,我们可以通过程序化地从原始AGQA问题传播答案到子问题中。一些子问题已经存在于原始的不平衡AGQA数据集中;对于这些问题,我们自动拥有答案。对于其他问题,我们制定了逻辑一致性规则来生成答案(见补充材料中的表5)。例如,如果“Interaction”问题的答案是“是”,那么它的所有子问题也应该回答“是”。如果答案是“人物正在触摸0如果“是否存在某人”问题的答案是“是”,那么“是否存在一个人”问题的答案也是“是”。如果“选择X或Y”问题的答案是“X”,那么沿着X的递归调用的所有子问题的答案都应该是“是”,而Y的答案应该是“否”。例如,如果“某人是否扔了毯子但没有拿着毯子?”的答案是“是”,那么“某人是否扔了毯子?”的答案是“是”,但“某人是否拿着毯子?”的答案是“否”。类似的逻辑规则适用于“之前”和“之后”的问题类型。我们的答案生成规则无法传播回答为“否”的问题。例如,如果“某人是否触摸了某物?”的答案是“否”,我们无法推断出对问题“是否存在一个人?”的答案。为了回答这类问题,我们在亚马逊机械土耳其上进行了大规模的注释任务,以识别出在AGQA的随机选择的子集视频中出现的所有对象(详见补充材料)。我们使用这些注释将“否”答案传播到相关的子问题。最后,我们平衡答案分布以得到我们的最终数据集。在生成AGQA的原始平衡数据集时,作者使用了一个答案平滑算法来减轻训练过程中的偏差。将我们的子问题添加到AGQA会改变训练答案分布。为了减少新答案分布中的偏差,我们采用相同的答案平滑算法。这个过程导致数据集中有162万个独特的新子问题,总共有455万个子问题。0使用我们手工设计的子问题类型和组合规则,我们设计了衡量模型组合准确性、判断模型是否基于错误原因的新指标,并确定模型是否内部一致。我们的指标是互补的,应该一起使用来指导错误分析。指标的正式定义可以在补充材料中找到。组合准确率(CA):如果一个模型在回答所有直接子问题正确的情况下能够正确回答给定的父问题q,那么它在组合推理方面的表现应该是正确的。我们用CA指标来操作化这个直觉,它衡量了模型在回答所有直接子问题正确的组合中的父问题准确率。对于给定的类别,较低的CA分数表示在执行中间推理步骤时存在困难。错误原因正确率(RWR):假设给定问题q的子问题表示中间推理步骤,如果一个模型在回答q正确的情况下能够正确回答所有子问题,那么它在组合推理方面的表现应该是正确的。否则,这意味着模型依赖于错误的决策机制来得出正确的答案。RWR指标旨在确定这种错误推理的程度。为了计算这个指标,我们衡量了在模型回答至少一个子问题不正确的组合中的父问题准确率。对于给定的类别,较高的RWR分数意味着模型在这些中间步骤上的推理是错误的。为了更详细地分析,我们还计算了模型在回答恰好n个子问题不正确的组合中的父问题准确率,其中n是一个整数。我们将这个变体称为RWR-n,并在补充材料中呈现其结果(表6、7)。Delta:通过计算RWR和CA值之间的差异,我们可以得到更多的见解。理想情况下,RWR应该低于CA,导致负的Delta值。正的Delta值意味着错误的推理,因为模型在一个子问题上出错时表现更好。内部一致性(IC):一个进行组合推理的模型应该产生不相互矛盾的答案,而不管准确性如何。与过去大多数关于的工作不同,我们的指标不仅关注准确性,还关注内部一致性。04. 指标50510表3.我们报告了准确率、组合准确率(CA)、错误原因正确率(RWR)、差值(RWR-CA)和内部一致性(IC)的值。我们还提供了最可能基线的准确率以及在我们的AMT研究中与基准答案一致的标注者比例(人类)。模型在交互时间定位、选择和等于问题以及基本问题类型(如物体是否存在)方面特别困难。N/A表示对于给定类型没有有效的组合。0准确率 CA RWR Delta IC0问题类型 HCRN HME PSAC Most-Likely HCRN HME PSAC HCRN HME PSAC HCRN HME PSAC HCRN HME PSAC 人类0对象存在 47.03 46.74 45.02 50.00 N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A 92.00 关系存在 52.14 51.21 36.44 50.00 73.17 8.99 N/A 16.67 N/A 20.22 -56.50 N/A N/A 82.87 100.00 50.00 92.00 交互 46.71 50.5762.33 50.00 62.50 32.66 N/A 33.31 23.58 48.63 -29.19 -9.08 N/A 84.87 62.66 50.00 88.00 交互时态位置 49.53 50.43 45.20 50.00 57.82 57.96 3.91 47.39 50.46 46.92 -10.43 -7.51 43.01 77.47 62.56 61.49 96.00 存在时态位置 47.8249.69 53.52 50.00 90.92 22.60 67.68 45.44 1.96 18.69 -45.49 -20.64 -48.99 74.19 76.36 77.05 92.00 首个/最后一个 9.28 12.31 8.20 3.79 N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A 88.00 最长/最短动作 3.24 1.67 1.583.57 N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A N/A 76.00 连接词 49.60 50.07 50.01 50.00 71.64 85.26 85.81 42.19 39.85 39.92 -29.45 -45.42 -45.89 64.00 65.36 54.34 76.00 选择 24.44 35.16 26.03 1.89 51.19 55.2446.49 47.05 48.28 48.09 -4.14 -6.96 1.59 5.75 0.65 12.18 88.00 相等 50.53 50.08 49.92 50.00 47.71 52.88 49.00 51.67 47.15 50.36 3.96 -5.72 1.35 47.56 51.03 47.61 70.000总体 21.27 30.47 21.29 3.31 74.59 49.28 60.97 46.22 25.29 36.68 -28.37 -23.99 -24.28 62.88 58.34 57.95 84.360通过测量一致性[14, 33,36],我们可以使用逻辑一致性规则(见补充材料中的表5)及其逆否命题来确定模型在没有访问真实答案的情况下是否自洽。我们注意到,大多数考虑用于IC指标的组合都与多个逻辑一致性规则相关联。为了计算给定组合规则的IC指标,我们首先测量模型对每个逻辑一致性规则的一致性检查的百分比。然后,我们对这些百分比取平均,以获得该组合的IC得分。通过这种方式,我们避免过分强调更常见的规则。单个逻辑一致性规则的IC得分可以在补充材料中找到(表8)。准确率:为了对模型的性能有一个基本的了解,我们还计算了每种问题类型的准确率。为了提升答案分布尾部的答案的作用,我们计算每个真实答案的准确率,然后对答案进行归一化。05. 实验0我们在我们的DAG上评估了三个最先进的视频问答模型,以分析它们的组合视觉推理能力。我们首先分析模型在叶节点上的准确率,测试基本感知能力。然后,我们分析三组不同的组合推理步骤:选择和相等问题,连接词问题以及时态定位类别。在这些分析中,CA指标有助于确定模型在哪些推理步骤上存在困难,RWR指标检查模型是否在中间推理步骤失败时仍能达到高准确率,IC指标确定模型多少次自相矛盾。我们还引用了RWR-n分数的精确值,单个一致性规则的IC值以及每个真实答案的准确率,以支持分析。这些值的完整表格可以在补充材料中找到(表6-9)。模型。我们使用了AGQA论文中评估的三个模型:HME [8],HCRN[22]和PSAC[25]。HME融合了用于视觉和问题特征的记忆模块[8],0HCRN在每一层集成了运动、问题和视觉特征,创建了一个可重复使用模块的多层次层次结构[22],而PSAC则使用位置自注意力和共同注意力块集成了视觉和语言特征[25]。与AGQA论文一样,我们还考虑了一个模型(Most-Likely),它仅依赖于语言偏差,为每种问题类型输出最常见的答案作为基准。训练。我们在一个经过平衡的AGQA数据集版本上训练模型,该数据集使用我们生成的平衡子问题DAG进行了增强。当验证准确率停滞时,我们停止训练。05.1. 人工评估0为了评估我们的引擎生成的问题和答案的质量,我们进行了一项人工评估研究。我们按照亚马逊机械土耳其上的公平工作标准以15美元/小时的速度雇佣注释员[41]。我们向注释员展示每个子问题类型至少25个随机抽样的问题,并采用AGQA[12]中提出的人工评估协议。注释员被要求通过观看与其相关的视频来验证问题和答案对。每个问题的3个注释员的多数投票将我们的答案中的84.36%标记为正确,这意味着我们的问题中约有15.64%包含错误(见表3)。这些错误源于场景图注释错误和模糊的关系。我们在补充材料中描述了人为错误的来源。为了将这个数字放在背景中,最近的自动化基准GQA [14],CLEVR [17]和AGQA[12]分别报告了89.30%,92.60%和86.02%的人类准确性。05.2. 叶节点的性能0在检查模型在对象存在和关系存在类别上的准确性(表3)时,我们发现每个模型在基本感知问题上都很困难,这对更复杂的类别的良好性能产生了怀疑。在这两个类别上,模型的准确性要么与最可能的基准相当,要么比最可能的基准更差。通过调查每个真实答案的模型准确性(见50520在补充材料的表9中,我们发现HME在关系存在类别的“否”答案上存在严重偏见,准确率分别为99.11%和3.29%。PSAC在对象存在类别上也存在类似的偏见,准确率分别为86.67%和3.38%。最后,HCRN在这两个类别上的表现接近或低于机会水平,只有在关系存在类别的“否”答案上才能达到50%以上的准确率,得分为55.84%。05.3. 选择和等于的性能0我们的CA、RWR和IC指标(表4)有助于证明模型在选择和等于类别上不仅存在困难,而且还依赖于错误的推理。首先,通过查看CA分数,我们发现即使模型对所有子问题都回答正确,它们对这些二元问题的准确率也在50%左右或以下。模型在更长/更短的选择组合中尤其困难。例如,HCRN、HME和PSAC在更长选择中的CA分别为42.02%、41.90%和38.51%。此外,模型在选择组合的IC得分最多为12.18%,为错误推理提供了证据。当选择组合需要对两个事件进行排序时,模型的推理特别错误(表8),HCRN、HME和PSAC的预测仅在此规则下4.92%、0.54%和9.56%的时间内是自洽的。我们可以得出类似的结论,即对于等于组合。HCRN和PSAC的Delta得分分别为3.96%和1.35%,这意味着它们在子问题上犯错后更擅长回答父问题。相比之下,HME的Delta得分为-5.72%(表4),这表明中间推理步骤的错误对其性能只有很小的负面影响,这在进行组合推理时不应该发生。05.4. 连词的性能0模型无法进行组合推理在逻辑的合取类别中基本上持续存在。虽然HME和PSAC在And(95.81%和88.31%)和Xor(78.91%和84.32%)组合中获得了较高的CA分数(表4),但它们的成功主要来自于当父问题的真实答案为“否”时的表现。对于CA指标,HME和PSAC分别正确预测了41.95%和37.60%的“是”回答问题的And组合,以及仅正确预测了1.41%和14.79%的“是”回答问题的Xor组合。两个模型在And组合上的RWR-1性能约为80%以上,在Xor组合上的RWR-2性能超过80%(表7)。当在中间推理步骤上犯错误时,它们的表现远高于机会水平,这表
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功