没有合适的资源?快使用搜索试试~ 我知道了~
2928场景:赛道补充场景因果场景问:男人在做什么地面实况答案:跳跃预测答案:种族视频问答系统的李毅聪1,向旺2*,夏俊斌1,魏继1,蔡达生11新加坡国立大学、2中国科学技术大学liyicong@u.nus.edu,xiangwang1223@gmail.comjunbin@comp.nus.edu.sgjiwei@nus.edu.sg,dcscts@nus.edu.sg摘要视频问答(VideoQA)是回答关于视频的问题的任务。其核心是理解视频中的视觉场景与所讨论的语言语义之间的对齐,以产生答案。在领导视频问答模型中,典型的学习目标,经验风险最小化(ERM),锁定在视频问题对和答案之间的表面相关性作为对齐。然而,ERM可能是有问题的,因为它倾向于过度利用问题无关场景和答案之间的虚假相关性,而不是检查问题关键场景的因果关系因此,VideoQA模型遭受不可靠的推理。在这项工作中,我们首先采取的因果关系看视频QA,并认为不变的基础是排除虚假相关性的关键。为此,我们提出了一个新的学习框架,不变接地视频问答(IGV),接地的问题关键的场景,其因果关系与答案是不变的,在不同的干预的补充。通过引入IGV,视频问答模型可以屏蔽虚假相关对问答过程的影响,从而显著提高了推理能力。在三个基准数据集上的实验验证了IGV在准确性、视觉可解释性和泛化能 力 方 面 优 于 领 先 基 线 。 我 们 的 代 码 可 在https://github.com/yl3800/IGV上获得。1. 介绍视频问答(VideoQA)[9]越来越受欢迎,对交互式AI越来越重要,例如家用机器人和个人助手的视觉语言导航[2,35]。这是多模态推理的任务,它回答了关于给定视频内容的自然语言问题。显然,推断一个可靠的答案需要对视觉场景、语言语义、*通讯作者。这项工作由Sea-NExT联合实验室解答考生(a) “轨迹”场景和答案之间的局部互信息(LMI)(b) 运行的例子图1.运行示例。(a)视觉场景和答案之间的表面相关性;(b)受虚假相关性的影响,VideoQA模型无法回答这个问题。更重要的是,视觉语言的排列。为此,出现了许多VideoQA模型[8仔细研究这些模型,我们总结出它们的共同范式为两个模块的组合:(1)视频问题编码器,它封装视频的视觉场景和问题的语言语义作为表示;(2)答案解码器,它利用这些表示来模拟视觉语言对齐并产生答案。因此,经验风险最小化(ERM)的标准被广泛采用作为优化这些模块的学习目标-也就是说,最大限度地减少预测答案和真实答案之间的损失。然而,ERM标准容易过度利用视频问题对和答案之间的表面相关性。具体来说,我们使用局部互信息(LMI)[27]的度量来量化LMI2929“跟踪”场景和答案。如图1a所示,大多数具有而不是检查视觉语言的路线(即。哪个场景对回答问题至关重要),ERM盲目地捕获所有统计关系。如图1b所示,它使VideoQA模型天真地将“赛道”相关视频与强相关的“比赛”答案联系起来从因果关系的角度[23,24]来看VideoQA(见第3节),我们将视觉场景分为两部分:(1)因果场景,它包含问题关键信息,以及(2)它的补充,这与答案无关。我们发现,补语与答案之间存在虚假关联,因此因果关系模型几乎没有区分因果场景和补语场景对答案的影响。更糟糕的是,不令人满意的推理阻碍了VideoQA模型拥有有趣的属性:• 视觉可解释性展示[6,26]。以图1b为例来回答“男人在做什么?",该模型应该参与最后三个剪辑中出现的一个简单的解决方案是尽管如此,在ERM的指导下,这种专注的接地仍然受到虚假相关的影响,从而使高度相关的互补接地。• 内省学习,以复查在专注的基础之上,模型需要反思所学习的知识(即,参与的场景)可靠且忠实地反映了应答背后的逻辑。简单地说,如果因果场景被删除,它应该无法回答这个问题。• 泛化能力,询问“预测性答案如何响应伪相关的变化?"。由于虚假的相关性很难推广到开放世界的场景中,因此模型应该锁定在不同环境中稳定的因果视觉语言关系受最近的不变学习[3,16,33]的启发,我们猜想不变基础是区分因果场景和补语并克服这些限制的关键。所谓为此,我们提出了一个新的学习框架,不变G舍入VideoQA(IGV)。具体地说,它将两个额外的模块集成到VideoQA骨干模型中:地面指示器和场景干预器。具体来说,接地指示器学会参加给定问题的因果场景,并将其余部分作为补充。然后,我们收集来自其他训练视频的视觉剪辑,以组成补体分层的分类库对于感兴趣的因果部分,场景干预者对其补充进行因果干预[23,24]-也就是说在将偶然、补充和干预场景与问题配对后,我们将它们输入主干模型以获得相应的预测:(1)因果预测,其接近黄金答案,从而实现视觉可解释性;(2)补充预测,其不包含地面真理答案的关键线索,从而强制主干模型执行内省推理;以及(3)干预预测,其与跨不同干预补充的因果预测一致。联合学习这些预测使得主干模型能够减轻多模态数据偏差的负面影响。值得强调的是,IGV是一种与 模 型 无 关 的 策 略 , 它 以 即 插 即 用 的 方 式 训 练VideoQA骨干。我们的贡献总结如下:• 我们强调接地因果场景的重要性,从视频QA模型的视觉可解释性,一般化和内省学习的补充。• 我们提出了一种新的模型无关的训练方案,IGV,它将不变接地到视频QA模型,以减轻多模态数据偏差的负面影响,提高多模态推理能力。• 在 三 个 基 准 数 据 集 上 ( 即 MSRVTT-QA [38] ,MSVD-QA [38],NExT-QA [37]),我们进行了广泛的实验,以证明IGV在训练VideoQA骨干方面的优越性。特别是,IGV显著优于最先进的模型。2. 预赛在本节中,我们总结了VideoQA模型的常见范例。在整篇文章中,我们用大写字母(例如,V)和小写(例如(五)字母。建模给定视频-问题对(V,Q),VideoQA的首要任务是生成答案A:A=fA(V,Q),(1)其中,f是VideoQA模型,其通常由两个模块组成:视频问题编码器和答案解码器。具体地,编码器包括两个组件:(1)视频编码器,其将目标视频的视觉场景编码为视觉表示,诸如运动外观记忆设计[9,10]、结构图表示[12,15,20,34]、分层架构[8,17];以及(2)问题编码器,其将问题的语言语义封装为语言表示[8,17]。2930LL→!!→!→→!→?!六个?→!!→ !!→!→ !例如文本内容的全局/局部表示[14,32],语法依赖关系的图形表示[20]。在这些表示之上,解码器学习视觉语言对齐以生成答案。特别地,对齐通过跨模态交互来建模,如图对齐[20],交叉注意[14,15,18,40]和共同记忆[10]等。学习为了优化这些模块,大多数领先的VideoQA模型[9,10,14,15,17]将多模态推理问题作为监督学习任务,并采用经验风险最小化(ERM)的学习目标:minER M(A,A),(2)H其中,ERM是用于测量预测答案A和真实答案A之间的损失的风险函数,其通常被设置为交叉熵损失[10,17]或铰 链 损 失 [9 , 15 , 37] 。 本 质 上 , ERM 鼓 励 这 些VideoQA模块捕捉视频问题对和答案之间的统计相关性。3. 因果看视频QA从因果理论[23,24]的角度来看,我们重新审视了视频问答场景,以显示视频问题对和答案之间的表面相关性。然后,我们分析了ERM3.1. 视频问答因果图通常,多个视觉场景存在于视频中。但只有一部分场景对回答感兴趣的问题至关重要,而其余的几乎没有提供与问题相关的此外,不同问题中的语言这些事实启发我们根据问题将视频分为因果部分和补充部分。在这里,我们使用因果图[23,24]来展示五个变量之间的关系:输入视频V,输入问题Q,因果场景C,补充场景T,地面真相答案A. 图2显示了因果关系图,其中每个链接两个变量之间的因果关系:• CVT. 输入视频V由C和T组成。例如,图1b中的视频是前两个剪辑的组合(即,C)和最后三个剪辑(即T)。• VCQ. 因果场景C是以视频-问题对(V,Q)为条件的,其从V提取Q相关信息。对于给定的V,Q的变化导致不同的C。• Q AC.答案A是由问题决定的。事件Q和因果场景C,反映了视觉语言的对齐。再次考虑图1b中的例子,C是一个预言场景,它完美地解释了为什么五:视频$:问题%:回答T:补充场景C:因果场景图2. VideoQA因果图• TL9999KC.虚线箭头总结了C和T之间的额外概率依赖性[21,22]。这种依赖性通常是由数据收集或注释过程中的选择偏差或归纳偏差引起的[5,30]。例如,大多数情况下,收集的视频与“轨道”上的“跳跃”事件。这里我们列举了三种典型的情况:(1)C独立于T(即,不C);(2)C是T的直接原因(即T是由C引起的); CT),反之亦然(即。(3)C和T有共同的原因E(即C和T有共同的原因E)。CE T)。详见附录A。3.2. 伪相关仔细看看因果图,我们发现互补场景T和地面真实答案A可以虚假相关。具体地说,作为T和A之间的混杂因素[22 - 24 ],Q和V打开了后门路径:VCA和TVCQA,这使得T和A虚假相关,即使 从 T 到 A 没 有 直 接 的 因 果 路 径 。 更 糟 糕 的 是 ,TL9999KC可以放大这个问题。假设C T,C成为产生另一个后门路径TC A.这种虚假的相关性可以概括为概率相关性:由于ERM单纯地捕捉视频-问题对与答案之间的统计相关性,因此它无法区分因果场景C和补充场景T,从而无法减轻虚假相关性的负面影响。因此,它限制了VideoQA模型的推理能力,特别是在以下几个方面:(1)视觉可解释性,以推理“哪些视觉场景是回答问题的支持证据?”; (2)内省学习回答“如果没有因果关系的场景,答案会有什么变化?”;(3)具有一般化的能力,能够询问4. 方法我们从不变学习[3,16,33]中得到启发,并认为因果场景的不变基础是减少虚假相关性和克服前述限制的关键在此基础上,我们提出了一种新的学习框架--不变G舍入VideoQA(IGV).4.1. VideoQA的固定接地在仔细检查因果图时,我们注意到地面实况答案A独立于视觉V#$C&2931!→22L\22补语T,仅当以问题Q为而因果场景C,更正式地说:一个?不|C、Q。(三)这种概率独立性表明了不变性-也就是说,(C,Q)对和在-无论T.因果关系QC在不同的T上是不变的。以图1b为例,如果问题和因果场景(即,最后三个片段)保持不变,则答案应该到达用与“云”或“海”相关的片段替换“轨道”片段)。这突出了(C,Q)对是屏蔽A不受T影响的关键。建模然而,在训练集中只有(V,Q)对和A是可用的,而C和朝向C的基础函数都是未知的。这促使我们在VideoQA建模中引入视觉基础,因果场景图3.我们的IGV框架概述。部分,c和t,根据问题q。为此,它首先使用两个独立的LSTM [11]来分别编码v和q的视觉和语言特征vg,vl=LSTM1(v),qg,ql= LSTM2(q),(6)其中v的特征是K个固定的视觉剪辑,而q与L个语言标记相关联; LSTM1输出vlRK_k_d作为剪辑的本地表示,并产生最后一个隐藏状态vg2Rd作为扎根场景C的目的是估计预言C并指导答案A的预测。更正式,而不是整体视频类似地,LSTM2生成ql2RLd传统的建模(cf.方程(1)),我们将建模过程系统化为:作为令牌的本地表示,并使最后一个隐藏状态qgRd整体地表示问题,这里d是隐藏维度。C=fC(V,Q),A=fA(C,Q),(4)基于这些表示,注意力分数被构造为指示每个视觉剪辑的重要性这里其中,f是接地模型,f是VideoQA,我们设计pc2RK来表示每个闭合的概率C A属于因果场景c的,而p2、K是在...模型依赖于(C,Q)对。 关于fC和fA的实现,请参见4.2节。学习尽管如此,简单地将视觉背景与VideoQA模型相结合,仍属于“学习观看”范式,该范式仍然存在虚假的相关性,并错误地将补充场景视为C++。为此目的,我们利用C的不变性(cf.等式(3)),并将不变接地的学习目标重新公式化为:minL(A),s.t. 一个?T|C,Q,(5)ttrastto pcc to h o we ly每个剪辑如何组成该补充片段。配方如下:pc=Softmax(MLP1(vl)·MLP2(qg)>),(7)pt=Softmax( MLP3(vl)· MLP4(qg)>),(8)其中,采用四个多层感知器(MLP)来提取有用信息:MLP1(vl), MLP3(vl)2RKd0,MLP2(qg),MLP4(qg)2Rd0;d0是特征维度。然而,随着软面具的重叠,fA,fIGV注意机制不能屏蔽补语对回答的影响。因此,接地indi-哪里IGV是IGV的损耗函数;T=VC是C的补集。在下一节中,我们将详细说明如何实现LIGV并实现恒定接地。4.2. IGV框架图3显示了我们的IGV框架,它涉及两个额外的模块,接地指示器和场景交互,除了VideoQA骨干模型之外。4.2.1接地指示器对于视频-问题对实例(v,q),接地指示符的核心是将视频实例v分成两个cator生成离散的选择,而不是生成一个不相交然而,简单的抽样或选择是不可微的。为了实现可微离散选择,我们应用Gumbel-Softmax [13]:I=Gumbel-Softmax([pc ,pt] ),(9)其中Gumbel-Softmax建立在以下的级联上:pc和pt(i. e. [pc,pt]Rk=2),并输出其第一和第二列索引ck和tk相对于k裁剪的指示符向量Rk = 2。因此,我们可以将成本和费用定义如下:c={Ik0·vk|Ik0=1},t={Ik1·vk|Ik1=1},(10)1注意,补语替换不会涉及与问题相关的场景,以避免创建从T到A介入视频(+,/)干预预测场景介入者视频质量保证骨干fA!补体预测(+,/)视频-问题对接地指示器(t$,/)补充场景(c)因果预测2932的额外路径。其中I0k和I1k分别表示第k个片段属于因果场景和互补场景。2933[2TO• 因果推理。由于因果场景c被认为是回答问题q的充分和必要的,因此我们将其预测答案fA(c,q)仅用于接近地面真实答案a:do(t$=)Lc=XE(fA)(c)、(q)、(a)、(11)do(t$=)图4.介入分布示意图。4.2.2场景介入者由于缺乏具有夹片级重要性的监控信号,因此学习接地指示器具有挑战性。为了解决这个问题,我们提出了场景干预器,它提供了估计的因果场景,但插入了估计的补充时间,以创建具体而言,对于训练期间观察到的视频-问题对,场景干预者首先从其他训练视频中收集视觉剪辑作为完整的记忆库其中XE表示交叉熵损失。• 互补预测。由于补语场景t中不存在回答问题q的关键线索,我们鼓励它的预测答案fA(t,q)最终预测所有答案。该均匀损失被公式化为:Lt=KL(fA(t,q),u),(12)其中KL表示KL-散度,u是所有候选答案的均匀分布。• 干预预测。根据不变约束(cf.等式(3)),因果场景和答案之间的因果关系为了参数化这个约束,我们强制所有v分段分层,T_(?)={t_(?)}。然后,在视频中-E=E(KL(f(v,q), f(c,q).(十三)interestv=c[t],interestv ener conducts causal interestv en-Lvt2TAAtions[23,24]onitst -也就是说,随机采样一个完整的分层t替换t好吧。值得一提的是,与狗不同,Rent不变学习研究[3,16,33]仅将训练集划分到不同的环境中,我们的场景干预器反而利用了干预分布[29]。介入分布(即,具有相同干预的视频)可以被视为一个环境。4.2.3VideoQA骨干模型受[15]的启发,我们设计了一个简单而有效的架构作为我们的骨干预测器,其中视频编码器与接地指示器共享。它体现了卷积图网络(GCN)来传播剪辑级视觉消息,然后通过BLOCK融合集成跨模态融合的局部和全局表示[4]。详细架构见附录B4.2.4联合训练对于一个视频-问题对实例(v,q),我们通过接地指示符和场景插入器建立了因果场景C和补充场景T,以及插入视频V将它们与q配对合成了三个新的实例:(c,q),(t,q),(v,q)。我们将这些实例馈送到骨干VideoQA模型中以获得三个预测:综合上述风险,我们达到IGV的学习目标:LIGV=E(v,q,a)2O+Lc+λ1Lt+λ2Lv,(14)其中+是视频-问题对的训练集(v,q)和地面真实答案a;λ1和λ2是超参数来控制不变学习的强度ing. 联合学习这些预测使得VideoQA骨干模型能够揭示问题关键场景,从而减轻问题无关补充场景和答案之间的虚假相关性的负面影响在推理阶段,我们使用因果预测fA(c,q)来回答问题。5. 实验我们进行了广泛的实验,以回答以下研究问题:• RQ1:与最先进的(SoTA)模型相比,IGV在培训VideoQA骨干方面的效果如何• RQ2:损耗组件和功能设置如何影响性能?• RQ3:IGV培训的学习模式和见解是什么设置:我们在三个VideoQA数据集上将IGV与来自Memory,GNN和Hierarchy(附录C)的七个基线进行比较:NExT-QA[37],其具有因果关系补充场景因果场景介入补因果场景介入补因果场景2934†K⇠⇠表1. NExT-QA测试集的准确度比较。最好的并且突出显示第二好的结果表2. MSVD-QA和MSRVTT-QA测试集的准确度比较。” ”indicates the result is re-implementation with the publiclyavailable[第10话]45.8550.0254.3848.54型号MSVD-QA MSRVTT-QAHCRN [17]47.0749.2754.0248.82AMU [38]32.032.0HME [9]46.7648.8957.3749.16内存HME [9]33.733.0HGA [15]48.1349.0857.7950.01[10]第10话34.635.3IGV(我们的)ABS.提高48.56 51.67 59.64 51.34GNNHGA† [15]+0.43 +1.65 +1.85 +1.33 B2A [20]35.4 36.136.9以及多个对象之间的时间动作交互。 它包含大约47.7K手动注释的问题,用于从平均长度为44秒的5.4K视频中收集的多选择QA。MSVD-QA[38]和MSRVTT-QA[38]是两个主要的数据集,专注于视频元素的描述。它们分别包含50K和243K的QA对,开放的答案空间超过1.6K和6K。对于所有三个数据集,我们遵循其官方数据分割进行实验,并报告准确性作为评估指标。实现细节:对于视觉特征,我们遵循以前的工作[15,17 , 37] , 并 通 过 使 用 预 训 练 的 3D ResNeXt-101 和ResNet-101,重新训练来提取视频特征作为运动和外观表示的组合。具体地,每个视频被均匀地采样为K=16个片段,其中每个片段由组合特征向量 vddv表示,其中ddv等于4096。 与[37]类似,我们从微调BERT模型中获得了上下文化的单词表示,并且特征dimdq为768。对于我们的模型,隐藏状态的维度被设置为d= 512,并且IGV骨干预测器中的图形层的数量在训练过程中,IGV由Adam优化器优化,初始学习率为1 e-4,如果在5个epoch内没有验证改进,则会减半。我们将批处理大小设置为256,最多60个epoch。(See更多细节和复杂性分析见附录D)5.1. 主要结果(RQ1)5.1.1与SoTA方法的如表1和表2所示,我们的方法优于SoTA,所有子类型的问题都超过了它们的竞争者。具体而言,我们有两个主要观察结果:首先,在NExT-QA上,IGV在时间类型上获得显著改善(+1.65%),潜在的解释是:1)时间问题通常对应于具有较长时间跨度的视频幸运的是,IGV2)时间问题倾向于包括时间指示性阶段(例如,[17]第十七话36.135.6HOSTR [8]39.435.9因果观IGV(我们的)40.838.3ABS.提高+1.4+1.4指示器来定位目标窗口。其次,连同NExT-QA的描述性问题,MSRVTT-QA和MSVD-QA的结果(均侧重于描述性类型的问题)证 明 了 所 有 三 个 数 据 集 的 描 述 性 问 题 的 优 效 性( NExT-QA +1.85% , MSRVTT-QA 和 MSVD-QA+1.4%这种改进是基于这样一种逻辑,即回答描述性问题需要对感兴趣的场景进行仔细检查,而不是对整个序列进行整体观察。IGV引入的目标预测将推理集中在关键帧上,从而获得更好的性能.因此,这种改进强烈地验证了IGV在各种环境中更好地推广。5.1.2骨干不可知论者本质上,我们的IGV原则与主干设计正交,因此有助于提升任何现成的SoTA,而不会影响底层架构。因此,我们通过将IVG原理与来自两个不同类别的方法相结合来实验性地证明我们的学习策略的通用性和有效性:来自基于存储器的架构的Co-Mem [10]和来自基于图的方法的HGA [15表3显示了三个骨干预测(包括我们的)的结果。我们的发现是:1.严重偏倚的改善更好。我们注意到MSVD-QA的改 进 ( +3.1%4.7% ) 明 显 大 于 MSRVTT-QA 的 改 进(+1.4%2%)。这种预期的差异是由以下事实引起的 : 尽 管 问 题 类 型 相 同 , 但 MSRVTT-QA 几 乎 是MSVD-QA的5倍(#QA对243 Kvs 50 K)。结果表明,在MSRVTT-QA上训练的基线模型具有较好的泛化能力,而在MSVD-QA上训练的基线模型仍存在严重的捷径泛化问题。出于同样的原因,IGV框架在严重捷径情况下实现了更好的改进(例如,MSVD-QA)。这种差异验证了我们消除统计依赖的动机。2. 不断改进每一种方法。通过模型原因温度描述所有2935⇠⇠LLLLL L LLL LLL LL表3. IGV策略应用于不同的SoTA方法。”+IGV” denoted ourstrategy is模型MSVD-QAMSRVTT-QA基线+IGV基线+IGV[第10话]34.637.735.337.3HGA [15]35.438.836.137.5我们的骨干36.140.836.338.3表4.导叶损失分量MSVD-QA大于MSRVTT-QA,这证实了我们在第5.1.2节中的发现。其次,与运动特征相比,IGV使用外观特征带来了考虑到IGV的因果性质,我们得出结论,静态相关倾向于偏向更多的外观特征。5.2.3超参数研究为了验证IGV对超参数的敏感性,我们进行了λ1变化的实验和λ在两个数据集上。 在不丧失概括性的情况下,我们二、Σ调谐λ1(λ2)作为样本 1 .一、3我|-10i10,i2Z,逐行检查时,我们注意到对于每个基准,IGV可以在不同的骨干模型上带来相当大的改进(对于MSVD-QA为+3.1%4.7%,MSRVTT-QA为+1.4%2%)。这种稳定的增强强有力地验证了我们的模态不可知论。5.2. 深入研究(RQ2)5.2.1不同损失组成部分深入理解IGV框架需要仔细审查其组成部分。 在此基础上,分析了导叶损失分量的组合,并设计了三种变型:c,c+T形臂c++v. 表4显示了上述变体在两个基准上跨两个骨干预测器的结果。我们的意见如下:• 单独使用可被视为ERM引导的注意力的特殊情况的因果这样的预期结果反映了我们介入设计的动机。•c++T形臂c++ 在所有情况下,V/V匹配的准确度均一致超过基线和C/V。 这些进展表明了对补体的干预策略和内省调节的有效性。• 在所有情况下,c++t+V/V进一步显著提高了性能,这表明T形臂 在不同的方面都有贡献,它们的好处是相辅相成的。5.2.2特征研究按照惯例,我们研究了消融输入条件对视觉特征的影响。特别是,我们表示APP的测试,只采用外观特征作为输入和MOT的测试,利用运动功能单独。图6a提供了两个基准测试的结果,我们观察到:首先,IGV可以显着提高性能的所有输入条件,这概括了我们的框架的有效性。与表3类似,而保持λ2(λ1)为1。根据图6b,我们有以下观察结果:对于MSVD-QA,我们观察到在λ1和λ2均为0.8。相比之下,MSRVTT-QA上的波动更温和,其中λ上的调谐仅导致其准确度的1.5%差异值得注意的是,IGV在所有测试中均大幅优于基线(+3%),这表明IGV对超参数变化的鲁棒性。另外,与λ2相比,IGV对λ1更为敏感。通常情况下,在两个数据集上,当λ1大于5时,而λ2在所有测试中均保持在39%(MSVD-QA)和37.5%(MSRVTT-QA)5.3. 定性分析(RQ3)如第1节所述,IGV具有视觉可解释性,并且易于解释其预测的正确场景。遵循这一本质,我们通过检查NExT-QA数据集中的一些正确示例来掌握IGV的学习见解,并在图5中显示可视化。具体来说,每个视频都有两个问题,强调视频的不同部分。我们注意到,即使对于同一个视频,我们的基础窗口也是问题敏感的,可以用正确的预测来包含可解释的内容尽管如此,我们也观察到第三行Q2上的不情愿接地的结果,其中女孩在最后两帧之前开始弯腰,即使最后两帧包含了最多的信息。6. 相关作品视频问答(VideoQA)。VideoQA是图像QA的升级,其目标是在视频场景中回答问题,因为输入的时间特性丰富了其推理过程和回答空间。以前对VideoQA的努力建立了他们对更好的多模态交互或更强的视频表示的贡献。具体来说,早期的研究倾向于通过注意力[15,18,40]或动态记忆[9,10,38]来实施复杂的跨模态融合,而最近的方法则执行关系推理变体MSVD-QA MSRVTT-QA我们的骨干[第10话]我们的骨干[第10话]基线36.136.037.438.240.834.633.336.136.337.736.336.737.837.438.335.336.036.836.237.3LcLc+LtLc+LvLc+Lt+Lv2936◦Q1. 为什么婴儿在狗面前拿着球给狗Q2.宝宝是怎么玩玩具车的?- 推着石磨转Q1.这位女士拿着修剪机干什么?- 为男孩Q2. 为什么婴儿坐在玩具车里看电视?- 理发Q1. 为什么一开始男孩向男人伸出手?- 得到食物Q2.这个女孩是怎样对这个男孩表现得友好的?- 弯腰图5.基于NExT-QA正确预测案例的接地结果可视化。每个视频都有两个问题,需要不同时间跨度的因果场景绿色和粉红色的窗口表示相应问题的因果场景通过找到数据表示Pk,从特征级到表示级来描述该原理,从该数据表示Pk,最佳预测器P可以产生在所有环境中稳定的预测PkP在环境获取方面,以前的研究要么通过先验知识手动划分训练集[2],要么通过对抗环境推理迭代地生成数据分区[7,33]。我们的方法,而不是分割训练,假设没有关于环境的先知,但执行因果干预,(a)(b)第(1)款图6. (a)特征设置的研究(b)研究λ1和λ2。通过视觉或文本图表[12,15,20]。此外,当前将视频建模为分层结构的努力也引起了广泛的兴趣。其中,HCRN [17]将条件关系块堆叠在不同的特征相似性中,而HOSTR [8]使用时空图进行多级推理。尽管它们的有效性,它们的视觉可解释性仍然停留在ERM引导的注意力权重上,其仅反映特征预测相关性的强度。不变性学习多模态数据集倾向于以某些形式显示固有的偏差[1,19,25,28]。与总体现实相反,收集过程[5,30]通过在输入和地面实况注释之间引入不期望的相关性来为了克服这种相关性,不变学习被用来发现从因果因素到响应变量的因果关系,该因果关系在分布中保持不变作为最流行的公式,[3]亲,以扰乱原始分布。据我们所知,IGV是第一个将不变学习作为模型不可知框架引入VideoQA的工作。7. 结论在本文中,我们指出,虚假的视频问答中的视觉语言相关性是由问题无关的场景。我们提出了一个新的不变的接地框架,IGV,区分因果场景,并强调其因果效果的答案。通过接地指示器和场景干预器,IGV捕获在互补物中保持稳定的因果模式。通过大量的实验验证了IGV在不同骨干网视频问答模型上的有效性。我们未来的工作包括两个方面:1)虚假关联可以嵌套在实体中,对象级不变学习有望缓解这一问题;2)由于当前的干预策略可能会通过引入新的捷径补充来威胁因果预测,我们将探索新的干预方法。2937引用[1] Ankesh Anand , Eugene Belilovsky , Kyle Kastner ,Hugo Larochelle,and Aaron C.考维尔具体QA的盲法基线。CoRR,2018年。8[2] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,Mark Johnson ,Ni k oSünderhauf,IanD. Reid,StephenGould ,andAnton van den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在CVPR中,第3674-3683页,2018年。1、8[3] 3 月 t'ınArjo vsky , Le' onBottou , IshaanGulrajani 和 DavidLopez Paz。不变风险最小化,2019年。二、三、五、八[4] HediBen-Benges , Re'miCade' ne , NicolasThome , 和Matthieu Cord。BLOCK:视觉问答和视觉关系检测的双线性超对角融合。在AAAI,第8102-8109页中。AAAI Press,2019. 五、二[5] 赵伟伦,胡鹤翔,沙飞。消极但有建设性:从创建更好的视觉问答数据集中吸取的教训在NAACL-HLT中,第431441.计算语言学协会,2018年。三、八[6] 陈龙,辛燕,肖军,张汉王,蒲世良,庄月婷。用于鲁棒视觉问答的反事实样本合成。在CVPR中,第10797-10806页,2020年。2[7] ElliotCreage r,J? rn-HenrikJacobsen,andRichardS. 我很好。不变学习的环境推断。在ICML,Proceedings ofMachine Learning Research的第139卷,第2189-2200页中。PMLR,2021年。8[8] Long Hoang Dang , Thao Minh Le , Vuong Le , andTruyen Tran. 面向视频问答的分层对象时空推理一、二、六、八、三[9] Chenyou Fan,Xiaofan Zhang,Shu Zhang,WenshengWang,Chi Zhang,and Heng Huang.异质记忆增强的多模态注意力模型在视频问答中的应用。见CVPR,第1999-2007页。计算机视觉基金会/ IEEE,2019年。一二三六七[10] Jiyang Gao,Runzhou Ge,Kan Chen,and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在CVPR,2018年。一二三六七[11] SeppHochre i ter和JürgenSchmidhube r. 长短期记忆.NeuralComputation,9(8):1735-1780,11 1997. 4[12] 黄登,陈培豪,曾润浩,杜青,谭明奎,甘闯。用于视频问答的位置感知图卷积网络,2020年。二、八[13] Eric Jang , Shixiang Gu , and Ben Poole. 使 用 gumbel-softmax进行分类重新参数化。在ICLR(海报),2017年。4[14] Jianwen Jiang,Ziqiang Chen,Haojie Lin,Xibin Zhao,and Yue Gao.分而治之:视频问答的时间引导时空上下文注意力。第11101-11108页,2020年。3[15] 江品和韩亚红。基于异构图对齐的视频问答推理。在AAAI,第11109-11116页中。AAAI Press,2020. 二、三、五、六、七、八[16] Da vidKrue ger,EthanCaballero,Joérn-HenrikJacobsen,AmyZhang,JonathanBinas,DinghuaiZhang,Re′ miLe2938Priol和Aaron C.考维尔通过风险外推法(rex)进行分布外概括。在ICML,第139卷,第5815-5826页,2021中。二三五[17] Thao Minh Le、Vuong Le、Svetha Venkatesh和TruyenTran。用于视频问答的层次条件关系网络。第9969-9978页,2020年。二三六八[18] Xiangpeng Li,Jingkuan Song,Lianli Gao,XianglongLiu,Wenbing Huang,Xiangnan He,and Chuang Gan.超越rnns:视频问答的位置自我注意与共同注意。在AAAI,第8658-8665页中。AAAI Press,2019. 一、三、七[19] Yicong Li , Xun Yang , Xindi Shang , and Tat-SengChua. 干涉视频关系检测。在MMACM,2021年。8[20] Jungin Park,Jiyoung Lee,Kwanghoon Sohn.答案之桥:用于视频问答的结构感知图交互网络二三六八[21] 朱迪亚·珀尔 因果关系:模型,推理和推断。剑桥大学出版社,美国,第2版,2009年。3[22] 朱迪亚·珀尔 因果关系:模型,推理和推断。剑桥大学出版社,第2版,2009年。3[23] Judea Pearl et al. Models,Reasoning and Inference. 剑桥,英国:剑桥大学出版社,19,2000. 二三五[24] Judea Pearl,Madelyn Glymour,and Nicholas P Jewell.统计学中的因果推理:初级读本。John Wiley Sons,2016.二三五[25] Anna Rohrbach,Lisa Anne Hendricks,Kaylee Burns,Trevor Darrell和Kate Saenko。图像字幕中的物体幻觉在EMNLP中,第4035计算语言学协会,2018年8[26] 作者:Andrew Slavin Ross,Michael C.休斯,和FinaleDoshi-Velez.为正确的理由而正确:通过限制解释来训练可区分的模型。在IJCAI,第2662-2670页,2017年。2[27] 作 者 : TalShah , Yun Jie Serene Yeo , DanielFilizzola,Enrico Santus,and Regina Barzilay.Towardsdebiasing-ing fact verification models,2019.1[28] 杰西·帕森斯,丹尼尔·戈登,和约纳坦·比斯克。改变基线:视觉导航QA的单模态性能。见NAACL-HLT,第1977-1983页。计算语言学协会,2019年。8[29] 金田,姜昌星,朱迪亚珍珠。半马尔可夫因果模型中介入分布的一个特征在AAAI,第1239-1244页,2006中。5[30] Antonio Torralba和Alexei A. 埃夫罗斯 无偏倚地看数据集偏倚。在The 24 th IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2011,Col oradoSprings, CO,USA,2011 年6月20-25 日,第1521-1528页中IEEE计算机学会,2011年。三、八[31] 作者:Ashish Vaswani,No
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功