没有合适的资源?快使用搜索试试~ 我知道了~
视频问答中的层次化视觉语义关系推理
1698HAIR:面向视频问答的层次化视觉语义关系推理刘飞1,2刘静1,2 *王卫宁1卢汉青1,21中国科学院自动化研究所模式识别国家重点实验室2中国科学liufei2017@ia.ac.cn{jliu,weining.wang,luhq} @ nlpr.ia.ac.cn摘要关系推理是视频问答的核心。然而,现有的方法受到几个常见的限制:(1)它们只关注对象级关系推理或框架级关系推理,而没有将两者有机地结合起来;以及(2)它们忽略了利用语义知识进行关系推理。在这项工作中,我们提出了一个层次化的视觉AI-语义关系推理(HAIR)框架,以解决这些限制。具体来说,我们提出了一种新的图记忆机制来执行关系推理,并进一步开发了两种类型的图记忆:a)利用视频的视觉信息进行关系推理的视觉图存储器; b)语义图存储器,其被专门设计为显式地利用包含在视频对象的类和属性中的语义知识,并在语义空间中执行关系推理。利用这两种图存储机制,我们建立了一个层次化的框架,使视觉语义关系推理从对象级到框架级。在四个具有挑战性的基准数据集上的实验表明,该框架具有更少的参数和更快的推理速度,具有最先进的性能。此外,我们的方法在其他视频+语言任务上也表现出优越的性能1. 介绍视频问答(VideoQA)是一项新兴的任务,它要求机器以自然语言的形式回答关于视频的问题,最近引起了研究人员越来越多的兴趣。该任务特别具有挑战性,因为它需要细粒度地理解涉及各种复杂关系的视频内容,例如对象-对象关系,帧-帧关系等。因此,关系推理在解决视频内容中起着重要作用。*通讯作者。(一)(b)第(1)款图1. (a)层次关系推理。人类首先执行对象级推理,然后执行帧级关系推理,以理解整个视频内容。(b)一个简单的比较香草GNN,内存网络和我们的图内存。视频质量问题。最近的作品[9,12,14,28,20,43]已经引入了记忆网络[44,35],注意力机制[46]或图卷积网络(GCN)[22]用于VideoQA中的关系推理。虽然取得了有希望的结果,这些现有的方法遭受两个共同的限制。首先,VideoQA的当前方法仅关注对象级[14]或帧级关系推理[9,12,26,51,20],并且没有以分层方式集成两者。给定一个视频片段和一个相关的问题,如图1(a)所示,人类的典型推理过程是我们首先识别每个视频帧中的相关对象及其交互(例如:女人拿着水桶,女人倾倒水桶),然后将这些帧关联起来以理解动作序列和它们的时间关系(例如,妇女在吊斗后倾倒铲斗)。最后,基于对视频内容的理解,自然可以得出正确答案。这种关系推理的过程是以分层的方式进行的,即从对象级到帧级。人们希望赋予机器人与人类相同的特性。然而,在这方面,问:女人提桶后做什么A:翻斗女子抱桶...妇女倾倒妇女倾倒水桶水桶后举行水桶..................写读写读GNN内存网络图形内存1699当前的方法都没有试图显式地执行层次关系推理。这些方法可能会错过正确回答问题所必需的一些关键关系的建模。其次,现有的视频质量评估方法只考虑视觉信息进行关系推理,而忽略了语义空间中的推理。在[26,20,28]中,所提出的方法对CNN提取的视频帧特征Huang等人.[14]和Jinet al. [19]使用RCNN利用对象级视觉信息。这些方法忽略了利用语义知识进行关系推理,可能导致由于固有的语义差距而对视觉内容的误解。与视觉信息相比,语义知识(如多个对象的属性和类别)提供了更明确和更丰富的线索,以利于推理,这已经在图像识别领域得到了证明[29,7]。在这项工作中,为了解决上述限制,我们提出了一个层次化的视觉-语义关系推理(HAIR)框架,它在层次化结构中联合执行视觉和语义关系推理(图2)。该框架的核心组件是图记忆机制,受图神经网络(GNN)[40]和记忆网络[44]的启发。GNN可以在节点之间传递消息,这是执行关系推理的自然选择。而存储器网络能够通过读和写操作逐渐提取与查询相关的信息。在这里,我们将GNN与记忆网络结合起来,继承两者的优点,实现更有效的关系推理。vanillaGNN、内存网络和我们的图内存的简明比较如图1(b)所示。此外,我们开发了两种类型的图存储器机制:a)视觉图存储器,其利用视频的视觉信息进行关系推理,并且逐渐学习查询相关的关系感知视觉表示;b)语义图存储器,其中我们将对象类和属性表示为节点并且构建边以编码常识语义关系。它明确地利用语义知识来促进关系推理。这两个图形存储器机制通过可学习的视觉到语义和语义到视觉节点映射来协同工作并相互作用。最后,利用所提出的图存储机制,我们建立了一个层次结构,从对象到框架级,从而使层次视觉语义关系推理。总之,这项工作的贡献有三方面:(1)提出了一种新的关系推理机制--图记忆。此外,我们开发了视觉图形记忆和语义图形记忆,以推理不同类型的信息。(2)我们提出了一个层次化的视觉语义关系推理(HAIR)框架,以分层方式集成对象级和框架级关系推理。(3)实验结果表明,我们的框架实现了国家的最先进的性能在四个数据集上的视频QA,具有更少的参数和更快的推理速度。我们的方法在其他视频+语言任务上也表现出优越的性能,例如,基于语言的时间背景2. 相关工作视频问答。视频问答(VideoQA)任务是图像问答(ImageQA)的扩展。与专注于理解静态图像的经过充分研究的ImageQA [2,52,1,30,31]相比,由于存在额外的时间域,VideoQA更具挑战性。在解决视频问答问题时,人们需要找出各种复杂的关系,如空间,时间,视觉和语义关系,以推理答案。人们已经做了很多努力来探索VideoQA中的关系推理。在[28,26,20,27,18]中,所提出的方法将每个视频帧表示为全局特征向量,因此仅考虑帧级关系推理。特别地,Liet al.[28]和Kim等人。[20]使用了自我注意[46]的技术来对视频的帧之间的全局依赖性进行建模。Jiang等[18]提出了异构图对齐(HGA)网络。这些方法缺乏对空间维度的细粒度信息的利用,因此难以回答涉及多个对象及其关系的问题。为了缓解这个问题,Huanget al.[14]提出用位置感知图卷积网络对检测到的对象进行推理,但未能探索帧级关系推理。与这些专注于框架级或对象级关系推理的作品不同,我们的HAIR框架模仿人类的认知过程[10,23,39]并执行层次关系推理。GNN内存网络。 图神经网络(GNN)能够方便地在节点间传递信息,并迭代更新节点表示,非常适合学习关系推理。因此,GNN已广泛应用于许多领域,例如图像域(包括图像识别[8,45],姿态估计[3]等)。)和视频域(包括动作识别[42,41],视频对象分割[48]等)。).然而,对于多模态任务,关系推理需要吸收必要的查询信息,并在查询的动态指导下,在每一步都能检索到相关信息.对于这些,GNN不能很好地处理它们,尽管一些作品[36,11]试图将节点表示为视觉和查询特征的融合。 内存网络首先在[49,44]中引入,它允许模型通过读写操作显式地检索和存储信息。它已被证明是有效的多模式1700联系我们RR◦我我JJg(k)=σ(Wgq(k−1)+Ugr(k))(我˜∈ir r r i对象级别框架级别图2.用于视频质量保证的层次视觉语义关系推理(HAIR)框架。它首先提取输入表示,并在对象级构造视觉图和语义图在此之后,这两个图形内存机制执行对象级的关系推理的视觉和语义表示,分别。节点聚合用于聚合每个帧的节点并在帧级构建新的图。接下来,这两个graph内存机制执行框架级的关系推理的视觉和语义表示,分别。多尺度节点聚合捕获多尺度时间信息并产生视频的全局表示。最后,答案解码器融合多模态表示以推断答案。QA任务[50,12,9],其中记忆网络能够逐渐地和动态地学习查询相关信息。受此启发,我们将GNN与记忆网络相结合,以实现查询指导下的动态关系推理。我们称之为图形记忆。我们表明,建议的图形内存执行比GNN和其他变种在秒。四点三。关系推理。关系推理已经在除VideoQA之外的其他视频理解任务中进行了探索。Huang等人. [15]提出了一个动态图形模块来模拟视频活动中的对象-对象交互。Ma等人[33]利用LSTM来建模对象的任意子组之间的交互。然而,这些方法仅对视觉对象执行关系推理,可能由于缺乏帧级推理和语义知识而导致对视频的不完全理解。Mavroudi等人[34]提出了使用动作类别来构建附加的符号图。然而,他们的方法只在对象级别上操作。相比之下,我们的HAIR是一个层次关系推理框架。我们认为这是第一次尝试:(1)考虑语义知识以促进关系推理;(2)探索两者以充分探索节点之间的关系。控制器携带查询信息,并通过一系列读写操作与节点表示进行交互。我们开发了两种类型的图形存储器:视觉图形记忆和语义图形记忆,对不同的表示进行推理。3.1.1视觉图形记忆可视化图形存储器在可视化表示上执行迭代关系推理,如图3所示。由于我们的方法包含内存网络的读写操作,我们遵循类似的风格来描述我们的图内存。读取操作。设q(0)∈Rd表示读控制器的初始状态,v(0)表示Rd表示第i个图节点的初始表示。在每个推理步骤k1,…K v,读控制器从所有节点认真地读取内容r(k):a′(k)=Vatanh(Waq(k−1)+Uav(k−1))(1)a(k)=exp(a′(k))/Σexp(a′(k))(2)视频问答的一种方法r(k)=Σa(k)v(k−1)(三)3. 我们的方法其中Wa、Ua和Va是可学习的权重(偏置项是R r r在本节中,我们提出了一个端到端的可训练框架-分层视觉语义关系推理为简单起见省略一旦获取节点内容,r(k),则读控制器如下更新其状态:(头发)视频问答。说明了总体架构在图2中我们首先介绍这两个图形存储器机制(即,可视图形存储器和q(k)=Whq (k−1)+Uhr (k)(4)语义图存储器)中。3.1,然后在第2节中给出总体架构。3.2.q(k)=g(k)R◦ q~(k)R+(1−g(k))◦q(k−1)(6)3.1. 图形存储器图形存储器由全连接图形和读写控制器组成。全连通图al其中W和U是可学习的权重。σ和分别表示S形函数和Hadamard乘积。更新门g(k)控制要保留多少先前状态人头节点聚集白猫RCNN语义图时间视频帧可视图语义图节点内存内存聚集。可视化图形指南问:男人做了5次什么?GloVe Bi-LSTM引导视觉图语义图记忆记忆人,白猫,床多尺度节点聚集人,头,猫人,胳膊,猫人头应答解码器对象级和框架级关系推理我我我1701--| |||∈∈··˜˜i、ji、jJ 我i、j我i、jJ=exp(Wvsv(Kv))/|S| exp(Wvsv(Kv))(14)ei,jJu(k)(k)(k)(k)(k−1)其中VGM表示视觉图形存储器,q读取控制器r的初始状态,v(0)={v(0)}|V|Σ我i,j ijSJvii ji我J我p增强的语义表示s(0)。读取和写入v(Kv)问题功能(查询).. .q(Kv)迭代关系推理写~s(K s)图3.视觉图形存储器(VGM)的图示写操作。在读操作之后,我们需要-问题功能(查询)迭代关系推理用新的查询信息和节点之间的关系来确定节点表示的日期。在每个步骤k,写控制器通过考虑其先前表示v(k−1)、来自读控制器的当前内容来更新第i个节点(k−1)视觉到语义节点映射语义到视觉节点映射图4.语义图记忆(Semantic Graph Memory,SGM)如图4所示。它有三个输入:读控制器的初始状态q(0)∈Rd,q(k)和来自其他节点的表示具体地,我们首先聚合来自邻近节点的信息以捕获上下文:e′(k)=MLP([v(k−1);v(k−1)])(7)e(k)=exp(e′(k))/Σexp(e′(k))(8)语义图s(0)R的空间表示|S| × d,以及视觉图v(Kv)R的更新表示|V| ×d,其中S和V表示节点数。作为第一步,我们使用视觉证据增强语义表示为了实现这一点,我们引入了可学习的视觉到语义节点映射机制:c(k)=Σe(k)v(k−1)(九)vj→si我 Ji’=1我 J中间有ReLU激活的线性层(k)是fvs = Σ|V |φv → s W v v(Kv)(十五)从第j个到第i个节点的关系权重,并且[ ; ]表示特征级联。获取上下文其中φvj→si表示映射fea的置信度(k)从第j个视觉节点到第i个语义节点的True在表示ci中,写入控制器更新节点Wvs ={W vs}|S|E ∈R|S| × d是可训练的权重矩阵表示为:ii=1vd×d计算投票权重,且Wp∈R是一个亲-(k)v(k)v(k−1)v(k)(十)射权矩阵 每个语义vi=Wuq我+Uuvi+Vuciu我我u节点更新为:(0)(0)vs.g(k)=σ(Wgq(k)+Ugv(k−1)+Vgc(k))(11)vi=gi◦vi+(1−gi)◦vi如等式1所示。1-12 ,我们的图形存储器保留了GNN的优势,并且能够对关系进行建模~si =[si ;fi]操作与视觉图形存储器中的操作相同,定义在Eq.1-12号。经过Ks推理步骤,我们得到更新的语义表示s(Ks)={s(Ks)}|S|、在视觉表现中。 同时,它拥有~~ii=1内存网络的读写控制器,从而实现查询和可视化表示之间的动态交互以及相关信息然后将其映射回视觉空间,以通过语义到视觉节点映射用全局语义知识丰富视觉表示:(由于内部门控机制)。迭代推理的整个过程可以写成:v= VGM(q,v)(13)φ′=Wsv[s(Ks);v(Kv)]→J我sj→vij=1(十六)(Kv)(0)(0)φs→v =exp(φ′)/Σ|S|expVisual Graph中文(简体)中文 ...q(0)q(1)读写q(2)读v(K v)剩余连接Visual Graphv~语义图~s(0)~s(1)...q(0)q(1读写读q(2).. .q(Ks)写J 我φ其中MLP是由两个j=1然后,我们在(十二)sj→vip J1702图节点的表示(其中(φ′J我)(17)(0)fsv=0|S|φs→vWs~s(Ks)我p(十八)初始视觉i i=1|其中Wsv∈R1×2d和Ws∈Rd×d是可学习的,(v)是更新后的表示。Kv推理步骤之后的步骤3.1.2语义图记忆语义图存储器利用语义知识喷射权重通过两个节点映射机制-语义图存储器、视觉图存储器和语义图存储器协同工作并且彼此交互,以实现更好的关系推理和对视频内容的更全面的理解第i个视觉节点的最终表示使用残差获得并在语义上执行迭代关系推理连接:v=v(Kv)+f sv.iii就是就是我j=1V|是1703t=1t=1n=SGM(q,s ,v)~在帧水平上发出声音,模型学习逐渐关注˜∈∈--|一|Nt,n不t,nn=1不t,nn=11/H一a=1Σ∈联系我们--vt(0)tt整个过程可以简洁地写为:[1]:v¯t=Attn(vt,q(0)),其中vt∈Rd是集合-˜¯v~=SGM(q(0),s(0),v(Kv))(十九)将时间位置信息转换为v′tn=1[46]后。为3.2. 整体架构在本小节中,我们基于Sec中对图存储器的定义,提出了分层视觉语义关系推理(HAIR)框架的整体架构(见图2)。第3.1条输入嵌入。给定一个包含T帧的视频,我们使用修改后的Faster R-CNN [38]在VGenome [25]上进行预训练,以从每帧中提取N个对象的视觉特征。 去捕捉物体的温泉-在初始位置中,我们从对象的相对边界框坐标引入了一个s¯t=1Ns(0),其中s≠tRd是集合门d语义-第t帧的tic表示。框架级推理我们构造了两个新的图,并使用帧级表示初始化它们的节点状态:v ( 0 )=v¯tT且s ( 0 )=s¯tT。 用问题嵌入q(0) 初 始化 读 取 控制 器。之后,这两个图形记忆机制执行迭代关系推理的视觉框架表示和语义框架表示,分别。v(Kv)=VGM(q(0),v(0))(22)nates[x min/Wfr,ymin/Hfr,xmax/Wfr,ymax/Hfr],在哪里(0)(0)(Kv)(23)Wfr和Hfr分别是帧宽度和高度然后,将视觉对象特征和位置特征投影到具有两个学习线性层的d维空间中,并求和为初始视觉表示.y(0)={y(0)}N,其中t∈{1,…T}是帧index和v(0)∈Rd是第n个ob-的表示其中v∈RT×d。 通过这样的迭代关系并捕捉帧之间的适当关系(如图6所示)。此外,通过引入高级语义知识,产生的视频在t,n第t帧。 与此同时,我们提取类代表性更具歧视性。多尺度节点聚合。不同的问题-以及检测到的对象的属性,例如, 这些语义知识通过预先训练的单词嵌入模型(在我们的情况下是快速文本[4])嵌入,然后线性投影到d维空间中以产生初始语义表示s(0)=s(0)N。对于这个问题,我们首先将每个单词嵌入到300-维向量,其用预训练的GloVe向量初始化[37]。 为了获得上下文表示,我们进一步通过Bi-LSTM [ 13 ]传递这些嵌入向量。最后的问题嵌入表示为q(0)Rd. 对象层次的推理。在获得输入em-beddingsv(0),s(0)和q(0),我们使用它们来初始化通常需要不同持续时间的时间信息。为此,我们设计了一种多尺度节点聚合方法,将v聚合成整体表示。该组件由H个平行头组成。每个头包括一个线性层,减少输入维度 通过 ,具有不同内核大小的时间平均池化,其捕获多尺度时间信息,以及问题引导的注意力[1],其聚合具有注意力权重的节点。我们将每个头的输出连接为最终输出,表示为Rd. 请注意,在应用时间池化之前,所有节点都按应答解码器。 根据以前的工作[26,9],我们t t根据问题采用不同的答案解码器视觉图、语义图和读取控制器,重新编译。然后,这两个图形记忆机制执行迭代关系推理的视觉对象表示和语义对象表示,分别。v(Kv)=VGM(q(0),v(0))(20)类型. (1)对于开放式问题,我们将其视为分类任务。 视频表示v与问题嵌入q(0)融合以计算所有候选答案的分数:p=MLP([v;q(0)])。交叉项y被用作损失函数。(2)对于计数问题,模型需要预测范围从0到10的数字我们不~=SGM(qN不,s(0),v(Kv))(二十一)在融合表示上利用线性层后跟舍入函数来预测数字:哪里vt={vt,n}n=1的更新表示round(Wpfvq),其中fvq=ReLU(Wf[v ;q(0)])。的此问题类型的损失是均方误差(MSE)。第t帧,编码查询相关的对象级视觉和语义关系。节点聚合。我们为每个帧聚集图节点,并通过使用聚集的表示来构建新的图。将每个帧表示为节点,从而使后续(3)对于多项选择题,每个答案选择与问题连接以形成查询。我们将每对查询和视频输入网络。结果,我们得到了一组查询表示{q(0)}|一|和视频框架级关系推理具体来说,对于视觉图,节点通过问题引导的注意力聚合representationsva|aA=|1,其中-swer选择。计算每个答案选择的分数第t帧的门控视觉表示。 我们注入语义图,我们使用平均池化来聚合节点1704一−如pa=MLP([va;q(0)])。 应用softmax函数来处理分数。我们使用交叉熵损失函数。4. 实验4.1. 实验装置数据集。在我们的实验中使用了四个数据集。TGIF-QA [16]是目前VideoQA任务最突出的基准有四种任务类型:(1)计数:一个开放式的计数任务,检索一个动作的重复次数;(2)动作:一个多项选择任务,旨在识别重复的动作,一定次数;(3)转换:询问两个状态的转换的多项选择任务;以及(4)帧QA:类似于ImageQA的开放式任务,其可以从单个视频帧中回答。MSVD-QA [51]是51 K QA对的小数据集,其从MSVD视频的描述自动生成[5]。所有问题都是开放式的,分为五种类型:什么、谁、如何、何时和何地。MSRVTT-QA [51]是一个包含243 K QA对的更大数据集。Youtube 2 Text-QA [53]包括开放式和多项选择题,分为三种类型(即什么,谁和其他)。四个数据集的更多统计数据在Supp. 材料在TGIF-QA数据集上,除了计数任务之外,我们采用准确度作为所有任务的评估指标。对于计数,我们使用均方误差(MSE)来衡量性能。实施详情。我们平均采样10帧来表示视频,并选择每帧分数最高的6个检测到的对象。联合嵌入空间d的维数为512。视觉和语义推理步骤的数量,Kv和KS,被设置为2和2,分别。在多尺度节点聚合中我们使用4个头。每个头部中的时间池化的核大小分别被设置为1、2、3和4,并且步幅大小为1。使用Adam优化器[21]训练模型,初始学习率为1 e-4,批量大小为64。整个训练在一个NvidiaTesla V100 GPU上大约需要12个小时。在给出最佳验证性能的时期报告结果4.2. 最新技术水平比较我们比较我们的头发与国家的最先进的方法在四个具有挑战性的数据集。表1显示了TGIF-QA数据集的性能 比 较 。 仅 使 用 ResNet 视 觉 功 能 , HAIR 在 Action(+2.8%),Trans. (+0.9%)和FrameQA(+3.9%)任务。这种改进在FrameQA任务上尤其明显,因为需要对象级关系推理。注意,L-GCN [14]使用GCN [22]来推理对象-对象关系,而PSAC [28]将自我注意力应用于对象-对象关系。表1.与TGIF-QA数据集上的最新方法进行比较。对于计数任务,越低越好。视觉特征为:R(ResNet)、C(C3D)、F(FlowCNN)、RX(ResNext)。方法操作事务FrameQA计数ST-VQA(R+C)[16]60.867.149.34.40共记忆(R+F)[2]68.274.351.54.10PSAC(R)[28]70.476.955.74.27HME(R+C)[9]73.977.853.84.02L-GCN(R)[14]74.381.156.33.95HCRN(R+RX)[26]75.081.455.93.82头发(右)77.882.360.23.88表2.与最先进方法的比较:MSVD-QA上的Co-Mem[12]、AMU [51]、HME [9]、QueST [17]和HCRN [26]和MSRVTT-QA数据集。数据集共记忆AMUHMEQueSTHCRN头发MSVD-QA31.732.033.736.136.137.5MSRVTT-QA32.032.533.034.635.636.9表3.与Y outube 2 Text-QA数据集上最先进的方法进行比较。任务方法什么谁其他所有HME [9]83.177.886.680.8道选择L-GCN [14]毛发86.087.881.582.480.681.483.985.3HME [9]29.228.777.330.1开放式L-GCN [14]毛发24.532.453.254.770.472.238.043.0模型框架关系,但他们未能集成对象级和框架级的关系推理。 表2显示了MSVD-QA和MSRVTT-QA数据集的性能比较。从表中可以看出,我们的模型HAIR在两个数据集上的表现明显优于现有方法,在MSVD-QA和MSRVTT-QA上分别建立了37.5%和36.9%的最新结果。表3显示了Youtube 2 Text-QA数据集上的性能比较。我们的HAIR在整体准确性方面比L-GCN [14]有显着的提高(多项选择任务+1.4%,开放式任务+5%)。这些事实证明了我们的方法在不同任务类型和数据集上的有效性和4.3. 消融研究层次关系推理。我们首先进行实验来研究层次关系推理的效果如表4的第一块所示,消融任何层级(即,对象级或帧级)导致所有任务类型的严重性能下降我们观察到“仅这表明对象级关系推理在视频质量评估中起着更重要的作用。然而,很少有研究工作探讨这种关系推理。我们也在探索-1705−表4.我们的模型在TGIF-QA数据集上的消融研究。为计数任务,越低越好。设置行动译FrameQA计数仅对象级别73.579.257.14.08仅帧级71.278.055.94.15双流75.380.757.84.01无目视检查70.677.257.44.13w/o语义74.680.656.04.06w/o视觉+语义68.476.154.74.28GCN73.479.056.24.07GCN(融合)75.181.457.73.95Self-attention73.980.556.74.06存储器网络72.478.154.24.16充分77.882.360.23.88图5.不同视觉关系推理步骤的比较(KV)和语义关系推理步骤(KS)。表5.推理时间、模型大小和记忆足迹的比较。方法推理时间模型大小内存占用HME [9]3.2s43.3M3055MBHCRN [26]0.6s42.8M2111MB我们0.5s24.2M2541MB使用两个流框架。一个流是对象级别,另一个是帧级别。双流框架的较差结果表明我们的历史框架的优越性视觉语义关系推理。然后,我们在表4的第二块中分析了视觉语义关系推理的影响。一般来说,然而,在FrameQA任务中,仅使用语义知识进行推理)获得了比“W/O语义”更好的性能这是因为语义知识可以为一些FrameQA问题提供明确的答案线索。例如,类“猫”可以被直接用于回答问题“什么在镜子中跳到自己身上?“.当禁用这两个图形记忆机制,我们观察到的性能进一步退化,显示视觉和语义关系推理之间的互补性。图形存储器。我们提出了一种新的关系推理机制图记忆,它优雅地结合了GNN和记忆网络的思想。我们还研究了表4的第三块中的其他关系推理模块。“GCN”表示图卷积网络[22],并且“GCN(融合)”表示使用多模态特征的融合作为节点表示。我们可以看到,由于动态查询指导和动态特征选择的残疾,GCN变体表现不如我们的图记忆。自我注意[46]被应用于对[20,28]中的帧的依赖性进行建模。我们堆叠了一些自我注意层,以保持与我们相同的推理步骤,并在HAIR框架中取代我们的如表所示,自注意力带来比我们更糟糕的结果。 存储器网络[44]已被引入以解决QA问题[50,12]。它能够以动态的方式执行迭代推理,但不能显式地对关系建模,从而导致性能下降。这些结果证明了我们的图形记忆机制的优越性推理步骤。探索视觉和语义关系推理的多少步骤对于VideoQA任务是足够的也是有趣的。我们用不同的推理步骤来测试我们的模型。 结果示于图105. 我们有以下观察结果:(1)当Kv= 2和Ks=2时,在所有四个任务上都获得了最好的性能。(2)当Ks=1(即蓝线),将Kv从1增加到3可以不断提高性能。似乎更多的视觉推理步骤可以在一定程度上弥补语义推理的不足。这可能是因为更多的迭代可以从视觉信息中提取一些语义知识,这类似于与浅层相比,更深的CNN层通常携带高级语义信息(3)与将Kv从2增加到3相比,将K s从2增加 这一现象可以解释为seman-tic知识已经是明确的和高级的表示,因此使用更多的语义关系推理步骤将使语义平滑(或模糊)。模型效率比较。表5显示了不同方法的推断时间、模型大小(#param)和内存占用。我们在一个Nvidia TeslaV100 GPU上运行我们的方法和HME1[9]和HCRN2 [26可以观察到,我们的HAIR比HME和HCRN(最近的SO-TA)更有效,具有近一半的参数和更快的推理时间。其他视频+语言任务的表现。为了进一步验证本文提出的视觉-语义关系推理方法的有效性和通用性,我们在其他视频+语言任务上进行了实验,语言-1https://github.com/fanchenyou/HME-VideoQA2https://github.com/thaolmk54/hcrn-videoqa1706问:是什么在厕所里指着小狗?答:狗站着的女人站着的女人站着的女人t黑色外套棕色头发女人交叉臂手女人黑煤黑头黑椅犬椅子狗黄地板黄地板白色地板纸网站狗白狗视觉关系推理步骤1视觉关系推理第二语义关系推理步骤2坐狗问:是什么在厕所里指着小狗?A:猫问:是什么在厕所里指着小狗?A:猫升降女人问:女人梳头后做什么答:摇头问:女人梳头后做什么?答:拍手问:女人梳头后做什么?A:横担图6.我们的HAIR的关系推理过程的可视化。在每一帧中,我们显示最受关注的对象(红色框)和两个最相关的对象(黄色框),它们具有不同的线宽,指示它们与红色框之间的关系最受关注的帧用蓝色框突出显示具有不同线宽的蓝色箭头表示从其他帧到最受关注的帧的关系权重当到达语义关系推理步骤时,我们展示了语义知识(即类和属性)在框的顶部(或由于空间限制的底部)。更多的例子,请看Supp。表6.基于语言的时间背景任务的绩效比较。0.60.3基于时间背景我们采用ActivityNet Captions数据集[24]进行性能比较,并将我们使用与[6]类似的如表6所示,我们的HAIR实现了有希望的结果。4.4.定性分析为了提供更多关于我们的HAIR的见解,我们在图6中显示了关系推理过程的可视化。最初,模型未能聚焦于相关对象和帧(例如,对象“女人”和“符号”之间的关系随着迭代(步骤)的继续,模型逐渐学会关注最相关的对象和帧(例如,对象“女人”和“交叉臂”之间的关系特别是,没有明确的语义知识,该模型错误地识别的对象和动作,虽然更多的视觉关系推理步骤已经进行。在利用语义知识进行关系推理后,模型最终给出了正确的答案。这些可视化0.0图7.视觉到语义(左)和语义到视觉(右)节点映射的注意力权重的可视化。帮助解释我们的方法。附录中提供了一些故障示例。材料 我们取第四帧第二个例子和可视化的视觉到语义和语义到视觉节点映射机制在对象级别的注意。如图7所示,所提出的节点映射机制能够从另一个表示中收集相关信息,以增强当前表示并有利于关系推理。5. 结论在本文中,我们提出了一个层次化的可视化语义关系推理(HAIR)框架的视频问答,它集成了对象级和框架级的关系推理在一个层次化的方式,并探讨高层次的语义知识,以促进关系推理。它以图存储器为基本单元,实现了查询动态引导下的关系推理,并实现了信息的动态选择。大量的实验证明了我们的方法的有效性和通用性鸣谢:本工作得到国家重点研究发展计划(2010年12月)的资助。2020AAA0106400)、国家自然科学基金(61922086,61872366)和北京市自然科学基金(4192059,JQ20022)。方法IoU@0.3IoU@0.5IoU@0.7美国海关和边境保护局[47]54.335.817.8ABLR [54]55.736.8-[32]第三十二话55.939.7-[6]57.640.218.31707引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中,第6077-6086页,2018年。二、五[2] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克Vqa:可视化问答。在ICCV,第2425-2433页,2015中。2[3] Yanrui Bin , Zhao-Min Chen , Xiu-Shen Wei , NyaChen,Changxin Gao,and Nong Sang.使用图卷积网络的结构感知人体姿势估计。模式识别,106:107410,2020。2[4] Piotr Bojanowski,Edouard Grave,Armand Joulin,andTomas Mikolov.用子词信息丰富词向量Transactions ofthe Association for Computational Linguistics , 5 : 135-146,2017。5[5] David L Chen和William B Dolan。收集高度平行的数据进行释义评估。在ACL,第1906[6] 陈少祥和蒋玉刚。通过语言进行时间活动定位的层次视觉-文本图在ECCV,2020年。8[7] Xinlei Chen,Li-Jia Li,Li Fei-Fei,and Abhinav Gupta.超越卷积的迭代视觉推理在CVPR中,第7239-7248页2[8] Zhao-Min Chen , Xi-Shen Wei , Peng Wang , andYanwen Guo.用图卷积网络进行多标记图像识别。在CVPR中,第5177-5186页,2019年。2[9] Chenyou Fan,Xiaofan Zhang,Shu Zhang,WenshengWang,Chi Zhang,and Heng Huang.异质记忆增强的多模态注意力模型在视频问答中的应用。在CVPR中,第1999-2007、2019页。一、三、五、六、七[10] 卡尔·弗里斯顿大脑中的层次模型PLoS Comput Biol,4(11):e1000211,2008. 2[11] 高迪飞,李珂,王瑞平,Shiguang Shan,陈西林。基于多模态图神经网络的视觉与场景文本联合推理。在CVPR中,第12746-12756页,2020年。2[12] Jiyang Gao,Runzhou Ge,Kan Chen,and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在CVPR中,第6576-6585页,2018年。一、三、六、七[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。5[14] 黄登,陈培豪,曾润浩,杜青,谭明奎,甘闯。用于视频问答的位置感知图卷积网络。在AAAI,第11021-11028页,2020年。一、二、六[15] Hao Huang,Luowei Zhou,Wei Zhang,Jason J Corso,and Chenliang Xu.动态图形模块用于建模活动识别中的对象-对象交互。在BMVC,2019。3[16] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 Tgif-qa : Toward spatio-temporalreasoning in visual question answering. 在 CVPR 中 , 第2758-2766页,2017年。6[17] Jianwen Jiang,Ziqiang Chen,Haojie Lin,Xibin Zhao,and Yue Gao.分而治:视频问答的问题引导时空上下文注意。在AAAI,第11101-11108页,2020中。6[18] 江品和韩亚红。基于异构图对齐的视频问答推理。在AAAI,第11109-11116页,2020中。2[19] 金伟科,周钊,顾茂,俞军,肖军,庄月玲.用于视频问答的具有对象关系的多交互网络。在ACM MM,第1193- 1201页,2019年。2[20] Kyung-Min Kim 、 Seong-Ho Choi 、 Jin-Hwa Kim 和Byoung-Tak Zhang。视频故事问答的多模态双注意记忆。参见ECCV,第673-688页,2018年。一、二、七[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。6[22] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv:1609.02907,2016。一、六、七[23] Daniel C Krawczyk,M Michelle McClelland和Colin MDonovan。前额叶皮层的关系推理层次。Cortex,47(5):588-597,2011. 2[24] Ranjay Krishna、Ke
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功