没有合适的资源?快使用搜索试试~ 我知道了~
视觉上下文树模型——VCT REE:动态树结构的视觉推理任务及其应用
6619学习为视觉上下文构建动态树结构唐凯华1,张汉旺1,吴宝源2,罗文汉2,刘伟21南洋理工大学2腾讯AI实验室kaihua001@e.ntu.edu.sg,hanwangzhang@ntu.edu.sg,{wubaoyuan1987,whluo.china}@ gmail.comwl2223@columbia.edu,www.example.com摘要我们建议组成动态树结构,将图像中的对象放置到视觉环境中,有助于视觉推理任务,如场景图生成和视觉问答。我们的视觉上下文树模型,被称为VCT REE,与现有的结构化对象表示(包括链和全连接图)相比,具有两个关键优势:1)高效且富有表现力的二叉树对对象之间固有的并行/层次关系进行编码,例如,“衣服”和“裤子”通常是共现的,属于“人”; 2)动态结构因图像和任务而 异 ,允许更多的 内容-/task-specific消息在对象之间传递。为了构建一个VCTREE,我们设计了一个得分函数,计算每个对象对之间的任务相关的有效性,树是从得分矩阵的最大生成树的二进制版本。然后,视觉上下文由双向TreeLSTM编码,并由特定于任务的模型解码。我们开发了一种混合学习过程,它将端任务监督学习和树结构强化学习相结合,前者的评价结果作为后者结构探索的自我评价。在两个基准测试上的实验结果,这需要在上下文上进行推理:用于场景图生成的Visual Genome和用于视觉问答的VQA 2.0&表明,VCT REE在发现可解释的视觉上下文结构时优于最先进的结果。1. 介绍物体并不孤单。它们被放置在视觉背景中:一个连贯的对象配置归因于它们彼此共变的事实。齿轮科学的广泛研究表明,我们的大脑天生就利用视觉环境来理解混乱的视觉场景[4,6,37]。例如,即使在图1中没有完全观察到女孩受此启发,建模视觉CON-动态树(我们的)全连通图链是的这个女孩骑在马上正确吗?头盔上有什么小女孩图1.不同对象级视觉上下文结构的说明:链[57],全连接图[50]和由所提出的VCTREE构建的动态树结构。为了使用TreeLSTM [44]进行有效的上下文编码,我们将多分支树(左)转换为等效的左子右兄弟二叉树[14],其中左分支(红色)表示层次关系,右分支(蓝色)表示par-boundary关系。VCTREE相对于链和图的主要优势是层次化、动态和高效。文本在许多现代计算机视觉系统中也是不可缺少的。例如,最先进的CNN架构通过各种接收场的卷积来捕获上下文,并将其编码为多尺度特征映射金字塔[8,27,60]。这种像素级视觉上下文(或局部上下文[16])可以说是弥补人类和机器之间“中级”视觉性能差距的关键角色之一6620基于语义分割[8,9,56]。在对象级别上显式地建模视觉上下文事实上,视觉上下文作为一个强大的归纳偏见,连接在一个特定的布局中的对象进行高级推理[26,30,46,54,36,28]。例如,“人”在“马”上的空间布局对于确定关系“骑”是有用的,如果我们想要回答“谁骑在马上?“.然而,这些工作假设上下文是一个场景图,其检测本身是一个高层次的任务,还不可靠。没有高质量的场景图,我们必须使用一个事先布局结构。如图1所示,两种流行的结构是链[57]和全连接图[7,10,15,25,50,55,49],其中上下文由顺序模型编码,例如链的双向LSTM [19]和图的CRF-RNN [61]。然而,这两种现有结构是次优的。首先,链过于简单,可能只捕获简单的空间信息或同现偏差;尽管全连通图是完备的,但是它们缺乏层次关系之间的区分,例如,“helmet affiliated to head”, and parallel relations, 《骑马的女孩》;此外,密集连接还可能导致后续上下文编码中的消息传递饱和[50]。第二,视觉上下文本质上是内容/任务驱动的,对象布局应该根据内容和问题而变化。因此,固定的链和图与视觉环境的动态本质不相容[47]。在本文中,我们提出了一个称为VCTREE的模型,pi-oneering组成的动态树结构的编码对象级的视觉上下文的高级视觉推理任务,如场景图生成(SGG)和视觉问答(VQA)。在IM中给出一组对象提案,年龄(例如,从Faster-RCNN [40]获得),我们维护了对象的可训练任务特定得分矩阵,其中每个条目指示成对对象的上下文有效性。然后,可以从得分矩阵中修剪最大生成树,图1所示的多分支树。这种动态结构代表了如果问“小女孩头上的是什么?“;而整个人的身体更重要的问题是“女孩坐在马上是正确的吗?“.为了避免由密集连接的任意数量的子树引起的饱和问题,我们进一步将多分支树变形为等效的左子右兄弟二叉树[14],其中左分支(红色)表示层次关系,右分支(蓝色)表示并行关系,然后使用TreeLSTM [44]对上下文进行编码。由于上述VCT REE构造具有离散和不可微的性质,因此我们开发了一种混合学习策略,使用REINFORCE[20,41,48]进行树结构探索,并使用监督学习进行上下文编码及其后续任务。特别地,来自监督任务的评估结果(SGG的召回率和VQA的准确率)可以被利用作为指导树构造的“动作”的评价函数。 我们在两个基准上评估VCT REE:SGG的Visual Genome [24] 和VQA的VQA2.0 [17]。对于SGG,我们在所有三个标准任务上都达到了新的技术水平,即,场景图生成、场景图分类和谓词分类;对于VQA,我们在单个模型性能上取得了竞争性的结果。特别是,VCTREE帮助高级视觉模型对抗数据集偏见。例如,与MO- TIFS [ 57 ]相比,我们在提议的同品种分类的平均召回率@100指标中实现了4.1%的绝对增益,并观察到VQA 2.0平衡配对子集[45]比 正 常 验 证 集 有 更 高 的 改 善 。 定 性 结 果 还 表 明 ,VCTREE构成了可解释的结构.2. 相关工作视觉上下文结构。尽管人们对视觉语境的价值达成了共识,但现有的语境模型分为各种隐式或显式方法。隐式模型直接将周围像素编码成多尺度特征图,扩张卷积[56]提供了一种有效的方法来增加接收场,适用于各种密集预测任务[8,9];特征金字塔结构[27]将低分辨率上下文特征与高分辨率详细特征相结合,促进具有丰富语义的对象检测。显式模型通过对象连接结合上下文线索。然而,这些方法[25,50,57]将对象分组为固定的布局,即,链或图。学习构建结构。学习组合结构在NLP中越来越流行,用于句子表示,例如,Cho等人[11]应用门控递归卷积神经网络(grConv)来控制动态结构的自底向上特征流;Choi et al. [12]将TreeLSTM与Gumbel-Softmax相结合,允许从纯文本中自动学习特定于任务的树结构。然而,只有少数作品构成图像的视觉结构。传统方法基于对象类别[13]或样本[32]为整个数据集构建统计依赖图/树。这些统计方法不能将每个图像对象作为一个整体放在上下文中,从而以特定于内容/任务的方式进行推理。Socher等人[43]构造了一个自下而上的树结构来解析图像;然而,它们的树结构学习是监督的,而我们的树结构学习是加强的,这不需要树的地面实况。6621(b)树构造(c)环境编码(d1)场景图形生成n1n 2n3n1n2骑磨损n3视觉上下文场景图(d2)视觉问题回答n1上下文关注问:什么是在男人n2n3视觉上下文视觉注意答:头盔加强监督学习头盔摩托车人(a)特征提取n1n2n3ROI空间图2.建议的VCT REE模型的框架。我们从提案中提取视觉特征,并使用可学习的得分矩阵构建动态VCT REE。树结构用于编码对象级视觉上下文,该上下文将针对每个特定的最终任务进行解码阶段(c)(d)中的参数通过监督学习进行训练,而阶段(b)中的参数使用具有自我批评基线的REINFORCE视觉推理任务。场景图生成(SGG)任务[50,52]来源于视觉关系检测(VRD)[31,53]。VRD的早期工作[31]将对象视为孤立的个体,而SGG将每个图像视为整体。随着广泛使用的消息传递机制[50],各种上下文模型[25,26,34,51]已在SGG中被利用,以通过丰富的全局上下文微调本地预测,使其成为不同上下文模型的最佳竞争领域。视觉问题回答(VQA)作为一种高级任务,是计算机视觉和自然语言处理之间的桥梁。最先进的VQA模型[1,3,45]依赖于对象袋视觉注意力,其可以被认为是一个平凡的上下文结构。然而,我们建议学习对于可视内容和问题是动态的树上下文结构。3. 方法TreeLSTM)来使用构造的VCTREE对上下文线索进行编码。(d)将针对第3.3节和第3.4节中详述的每个特定最终任务对编码的上下文进行解码。3.1. VCTREE建设VCTREE构建旨在学习得分矩阵S,其近似每个对象对之间的任务依赖有效性。本矩阵的编制遵循两项原则:1)应该保持固有的对象相关性,例如,“manwears helmet” in Figure 问:“男人的头上是什么?”“,“人-头盔”配对应比“人-摩托车”和“头盔-摩托车”配对更重要。因此,我们将S的每个元素定义为对象相关性f(xi,xj)和成对任务相关性cyg(xi,xj,q)的乘积:⎧Sij=f(xi,xj)·g(xi,xj,q),如图2所示,我们的VCTREE模型可以归纳为以下四个步骤。(a)我们采用Faster-RCNN来检测对象建议[40]。视觉f(xi,xj)=σ(MLP(xi,xj)),g(xi,xj,q)=σ(h(xi,q))·σ(h(xj,q)),(一)每个建议i的特征表示为xi ,连接RoIAlign特征[18]vi∈R2048和空间特征bi∈R8,其中8个元素表示边界框co。纵坐标(x1,y1,x2,y2)、中心(x1+x2,y1+y2)和大小其中σ(·)是sigmoid函数;q是任务特征,例如,VQA中GRU编码的问题特征; MLP是多层感知器;h(x i,q)是VQA中的对象-任务描述,稍后将在第3.4节中介绍。2 2(x2−x1,y2−y1),关于iv el y。请注意,xi不限于边界框;站姿分割[18]或全景分割[23]也可以是替代方案。(b)在第3.1节中,将引入一个可学习的矩阵来构建VCTREE。此外,由于VCTREE结构本质上是离散的,并且得分矩阵与最终任务的丢失不可微,因此我们在第3.5节中开发了一种混合学习策略。 (c)第(1)款在第3.2节中,我们使用双向树LSTM(Bi-在SGG中,整个g(xi,xj,q)被设置为1,如我们假设的那样。每个对象对在没有问题先验的情况下贡献相等如果 两 个 对 象 相 关 , 我们在Visual Genome [ 24 ]上预训练f(x i,x j)以获得合理的二进制先验。然而,这样的预训练模型并不完美,因为缺乏协同训练。这里没有图级约束或问题先验,因此将在第3.5节中进一步微调。考虑S是一个对称邻接矩阵,我们可以得到一个最大生成树使用普里姆关系模型6622我1 2nin1n2 n3n4n5n6图3.从S.在每一步中,如果剩余池中的节点具有最高的有效性得分,则将其连接到当前树。算法m[39],其中根(源节点)i满足图4.我们的SGG模型概述对象上下文阿马第一报j/=iSi j。简而言之,如图3所示,我们通过连接节点从池到树节点,如果它具有最大的有效性。请注意,在第3.5节的树结构探索期间,上述树结构中的第i步t(i)中的每一步都是从概率为p(t(i))的多项式分布中的所有可能选择中采样的。|t(1),.,t(i-1),S)与有效性成比例生成的树是多分支的并且仅仅是一个稀疏图,只有一种连接,在随后的上下文编码中仍然不能区分层次和并行关系。为此,我们将多分支树转换为等价的二叉树,即,VCTREE通过将非最左边的边缘改变为右分支,如图1所示。 以这种方式,右分支(蓝色)表示并行上下文,左分支(红色)表示分层上下文。这样的二叉树结构实现了我们的SGG的显著改进,特征用于解码对象类别,而成对关系解码在预测之前联合融合了关系上下文特征、联合盒RoIAlign特征和包围盒特征。3.3.场景图生成模型现在我们详细介绍Eq的实现。(2)以及如何针对如图4所示的SGG任务对它们进行解码。对象上下文编码。我们使用来自Eq的BiTreeLSTM。(2)将对象上下文表示编码为Do=[d o,d o,...,do],d o∈R512. 我们设置Eq.(2)到[xi;W1ci],即,对象视觉特征和嵌入的N路原始Faster-RCNN类概率的级联其中W1是将每个原始标签分布ci映射到R20 0的嵌入矩阵。关系上下文编码。 我们申请一个额外的双-TreeLSTM使用上述do作为输入zi来进一步编码VQA实验与其多分支替代方案相比。关系上下文Dr我=[d r,d r,., dr],dr∈ R512.1 2n i3.2. TreeLSTM上下文编码给定上述构造的VCTREE,我们采用Bi-TreeLSTM作为我们的上下文编码器:上下文解码。SGG的目标是检测物体然后预测他们的关系。类似于[57],我们采用动态对象预测,其可以被视为使用等式(1)的自上而下方向上的解码过程。(3),即子对象类依赖于其父对象类。特殊-D=BiTreeLSTM({zi}i=1,2,…n)、(2)cally,我们设置Eq. (3)为[d o; W2c p],其中cp是i的父节点的预测标签分布,以及其中z i是输入节点特征,将在每个任务中指定,并且D =[d1,d2,..., d n]是编码对象-W2将其嵌入到R200中,然后将隐藏的输出传递给softmax分类器以实现对象标签分布c i。→←关系预测是成对的。第一、水平视觉上下文。每个di=[hi;hi]是级联的来自两个TreeLSTM方向的隐藏状态:我们为每个对象对收集三个成对特征:(1)dij=MLP([dr;dr])作为上下文特征,I j→ →MLP([bi;bj;bij;bij])作为边界框对特征,hi=TreeLSTM(zi,hp),(3)其中i=j,i=j是并集盒和交集盒,(3)← ←←hi=TreeLSTM(zi,[hl;hr]),⑷在哪里→和←分别表示自上而下和自下而上的方向;我们稍微滥用下标p、l、r来表示节点i的父节点、左子节点和右子节点。的vij作为联合边界的RoIAlign特征[18]对象对的框 所有d ij、v ij、b ij都在相同的维度R2048 下。然后,我们将它们融合成最终的成对功能:g ij= d ij·v ij·b ij,然后将其馈送到softmax中谓词分类器,其中·是元素乘积。←←在Eq中的级联[hl;hr]的顺序。(4)表示上下文编码中左分支和右分支之间的显式区分我们用零向量来填充所有缺失的分支。3.4. 可视化提问模型现在我们详细介绍Eq的实现。(2)对于VQA,并在图5中说明我们的VQA模型。树n1n2池n3n4n 5n6树n1n 2n 3n5池n4n5 n6关系上下文对象上下文关系解码关系上下文Union Box RoI功能边界框特征对象预测关系预测对象解码6623我1 2ni图5.我们的VQA框架概述。它包含两个多模态注意模型的视觉特征和上下文特征。来自两个模型的输出将被连接并在答案预测之前传递到问题引导门。上下文编码。VQA中的上下文功能:Dq=[d q,dq,.,d q],d q∈R1024通过等式(1)从边界框视觉特征xi直接编码。(二)、多模式注意力功能。我们采用以前工作中流行的注意力模型[1,45]来计算3.5. 混合学习由于VCTREE构造的离散性质,分数矩阵S不能完全与从最终任务损失反向传播的损失微分。受[20]的启发,我们使用一种混合学习策略,结合了强化学习,即, 策略梯度[48]用于树构造中S的参数θ和其余参数的监督学习。 假设一个布局l,即,构建VC-从π(l)中取样,|I,q;θ),即, 建设3.1节中的过程,其中I是给定的图像,q是任务,例如,在VQA提问。为了避免混乱,我们去掉了I和q。然后,我们将强化学习损失Lr(θ)定义为:Lr(θ)=−El<$π(l|θ)[r(l)],(7)其中Lr(θ)旨在最小化负预期回报r(l),其可以是最终任务评估指标,例如SGG的Recall@100和VQA的准确度。 然后, 的 上述 梯度 将 被θLr(θ)=−El<$π(l|θ)[r(l)<$θlogπ(l|θ)]。因为不太现实,匹配所有可能的布局,我们使用蒙特卡罗抽样为了估计梯度:对于每个问题,多模态联合特征m∈R1024图像对:1θLr(θ)ΣM .r(lm)<$θlogπ(lm|θ)Σ、 (8)m=fd(z,q),(5)其中q∈R1024是来自单层的问题特征,Mm=1在我们的实现中,我们将M设置为1。GR U对句子进行编码;z=Ni=1 aizi是atten-为了减少梯度方差,我们应用了自我批评基线[41]b=r(nl),其中nl是构造的贪婪从输入特征集{zi}计算的图像特征集,树不取样 所以最初的奖励r(l)可以αi=exp(ui)/kexp(uk)是注意力w。八分对象-任务相关性ui=h(z i,q)= MLP fd(z i,q),其中MLP的输出是标量;fd可以是任何多模态特征融合函数,特别地,我们采用fd ( x , y ) =ReLU ( W3x+W4y ) −(W3x−W4y)2,如[59]中所述,其中W3和W4将x,y投影到相同的di中。尺寸因此,我们可以使用Eq。(5)通过将输入z i设置为x i来获得多模态视觉注意力特征m x,并且通过将z i设置为d q来获得多模态上下文注意力特征m d。问题引导门解码。然而,mx和md的重要性因问题而异,例如,“is 仅需要视觉特征用于检测,而“男人穿的正式吗?“是高度依赖于上下文的。受[42]的启发,我们采用问题引导门从[mx;md]中选择最相关的通道。 的门向量g∈R2048定义为:在等式中用r(lm)−b代替。(八)、 我们观察到更快的转换-使用传统的移动基线[33]。整个混合学习将在监督学习和强化学习之间交替进行,我们首先在预先训练的π(l|θ),然后固定最终任务作为奖励函数来学习我们的强化策略网络,之后,我们用新的π(l|θ)。后两个阶段在我们的模型中交替运行2次。4. 场景图生成4.1. 设置数据集。Visual Genome(VG)[24]是SGG的一个流行基准。它包含108,077个图像,具有数万个唯一的对象和谓词关系类别,但大多数.类别的集合具有非常有限的实例。 因此,预-g=σMLP([q;W5lq]),(6)其中l q∈ R65是由问题的前缀词定义的独热问题类型向量,其通过矩阵W5嵌入到R256中,并且σ(·)表示S形函数。最后,我们融合g·[mx;md]作为最终的VQA特征并将其输入softmax分类器。vieve作品[26,50,58]提出了各种VG分裂,删除稀有类别。我们采用了[50]中最流行的方法,该方法按频率选择了前150个宾语类别和前50个谓语类别。将整个数据集按70%、30%的比例分成训练集和测试集.我们进一步从训练集中挑选了5,000张图像作为超参数调整的验证集。视觉注意模型∑视觉特征关注问题BiTreeLSTM上下文注意力模型∑上下文特征关注问题候选答案预测问题引导门6624场景图生成场景图分类谓词分类模型R@20R@50R@100R@20R@50R@100R@20R@50R@100VRD [31]-0.30.5-11.814.1-27.935.0AsscEmbed [34]6.58.18.218.221.822.647.954.155.4[50]第五十话14.620.724.531.734.635.452.759.361.3TFR [21]3.44.86.019.624.326.640.151.958.3频率范围[57]20.126.230.129.332.332.953.660.662.2[57]第五十七话21.427.230.332.935.836.558.565.267.1图-RCNN [51]-11.413.7-29.631.6-54.259.1链21.227.130.333.336.136.859.466.067.7重叠21.427.330.433.736.537.159.566.067.8多分支21.527.330.634.337.137.859.566.167.8VCTREE-SL21.727.731.135.037.938.659.866.267.9VCTREE-HL22.027.931.335.238.138.860.166.468.1表1.各种方法的SGG性能(%)。表示使用与我们相同的Faster-RCNN检测器的方法。从重新实施的版本[57]中报告了IMP失效SGGen SGCls PredCls模型mR@100mR@100mR@100[57]第五十七话6.68.215.3频率范围[57]7.18.516.0VCTREE-HL8.010.819.4表2.所有50个预测类别中各种方法的平均召回率(%)协议. 我们遵循三个传统的协议来评估我们的SGG模型:(1)场景图生成“街道”节点的左分支百分百分3%3%百分之四百分之四百分之五占7%百分之五百分之五百分之五百汽车人树人标志公共汽车人行道街杆车辆卡车建筑其他“街道”节点的右分支人行道路牌汽车灯杆树人建筑门人其他(SGGen):给定图像,检测对象边界框及其类别,并预测它们的关系;(2)场景图分类(SGCl):给定图像中的地面真实对象边界 框 , 预 测 对 象 类 别 及 其 关 系 ; ( 3 ) 谓 词 分 类(PredCls):给定图像中的对象类别及其边界框,预测它们的关系。指标. 由于VG中的注释是不完整和有偏见的,我们遵循传统的Recall@K(R@K = 20,50,100)作为评估指标[31,50,57]。然而,众所周知,在有偏数据集(如VG)上训练的SGG模型对于频率较低的类别性能较低。为此,我们引入了一个平衡度量,称为:平均召回率(mR@K)。它独立地计算每个谓词类别上的重调用,然后平均结果。所以,每个类别的贡献是相等的。图6.左分支(分层)节点的统计信息,“街道”类别的右分支(平行)节点关系),使用所有可能的对称对而不进行采样。在SGGen中,在具有0.3 IoU的非最大抑制(NMS)之后选择前64个对象提议。我们将谓词分类的背景/前景比率设置为3,并将训练样本的数量限制在64(如果可能,保留所有前景对)。我们的模型通过SGD与动量优化,使用学习率对于监督学习,l r= 6·10−3,批量大小b = 5;对于强化学习,lr=6·1 0−4, b=1。4.3.消融研究我们研究了不同结构建设政策的影响。 它们被报告在下半部分表1。最常用的方法有:(1)链:排序这样的度量降低了一些常见但无意义的谓词,例如, “on”, “of”, and gives所有的物体,j:j/=iSij,然后构建一个链,注意那些不常见的谓词,例如,“riding”, “car- rying”,which are more valuable to high-level4.2.实现细节我们采用具有VGG主干的Faster-RCNN [40]来检测对象边界框并提取RoI特征。由于SGG的性能高度依赖于底层检测器,因此我们使用与[57]相同的参数集进行公平比较。等式中的对象相关性f( xi, xi)(1)将在具有类不可知关系的地面实况边界框上进行预训练(即,前景/背景这与从左到右的有序链不同,MOTIFS [57];(2)重叠:通过选择重叠对象数最多的节点作为父节点,将其余节点按其边界盒的相对位置划分为左/右子树,迭代构造二元树;(3)多分支:从得分矩阵S生成的最大生成树,使用Child-Sum TreeL-STM [44]来并入上下文;(4)VCT REE-SL:通过监督学习训练的拟议VCT REE;(5)VC- T REE-HL:VCTREE的完整版本,通过混合学习训练,用于第3.5节中的结构探索。正如我们将展示的那样,多分支机构比百分百百分百分之百分之四百分之三2%2%2%2%3%66253VQA 2.0确认准确度模型是/否Number其他所有平衡对图81.844.956.664.536.3链81.844.556.964.636.3重叠81.844.857.064.736.4多分支82.144.356.964.736.6VCTREE-SL82.345.057.064.936.9VCTREE-HL82.645.157.165.137.2表3. VQA 2.0验证集上各种上下文结构的准确度(%)。VCTREE,因此没有必要在多分支上进行混合学习实验。我们观察到,VCTREE表现优于其他结构,并通过混合学习进一步改善结构探索。4.4.与现有技术的比较方法。我们将VCTREE与表1中的最新方法进行了比较:(1)VRD[31],FREQ[57]是不使用视觉上下文的方法。(2)AssocEm- bed[34]通过堆叠的沙漏主干[35]组装隐式上下文特征(3)IMP[50],TFR[21],MO-TIFS[57],Graph-RCNN[51]是具有各种结构的显式上下文模型。定量分析相从表1中可以看出,与先前最先进的MOTIFS[57]相比,所提出的VC-TREE具有最佳性能。有趣的是,重叠树和多分支树优于其他非树上下文模型。从表2中,所提出的VCTREE-HL示出了在mR@100下PredCls的较大绝对增益,这表明我们的模型学习了非平凡的视觉上下文,即,而不仅仅是FREQ和MOTIFS中的类分布偏差。请注意,在mR@100下,MOTIFS [57]甚至比其FREQ [57定性分析为了更好地理解VCTREE学习的上下文,我们在图6中可视化了归类为“街道”的节点的左/右分支节点的统计数据从左边的饼图,层次关系,我们可以看到节点类别是长尾的,即,前10名类别覆盖了73%的实例;而右边的饼,平行关系,分布得更均匀。这表明VCTREE成功地捕获了两种类型的上下文。VCTREE及其生成的场景图的更多定性示例可参见图7。常见错误通常是同义标签,“牛仔裤”与“裤子”,“男人”与““人”和过度解释,例如,左下角“狗”的5. 可视化问答实验5.1. 设置数据集。我们在VQA 2.0上评估了所提出的VQA模型[17]。与VQA 1.0 [2]相比, VQA2.0具有 更 问题图像 对 为 培训(443,757)VQA 2.0测试开发模型是/否Number其他所有泰尼[45]81.8244.2156.0565.32MUTAN [5]82.8844.5456.5066.01美国职业棒球大联盟[22]83.5844.9256.3466.27DA-NTN [3]84.2947.1457.9267.56伯爵[59]83.1451.6258.9768.09链82.7447.3158.9367.42图83.5347.0958.667.56VCTREE-HL84.2847.7859.1168.19表4.VQA 2.0 测试开发上的单模型准确度(% ),其中MUTAN和MLB是[3]中重新实现的版本VQA 2.0测试标准模型是/否Number其他所有泰尼[45]82.2043.9056.2665.67MUTAN [5]83.0644.2856.9166.38美国职业棒球大联盟[22]83.9644.7756.5266.62DA-NTN [3]84.6047.1358.2067.94伯爵[59]83.5651.3959.1168.41链83.0647.3858.9567.68图84.0347.0858.8268.0VCTREE-HL84.5547.3659.3468.49表5.基于VQA 2.0测试标准的单模型准确度(%),其中MUTAN和MLB是[3]的重新实现版本和验证(214,354),并且通过确保相同的问题可以具有不同的答案来平衡所有的问题-答案对。 在VQA 2.0中,候选答案的真实准确度被认为是所有10个选择的9个集合上的min( #Humansvotes,1)的平均答案对分为三种答案类型:I.E.“是/否”、“数量”、“其他”。 还有65种问题类型由前缀词确定,我们用来生成问题引导门。我们还在验证集的平衡子集上测试了我们的模型,称为平衡对[45],这需要在不同的图像上使用两个不同但完美的答案(1.0的地面真实分数)。由于平衡对严格消除了与问题相关的偏差,因此它反映了上下文模型区分图像之间细微差异的能力。5.2. 实现细节我们对问题和答案进行了简单的文本预处理,将所有字符转换为小写并删除特殊字符。问题被编码成一个词汇表的大小为13,758没有修剪。调查者使用了3,000个按频率选择的词汇.为了公平比较,我们使用了与之前方法相同的自下而上特征[1][1,3,45,59],其中包含Faster-RCNN [40]提取的每个图像10到100个对象建议。我们使用相同的Faster-RCNN检测器来预训练f(xi,x j). 由 于 VQA 2.0中候选答案用概率表示而不是用独热向量表示,因此我们允许交叉熵损失计算软类别,即,真实候选答案的概率。我们使用Adam优化器,学习率lr=0。0015和批量大小b=256,LR以每20个epoch 0.5的比率衰减。6626签署附近near近near近马靠近人的具有的具有对穿着尾根部裤子(Jean)问:这个人的照片是在哪里拍的?问:这个人头上戴的是什么?A:外面A:帽子GT:森林表对对里对下叉玻璃杯板附近近快死的食品问:树上有雪吗问:这个人在做什么运动A:没有A:滑雪板具有负责人耳_1具有耳朵2有狗的鼻子上有腿具有椅子PawHas的腿(尾)有Q:盘子里有什么食物问:这个孩子看起来很兴奋吗A:热狗A:是的图7.左图:学习的树结构和VG中生成的场景图黑色表示正确检测到的对象或谓词;红色表示错误分类的对象或谓词;蓝色表示未标记为地面事实的正确预测右:可解释的和动态的树在VQA 2.0中有不同的问题。5.3. 消融研究除了在4.3节中介绍的5种结构构建策略之外,我们还使用消息传递机制实现了一个全连接图结构[50]。从表3中,所提出的VCTREE-HL在三种答案类型上优于所有上下文模型。我们在VQA 2.0平衡对子集[45]上进一步评估了上述上下文模型:表3的最后一列,发现VCTREE- HL和其他结构之间的绝对增益甚至大于原始验证集上的绝对增益。同时,如[45]中所报告的,非上下文VQA模型中的不同架构或超参数通常在平衡对子集上获得的改进小于整体验证集。因此,这表明,VCTREE确实使用更好的上下文结构来减轻VQA中的问答偏差。5.4. 与现有技术的比较方法。表4和5报告了各种最先进方法[3,5,22,45,59]在测试开发和测试标准集上的单模型性能。为了公平起见,报告的方法都使用了与我们相同的Faster-RCNN功能[1]。定量分析相建议的VCTREE-HL在测试开发和测试标准中显示出最佳的整体性能。注意,虽然计数[59]有接近整体每-相对于我们的VCTREE,它主要是通过精心设计的模型来改进定性分析我们在验证集上可视化了几个VCT REE-HL的例子。它们说明了所提出的VCTREE能够学习具有可解释性的动态结构,例如,在图7中,给出了带有问题“树上有雪吗?“,所生成的VCTREE定位“树”,然后搜索“雪”,同时询问“人在做什么运动?“,the “man” appearsto be the6. 结论在本文中,我们提出了一种称为VCT REE的动态树结构来捕获特定于任务的视觉上下文,可以对其进行编码以支持两个高级视觉任务:SGG和VQA。通过利用VCTREE,我们观察到一致的性能增益SGG在视觉基因组和VQA 2.0上的VQA,与模型有或没有视觉上下文。此外,为了证明VCTREE学习非平凡上下文,我们分别针对SGG中的类别偏见和VQA中的问答偏见进行了额外的实验。在未来,我们打算研究动态森林作为底层上下文结构的潜力。6627引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。三五七八[2] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在ICCV,2015年。7[3] 白亚龙,付建龙,赵铁军,梅涛。用于视觉问答的深度注意神经张量网络在ECCV,2018。三、七、八[4] 摩 西酒 吧 上 下文 中 的可 视 对 象Nature Reviews Neu-roscience,2004. 1[5] HediBen-Y ounes,R e'mi Cadene,Matthieu Cord,和Nico-las Thome. Mutan:用于视觉问答的多模态折叠融合。InICCV,2017. 七、八[6] 欧文·比德曼,罗伯特·梅扎诺特,扬·拉比诺维茨. 场景感知:在关系冲突中检测和判断物体认知心理学,1982年。1[7] Long Chen , Hanwang Zhang , Jun Xiao , XiangnanHe,Shil- iang Pu,and Shih-Fu Chang.场景动态:用于场景图生成的Counterfac- tual Critic多智能体训练。arXiv预印本arXiv:1812.02347,2018。2[8] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,KevinMurphy,andAlanLYuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义图像分割TPAMI,2018年。一、二[9] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 2[10] Xinlei Chen,Li-Jia Li,Li Fei-Fei,and Abhinav Gupta.超越卷积的迭代视觉推理在CVPR,2018年。2[11] 赵永奎,巴特尔·V·安·梅里·恩博,德米特里·巴赫达瑙,尤·本吉奥。关于神经机器翻译的特性:编码器-解码器方法。在SSST-8,2014。2[12] Jihun Choi,Kang Min Yoo,and Sang-goo Lee.学习构建特定任务的树结构。在AAAI,2018。2[13] Myung Jin Choi,Antonio Torralba,and Alan S Willsky.一种用于对象识别的基于树的上下文模型。TPAMI,2012年。2[14] Thomas H.放大图片创作者:John L. Rivest和Charles E.雷瑟森算法导论。麦格劳希尔高等教育,2001年。一、二[15] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。在CVPR,2017年。2[16] Santosh K Divvala 、 Derek Hoiem 、 James H Hays 、Alexei A Efros和Martial Hebert。物体检测中语境的实证研究CVPR,2009。1[17] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使vqa中的v重要:提升图像理解在视觉问答中的作用。在CVPR,2017年。二、七[18] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔·拉尔和罗斯·吉尔希克.面具R-CNN。InICCV,2017. 一、三、四[19] SeppHochreit
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功