没有合适的资源?快使用搜索试试~ 我知道了~
10403VrR-VG:重新聚焦视觉相关关系*梁元智1,2,白亚龙2,张伟2,钱学明1,李柱1,陶梅2西安2JD AI Research,北京,中国liangyzh13@stu.xjtu.edu.cnylbai@outlook.comwzhang.cu @ gmail.com{qianxm,zhuli}@mail.xjtu.edu.cnwwwtmei@live.com摘要关系编码了个体实例之间的相互作用,在视觉场景的深层理解中起着至关重要的作用。由于非视觉信息的高可预测性,现有方法倾向于拟合统计偏差,而不是为了进一步发展中国家,光对火车对人走向平台人脸火车的关系,我们提出了一种新的方法来自动化,通过修剪视觉上不相关的关系来挖掘更有价值的关系我们构造了一个新的场景图数据集签署轨道签署坚持住平台离开人基于Visual Genome的可视化相关关系数据集(VrR-VG)与现有数据集相比,VrR-VG中可学习方法和统计方法之间的性能差距更大,基于频率的分析不再起作用。此外,我们建议学习的关系感知表示,共同考虑,考虑的实例,属性和关系。通过应用在VrR-VG上学习的表征感知特征,图像字幕和视觉问题回答的性能VrR-VG可通过www.example.com获得http://vrr-vg.com/。1. 介绍虽然视觉感知任务(例如,分类,检测)在过去十年中已经取得了巨大的进步,视觉认知任务(例如,图像字幕、问题回答)由于难以解释而仍然受到限制[16]。现有的视觉任务大多是基于对单个物体的分析。然而,自然图像通常由场景中的多个实例组成,并且其中大多数以某种方式相关为了充分理解视觉信息-*这项工作在JD AI Research进行图1. VG 150(左)和VrR-VG(右,我们的)中的示例场景图。在VrR-VG中包括更多视觉相关的关系。在这个时代,需要一个整体的观点来理解对象实例之间的关系和交互。视觉关系[19,6,33,38,40]对个体实例之间的相互作用进行编码,成为视觉认知任务的不可忽视的因素,如图像字幕[36],视觉问答(VQA)[21]。在现有文献中,视觉关系大多表示为场景图(图1):节点表示特定的实体(作为主体或对象),边编码主体(s)和对象(o)之间的关系标签(r)。同样地,场景图也可以表示为一组三元组s,r,o。最近,对场景图生成进行了广泛的研究工作[33,38,20,35],其目的是从图像中提取场景图(图11)。①的人。从本质上讲,场景图生成弥合了视觉感知和高级认知之间的在视觉关系中采用的数据集[26,16,19,34,24]中,Visual Genome(VG)[16]提供了最大的关系注释集,提供了大规模(230万个关系)和密集(每个图像21个关系)的关系注释。然而,关系104040% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%图2.VG 150(顶部)和VrR-VG(底部)中的关系标签分布我们的VrR-VG比VG 150更加多样化和平衡在VG中,由于它是从图像字幕中自动提取的,因此具有严重的噪声、偏见和重复VG 1501 [33]是从VG派生的最流行的分裂,它是通过在VG中只保留最频繁的150个对象类别和在现有文献中,VG 150是场景图生成中最广泛采用的基准[38,33,35,4,20,12],但很少用于字幕和VQA等认知任务。根据我们的研究,100806040200100806040200具有抱着近看当前视觉关系数据集:视觉关系是实际上并不是那么“也就是说,大部分关系在视觉上是不相关的。1)一些空间关系(例如,“on”、“of”、“in”)在视觉上信息较少。如图2、空间关系在VG150中占有相当大的比重。例如,然而,可以仅基于s和o的边界框位置来容易地推断一些空间关系,而甚至不访问视觉内容。2)大部分低多样性关系标签引起频率分析。一些关系(例如,“wear”, “ride”, “has”) can beroughly estimated only 如 图 3 , 给 定 “s=man“ 和“o=nose“,95.8%的r是“has“。[38]中的结果还表明,简单的频率计数在场景图生成的许多度量中取得了不错的结果,这表明VG150中的许多关系标签可以通过非视觉因素来预测。由于这些问题,认知任务(例如,图像字幕、VQA)几乎不能从当前数据集学习的关系中受益。据我们所知,到目前为止,没有认知任务从当前的视觉关系数据集中受益,除了一些[36,21]没有从视觉关系数据集中学习。这些现象表明,目前关于视觉关系的数据集非常有限。在本文中,我们提出了一种新的方法来自动识别视觉相关的关系,并构建一个新的数据分裂命名为视觉相关的关系(VrR-VG)的基础上,原来的VG。具体来说,一个微小的视觉神经网络(VD-Net)被精心设计,以学习视觉相关的概念。为了充分利用VrR-VG在认知任务上的能力,我们还提出了1我们称之为“穿着穿着具有的与控股对账面图3.当“s = man,o =nose”和“s = man,o = jacket”时关系标签的分布在VG150中观察到关系标签的低多样性。一种用于关系感知表示学习的联合学习方法。我们表明,VD-Net是有效的prun- ING从大型语料库的视觉无关的关系。与VG 150相比,VrR-VG更注重视觉相关的关系(图1)。1和4),并在标签分布更平衡(图。2)的情况。我们的实验表明,基于非视觉的方法不再很好地工作在VrR-VG。更重要的是,在VrR-VG上学习的关系感知特征在VQA和图像字幕等认知任务中显示出更有希望的结果。这也表明我们的数据集中包含了更有价值的视觉关系。新的数据集(VrR-VG)和我们预先训练的关系特征将发布给社区,以促进场景图理解和高级认知任务的进一步研究本文的主要贡献概括如下:1. 构建新的数据集VrR-VG以突出视觉相关的关系。为此,我们还提出了一种新的视觉学习器来学习视觉相关的概念。2.我们提出了一个关系感知的特征学习模式,将对象实例和它们的关系,船舶到一个特征向量。物体位置/类别/属性以及它们的关系被联合考虑,使得语义和它们的关系被联合建模。3.视觉认知任务(VQA和图像字幕)的更好结果进一步验证了我们的VrR-VG数据集以及关系感知特征学习模式的有效性。3=mpµ,o=jpck@$VrR-VG公司简介顶部对坐在下坚持住具有的另一侧内部附着穿着走向百分比(%)躺在百分比(%)旁边玩飞行的在附近在背后支持上述坐在磨损3=mpµ,o=µo3@10405穿着挂在一个对含有结束时在覆盖的具有穿的是用在...后面归属玩弄在边缘安 全检 查 catch ingtied-aroundddriving-down之间下方旁边火 车光布朗之 前销 售缝合 好接近接壤登机 中 心抚 摸迎 面laoyni-bnacgk--ofin反 射匹配之 间标 记坐着吃东西on-a印刷的俯瞰装饰站近磨合被包围的卡在里面的等 待下来wrappe d-aroundaga instantflyinswimgminingg--ininistking-out-of成长携带摆动归属于安装在画覆盖在工作侧中间组成部分上述躺在飞进吃可 见光 开启和顶部R-a追指 向停在线除平 衡t支持顶式步行停车的沿着到玩交叉使用和悬挂站立的注视倚靠依靠的滑下表 面 上抢舔 撞击环境固定见入分 开 的分 离超出穿着盛装的集疏喋喋不休附于walking-inwith看冲浪跨写上的与触摸堆叠内置食 源 性骑在另一边涂敷的安装在走向底部反射的图4.VG 150 [33,38](左)和VrR-VG(右,我们的)的标签云可视化VrR-VG涵盖了更多视觉相关的关系。2. 相关工作视觉关系数据集:我们在表1中总结了视觉关系中的一些数据集。视觉短语数据集[26]专注于关系短语识别和检测,其中包含来自Pascal VOC2008 [8]的8个对象类别和具有9种不同关系的17个关系短语。SceneGraph数据集[14]主要探索通过场景图进行图像检索的能力。VRD数据集[19]旨在对场景图生成进行基准测试。Open Images [34]为对象检测提供了最大数量的图像,也为关系检测提出了一项具有挑战性的任务。PIC[1]提出了一种视觉关系背景下的分割任务。Visual Genome(VG)[16]在所有列出的数据集中具有最多的对象类别和关系标签的最大数量的关系三元组。然而,VG中的关系包含大量的噪声和重复。因此,VG150 [33]通过按标签频率预处理VG来构造。然而,正如我们之前提到的,大多数高频关系在本文中,我们排除了VG中的视觉无关关系,并构造了新的视觉相关关系数据集(VrR-VG)。VrR-VG不受视觉无关关系的影响,并且在没有视觉信息的情况下容易预测,VrR-VG专注于视觉相关关系,并为图像表示提供更多的认知能力。表征学习:已经提出了许多深度学习方法用于具有各种知识的表示学习[31,22,5,30]。在图像表示中,这些方法在图像理解中提供两个方面:一个是对象类别级,另一个是实例级。[28],ResNet [11],Inception [27],ResNext [32]等。在Imagenet [7]上训练专注于对象类别分类。由于监督是对象范畴,因此该方法倾向于给出图像的整体表示此外,由于图像中普遍存在多个实例,因此聚焦于显著实例不足以表示场景。探测任务为探索多个情况提供了有效的工具。金等人[13]应用选择性搜索[29]来给出显著区域建议。类似的想法也出现在RCNN [9]中,其中网络首先生成许多区域建议,并为每个实例计算出检测结果。更快-RCNN [25]进一步改进了区域建议的想法,并为有限区域建议提供了更快,更优雅的方法。根据区域提案,Peter et al.[2]提出了一种自底向上和自顶向下的注意力方法来表示图像。它们利用实例的位置、类别和属性来学习表示,并在一些认知任务中得到改进在我们的工作中,我们深入到多个实例表示,通过添加实例间的关系。所有的实例位置、类别、属性以及关系都被联合地用于表示学习。3. 视觉相关关系数据集为了识别视觉无关关系,首先提出了一个假设:如果不同三元组中的关系标签根据除视觉信息之外的任何信息都是可预测的,则该关系是视觉无关的。为了区分视觉相关的关系,我们引入了一种新的视觉神经网络(VD-Net)。VD-Net是一个根据实体的类和边界框来预测关系标签的微型网络,无需图像。VD-Net不具有高度预测性的关系标签将被视为视觉相关关系。在通过层次聚类减少重复关系并过滤掉视觉无关关系之后,我们从视觉相关关系数据集(VG)中构造了一个新的数据集--视觉相关关系数据集(VrR-VG)。3.1. 视觉鉴别器:VD Net在我们的工作中,一个简单的视觉神经网络(VD-Net)提出了选择视觉无关的关系。为了防止过拟合,网络结构设计遵循“越小越好”的原则。我们的VD-Net旨在识别图像中没有视觉信息的关系。图像中的实例的每个边界框可以由指定其顶部的四元组p={x,y,h,w}来浮于对咬下过在角落夹 持跳 上被 放 置 的静坐从为部分表示背后在…前面在离开进入出 场显示开启的10406D数据集对象bbox关系三重图像[26]第二十六话83,27191,7962,769[14]第十四话26669,00968109,5355,000VRD [19]100-70379935,000开放图片[34]573,290,07010374,768-[16]第十六话33,8773,843,63640,4802,347,187108,077VG150 [33]150738,94550413,26987,670VrR-VG(我们的)1,600282,460117203,37558,983表1.可视化关系数据集比较。我们比较了对象类别(object)、单实例注释(bbox)、不同数据集中的关系类别(关系)、唯一关系三元组(三元组)和图像(图像关系标签不相关的关系,如“穿”,“上”,“以上”等。在VG150中,超过37%的关系标签可以通过使用这样一个粗糙的神经网络来预测,而不需要任何视觉信息,准确率至少为50%。3.2. 数据集构建我们预处理VG并提取前1600个对象和500个关系以生成基本数据分割。原始关系图5.视觉鉴别器(VD-Net)的结构。带着-通过实例类别和位置的形成左角(x,y),高度h和宽度w。客体和主体的位置嵌入可以分别表示为四元组 po和 ps,其中po={xo, yo,ho,wo},ps={xs,ys,hs,ws}.相关实体中的给定对象和主体的边界框被嵌入到联合向量中,如下式所示:VG中的标签包含许多重复,例如“wears”和“is wearinga”,“next”和“next to”。这些标签可能会混淆网络,因为所有这些标签对于相同的对象和主题组合都是正确的。我们用GloVe词向量表示标签,并通过对关系的词向量应用层次聚类[15]来这个简单的操作将标签类别从500减少到180。我们将聚类后的数据集命名为R-VG。然后,为了排除视觉上不相关的关系,VD-Net被用来训练和评估R-VG中的180个关系标签。最后,我们得到117个关系标签作为VrR-VG关系。这意味着我们的cs−cocs −cop= [o,o,w,w,h,h,所构造的VrR-VG是R-VG的子集,但是被过滤掉JxyO S O S WSHS与视觉无关的关系。(cs−cows)2,(cs−coHS)2、log(wowsho),log()] HS(一)4. 知识感知表示学习-其中,ox,oy是通过主体和对象的坐标之间的差异计算的框的偏移,[wo,ho]和[ws,hs]是边界框的宽度和高度,并且[cx,cy]和[cx,cy]是框的中心坐标ing如图6、对图像中的整个视觉信息进行建模,孤立实例的属性,如类别,OosSVD-Net的详细信息如图所示5其中vs和vo是主语和宾语范畴的词向量手套[23]用于初始化字嵌入。W是可学习的权重。在完全连接层之后,实例类别对应地,P_o、P_s和P_j。最后,另外两个全连接层和批量归一化层被应用于分类关系标签。我们丢弃具有比阈值α更大的准确度的关系,并且选择那些保留的关系用于生成数据集。在本文中,由于数据集规模和视觉相关质量之间的权衡,我们将αVD-Net只包含三个完全连接的层,但它已经足以预测大部分的视觉-位置、属性以及相关实例之间的相互作用,都很有用在我们的框架中,所有属性都用于训练特征。我们提取单实例建议,然后用图像中的所有属性训练模型。详细地说,对于单个实例的检测器设置,Faster-RCNN [25]与ResNet 101 [11]在我们的框架中用作实例检测器。我们应用非最大抑制(NMS)操作的区域建议,然后选择k个候选人的建议,根据IOU阈值。然后,通过均值池化层,提案为了学习单个实例的属性,结合原有的检测操作,我们设置了一个分类器来学习实例属性。学习整体孤立属性3421…10407百分比(%)locCLS属性210080没有一60发挥舔40附着20010 2030405060 708090 100图6.概述我们提出的关系感知表示学习方法。 红色框中的特征向量是图像中实例的学习视觉表示。所有的单实例属性和实例之间的关系都被利用并嵌入到特征中,这为特征提供了更多的认知能力。如下:LOCi=WT f(I)+bloc,准确度(%)图7. VD- Net在不同数据集上的准确率比例。纵轴表示累计比例。与以前的关系数据集不同,在没有图像输入的情况下,我们的VrR-VG中的大多数关系标签是不可预测的。5.1. 数据集比较5.1.1关系分析我们比较了关系的准确性分布,CLSi =WTf(I)+bcls,由在不同场景图数据集上训练的VD-Nets口述图7.第一次会议。我们可以发现,75%,20%,42%和37%的ATTi=WT不属性1[CLSi,f(I)]+battr1)+battr2(二)Visual Phrase数据集、Scene Graph数据集、VRD数据集和VG 150中的关系的准确率超过50其中Wloc、Wcls、Wattr1,2、bloc、bcls和battr1,2是可学习的参数,[1]是级联操作。CLSi和ATTi是边界框、类和属性预处理。第i个实例的词典我们学习由以下等式表示的关系分别用VD-Net进行谓词预测,它只依赖于实例的位置和类别。显然,VrR-VG比其他人更具视觉相关性。这也意味着VrR-VG在没有来自图像的视觉信息的情况下预测关系谓词比其他方法困难得多。Ni=WR1f(I)+bR1,Ri,j=WR2(Ni+Nj)+bR2(三)如 图 2 , 前 12 个 关 系 标 签 占 VG150 数 据 集 的91.55%。同时,这些标签中的大多数是空间关系,仅通过其中WR和bR是映射的可学习参数实例到关系域,Ni为映射后的节点,Ri,j是建议实例i和j之间的关系预测。在形式上,在训练过程中,单个实体的位置、类别、属性首先从检测器中提取单个实例的建议特征。然后,将特征映射到关系空间。我们融合映射的功能,得到建议之间的关系预测。由于我们的工作中有k个建议,所有k×(k−1)个组合都参与特征训练。因此,该特征包含了孤立实例的所有信息以及实例之间的交互。我们利用VQA和图像字幕任务的最终功能,并评估性能增益。5. 实验在本节中,我们从两个方面讨论我们的数据分裂的属性一个是数据集的比较,另一个是数据集的质量评估,通过应用从不同的数据集学习的视觉表示的认知任务,如VQA和图像字幕。实 例 的 位 置 。 相 比 之 下 , 我 们 的 前 12 个 标 签 占67.62%,在认知领域更显着。像“挂在”,“玩”等关系。如果没有对相应场景的充分了解,是很难估计的。VrR-VG由117个关系组成,比VG 150中的前50个关系更加多样化更多来自我们的VrR-VG的场景图示例在图中给出。85.1.2场景图形生成由于场景图生成任务直接指向关系的可表示性,因此我们还通过使用不同的广泛使用的场景图生成方法(包括MSDN [17],Vtranss [39],Message Passing [33]和Neural-Motifs [38])来评估和比较VrR-VG与其他数据集的任务性能。我们在场景图生成中使用R@50和R@1002评估以下指标[19,38]• 场景图检测(SGDet):如在-2R@N:在前N个预测中预测正确关系的次数的分数(框阶级属性属性类盒场景图VRDVG150VrR-VG…关系分类器(W10408方法数据集方法特定VG拆分VrR-VG度量SGDetSGClsPredCls度量SGDetSGClsPredClsMSDN [17]R@50R@10011.714.020.924.042.348.2R@50R@1003.594.36----Vtrans [39]R@50R@1005.526.04--61.261.4R@50R@1000.831.08--44.6944.84方法公司简介VrR-VG度量SGDetSGClsPredCls度量SGDetSGClsPredCls神经基序[38]R@50R@10027.230.335.836.565.267.1R@50R@10014.817.416.519.246.752.5[33]第三十三话R@50R@10020.724.534.635.459.361.3R@50R@1008.469.7812.113.729.734.3表2.不同场景图生成方法在不同数据集上的性能。MSDN和Vtranss方法在其他数据分割中进行评估,这些数据分割也是按频率从VG中分割的。而Neural-Motifs和Message Passing方法使用相同的VG 150数据分割。此外,在MSDN中评估SGCl和PredCl以及在Vtranss中评估SGCl的详细信息尚未发布,因此在我们的实验中没有报告一些数字。人坐在椅子灯反思风扇窗下罩猫位于...之上K球员跳上领域男孩玩飞盘女墙依靠表3. PredDet中不同数据集的评估结果。表示不同数据集之间的性能差距。结果表明,在我们的数据集的关系表示问题是可解决的,学习方法显然比统计方法做得更好。同时,我们的数据集板凳旁边斜坡手抓握滑板表3中的初步结果,性能的差距是-图8.VG 150(左)和VrR-VG中的场景图示例(右)。VrR-VG中包含更多样化和视觉相关的关系预测实例位置、类别和关系。• 场景图分类(SGCl):给定图像和实例位置,预测实例类别和关系。• 同品种器械分类(PredCls):给定的图像、实例位置和类别预测关系。• 谓词检测(PredDet):给定图像、实例位置、类别和关系连接,预测关系标签。如表2所示,当使用我们的数据集时,性能明显使用我们的方法选择的关系,场景图生成任务变得更加困难和具有挑战性。值得注意的是,作为排除检测器性能的影响的度量作为实验-统计方法和可学习方法之间的差距明显更大。频率-基线的R@50和R@100值仅为69.8和78.1,与VG 150的结果相差甚远这意味着基于频率的方法在VrR-VG中不再起作用实验反映了先前提出的方法在VrR-VG中真正5.2. 认知任务的关系感知表示为了在认知水平上评估关系质量,我们在实验中选择了VQA和图像字幕,并将从我们构建的数据集中学习到的视觉特征应用于这些认知任务。 我们还将我们的关系感知表示学习方法与之前的实例级表示学习方法Bottom-Up [2]进行了比较。我们将Bottom-Up中使用的数据集命名为BottomUp-VG,它也是从VG数据集收集的。BottomUp-VG和VrR-VG的详细统计在表4中示出。通过自底向上学习特征的实验结果和我们的关系感知代表,车RAC坐在…的另一边座镜窗口具有窗帘门窗树对在附近建筑在座椅房子背后车对猫具有 与 在在座椅 窗口树背后围栏男性衬衫number男童帽磨损帽子贴身衬衫附近短方法度量公司简介VrR-VG∆消息传递R@50R@10093.597.284.991.68.65.6频率-基线R@50R@10094.696.969.878.124.818.8神经元基序R@50R@10096.098.487.693.48.45.010409数据集对象类别对象注释属性类别属性注释图像BottomUp-VG [2]16003,404,9994001,829,438107,120VrR-VG16002,106,3904001,109,65058,983表4.BottomUp-VG和VrR-VG的详细统计VQA方法特征学习方法使用关系数据集是/否麻木.别人所有MUTAN [3]自下而上[2]✘自下而上-VG81.9042.2554.4162.84✘VrR-VG对象80.4642.9354.8962.93我们✔公司简介79.0039.7849.8759.49✔R-VG82.3543.9154.8963.77✔VrR-VG83.0944.8355.7164.57MFH [37]自下而上✘自下而上-VG82.4745.0756.7764.89✘VrR-VG对象82.3745.1756.4064.68我们✔公司简介78.8638.3250.9859.80✔R-VG82.4343.7055.8164.22✔VrR-VG82.9545.9057.3465.46表5.在VQA-2.0的验证分割上,比较从开放式VQA的不同数据集训练的特征。从我们的VrR-VG中学习到的特征优于所有其他关系数据集。表5和表6分别显示了表示学习方法的“未使用关系”和“已使用关系”。公平地说,我们提出的关系感知表示学习方法遵循自底向上[2]中的基本设置。实验结果表明,视觉相关关系在高层次视觉理解中起着重要作用。此外,我们引入了一个变体数据集VrR-VGobj,它基于VrR-VG,但不包括消融研究的相关数据。我们也将我们提出的特征学习应用于VrR-VG对象,但是没有关系的权重,并且关系损失被设置为0。问:它们是朝着Q:狗狗们是什么还是远离物体争夺吗将实验结果移植到VQA的验证集上2.0数据集[10]。我们可以发现,使用我们的VrR-VG训练的特征在所有数据集中获得了最佳性能我们还比较了自下而上注意力[2]中使用的数据集,这被认为是VQA最强的特征表示学习方法。对于关系数据,我们的VrR-VG比自底向上注意力和VrR-VGobj中使用的数据集表现更好。结果表明,关系数据在VQA任务中是有用的,特别是在认知相关的问题中,如图所示。9.第九条。实验结果表明,本文提出的信息视觉表示方法可以从图像中提取出更多有用的特征。此外,我们还将我们提出的特征学习方法应用于VG150数据集。由于VG 150 con-答:VG150R-VG:离开:离开答:VG150R-VG:狗:狗保留了大多数视觉上不相关的关系VrR-VGobj:awayVrR-VG对象:板可以很容易地推断出数据偏差,正如我们提到的,VrR-VG:朝向VrR-VG:飞盘问:辣酱旁边的盘子里有什么绿色蔬菜?A : VG 150 : 青 豆 R-VG : 青 豆 VrR-VG 目标:青豆问:这些动物是互相梳理毛发吗?答:VG150:是的R-VG:是VrR-VG对象:是从VG150学习的特征通常缺乏再现的能力反感复杂的视觉语义。实验结果还表明,VrR-VG比R-VG具有更好的性能,这说明了VrR-VG芦笋VrR-VG:没有问:这个人在教什么?答:VG150:吃R-VG:烹饪问:她身后拉着什么?答:VG150:手提箱R-VG:行李过滤掉视觉上无关的关系是有益的学习高质量的表示,并进一步证明VD-Net的优点。VrR-VGobj:yes VrR-VGobj:bagVrR-VG:工艺品VrR-VG:没什么问:火车上的人在往火车上放什么?答:VG150:人R-VG:无VrR-VGobj:无问:有多少人骑大象?答:VG150:1R-VG 1VrR-VG对象:1图片说明:与实验过程在VQA任务中,我们首先生成图像特征分别基于VG 150、VrR-VGobj、R-VG和VrR-VG。然后我们对这些图像应用字幕模型[2]VrR-VG:行李VrR-VG:0图9. VQA的例子。使用VrR-VG训练的特征为实例的交互提供了更多信息。最好用彩色观看。VQA:我们应用了两种广泛使用的VQA方法MU-TAN[3]和MFH [37]来评估从不同数据集学习的图像特征表5关于具有相同设置的功能。如表6所示,我们报告了交叉熵损失的原始优化器和CIDER分数的CIDER优化器在VrR-VG和VG 150中的性能从我们的数据分割生成的功能比VG150更好。当使用这两种优化器时,字幕中的所有指标都具有更好的性能。此外,在比较10410公司简介:一个路灯杆上的交通信号灯。R-VG:电线杆上的交通灯。 VrR-VGobj:灯杆上的交通灯和路灯。VrR-VG如悬挂在有树的街道上的交通灯。公司简介一匹马站在雪地里,旁边是一匹马。三只羊站在草地上。 VrR-VGobj:一群站在田野里的羊。VrR-VG一匹马正在雪地上奔跑。公司简介金属杆上的两个绿色路牌。 R-VG:金属杆上的绿色路标。VrR-VGobj:金属杆上的两个绿色路标。 VrR-VG:树前杆子上的路标。公司简介一个滑雪板运动员正从一座多雪的小山上跳下来。R-VG:一个人骑着滑雪板从积雪覆盖的斜坡上滑下来。VrR-VGobj:一个人在滑雪板上在空中滑雪。VrR-VG:一个人骑着滑雪板在空中飞行。公司简介一列火车在铁轨上,旁边有一座建筑物。R-VG:一列火车在红绿灯附近的轨道上行驶。 VrR-VGobj:一列火车在轨道上靠近红绿灯。VrR-VG沿着车站附近的铁轨行驶的火车。公司简介一个穿西装打领带的男人。R-VG:一个戴眼镜、西装革履的男人。 一个穿西装打领带的男人。VrR-VG一个穿西装打领带的男人站在一棵 树前。图像字幕方法特征学习方法特征学习数据集使用关系BLEU-1BLEU-4流星鲁格尔-L苹果酒香料交叉熵损失自下而上[2]自下而上-VG✘76.936.026.956.2111.820.2VrR-VG对象✘76.235.426.855.7110.319.9我们公司简介✔74.232.725.353.9102.118.5R-VG✔76.335.427.056.0111.220.0VrR-VG✔76.936.027.256.3114.020.4苹果酒优化自下而上自下而上-VG✘79.636.027.656.7118.221.2VrR-VG对象✘78.835.827.356.4116.821.0我们公司简介✔76.732.725.854.3108.019.6R-VG✔79.135.827.556.5118.821.2VrR-VG✔79.436.527.756.9120.721.6表6.不同的单一模型与不同数据集训练的图像字幕特征的比较。我们评估了MSCOCO 2014标题数据集的性能[18]。无论是否添加关系,我们的完全VrR-VG都比VrR-VGobj和R-VG具有更好的性能。这表明视觉相关的关系对于图像加帽是有用的尽管数据集BottomUp-VG具有比VrR-VG多得多的对象注释、属性注释和图像,如表4所示,但由于视觉相关的关系信息,从VrR-VG学习的关系感知表示仍然可以实现与从BottomUp-VG学习的基于对象、属性的表示相当或更好的图10.标题的例子。用关系数据训练的特征在pred- icates中提供更复杂和多样化的表达此外,通过视觉相关的关系,更多关于实例之间的交互的信息也会显示在结果中。最好用彩色观看。在如图所示的字幕结果的示例中。10,从我们的VrR-VG数据集学 到 的 功 能 导致更多更丰富的谓词和更生动的描述。而不是一些简单的谓词,如“on”,“with”等,我们的特征提供了更多的语义信息,并帮助模型实现更复杂的表达,如“悬挂”,“覆盖”等。虽然这种表达可能不会导致字幕指标的高分,这些生动和具体的结果是有价值的认知任务。总的来说,更高质量的关系数据激发了从我们的数据集中学习到的特征,并在开放式VQA和图像字幕任务中获得了更好的性能。6. 结论通过从视觉相关关系数据集(VG)中过滤视觉不相关关系,构造了一个新的视觉相关关系数据集(VrR-VG)。与以往的数据集相比,VrR-VG包含了更多的认知关系,这是很难估计仅仅通过统计偏差或检测地面真理。我们还提出了一个信息视觉表示学习方法学习图像特征联合考虑实体标签,本地化,属性,和相互作用。VQA和图像字幕的显著改进表明:(1)VrR-VG具有比先前的关系数据集多得多的视觉相关关系,(2) (3)我们提出的信息化视觉表征学习方法可以有效地联合建模不同类型的视觉信息。鸣谢:本工 作 部分 得 到 国 家自 然 科 学基 金 资 助(No.61602463,61772407,61732008,61332018 , u1531141 ) 、 国 家 重 点 研 发 计 划 项 目2017YFF0107700、世界一流大学(重点学科)、中央高校特色发展指导基金(编号PY13A022)、模式识别国家实验室开放项目等。10411引用[1] picdataset.com.http://picdataset.com/challenge/index/ ,2018.[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第6077-6086页[3] Hedi Ben-younes ,Rémi Cadène,Matthieu Cord, andNico- las Thome. MUTAN:用于视觉问题回答的多模态塔克融合。CoRR,abs/1705.06676,2017。[4] Long Chen,Hanwang Zhang,Jun Xiao,Xiangnan He,Shil- iang Pu,and Shih-Fu Chang.场景动态:用于场景图 生 成 的 反 事 实 评 论 多 代 理 训 练 。 CoRR ,abs/1812.02347,2018。[5] Z.陈湖,澳-地Duan,S. Wang,Y.卢,T. Huang,黄氏拟谷盗D. O. Wu,和W.高.将知识作为网络上的服务:深度学习模型通信范例。IEEE Journal on Selected Areasin Communications,第1-1页[6] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。在2017年IEEE计算机视觉和模式识别会议,CVPR 2017,檀香山,HI,美国,2017年7月21日至26日,第3298-3308页[7] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。2009年CVPR09中[8] Mark Everingham,Luc J.放大图片作者:Christopher K.I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal VisualObject Classes(VOC)International Journalof ComputerVision,88(2):303[9] 罗 斯 湾 Girshick , Jeff Donahue , Trevor Darrell , andJitendra Malik.丰富的特征层次结构,用于精确的对象检测和语义分割。CoRR,abs/1311.2524,2013年。[10] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V变得重要:评价 图 像 理 解 在 视 觉 问 答 中 的 作 用 。 CoRR ,abs/1612.00837,2016。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27-30日,第770-778页[12] Roei Herzig、Moshiko Raboh、Gal Chechik、JonathanBe rant和Amir Globerson。用置换不变结构化预测将图像映射到场景图。在神经信息处理系统(NIPS)的进展,2018年。[13] Junqi Jin , Kun Fu , Runpeng Cui , Fei Sha , andChangshui Zhang. 对准哪里看和告诉什么:基于区域的注 意 力和 场 景 分解 的 图 像CoRR ,abs/1506.06272 ,2015。[14] 作者:Justin Johnson,Ranjay Krishna,Michael Stark,Li-Jia Li,David A.作者:Michael S.伯恩斯坦和李飞飞使用场景图进行图像检索。 在IEEE计算机视觉和模式识别会议,CVPR 2015,Boston,MA,USA,2015年6月7-12日,第36682015.[15] 史蒂芬·约翰逊。分层聚类方案。Psychometrika,32(3):241[16] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A.作者:Michael S.伯恩斯坦和李飞飞。可视化基因组:使用众包密集图像注释连接语言和视觉。CoRR,abs/1602.07332,2016。[17] 李益康,欧阳万里,周波磊
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功