没有合适的资源?快使用搜索试试~ 我知道了~
可分解网:一种基于子图的场景图生成李益康1、欧阳万里2、周波磊3、石建平4、张超5、王晓刚11香港中文大学,中国香港特别行政区2悉尼大学SenseTime计算机视觉研究小组3MIT CSAIL,美国4商汤科技有限公司,北京,中国5中国北京三星通信研究所{ykli,xgwang}@ ee.cuhk.edu.hk,wanli. sydney.edu.au,bzhou@csail.mit.edu,shijianping@sensetime.com,samsung.com抽象。生成场景图来描述图像中物体之间的相互作用近年来受到越来越多的关注。然而,大多数以前的方法使用复杂的结构,推理速度慢或依赖于外部数据,这限制了模型在现实生活中的使用场景为了提高场景图的生成效率,我们提出了一个基于子图的连接图,以简洁地表示场景图在推理。首先使用自底向上聚类方法通过用更少的子图和对象特征替换场景图的众多关系表示,显著减少了中间阶段此外,空间信息是由子图的功能,这是利用我们提出的空间加权消息传递(SMP)结构和空间敏感的关系推理(SRI)模块,以促进关系识别。在最近的视觉关系检测和视觉基因组数据集上,我们的方法在准确性和速度上都优于最先进的方法。代码已公开6。关键词:视觉关系检测·场景图生成·场景理解·对象交互·语言和视觉1介绍推断图像中的对象的关系最近在计算机视觉社区中引起了对精确对象检测的关注[6,28,34,35,37,58,64]。场景图作为对象及其成对关系的抽象,包含了场景理解的更高层次的知识。由于场景图的结构化描述和语义空间的扩大,有效地提高了场景图的表达效率6https://github.com/yikang-li/FactorizableNet2Yikang LI等.裤子人头盔人(人穿裤子)(裤子穿人)(人穿头盔)(头盔穿人)(person-play-snowboard)(人下滑雪板)图1:左侧:选定的对象;中:关系(主谓宾三元组)在以前的作品中由短语特征表示[6,28,34,35,37,58,64];右图:用简洁的子图表示替换短语,其中关系可以通过子图特征(绿色)和相应的主语和宾语来恢复。场景图生成将有助于下游应用,例如图像检索[26,45]和视觉问答[33,38]。目前,有两种方法来生成场景图。第一种方法采用两阶段流水线,首先检测对象,然后识别它们的成对关系[6,36,37,58,62]。另一种方法是基于对象区域建议联合推断对象及其关系[34,35,58]。为了生成完整的场景图,两种方法都应该将对象或对象建议分组成对,并使用其联合区域(表示为短语特征)作为谓词推理的基本表示因此,短语特征的数量决定了模型的执行速度。然而,由于组合的数量与对象的数量成二次方增长,随着对象数量的增长,问题将很快变得棘手。使用更少的对象[35,58]或使用一些简单的标准[6,34]过滤配对可能是一种解决方案。但两者都牺牲了模型性能(的上界)。因为最耗时的部分是操作在短语特征上,寻找一种更为简洁的场景图中间表示方法是解决问题的关键我们观察到,多个短语特征可以指代一些高度重叠的区域,如图1中的示例所示1.一、在构造不同的>主语-宾语>对之前因此,一个自然的想法是为早期相似区域的短语特征构建一个共享的表示。 然后,通过传递来自连接对象的消息,细化共享表示以学习区域的一般表示。在最后阶段,我们可以从这个共享表示中提取所需的信息,通过结合不同的<主语-宾语> parirs来预测宾语关系。在此基础上,我们提出了一种基于子图的场景图生成方法,其中涉及相似交互区域的对象对被聚类到一个子图中,并共享短语表示(称为子图特征)。在该流水线中,所有特征细化过程都在共享子图特征上完成。这种设计大大减少了中间阶段的短语特征的数量,并且在训练和推理方面都加快了模型的速度可因式分解网3由于不同的对象对应于共享子图区域的不同部分,因此维护子图特征的空间结构明确地保留了这样的连接,并且帮助子图特征将更多的空间信息集成到区域的表示中。因此,采用2-D特征图来表示子图特征。引入空间加权消息传递(SMP)结构来利用对象与子图区域之间的空间对应关系。此外,空间信息已被证明在谓词识别中是有价值的[6,36,62]。为了利用这些信息,空间敏感关系推理(SRI)模块的设计。它融合了对象特征对和子图特征,用于最终的关系推理。不同于以往的工作,使用对象坐标或掩模提取空间特征,我们的SRI可以学习提取嵌入的空间特征直接从子图的特征映射。总之,我们提出了一种高效的基于子图的场景图生成方法,具有以下新颖性:首先,提出了一种自底向上的聚类方法,将图像分解成子图。通过共享子图中的区域此外,更少的represententations允许我们使用2-D特征映射来维护子图区域的空间信息。其次,提出了一种空间加权消息传递(SMP)结构第三,提出了一个空间敏感关系推理(SRI)模块,使用的主题,对象和子图表示的特征,用于识别对象之间的关系。对视觉关系检测[37]和视觉基因组[28]的实验表明,我们的方法优于最先进的方法,推理速度明显更快代码已公开,以促进进一步的研究。2相关工作在过去的十年中,视觉关系已经被许多研究所研究在早期阶段,大多数作品都针对使用特定类型的视觉关系,例如空间关系[5,10,14,20,26,30]和动作(i. e. 中间对象之间的动作)[1,9,11,16,19,46,47,50,56,57,60]。在大多数这些研究中,手工制作的特征被用于关系或短语检测和检测工作,这些工作大多被认为是利用其他任务,如对象识别[4,12,13,31,32,44,51,53,55],图像分类和检索[17,39],场景理解和生成[2,3,18,23,24,61,65],以及文本接地[27,43,49]。然而,在本文中,我们专注于更高性能的方法,致力于通用的视觉关系检测任务,这是本质上不同于早期阶段的作品近年来,开发了专门用于检测视觉关系的新方法。一系列重要的方法[7,8,52]将视觉短语视为一个完整的整体,即。e. 考虑到对象类别的每个不同组合4Yikang LI等.gory和关系谓词作为一个不同的类。当这种组合的数量变得非常大时,这种方法将作为另一种范式,在最近的作品中,分别考虑关系谓词和对象类别变得更加流行[36,41,63,64]。通用视觉关系检测首先由Lu等人作为视觉任务引入。[37]。在这项工作中,首先检测对象,然后识别对象对之间的谓词,其中对象类别的词嵌入被用作谓词识别的语言先验。Dai等人提出了DR-Net来利用对象之间的统计依赖关系及其关系来完成这项任务[6]。在这项工作中,采用类似CRF的优化过程来迭代地细化后验概率[6]。Yu等人提出了一种语言知识蒸馏流水线,以采用注释和外部语料库(即。e. wikipedia),其中谓词和学习多个主体-客体对来正则化训练,并为推理提供额外的线索[62]。Plummer等人设计了大量手工制作的语言和视觉线索,用于视觉关系检测,并构建了一个管道来学习组合它们的权重[42]。Li等使用主语、宾语和谓语分支之间的消息传递结构来建模它们的依赖关系[34]。最相关的工作是徐等提出的方法。[58]和Li等[35]这两者共同检测对象并识别它们的关系。在[58]中,通过以迭代方式联合细化对象和谓词特征来构建场景图。在[35]中,区域标题被引入作为场景图生成的更高语义级别的任务,因此对象、成对关系和区域标题帮助模型从三个不同的语义级别学习表示。我们的方法在两个方面有所不同:(1)我们提出了一个更简洁的图来表示对象之间的连接,而不是枚举每个可能的对,这大大降低了计算复杂度,并允许我们使用更多的对象建议;(2)我们的模型可以学习利用嵌入在子图特征图中的空间信息来提高关系识别。实验表明,该框架在所有不同的任务设置执行得更好,更快3可分解网络的框架我们提出的可因子分解网络(F-Net)的概述如图2所示以下各节将详细介绍不同的组件。整个过程可以概括为以下步骤:(1)利用区域提议网络(RPN)生成对象区域提议[48];(2)组将对象建议成对,建立全连通图,每两个对象有两条有向边表示它们之间的关系;(3)将全连通图聚类为若干个子图,并共享子图中对象对的子群特征,然后得到一个因子分解连通图通过将每个子图视为节点来获得;(4)ROI池[15,21]可因式分解网5对象特征向量(5)空间加权消息传递(SMP)谓词推理子图特征映射客体推理人磨损保持头盔蝙(1)图像和RPN提案(2)全连通图(3)子图表示(4)ROI池化和特征准备(6)对象和关系识别图2:我们的F-Net概述。(1)RPN用于对象区域建议,它与其他部分共享基础CNN。(2)给定区域提议,对象被分组成对以建立全连接图,其中每两个对象与两个有向边连接。(3)引用相似短语区域的边合并成子图,并生成更简洁的连接图。(4)ROI-Pooling用于获得相应的特征(子图的2-D特征图和对象的特征向量)。(5)信息在子图和对象特征之间沿着因子化连接图传递以进行特征精化。(6)从对象特征预测对象,并且基于对象特征和子图特征。绿色、红色和黄色项分别表示子图、宾语和谓语。对象和子图特征,并将它们分别转换成特征向量和二维特征图;(5)通过沿着基于子图的连接图传递消息来联合细化对象和子图特征以用于更好的表示;(6)融合子图特征和对象特征对,识别具有对象特征的对象类别及其关系(谓词)。3.1对象区域建议采用区域建议网络[48]来生成对象建议。它与我们提出的F-Net共享基础卷积层。在共享层之后添加辅助卷积层。通过对训练集中的真实边界框的尺度和比率进行聚类来生成锚点[35]。3.2将提案分组到全连通图中由于每两个对象可能有两个方向相反的关系,我们用两条有向边(称为短语)连接它们。建立全连接图,其中每条边对应于潜在关系(或背景)。因此,N个对象建议将有N(N-1)个候选关系(图中的黄色圆圈)。第2条第2款)。根据经验,更多的对象提议将带来更高的召回率,并使其更有可能检测到图像内的对象,并且更有可能识别出图像中的对象。6Yikang LI等.生成更完整的场景图。然而,大量的候选关系可能会降低模型推理速度。因此,我们在中间阶段设计了所有这些关系的有效表示,以采用更多的对象建议。3.3因子化连接图生成通过观察,许多关系是指重叠的区域(图。1),我们共享短语区域的表示以减少中间短语表示的数量以及计算成本。对于任何候选关系,它对应于两个对象的并集盒(包含两个盒的最小盒)。然后,我们将其置信度得分定义为两个对象建议的得分的乘积。利用置信度分数和边界框位置,可以应用非最大抑制(NMS)[15]来抑制相似框的数量,并保持具有最高分数的边界框作为代表。因此这些合并的部分组成子图并共享一个统一的表示来描述它们的相互作用。因此,我们得到了全连通图的一个基于子图的表示:每个子图包含多个对象;每个对象属于多个子图;每个候选关系涉及一个子图和两个对象。讨论在先前的工作中,ViP-CNN [34]提出了三元组NMS来预处理关系候选并去除一些重叠的关系候选。然而,它可能会错误地丢弃一些可能的对,因为只考虑空间信息。不同的是,我们的方法只是提出了一个简洁的表示的全连接图,通过共享的中间表示。它不修剪边,而是以不同的形式表示它们。每个谓词在最后阶段仍将被预测。因此,模型势生成完整的图是无害的。3.4ROI-池化子图和对象特征在聚类之后,我们有两组建议:对象和子图。然后使用ROI池[15,21]来生成相应的特征。与使用特征向量来表示短语特征的现有技术方法[35,58]不同,我们采用2-D特征图来维护子图区域内的空间信息。由于子图特征被多个谓词推理所共享,二维特征映射可以学习到更一般的区域表示,其继承的空间结构可以帮助识别主语/宾语及其关系,特别是空间关系。我们继续采用特征向量来表示对象。因此,在池化之后,2-D卷积层和全连接层分别用于转换子图特征和对象特征3.5基于空间加权消息传递由于对象和子图特征涉及不同的语义级别,其中对象集中于细节,而子图集中于它们的交互,因此传递可因式分解网7平均合并特征(m×515×1×1)合并要素(1×512)合并特征(1×512×5×5主题转换核(1×512物体特征注意图(k×512)(k×1×5×5Concatenate(1×512×7×7子图特征(m×512×5×5注意力向量(k×512×1×1)(m×1)谓词子图特征(1×512×7×7(1×1536×7×7对象特征(1×512)细化特征子图特征(1×512)精细化特征(1×512×5×5SMP:对象特征细化SMP:子图特征细化对象(1×512)(1×512×7×7)空间敏感关系推理图3:左:用于对象/子图特征细化的SMP结构。右:用于谓词识别的SRI模块。绿色、红色和黄色分别表示子图、对象和谓词。表示点积。和它们之间的信息可以通过利用它们的互补信息来帮助学习更好的表示。因此,我们设计了空间加权消息传递(SMP)结构以在对象特征向量和子图特征映射之间传递消息(图1的左部分)。(3)第三章。从对象到子图和从子图到对象的消息传递是两个并行的过程。表示对象特征向量,并且Sk表示子图特征图。从子图向对象传递消息这个过程是将多个2-D特征图传递给特征向量。由于对象只需要关于子图区域的一般信息而不需要它们的空间信息,因此直接采用2-D平均池化将2-D特征图Sk池化为特征向量sk.由于每个对象连接到不同数量的子图,因此我们需要首先聚合子图特征,然后将它们传递到目标对象节点。跨子图的注意力[59]用于保持尺度聚合特征对输入子图的数量不变,并确定不同子图对对象的重要性:Σ~si=Sk∈Sipi(Sk)·sk(1)而Sid e dent e tess t e s ste s t e d e d e t e t e ss -s_i_d_e_n_o sk表示特征向量从2-D特征图Sk平均汇集。pi(Sk)表示sk被传递到目标第i个3):exp.Σoi·FC(atts)(ReLU(sk))pi(Sk)= ΣSk∈Ci exp. FC(atts)(ReLU(sk))Σ(2)其中FC(atts)将特征s k变换为目标域o i。ReLU表示整流线性单元层[40]。获取消息特征后,对目标对象特征进行细化为:oi=oi+FC(s→o)(ReLU(~si))(3)8Yikang LI等.我我wheeodeno tet FC(s→o)dée不使用连接层上的fully-c来将合并的子图特征变换到目标对象域。从对象到子图传递消息每个子图连接到几个对象,所以这个过程是将几个特征向量传递到一个2-D特征图。由于不同的对象对应于子图特征的不同区域,因此当聚合对象特征时,它们的权重也应该取决于它们的位置:ΣO~k(x,y)=oi∈OkPk(〇i)(x,y)·〇i⑷而Okd e nt eO~k(x,y)denot es将聚合的对象特征传递到位置(x,y)处的子图k。Pk(〇i)(x,y)表示对象特征〇i被传递到位置(x,y)处的第k个子图的概率图(对应于图1中的注意力图)3):exp.ΣFC(atto)(ReLU(oi))·Sk(x,y)P k(o i)(x,y)= Σ。(atto) Σ(5)Sk∈Ciexp FC(ReLUSk(x,y)其中FC(atto)将o1变换为Sk(x,y)的目标域。在每个位置处的所有对象上,概率被求和为1,以归一化消息特征的尺度。但是在空间维度上没有这样的约束。因此,不同的对象有助于细化子图特征的不同部分。在Eq.4,我们得到一个特征图,其中对象特征在不同位置以不同的权重聚合。然后我们可以将子图特征细化为:Sk=Sk+Conv(o→s) .ReLU.ΣΣO~k(六)whereSdeno testerefindsu bg ra pheatures. C〇 nv(o-s)deteteco nvution层将合并的对象消息变换到目标子图域。讨论由于子图特征嵌入了若干对象之间的交互,并且对象是子图的基本元素,因此对象和子图特征之间的消息传递可以:(1)通过考虑对象特征与其他对象的交互作用并引入上下文信息来帮助对象特征学习更好的表示;(2)用对应的对象特征细化子图特征的不同部分。 与ISGG [58]和MSDN[35]中的消息传递不同,我们的SMP(1)由“点”(对象向量)和“2- D平面”(对象对象映射)组成;(2)在标准化规模中对不同消息进行缓存。此外,多个SMP模块可以堆叠,以增强模型的表示能力。3.6空间敏感关系推理在消息传递之后,我们得到了对象的精确表示和子图区域Sk。对象类别可以直接用可因式分解网9KK物体的特征。由于子图特征可能涉及多个对象对,因此我们使用主题和对象特征以及它们对应的子图特征来预测它们的关系:p(i,k,j> = f(oi, Sk, oj)(7)由于不同的对象对应于子图特征的不同区域,因此主体和对象特征作为卷积核来从特征图中提取它们之间关系的视觉S(i) =FC(ReLU(oi))ReLU(Sk)(8)其中,S(i)表示子图特征映射Sk与第i个对象的卷积结果作为卷积核。表示卷积运算。由于学习卷积核需要大量参数,因此采用群卷积我们将组数设置为通道数,因此组卷积可以重新表示为逐元素乘积。然后我们将S(i)和S(j)与子图特征Sk连接起来并预测K K直接与全连接层的关系:p(i,k,j>= FC(p) .ReLU .ΣS(i);Sk;S(j)ΣΣΣ(九)K K其中FC(p)表示用于谓词识别的全连接层。[·]取消对连接的注释。瓶颈层直接预测卷积核会导致大量的参数需要学习,这使得模型庞大且难以训练。FC(p)的参数数目等于:#FC(p) =C(p)×C×W×H(10)其中C(p)d表示不包含预处理器的整数。 Cdetesthechannell尺寸。W和H表示特征图的宽度和高度。受[22]中瓶颈结构的启发,我们在FC(p)之前引入了一个额外的1×1瓶颈卷积层,以减少通道数量(图中省略)。(3)第三章。在添加具有等于C’的通道大小的瓶颈层之后,参数大小得到:C(p)=C×C′+C(p)×C′×W×H(11)如果设C′=C/2,则由于C(p)远小于C(p),所以我们只取参数个数的一半。讨论在以前的工作中,空间特征已经从边界框或对象掩码的坐标中提取[6,36,62]。与这些方法不同的是由于FC(p)在不同位置具有不同的权重,因此它可以学习决定是否利用空间特征以及如何从训练数据中使用它。10Yikang LI等.4实验在本节中,将介绍我们提出的方法和实验设置的实施细节。将进行消融研究,以显示不同模块的有效性。我们还将我们的F-Net与最先进的方法在准确性和测试速度方面进行了比较。4.1实现细节采用ImageNet预训练的VGG 16 [54]来初始化基础CNN,该CNN由RPN和F-Net共享ROI对齐[21]用于生成5× 5对象和子图特征。两个FC层用于将池化的对象特征变换为512维特征向量。使用两个3×3 Conv层生成512维子图特征图。对于SRI模块,我们使用256-dim瓶颈层来减少模型大小。随机初始化所有新引入的层。在训练过程中,我们修复了VGG16的Conv1和Conv2,并将VGG的其他卷积层的学习率设置为整体学习率的0.1。基本学习率为0.01,每3个epoch乘以0.1RPN NMS阈值设置为0.7。子图聚类阈值设置为0.5。对于训练样本,256个对象建议和1024个谓词被采样50%前景。子图没有采样,因此子图连接图从训练到测试都是相同的。首先训练RPN部分,然后联合训练RPN、F-Net和基础VGG部分。在测试阶段,RPN NMS阈值和子图聚类阈值分别设置为0.6和0.5所有的谓词(全连通图的边)将被预测。前1个类别将用作对象和关系的预测。谓词关系三元组将根据其主语、宾语和谓词置信概率的乘积按降序排序。受Liet al启发。在[34]中,如果两个三元组涉及相同的关系,则采用三元组4.2数据集采用两个数据集来评估我们的方法,视觉关系检测(VRD)[37]和视觉基因组[28]。VRD是一个小的基准数据集,其中大多数现有的方法进行了评估。与VRD相比,原始视觉基因组包含太多噪声标签,因此应进行数据集清洗为了公平比较,我们采用了[35]和[6]中使用的两个清洁版本的Visual Genome,并在相应的数据集上与他们的方法进行比较。这三个数据集的详细统计数据见表1。1.一、可因式分解网11表1:数据集统计。VG-MSDN和VG-DR-Net是原始Visual Genome数据集的两个清理版本#Img表示图像的数量。#Rel表示主语-谓语-宾语关系对的数量。#Object和#Predicate分别表示对象和谓词类别的数量.数据集训练集#图像#相关测试集#图像#相关#对象同品种器械数量VRD [37]4,00030,3551,0007,63810070VG-MSDN [28,35]46,164507,29610,000111,39615050VG-DR-Net [6,28]67,086798,9068,99526,499399244.3评估指标模型将在两个任务上进行评估,视觉短语检测(PhrDet)和场景图生成(SGGen)。视觉短语检测是检测与密盖语紧密相关的短语有“主谓宾短语”[25]。场景图生成是检测图像中的对象并识别它们的成对关系。这两个任务都识别出一个主语-谓语-宾语三元组,但场景图生成需要以至少0.5 IOU(交集大于并集)定位主语和宾语,而视觉短语检测只需要整个短语的一个边界框。在[37]之后,Top-K Recall(表示为Rec@K)用于评估在前K个预测中命中了多少个标记关系。之所以我们使用召回率而不是平均平均精度(mAP)的原因是关系并不完整。mAP将错误地惩罚正的但未标记的关系。在我们的实验中,将报告Rec@50和Rec@100同时给出了模型的测试速度。以前,只有准确性报告的文件。因此,大量复杂的结构和后处理方法被用来提高召回率。随着场景图生成越来越接近实际应用和产品,测试速度成为评价模型的关键指标。如果未指定,则使用Titan-X GPU评估测试速度。4.4成分分析在本节中,我们进行了几个实验来评估我们的F-Net的不同组件的有效性(Tab. 2)的情况。所有实验都在VG-MSDN [35]上执行,因为它大于VRD [37]以消除过拟合,并且包含比VG-DR-Net [6]更多的谓词类别。对于基线模型0,每个关系候选由短语特征向量表示,并且基于主语、宾语和短语特征的级联来预测谓词相比之下,Model 112Yikang LI等.表2:所提出的模型的消融研究。PhrDet表示短语检测任务。SGGen表示场景图生成任务。子图表示是否使用基于子图的聚类策略。2-D表示我们是否使用2-D特征图或特征向量来表示子图特征。#SMP表示数字多模态消息传递结构(模型1采用[35]中的消息传递)。#Boxes表示我们在测试期间使用的对象提案的数量。SRI表示是否使用SRI模块(基线方法是对子图特征映射到向量的平均池化)。速度显示一个推理正向传递所花费的时间(秒/图像)。ID子图#SMP 2-DSri 包装盒数量pHR@50rDetR@100SGGenR@50 R@100速度0-0--6416.9221.048.5210.810.651C0--6416.5020.798.4910.330.182C0--20018.7122.779.7312.020.203C0C-20019.0922.889.9012.080.324C1C-20020.4825.6911.6214.550.425C1CC20022.5428.3112.8316.120.446C2CC20022.8428.5713.0616.470.55以及2采用具有不同数目的对象提议的全连接图的基于子图的表示。通过比较模型0和模型1,我们可以看到,基于子图的聚类可以显着加快模型的推理,因为更少的中间特征。然而,由于大部分短语特征由子图特征近似,因此模型1的准确性略低于模型0的然而,模型1的缺点可以很容易地通过采用更多的对象建议来补偿,因为模型2在速度和精度上都大大优于模型0。此外,模型1 〜 6都比模型0快,这证明了我们基于子图的表示的效率。2-D特征映射从模型3开始,我们开始使用2-D特征映射来表示子图特征,它可以维护子图区域内的空间信息。与模型2相比,模型3采用子图特征的2-D表示由于没有使用SRI,主要区别是使用两个3× 3的卷积层代替FC层来转换子图特征。由于我们将子图区域池化成5× 5特征图,这只是两个3× 3卷积层的感知场,因此模型3需要学习的参数较少,特征图的空间结构可以作为正则化。因此,与模型2相比,模型3表现更好。可因式分解网13表3:与关于视觉短语检测(PhrDet)和场景图生成(SGGen)的现有方法的比较。速度表示在一个图像上花费的测试时间(秒/图像)。基准数据集VRD [37]和两个清理版本的Visual Genome [6,28,35]用于公平比较。D*仅考虑给定CNN特征和对象检测结果的后处理时间* *如[42]所述,在单个K80 GPU上测试1000张图像大约需要45分钟。当比较模型3和4时,观察到2.02% 〜 2.37%的SGGen召回增加,这表明我们提出的SMP也可以帮助模型学习对象和子图区域的更好表示与我们提出的SMP,不同部分的子图特征可以细化不同的对象,对象的功能也可以得到细化,通过接收更多的信息,他们与其他对象区域的相互作用。此外,当比较模型5和模型6时,我们可以看到,由于引入了更复杂的消息路径,堆叠更多的SMP模块可以进一步提高模型性能。然而,更多的SMP模块会降低测试速度,特别是当我们使用特征图来表示子图特征时。空间敏感关系的推导。9、全连接层用于预测来自2-D特征图的关系,因此图中的每个点将被分配位置指定的权重,并且SRI可以学习对隐藏的空间连接进行建模与以往的模型采用手工制作的空间特征,如轴的主题/对象的建议,我们的模型不仅可以提高明确的空间关系,如上面和下面的识别精度,但也学习提取继承的空间连接的其他关系。模型4和模型5的实验结果显示了我们提出的SRI模块带来的改善。数据集模型PhrDetRec@50 Rec@100SGGenRec@50 Rec@100 施佩简体中文[CN]16.1717.0313.8614.701.18*VIP-CNN [34]22.7827.9117.3220.010.78VRD [37]DR-Net [6]19.9323.4517.7320.882.83[42]16.8920.7015.0818.372.70英镑 **Ours Full:1-SMP25.9030.5218.1621.040.45Ours Full:2-SMP26.0330.7718.3221.200.55ISGG [58]15.8719.458.2310.881.64VG-MSDN [28,35]MSDN [35]19.9524.9310.7214.223.5614Yikang LI等.4.5与现有方法的比较我们将我们提出的F-Net与Tab中的现有方法进行比较。3.这些方法可以大致分为两组。一种是采用两级流水线,首先检测对象,然后识别它们的关系,包括LP [37],DR-Net [6]和ILC [42]。与这些方法相比,我们的F-Net联合识别对象及其关系,因此可以利用特征级连接进行更好的识别。此外,由这些方法引入的复杂的后处理阶段可能降低推理速度,并且使其更难以用GPU或其他高性能硬件(如FPGA)来实现。其他方法如ViP-CNN [34],ISGG [58],MSDN [35]采用与我们相似的管道,并提出不同的特征学习方法。ViP-CNN和ISGG都使用消息传递来细化对象和谓词特征。MSDN引入了一个额外的任务,密集字幕,以改善场景图的生成。然而,在这些方法中,每个关系由单独的短语特征表示。这导致用于生成场景图的有限对象提议,因为关系的数量随着提议的数量二次增长。相比之下,我们提出的基于子图的流水线通过将它们聚类成子图来显著减少关系表示。因此,它允许我们使用更多的对象建议来生成场景图,并且相应地,帮助我们的模型在速度和准确性方面都比这些方法表现得更好。5结论介绍了一种高效的场景图生成模型--可分解网络(F-Net)。为了解决可能关系的二次组合的问题2-D特征图用于维护子图区域内的空间信息相应地,空间加权的消息传递结构和空间敏感的关系推理模块的设计,以利用固有的空间结构的特征图。实验结果表明,我们的模型是显着的速度比以前的方法更好的结果。确认这项工作得到了香港博士的支持。奖学金计划、商汤科技集团有限公司、三星电讯研究院、香港研究资助局资助的优才研究基金(项目号中大14213616、中大14206114、中大14205615、中大419412、中大14203015、中大14207814、中大14208417、中大14202217及中大14239816)、香港创新及科技支援计划(编号ITS/121/15 FX)。可因式分解网15引用1. Antol,S.,Zitnick,C.L.,Parikh,D.:通过视觉抽象的零射击学习。In:ECCV(2014)2. Berg,A.C.,Berg,T.L.,Daume,H.,Dodge,J.,Goyal,A.,Han,X.Mensch,A.,Mitchell,M. Sood,A.,Stratos,K.,等:理解和预测图像中的重要性。在:CVPR(2012)3. Chang,A.,Savva,M.,曼宁,C.:从文本到三维场景生成的语义分析在:ACL(2014)4. Choi,M.J.,Lim,J.J.,Torralba,A.,Willsky,A.S.:在对象类别的大型数据库上利用分层在:CVPR(2010)5. Choi,W. Chao,Y.W.,Pantofaru角Savarese,S.:使用三维几何短语理解 室 内 在 : Proceedings of the IEEE Conference on ComputerVisionandPattern Recognit ion中。pp. 336. Dai,B.,张玉,Lin,D.:使用深度关系网络检测视觉关系。CVPR(2017)7. Das,P.,徐,C.,Doell,R.F.,科索,J.J.:短短几句话就有一千帧:通过潜在主题和稀疏对象拼接对视频进行语言描述。在:CVPR(2013)8. Divvala,S.K.,Farhadi,A.,Guestrin,C.:学习关于任何事情的一切:视觉概念学习。在:CVPR(2014)9. Elhoseiny,M.,Cohen,S.,Chang,W.,Price,B.L.,Elgammal,上午:Sherlock:可扩展的图像事实学习.在:AAAI(2017)10. 艾略特D.凯勒,F.:使用视觉依赖表示的图像描述在:EMNLP(2013)11. Farhadi , A. , Hejrati , M. , Sadeghi , 硕 士 , 扬 , P. , Rashtchian , C.Hockenmaier,J.,Forsyth,D.:每张照片都在讲述一个故事:从图像生成句子。In:ECCV(2010)12. Fidler,S.,Leonardis,A.:面向对象类别的可扩展表示:学习零件的层次结构。在:CVPR(2007)13. 加勒吉略斯角Belongie,S.:基于上下文的对象分类:一个批判性的综述。02 The Dog(2010)14. 加勒吉略斯角Rabinovich,A.,Belongie,S.:使用共现、位置和外观的对象分类。载于:CVPR(2008年)15. Girshick,R.:快速R-CNN。In:ICCV(2015)16. Gkioxari,G.,格尔希克河Malik,J.:使用r* cnn进行上下文动作识别。In:ICCV(2015)17. Gong,Y.,Ke,Q.Isard,M.,Lazebnik,S.:一个多视图嵌入空间,用于建模互联网图像,标签及其语义。IJCV(2014)18. Gould,S.,Rodgers,J.,Cohen,D.,Elidan,G.,Koller,D.:基于相对位置先验的多类IJCV(2008)19. Guadarrama,S.,Krishnamoorthy,N.Malkarnenkar,G.,Venugopalan,S.,穆尼河,Darrell,T.,Saenko,K.:Youtube2text:使用语义层次和零触发识别来识别和描述任意活动。In:ICCV(2013)20. Gupta,A.,Davis,L.S.:超越名词:利用介系词与比较级形容词学习视觉分类词。In:ECCV(2008)21. H e,K., G.,G., 做吧,P Girshi ck,R. :Maskr-cnn。In:ICCV(2017)22. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。arXiv预印本arXiv:1512.03385(2015)23. Hoiem,D.,埃夫罗斯,匿名戒酒会Hebert,M.:把物体放在透视图中。IJCV(2008)16Yikang LI等.24. Izadinia,H.,Sadeghi,F.,Farhadi,A.:将场景上下文和对象布局结合到外观建模中。在:CVPR(2014)25. Johnson,J.,Karpathy,A.,李菲菲:Densecap:用于密集字幕的全卷积定位网络。arXiv预印本arXiv:1511.07571(2015)26. Johnson,J.,克里希纳河斯塔克M.Li,L.J.,夏玛地方检察官伯恩斯坦,M.S.,Fei-Fei,L.:使用场景图进行图像检索。参见:CVPR(2015)27. Karpathy,A.,Joulin,A.,飞飞L.F.:用于双向图像句子映射的深度片段嵌入。在:NIPS(2014)28. 克里希纳河Zhu,Y.,格罗斯岛Johnson,J.,Hata,K.,Kravitz,J.,陈淑仪,Kalantidis,Y.,Li,L.J.,夏玛地方检察官等:Visual genome:Connectinglanguageandvisionusingcrowdsourceddenseimageannotations.IJCV(2017)29. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:具有深度卷积神经网络的图像网分类。 In:NIPS. pp. 109730. Kulkarni,G.,Premraj,V.,Dhar,S.,Li,S.,崔,Y.,Berg,A.C.,Berg,T.L.:婴儿谈话:理解和生成图像描述。在:CVPR(2011)31. 库马尔议员Koller,D.:有效地选择区域以进行场景理解。在:CVPR(2010)32. 拉迪基湖拉塞尔角Kohli,P.,Torr,P.H.:基于同现统计的图割推理。In:ECCV(2010)33. 李,Y.,Duan,N.,Zhou,B.,(1991年),中国地质大学,Chu,X.,欧阳,W.王,X.,Zhou,M.:作为视觉问答双重任务的视觉问题生成。在:Proceedings of theIEEEConFeRénceonComputerVisisi onandPat ter nRe ginition中。pp. 611634. 李,Y.,欧阳,W.王,X.,唐X:Vip-cnn:视觉短语引导卷积神经网络。CVPR(2017)35. 李,Y.,欧阳,W.Zhou,B.,(1991年),中国地质大学,Wang,K. , Wang ,X. : 从对 象 、短 语 和区 域 字幕 生 成场 景 图In : ICCV(2017)36. 廖文,Shuai湖Rosenhahn,B.,Yang,M.Y.:自然语言引导的视觉关系检测。arXiv预印本arXiv:1711.06032(2017)37. 吕,C.,克里希纳河Bernstein,M.李菲菲:具有语言先验的视觉关系检测In:ECCV(2016)38. 卢,P.,Li,H.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功