图像到场景图映射的注意关系网络

194 浏览量更新于2023-10-18 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3957用于图像到场景图映射的齐孟石1，2，李伟建3，杨正元3，王运红<$1，2，罗杰波<$31虚拟现实技术与系统北京航空航天大学计算机科学与工程学院2北京大数据与脑计算前沿创新中心3美国罗切斯特大学计算机科学系{齐梦诗，yhwang}@buaa.edu.cn，{wli 69，zyang 39，jluo}@ cs. rochester. edu摘要场景图生成是指将图像自动映射成语义结构图的任务，它要求对提取的每个对象及其相互作用关系进行正确标注尽管最近使用深度学习技术在对象检测方面取得了成功，但从视觉数据推断复杂的上下文关系和结构化图在这项研究中，我们提出了一种新的注意关系网络，它由两个关键模块和一个对象检测骨干来解决这个问题。第一个模块是语义转换模块，通过将视觉特征和语言特征转换到一个公共的语义空间中，来获取语义嵌入关系特征。另一个模块是图自关注模块，通过为相邻节点分配各种重要性权重来最后，由关系推理模块产生精确的场景图，以识别所有实体和对应的关系。我们评估我们提出的方法上广泛采用的可视化基因组数据集，结果表明，我们的模型的有效性和优越性。1. 介绍视觉场景理解[11，15，49]是计算机视觉中的一个基本问题。它的目的是捕捉图像中的结构信息，包括对象实体和成对关系。如图1所示，每个实体和关系都应该用更广泛的上下文来处理，以便在语义上正确地理解图像。*同等缴款。†通讯作者。图1.场景图生成任务的说明。使用我们提出的注意关系网络，图像可以映射到场景图，场景图捕获单个实体（例如，男孩，树和草）和它们的关系（例如， and weeds-behind-boy>）.水平近年来，基于深度神经网络的对象检测模型，如Faster R-CNN [8，31]和YOLO [30]已经取得了很大的改进。然而，这样的常规对象检测方法不能捕获和推断图像内的关系。由于它能够丰富语义分析并清楚地描述对象如何相互交互（例如，“aing [17，33]和视频分析[27，43]。高度多样化的视觉外观和大量不同的视觉关系使场景图生成成为一项具有挑战性的任务。以前的场景图生成方法[9，18，19，22，37，38，44]以主语-谓语-宾语>的形式将视觉关系定位和推断为三元组，谓语是用于连接一对对象的词，例如。<戴帽子的男孩>图1。在两个物体之间存在着各种各样的关系，包括空间位置（例如，未3958der，above），属性/介词（例如，with，of），比较词（例如，更高，更短）和动作/动词（例如，玩，骑）。现有的研究大多忽视了视觉特征与语言知识之间的语义联系以及三元组内部的联系。此外，以前的作品总是利用传统的深度学习模型，如卷积神经网络（CNN）[18，19，22，38]或递归神经网络（RNN）[9，37，44]用于场景图生成。这些方法需要事先知道图的结构，并在近似过程中包含计算密集的矩阵运算。另外，大多数算法都是采用一步一步的方式来获取节点和边缘的表示，从而忽略了图像的全局结构和信息。有效地提取一个完整的联合图表示模型的整个场景图的推理是有前途的，但仍然是一个艰巨的问题。为了解决上述问题，我们提出了一种新的注意关系网络，将图像映射到场景图。具体来说，该方法首先采用对象检测模块提取每个实体和关系的位置和类别概率。然后引入语义转换模块，将实体和关系特征及其语言表示转换到一个公共的语义空间。此外，我们提出了一个图自注意模块，通过测量相邻节点之间的关系的重要性，联合嵌入一个自适应图表示。最后，利用关系推理模块，通过多层感知器（MLP）对每个实体和关系进行分类，并生成精确的场景图。我们的主要贡献总结如下：• 提出了一种新的用于场景图生成的注意关系网络，将视觉信息转化为图结构表示。• 设计了语义转换模块，实现了关系特征与实体特征的融合和链接。直觉知识，通过同时映射词嵌入和视觉特征到一个共同的空间。• 引入了一个图自关注模块，通过隐式地为不同的相邻节点指定不同的权重来嵌入联合图表示。• 在可视化基因组数据集上的大量实验验证了该方法与现有方法相比的优越性能。2. 相关工作场景图形生成。近年来，在这方面作出了重大努力，可分为两类：基于递归神经网络（RNN）的方法[9，37，44]和卷积基于神经网络（CNN）的方法[18，19，22，38]。Xu等人。 [37]采用RNN通过消息传递来推断场景图。Zellers等人。 [44]引入模体来捕获场景图中的公共子结构。为了最小化不同输入因子的阶数的影响Li等人[19]构建了一个动态图来联合处理多个任务。Newell等人 [22]提出了一种关联嵌入技术[23]，用于从像素预测图形。Yang等人。 [38]通过利用图卷积网络[12]进行结构嵌入，提出了一种图R-CNN。Li等人。 [18]提出了一个可分解的网络来捕获基于子图的表示。与以前的工作不同，我们提出的模型侧重于通过同时嵌入语言知识和视觉表示来发现语义关系。视觉关系检测。视觉关系检测的早期努力[2，5，29，32]倾向于采用将关系三元组视为唯一类的联合模型。基于视觉嵌入的方法[21，36，42，45，50]将对象放置在低维关系空间中并整合额外的知识。然而，这些作品不能学习图的结构表示，它表示图像中对象之间的位置和逻辑关系 Plummer等[26]将不同的线索与接地短语的学习权重相结合。Liang等人。 [20]采用变分结构强化学习来顺序发现对象关系。Dai等人. [4]利用对象之间的统计依赖性及其关系。最近，各种研究[10，13，17，25，39，41，46，47，48]提出了通过采用成对区域进行完全或弱监督视觉关系检测的关系建议网络。然而，它们大多是针对逐个关系的检测而设计的，这不适合描述整个场景的结构。我们提出的基于图自注意的模型旨在嵌入一个联合图表示来描述所有的关系，并将其应用于场景图生成。3. 该方法3.1. 概述问题定义：我们定义图像I的场景图为G，它描述了每个实体的类别和语义对象间的关系。一组实体边界框，如B={b1，.，bn}，bi∈R4和它们的cor-响应类标签集合O={o1，...，o n}，o i∈ C，其中C是对象类别集。对象之间的二元关系的集合被称为R ={r1，.， r m}。每个关系rk∈R是一个主语-预测-宾语>格式的三元组，其中主语节点（bi，oi）∈B×O，关系标签lij∈R和宾语节点（bj，oj）∈3959图2.注意关系网络的概述。我们的模型主要由四个部分组成：（1）目标检测模块：利用实体包围盒的成对关系，获取实体包围盒的视觉特征和位置。（2）语义转换模块：通过将标签词嵌入和视觉特征转换到一个公共语义空间，生成语义嵌入表示;（3）图自注意模块：利用自注意机制，根据节点的空间位置构造邻接矩阵，嵌入实体;（4）关系推理模块：创建联合全局图表示并预测实体和关系标签作为最终场景图结果。B×O。R是所有谓词1的集合。图形推理：每个场景图包括边界框B、实体标签O和关系标签R的集合。从图像推断场景图的可能性可以用公式表示如下：Pr（G|I）=Pr（B|I）Pr（O|B，I）Pr（R|B、O、I）。（一）该公式可以看作是无独立性假设的因式分解 . Pr（B|I）可以由3.2中描述的模型中的对象检测模块推断，而Pr（O|B，I）和Pr（R|B，O，I）可以由下式推断：我们的模型中提出的其余模块。图2展示了我们提出的注意关系网络的概述我们的模型旨在为图像产生一个联合的全局图表示，其中包含语义转换模块中学习的语义关系转换表示，以及图自注意模块中捕获的整个实体嵌入表示。最后，我们将学习到的全局图表示和每个实体/关系特征结合起来，在关系推理模块中进行推理接下来我们将分别详细介绍这四个模块。1我们还添加了额外的3.2. 对象检测模块我们采用Faster R-CNN [31]作为我们的对象检测器。则可预测实体提议的集合B ={b1，.， b n}，包括它们的位置和表观特征。为了表示视觉关系的上下文信息，我们生成一个联合边界框覆盖对象对一个小的margin。描述实体和关系可以采用两种类型的特征，即：外观特征和空间特征（边界框的坐标）。最后，我们利用softmax函数来识别每个实体和关系的类别，并获得其相应的分类置信度得分作为后续模块的初始输入3.3. 语义转换模块受翻译嵌入（transE）[3，45]和视觉语义嵌入[6]的启发，我们引入了一个语义转换模块来有效地表示语义域中的主语-谓语-宾语>如图3所示，所提出的模块利用视觉特征和文本单词特征来学习成对实体之间的语义关系。然后，它显式地将它们映射到一个公共关系空间。对于任何关系，我们定义Vs，VP和VO来表示主语、谓语和宾语的范畴标签的词嵌入向量。为了生成针对主题、pred- icate和对象的特定词嵌入向量，从Object Detec获得的标签分数被用于生成针对主题、pred-icate和对象的特定词嵌入向量。3960节点图3.图示的语义变形模式-乌莱(Top)将视觉特征和词嵌入映射到一个共同的语义空间，并在关系空间中推断它们之间的关系。（下）：关系翻译的一个例子。连接实体和关系的视觉特征（即. fi，fj和fij）和它们相应的标签嵌入特征（即，“boy”，“riding”和“skateboard”：vs，vp和vo），并<通过学习的权重矩阵（即，W1、W2和W3）。将所有标签的分模和词嵌入与逐元素乘法相结合。在计算语言学中，已知有效的语义关系可以表示为以下[24]：vs+vp vo，（2）类似地，我们假设在对应的视觉特征之间存在这样的语义关系fi+fij<$fj，（3）其中fi、fi和fi j被定义为实体bi、bij及其关系rij关于ivel y的视觉表示。值得注意的是，视觉特征和词嵌入应该被投射到一个共同的空间。因此，我们采用一个线性模型与三个可学习的权重，共同近似方程。(2)和等式（三）、L2损失用于指导学习过程：图4.每个单节点的图形自我注意模块的插图第i个节点的输出特征可以基于其相邻节点的特征fj、fk、fm和fn及其对应的成对注意力权重α来计算不同颜色的箭头将独立注意力计算称为多头计算注意（例如，在该图中k=3集中注意力特征′通过级联运算将节点i的值表示为f1可以表示为Θ（fij）：Θ （ fij ） =[ （ W1·[fi ， vs] ），（ W2·[fij ， vp] ），（W3·[fi，vo]）]，（五）其中[·]表示级联操作。然后，我们得到的嵌入式表示的每一个关系的图像。3.4. 图形自注意模块注意机制将输入映射到值上特别是，自注意力已被证明是有效的计算表示的一个单一的序列[12，34，35]。为了计算单节点序列的关系表示，我们引入了一个图自注意模块，该模块考虑了节点表示及其邻域特征。通过自注意机制，每个节点的隐藏状态可以通过关注其邻居来如图4所示，我们定义了一个输入节点（实体）特征集合F node={f1，f2，.，fN}，fi∈RM，以及它们相应的输出特征F′= ′{f ′，f ′，.，f ′}，f ′∈ R M，其中N，M和M ′是12NiL=<$W·[f，v]−（W·[f，v]+W·[f，v]）2，节点数、输入特征维数和输出fea-语义3jo1我S2IJp2（四）真实尺寸分别。注意力系数e ij其中W1、W2和W3分别指权重，并且[·]表示级联操作。这些学习的权重矩阵可以被视为关系空间中的语义然后，我们需要映射检测到的实体的视觉特征（即，节点）和关系（即，边缘）与这样的语言学知识结合到共同的语义域中。关系fij在场景图中的语义变换表示3961可以被学习来表示节点j对节点j的重要性。i：eij= Λ（U·fi，U·fj），（6）其中，Λ表示利用以下实现的注意力权重向量：′单个前馈层。U∈RM×M表示学习-能够参数权重。我们计算每个相邻节点j∈Ni的eij，其中Ni表示节点i的相邻集。然后我们3962我我α Uk=12IJ我我IJIJk∈NiikIJ通过softmax函数对所有相邻节点的系数进行归一化，以便与不同节点进行有效比较：其中n是指图像中实体的数量，和[·]表示逐元素求和和级联运算。气然后，我们使用三层MLP执行实体和关系的识别，如下所示：αij =softmaxj（eij）=Σexp（eij）k∈Niexp（eik）.（七）o′=MLP（[fi，n（G）]），（十一）因此，计算的系数可以公式化为：′=MLP（[fij，n（G）]），αij=Σexp（φ（ΛT[U·fi，U·fj]））exp（φ（ΛT[U·f，U·f]）），（8）其中o′和l′分别指实体和关系的预测标签。我们在这个模块中采用了两个交叉熵损失函数，并将o和l分别定义为实体和关系的基础真值标签其中φ和[·]表示Leaky ReLU非线性活动。操作和级联操作。最终节点表示a-然后通过将注意力权重应用于L实体=−Σo′log（oi），我所有相邻节点的特征。受[34]启发，我们Σ ΣL关系= −'log（lij）.（十二）利用多头注意力捕捉不同方面的关系，与相邻节点的连接第i个节点的总体输出是通过K个独立注意力头的级联特征，表示为Φ（fi）：我j/= i总之，我们的attentive关系网络中的联合目标损失函数可以用公式表示如下：Σ（1）A（1）A（2）A（k kfj），（9）L=λ1L 实体 +λ2L 关系+λ3L 语义（13）其中αkj∈Ni是第k个其中λ1，λ2和λ3表示用于调整函数的超参数，W表示我们模型中的所有学习权重。注意机制，σ是指非线性函数，Uk是输入线性变换相邻矩阵的设置：为了计算邻接矩阵，我们设计了四种基于空间线索的节点邻居判定策略。具体地，给定两个边界boxesbi和bj作为两个wo节点，它们的位置的归一化坐标可以表示为（xi，yi）。和（xj，yj），并且i r距离可以表示为dij=（x j−x i）2+（y j−y i）2。然后四个邻居分类设置是：（1）内部邻居：如果bi完全在-（2）Cover er Neighbor：如果bi被bj完全覆盖;（3）O重叠近邻：如果bi和bj之间的IoU小于0.5;（4）相对近邻：如果相对距离dij与整个图像的对角线长度之比小于0.5。3.5. 关系推理模块基于Eq. (5)和等式(9)分别地，我们可以构造表示为G（G）的全局场景图表示：Σn4. 实验结果为了验证我们提出的模型，在公共的可视化基因组数据集上进行了大量的实验[14]。4.1. 实验设置可视化基因组（VG）[14]包括108，077个图像，用边界框，实体和关系进行注释。共有75，729个唯一对象类别和40，480个唯一关系谓词。考虑到长尾分布的影响，我们选择了最常见的150个对象类别和50个谓词进行评估[22，37，44]。为了与以前的作品进行公平的比较，我们遵循[37]中的实验设置，并将数据集分为70 K/5 K/32 K作为训练/验证/测试集。：在[1，21]之后，我们采用图像方面的Recall@100和Recall@50作为我们的评估指标。Recall@ X用于计算在前x个条件中预测正确关系的发生时间的分数可靠的预测排名策略基于对象和谓词的置信度得分。然而，我们不选择mAP作为度量，因为我们不能详尽地注释所有可能的关系，并且一些真实的关系可能（G）=Φ（f′），i=1Σ（十）如[21]中所述。此外，我们还报告了每个类型的召回@5分类个别谓词。其中f′=[fi，LL3963j/=iΘ（fij）]，任务设置：在这项工作中，我们的目标是推断现场给定实体置信度分数的图像图和关系，而对象检测不是我们的主要目标，[2]在我们的实验中，我们按照[34]设置k=8。客观的因此，我们进行了场景图的两个子任务3964表1.我们的模型与现有最先进方法在Visual Genome（VG）[14]测试集上的约束场景图分类（SGCls）和谓词分类（PredCls）的比较结果。Ours w/o ST+GSA、Ours w/ GSA、Ours w/ ST和Ours-Full分别表示我们的基线模型、我们的模型只包含Graph Self-Attention模块、我们的模型只包含Semantic Transformation模块和我们的完整模型。†表示从相应论文中获得的结果。基于我们的实施的结果被标记为* 本文件迟交。最好的表演是大胆的。数据集模型SGCls PredCls代来评估我们提出的方法[37，9]。（1）场景图分类（SGCl）：给定实体的真实边界框，目标是预测图像中所有实体和关系的类别。此任务需要正确检测主语-谓语-宾语>的三元组。（2）谓词分类（PredCls）：给定一组具有相应本地化和类别的地面实况实体边界框，目标是预测实体之间的所有关系。在我们所有的实验中，我们执行图约束评估，这意味着返回的三元组必须与场景图一致。此外，我们报告的结果在无约束的设置。比较方法：我们将我们提出的方法与VG上的以下方法进行比较：语言先验（LP）[21]，迭代消息传递（ IMP ） [37] ， Neu- ral Motif [44] ， Graph R-CNN[38]，GPI [9]。上述方法的参数设置请注意，以前的一些方法使用略有不同的预训练过程或数据分割或额外的监督。为了进行公平的比较，我们使用它们发布的代码重新训练了Nerual Motif和GPI进行评估，并确保所有方法都基于相同的主干。4.2. 实现细节我们基于TensorFlow [7]框架在单个NVIDIA 1080 TiGPU上实现了我们的模型。与场景图生成中的先前工作类似 [19 ， 37] ，我们采用 Faster R-CNN （使用ImageNet预训练的VGG 16）[31]作为我们目标检测模块的骨干在[19，37，44]之后，我们采用两阶段训练，其中对象检测模块被预先训练用于捕获la。bel类别的可能性作为我们的高级特征。此外，语义转换模块被实现为用于语义投影的三个300大小的层和用于特征嵌入的一个全连接（FC）层，其输出大小为500的向量，并且词向量是从VisualGenome with Glove的文本数据中学习的[24];图自注意模块由一个FC层实现，该FC层输出大小为500的向量，并且我们在等式中设置k = 8。（9）作为多头注意;关系推理模块被实现为大小为500的三个FC层，并输出对应于数据集中的语义标签的大小为150的实体概率向量和大小为51的关系概率向量。我们通过使用Adam作为优化器执行端到端训练，初始学习率为1×10−4，一阶和二阶矩估计值的指数衰减率设置为0。九比零。999，分别为-活泼地我们采用小批量训练，批量大小为20。我们的联合损失函数Eq.式（12）中，λ1：λ2：λ3= 4：1：1。4.3. 定量比较如表 1 所示，我们比较了我们的模型与 VisualGenome上最先进的方法的性能。我们可以看到，我们的模型优于所有以前的方法的任务SGCls。我们的完整模型“Ours-Full”达到38。2%和40。在50时召回率为4%，召回@50召回@100召回@50召回@100[第21话]11.814.127.935.0[37]第三十七话21.724.444.853.0图R-CNN [38]29.631.654.259.1[44]第四十四话35.836.555. 8分65秒。2†五十八3分67秒。1†[9]第九章36.538.8五十六3分65秒。1†六十岁。7分66秒。9†ST-GSA-nosemanticloss-sum36.638.856.460.3ST-GSA-nosemanticloss-multiply34.036.853.559.7ST-GSA-nosemanticloss-concat36.238.455.459.9VGST-GSA-sum36.939.156.661.1ST-GSA-multiply36.638.456.260.7ST-GSA-无字嵌入37.339.855.760.6ST-GSA-单头37.940.156.360.9我们的，不含ST+GSA34.635.354.357.6Ours w/GSA37.239.454.859.9我们的w/ST37.340.155.260.9Ours-Full38.240.456.661.33965表2.在Visual Genome的测试集上，我们的完整模型的谓词分类召回率显示了前20个最常见的类型评价指标是召回率@5。谓词我们谓词我们对98.54坐在80.89具有98.18之间78.62的96.17下66.17穿着99.46骑93.01在90.85面前66.29附近93.41站在77.84与88.20走在90.05背后88.72在73.19控股91.44附接到84.01穿95.90属于81.62Recall@100，在这两个指标方面都超过了强基线方法GPI约2%它表明了我们的模型在捕捉实体对之间的关系方面的超强能力。此外，我们的完整模型也产生了更好的性能方面的PredCls，证明了我们的模型的能力，在识别关系准确。注意PredCls任务只是试图检测需要较少结构信息的预测。而我们提出的语义转换模型和图自注意模块在联合学习图结构方面表现最好。与其他类似的基于图的方法相比，例如。迭代消息传递（IMP）[37]和图R-CNN [38]，我们的模型可以通过关注相邻节点来捕获每个节点这些优点使我们的模型优于[37]和[38]。此外，表2显示了我们的模型在VisualGenome测试集上的illustrator类型谓词召回性能。我们发现，我们的模型实现了高召回@5超过0。85，以及一些不太频繁的，更难学习的谓词，例如。“走”和“骑”。原因是我们的框架能够通过更好地建模上下文信息和多样化的图形表示来克服不均匀的关系分布。4.4. 消融研究在本小节中，我们进行消融研究，以更好地检查所介绍的两个模块的有效性。图形自我注意模块：如表1所示，与我们的基线模型（ “Ours” ）相比，图形自我关注模块（ “Ours w/GSA”）带来了很大的改进w/o ST+GSA此外，我们的模型仅具有图自注意模块（改进主要是通过加权近邻嵌入产生的关注特征，帮助每个节点根据上下文关系关注近邻节点的特征。因此，整个模块能够在整个图中捕获更有意义的上下文，图5.图自我注意力模块的一个例子。左侧示出了具有对象检测结果的测试图像。右上方示出了从其他实体到实体“人”的注意力权重图6.语义转换模块的一个例子。左边是一个示例图像，其实体边界框可视化。右边是场景图分类中三维空间中实体和关系特征的PCA可视化。红点表示检测到的对象、谓词和主题的标签。增强场景图生成。此外，我们在模块中开发了我们提出的多头注意机制的有效性。如表1的中间部分所示，我们的多头模型在SGCl和PredCl方面的图5示出了帮助生成场景图的图自关注的示例。我们的模型将“ski”分配地面实况场景图证明检测到的关系与地面实况匹配。语义转换模块：如表1所示，我们的模型只有语义转换模块（“Ours w/ ST”）优于所有最先进的结果和我们模型的其他变体，即“Ours w/o ST+GSA”和“Ours w/GSA”这表明所提出的语义转换模块在生成更好的场景图中的重要性。此外，我们还研究了提出语义转换损失函数L语义以及不同的特征融合方法。我们介绍-为特征融合引入了三种无语义损失的变体，即：concatenate（此外，委员会认为，3966图7.我们提出的注意关系网络的定性结果。绿色和棕色边界框分别是正确和错误的预测（至于棕色标签，我们的预测在括号外，而地面真理在括号内）。在场景图中，绿色和棕色长方体分别是正确和错误的关系预测。虚线表示被我们的模型错误分类的地面真值关系。仅显示与地面实况重叠的预测框。我们还研究了其他三个语义损失的变体，即，求和（ “ST-GSA-sum” ）、逐元素乘法（ “ST-GSA-multiply”）、仅视觉特征（“ST-GSA-nowordembed”）。如表1所示，通过我们的语义转换连接投影特征实现了最佳性能，这表明我们的损失函数，结合词嵌入和连接操作是有效和必要的。通过检查图6所示的3D空间中的PCA可视化，我们发现了我们模块的实体类型和关系嵌入之间的语义相似性同时，我们注意到在三维空间中，宾语节点、谓语节点和主语节点有明显的聚集。此外，我们还发现现有的视觉关系可以被转换到一个公共的语义空间（图6中用橙色圆圈表示），在这个空间中实体和关系节点近似线性连接，例如. ，track-for-train>和<火车附近的人>.实验结果表明，该模型能够学习语义知识，将视觉特征和文字嵌入转换到关系空间，有利于场景图的生成。4.5. 定性结果为了定性地验证构建的场景图和我们提出的模型学习的视觉关系，图7展示了Visual Genome数据集上场景图生成实验结果表明，该模型能够正确地预测图像中的大部分视觉关系作为示例，在图7（a）中正确地检测场景图中的所有视觉关系，其具有复杂的结构和几种不同类型的对象。此外，我们的模型是能够解决的二义性，在客体-主体方向。例如，我们的模型在图7（b）中正确地预测了人的耳朵>和人戴领带>。此外，我们观察到，我们的模型可以预测谓词比基本事实注释更精确，并作出更合理的正确预测，例如，在图7（d）和（f）中，我们的模型输出了elephant-has-leg>和man-wearing-shirt>，而基本事实是elephant-on- leg>和man-has-shirt>，它们并不适合这种情况。然而，在我们的模型中仍然有一些失败的情况。第一，某些错误源于谓词歧义.我们的模型通过图7（f）和（e）中的瓶在柜台上>和线在桌子上>来预测瓶在柜台上>和线挂在桌子上>时产生了误导第二，有些错误是由于检测器的故障造成的。例如，我们的模型未能检测到图7（f）中的“食物”和“人”之间的任何关系在图7（b）中，“门”和“支架”分别被“屏幕”和“机柜”误导。先进的目标检测模型将有利于提高性能。5. 结论在本文中，我们提出了一种新的注意关系网络的场景图生成。我们引入了一个语义转换模块，将视觉特征和语言知识投影到一个公共空间中，以及一个用于联合图表示嵌入的图自注意模块。在Visual Genome数据集上进行了大量的实验，我们的方法在场景图生成上优于现有的方法，这证明了我们模型的有效性。谢谢。本工作得到了国家自然科学基金（No. 61573045）和国家自然科学基金创新研究群体基金（No. 61421003）。我们还要感谢NSF的支持（奖项编号1813709，1704309和1722847）。齐孟诗感谢国家留学基金管理委员会的资助。3967引用[1] 博格丹·阿列克谢，托马斯·德塞拉尔斯和维托里奥·法拉利。测量图像窗口的客观性TPAMI，34（11）：2189[2] Yuval Atzmon 、 Jonathan Berant 、 Vahid Kezami 、 AmirGloberson和Gal Chechik。学习归纳图像理解中的新构图。arXiv预印本arXiv：1608.07639，2016年。[3] Antoine Bordes，Nicolas Bronnier，Alberto Garcia-Duran，JasonWeston，and Oksana Yakhnenko.为多关系数据建模转换嵌入。在NeurlPS，2013中。[4] Bo Dai，Yuqi Zhang，and Dahua Lin.使用深度关系网络检测视觉关系。在CVPR中。IEEE，2017年。[5] Ali Farhadi、Mohsen Hejrati、Mohammad Amin Sadeghi、PeterYoung、Cyrus Rashtchian、Julia Hockenmaier和David Forsyth。每张照片都在讲述一个故事：从图像生成句子。在ECCV。施普林格，2010年。[6] Andrea Frome，Greg S Corrado，Jon Shlens，Samy Bengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度的视觉语义嵌入模型。在NeurlPS，2013中。[7] Sanjay Surendranath Girija。Tensorflow：异构分布式系统上的大规模机器2016年。[8] 罗斯·格希克。快速R-CNN。在ICCV。IEEE，2015年。[9] Roei Herzig，Moshiko Raboh，Gal Bohik，Jonathan Berant，and Amir Globerson.用置换不变结构预测将图像映射到场景图在NeurlPS，2018年。[10] Seong Jae Hwang 、 Sathya N Ravi 、 Zirui Tao 、 Hyunwoo JKim、Maxwell D Collins和Vikas Singh。Tensorize、factorize和regularize：强大的视觉关系学习。[11] Justin Johnson ， Ranjay Krishna ， Michael Stark ， Li-Jia Li ，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索。在CVPR中。IEEE，2015年。[12] Thomas N Kipf和Max Welling基于图卷积网络的半监督分类。在ICLR，2017。[13] Ranjay Krishna，Ines Chami，Michael Bernstein，and Li Fei-Fei.关于关系。在CVPR中。IEEE，2018年。[14] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， Justin Johnson ，Kenji Hata ， Joshua Kravitz ， Stephanie Chen ， YannisKalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV，123（1）：32[15] Svetlana Lazebnik，Cordelia Schmid，and Jean Ponce.除了功能袋之外：用于识别自然场景类别的空间金字塔匹配。在CVPR中。IEEE，2006年。[16] 李向阳和蒋树强。知多说少：基于场景图的图像加帽。TMM，2019年。[17] Yikang Li，Wanli Ouyang，and Xiaogang Wang. Vip-cnn：用于视觉关系检测的视觉短语推理卷积神经网络在CVPR中。IEEE，2017年。[18] Yikang Li ，Wanli Ouyang，Bolei Zhou ，Jianping Shi，ChaoZhang，and Xiaogang Wang.可因式分解净值：一个有效的基于子图的场景图生成框架。在ECCV。Springer，2018.[19] Yikang Li ， Wanli Ouyang ， Bolei Zhou ， Kun Wang ， andXiaogang Wang. 从对象、短语和区域标题生成场景图在ICCV。IEEE，2017年。[20] 梁晓丹，李丽莎，邢P。用于视觉关系和属性检测的深度变分结构强化学习在CVPR中。IEEE，2017年。[21] Cewu Lu，Ranjay Krishna，Michael Bernstein，and Li Fei-Fei.视觉关系检测与语言先验。在ECCV。施普林格，2016年。[22] Alejandro Newell和Jia Deng。通过关联嵌入将像素转换为图形.InNeurlPS，2017.[23] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。InNeurlPS，2017.[24] 杰弗里·彭宁顿理查德·索彻克里斯托弗·曼宁Glove：单词表示的全局向量。在EMNLP，2014年。[25] Julia Peyre，Ivan Laptev，Cordelia Schmid，and Josef Sivic.视觉关系的弱监督学习。在ICCV。IEEE，2017年。[26] Bryan A Plummer 、 Arun Mallya 、 Christopher M Cervantes 、Julia Hockenmaier和Svetlana Lazebnik。综合图像语言线索的短语定位和在CVPR中。IEEE，2017年。[27] Mengshi Qi，Jie Qin，Annan Li，Yunhong Wang，Jiebo Luo，and Luc Van Gool. stagnet：一个用于群体活动识别的专注语义rnn。在ECCV。Springer，2018.[28] 孟世奇，王运宏，李安南。基于二进制表示和语义图的在线跨模态场景检索。在MM。ACM，2017。[29] Vignesh Ramanathan，Congcong Li，Jia Deng，Wei Han，ZhenLi ， Kunlong Gu ， Yang Song ， Samy Bengio ， CharlesRosenberg，and Li Fei-Fei. 学习语义关系以更好地检索图像中的动作。在CVPR中。IEEE，2015年。[30] Joseph Redmon ， Santosh Divvala ， Ross Girshick ， and AliFarhadi.你只看一次：统一的实时物体检测。在CVPR中。IEEE，2016.[31] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：用区域建议网络实现实时目标检测。InNeurlPS，2015.[32] Mohammad Amin Sadeghi和Ali Farhadi。使用视觉短语的识别在CVPR中。IEEE，2011年。[33] Damien Teney，Lingqiao Liu，and Anton van den Hengel.图形结构表示的视觉问题回答。在CVPR中。IEEE，2017年。[34] Ashish Vaswani 、 Noam Shazeer 、 Niki Parmar 、 JakobUszkoreit、Llion Jones、Aidan N Gomez、Vukasz Kaiser和IlliaPolosukhin。注意力是你所需要的。InNeurlPS，2017.[35] Petar Velickovic 、 Guillem Cucurull 、 Arantxa Casanova 、Adriana Romero、Pietro Lio和Yoshua Bengio。图注意力网络。在ICLR，2018年。[36] Sanghyun Woo ， Dahun Kim ， Donghyeon Cho ， and In SoKweon. Linknet：场景图的关系嵌入。在NeurlPS，2018年。[37] Danfei Xu，Yuke Zhu，Christopher B Choy，and Li Fei-Fei.通过迭代消息传递生成场景图。在CVPR中。IEEE，2017年。[38] Jianwei Yang，Jiasen Lu，Stefan Lee，Dhruv Batra，and DeviParikh.用于场景图生成的图r-cnn。在ECCV。Springer，2018.[39] 徐阳，张汉旺，蔡剑飞。混洗后组装：学习对象不可知的视觉关系特征。在ECCV。Springer，2018.[40] Ting Yao，Yingwei Pan，Yehao Li，and Tao Mei.探索图像字幕的视觉关系。在ECCV。Springer，2018.[41] Gu

下载后可阅读完整内容，剩余1页未读，立即下载