场景图中关系的探索和上下文信息对于对象识别具有重要作用

78 浏览量更新于2023-10-19 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8188场景图生成王文斌1、2、王瑞平1、2、单世光1、2、3、陈西林1、21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京，1000493深圳市鹏程实验室，518055，中国wenbin.wang @ vipl.ict.ac.cn，{wangruiping，sgshan，xlchen}@ict. ac.cn摘要关系是场景图的核心，但由于其复杂的视觉多样性，其预测效果还很不理想。为了缓解这个问题，我们把关系作为一个抽象的对象，探索不仅有意义的视觉模式，但上下文信息，这是两个关键方面时，考虑对象识别。我们对现有数据集的观察表明，关系之间存在密切的关联因此，受瓶对计数器对玻璃为了成功地将上下文应用于面向对象的任务，我们特别为关系构建了上下文，其中所有这些关系都被收集起来，以便识别可以从它们的关联中受益。此外，准确的识别需要对物体有区别的视觉模式，关系也是如此。为了发现有效的关系模式，传统的关系特征提取方法，如使用联合区域或组合的主-客体特征对，被我们提出的相交区域，侧重于更重要的部分取代。因此，我们提出了我们所谓的关系C上下文-输入选择区域（CISC）方法。在Visual Genome数据集上的场景图生成实验和在VRD数据集上的视觉关系预测实验表明，关系上下文和相交区域都提高了性能，实现了预期的功能。1. 介绍场景图有助于更高层次的场景理解。最近，一些作品[41，20，48，42，19，27，7，18，49，21，23，51，43]集中于发现对象之间的关系或生成场景的图形表示，其包含作为节点的对象和作为边的它们的关系。此外，场景图已经发展成为一个有前途的替代高级智能视觉图1.场景图的例子。所有场景图都是从我们的基线方法[41]中生成的，给定了地面真实对象。虚线箭头意味着模型错过了这种关系，而实线箭头则被正确检测到。任务，如图像字幕[24，40，45]，图像生成[13]和视觉问题回答[2，38，39，40]。然而，场景图生成仍然是一个具有挑战性的问题，由于预测的成对关系的复杂性，尽管已有研究提出了一系列改善关系预测的技术，但视觉模式和上下文信息这两个对象识别中的关键方面，仍然没有被深入考虑到关系。让我们首先关注上下文信息，它从未被用于关系。为什么要考虑呢？图1、忽略了玻璃与柜台、猫与脸、猫与头的关系。事实上，许多相同的关系（例如，瓶子在柜台上，猫有耳朵）附近已被正确检测。换句话说，在预测特定关系时，现有方法只关注与之相关的区域对，而忽略了其他可能有助于推理本身的关系一旦对应的对象对不能为关系推理提供足够强的证据，方法就会失败。面具有猫有具有耳朵爪子头具有具有尾巴8189（sheep 1-near-sheep2）（elephant-on-land）戴上它，就职属于具有夹持骑行部位的骑着玩坐着在后面飞着走着附在中间画着走着生长着携带着看站着说躺在停在上面，从前面垂下来看在后面被覆盖在使用中沿着由覆盖物和反对对面制成到0.0 0.20.4RR@N0.60.8 1.0共现[4，5，48，22]和建模对象上下文的方法各不相同。与对象不同的是，两个关系之间的直接和显式关联不容易建模，因此我们希望能够收集所有的关系信息，使它们建立隐式的联系。通过这种方法，关系的语义和视觉模式受[4]的启发，我们使用记忆来为关系构建这样的上下文，其中存储所有关系信息并进行推理我们将证明，图2.关系出现不少于N次的图像的比例，用RR@N表示。绿色条用于N=2，而蓝色条用于N=3。（戴帽子的男人）函数并捕获频繁重复律。除了语境信息外，视觉模式是物体的另一个重要方面，关系也是如此据我们所知，目前的所有工作都是从联合区域[41，18]中获得关系特征，联合区域是主体和客体区域的最小闭包，或者是主体和客体特征的组合[49]。这样的组合式表示可能不会暴露关系的真实视觉模式，并且主要具有两个缺点。首先，大量的联合区域相互重叠[19]。图中的左图。3（a）举了一个例子。关系-（男子-持有-手套）（一）（cattle-on-land）（zebra1-near-zebra2）（giraffe1-near-giraffe2）（b）第（1）款船的特征太相似了，模型无法区分。图3. (a)左图显示了联合区域重叠的高概率。人（黄色框）和帽子（蓝色框）、人和手套（粉色框）的并集区域相同（红色框）。右边的图像显示了两个盒子相交时的(b)两个盒子不相交时相交区域的一种情况。为了进一步揭示关系的潜在发生模式，我们使用Visual Genome数据集[ 15 ]（VG）检查其中关系出现不少于N次的图像的分数，用“代表率（RR @ N）"表示由于长尾分布的存在和最罕见的关系很少出现在正常的场景中，我们调查了50个最常见的关系。如图2、重复是手工标注中关系的普遍现象。是什么导致了这一事实？我们知道，对象范畴的数量远远多于关系范畴。不同的对象对可以用相同的关系来描述，只要它们共享相似的视觉模式。另一方面，英语中存在着大量的固定短语结构，如 “elephant-has-head”, and“elephant-has- ear”), which is also indicated in [因此，许多关系往往在图像中重复。这些观察结果与人类的语言习惯是一致的。从以上观察，关系之间存在着强烈的关联，这促使我们利用语境来捕捉它。上下文以可理解对象的形式被广泛应用另一方面，主体和客体区域也包含很多对象信息。因此，模型可能主要依赖于对象而不是关系模式本身来推断关系[43]。然而，关系，特别是几何谓词（例如，on，in）几乎不依赖于对象类别。在这项工作中，我们希望尽可能地将关系的视觉模式从对象中分离出来。提出了一种简单而有效的区域--相交区域，用于关系特征提取.如右图所示。3（a）（两个方框相交）和图3中的三个图像。3（b）（两个方框不相交），主体和客体的交互部分更有可能揭示关系的视觉模式，因为尽管客体不同，但这些区域中的视觉模式是相似的。VG和VRD数据集上的实验[23]证明了我们方法的有效性。2. 相关作品场景图形生成。[14]中首次提出了场景图用于图像检索。最近，一些方法[23，7，18，49，50，21，51，27，47，31，41，20，48，42，19，43]提出了检测对象和预测关系并发。其中大多数揭示了两个相关对象或对象及其对应关系之间的消息传递[41这种消息传递机制及其变体[42，19，20，18，48]的有效性得到了证明。在我们的工作中，我们特别关注关系之间的消息传递，创造性地利用关系之间的隐式关联，这有助于预测。N= 2N= 38190IJ我我我IJIJIJO O RS OROS， M，I上下文建模。上下文建模和推理[16，28，30，32，8，44，34，3，12，37]是场景或对象识别最有用的方法之一。一个变量-to refine精炼features特点.图中的棕色虚线双向箭头4（a）演示消息传递过程。在实际中，假设fO∈RD和fO∈RD是fea-I j关于场景理解的早期作品的一部分[36，17]，ob-主题识别[4，5，22，11]，属性推理[9，29]，图2是两个候选对象（从区域投影获得，方法，例如，[33]与vO和vO相关的RPN，I j人机交互[44]、动作识别[25]，受益于上下文。然而，在场景图生成或视觉关系检测任务中很少考虑上下文 Zellers等人[48]第一次尝试使用并且fR∈RD表示与vR相关联的关系特征，消息传递过程可以写为：IjΣ ΣmO=GO<$MO→O（fO），MR→O（fR）<$，（1）用于场景图生成的对象上下文当我们的专家构成的关系语境，与客体j∈NO伊季j∈NO在[48]中使用。我们进一步证明mR=GR。MO→R（fO），MO→ROΣ（二）伊日（fj），这种关系的背景是不可忽视的对象CON-fO←UO（fO，mO），（3）文本，甚至在关系中扮演更重要的角色i ii以对象为中心的任务。fR←UR（fR，mR），（4）关系特征提取。几乎所有的pub其中mO∈RD和mR∈RD表示接收到的消息伊伊季Lished场景图生成或视觉关系检测分别由节点vO和vRNO代表邻居伊伊方法必须为关系构造初始特征船最通用的方法包括计算联合区域[41，18，7]并将其馈送到局部特征提取模块（例如，RoI池化层[10]），或组合主体和对象特征[49]。这些方法是直观的和工作，但要么缺乏歧视或严重依赖于对象信息。我们提出的相交区域集中在更本质的部分，更接近真实的视觉模式的关系。3. 方法我们的目标不仅是在对象语境之外，特别构建关系语境，以捕捉关系之间隐藏的关联，而且要为它们发现更多的区分性视觉模式为此，我们的方法，关系C上下文-输入SeC tion区域（CISC），被设计，这将在下面的小节中描述。3.1. 基本场景图模型我们的框架是基于一个基本的场景图模型，细化表示对象和关系与显式的消息传递机制。因此，我们首先描述它的一般骨架。1在基本的场景图模型中，对象和关系被分别建模，|C|对象类和|R|关系类。它们可以被记录为节点v，一个虚图G=（V =V OV R，E），如图所示在图中的内部虚线框中。4（a），其中v O∈V O表示对象Sct，vR∈VR表示关系，并且边e=（v，v）（v，v）（v，v）∈E意味着如果对象iVO。MO→O、MR→O和MO→R是从节点特征中提取有用信息的消息处理函数。它们的上标表示消息传递的方向（例如.R→O表示GO和GR表示聚集函数，集成来自源的消息。UO和UR分别是对象和关系的更新函数。在消息传递过程之后，细化的特征可以用于进行预测。在下一小节中，我们将根据这个通用框架构建上下文。3.2. 关系情境构建利用基本场景图模型获得的对象和关系的表示，可以构造上下文。然而，与具有共现关联的对象不同，很难对任何两个关系之间的显式和可解释的关联因此，隐式地构造关系上下文是解决基本场景图模型中关系间消息传递缺失的另一方面，我们也希望关系上下文保持图像的二维空间结构，以便特定关系可以受到周围相似关系的影响，如果存在的话。内存[4，5]满足我们的需求。在[4，5]中，内存用于对象上下文构造。先前检测到的对象的信息被保存到存储器中，这为进一步的对象推理提供了上下文。假设有N个对象实例O=[O1，O2，. . . .，O N]，以被检测到。则迭代检测模型M为ij i ijjIJ期望最大化对数似然：和j是相关的，在v，O和，v，O之间有边。.Σi j i和vR，以及vO和vR。每个节点都有自己的功能洛·奥洛格·P（t）。（t−1）1：N 1：N、（五）ij ij ijf并向邻居广播信息，2该特征是一个一维向量，当引用81911我们不区分“主体”和“客体”，而是使用“客体”。 “一致”，而不是“一致”。我们用消息传递或预测过程，而在内存更新过程中，它是一个具有空间大小的张量，除了有额外的解释。81921：N1：N1：Nfp，l(a) 基本场景图（SG）模型的详细信息。（c）框架（以联合区域为例提取关系特征）。图4. (a)基本场景图模型的详细信息。消息传递在等式中描述。并且通过内部虚线框中所示的构造的虚拟图G来执行预测。(b)上下文推理网络的体系结构。(c)我们方法的框架。在获得对象和关系的初始视觉特征之后，初始迭代被触发并产生预测信息。在以后的每一轮记忆迭代中，预测的信息与它们的初始视觉特征一起用于更新记忆。然后两个记忆负责进行上下文推理过程，并为进一步的预测提供更新的特征。时间复杂度O（t）代表所有物体的预测尽可能地在记忆中。因此，输入到时间步t和内存S（t-1）编码最后时间步t-1的所有对象的信息。S（0）是一个空的代数。实际上，S是一个三维张量，h×w×c。h和w与通过特征提取处理的图像I的特征图的空间大小相同网络c是深度大小，以便内存存储额外的每个空间位置的有用信息。自然地，我们考虑用记忆来构建关系语境。让C表示关系记忆。 K关系R=[R1，R2，R3，. . .，R K]需要被分类。理论fOinp，fRinp应该包含固定的初始视觉特征以及预测信息（在图11中由四个4（c））：f0inp= ReLU（Fc（p0）+Fc（10）+Conv1×1（f0）），（7）fRinp=ReLU （ Fc （ pR ） + Conv1×1（ fR ）），（8）其中全连接层和卷积层用于统一维度。其次，让内存更新的尾部（由图中的四个4（c））。由于记忆不应该忘记非自愿获得的信息，我们利用更新机制-（吨）1：K对时间步t（0）GRU [6]是一种RNN。因此，我们认为作为格鲁乌细胞的记忆在一个GRU细胞，以前AC-而C1：K是空的。我们将检测模型M扩展为我们的整个框架。关系预测部分M被期望为maxim。ize：.Σ所需的信息作为内部状态存储，这也会类似地，由fOsta和fRsta表示的存储器的状态通过应用RoI池来获得L.R.奥洛格PR（t）。C（t−1），M，I.（六）对记忆进行操作。最后，新功能包括1：K1 ：K接下来，我们描述整个框架，如图1所示。第4（c）段。得到的物体表示fO计算与GRU和内存更新与逆ROI池操作（类似于上述操作[46]中的iR，它将要素放回其原始空间从前端对象检测器和特征fij，利用关系特征提取方法立即被输入基本场景职位）：f·new=z<$f·sta+（1−z）<$σ（WUf·inp+WH （rf·sta）），（9）图模型，并作出预测，如图。第4（a）段。预测信息包括对象类得分pO∈RN×|C|和位置lO∈RN×4|C|（4表示边界框的四个坐标），并且关系类得分pR∈RK×|R|. 这是初始迭代。后面的内存迭代从内存更新开始。首先，我们希望记住尽可能多的已知信息-RoI池存储器(b)上下文推理的细节初始迭代记忆迭代记忆迭代（二次）输入f对象特征（地图/矢量）f更新F-100F布津普FC输入更新p，lp输入更新法辛普FC✔✔关系特征（地图/矢量）f输入fF-100更新基本SG模型基本SG模型对象边界关系边界消息传递CLSbboxrel clsConv 3x3/512Conv 3x3/512检测器上下文上下文ReLUConv 3x3/512ReLUFpC8193S=InvRoIP （ fOnew ）， C=InvRoIP （ fRnew ）其中·代表0或R，z和r是标准GRU中的更新和重置门，W_U和W_H是可学习的卷积参数，σ是S形函数，并且σ表示逐元素乘积。InvRoIP表示反向RoI池化。现在，对象记忆和关系记忆承担了责任，其中上下文推理过程是一致的。8194XXyy4. 不相交，满足条件（12）但违反条件（11）：Bisc =[ min（xi，xi），min（ci，cj），11yy（十六）max（xi，xj），max（ci，cj）]22yy(a) 情况1，相交（包括或重叠）。（b）情况2，不相交。在实验部分，我们将介绍如何在实践中使用和评估我们的相交区域。(c) 第三种情况，分离。(d) 案例4，分离。4. 实验在下面的小节中，我们首先阐明实验图5.相交区域的四种情况红色实心框是对象框，而蓝色虚线框是我们设计的相交区域.案例1包含两种情况。管道由于记忆包含语义和视觉信息，卷积用于帮助整合它们并将特定对象或关系的信息传播到表面。环境。与[5]类似，上下文推理是用三个3×3卷积和残差结构实现的第4（b）段。特别是对于关系，这个过程利用了大量相似的视觉模式，并帮助模型学习更好的表示。在上下文rea之后-从这两个记忆中获得声音、对象和关系特征，并用于进一步的预测。3.3.相交区域如在第二节介绍1、现有的关系特征提取方法要么缺乏区分度，要么对对象依赖严重。我们提出了图中所示的相交区域。5.聚焦于更本质的部分，减少分散注意力的对象信息。我们精心设计它考虑了相交和不相交的情况。给定边界框[xi，yi，xi，yi]和[xj，yj，xj，yj]设置，包括数据集、评估度量和实现细节。最后给出了实验结果。4.1. 实验设置数据集。Visual Genome是用场景图注释的最大数据集。然而，在先前的作品中使用了不同的分裂我们遵循[41]中的分裂，这是最常用的。分割包含75，651张用于训练的图像选择最常见的50个关系类别和150个对象类别作为预测目标。此外，VRD [23]是视觉关系检测的标准数据集，包含4,000张用于训练的图像和1,000张用于测试的图像100对象类别和70关系类别被认为是。评价我们采用三个通用的评估任务来生成场景图：（2）场景图分类（SGC LS）：给定任意两个对象的地面实况位置，预测它们的类别和关系，以及(3) 场景图生成（SGGEN）：检测对象并预测成对关系，以及具有11 2211 22至少有0.5个IoU与他们的地面实况框重叠，对于两个对象i和j，其中x1，x2是水平边界，aries和y1，y2是垂直边界，我们首先判断他们的相对位置。设（ci，ci）和（cj，cj）为中心被正确检测到。所有评估模式都使用召回@K度量，其中K可以是20、50或100。Xy xy两个点wox es，wi，hi，wj，hj是宽度和高度。我们给出两个辅助判断条件4.2. 实现细节基本场景图模型的选择节中3.1我们ijwi+w|cx − cx|≥（十一）2给出了基本场景图模型的一般框架在实践中-ijhi+hj因此，只要消息传递，就可以选择模型|cy − cy |≥有四种情况：（十二）2由Eq。（1-4）适用。我们选择[41]中提出的模型具有良好的性能，很受欢迎，易于实现。1. 交叉点直接获得相交框：Bisc=[ max（xi，xi），max（yi，yi），模型和训练细节。在实验中，我们比较了合并区域和交集的结果1 1 11（十三）min（xi，xj），min（yi，yj）]地区此外，为了探索更好的性能-2 2 222. 不相交，满足条件（11）和（12）：Bisc =[ min（ci，cj），min（ci，cj），我们进一步尝试将这两种类型的fea结合起来-真的。Faster-RCNN [33]具有VGG-16 [35]骨架，XXyymax（ci，cj），max（ci，cj）]（14）3. 不相交，满足条件（11）但违反条件（12）：Bisc =[ min（ci，cj），min（yi，yj），8195选择作为我们的前端目标探测器，儿子在检测器被训练并且其层被冻结之后，然后在地面实况场景XX11max（ci，cj），max（yi，yj）]（十五）图形注释。此外，我们还尝试组装每次迭代的预测与注意力机制XX22819627.5五十一点八51.227.2R@100（%）我00.0%百分之零点零百分之零点零0.0%IMP**0.0%记忆百分之零点零[26]第10段。所以，当在每个迭代中进行预测时，同时，预测额外的注意权重。10.2更多细节可以在补充材料中找到。源代码使用Tensorflow3实现 [1]。28.0五十二点九4.3. 定量结果SGGenSGClsPredClsSGGenSGClsPredCls我们比较了以下模型，并提出了主要的iter=2iter=3iter=4（一）IMP**+DROPIMP**IMP**+IscIMP**+Isc+DROPIMP**+混合物（b）第（1）款定量结果见表1。Mem：我们的上下文利用模型。它使用联合区域来提取关系特征。Mem+Isc：我们的上下文利用模型，用我们的交集区域替换并集区域。Mem+Mix：我们提出的完整模型结合了两种类型的关系特征。Mem+Mix+Attention：基于模型Mem+Mix，我们进一步将来自每个迭代的预测IMP[41]：我们的基线使用联合区域来提取关系特征。我们重新实现这个模型，并使用我们的对象检测器重新训练它。在表1中，[41]和[42]中报告的该模型的结果与我们的结果一起呈现。IMP+Isc和IMP+Mix：分别用交集区域或组合版本替换IMP中使用的并集区域 Graph-RCNN[42]：它也是一种基于消息传递的场景图生成模型。VRD[23]：我们介绍了 [41] 中报道的场景图生成结果。Pixel2Graph[27] ：我们根据 [48] 报告其结果。MSDN[20]：它使用的VG分割与我们的不同。我们在我们的数据分割上训练和评估它，并报告原始和重新实现的结果。从表1中可以看出，在大多数指标下，我们重新实现的IMP模型的结果接近或优于原始版本和[42]重新实现的版本，这意味着我们的重新实现是正确的，下面提到的首先，通过对 Mem 与 IMP** 、 Mem+Isc 与IMP**+Isc 、 Mem+Mix 与 IMP**+Mix 的比较在下文中，我们将进一步比较关系语境和对象语境的重要性，并对关系语境的作用进行评价。另一方面，IMP**+Isc的性能优于IMP**，Mem+Isc在大多数指标下优于Mem。它显示了我们的交叉区域的有效性。最后，组合模型 IMP**+Mix 、 Mem+Mix 和Mem+Mix+Attention进一步提升了性能。值得注意的是，由于我们的基本场景图模型是IMP，限制了性能的上限，我们的模型在某些指标下不能超过Graph-RCNN或Pixel 2Graph等方法。然而，我们的组合模型Mem+Mix+Attention的结果接近它们，在某些指标下甚至更好。3我们的源代码可以在http://vipl.ict.ac.cn/resources/codes上找到。图6. (a)使用模型Mem的各种迭代的结果。(b)利用不同方法提取关系特征的性能。三个任务的结果显示在R@100度量下。内存评估VG数据集内18642图7.在VG数据集上测试的分类单个同品种器械的按类型召回@5。根据其重复率（RR@2），从左到右以降序列出了等同器械。4.4. 记忆的评价消融研究。为了比较对象记忆和关系记忆的重要性，我们考虑表1中的消融实验。Mem\ relaxed 和Mem\ objaxed代表删除关系内存模块，对象存储器模块。结果表明，关系记忆的去除比对象记忆的去除对成绩的损害更大。这意味着关系之间的关联是不可否定的，甚至比场景图生成任务中的对象之间的关联更重要多重迭代分析。我们研究了对模型Mem使用各种迭代的性能，如图所示。第6（a）段。我们发现3次迭代是最好的。由于内存在第一次迭代时是空的，它实际上只需要2次迭代来获取记忆的上下文。更多的迭代可能会增强噪声。同品种预测。为了探索关系记忆模块实际捕获的上下文，我们按照[41]评估分类单个谓词的每个类型的recall@5。图7，IMP的每种类型召回率根据同品种器械重复率（RR@2），从左至右以降序排列VG数据集上测试的Mem和Mem。我们可以发现，关系记忆改善了大部分重复率较高的谓词的结果（图中靠近左侧）7）尽管有一些离群值。对于这些谓词，记忆模块更容易提取类似的模式并学习更强的表示。而对于某些重复率较低的谓词，关系记忆的连贯性受到限制。在一些异常值上，例如。10.610.58.38.77.525.525.3二十四点七二十四24五十一点七50.85148.948.1R@100（%）戴上它，就职属于具有夹持骑行部位的骑着玩坐着在后面飞着走着附在中间画着走着生长着携带着看站着说躺在停在上面，从前面垂下来看在后面被覆盖在使用中沿着由覆盖物和反对对面制成到9.89.78197场景图生成场景图分类谓词分类模型R@20R@50R@100R@20R@50R@100R@20R@50R@100VRD [23]-0.30.5-11.814.1-27.935.0IMP [41]-3.44.2-21.724.4-44.853.0[42]第四十二话-6.48.0-20.622.4-40.845.2Pixel2Graph [27，48]6.58.18.218.221.822.647.954.155.4dels[20]第二十话-10.714.2-24.326.5-67.071.0O[20]第二十话-11.114.0------M[42]第四十二话-11.413.7-29.631.6-54.259.1IMP**（基线）4.26.88.315.721.424.729.940.448.9IMP**+Isc4.77.38.716.621.924.831.043.050.8IMP**+混合物5.38.010.517.322.625.531.744.251.7Mem4.87.610.219.525.028.032.344.952.9记忆+Isc5.07.910.519.425.028.031.945.252.4记忆+混合6.09.411.919.725.027.733.345.953.0记忆+混合+注意力7.711.413.923.327.829.542.153.257.9ons记忆\r4.57.39.719.024.527.731.944.051.9Lati记忆\目标4.87.410.019.325.027.932.044.652.5ABMem4.87.610.219.525.028.032.344.952.9表1. Visual Genome测试集上的结果表。所有数字均为%。IMP*：结果由[42]重新实施。IMP**：我们重新实施的结果。MSDN*：我们在VG数据分割上重新实现的结果。MSDN中关于PRED CLS和SGCLS的评估细节尚未发布。同品种器械分类模型R@50R@100DrNet [7]80.7881.90DrNet*78.1279.01DrNet*+Isc78.3779.43DrNet*+Mix78.7879.62表2. VRD测试集的结果。DrNet* 表示我们使用联合区域的重新实现。DrNet*+Isc和Dr-Net *+Mix使用相交区域或混合版本。因为这些谓词被其他语义相似的谓词严重遮蔽尽管如此，不可否认的是，关系记忆成功地捕获了重复规律，并帮助模型在大多数具有高重复率和明确语义的预测上学习更好的表示。4.5. 相交区域评价表1中的结果表明了相交区域的有效性。为了进一步验证通用性，我们使用[7]中的模型在VRD数据集上进行了另一个视觉关系检测实验我们重新实现了这个模型的一部分，给它提供了地面实况对象，只预测关系。原始模型包含几个单独训练的模块。我们端到端地训练它。结果示于表2中。虽然由于存在大量的歧义谓词，这种改进并不明显，但它仍然证明了相交区域的普遍性。(a) 在VG上测试IMP** 和IMP**+Isc。百分之一百百分之八十60.0%40.0%20.0%百分之零点零(b) 在VRD上测试DrNet* 和DrNet*+Isc。图8.对单个谓词进行分类的按类型召回@5。谓词根据它们对某些主宾对的依赖程度从左到右列出（左侧表示依赖性较小）。同品种预测。我们探讨了交叉区域对每个谓词的影响.我们首先计算每个谓词所关联的主宾对的数量。数量大的谓词可以描述更多类型的主宾对关系，对某一类型主宾对的依赖性小。（IMP**，IMP**+Isc）和（DrNet*，DrNet*+Isc）之间比较的每种类型召回率见图5。8. 谓词按照从左到右的降序排列，百分之一百百分之八十60.0%40.0%IMP**20.0%IMP**+Isc百分之零点零DrNet*DrNet*+Isc在后面，在后面，在后面的前面在下面，在左边，在右边在近在眼前，在上在下的后面在前面抱着坐在上面戴着附在站在那里看着，在佩戴之间，观看悬挂在属于骑行覆盖物的部分的背面的反对从吃饭到走路，安装在画在走在覆盖在做的玩生长在停在说飞在下方对的顶部一种可看可摸坐在搬运器上的手提包站在里面站在旁边穿公园旁边横跨连接到邻近的比骑包含坐在......旁边，靠着......走路拉手表靠在驱动器上使用在脸上休息站在后面开车在饲料外面睡觉在飞发挥与下静跟着吃滑冰在...旁边走在...旁边睡在...旁边坐在...下面坐在后面走过去走在旁边谈论公园后面打踢8198头发1引导具有具有穿着外套穿着穿着Jean夹克头发2具有具有具有具有具有头鼻子狗耳朵眼-2眼-1具有具有具有具具有鼻子头狗耳朵眼-2眼-1对书桌对书桌耳朵纸对脖子具有具有头耳朵纸在衬衫对脖子具有具有头在衬衫鼻子有有穿着人具有手部穿着鼻子有有具有具有穿着人具有手部穿着臂具有铁铁臂具有头发穿着玻璃头发穿着玻璃计数器对对瓶玻璃猫具有具有具有具有具有头脸耳朵爪子尾巴女性1对女人2人行道图9.在PRED CLS度量设置下的场景图示例。所有箭头（包括虚线和实线类型）都是地面实况关系，并由Mems正确检测。虚线箭头代表IMP** 的遗漏箭头。图10. SGG EN度量下比较IMP** 和Mem的场景图生成示例。在每一行中，左侧图像和场景图由IMP** 生成，而右侧图像和场景图由Mem生成。在图像和场景图中，红色框是预测的并且与地面实况重叠，黄色框是没有匹配的地面实况。在场景图中，红色边缘是真阳性，或- ange边缘是假阴性，紫色框和边缘是假阳性。场景图中的一些黄色框在图像中不存在，这意味着它们被正确检测到，但模型无法检测到它们与任何其他对象的关系。上面提到的无论在VG还是VRD数据集中，依赖性较小的谓词几乎都是几何类型。相交区域对这些谓词的预测特别有贡献，因为相交区域的特征更接近谓词的真实视觉模式，不太可能被物体信息干扰，同时与语义谓词相比，几何谓词对物体类别的依赖更小。椎体水平消融研究。由于传统的联合区域确实覆盖了我们的交集区域，因此自然会提出一个问题：在关系预测中起重要作用的是交叉区域吗？我们进行特征级消融研究。除了上面提到的模型IMP**、IMP**+Isc和IMP**+Mix之外，我们还进一步评估了另外两个模型。一种是通过设置另一种是将相交区域中的特征与 DROP 合并（ IMP**+Isc+DROP ）。结果示图第 6 （ b ）段。IMP**+DROP从IMP** 下降，而IMP**+Isc+DROP的性能与IMP**+Mix相似。这进一步证明了交叉区域的关键重要性。4.6. 定性结果在PRED CLS任务设置下比较IMP** 和Mem的定性示例9 .第九条。实验结果表明，该方法具有较高的谓词召回率。更重要的是关系上下文收集这些相似的模式，以改善关系表示和增强识别能力。图我们在VG测试图像上显示了使用Mem和IMP**生成的一些场景图实验结果表明，该方法在上下文的帮助下获得了更高的召回率。在补充资料中可以找到更多的定性结果，并举例比较了IMP** 和IMP**+Isc，以说明相交区域的优越性。5. 结论在场景图生成任务中，我们将关系视为抽象对象，考虑它们的视觉特征和上下文信息。我们发现，重复是关系中普遍存在的现象，因此，我们构建的关系除了客观的背景。实验表明，关系上下文确实捕捉到了重复规律，并且与对象上下文相比，更有助于场景图的生成。此外，交叉区域的提出，以帮助识别关系更多地依赖于自己的视觉模式，从我们的评估，我们的方法是通用的，并有潜力用于其他更好的基本场景图模型。尽管我们正在努力解决这一问题，但仍存在一些值得讨论的问题首先，场景图模型的性能对前端检测器的质量很敏感当探测器错过一些对象时，关系也将被错过。另一个问题是VG数据集存在严重的不平衡性，使得语义关系的理解难以它可以通过使用外部语言先验来缓解。鸣谢。这项工作得到了973计划的部分支持，合同号为：2015CB351802，国家自然科学基金项目，合同号：61390511，61772500，中科院前沿科学重点研究项目编号：QYZDJ-SSWJSC 009、青年创新促进会编号QYZDJ-SSWJSC 009 2015085.人WOM穿着穿着夹克sh一个IRT8199引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量流：一个大规模机器学习系统。在USENIX Symposium onOperatingSystemsDesignandImplementation（OSDI），第16卷，第265-283页，2016年。6[2] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。IEEEInternational Conference on Computer Vision（ICCV），第2425-2433页，2015年1[3] S.贝隆吉，J. Malik和J.普兹查形状上下文：一种用于形状匹配和目标识别的新描述子。神经信息处理系统进展（NIPS），第831-837页，2001年。3[4] X. Chen和A.古普塔。用于对象检测中上下文推理的空间记忆在IEEE计算机视觉国际会议（ICCV）的会议记录中，第4106-4116页二、三[5] X.陈湖，澳-地J.李湖，加-地Fei-Fei和A.古普塔。迭代视觉推理超越了回旋。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，第7239-7248页，2018年。二三五[6] 钟杰角，澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv：1412.3555，2014。4[7] B.戴，Y. Zhang和D.是林书检测视觉关系-船舶与深度关系网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，第3298-3308页，2017年。一、二、三、七[8] S. K. Divvala，D. Hoiem，J. H. Hays，A. A. 埃夫罗斯，还有M.赫伯特语境在宾语检测中的实证研究。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1271-1278页，2009年。3[9] A.法尔哈迪岛Endres、D. Hoiem和D.福赛斯通过属性描述对象。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1778-1785页，2009年。3[10] R. 娘娘腔。快速 R-CNN 。在 Proceedings of the IEEEInternational Conference on Computer Vision（ICCV），第1440-1448页，2015中。3[11] G. Heitz和D.科勒学习空间背景：用东西来找东西。在欧洲计算机视觉会议（ECCV）的会议记录中，第5302卷，第30- 3543. Springer，2008. 3[12] D. Hoiem，A. A. Efros，和M。赫伯特从一个单一的图像几何背景。在 2005 年 IEEE国际计算机视觉会议（ICCV）的会议记录中，第654- 661页。3[13] J. Johnson，A. Gupta和L.飞飞从场景图生成图像。在IEEE计算机视觉和模式识别会议（CVPR）中，第1219-1228页1[14] J. Johnson，R. 克里希纳，M。斯塔克湖J. Li，D. 莎玛M. Bernstein和L.飞飞使用场景图进行图像检索。IEEE计算机会议论文集视觉和模式识别（CVPR），第3668-3678页，2015年。2[15] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M. S.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志（IJCV），123（1）：32- 73，2017。2[16] L.拉迪基角Russell，P. Kohli，and P. H.乇基于同现统计的图割推理。在Proceedings of European Conference onComputer Vision（ECCV），第6315卷，第239-253页中。施普林格，2010年。3[17] L- J

下载后可阅读完整内容，剩余1页未读，立即下载