基于Transformer的端到端场景图生成

15 浏览量更新于2023-10-26 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19486OSGTR：基于Transformer的端到端场景图生成李荣杰1，3，4张松阳1，3，4何旭明1，21上海科技大学信息科学与技术学院2上海市智能视觉与成像3中国科学院上海微系统与信息技术研究所4中国科学{lirj2，zhangsy1，hexm}@shanghaitech.edu.cn摘要场景图生成（SGG）仍然是一个具有挑战性的视觉理解任务，由于其组成特性。大多数以前的作品采用自底向上的两阶段或基于点的一阶段的方法，这往往遭受高的时间复杂度或次优的设计。在这项工作中，我们提出了一种新的SGG方法来解决上述问题，制定任务作为一个二分图的建设问题。为了解决这个问题，我们开发了一个基于Transformer的端到端框架，首先生成实体和谓词建议集，然后推断有向边以形成关系三元组。特别是，我们开发了一个新的实体感知谓词表示的基础上，利用compo- sitional属性的关系的结构谓词生成器。此外，我们设计了一个图组装模块来推断基于我们的实体感知结构的二分场景图的连通性，使我们能够生成场景图在一个端到端的方式。大量的实验结果表明，我们的设计是能够实现国家的最先进的或具有可比性的性能，在两个具有挑战性的基准，超过大多数现有的方法，享有更高的推理效率。我们希望我们的模型可以作为一个强大的基线，基于变换器的场景图生成。11. 介绍推断场景的结构属性，例如实体之间的关系，是基本的视觉理解任务。两个实体之间的视觉关系可以典型地由三重<主体实体、预测实体、对象实体>来表示。基于视觉关系，场景可以被建模为图形结构，其中实体作为节点并且谓词作为边，被称为场景图形。场景图提供了紧凑的结构表示1本工作得到上海市科技计划项目21010502700的资助。代码可用：https://github.com/ Scarecrow 0/SGTR场景图实体提案没有一智能感知同品种器械提案图组装举行谓词骑下实体指标二分场景图没有一马-1骑Man-3下Man-2举行Man-1马-1下骑举行举行马-1马-1Man-3Man-2Man-1Man-3Man-1Man-2图1. SGTR流水线范例的说明。我们制定SGG作为一个二分图的建设过程。首先，分别生成实体和谓词节点。然后，我们组装的二分场景图从两种类型的节点。对于视觉场景，它在许多视觉任务中具有潜在的应用，例如视觉问题回答[8，25，31]，图像字幕[42，43]和图像检索[9]。不同于传统的视觉任务（例如，对象检测），场景图生成（SGG）的主要挑战在于建立一个有效的和高效的实体之间的关系模型视觉关系的组成属性在其组成方面引起高度复杂性，这使得难以学习用于定位和/或分类的关系概念的紧凑表示大多数以前的作品试图使用两种不同的设计模式来解决这个问题：自底向上的两阶段[1，4，5，7，14，18，40，44]和基于点的一阶段设计[6，23]。前者通常首先检测N个实体建议，然后预测这些实体组合的谓词类别。虽然该策略在发现关系实例时实现了高召回率，但其（N2）谓词提案不仅会产生相当大计算成本，上下文建模中的噪声在单阶段方法中，实体和谓词通常从19487以减少关系建议集的大小然而，它们依赖于交互区域的非重叠属性的强假设，这严重限制了它们在建模复杂场景中的应用。在这项工作中，我们的目标是通过利用场景图的组成属性来解决上述限制。为此，如图所示首先，我们将SGG任务表述为二分图构造问题，其中每个关系三元组表示为通过有向边链接的两种类型的节点（实体和谓词）这样的二分图使我们能够共同生成实体/谓词的建议和他们的潜在的关联，产生一个丰富的假设空间推断视觉关系。更重要的是，我们提出了一种新的实体感知谓词表示，将相关的实体提案信息到每个谓词节点。这丰富了谓词表示，因此使我们能够产生相对少量的高质量谓词建议。此外，这样的表示编码每个谓词和它的主语/宾语实体之间的潜在关联，这可以促进预测图的边缘，并导致有效的生成的视觉关系三元组。具体来说，我们开发了一个新的基于transformer的端到端 SGG 模型，称为场景图生成 TRans- former（SGTR），用于构建二分图。该模型由三个主要模块组成，包括实体节点生成器、谓词节点生成器和图组装模块。给定一幅图像，我们首先引入两个CNN+Transformer子网络作为实体和谓词生成器，分别生成一组实体和谓词节点。为了计算实体感知的谓词表示，我们设计了一个由三个并行的Transformer解码器组成的结构谓词生成器，它融合了谓词特征和实体指示符表示。在生成实体和谓词节点表示之后，我们设计了一个可微图组装模块来推断二分图的有向边，该模块利用实体指示符来预测实体和谓词节点的最佳分组。通过端到端训练，我们的SGTR学习从输入图像和实体提案中自适应地推断稀疏的关系提案集，这可以减轻噪声对象检测的影响。我们通过在两个SGG基准上的广泛实验来验证我们的方法：我们通过在两个SGG基准上的广泛实验来验证我们的方法：Visual Genome和OpenImages-V6数据集，并与以前的最先进的方法进行比较结果表明，我们的方法优于或达到相当的性能在这两个基准和高效率的推理。我们工作的主要贡献有三个方面：• 我们提出了一种新颖的基于变压器的端到端场景2例如，两种不同的关系不可能有很大程度上重叠的区域图生成方法具有继承两阶段和一阶段方法的优点的二分图构造过程。• 我们开发了一个实体感知的结构，利用视觉关系的组成特性。• 我们的方法在所有指标上都达到了最先进或相当的性能，并且具有更有效的推理。2. 相关作品我们将SGG/HOI的相关工作按照三个研究方向进行分类：两阶段场景图生成、一阶段场景图生成和一阶段人-物交互。两阶段SGG方法预测密集连接的实体对之间的关系。基于密集关系命题，许多以前的工作集中在建模上下文结构[10，18 再-研究开发了logit调整和其他训练策略，以解决SGG任务中的长尾识别[1，4，5，7，13，14，18，26，29，35，39，40，44]。两级设计能够处理SGG中遇到的复杂场景然而，正如在SEC中所讨论的那样。1，密集关系建议生成通常导致上下文建模中的高时间复杂度和不可避免的噪声。许多两阶段的工作提出了启发式设计来解决这些问题（例如. 建议生成[41]，有效的上下文建模[18，19，24，30，36，43]）。然而，这些复杂的设计往往依赖于下游任务的特定属性，限制了其表示学习的灵活性，难以实现端到端的优化。受完全卷积的一阶段对象检测方法[2，27，33]的启发，SGG社区开始探索一阶段设计。在一阶段方法中使用全卷积网络[23，32]或CNN- Transformer [6]架构来直接从图像特征中检测关系这些一阶段框架通常可以有效地执行，由于其稀疏的建议集。尽管如此，如果没有明确的实体建模，这些设计可能难以捕捉与现实世界场景相关的复杂视觉关系此外，大多数一阶段方法忽略了实体-关系一致性，因为它们独立地预测每个关系，而不是具有一致的节点-边缘约束的有效图结构。单阶段人-物交互我们的工作也与人-物交互（HOI）任务有关最近的趋势是研究人-物交互的一阶段框架[3，11，12，21，28，34，52，54]。特别是，[3，12]引入了一个有趣的框架，19488EG{V E}V∈GFG GF∈E联系我们一种双重解码器结构，它同时提取人、对象和交互，然后将这些组件分组为最终的三元组。这种解码分组方法提供了用于检测人和交互对象的分而治之的策略。受此设计的启发，我们在SGTR中提出了用于更一般SGG任务的二部图构造方法为了进一步改进实体与谓词之间的关联模型，我们提出了一个具有实体感知结构和图组装机制的谓词节点生成器。通过这样的设计，SGTR能够处理复杂的关系组合，并在SGG基准测试中实现强大的性能。3. 初步在本节中，我们首先介绍Sec中场景图生成的问题设置。3.1，然后在第二节中概述我们的方法。3.2.3.1. 问题设置场景图生成任务的目的是将输入解析场景=e、r，其中E是表示名词实体的节点集合，而R是表示主语和宾语实体对之间的谓词在有向边连接步骤中，我们设计了一个图组装模块，从实体和谓词的建议，生成二分场景图。我们的方法概述如图2所示，我们将在下面详细描述我们的模型架构。4. 我们的方法我们的模型由四个主要的子模块组成：（1）用于生成场景特征表示的骨干网络（第二节）。4.1）;（2）基于transformer的实体节点生成器，用于预测实体提案（第4.1节）。4.1）;（3）结构谓词节点生成器，用于解码谓词节点（Sec.（4）二分图组装模块，用于通过连接实体节点和实体感知的谓词节点来构建最终的二分图4.3）。模型学习和推理在第2节中详细介绍。4.44.1. 主干和实体节点生成器我们采用ResNet作为骨干网络，它首先为子模块生成卷积特征表示。受基于Transformer的检测器DETR [2]的启发，我们使用多层Transformer编码器来增强卷积特征。结果-具体地，每个实体vi一组实体类∈Ve有一个类别标签，将CNN+Transformer特征表示为ZRw×h×d，其中w、h、d是FEA的宽度、高度和通道。Ce和描绘其在图像中的位置的边界框，而每个边缘ei→j r在a一对节点vi和vj与谓词标签相关联从一组谓词类Cp中提取。真地图，分别。对于实体节点生成器，我们采用DETR的解码器，从一组可学习的生成场景图场景的一种可能方式是通过从给定图像提取关系三元组集合。在这项工作中，我们将关系三元组生成过程制定为二分图构建任务[18]。具体-我们的图由两组节点V，V，实体查询。形式上，我们将实体解码器定义为一个映射函数Fe，它以初始实体查询Qe∈RNe×d和特征映射Z为输入，输出实体位置Be∈RNe×4和类得分Pe∈ RNe×（Ce+1），以及它们相关的特征表示.e p sentationsH ∈RNe×d如下，它们分别对应于实体表示和谓词表示。这两组节点由两组有向边Ee→p，Ep→e哪里eBe，Pe，He=Fe（Z，Qe）（1）、表示从实体到谓词的方向反之亦然。因此，二分图具有如下形式：Gb={Ve，Vp，Ee→p，Ep→e}.3.2.模型概述我们的模型定义了一个可微函数sgg，它将图像I作为输入并输出二分图b，表示为b=sgg（I），这允许端到端的训练。我们建议通过利用关系的组合属性来显式地对二分图构造过程进行建模二分图的构造包括两个步骤：a）节点（实体和谓词）生成，以及b）有向边连接。在节点生成步骤中，我们分别使用实体节点生成器和谓词节点生成器从图像中谓词节点生成器基于三个并行子解码器用实体信息Be=b1，，bNe，b=（xc，yc，wb，hb）xc，yc是实例的归一化中心坐标，wb，hb是每个实体框的标准化宽度和高度。4.2. 谓词节点生成器我们的谓词节点生成器的目的是通过将相关的实体提案信息纳入每个谓词节点，生成一个实体感知的谓词表示这样的设计使我们能够编码每个谓词和它的主语/宾语实体之间的潜在关联，这可以促进预测图的边缘，并导致有效的生成的视觉关系三元组。如图2所示，谓词节点生成器由三个组件组成：（1）谓词查询初始化模块，用于初始化实体感知谓词查询（在第2节中）。4.2.2），（2）用于图像特征提取的谓词编码器（在第4.2.2节中）。4.2.1），以及（3）结构谓词解码器，用于解码一组实体感知谓词节点。(in秒4.2.3）。19489同品种器械编码器特性谓词查询初始化谓词编码器实体特征谓词子解码指示器子解码同品种器械-指示器融合× L结构谓词解码器可感知安全性的谓词节点实体位置实体要素实体查询实体节点实体节点发生器实体特征位置编码图组装谓词节点发生器Transformer编码器隐私感知等同节点同品种器械CNN特征∈∈p一pQp∈∈p∈--∈特征提取节点生成图构造谓词节点生成器图2.我们的SGTR模型的整体管道的说明。左）我们使用CNN主干和Transformer编码器来进行图像特征提取。引入实体和谓词节点生成器，生成实体节点和实体感知谓词节点。提出了一种图组装机制来构造最终的二分场景图。右）谓词节点生成器由三部分组成：a）谓词查询初始化，b）谓词编码器，c）结构化谓词解码器，用于生成实体感知的谓词节点。4.2.1同品种器械编码器基于CNN+Transformer特征Z，我们引入了一个轻量级的谓词编码器来提取谓词特定的图像特征。我们的谓词编码器，它具有类似的骨干Transformer编码器的结构，采用了一种形式的多层多头自注意通过跳过连接的前馈网络。由此产生的谓词-具体特征表示为Zp∈Rw×h×d。4.2.2谓词查询其中GeRNe×d是可学习的几何嵌入对于实体建议，WgR4×d是从边界框位置到嵌入空间的变换。给定增强实体表示，然后我们使用对初始谓词查询Qinit和Kinit的多头交叉注意操作来计算谓词查询Q e。为了清楚起见，我们使用（q，k，v）=FFN（ MHA（q，k，v））来表示多头注意操作。因此，我们有Qe=A（Qinit，Kinit，Vinit）We，其中We∈Rd×3d=[Wis，Wio，Wp]是变换矩阵e e e初始化谓词查询的一个简单策略是采用一组可学习向量，如DETR [2]中所示然而，这样的整体基于向量的查询设计不仅忽略了视觉关系的组成属性，而且忽略了实体候选信息。由此产生的表示不足以捕捉结构化和多样化的视觉关系。为了应对这一挑战，我们引入了一种组合查询表示，它将谓词查询（记为QeRNr×3d）分解为三个分量 Qis; Qio; Qp，其中主/客体实体指示符Qis，QioRNr×d3和谓词表示QpRNr×d. 具体地说，我们使用一组初始谓词查询QinitRNr×d和实体表示Be，He，以实体感知和场景自适应的方式生成谓词查询Q e. 为了实现这一点，我们首先构建一个几何感知的实体表示，如[45]所示，它定义了一组键和值向量∈ RNe×d，如下所示：Kinit=Vinit=（He+Ge），Ge=ReLU（BeWg），（2）3下标s、o分别代表主语和宾语。对于三个子查询，分别为Qis、Qio、Qp通过这种方式，我们获得了一个结构化查询，它将实体信息并入谓词查询。子查询Qis、Qio被称为实体指示符，因为它们将在下面用于捕获谓词-实体关联。4.2.3结构谓词节点解码器给定谓词查询Qe，我们现在开发一个结构谓词节点解码器，该解码器利用组合属性并解码来自实体/谓词特征映射的所有谓词三元组。我们的结构解码器由三个模块组成：a）预测子解码器; b）实体指示符子解码器; c）预测指示符融合。这两种类型的解码器分别采用编码器特征映射Zp和实体特征He，并独立地更新谓词查询的三个分量。基于更新的谓词查询组件，谓词-指示符融合细化整个谓词查询，旨在改善每个组合查询内的实体-谓词关联。具体来说，我们采用下面的标准Transformer解码器结构。为了表示清楚，我们关注单个解码器层并且省略每个子解码器内的层编号l19490˜˜A˜ ˜∈CLS∈∈∈p∈是io不同维度的匹配质量4.相应的-pp是io我是是ioioCCCCeeeeeeee˜˜∈∈下一层Ql+1、Ql+1、Ql+1。具体而言，我们全面采用dloc（·）和dcls（·）是测量距离的距离函数Rs=Ftop（Ms，K）∈RNr×K（7）使用索引矩阵Rs和Ro，我们能够以及自注意操作的符号。谓词子解码器。谓词子解码器被设计为从图像特征图Zp中细化谓词表示，其利用图像中的空间上下文来更新谓词表示。我们使用交叉注意机制来实现这个解码过程p pnism：Qp=（q=Qp，k=Z，v=Z），其中Qp是更新了谓词表示。实体指示符子解码器。实体指示符子解码器细化与预测查询相关联的实体指示符我们不依赖于图像特征，而是利用给定场景中更准确的实体特征。具体地，我们在实体指示符Qis、Qio和来自实体节点生成器的实体提议特征He之间执行交叉关注操作，旨在增强实体关联的表示。我们将实体指示符的更新表示表示为Qis、Qio，它们是用标准交叉关注操作生成的：Qis=A（Qis，He，He），Q10=A（Q10，He，He）（3）谓词-指示符融合为了编码每个谓词查询及其实体指示符之间的上下文关系，我们执行谓词-指示符融合以校准查询中的三个组件的特征。我们显式地融合当前第l个解码器层输出Qp、Qis、Qio，以将Qi的每个分量更新为针对图3. 二部图组装的说明。4.3. 二部图组装在我们的公式中，我们将原始场景图转换为由Ne个实体节点和Nr个谓词节点组成的二分图结构，如图3所示。图组装的主要目标是将实体感知的谓词节点链接到适当的实体节点。为了实现这一点，我们需要获得Ne个实体节点和Nr个谓词节点之间的邻接矩阵，该邻接矩阵可以被编码为对应矩阵MRNr×Ne。具体地说，我们通过谓词节点的实体指示符与实体节点之间的距离来定义对应矩阵以主体实体指标为例，例如，我们有：M=dloc（Bs，Be）·dcls（Ps，Pe），其中~ll用于通过融合实体指示器表示为等式。第四章：得到了目标实体的证据矩阵Mo∈RNr×NeQ1+ 1=.Ql+。Ql+Ql·W·W（四）遵循同样的战略。本文对我国农村地区的差异化经营进行了实证分析，在实验其中Wi、WpRd×d是用于更新的变换对于实体指示符，我们简单地采用前一层输出作为输入：Ql+1=Ql+1，Ql+1=Ql+1。科.基于对应矩阵，我们根据匹配分数保留前K个链接作为每个谓词节点的边链接：验证谓词的几何和语义预测节点，以及其关联实体指示符的位置和类别如下，其中FtopRo=Ftop（Mo，K）∈RNr×K（8）是前K索引选择操作，Rs和Pp=Softmax（Qp·Wpreg）∈RNr×（Cp+1），（5）CCCC是为每个三元组保存的实体的索引矩阵，Bp=σ（Q_p·Wp）={（xs，ys，xo，yo）}∈RNr×4（六）主体和客体的两种关系角色。其中Pp是谓词的类预测，Bp={（xs，ys，xo，yo）}是其子节点的框中心坐标到生成的最终关系三重峰为T={（bs，ps，bo，po，pp，bp）}。这里bs，bo∈R1×4，对象和对象实体。实体指标也是跨-称为实体Bs，BoRNr×4的位置预测和它们的分类预测Ps，PoRNr×（Ce+1），它们类似于实体生成器。总体而言，每个谓词解码器层为所有实体感知谓词查询生成位置和分类。使用多层结构，谓词解码器能够逐步提高谓词和实体关联的质量。ps，poR1×（Ce+1）是边界框，类预-分别是其主语和宾语实体的谓词，ppr1×（Cp+1）是每个谓词Pp的类预测，bpBp是谓词实体的中心最后，图组装模块生成最终的场景图作为SGTR模型的输出。4例如，分类分布之间的余弦距离，GIOU和边界框预测之间的L1距离，在补充说明中给出了详细说明。二部图组装实体节点距离函数主题对应12345对象对应12345场景图一43BBCCD1D5隐私感知等同节点p基于改进的谓词查询，我们能够生成-19491LLLTTL=L+L框CLSCLS···我ppentCLSL LLentpP PPL L LL·4.4. 学习与推理为了训练我们的SGTR模型，我们设计了一个多任务损失，它由两个组件组成，包括实体生成器的enc和谓词生成器的pre总损失函数被公式化为：ENC预预预预L= L+L， L=Li+Lp（9）表1.模型组件的消融研究。实体-当我们采用类似DETR的检测器时，enc遵循与[2]类似的形式，并且详细的损耗方程在感知谓词节点; SPD：结构谓词解码器; GA：图组装。花絮我们主要关注Lpre在指标（wmAPphr，wmAPrel，得分WTD）用于更多本节的其余部分。为了计算谓词节点生成器的损失，我们首先通过采用匈牙利匹配算法[16]获得预测和地面真实值之间的匹配然后，我们将视觉关系的地面实况转换为一组三元组表示，其形式与，表示为gt。集合匹配的成本定义为：C= λpCp+λeCe（10）总成本中的两个组成部分分别对应于谓词和主语/宾语实体的成本5。三重态预测和基态之间的匹配指数I=均衡的评价。对于Visual Genome数据集，我们采用SGDet的评价指标召回率@K（R@K）和平均召回率@K （ mR@K ），并报告了每个长尾类别组的mR@100：头部，身体和尾部与[18]相同。我们分别使用ResNet-101和DETR [2]作为骨干网络和实体检测器。为了加快训练收敛速度，我们首先在目标数据集上训练实体检测器，然后与谓词节点生成器联合训练。谓词节点生成器使用3层Transformer编码器作为谓词编码器，使用6层Transformer解码器作为谓词和实体指示子。truths由以下等式产生：Itri=argminT， TgtC，用于解码器，其隐藏维度d为256。我们的谓词用于后续谓词节点生成器的损失计算的两个术语pre，就是说，pre，pre用于监督谓词节点生成器中的两种类型的子解码器。对于实体指示符子解码器，我们有解码器使用Nr=150个查询。对于图组装模块，我们在训练时设置K=40，在测试时设置K=3。有关更多实施细节，请参阅补充资料。5.2.消融研究预我i盒icls ，其中Li且Li是当地的-模型组件如Tab.所示。1、我们消融每一个化损失（L1和GIOU损失）和交叉熵损失，实体指示符Ps、Bs、Po、BO。类似地，对于预测子解码器，我们有pre=+.的是谓词的关联实体B p的位置的L1损失。L是谓词范畴Pp的交叉熵。推理在模型推理过程中，我们在组装阶段之后生成K Nr视觉关系预测。在推理过程中，我们进一步去除了无效的自连接边我们采用后处理操作来过滤掉自连接三元组（主体和客体实体是相同）。然后，我们通过三元组得分St对剩余的预测进行排名，并将前N个关系三元组作为最终结果产出我们将输出表示为St={（st·st·st）}，其中模块，以证明我们的设计在Visual Genome的验证集上的有效性我们发现，使用整体查询的谓词，而不是建议的结构形式降低了R@100和mR@100的利润率在1.9和1.4行-2。采用图像特征和谓词/实体指示符之间的共享交叉注意而不是结构谓词解码器导致次优性能，在第3行我们进一步移除实体指示符并直接从图像特征中解码谓词节点。结果在第4行中报告，其将性能降低了t t tS O PR@100和mR@100的裕度分别为4.2和2.5ss、so和sp分别是主语实体、宾语实体和谓语的分类概率5. 实验5.1. 实验配置我们在Openimage V6数据集[17]和Visual Genome [15]上评估了我们的方法我们主要采用以前工作中的数据分割和评估指标[18，38，51]。对于Openimage基准测试，5我们利用位置和分类预测来计算每个组件的成本。详细配方见补充资料。#EPNSPDGAmR@50mR@100R@50R@1001✓✓✓13.917.324.228.22✓✓✓✓✓✓✓12.015.922.926.3311.415.121.924.9411.314.821.224.154.67.010.613.319492·我们还研究了直接采用实体指标的预测作为实体节点进行关系预测的图组装机制。第5行中显示的较差结果表明，该模型难以在单个结构中处理如此复杂的多任务，而所提出的实体预测关联建模和图合成降低了优化的难度。图装配设计我们进一步研究了我们的图装配设计的有效性。具体来说，我们采用最近HOI方法[3，12]提出的可微实体-谓词对匹配函数，如图所示19493˜˜†·NPDNED mR@50mR@100R@503 3 10.6 13.3 23.42019 - 04-17 00：00：0012 12 13.7 17.0 24.0R@10027.428.228.4B模型mR@50 R@50WMAP分数WTDrelPHR表2.同品种解码器层数的消融研究NED：实体指示符子解码器层的数量;表3.图组装的消融研究，S：AS-Net [3]提出的谓词与基于实体的匹配函数之间的空间距离; F：HOTR[12]提出的基于特征相似性的匹配函数。在选项卡中。3 .第三章。在Visual Genome的验证集上，采用不同的距离函数对装配模块进行了对比实验。在AS-Net [3]中，分组是基于交互分支预测的实体包围盒到实体中心的距离进行的，缺乏实体的语义信息。HOTR [12]在特征空间中引入了谓词和实体之间的余弦相似性我们实现该形式用于计算实体指示符Qis、Qio和实体节点He之间的距离。与仅位置相似性[3]和基于特征的相似性[12]相比，我们提出的组装机制，将语义和空间信息纳入相似性度量，是更好的。我们还根据经验观察到，基于特征的[12]相似性设计具有更慢且更不稳定的收敛过程。模型大小为了研究结构谓词节点解码器的模型复杂度，我们递增地改变谓词和实体指示符解码器中的层数L定量结果见表。二、结果表明，当L= 6时，该模型的性能最好.我们观察到，当解码器层的数量从3增加到6时，性能改善是相当大的，并且当L= 12时，性能将饱和。实体检测器由于我们采用了不同的实体检测器与以前的两阶段设计，我们进行实验来分析检测器对SGTR的影响。详细结果见附录。5.3. 与最先进方法的我们在Openimage-V6基准测试和VG数据集上进行了实验，以证明我们的设计的有效性。我们比较了我们的方法与几个国家的最先进的两阶段（如。，VCTree-PCPL，VCTree-DLFE， BGNN [18]，VCTree-TDE，DT 2-ACBS [5]）和一步法（例如AS-Net，HOTR，FCSGG）。由于我们的骨干与他们报告的不同，我们重新-表4. 在OpenImage V6上的性能。表示用作者代码复制的结果。ResNeXt- 101 FPN的性能借用自[18]。* 意味着使用报复策略。产生了SOTA方法BGNN及其具有相同ResNet-101主干的基线此外，由于FCSGG [23]是SGG唯一发布的一阶段方法，因此我们使用其发布的代码再现了具有类似实体-谓词配对机制（AS-Net [3]，HOTR [12]）的几种强一阶段HOI方法的结果，以进行更全面的比较。OpenImage V6OpenImage V6数据集上的性能报告在Tab. 4.第一章我们使用相同的ResNet-101主干重新实现了SOTA一阶段和两阶段方法我们的方法优于两阶段SOTA方法BGNN的2.28的改进。具体而言，我们的设计在关系检测（wmAPrel）和短语检测（wmAPphr）子任务的加权mAP度量上分别有5.83和7.36的显著改进，这表明利用视觉关系的组成属性对于SGG任务是有益的。可视化基因组如表1所示。5、在相同的ResNet- 101主干下，我们将我们的方法与两阶段方法BGNN [18]，以及一阶段方法HOTR [12]，AS-Net [3]进行了比较。它表明，我们的方法优于HOTR，在mRecall@100上具有4.9和3.2的显著裕度。此外，我们的方法取得了相当大的改善时，与两阶段的方法相比，和详细的性能在补充。SGTR算法利用稀疏的建议集，比传统的两阶段设计具有更均衡的前景/背景建议因此，当配备了相同的骨干和学习策略，如前所述，我们的方法实现了竞争力的平均召回性能。我们还列出了几个新提出的作品，开发了各种训练策略的长尾识别。我们的方法在使用[18]中提出的恢复策略时实现了更高的mR@100性能，同时整体性能下降较少。我们建议读者参考补充资料，以使用高级长尾训练策略对我们的模型进行更多实验。• 我们发现我们的模型在大脑中的表现R101X101-FRelDN37.2075.4033.2131.3141.97GPS网络38.9374.7432.7733.8741.60BGNN40.4574.9833.5134.1542.06BGNN中国RelDN†39.4136.8074.9372.7531.1529.8731.3730.4240.0038.67HOTR†40.0952.6619.3821.5126.88AS-Net†35.1655.2825.9327.4932.42我们42.6159.9136.9838.7342.28GAmR@50mR@100R@50R@100S10.611.824.427.7F我们13.313.916.117.323.724.227.528.219494R101TR·BD方法mR@50/100R@50/100头身体尾巴时间/秒⋆⋆[23]第二十三话3.6/4.221.3/25.1---0.12RelDN [18]6.0/7.331.4/35.9---0.65主题[29]5.5/6.832.1/36.9---1.00VCTree [29]6.6/7.731.8/36.1---1.69[18]第十八话10.7/12.631.0/35.834.012.96.01.32BGNN中国8.6/10.328.2/33.829.112.62.21.32RelDN†4.4/5.430.3/34.831.32.30.00.65AS-Net† [3]6.12/7.218.7/21.119.67.72.70.33[12]第十二话9.4/12.023.5/27.726.116.23.40.25DE我们的12.0/14.625.1/26.627.117.26.90.35我们12.0/15.224.6/28.428.218.67.10.35我们的15.8/20.120.6/25.021.721.617.10.35表5. SGDet在Visual Genome数据集测试集上的性能。 †表示使用作者代码复制的结果。表示该模型应用的双水平响应[18]。表示我们的模型在图组装中使用K = 1进行top-K匹配（更多的K烧蚀实验在补充资料中提供表示特殊骨干HRNetW 48 -5S-FPN× 2-f和实体检测器CenterNet [53]。类别低于具有相同主干的两阶段方法主要原因是DETR检测器在小实体上的表现比传统的Faster-RCNN弱。由于视觉基因组有很大比例的涉及小对象的关系，我们的方法在识别这些关系时表现不佳详细的局限性分析见补充资料。我们比较了SGTR的效率与以前的方法，根据推理时间（秒/图像）的NVIDIA GeForce泰坦XP GPU与批大小为1和输入大小为600 x 1000。我们的设计获得了相当的推理时间的一个阶段的方法使用相同的骨干，这表明我们的方法的效率5.4. 定性结果如图4所示，我们将谓词子解码器和实体子解码器在来自Visual Genome数据集的验证集的图像上的注意力权重可视化。通过比较图中的热图4（a）和图在图4（b）中，我们注意到，对于相同的三元组预测，谓词子解码器更多地关注三元组的实体周围的上下文区域因此，我们的设计允许模型更有效地学习视觉关系的组成特性，从而提高预测精度。补充资料中报道了更多的可视化结果（包括图形组装分析，两阶段方法的比较等）。6. 结论在这项工作中，我们提出了一种新的端到端的基于CNN变换器的场景图生成方法（SGTR）。(a) 谓词子解码器(b) 实体子解码器图4. 结构谓词解码器的注意力热图可视化。谓词子解码器关注的是围绕三元组实体的上下文表示。实体指示符子解码器关注基于关系的实体区域。与现有的方法相比，我们的主要贡献包括两个部分：我们制定了SGG作为一个二分图的建设与三个步骤：实体和谓词节点的生成和有向边连接。我们开发了实体感知的表示模型的谓词节点，这是集成的实体指示器的结构谓词节点解码器。最后，由图组装模块以端到端的方式构造场景图。大量的实验结果表明，我们的SGTR优于或竞争与以前的国家的最先进的方法在Visual Genome和Openimage V6数据集。潜在的负面社会影响一个可能的负面影响是SGG可能作为监视滥用和收集私人信息的基本模块。人坐人行道走在街上的桌上的杯子X101-FPNFaster-RCNNVCTree-TDE [29]9.3/11.119.4/23.2---≥1.69≥1.69≥1.69≥1.690.63美元VCTree-DLFE [4]11.8/13.822.7/26.3---VCTree-EBM [26]9.7/11.620.5/24.7---VCTree-BPLSA [7]13.5/15.721.7/25.5---DT2-ACBS [5]22.0/24.415.0/16.3---19495引用[1] 谢里夫阿卜杜勒卡里姆，阿尼凯特阿加瓦尔，帕诺斯Achlioptas，陈军，黄嘉骥，李伯阳，肯尼思教堂，和莫-哈米德Elhoseiny。探索大词汇量下的长尾视觉关系识别。IEEE/CVF计算机视觉国际会议论文集，第15921-15930页，2021年。一、二[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在EuropeanConferenceonComputerVision 中，第213Springer，2020年。二三四六[3] Mingfei Chen，Yue Liao，Si Liu，Zhiyuan Chen，FeiWang和Chen Qian。将hoi检测重构为自适应集合预测。在IEEE/CVF计算机视觉和模式识别集，第9004二、六、七、八[4] Meng-Jun Chiou，Henghui Ding，Hanshu Yan，ChanghuWang，Roger Zimmermann，and Jiashi Feng.从有偏场景图中恢复arXiv预印本arXiv：2107.02112，2021。一、二、八[5] Alakh Desai，Tz-Ying Wu，Subarna Tripathi，and NunoVas- concelos.学习视觉关系：魔鬼在尾巴里。arXiv预印本arXiv：2108.09668，2021。一、二、七、八[6] Qi Dong，Zhuowen Tu，Haofu Liao，Yuting Zhang，Vijay Mahadevan，and Stefano Soatto.使用组合查询的部分和转换器的可视关系在IEEE/CVF计算机视觉国际会议论文集，第3550-3559页，2021年。一、二[7] Yuyu Guo，Lianli Gao，Xuanhan Wang，Yuxuan Hu，Xing Xu，Xu Lu，Heng Tao Shen，and Jingkuan Song.从一般到具体：通过平衡调整生成信息场景图。IEEE/CVF计算机视觉国际会议论文集，第16383-16392页，2021年。一、二、八[8] Marcel Hildebrandt ， Hang Li ， Rajat Koner ， VolkerTresp，and Stephan Günnemann.面向可视问答的场景图推理。arXiv预印本arXiv：2007.01072，2020。1[9] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索。在IEEE计算机视觉和模式识别集，第3668-3678页1[10] Siddhesh Khandelwal ， Mohammed Suhail ， and LeonidSi-gal.基于分割的场景图生成。arXiv预印本arXiv：2104.14207，2021。2[11] Bumsoo Kim，Taeho Choi，Jaewoo Kang和Hyunwoo JKim。Uniondet：面向实时人机交互检测的联盟级检测器。欧洲计算机视觉会议，第498-514页Springer，2020年。2[12] Bumsoo Kim ， Junhyun Lee ， Jaewoo Kang ， Eun-SolKim和Hyunwoo J Kim。

下载后可阅读完整内容，剩余1页未读，立即下载