自然语言监督学习生成场景图

10 浏览量更新于2023-10-13 收藏 997KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1823----从自然语言监督学习生成场景图钟义武1、石静2、杨建伟3、徐晨亮2、尹力11威斯康星大学麦迪逊分校2罗切斯特大学3微软研究院摘要从图像-文本数据中学习已经证明了最近在许多识别任务中的成功，但目前仅限于视觉特征或个体视觉概念，如物体。在本文中，我们提出了第一个方法，从图像-句子对中提取的图形表示的本地化对象和它们的关系，船舶在一个图像中，被称为场景图。为了弥合图像和文本之间的差距，我们利用现成的对象检测器来识别和定位对象实例，将检测到的区域的标签与从字幕解析的概念相此外，我们设计了一个基于Transformer的模型，通过掩码令牌预测任务来预测这些“伪”标签。仅从图像-句子对学习，我们的模型比使用人类注释的未本地化场景图训练的最新方法实现了30%的相对增益。我们的模型还显示了弱监督和完全监督场景图生成的强大结果。此外，我们探索了一个开放的词汇设置检测场景图，并提出了第一个结果为开放集场景图生成。1. 介绍一幅图像可能有数百万像素，但它的视觉内容通常可以用几十个词来概括。图像及其文字说明（即字幕）可以从互联网上大量获得[40]，并提供了一个独特的由自然语言辅助的图像理解机会。从图像-文本对中学习视觉知识一直是一个长期存在的问题[50，8，14，7，22，54，58，16，61，37，11，35]，最近在学习用于视觉表示的深度模型[7，22，37，11，35]，以及用于识别和检测各个视觉概念（例如，对象）[54，58，61，35，16]。在本文中，我们提出了一个问题：我们可以学习检测视觉关系超越个人的概念，从图像-文本对？图1（a）示出了这种关系的示例（作为第一步，我们专注于从图像-句子对学习场景图生成（SGG）。场景图是图像的符号和图形表示图文对“A船图像+物体探测器人力驱动来自自然语言的监督磨损检测到的对象：人、衬衫、长凳、船推理---------------------我们的模型衬衫场景图（SG）检测性能图1.顶部（我们的设置）：我们的目标是学习从图像-文本对生成训练完成后，我们的模型将图像及其检测到的对象作为输入，并输出图像场景图。底部（我们的结果）：我们的方法和[60]在不同监督水平下的结果比较其中每个图形节点作为局部对象并且每个边作为关系（例如，谓词）在一对对象之间。场景图已经成为许多视觉任务的结构化表示，包括动作识别[19]，3D场景理解[1，49]，图像生成和编辑[21，13]以及视觉语言任务（例如，视觉语言任务）。图像字幕[55，56，66]和视觉问题答案-ing [41，47，17，17]）。最早的场景图方法-ODS [52，28，62，27，53，4，46，45，65]遵循完全监督的方法，依赖于对象边界框、对象类别及其关系的人类注释。这些注释非常昂贵并且难以缩放。最近，Zareianet al. [60]考虑了从非局部化场景图的图像级标签对场景图的尽管如此，从图像及其文本描述中学习场景图仍然是未开发的。从图像-句子对中学习场景图的一个主要挑战是许多候选图像区域和少数概念（例如。名词和谓语）。为此，我们建议，姿势利用现成的对象检测器，能够识别和定位对象实例从数百个常见的类别。我们的关键思想是对象标签召回@10015.3SOTA我们完全监督（上限）监管层图像字幕未定位SG定位SG5.4-------------------7.011.51824可以进一步将检测到的图像区域与句子概念相匹配，从而提供我们的假设是，这些我们的语言监督设置如图所示。第1（a）段。受最近视觉语言预训练成功的启发[9，26，67，31，43，44，30]，我们开发了一种基于Transformer的模型，用于学习生成由图像-句子对监督的场景图。具体来说，我们的模型从一对检测到的对象区域、其预测的分类标签的文本嵌入以及来自其他对象区域的上下文特征中获取视觉特征的输入，所有这些都由现成的检测器提供[36]。然后，我们的模型学习识别输入对象对之间的视觉关系，表示为本地化的主谓宾（SPO）三元组。因此，可以通过从检测到的对象的小集合中枚举所有对来生成场景图。在训练过程中，我们的模型只从图像-句子对使用“伪”标签进行学习，所述“伪”标签通过将检测到的对象标签与解析的句子概念相匹配而产生。在推理过程中，我们的模型生成一个场景图给定的输入图像与其检测结果。我们的模型在包括COCO Caption [6]和Conceptual Caption [40]在内的字幕数据集上进行训练，并在Visual Genome [23]上进行评估-这是一种广泛使用的场景图基准。我们的研究结果，总结在图。1（b），在弱监督SGG上显著优于最新技术水平[60]，相对幅度为30%，尽管我们的模型只需要图像-句子对进行训练而[60]使用人类注释的未定位场景图进行训练。在与[60]相同的监督下，我们的模型在召回方面实现了112%此外，我们的模型还在完全监督的SGG上展示了强大的结果。虽然这些结果是在训练过程中使用已知目标概念的闭集设置上报告的，但我们也在开集SGG上呈现了有希望的结果，其中概念vo- cabulary是从图像标题制作的我们的工作是第一个学习的方法来检测场景图，只有图像-句子对，并提出了第一个结果为开集SGG。我们相信我们的工作为结构化图像理解迈出了坚实的一步。2. 相关工作我们简要回顾了最近的工作学习视觉知识，边缘从自然语言和场景图生成，重点是发展的深度模型。从语言中学习视觉知识。互联网上图像及其文本描述的可用性激发了人们对从图像-文本对中学习的兴趣。早期的工作集中在从图像-主题标签对中学习视觉表示学习[7，22]和rec。识别对象，场景和动作[8，14，15，25]。最近的研究已经把注意力转移到从图像和它们的句子描述中学习。例如，图像-句子对用于通过图像字幕[11]、图像-文本匹配[35]或图像条件语言建模[37]进行视觉表示学习，以及使用上下文预测任务进行视觉和文本表示学习[9，26，67，31，43，44，30]。图像标题用于对象识别[50]和对象检测[58，18，54，61]。与这些以前的作品，我们的工作学习检测本地化的场景图，编码对象和它们的关系在输入图像。受视觉和文本表示学习的启发，我们提出了一个基于Transformer的场景图生成模型，并将问题表述为预测主语、谓语和宾语的掩码完全监督的场景图生成。图像场景图将局部对象实例表示为节点，并将它们的关系表示为图上的边。场景图生成（SGG）的目的是从输入图像中提取这种图形表示。一个相关的问题是视觉关系检测（VRD）[59，29，63，10]，它也定位对象并识别它们的关系，但没有图形的符号。由于大规模密集注释的图像场景图数据集（诸如视觉基因组（VG）数据集[23]）的发展，已经提出了大量用于场景图生成的已经探索了几种不同的模型，包括迭代消息传递[52，28]、递归网络[62]、树结构编码[46，51]，图卷积和修剪[27，53]，[45]和对比学习[65]。这些方法的一个主要缺点是需要人类注释的局部场景图，其具有所有节点和边缘的分类标签和位置我们的工作旨在解决这个缺点，通过学习检测场景图，只有图像句子对。弱监督场景图生成。最近的一些工作已经探索了VRD[34，3，64]和SGG [64，60，42]的弱监督设置。他们中的大多数广告的VRD的任务，并寻求学习非本地化的SPO三胞胎。例如，Peyreet al. [34]提出通过判别聚类将图像级标签分配给检测到的对象对。Baldassarre等人[3]首先预测给定检测到的对象的视觉谓词，然后使用后向分解技术检索主体和对象。Zhang等人[64]设计了一个完全卷积的网络，使用对象建议作为模型输入，从图像级标签中联合学习对象检测和他们报告了VRD和SGG的结果。最相关的工作来自Zareianet al。[60]第一章。他们提出了从SGG的未定位场景图中学习，并开发了一种消息传递机制来更新检测到的对象的特征并逐渐改进LAG。1825V E ∈ VOG V EG----联系我们pO----◦p宾语和谓语的组合。我们最近的工作[42]使用一阶图匹配为弱监督SGG提供了一个简单的基线。来自Yeetal的并行工作。[57]还探索了以语言结构为监督的学习场景图。与这些方法类似，我们的方法探索了使用更少的SGG标签进行学习与以前的方法不同，我们的方法利用图像标题- 与未定位的SPO三元组或场景图相比更容易获得的不同类型的标签。因此，我们的工作是第一个方法来检测场景图，只从图像-句子对学习。3. 语言监督利用成对图像I和帽子S的大集合，我们的目标是学习从输入图像I检测图像场景图=（，）。是一个有向图和边缘 . 每个节点v i对I中的局部对象进行去注释，由其边界boxbi和对象标签oi在一个vocabulary Cg内。每个边eij∈ E表示一个谓词（例如“drive”) from a场景图生成设置培训期间所需的注释图像描述对象谓词类别标签对象盒全方位监督[52]弱监督[60]语言监督（我们的）CCCC表1.我们的语言监督设置与完全监督和弱监督设置。我们的方法只从图像-句子对中学习，以生成局部图像场景图。我们从图像-句子对生成场景图的学习设置与之前的完全和弱监督设置不同，如表1所示。我们的设置提供了一个新的机会，学习结构化的视觉知识，从自然语言的监督。我们的模型概述我们的模型受到最近视觉语言预训练工作的启发[9，26，67，31，43，44，30]，试图在给定一对区域的情况下标记SPO三联具体地，我们设计了一个基于变换器的模型，其输入为区域对（rk，r l）和来自其他区域的上下文特征r n r k，r l。然后，我们的模型预测输入区域对（rk，rl）的SPO三元组Tkl的类别标签（o k，e kl，o l）。在训练过程中，我们的模型由从字幕中解析出的“伪”标签T ′来监督Tij=（vi，eij，vj）定义了主题-预测-对象的三元组（SPO）。场景图生成因此是具有挑战性的结构。受限输出预测问题类似于先前的SGG方法[52，63，46，62，60]，我们假设由一个或多个对象区域提供的一组对象区域R=rn。德科特河每个区域rn=（¯bn，o¯n）由一个边界组成box´bn和来自检测器给出的v oca b- lary C d的预测对象catory´n。因此定义目标场景图G的候选节点。值得注意的是检测器Cd的词汇表与vo不同，S. 在推理期间，我们的模型将图像I及其检测结果R= r n作为输入，标记每个区域对（r k，r l），并将SPO三元组聚合成全场景图。图2展示了我们的模型。3.1. 三重Transformer我们提出的Triplet Transformer是一个基于输入区域对及其上下文特征的三重标记模型。真的。具体地，对于每个区域rn=（¯bn，o¯n），我们注意其视觉、位置和文本特征，如，场景图Og（. Dg）。与对象xrxpCoi.e CoCo和n no，分别。RX区域R={rn}，SGG被约简为将rn分类为ob-nxn是合并对象类别（g从r e gionébn. xp是对位置进行编码的特征Co∪ {background}），并推断谓词标签（Cg∪ {background}）在每个主体-客体关系在边界框中，n即，一个7维向量，gion对（rk，rl）. 我们模型的一个主要创新是区域盒子b。Xo是一个词嵌入的重新-仅从SGG的图像-句子对学习，而不使用不需要地面实况对象标签，也不需要它们的关系。面对象标签nn. 给出输入区域对（rk，rl）以及学习语言监督。我们的关键思想是从图像标题中提取SPO三元组，并将这些三元组与由对于所有其他检测到的区域，我们的模型构建了组合函数f=gh以预测SPO三联体的标记（〇k，ekl，〇l），由下式给出：检测器，从而为这些区域创建和他们的关系。具体来说，我们采用一种语言OOConte xtuxa`lFeature解析器从字幕S中提取一组三元组{T}。ok，ekl，ol=g◦hxk，xl;xk，xl，xk，xl;{xu，xu}u=/ k，l′我们进一步链接图像I中的对象区域对{rk，rl}Text`ualEmbxedder`VisualEmbedderx由检测器提供给解析的句子三元组T′。这是通过将来自每个区域对的检测到的对象类别ok和ol匹配到每个T′中的主体和对象来完成的。如果匹配，句子三元组T′将为区域对（r k，r l）（主语，宾语）和它们的关系e kl（谓语）定义“伪”标签。这些“伪”标签可以用来训练我们的模型。与完全受监督设置和弱受监督设置的比较。其中u索引除rk和rl之外的所有区域。因此，我们的模型包括：（1）编码视觉和位置区域特征的视觉嵌入器;（2）嵌入文本区域特征（来自对象标签）的文本嵌入器;（3）多层Transformer h，其在输入视觉和文本嵌入之间进行消息传递;以及（4）预测三元组的标签的分类头g。我们现在介绍每个组件的详细信息。上/左/下/右坐标，宽度，高度和面积RRppRp1826语言监督<“man”,语言解析器“An∈ ∈∈pMMe∈M∈n nn∈“驾”“人”“船”谓词损失主体损失客体损失载人船分类头编码器人受试者检测标签[MASK]船目标检测标签被摄体区域对象区域上下文区域嵌入器输入图2.概述了我们提出的语言监督场景图生成模型。给定图像，首先应用对象检测器，将检测到的对象作为模型的输入。我们的模型进一步嵌入检测到的区域特征和文本对象类别（例如，一对主语-宾语的标记，MASK表示谓语）嵌入到标记嵌入中，随后是多层Transformer编码器。最后，我们的模型预测的主题区域，对象区域和谓词的标签视觉嵌入。我们的视觉嵌入器将区域rn的视觉和位置特征（xr和xp）转换为em-表示对象区域的视觉/外部特征（即，第二输入区域）。n nbeddingvn，其中n索引所有区域特征，包括k（主语）、l（宾语）和u（上下文）。这是由vn= LN（LN（Wr×r）+LN（Wp×p）+et），（1）分类标题。我们的模型进一步融合编码器输出，并预测输入区域对（rk，rl）的SPO三元组（主语-谓语-宾语）的标签。特征融合由下式给出s=vk+Wvxo，o=vl+Wvxo，其中Wr和Wp是将特征投影到相同维度d中的可训练权重。et∈Rd是型p=pkl（3）+Wtstk+Wtotl+Wvsvk+Wvovl，区域的嵌入（主体对对象与上下文）。LN表示层归一化[2]。文本嵌入器。我们的文本嵌入器接受两个输入：（1）区域标签的词嵌入xo和xo其中，Wv、Wts、Wto、Wvs、Wvo是可学习的权重。输出sRd、oRd、pRd进一步用于分别对主语、谓语和宾语标签进行分类。这是使用两层MLP接着softmax来完成的。分别用于主语和宾语区域;以及（2）表示为x 0的特殊词“MASK”的嵌入器将输入单词嵌入和位置嵌入编码为文本嵌入t_m，由下式给出3.2. 从语言督导中我们的关键创新是使用图像标题作为训练模型的唯一监督信号这是通过从图像帽构造三元组的“伪”标签来完成的tm= LN（Wexo+ep），（2）选项。具体来说，我们首先将标题解析为一组SPO三元组。每个三联体进一步与每对重链匹配。其中m索引k（主语）、p（谓语）或l（宾语）。 pRd是当前令牌的位置嵌入[12]。We表示将单词嵌入投影到d的维度中的可训练权重。Transformer编码器。视觉和文本嵌入（vn和tm）被进一步馈送到多层Transformer编码器[48]中。该编码器使用多头自注意，结合多层感知器（MLP）和层归一化，以输出一个contextualized嵌入（v？ nRdortm对于每个输入vn或tm。该T转换器编码器可以被认为是在所有输入令牌之间进行消息传递。在所有输出中，与主语、谓语、宾语标记对应的嵌入将进一步用于三元组标签预测，如图二、对于一个区域对（rk，rl），嵌入vk/tk对应于主题区域的视觉/文本特征（即，第一个输入区域），谓词嵌入是来自特殊词“MASK”，而嵌入v是来自特殊词“MASK”通过将句子三元组中的主语和宾语标记与区域对的预测类别进行然后，我们的模型在匹配的区域对上进行训练，以预测其对应的句子三元组。我们指出，我们的方法学习图像句子对可以很容易地适应不同的SGG模型。闭集与开放设置。在本文中，我们主要考虑一个封闭的设置-在评估过程中的主语，谓语和宾语的词汇表是已知的先验。在这种情况下，我们的学习集中在兴趣的概念上，我们的模型只考虑词汇表中的句子三联体尽管如此，我们的方法确实支持开放集设置，其中对词汇没有限制。在这种情况下，我们的模型从所有经常出现的主语，谓语和宾语标记中学习。在推理时需要额外的匹配步骤来识别目标词汇表中的概念。我们将在实验中探讨这种设置。标签损失输入图像+物体探测器我的意思是，我的意思是视觉语言Transformer...1827→→L LL≥三元组解析和过滤。我们使用基于Schuster等人的现成的基于规则的语言解析器[20]。[38]这是一个很好的例子。句法分析后，得到了由词形化的主语、谓语和宾语组成的三元组。我们进一步对初始的三元组集合执行可选的过滤步骤。对于闭集设置，我们只保留可以与目标词汇表中的类别匹配的概念。两个概念匹配，如果（1）在WordNet中它们的同义词集，词元或上位词之间存在重叠[32]（例如，“tortoise” “animal”), or (2) if their root forms can bematched ( “baseball player”伪标签分配。有了过滤后的三元组，我们的下一步是将句子三元组与对象检测器提供的成对区域进行匹配。这通过来自字幕的每个三元组与来自图像的每个区域对之间的贪婪匹配来完成。具体来说，我们在三元组和区域对之间匹配相应的主语和宾语标记，再次使用标记的同义词集，WordNet [ 32 ]中的同义词集的如果多个三联体与同一区域对匹配，则随机选择其中之一我们还过滤掉不重叠且彼此远离的区域对，遵循[62]，因为这些对不太可能包含关系。一旦匹配，三元组被认为是用于训练我们的模型的区域对的伪标签。模特训练我们的模型通过预测区域对的伪标签来训练。我们分别对主语、谓语和宾语应用多类交叉熵损失。我们的最终损失函数由下式给出：L=λ sL s+λ pL p+λ oL o（4）其中s、p和o分别是主语、谓语和宾语的损失。λs、λp和λo是它们对应的损失权重。设λ s=λ o=0。5和λp=1，遵循先前的工作[62，60]。加权损失。学习的一个挑战是（a）用于训练的图像-句子对和（b）用于训练的图像-句子对之间的域差距。(b)图像及其目标场景图。例如，概念的分布在图像-句子对中与在图像-句子对中可能完全不同。图像场景图。在闭集设置中，我们可能具有场景图上的概念的估计频率。在这种情况下，我们在训练期间应用加权损失，其中每个类别的权重被设置为图像-句子对中的标记的频率与场景图中匹配标记的估计频率之间的比率如果一个类别与任何目标类别不匹配，则不会应用减肥。该加权损失函数仅需要目标数据集上的概念的估计频率，并且可以被认为是用于域自适应的简单方法。模型推断。一旦经过训练，我们的模型就采用区域对及其上下文特征，并预测SPO三联体。为了获得场景图，我们枚举所有可能的区域对并将它们馈送到我们的模型中。预测的概率进一步针对每个区域进行平均，并且因此每个区域被预测为单个类别。在开集集合中，需要额外的匹配步骤来基于来自图像-句子对的预测类别来推断目标类别的概率在这种情况下，我们在标签分配步骤中应用相同的匹配步骤。对弱监督和完全监督设置的扩展。我们的模型可以很容易地扩展到弱和完全监督设置。在弱监督设置中，我们将从字幕解析的三元组替换为来自未本地化场景图的三元组[60]，并遵循与我们的设置相同的标签分配。对于完全监督设置，我们只需将伪标签替换为地面实况场景图标签。4. 实验和结果我们现在介绍我们的实验和结果。我们从图像-句子对学习SGG的主要结果开始，然后是我们的此外，我们提出的结果完全监督SGG，并探讨开集SGG。数据集。为了评估我们的模型，我们使用了Visual Genome（VG）[23]的标准分割[52]（150个对象，50个谓词，75 K/32 K图像用于训练/测试）。VG带有人工注释的图像标题和本地化场景图，是SGG广泛使用的基准。我们还考虑了VG上的图像字幕用于我们的消融研究，以及VG上的局部场景图用于完全监督的SGG。对于训练，我们考虑了VG，COCO Caption（COCO）[6]和概念标题（CC）[40]的图像标题。COCO包含123K图像，每个图像由5个人工注释的标题标记。我们在COCO中选择了106k个图像进行训练，过滤掉VG测试集中存在的图像CC包含330万个图像标题对，这些图像标题对是从网络上启用了替代文本的图像中自动收集的对于目标类别已知的闭集设置，我们将来自每个数据集的解析的标记与目标类别进行匹配，并分别为VG、COCO和CC保留148-52、143-56、148-64个对象-谓词类别，从而导致VG上的673 K/75 K（三元组/图像）、154 K/64 K（三元组/图像）、154K/64 K（三元组/图像）、154 K/64 K（三元组/图像）、154 K/64 K/64 K在COCO上，和在CC上的159 K/145 K。评价方案和指标。对于我们的大多数实验，我们按照[52]的协议评估场景图检测（SGDet）。SGDet使用Recall@K （ R@K ） [29 ， 52] 和平均 Recall@K（mR@K）[5，46]的度量捕获定位和分类性能R@K计算前K个预测三元组与地面实况三元组之间的召回率。仅当满足所有要求时，预测的三元组才被认为是正确的(1)预测的三元组标签与地面实况三元组中的一个匹配，（2）检测到的主体-对象区域分别与IoU为0.5的地面实况主体-对象区域匹配。所有同品种器械1828†•††培训设置表2.语言监督SGG的结果。与以前的所有方法不同，我们的模型可以从图像-句子对中学习SGG。仅使用图像-句子对作为监督信号，我们的模型优于VSPNet -一种使用人类注释的未本地化场景图训练的弱监督SGG的最新方法。类别我们还包括场景图分类（SGCls）和谓词分类（PredCls），在我们的实验上完全SGG。重要的是，所有实验都是用图约束进行的，该图约束限制每个主宾对仅具有一个谓词预测。实施详情。我们使用了在OpenImages [24]上预训练的Faster R-CNN [36]检测器，能够检测601个对象类别。我们保留了每个图像的前36个对象，并从检测器中提取了1536-D区域特征。对象标签由300-D GloVe嵌入表示[33]。我们采用UNITER [9]的Transformer实现，具有 2 个自我注意层，每层 12 个注意头，隐藏大小d=768。SGD优化器用于训练，图像批次为32，每个图像16个采样三元组，初始学习率为0.0032。我们使用了Tang等人提供的基准测试实现。[45]评价。4.1. 语言监督的场景图生成现在，我们提出了我们的主要成果学习生成场景图从图像句子对。设置和基线。我们的模型仅使用CC和COCO数据集的图像-句子对进行训练。我们比较以下基线：VSPNet[60]是为弱监督SGG设计的，并从未局部场景图中学习。作为我们的竞争对手，VSPNet从我们的模型使用的相同OpenImage检测器中获取对象提案的输入VSPNet通过来自检测器的对象框预测进一步增强VSPNet。因此，VSPNet具有与我们的模型相同的输入图像区域。Ours+Weak是我们使用未本地化场景图训练的模型，与VSPNet的设置相同。我们的+MotifNet将我们的伪标签分配与监督SGG模型（MotifNet [62]）相结合。因此，该模型仅使用图像-句子对进行训练。Ours+Full是我们的模型，经过全面监督和使用地面实况场景图标签进行训练。这应该被认为是我们模型的上限。结果表 2 显示了我们的结果。以图像描述（ CC +COCO ）为唯一监督，我们的模式 -els（Ours/Ours+MotifNet）显著优于使用未本地化场景图训练的VSP- Net（7.0/6.7 vs.表3.消融研究不同来源的图像描述和重量损失训练我们的模型。5.4 R@100），尽管图像-句子对是弱得多的监督信号。我们的基于 Transformer 的模型也击败了Ours+MotifNet，并与VSPNet的改进版本（VSPNet）（7.0与7.4 R@100）。当使用未本地化的场景图进行训练时，我们的模型（Ours+Weak）再次大幅优于VSPNet变体（11.5 vs. 5.4/7.4 R@100）。这些结果提供了令人信服的证据表明，我们的模型可以只从图像-句子对学习，以检测高质量的图像中的场景图最后，我们的和我们的+弱（7.0 vs. 11.5 R@100），以及我们的+弱和我们的+全（11.5 vs. 15.3 R@100），为今后的工作提供了充足的空间。图3进一步可视化了我们的模型的输出场景图，包括表2中的Ours+Full（左），Ours+Weak（中）和Ours（右）。我们的模型训练的图像-句子对产生的场景图的质量相当的训练使用强监督。4.2. 消融研究我们现在提出我们的方法的消融研究图像描述的来源。表3展示了我们使用不同来源的字幕训练的模型的结果。毫不奇怪，在VG上训练的模型比在CC（4.1 R@100）或COCO（4.5 R@100）上训练的模型表现更好（10.3 R@100），因为评估数据集也是VG。有趣的是，在CC上训练的模型与在COCO上训练的模型表现相当，具有相似数量的三元组，尽管COCO上的字幕是手动注释的，并且比在CC上从互联网上获取的字幕质量更高。因此，我们推测，我们的模型的性能是轻微的字幕质量的影响。加权损失的影响。表3还比较了不同损失函数的使用。当使用CC作为训练数据时，添加加权损失将召回率从4.1 R@100提高到6.4 R@100这一结果表明，使用加权····方法SGDetR@50R@100监督水平源三胞胎数量图像数量我们的+完整局部场景图充分视觉基因组406K58K13.815.3VSPNet [60]VSPNet†我们的+弱未局部化场景图弱视觉基因组406K58K4.76.710.05.47.411.5Ours+MotifNet我们图像描述弱CC + COCO313K210K5.65.96.77.0图像描述加权CC COCO VG损失三胞胎数量图像数量SGDetR@50R@100C159K14.5万美元3.44.1C154K个64K3.84.5CC159K14.5万美元5.36.4CCC313K210K5.97.01829附近附近人附近穿着夹克附近穿着裤总穿着穿着穿着穿着夹克人头盔衬衫头盔夹克头盔穿着穿着轮人的对具有具有摩托车轮总线背后总线建筑总线建筑总线总线背后人夹克裤窗口门窗口床附近窗口床穿着人抽屉人坐在穿着人穿着人抽屉穿着衬衫穿着人人抽屉衬衫穿着人夹克穿着Jean穿着板凳坐在坐在板凳夹克穿着裤穿着穿着椅子坐在坐在板凳裤椅子板凳（一）. 通过局部化场景图训练（b）。由未局部化的场景图训练（c）。通过图像描述训练图3.我们的模型在VG测试集SGG的定性结果所有模型采用相同的检测区域并预测场景图标签。在每一行中，我们显示了3张相同的图像和相应的场景图，这些图像是由不同监督级别训练的模型生成的。可视化的关系是从前30个预测的三元组中挑选的。模型文本输入输入视觉输入对象检测地图SGDetR@50R@100CC10.710.011.5C10.63.94.7C6.96.27.7表4.目标探测器的烧蚀研究和标记分配方案。结果报告使用非本地化的场景图作为监督。我们提出的标签分配方案提供了一致的性能提升方法，而对象检测器的选择有一个主要的性能影响。丢失可以有效地缩小数据集之间的域差距。例如，谓词“wear”在VG中频繁出现，但在CC和COCO中很少出现在加权损失的情况下，“磨损”的召回率标签分配的影响。我们在表4中评估我们的标签分配方案。具体来说，我们考虑从非局部化场景图学习的弱监督设置，将我们的方法应用于MotifNet [62]，并在第3行中呈现结果。通过我们的方案，MotifNet击败了最新的VSPNet（10.7 vs. 7.4 R@100），表明我们的标签分配方案的有效性。物体探测器的效果。我们还考虑在Object365数据集上训练的其他对象检测器[39]。在表4中，我们使用Objects365检测器的模型的召回率（6.4 R@100）低于我们使用OpenImages检测器的模型（11.5 R@100）。仔细检查后，我们得出结论，召回率下降主要是由检测器的对象类别和VG中的对象类别之间的不匹配引起的。特别是，我们发现只有94（出150）VG对象可以匹配到Objects365类别，而123 VG对象可以匹配到OpenImages类别。例如，Objects365检测器无法检测到它们，而OpenImages表5.不同模型输入的消融研究。结果报告使用非本地化的场景图作为监督。SGG的视觉和文本功能相辅相成探测器可以。因此，涉及这些对象的三元组将不会用于训练模型，并且训练的模型无法检测到这些概念。文本与视觉输入。最后，我们研究了模型输入的贡献。这是通过在推理过程中探测我们的训练模型并一次屏蔽一个输入来对于文本输入，我们用主题和对象嵌入代替随机向量。对于视觉输入，我们用当前图像中的平均区域特征替换原始区域特征结果如表5所示。仅使用视觉输入导致检测mAP的轻微下降（10.6 vs.10.7 ）和场景图回忆的大幅下降（ 4.7 vs. 11.5R@100），表明实质等同预测的性能大幅下降。相比之下，仅使用文本输入具有大的下降mAP（6.9对6.9）。10.7）和场景图回忆中度下降（7.7 vs. 11.5R@100）。这些结果表明，视觉和文本输入互补-谓词预测主要依赖于文本输入，而对象预测主要依赖于视觉输入。4.3. 全监督场景图生成我们进一步评估我们的模型完全监督SGG。设置和基线。为了证明我们基于Transformer的模型的强度，我们在完全supervised SGG上展示了结果，并与几种最新方法进行了比较[52，63，46，62]，遵循标准的训练和训练协议。摩托车轮头盔男式短上衣轮建筑总线总人夹克pa空人Jacke男式衬衫板凳p椅子蚂蚁不NT建筑的具椅子具具与床具有枕头的与摩托车轮头盔人轮总总总人夹克pa客房床窗口门抽屉椅子人Jacke人板凳je板凳一个不枕头NT穿着轮人穿着具有对对的的轮摩托车附近背后人穿着夹克附近穿着裤总摩托车轮头盔人衬衫轮建筑总线总人夹克pa空人Jacke男式衬衫板凳p椅子蚂蚁不NT房间在在在椅子对对床对枕头在磨损磨损轮穿着人穿着具对对对轮摩托车基础上椅子对对对床对枕头建筑物窗户床抽屉柜枕头建筑物窗户床抽屉柜枕头模型对象检测器标签分配SGDetR@50 R@100VSPNet [60]OpenImages迭代对准4.7 5.4VSPNet†MotifNetOpenImagesOpenImages迭代对准检测标签（我们的）6.7 7.49.3 10.7我们OpenImages检测标签（我们的）10.0 11.5我们学生寮365检测标签（我们的）6.1 6.41830模型召回平均召回率@20SGDet@50@100@20SGCls@50@100@20PredCls@50@100@20SGDet@50@100@20SGCls@50@100@20PredCls@50@100IMP [52]18.125.931.234.037.538.554.361.163.12.84.25.35.26.26.58.911.011.8VtransE [63]23.029.734.335.438.639.459.065.767.63.75.06.06.78.28.711.614.715.8VCTree [46]24.731.536.237.040.541.459.866.268.14.25.76.96.27.57.911.714.916.1MotifNet [62]25.132.136.935.839.139.959.566.067.94.15.56.86.58.08.511.514.615.8我们24.631.836.336.540.040.858.765.667.45.37.38.78.310.411.113.317.719.5表6.完全监督SGG的结果。所有模型都使用在VG数据集上预先训练的相同对象检测器，以及Tang等人提供的相同代码库。[45]评价。先前模型的结果来自Tang et al. [45 ]第45段。在VG上测试注意，所有模型都使用在VG上训练的相同对象检测器和Tang等人提供的相同基准实现。[45 ]第45段。结果我们在表6中报告了SGDet、SG-Cls和PredCls的召回和平均召回。我们的模型的召回-表7.开集SGG的结果利用从COCO中学习到的词汇和模型对VG进行评估类别存在于VG中类别不存在于VG与之前的最佳结果相当（SGDet：36.3 vs.36.9 R@100，SGCl：40.8 vs. 41.4 R@100，PredCls：67.4 vs.模型训练人人摆动计算机监测键盘旁边监视计算机68.1）。更重要的是，在所有评估中，我们模型的平均召回率显著高于以前的模型在开放式设置中在均匀网球拍上键盘表坐在与鼠标对操作协议（SGDet：8.7 vs. 6.9 R@100，SGCl：11.1 vs.8.7 R@100，PredCls：19.5对比16.1）。与召回相比，平均召回[5，46]更好地表征了样本较少的类别的性能。这些结果表明，我们的模型更好地捕捉这些尾部类别。模特培训闭集设置人衬衫臂人衬衫与表鼠标笔记本笔记本笔记本表人笔记本笔记本对坐在对表笔记本对人4.4. 开集场景图生成展望未来，我们考虑SGG的具有挑战性的开集我们相信这是开集SGG的第一个结果。Setup.在这个实验中，我们的模型在COCO Caption上进行训练，并在VG上进行评估。在训练过程中，我们从标题中解析出概念类别，去除低频类别，形成了一个包含4273个对象和677个谓词的词汇表。然后使用这些词汇来训练我们的模型。在推理时，我们首先使用我们的词汇表生成场景图，然后将词汇表中检测到的类别与VG（150个对象和50个谓词）上的目标概念进行匹配以进行评估。结果表7比较了使用相同COCO标题数据集在闭集和开集设置中训练的模型的结果在开放集设置中训练的模型具有稍微更好的回忆（4.8 vs. 4.5 R@100）。我们的开集结果也可与VSPNet（在闭集设置中由VG上的未本地化场景图监督）相媲美。我们假设开放集设置允许模型从更多的概念中学习，从而使SGG受益。为了验证这一假设，我们绘制了来自我们在图1中的闭集和开集设置上训练的模型的输出场景图。4.第一章与闭集模型相比，开集模型能检测出更多的VG之外的概念“swinge”、“鼠标”、“键盘”）。我们的研究结果表明，使用图像字幕数据集（如CC）对开集SGG进行大规模训练是一个令人兴奋的现象。图4.我们的模型的定性结果（在开集和SGG的VG测试集上的闭集设置）5. 结论我们提出了第一个学习的方法之一，从图像-句子对生成- erate场景图我们的关键思想是使用现成的对象检测器，以便将检测到的对象标签与来自字幕的解析令牌相匹配，从而创建此外，我们设计了一个基于Transformer的模型，并在不同的监管级别上展示了强大的结果。我们的模型仅从图像-句子对学习，优于由人类注释的未本地化场景图训练的最先进的弱监督模型更重要的是，我们提出了第一个结果的开集场景图生成。我们希望我们的工作点令人兴奋的途径学习- ING结构化的视觉表示从自然语言。限制和未来的工作。我们

下载后可阅读完整内容，剩余1页未读，立即下载