场景图生成的视觉远程监督

110 浏览量更新于2023-10-13 收藏 12.47MB PDF 举报

关系学习

实验结果

身份认证购VIP最低享 7 折!

30元优惠券

ridingstanding onA person riding a horse on the shore of an ocean.personhorsebeachcoveringrockstanding onwalking onhorsepersonbeachcoveringwavecoveringrockcovered inridingsittingonwatchingsitting onlying onstandingon158160场景图生成的视觉远程监督0Yuan Yao 1 * ，Ao Zhang 1 � ，Xu Han 1 ，Mengdi Li 2 ，Cornelius Weber 2 ，Zhiyuan Liu 1 †，Stefan Wermter 2 ，Maosong Sun 101 清华大学计算机科学与技术系人工智能研究所，中国北京，中国北京国家信息科学技术研究中心2汉堡大学信息学系知识技术组，德国汉堡0yuan-yao18@mails.tsinghua.edu.cn，zhanga6@outlook.com0摘要0场景图生成旨在识别图像中的对象及其关系，提供结构化的图像表示，可促进计算机视觉中的众多应用。然而，场景图模型通常需要在大量带有密集人工注释的标记数据上进行监督学习。在本文中，我们提出了一种新的视觉关系学习范式——视觉远程监督，可以在不使用任何人工标记数据的情况下训练场景图模型。其基本思想是通过对齐常识知识库和图像，我们可以自动创建大规模的标记数据，为视觉关系学习提供远程监督。为了减轻远程标记数据中的噪声，我们进一步提出了一个框架，通过迭代估计概率关系标签并消除噪声标签。全面的实验结果表明，我们的远程监督模型优于强弱监督和半监督基线模型。通过以半监督方式进一步融合人工标记数据，我们的模型在预测分类中大幅优于最先进的全监督模型（例如，在VisualGenome评估中，预测分类的micro-和macro-recall@50分别提高了8.3和7.8个百分点）。我们在https://github.com/thunlp/VisualDS上公开提供了本文的数据和代码。01. 引言0场景图生成旨在识别真实世界图像中的对象及其关系。例如，图1中显示的场景图描述了图像中的几个关系三元组，例如（人，骑，马）和（马，站在，海滩）。这样的结构化表示0* 表示相等贡献 † 通讯作者：Z.Liu(liuzy@tsinghua.edu.cn)0Visual Genome注释0标题0视觉远程监督0图1. 基于Chen等人的改进关系模式[5]的VisualGenome示例[22]，其中分别显示了来自VisualGenome的人类注释、对应标题的弱监督信息以及来自远程监督的原始关系标签。正确的关系标签以粗体突出显示。通过对齐常识知识库和图像，视觉远程监督可以创建大规模的标记数据，无需任何人力努力来促进视觉关系学习。最好以彩色查看。0提供了对图像的语义内容的深入理解，并在计算机视觉的众多应用中推动了最先进的模型，如视觉问答[17,42]，图像检索[21, 38]，图像标题生成[50,12]和图像生成[20]。已经投入了大量的工作来从图像中生成场景图[48, 26, 49, 29,57]。然而，场景图模型通常需要在大量人工标记的数据上进行监督学习。手动构建用于视觉关系学习的大规模数据集非常费时费力[29,22]。此外，即使有人工标记的数据，场景图模型通常也会受到长尾关系分布的影响。Visual Genome Aistant Supervision10!10"10#10$158170图表标题0VisualGenome注释视觉远程监督0关系0标记数量0图2. VisualGenome注释和视觉远程监督中前3000个关系的标记实例数量。0在现实世界的场景中，关系的数量统计如图2所示。在Visual Genome[22]上，超过98%的前3000个关系类别没有足够的标记实例，因此大多数场景图模型都忽略了这些关系。为了解决这些问题，一个有希望的方向是利用大规模的无标记数据通过半监督或弱监督学习来减少人工工作量。Chen等人[5]提出了先使用几个人工标记的种子实例来学习一个简单的关系预测器，然后为无标记数据分配软标签以训练场景图模型。然而，半监督模型仍然需要与关系数量成线性比例的人工注释。此外，从有限的种子实例学习容易受到高方差和主观注释偏差的影响。一些研究还探索了从弱监督的关系标签中学习，这些标签是通过解析相应图像的标题获得的[58,32]。然而，由于报告偏差[11]，标题只总结了图像中的一些显著关系，并忽略了不太显著和背景关系，例如图1中的（岩石，覆盖，海滩）。因此，由此产生的模型将偏向于少数显著关系，无法很好地用于场景图生成，该生成旨在全面提取场景中所有合理的关系三元组。在这项工作中，我们提出了一种新颖的视觉关系学习范式，即视觉远程监督，可以在没有任何人工标注数据的情况下训练场景图模型。其基本思想是常识知识库编码了对象之间的关系候选项，这些关系候选项很可能在图像中得到表达。例如，如图1所示，可以从常识知识库中为对象对人和马检索到多个关系候选项，例如骑、坐在和观看，其中骑和坐在实际上在给定的图像中得到了表达。通过对齐常识知识库和图像，我们可以创建大规模的标记数据，为视觉关系学习提供远程监督，而无需任何人工工作。由于远程监督是由知识库提供的，关系可以在所有对象对之间得到详尽的标记。我们注意到，即使经过了大量的人工注释，VisualGenome中仍然缺少许多合理的远程监督关系标签，例如图1中的（挥手，覆盖，海滩）。0此外，远程监督还可以缓解长尾问题。如图2所示，使用相同数量的图像，远程监督可以产生比人工标注的关系实例多1-3个数量级的标记关系实例。需要注意的是，远程标注的关系实例的数量可以是任意大的，因为网络上几乎有无限的图像数据。远程监督在训练场景图模型时无需人工标注数据。当有人工标注数据可用时，可以以半监督的方式将远程标注的数据纳入其中，以超越完全监督的模型。我们展示了在远程标注数据上进行预训练后，简单地在人工标注数据上进行微调可以显著改善强大的完全监督模型。尽管远程监督有潜力，但我们注意到远程监督可能会引入关系标签的噪声，例如图1中的（人，观看，马）。原因是远程监督仅基于对象类别提供关系候选项，而图像中两个对象之间的实际关系通常取决于图像内容。原则上，可以通过最大化远程标签与对象对的视觉模式之间的一致性来减轻远程标注数据中的噪声。先前的研究表明，在没有特别设计的去噪方法的情况下，神经模型在一定程度上能够检测到噪声标签，并从噪声数据中学习到有意义的信号。在这项工作中，为了更好地减轻远程标注数据中的噪声，我们进一步提出了一个框架，通过迭代估计概率关系标签并消除噪声标签。该框架可以通过优化远程标注数据的内部统计的一致性来实现，并且还可以与外部语义信号（例如图像-标题检索模型）或人工标注数据无缝集成，以实现更好的去噪结果。全面的实验结果表明，在不使用任何人工标注数据的情况下，我们的远程监督模型优于强弱监督和半监督基线方法。通过以半监督的方式进一步纳入人工标注数据，我们的模型在很大程度上超越了最先进的完全监督模型（例如，在VisualGenome评估中，谓词分类任务的micro-和macro-召回率@50提高了8.3和7.8个百分点）。根据实验结果，我们讨论了未来研究的多个有希望的方向。我们的贡献有三个方面：（1）我们提出了视觉远程监督，这是一种新颖的视觉关系学习范式，可以在没有任何人工标注数据的情况下训练场景图模型，并改进完全监督模型。（2）我们提出了一个去噪框架，以减轻远程标注数据中的噪声。（3）我们进行了全面的实验，证明了视觉远程监督和去噪框架的有效性。1581802. 相关工作0视觉关系检测。识别对象之间的视觉关系对于图像理解至关重要，这一问题引起了学术界的广泛关注[29, 57, 13, 14, 7,35, 3,52]。Johnson等人进一步将图像中的所有对象及其关系编码为结构化图表示的场景图。人们已经付出了巨大的努力来生成场景图，包括改进上下文化图特征[6, 48, 26,54]，开发计算效率高的场景图模型[25, 49,58]和设计有效的损失函数[49,59]。然而，场景图模型通常需要在大量的人工标注数据上进行监督学习[29, 22]。0弱监督场景图生成。为了减少对人工标注数据的依赖，最近的场景图生成方法探索了半监督和弱监督学习方法。Chen等人提出了从每个关系的几个人工标注种子实例中引导场景图模型的方法，但仍然需要人工劳动，并且容易受到高方差的影响。其他方法尝试从相应的图像标题中获取弱监督的关系标签。Peyre等人提出通过施加全局约束将标签与对象对关联起来。为了提高计算效率，Zhang等人设计了一个网络分支来为每个关系标签选择一对对象提案。Baldassarre等人首先通过图网络检测关系，然后恢复预测关系的主体和客体。Zareian等人将场景图重新构建为对象和关系的二分图，并将预测的图与弱监督标签对齐。然而，由于弱监督的关系标签是从相应的标题中解析出来的，所得到的模型将偏向于最显著的关系，忽视了许多不太显著和背景关系。0文本远程监督。在自然语言处理领域，从文本中提取关系三元组（即文本关系提取）以完善知识库[18, 31, 56,60]已有很长的历史。受限于人工标注数据集的规模，监督式文本关系提取模型通常存在限制。为了解决这个问题，Mintz等人提出了将世界知识库Freebase[2]与文本对齐，为文本关系提取提供远程监督的方法。尽管两者都旨在提取关系，但我们通过将常识知识库与视觉概念对齐，为视觉关系学习提供远程监督，与将世界知识库与文本实体对齐的文本远程监督方法形成对比。0带有噪声标签的学习。视觉远程监督可能会引入噪声关系标签，这可能会影响场景图模型的性能。在文本远程监督中，已经有很多去噪方法被开发出来，用于处理由于远程监督引入的噪声标签。0在计算机视觉领域，已经开发了许多去噪方法，其中多实例学习方法[55, 28, 61,15]是其中之一。然而，视觉关系检测旨在在实例级别上提取关系（即在特定图像中预测关系实例），而文本关系提取侧重于提取实体之间的全局关系（即从包含实体对的所有句子中综合信息以确定它们的全局关系）。因此，用于远程监督文本关系提取的去噪方法无法很好地用于视觉关系检测。以前的实例级别去噪方法已经探索了处理图像分类[19, 36,44, 46, 24]和目标检测[23, 41,10]中的噪声标签的方法，这些方法基于内部数据统计。相比之下，我们的去噪框架不仅可以利用内部数据统计，还可以与外部语义信号和人工标注数据无缝集成，以获得更好的去噪结果。03. 问题定义0我们首先对问题和我们工作中的关键术语进行正式定义。0场景图。形式上，场景图由以下元素组成：（1）对象。每个对象obj=（b，c）与边界框b∈R4和类别c∈C相关联，其中C是对象类别集合。（2）关系，其中r∈R，R是关系类别集合（包括NA表示无关系）。给定一张图像，场景图模型旨在提取关系三元组（s，r，o）。0知识库。大多数知识库以关系三元组（ci，r，cj）的形式存储概念之间的关系。0远程监督和半监督学习。在传统的全监督关系学习中，需要人工标记的数据DL来训练场景图模型。在远程监督关系学习中，没有人工标记的数据可用，我们使用图像和知识库自动创建远程标记数据DS来训练场景图模型。当有人工标记的数据DL可用时，我们可以进一步利用DS∪DL以半监督方式超越仅使用DL训练的全监督模型。04. 视觉远程监督0在本节中，我们介绍视觉远程监督的假设和方法，旨在为视觉关系学习创建大规模标记数据。视觉远程监督的关键洞察是视觉关系三元组对应于常识知识。例如，关系三元组（person，riding，horse）表达了常识“人可以骑马”。因此，常识知识库可以为视觉对象之间提供可能的关系候选项，以远程监督视觉关系学习。为此，我们进行了personhorse̸158190M1步M2步0KB0外部语义信号0远程监督模型0预训练模型0微调模型0M步0E步0远程监督半监督知识库KB0图3. 视觉远程监督的去噪框架。该框架通过EM优化迭代地估计概率关系标签，并可以以远程监督和半监督方式实现。最佳查看颜色。0通过首先构建一个常识知识库，然后将其与图像对齐，实现视觉远程监督。知识库构建。尽管已经构建了几个常识知识库[43]，但我们发现它们由于不完整性无法很好地用于视觉远程监督。因此，我们不采用现有的知识库，而是通过从网络规模的图像标题中提取关系三元组来自动构建一个常识知识库。具体而言，我们使用基于规则的文本解析器[39]从概念性标题[40]中提取关系三元组，该标题包含了330万张图像的标题。所得到的知识库包含了18618个物体类别、63232个关系类别和1876659个不同的关系三元组，其中每个物体对平均有1.94个关系。知识库和图像对齐。为了对齐知识库和图像，我们需要获取每个图像中对象的边界框和类别。在这项工作中，我们利用了VisualGenome中的图像和对象注释，而使用对象检测器[37]获取开放域图像中的对象信息也是可行的。之后，对于每对对象，我们将知识库中的所有关系标签作为关系候选项进行检索。然而，我们观察到直接进行远程监督会产生相当多的噪声。例如，如果图像中有多个人和马对象，则每个人和马对之间都会有一个骑行关系标签。受到之前的工作[54]的启发，我们采用了一个简单但有效的启发式约束来过滤掉大量的噪声标签。具体而言，我们只为具有重叠区域的主体和对象的边界框分配远程关系标签。对齐后，远程监督的关系标签可以覆盖Visual Genome中70.3%的关系标签。05. 视觉远程监督的去噪0远程监督的关系标签可以用于训练任何场景图模型。然而，远程监督可能引入噪声关系标签，可能会损害模型的性能。为了减轻视觉远程监督中的噪声，我们提出了一个去噪框架，如图3所示。将远程标记数据的真实关系标签视为潜在变量，我们迭代地估计概率关系标签，并消除噪声标签，以训练任何场景图模型。该框架可以通过优化远程标记数据的内部统计一致性来实现，并且还可以与外部语义信号（例如图像-标题检索模型）或人工标记数据无缝集成，以获得更好的去噪结果。在本节中，我们分别介绍了远程监督和半监督设置中的框架。有关框架的伪代码，请参阅附录。0如图3所示，我们将远程标记数据的真实关系标签视为潜在变量，通过迭代地估计概率关系标签并消除噪声标签，来训练任何场景图模型。该框架可以通过优化远程标记数据的内部统计一致性来实现，并且还可以与外部语义信号（例如图像-标题检索模型）或人工标记数据无缝集成，以获得更好的去噪结果。在本节中，我们分别介绍了远程监督和半监督设置中的框架。有关框架的伪代码，请参阅附录。05.1. 远程监督框架0在远程监督的框架中，只有远程标记数据 D S可用，我们的目标是通过最大化其内部统计的一致性，迭代地改进 D S 的概率关系标签，使用 EM 优化。0E 步骤。在第 t 次迭代的 E步骤中，我们估计远程标记数据的标签，以获得 D t S = {(s,r t, o)(k)} N k = 1，其中 r t 表示图像中对象对 (s, o)之间的潜在关系。具体而言，r t ∈ R |R| 是所有关系在 R中的概率分布，它来自于(1)远程监督的原始标签（在初始迭代中），或者(2)模型估计的概率关系标签。给定对象对 (s,o)，我们将检索到的远程标签集合表示为R(s,o)。请注意，在 EM 优化过程中，我们只调整 R(s,o)中的远程标签，并且如果 r i �∈ R(s,o)，则保持 r t i = 0。0(1) 在初始迭代（即 t =1）中，关系标签通过对齐知识库和图像进行分配（参见第4节），表示如下：0d = Ψ(s, o, Λ), (1)0其中 Λ 是知识库，Ψ(∙) 是对齐操作。d 是一个多热向量，其中如果 r i ∈ R(s,o) 则 d i = 1，否则为0。我们认为，当可用时，外部语义信号有助于区分合理的远程标签和噪声标签。在不失一般性的情况下，在这项工作中，我们采用了 CLIP[34]，这是一个在大规模图像-标题对上预训练的最先进的跨模态表示模型，用于衡量远程监督中的文本关系三元组与相应的视觉对象对之间的语义相关性。具体而言，给定一个对象对，我们通过对图像中未被对象对边界框覆盖的区域进行掩蔽，获得视觉输入。为了获得文本输入，我们简单地将关系三元组中的主语、关系和宾语连接成一个文本片段。然后，将视觉和文本输入输入到 CLIP中，以获得它们的非归一化相关性分数（即余弦相似度），总结如下：01 在接下来的内容中，为了简化，我们省略了上标 k。noisy ones.Without losing generality, in this work, weadopt CLIP [34], a state-of-the-art cross-modal representa-tion model pre-trained on large-scale image-caption pairs2,to measure the semantic relatedness between a textual rela-tional triple from distant supervision, and the correspondingvisual object pair. Specifically, given an object pair, we ob-tain the visual input by masking the area in the image thatis not covered by the bounding boxes of the object pair. Toobtain the textual input, we simply concatenate the subject,relation and object in the relational triple into a text snip-pet. Then the visual and textual inputs are fed into CLIPto obtain their unnormalized relatedness score (i.e., cosinesimilarity), summarized as follows:̸DtS158200α i = Φ(v, u i), (2)0其中 v 是对象对的视觉输入，u i 是远程标记关系 r i的文本输入，Φ(∙,∙) 表示外部语义信号，α i是相关性分数。然后，我们将相关性分数归一化，以获得关于 R(s,o) 的概率关系分布：0e i = 0� |R| j=1 1 [d j = 1] exp(α j), r i ∈ R(s,o), (3)0其中1[x]为1，如果x为真，否则为0。e是由外部语义信号给出的概率关系分布，其中如果r_i�R(s,o)，则e_i=0。然后可以通过r_1=e来初始化关系分布。注意，框架不一定需要外部信号（即当这些外部信号不可用时，初始化r_1=d）。0(2)在非初始迭代（即t>1）中，我们通过场景图模型的内部预测和外部语义信号的凸组合来推断概率关系分布：0r_t^i=ωf_i(s,o;θ_t-1)+(1-ω)e_i, (4)0其中f_i(s,o;θ_t-1)是参数为θ_t-1的场景图模型中r_i的概率。这里，f_i(s,o;θ_t-1)通过将关系logits在R(s,o)上归一化得到，如公式3所示。ω∈[0,1]是一个加权超参数，当外部信号不可用时，ω=1。我们注意到，可能没有一个远程标签在（s,o）之间是正确的（例如，见图1中的（人，海滩））。因此，我们通过丢弃由场景图模型给出的具有前k%个NA关系logits的对象对来消除D_t^S中的噪声对象对。0在远程监督框架中，我们小心地不在任何组件中引入人工注释的关系数据。知识库是使用基于规则的方法从图像标题中构建的，而CLIP仅在图像-标题对上进行预训练。0M步。在M步中，给定E步的远程标签，我们优化场景图模型参数θ_t-10通过最大化D_t^S的对数似然来估计：0θ_t=argmax_θL_p(D_t^S;θ_t-1), (5)0其中L_p(D_t^S;θ_t-1)是基于熵的对数似然函数，以噪声感知的方法结合D_t^S的概率关系分布，如下所示：0L_p(D_t^S;θ_t-1)=∑0i=1r_t^i(1[d_i=1]logf_i(s,o;θ_t-1)0+1 [d_i=0]log(1-f_i(s,o;θ_t-1))), (6)0其中θ_0是随机初始化的。05.2.半监督框架0远程监督模型可以进一步与人工标注数据集集成，超过完全监督模型。事实上，我们发现在远程监督数据上进行预训练（参见第5.1节）后，仅对人工标注数据进行简单微调就可以显著提高完全监督模型的性能。这种简单的预训练和微调范式具有吸引力，因为它不会改变参数数量、架构和训练中的开销，特别是特定的下游场景图模型。然而，我们发现在去噪框架中密切集成人工标注数据可以获得更好的性能，因为可以在远程标注数据D_S和人工标注数据D_L之间实现一致性增强。我们的半监督框架在很大程度上遵循第5.1节中的远程监督框架，其中我们在E步中估计概率关系标签，并在M步中优化模型参数。为了集成人工标注数据，我们进一步将M步分解为两个子步骤：在远程标注数据上进行预训练（M1步骤），并在人工标注数据上进行微调（M2步骤）。0E步。在第t次迭代的E步中，我们估计远程监督数据D_t^S的标签。这里，r_t是通过以下步骤获得的：(1)首先按照公式1获取原始远程标签d，然后(2)通过微调场景图模型估计概率关系标签，如下所示：0r_t^i=f_i(s,o;θ_t-1/2), r_i∈R(s,o), (7)0其中 f i ( ∙ ; θ t − 1 2 )是前一次迭代的M2步骤中微调的场景图模型。在初始迭代中，f i ( ∙ ; θ 0 2 )由一个完全监督模型初始化。请注意，方程式7不包括外部语义信号，因为在人工标注数据上微调的模型可以提供更直接的去噪信号。之后，我们丢弃嘈杂的对象对（参见第5.1节）。为了更好地应对微调R@50R@100mR@50mR@100R@50R@100mR@50mR@100R@50R@100mR@50mR@100Freq [54]*20.8020.98--10.9211.08--11.0111.64---Freq-Overlap [54]*20.9022.21--9.919.91--10.8410.86---Decision Tree [33]*33.0233.35--14.5114.57--12.5813.23---Label Propagation [62]*25.1725.41--9.919.97--6.746.83---Weak Supervision†44.9647.1924.5827.1419.2719.936.977.5419.7821.335.015.4120.76Limited Labels [5]49.6850.7337.4338.9124.6525.0813.3013.9422.8724.1612.6613.3927.23EXT6.649.7410.6615.163.964.824.254.921.933.061.662.495.77Raw Label30.6133.4820.9823.2515.6916.9911.0612.539.3610.266.567.1316.49Raw Label + EXT38.2140.9024.9427.4517.5218.8511.6612.5615.8418.319.4911.2320.58Motif†48.8851.7334.4039.6923.1524.1815.8116.6618.7322.1010.8913.3426.63Motif50.2353.1833.9940.6224.9026.0016.5018.0320.0922.7412.2114.4227.74Motif + DNS + EXT53.4056.5437.6841.9826.1227.4617.2018.3923.6925.5913.8415.2329.76FSMotif [54]67.9370.2052.6555.4131.1431.9223.5325.2728.9031.2518.2620.6338.09SSLq(DtS; θ) =�(s,ˆrt,o)∈DtS|R|�i=11[ˆrti = 1] log fi(s, o; θ). (8)158210模型谓词分类场景图分类场景图检测平均0基准0DS(我们的方法)0Motif + 预训练 (我们的方法) 73.22 75.04 60.44 63.67 34.11 34.88 26.51 27.94 30.70 33.32 24.76 27.45 42.67 Motif + DNS (我们的方法) 76.28 77.98 60.20 63.61 35.9336.47 28.07 30.09 33.94 37.26 23.90 28.06 44.310表1. 视觉远程监督的主要结果（%）。DS: 远程监督, FS: 完全监督, SS: 半监督. EXT: 外部语义信号, DNS: 去噪. *表示Chen等人的结果[5]，†表示在带有标题的图像上训练的模型。0在人工标注数据上，模型通常被优化为对象对之间的单个离散关系标签。我们将 r t 离散化为一个独热向量 ˆ r t ，其中ˆ r t i = 1 ，如果 i = arg max j r t j 。0M1步骤。在E步骤中获得远程标签 ˆ r t后，我们从头开始预训练场景图模型： θ t 1 = arg max θL q ( D t S ; θ ) ，其中 L q是基于交叉熵的目标函数，如下所示：0M2步骤。在M2步骤中，我们只需在人工标注数据上微调预训练的场景图模型， θ t 2 = arg max θ L q ( D L ; θ t 1 )。06. 实验0在本节中，我们对场景图生成的视觉远程监督和去噪框架进行了实证评估。我们还展示了视觉远程监督在处理长尾问题时的优势，以及在配备理想知识库时的潜在优势。06.1. 实验设置0首先介绍实验设置，包括数据集、评估指标和基准。0数据集。我们在Visual Genome[22]上评估我们的模型，这是一个被广泛采用的场景图生成基准[48, 54, 5,53]。数据集中的每个图像都手动注释了对象（边界框和对象类别）和关系。在我们的实验中，在训练过程中0远程监督是使用VisualGenome和知识库中关系的交集进行的。在评估中，我们在主要实验中采用了Chen等人[5]的改进关系方案和数据划分，该方案删除了VisualGenome中最常见的50个关系类别中的上位词和冗余同义词，从而得到20个明确定义的关系类别。我们还在附录中报告了在VisualGenome数据集上具有50个关系类别的实验结果。有关数据统计的更多详细信息，请参阅附录。0评估指标。根据之前的工作[48, 54,5]，我们采用三种标准评估模式来评估我们的方法：（1）谓词分类。给定图像中对象的真实边界框和类别，模型需要预测对象对之间的谓词（即关系）。（2）场景图分类。给定对象的真实边界框，模型需要预测对象的类别和关系。（3）场景图检测。给定一张图像，模型需要预测对象的边界框、类别和对象之间的关系。我们采用广泛使用的微观召回率@K（R@K）指标来评估模型性能[48, 54,5]，该指标计算前K个关系预测的召回率。为了研究模型在处理长尾关系方面的性能，我们还报告宏观召回率@K（mR@K）[4,45]，该指标计算前K个预测中所有关系的平均召回率。根据Zellers等人的方法[54]，我们还报告这些指标的平均值以展示整体性能。0基线。我们将我们的模型与强基线进行比较。（1）第一系列基线从每个关系的少量（即10个）人工标记的种子实例中学习视觉关系。基于频率的基线（Freq）[54]预测对象对之间最频繁的关系。增强重叠频率基线（Freq-Overlap）[54]158220模型谓词分类场景图分类场景图检测平均0R@50 R@100 mR@50 mR@100 R@50 R@100 mR@50 mR@100 R@50 R@100 mR@50 mR@1000DS0Motif 50.23 53.18 33.99 40.62 24.90 26.00 16.50 18.03 20.09 22.74 12.21 14.42 27.74 Motif + 清洁损失[23] 51.10 54.23 34.69 42.67 24.06 24.98 16.46 18.56 21.94 23.8913.21 14.49 28.36 Motif + DNS（迭代1） 50.23 53.18 33.99 40.62 24.90 26.00 16.50 18.03 20.09 22.74 12.21 14.42 27.74 + DNS（迭代2） 51.54 54.53 36.93 41.97 24.8126.08 16.13 17.56 22.83 24.36 13.48 14.45 28.72 Motif + DNS + EXT（迭代1） 52.82 55.98 36.25 41.66 25.79 26.98 17.39 18.56 22.63 25.12 13.30 15.40 29.32 + DNS +EXT（迭代2） 53.40 56.54 37.68 41.98 26.12 27.46 17.20 18.39 23.69 25.59 13.84 15.23 29.760FS0Motif [54] 67.93 70.20 52.65 55.41 31.14 31.92 23.53 25.27 28.90 31.25 18.26 20.63 38.090SS0Motif + DNS（迭代1） 73.50 75.33 61.40 65.20 35.39 35.98 28.71 30.25 34.83 37.68 24.78 27.90 44.25 + DNS（迭代2） 76.28 77.98 60.20 63.61 35.93 36.47 28.07 30.0933.94 37.26 23.90 28.06 44.310表2.去噪视觉远程监督实验结果（%）。显示了不同去噪迭代的结果。DS：远程监督，FS：全监督，SS：半监督。EXT：外部语义信号，DNS：去噪。0进一步过滤掉不重叠的对象对。根据Chen等人[5]的方法，我们还与从种子实例中学习决策树[33]进行比较。（2）对于进一步整合无标签数据的半监督方法，根据Chen等人[5]的方法，我们与基于数据点社区的标签传播[62]进行比较，该方法根据种子数据的标签将标签传播到无标签数据。有限标签[5]是最先进的半监督场景图模型，它首先使用种子实例学习关系生成模型，然后为无标签数据分配软标签以训练场景图模型。（3）我们还与强弱监督模型（†）进行比较，这些模型由对应图像的标题解析出的关系标签进行监督[32,58]。具体而言，我们使用VisualGenome中带有标题的图像来训练弱监督模型。我们使用从相应标题解析出的关系标签标记对象对，并使用重叠约束来过滤掉噪声标签（见第4节）。为了公平比较，我们还训练了一个在VisualGenome中具有标题的相同图像上的远程监督模型（Motif†）而没有去噪。（4）对于全监督方法，我们与强大且广泛采用的神经Motif（Motif）[54]进行比较。为了公平比较，我们实验中的所有神经模型都是基于神经Motif模型实现的，使用ResNeXt-101-FPN [27,47]作为骨干网络。（5）对于去噪基线，我们采用了启发式地降低具有大损失的关系标签的清洁损失[23]。有关更多实现细节，请参阅附录。消融研究。为了研究每个组件的贡献，我们进行了消融研究。（1）在远程监督设置中，我们基于第4节的通用知识库进行远程监督。原始标签通过原始远程关系标签预测关系。EXT表示外部语义信号。Motif表示在原始远程关系标签上进行训练，DNS表示基于提出的框架进行去噪。（2）在半监督设置中，除了远程标记数据外，我们假设可以访问完整的人工注释关系数据。Pretrain表示直接微调在远程监督上预训练的模型。0来自通用知识库的数据。DNS表示基于从VisualGenome训练注释构建的目标知识库的去噪。06.2. 视觉远程监督的影响0我们在表1中报告了视觉远程监督的主要结果，我们得出以下观察结果：（1）在不使用任何人工标注数据的情况下，我们的去噪远程监督模型明显优于所有基线方法，包括弱监督方法，甚至利用人工标注种子数据的强半监督方法。（2）通过进一步结合人工标注数据，我们的半监督模型在很大程度上优于最先进的全监督模型，例如，谓词分类的R@50改进了8.3个百分点。具体而言，对预训练模型进行简单的微调可以带来显著的改进。由于模型是在通用知识库上进行预训练的，因此它也可以直接在任何其他场景图数据集上进行微调以实现强大的性能。此外，通过在去噪框架中密切结合人工标注数据和远程标注数据，我们可以实现更好的性能。（3）值得注意的是，我们的模型实现了有竞争力的宏召回率，这表明我们的模型不偏向于少数频繁关系，并且可以更好地处理长尾问题。总之，视觉远程监督可以有效地创建大规模标注数据，以促进远程监督和半监督场景中的视觉关系学习。06.3. 去噪框架的影响0去噪远程监督的实验结果如表2所示，我们观察到：在远程监督和半监督设置中，我们的模型在基线模型上都表现出一致的改进。具体而言，在远程监督设置中，模型性能随着内部数据统计一致性的迭代优化而提高。进一步结合外部语义信号和人工标注数据不能158230模型 R@50 R@100 mR@50 mR@1000原始标签 35.62（+5.01） 39.78（+6.30） 34.83（+13.85） 39.45（+16.20）原始标签 + EXT 45.07（+6.86）49.00（+8.10） 44.18（+19.24） 48.56（+21.11） Motif 53.02（+2.79） 56.31（+3.13） 46.65（+12.66）50.90（+10.28） Motif + DNS + EXT 55.54（+2.14） 58.99（+2.45） 50.87（+13.19） 55.69（+13.71）0FS0Motif [54] 67.93 70.02 52.65 55.410表3.使用理想知识库进行谓词分类的远程监督实验结果（%）。我们还展示了相对于通用知识库结果的绝对改进。DS：远程监督，FS：全监督。0不仅提高了去噪性能，还加速了迭代算法的收敛。原因是外部语义信号和人工标注数据可以为框架的更好初始化和迭代提供强大的辅助去噪信号。结果表明，所提出的去噪框架可以在远程监督和半监督设置中有效减轻视觉远程监督中的噪声。06.4. 分析0使用理想知识库的远程监督。视觉远程监督的有效性可能受到知识库的不完整性以及知识库和图像之间关系和对象名称的不匹配的限制。我们展示了使用理想知识库进行视觉远程监督的潜力。具体而言，我们从VisualGenome的训练注释中构建了一个理想的知识库，它更好地覆盖了数据集中的关系知识，并且可以与VisualGenome图像很好地对齐。实验结果如表3所示，我们观察到：配备理想的知识库，远程监督模型的性能显著提高。值得注意的是，去噪远程监督模型的宏召回率显著提高，例如，在mR@50上绝对增益为13.2，达到与全监督方法相当的宏性能。因此，我们期望在知识库变得越来越完整的情况下，视觉远程监督将更好地促进视觉关系学习。0人工评估。由于现有场景图数据集中的关系通常没有进行全面注释，先前的研究集中于使用召回

下载后可阅读完整内容，剩余1页未读，立即下载