基于因果推理的无偏场景图生成

147 浏览量更新于2023-10-25 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3716基于有偏训练的无偏场景图生成唐凯华1，牛玉磊3，黄建强1，2，施嘉欣4，张汉旺11南洋理工大学，2达摩院、阿里巴巴集团、3中国人民大学，4清华大学kaihua001@e.ntu.edu.sg，niu@ruc.edu.cn，jianqiang.gmail.comshijx12@163.com，hanwangzhang@ntu.edu.sg摘要分数抽样比率0.4今天的场景图生成（SGG）任务仍然远不实用，主要是由于严重的训练偏差，例如，将不同的人在海滩上行走/坐在/躺在海滩上折叠成海滩上的人。给定这样的SGG，下游任务，如VQA，很难推断出更好的场景结构，而不仅仅是一袋物体。然而，SGG中的去偏置不是微不足道的，因为传统的去偏置方法不能区分好偏置和坏偏置，例如，良好的上下文先验（例如，人看书而不是吃饭）和不良的长尾偏差（例如，在后面/前面几乎占优势）。在本文中，我们提出了一种新的SGG框架的基础上因果推理，而不是传统的可能性。我们首先为SGG构建一个因果图，并使用该图进行传统的有偏训练。然后，我们建议从训练的图中提取反事实因果关系，以推断应该删除的不良偏见的影响。特别是，我们使用总直接效应作为无偏SGG的最终谓词得分请注意，我们的框架对任何SGG模型都是不可知的，因此可以广泛应用于寻求无偏预测的社区。通过在SGG基准Visual Genome和几个流行模型上使用所提出的场景图诊断工具包1，我们观察到了比先前最先进方法的显著改进1. 介绍场景图生成（SGG）[62] -图像中对象及其关系的视觉检测任务-似乎从未实现过其承诺：一个全面的视觉场景表示，支持图形推理的高级任务，如视觉字幕[67，65]和VQA [54，15]。一旦配备了SGG，这些高层任务就不得不抛弃模糊的视觉关系1 我们的代码在 GitHub 上公开： https ： //github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch0.30.20.10(a) 输入图像（b）同品种器械采样分数的分布(c) 偏置生成（d）无偏置生成图1.场景图生成（SGG）的一个例子。 (a)带有边界框的输入图像。(b)Visual Genome中最常见的20个谓词的样本分数分布[23]。(c)SGG从重新实现的MOTIFS [69]。(d)SGG由建议的无偏预测从同一个模型。- 然而，我们的核心努力是在上面[69，53，6]，然后假装有一个图-只有一个带有二进制链接的稀疏对象布局，最后将其覆盖到图神经网络[63]中，仅仅用于更上下文的对象表示[65，17，54]。虽然这部分是由于图推理的研究差距[2，49，16]，关键在于有偏见的关系预测。图1显示了来自最先进模型的SGG结果[69]。我们可以看到令人沮丧的一幕：在所有最完美检测的对象中，它们的视觉关系大多是琐碎的，信息量较少。例如，在图1（c）中，除了琐碎的2D空间布局，我们对图像的了解很少，从近，从上和有。这种严重偏差的生成来自偏差的训练数据，更具体地说，如图1（b）所示，高度偏斜的长尾关系注释。例如，如果一个模型被训练为预测1,000倍于站立，那么在测试过程中，前者更有可能战胜后者。因此，为了执行合理的图推理，我们需要将更细粒度的关系与表面上可能但微不足道的关系区分开来，例如在图1（d）中将near替换为behind/in front of，将on替换为parkingon/driving on车轮1男士1号楼具有接近车轮2 摩托车man2对头盔街车车轮1man1建筑摩托车背后车轮2man2头盔街道停在汽车不附近面前3717狗冲浪板(a) 基于似然的有偏生成比较：图像：对象特征：对象标签：等同Logits召回(a) 基于总直接效应的无偏发电有偏见的一代提议无偏见的一代(b) 反事实思维的直观例子图2. (a)直接从可能性预测标签的偏置生成。（b）所提出的总直接效果的直观示例注意，然而，我们不应该责怪有偏见的训练，因为我们的视觉世界本身和我们描述它的方式都是有偏见的：确实存在比狗携带袋更多的人携带袋（即，长尾理论）;对我们来说，给桌子旁边的人贴上标签比给正在吃饭的人贴上标签更容易（即，有限理性[50]）;并且我们更喜欢说人骑自行车而不是人骑自行车（即，语言或报道偏差[35]）。事实上，大多数有偏见的注释可以帮助模型学习良好的上下文先验[32，69]，以过滤掉不必要的搜索候选项，例如Apple Park on Table和Apple Wear Hat。一个有希望但令人尴尬的发现[69]是：通过仅使用Visual Genome基准[23]中检测到的对象类的统计先验，我们已经可以在场景图检测的Recall@100上实现30.1%-使所有更复杂的SGG模型几乎无用-这仅比最先进的低1.1-1.5%[5，53，72]。毫不奇怪，正如我们将在第5节中展示的那样，传统的去偏置方法在训练过程中不尊重“好的重采样[11]和重加权[30]不能推广到看不见的关系，即，Zero-shot SGG[32].对于机器和人类来说，决策是内容（内生原因）和背景（外生原因）的集合[56]。以SGG为例，在大多数SGG模型[69，5，72]中，内容是主体和对象的视觉特征，上下文是主体-对象联合区域和成对对象类的视觉特征。我们人类--出生和成长在有偏见的大自然中--在拥抱好的同时避免坏的背景，并作出不带偏见的决定与内容。其基本机制是基于因果关系的：决策是通过追求由内容引起的主要因果效应而不是由上下文引起的副作用来然而，另一方面，机器通常是基于可能性的：预测类似于查找10.80.60.40.20（b）同品种器械分类召回@100图3. (a)总直接效应计算和因果图上相应操作的示例，其中X<$表示被消灭的X (b)通过抽样分数对选定的同品种器械进行排序的同品种器械分类的召回@100。有偏生成指的是重新实现的MOTIFS [69]，而提议的无偏生成是使用TDE的相同模型的结果内容和它的上下文在一个巨大的可能性表中，由人口训练插入。我们认为，关键是教会机器如何区分在本文中，我们建议赋予机器反事实因果关系的能力[41]，以在无偏预测中追求如果我没有看到内容，我还会做出同样的预测吗反事实介于“我看到”的事实和“我没有”的想象之间，事实和反事实之间的比较自然会消除语境偏见的影响，因为语境是两种为了更好地说明可能性和反事实因果关系之间深刻而微妙的区别，我们在图2（a）中展示了一只狗站在冲浪板上的由于有偏训练，模型最终将预测。请注意，即使其余的选择并不完全正确，由于偏见，它们仍然有助于过滤掉大量不合理的选择。为了更仔细地研究它在语境偏见中的关系，我们本质上是在将原始场景与反事实场景进行比较（图2（b））：只有狗和冲浪板的视觉特征被抹去，而其余的--场景和对象类--保持不变，就好像视觉特征曾经存在过一样。通过这样做，我们可以专注于关系的主要视觉效果，而不会失去上下文。狗冲浪板狗冲浪板比较��，你好，��−=3718我们提出了一种新的无偏SGG方法，该方法基于因果推理中的总直接效应（TDE）分析框架[57，39，58]。图3（a）示出了两个交替场景的潜在因果图[40，41]：事实和反事实。尽管在第3-4节中对它们进行了正式的介绍，现在您可以简单地将节点理解为数据特征，将有向链接理解为（参数）数据流。例如，X→Y、Z→Y和I→Y表明关系Y是由按内容：对象视觉特征对X，上下文：它们的对象类Z，场景：图像I;淡化的链接表示被擦除的X<$不再由I引起或影响Z。这些图提供了计算TDE的算法公式，它准确地实现了图2中的反现实思维。如图3（b）所示，所提出的TDE显着改善了大多数预测，令人印象深刻的是，改善的性能分布不再是长尾的，这表明我们的改进确实来自所提出的方法，而不是更好地利用上下文偏差。图6中的进一步分析进一步表明，像on这样的较差预测-尽管很少-是由于转向更细粒度的结果，如stand on和park on。我们强调TDE是一种与模型无关的预测策略，因此适用于各种模型和融合技巧[71，69，53]。最后但并非最不重要的是，我们提出了SGG诊断工具包的新标准（参见。第5.2节），以获得更全面的SGG评估。除了传统的评估任务外，它还包括对偏差敏感的度量：平均召回[53，6]和一个新的句子到图形检索更全面的图形级指标。通过在SGG基准VisualGenome [23]和几个流行基线上使用该工具包，我们验证了现有模型中的严重偏差，并证明了所提出的无偏预测优于其他去偏策略的有效性2. 相关工作场景图形生成。SGG [62，69]在计算机视觉领域受到越来越多的关注，因为它可能会给下游视觉推理任务带来革命[49，65，22，17]。大多数现有方法[62，60，7，26，68，53，64，10，43，59]努力获得更好的特征提取网络。Zellers等人[69]首先提出了SGG的偏差问题，随后[53，6]提出了无偏度量（平均召回），然而，他们的方法仍然局限于特征提取网络，没有解决有偏SGG问题。最相关的工作[28]只是修剪了训练集中那些占主导地位且易于预测的关系。无偏见的训练偏见问题在机器学习中已经研究了很长时间[55]。现有的去偏方法可以大致分为三种类型：1）数据(a) 用于有偏训练的SGG框架图4. (a)在我们有偏见的训练中使用的框架。(b)SGG框架的因果图。(c)所提出的TDE推断的一个说明。增强或重新采样[9，25，27，11，3]，2）通过精心设计的训练样本或学习损失进行无偏学习[70，30]，3）将有偏表示与无偏表示分离[35，4]。所提出的TDE分析可以被视为第三类，但主要区别在于TDE调解分析。它也被称为效果分析[57，41]，广泛用于医学，政治或心理学研究[45，19，8，33，21]，作为研究某些治疗或政策效果cies。然而，多年来它在计算机视觉领域一直被忽视。最近很少有作品[36，24，37，42，52，13，66]试图赋予模型因果推理的能力更详细的背景知识可以在[40，41，57]中找到。3. 因果图中的有偏训练模型如图4所示，我们以因果图的形式总结了SGG框架。，结构因果模型）[41，38，40]。它是一个有向非循环图G={N，E}，表示一组变量N如何与通过因果关系E.它提供了数据背后的因果关系以及变量如何获得其值的草图，例如，（I，X，Z）→Y。在我们进行反事实分析之前，节点的值并修剪因果图，我们首先在图形视图中重新审视传统的有偏SGG模型训练。图4（b）中的因果图适用于各种SGG方法，因为它是高度通用的，对详细实现没有任何约束我们调查-图：图像图：特征图标签：边界框图：对象特征图：同品种器械Logits环境语言联合对象特征之前标签：对象标签01000马0 0010��（关于Likkind的培训人类标签预测环境背景嵌入特征提取(b) SGG的因果图−��=人"(c) 无偏TDE推断联合标签嵌入接头特征嵌入Faster R-CNN3719eeee研究三种代表性模型制剂：经典的VTransE [71]，最先进的MOTIFS [69]和VC- Tree [53]，使用节点和链接的语言。节点I（输入图像骨干）。一个更快的R-CNN [44]在这个节点中预先训练并冻结，它输出一组边界框B={bi|i=1…n}和来自图像I的特征图M。链接I→X（对象特征提取器）。它首先通过FasterR-CNN上的对象分类器提取RoIAlign特征[12]R={ri}和暂定对象标签 L={li} 然后，像 MOTIFS [69] 或VCTree [53]一样，我们可以使用以下模块为每个对象编码视觉上下文(a) 第一千零六十三章初代的萧凌玉（下）��ҧ��ҧ��ҧ(b) 第一章论“反腐败”案件��输入：{（ri ， bi ，li ）}={x i}输出：{xi}，（一）其中MOTIFS将其实现为双向LSTM（Bi-LSTM），VCTree [53] 采用双向 TreeLSTM （ Bi-TreeLSTM ）[51]，早期作品如VTransE [71]简单地使用全连接层。节点X（对象特征）。成对对象特征X从{（xi，xj）}获取值|ii=j;i，j=1. n}。我们稍微(c) 实际情况��下，��图5. SGG的原始因果图以及两个干预和反事实替代。节点Y（等同器械分类）。然后通过使用融合函数生成从三个分支获取输入的最终谓词逻辑Y。在第5节中，我们测试了两个通用融合函数：1）和：ye=Wxx′+Wvv′+z′，2）门：ye=Wrx′·σ（Wxx′+Wvv′+z′），e e e e e e在下文中滥用符号，表示i和j作为下标e的表示：xe=（xi，xj）。链接X→Z（对象分类）。每个对象的微调标签通过以下方式从对应的xi解码输入：{xi}={x i}输出：{zi}，（2）其中 MOTIFS [69] 和 VCTree [53] 分别利用 LSTM 和TreeLSTM作为解码器来捕获对象标签之间的同现。每个LSTM/TreeL-STM单元的输入是特征和前一个标签[xi;zi−1]的级联。VT transE[71]使用传统的全连接层作为分类器。节点Z（对象类）。它包含对象标签ze=（zi，zj）的一对独热向量。链接X→Y（SGG的对象特征输入）。对于关系分类，成对特征X由模块合并到联合表示中输入：{xe}={x ′}输出：{x′}，（3）其中，在连接对象特征对之前，分别在MOTIFS [69]和VCTree [53]中应用另一个Bi-LSTM和Bi-TreeLSTM层VTransE [71]使用全连接层和逐元素减法进行特征合并。链接Z→Y（SGG的对象类输入）。在该链路中，通过联合嵌入层z′=Wz[zi <$zj]计算语言先验，其中，联合嵌入层为N路对象标签对生成one-hot唯一向量RN× N。链接I→Y（SGG的视觉上下文输入）。该链接提取上下文联合区域特征v′=Co n vs（RoIAlign（M，bibj）），其中bibj指示两个RoI的联合框。其中·是逐元素乘积，σ（·）是sigmoid函数。训练损失。所有的模型都是通过使用传统的对象标签和谓词的交叉熵损失来标签为了避免任何单个链接自发地主导logitsye的生成，特别是Z→Y，我们进一步添加辅助交叉熵损失，这些损失分别预测来自每个分支的ye4. 因果效应无偏预测一旦完成了上述训练，就学习了变量之间的因果依赖关系，即模型参数。传统的有偏预测只能看到给定图像I = u的整个图的输出，而不知道特定对象对如何影响它们的谓词。然而，因果推理[41]鼓励我们跳出黑箱思考。从图形的角度来看，我们不再需要将整个图形作为一个整体运行。我们可以直接操作几个看看会发生什么例如，我们可以切断链接I→X，并给X赋一个伪值，然后研究谓词是什么上述操作被称为因果推理的干预[40]。接下来，我们将通过干预和其诱导的反事实4.1. 符号干预它可以表示为do（·）。它会把变量的所有输入链接，并要求变量传递某个值，例如，图5（b）中的do（X=x<$），这意味着X不再受其因果双亲的影响。反事实。它的意思是将图5（c）作为你知道��吗��3720ee例如，如果在X上进行干涉do（X=x），变量Z仍然取原始z，就好像x已经存在一样。因果效应。在本节中，我们将使用成对对象特征X作为进行干预的控制变量，旨在评估其效果，如果这对对象不存在，就不会有任何有效的关系。观察到的X被表示为x，而插入的不可见值是x′，它被设置为训练集的平均特征或零向量。图5（c）上的对象标签 z 由等式 2 计算（ 2 ）以 x 为输入。我们将插值X=x<$之后的输出对数Y表示如下（图5（b））：Yx<$（u）=Y（do（X=x<$）|u）、（4）其中u是SGG中的输入图像在上述符号之后，原始的和反事实的Y，即，图5（a，c），可以重写为Yx（u）和Yx，z（u），相对于iv el y。4.2. 总直接效应正如我们在第1节中所讨论的，无偏预测不是倾向于有偏的静态似然，而是存在于观测结果Yx（u）与其对应的实际备选结果Yx′，z（u）之间的差异。后一个是我们希望从预测中消除的特定于Xt实际上，我们寻求的无偏预测是从空白到所观察到的具有特定属性、状态和行为的真实物体的视觉刺激，而不仅仅是来自环境和语言先验。对象的那些特定视觉线索是更细粒度和信息形成的无偏预测的关键，因为即使总体预测偏向于像冲浪板上的狗那样的关系，在因果推理[57，58]中，上述预测过程可以计算为总直接效应（TDE）：TDE=Yx（u）−Yx<$，z（u），（5）其中第一项来自原始图，第二项来自反事实，如图5所示。请注意，还有另一种类型的效应[57]，总效应（TE），它很容易与TDE混淆。TE不求出实际偏差Yx<$，z（u）的倒数，而是让X的所有后代节点随交互do（X=x<$）变化，如下所示：如图5（b）所示。因此，TE公式为：T E=Yx（u）−Yx<$（u）。（六）主要区别在于Yx<$（u）不依赖于原始对象标签（由x引起的标签），因此TE仅消除整个数据集中的一般偏差（类似于y=k·x+b中的b），而不是由我们关心的中介引起的特定的细微差别TE和TDE之间的关系进一步定义为自然间接影响（NIE）[57]或纯间接影响（PIE）[58]。在第5节中给出了这三种效应的更多实验分析。总体SGG。最后，通过用TDE替换传统的一次性预测来获得所提出的无偏预测y t，TDE基本上“思考”两次：一个是观测的Yxe（u）=ye，另一个是虚的Yx<$，ze（u）=ye（x<$，ze）。因此，Y的无偏logits定义如下：y†=ye−ye（x<$，ze）。（七）值得一提的是，所提出的TDE5. 实验5.1. 设置和模型数据集。对于SGG，我们使用Visual Genome（VG）[23]数据集来训练和评估我们的模型，该模型由75k个对象类别和37k个预测类别的108k个图像组成。然而，由于92%的谓词不超过10个实例，我们遵循广泛采用的VG分割[62，69，53，5]，其中包含最常见的150个对象类别和50个谓词类别。原始分割只有训练集（70%）和测试集（30%）。我们遵循[69]从训练集中采样5k验证集进行参数调整。对于句子到图形检索（参见第 5.2 节），我们选择了 VG 和 MS-COCOCaption数据集[31]之间重叠的41，859张图像，并将它们分为train/test-1 k/test-5 k（35，859/1，000/5，000）组。后两个仅包含VG测试集的图像，以防暴露于真实SG。每个图像至少有5个标题作为人类查询，就像我们使用搜索引擎一样。模型动物园。我们评估了三种模型：VTransE [71]，MOTIFS [69]，VTree [53]和两个融合函数：SUM和门。它们使用与我们提出的相同的代码库重新实现。所有模型共享相同的超参数和预训练的检测器骨干。5.2. 场景图生成诊断我们提出的SGG诊断具有以下三个评估：1. 关系检索（RR）。它可以进一步分为三个子任务：（1）谓词分类（PredCls）：将地面实况边界框和标签作为输入，(2)场景图分类（SGCl）：使用没有标签的地面实况边界框。（3）场景图检测（SGDet）：从头开始检测SG。RR的常规指标是Recall@K（R@K），由于报告偏倚，本文放弃了该指标[35]。如图3（b）所示，以前的方法，如[69]，在R@K上具有良好的性能，不公平地迎合了3721谓词分类场景图分类场景图检测模型融合方法mR@20mR@50mR100mR@20mR50mR100mR@20mR50mR100IMP+ [62，6]---9.810.5-5.86.0-3.84.8频率[69，53]--8.313.016.05.17.28.54.56.17.1主题[69，53]--10.814.015.36.37.78.24.25.76.6科恩[6]---17.719.2-9.410.0-6.47.3VCTree [53]--14.017.919.48.210.110.85.26.98.0基线11.514.615.86.58.08.54.15.56.8焦10.913.915.06.37.78.33.95.36.6重新称重16.020.021.98.410.110.96.58.49.8重采样14.718.520.09.111.011.85.98.29.7主题†总和X2yX2Y-Tr13.011.616.414.917.616.06.96.58.68.49.29.15.15.06.96.98.18.1TE18.225.329.08.112.014.05.78.09.6聂0.61.11.46.19.010.63.85.16.0TDE18.525.529.19.813.114.95.88.29.8栅极基线12.215.516.87.29.09.55.27.28.5TDE18.524.928.311.113.915.26.68.59.9总和基线11.614.715.86.78.28.73.75.06.0VTransE†TDE17.324.628.09.312.914.86.38.610.5栅极基线13.617.118.66.68.28.75.16.88.0TDE18.925.328.49.813.114.76.08.510.2总和基线11.714.916.16.27.57.94.25.76.9VCTree†TDE18.425.428.78.912.214.06.99.311.1栅极基线12.415.416.66.37.58.04.96.67.7TDE17.223.326.68.911.813.46.38.610.3表1.关系检索的SGG性能在平均召回@K [53，6]上。在我们的代码库下重新实现的SGG模型由上标†表示。例如，而忽略像parked on，laying on这样的谓词具有令人惊讶的0.0 Re- call@100。为了代表有价值的[53] Chenet al. [6]的文件。mR@K分别检索每个谓词，然后对所有谓词求R@K的平均值。2. Zero-Shot Relationship Retrieval （ ZSRR ）。它是由Luet al. [32]作为Zero-Shot Recall@K，本文首先在VG数据集上进行评估，该数据集仅报告那些在训练集中从未观察到的主谓宾三元组的R@KZSRR也有三个子任务作为RR。3. 句子到图检索（S2GR）。它使用图像标题语句作为查询来检索表示为SG的图像。RR和RRRR都是三重层次的评价，忽略了图层次的一致性。因此，我们设计S2GR，使用人类的描述来检索检测到的SG。我们在S2GR算法中，使用SGDet检测到的SGs被视为图像的唯一表示，切断了对黑盒视觉特征的依赖，因此对SGG的任何偏差都会敏感地破坏SGs的一致性，导致检索结果变差。例如，如果行走被检测为有偏见的选择，图像将与坐在或躺在的图像混合。请注意，S2GR与零次关系检索PredCls SGCls SGDet模型融合方法R@50/100R@50/100R@50/100基线10.9/14.52.2/3.00.1/0.2焦10.9/14.42.2/3.10.1/0.3重新称重0.7/0.90.1/0.10.0/0.0重采样11.1/14.32.3/3.10.1/0.3主题†总和X2yX2Y-Tr11.8/17.613.7/17.62.3/3.73.1/4.21.6/2.71.8/2.8TE14.2/18.11.4/2.01.4/1.8聂2.4/3.20.2/0.40.3 / 0.6TDE14.4/18.23.4/4.52.3/2.9栅极基线7.4/10.60.9/1.30.2/0.4TDE7.7/11.01.9/2.61.9/2.5总和基线11.3/14.72.5/3.30.8/1.5VTransE†TDE13.3/17.62.9/3.82.0/2.7栅极基线4.2/5.91.9/2.61.9/2.6TDE5.3/7.92.1/3.01.9/2.7总和基线10.8/14.31.9/2.60.2/0.7VCTree†TDE14.3/17.63.2/4.02.6/3.2栅极基线4.4/6.82.5/3.31.8/2.7TDE5.9/8.13.0/3.72.2/2.8表2.Zero-Shot Relationship Retrieval结果。从先前的图像检索场景图[18，48]，因为后者仍然认为图像作为视觉特征，但不是SG。评价了图库大小为1 ， 000 和 5 ， 000 时检索结果的召回率 @20/100（R@20/100）和中位数排名指数（Med）。请注意，S2GR应该有不同的实现，只要它的精神：图级符号检索。我们将在下一小节中提供我们的实现。5.3. 实现细节物体探测器。在之前的工作[62，69，53]之后，我们预训练了一个更快的R-CNN [44]，并将其冻结为SGG模型的底层检测器。我们为更快的R-CNN配备了ResNeXt-101-FPN [29，61]背面-3722句子到图检索PredCls召回@100PredCls召回@50SGCls召回@100SGCls召回@50SGDetRecall@100SGDetRecall@50主题主题表3.句子到图形检索的结果骨骼并将输入图像的较长侧缩放为1k像素。检测器使用SGD作为优化器在VG的训练集上进行训练。我们将批量大小设置为8，初始学习率设置为8×10−3，在第30k次和第40k次迭代中衰减10倍。最后的德-tector获得了28分。VG测试集上的14mAP（使用0.5IoU阈值）。4个2080ti GPU用于预训练。场景图形生成。在冰冻的探测器上，我们使用SGD作为优化器来训练SGG模型对于PredCls和SGCls，批量大小和初始学习速率被设置为12和12×10-2; 8和8×10−2（对于SGDet）。学习率会下降10倍，验证性能平台。对于SGDet，对每个图像和每类NMS[47，69]进行了80个RoI采样，0.5 IoU应用于目标预测。在训练过程中，我们采样了多达1，024个主题-对象对，其中包含75%的背景与以前的作品[69，53，5]不同，我们句子到图检索。我们将S2GR作为图6.饼图总结了基线模型正确检测到但TDE认为“不正确”的所有关系。饼图的右侧显示了TDE给出的相应标签结合我们的定性例子，我们认为Recall@K的下降是由两个原因造成的：1）注释者偏好有限理性导致的简单注释[50]，2）TDE倾向于预测更多类似动作的关系，而不是模糊的介词。5.4. 消融研究除了我们之前讨论过的模型和融合函数之外，我们还研究了三种传统的去偏方法，两种直观的因果图手术，以及其他两种类型的因果效应：1）焦点：焦点损失[30]自动惩罚学习良好的样本，并专注于困难的样本。我们遵循超参数（γ= 2。0，α= 0。25）在[30]中优化。2)重新加权：加权交叉熵在行业中广泛用于有偏数据。将倒置的样品分数分配给每个预测类别作为权重。3)重采样[3]：在训练过程中，通过反向样本分数对罕见类别进行上采样。4)X2Y：由于我们认为无偏效应是在对象特征X的作用下产生的，所以它直接由偏置后X→Y分支的输出产生SG训练 5)X2 Y-Tr：它甚至切断了其他分支，使用图到图匹配问题。的查询标题每个图像被粘在一起并解析为文本SG用户[48]。我们将出现少于 5 次的所有主语 / 宾语和谓词设置为“UNKNOWN”标记，分别获得大小为4，459个主语/宾语实体和645个从SGDet生成的原始图像SG包含固定数量的RoI，并迫使所有有效的主体-对象对预测前景关系，以服务于mR 0 K中的K因此，我们使用阈值0.1通过标签概率过滤ROI，并从图中删除所有背景预测回想一下，图像SG的实体和谓词的词汇大小是150和50，如我们之前提到的。为了在统一的空间中匹配两种异构图：图像SG和文本SG，我们使用BAN [20]将两种图类型编码为固定维度的向量以便于检索。更多细节可以在补充材料中找到。X→Y用于训练和测试。6）TE：正如我们在-在第4节中介绍，TE是去偏置方法，取决于上下文。7)NIE：它是TDE和TE之间的边际差异，即，NIE = TE-TDE，这可以被认为是引入偏压Z→Y引起的纯效应。注意：虽然零矢量也可以是使用作为擦除输入x'，我们选择的平均特征为训练集的微小改进。5.5. 定量研究RR RR。结果列于表12中。尽管传统的去偏置方法：Reweight和Resample，直接破解mR@K度量，它们只在RR中获得了有限的优势，但在RR中没有获得优势。与RR SGDet中Reweight的高mR@K相比，其值为0。0/0。0，表明这种去偏训练方法破坏了有用的上下文先验。焦点丢失[30]几乎不适用于RR和TRR。靠近其他人具有对具有67.167.965.266附近46.239.936.5对39.135.8别人坐在走在……使用……在前面，在下面……在→覆盖在……36.9站在停在账面在上面51.429.930.332.127.727.220.316.9加勒ry尺寸10005000模型融合方法R@20R@100MedR@20R@100Med主题†总和基线11.639.91553.112.1708焦ReweightResample10.99.713.139.036.843.61631591242.93.02.511.111.413.4737725593X2yX2Y-Tr14.314.544.845.61251143.53.914.616.8556525TENIETDE15.96.717.049.929.253.6100202914.41.65.216.98.618.94691050425栅极基线TDE13.720.845.659.2143724.45.216.221.3618325VTransE†总和基线TDE12.314.742.348.41291063.63.615.016.3596483栅极基线TDE12.918.541.850.41361103.84.514.319.1634486VCTree†总和基线TDE9.919.037.457.0150823.15.011.520.0745385栅极基线TDE13.419.144.155.5121873.75.113.620.35833953723图7.从MOTIF†-SUM基线（黄色）和相应的TDE（绿色）生成的场景图的结果。顶部：关系检索结果。中间：零镜头关系检索结果。红框表示零激发三联体。下图：S2GR的结果红框表示正确检索的SG。由于空间的限制，从图中移除部分微不足道的检测到的对象。因果图手术，X2 Y和X2 Y-Tr，都改善了RR和RR的基线，但他们的增加是有限的。TE的表现与TDE非常相似，但正如我们所讨论的，它消除了一般偏倚，而不是主体-客体特异性偏倚。NIE是从TE到TDE的边际改善，甚至比基线更差。尽管如我们所讨论的，R@K不是RR的合格指标，但我们仍然在图6中报告了MOTIFS†-SUM的R@50/100性能。我们可以观察到从基线到TDE的性能下降，但是进一步的分析表明，那些在基线中被认为是正确的和在所有三个模型和两个融合函数中，即使是最差的TDE性能也优于先前的最先进方法[53，6]，在RR mR@K上有很大的优势。S2GR。在S2GR中，焦点和重新加权甚至比基线更差。实验结果表明，在三种常用的去偏方法中，重采样法是最稳定的一种。X2 Y和X2 Y-Tr与基线相比具有较小的优势TE排名第二，只比TDE差一点点。正如我们所预期的那样，NIE是最差的，因为它只基于纯粹的上下文偏见。值得注意的是，三种模型和两种融合函数在应用TDE后都有了显著的改进。5.6. 定性研究我们在图7的顶行和中间行中可视化了从MOTIFS t-SUM基线和TDE生成的几个SGCl示例，与基线模型相比，由TDE生成的场景图更具区分性，更喜欢像on这样的平凡谓词。中间一行的右半部分显示，当女孩没有触摸风筝时，基线模型甚至会由于长尾偏差而产生保持图7的底部是一个示例在S2GR中，基线模型检测到的SG丢失了人的详细行为，将人在街上行走和站在街上的行为都看作是人在街上，导致检索效果较差。所有的例子都显示了一个明显的趋势，即TDE对语义信息关系的敏感性远远高于对语义信息关系的敏感性。6. 结论我们提出了一个通用的框架，无偏SGG从有偏的训练，这是第一个工作解决严重的偏见问题SGG。借助反事实因果关系的力量，我们可以从良好的背景偏差中去除有害的偏差，这是传统的去偏差方法（如数据扩充[9，11]和无偏学习[30]）无法轻易识别的。我们通过在因果图的帮助下计算总直接效应（TDE）来实现无偏性，因果图是训练任何SGG模型的路线图通过使用建议的场景图诊断工具包，我们的无偏SGG结果被认为是- ably优于他们的偏见同行。致谢我们感谢所有评论者提出的建设性意见。这项工作得到了NTU-Alibaba JRI的部分支持。唐氏伞人街查询方式：人们打着伞走在城市的街道上。街伞伞人人人站在树…伞伞账面女人蛮蛮人行道Jeanperson人伞伞包人人街建筑person人伞伞包人人街建筑…伞伞控股女人蛮蛮对对对人行道Jean街伞伞人人个人对对树门零射击外套碗猫挂在门上的外套门桌挂帘碗附近猫门窗帘门上桌对外套Street 1Street 2人行道车停在背后标志树对Street 1Street 2人行道车树上的标志（灯）对阿曼3号海滩W走在冲浪板腿下女人1女人背后2拖欠女侠2冲浪板对女人3海滩1条腿女人有- -TDE检测到SG--基线检测到的SG零射击女孩风筝女孩看风筝下衬衫（夹克）短裤女孩控股风筝下衬衫（夹克）短裤S2GR诊断呼吸机RR诊断RR诊断波波挂在穿着具有穿着附近具有看着沿着3724引用[1] A. Agrawal、D. Batra，D. Parikh，和A.肯巴维不要只是假设;看一看并回答：克服视觉问答的前科。在CVPR，2018年。[2] P. W. Battaglia，J. B. Hamrick，V. Bapst，A. Sanchez-Gonzalez ， V. 赞巴迪湾 Malinowski ， A. 塔凯蒂 D.Ra-poso，A.桑托罗河福克纳等人关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。[3] E. Burnaev，P.Erofeev和A.帕帕诺夫重采样对不平衡分类精度的影响ICMV，2015年。[4] R. 卡丹角 Dancette，H. Ben-Beses，M. 线和D. 帕里克 Rubi ： Reducing unimodal biases in visualquestion answering. arXiv 预印本 arXiv ： 1906.10169 ，2019。[5] L. Chen，H. Zhang，J.肖，X.他，S. Pu和S.- F.昌用于场景图生成的反事实评论家多智能体训练。在ICCV，2019年。[6] T. 陈威于河，巴西-地Chen和L.是林书用于场景图生成的嵌入知识的布线网络。在CVPR，2019年。[7] B.戴，Y. Zhang和D.是林书使用深度关系网络检测视觉在CVPR，2017年。[8] G. 邓恩河 Emsley ， H. Liu ， S. Landau ， J. Green ， I.White和A.咸菜.心理健康综合干预随机试验中社会和心理学标志物的评价和验证：一个方法论的研究计划。NIHR期刊图书馆，2015年。[9] R. 盖霍斯山口卢比施角 Michaelis ，M.Bethge ， F.A.Wich-mann和W.布兰多ImageNet训练的CNN偏向于纹理

下载后可阅读完整内容，剩余1页未读，立即下载