接地一致性：提高预测精度并解决空间关系偏见的半监督方法

10 浏览量更新于2023-09-25 收藏 1.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15911接地一致性：提取空间常识实现精确的视觉关系检测Markos Diomataris1，2，†，Nikolaos Gkanatsios3，†，Vassilis Pitsikalis1，†，Petros Maragos21deeplab.ai，2雅典国立技术大学，3卡内基梅隆大学*@deeplab.ai，ngkanats@andrew.cmu.edu，maragos@cs.ntua.gr图1.即使是最先进的模型[16]也会过度拟合对象上下文并忽略空间常识，例如它预测过度自信（p >0. 7）每个人-眼镜副之间的磨损连接，仅仅是因为磨损是在此上下文中具有最多样本的等同物。当由我们的接地一致性蒸馏（GCD）方案进行半监督时，相同的模型能够克服这种偏差，从而产生更精确的场景图。然而，目前的召回指标忽略了未标记的对，并得到满意的两个图，未能捕捉到他们的明显差异。为了提高可见性，我们省略了空间关系的预测最好用彩色观看开发的空间常识然后可以提炼为摘要场景图生成器（SGG）是在给定图像的情况下构建有向图的模型，其中每条边表示预测的主语谓语宾语三元组。大多数SGG默默地利用数据集对关系上下文的偏见，即它的主体和客体，以提高回忆和忽视空间和视觉证据，例如。在看到关于穿衬衫的人的大量数据之后，他们过度自信地认为每个人都穿每件衬衫。这种不精确的预测主要归因于大多数关系缺乏负例，这阻碍了模型有意义地学习谓词，即使是那些有大量正例的谓词。我们首先提出了一个深入的调查的背景偏见的问题，以展示所有检查的国家的最先进的SGG共享上述漏洞。作为回应，我们提出了一个半监督的计划，迫使预测的三胞胎接地consistently回到图像，在一个闭环的方式。的* 当N时完成Gkanatsios是deeplab.ai的†由deeplab.ai学生SGG，并大大提高其空间推理能力。这种接地一致性蒸馏（GCD）方法是模型不可知的，并且受益于多余的未标记样本以保留有价值的上下文信息并避免注释的记忆。此外，我们证明，目前的指标忽略unlabeled样本，使自己无法反映上下文的偏见，然后我们挖掘和纳入评估期间硬否定重新制定精度作为一个可靠的指标。广泛的实验比较表现出大的定量-高达70%的相对精度提高VG 200数据集-和定性的改进，以证明我们的GCD方法和我们的指标对refo- cusing图形生成作为一个核心方面的场景理解的重要性。代码可在https://github.com/deeplab-ai/grounding-consistent-vrd获得。1. 介绍“Multiple people坐在同一张椅子上，用同一只手尴尬-15912图2.所有主体-穿戴-对象三元组的对象相对于其主体（绿框）的位置分布。当使用地面实况（a）或最先进的模型[11]预测高置信度（p > 0. 7）标记样本（b）上的三胞胎，只有1%的物体位于受试者的盒子之外。在评估（c）中结合未标记的样本揭示了预测与地面实况之间的重要不对准，这在以前是不可观察的。尺寸相对于标准化。主题如Fig.1意味着，这就是当前最先进的场景图生成器（SGG）如何对未标记对象对的执行推理表明，所有的体系结构，无论是简单的还是复杂的，都缺乏对关系的基本理解。相反，它们严重依赖于数据集上下文偏差，即谓词和主体-客体类别之间的统计先验，以过拟合少数频繁谓词并最低限度地改善无法捕获这种脆弱行为的重新调用度量。以前的方法[36，32，41]将偏倚归因于谓词的长尾分布：常见的比罕见的更重要。因此，他们开发了旨在提高尾类回忆的技术。但是图1揭示了偏见的另一个含义：模型似乎严重缺乏空间常识，即使对于一些常见于流行数据集中的头部类，如Wear和On。我们的工作探讨了语境偏见的影响和起源以及最痛苦的阶级。为了减轻它，我们引入了一个半监督蒸馏训练方案，称为接地一致性蒸馏（GCD）。在GCD中，教师SGG网络被进一步约束以预测可以通过预训练的接地网络接地回图像的关系然后将教师培养的空间常识知识提炼为学生SGG模型。这种独立于模型的方案迫使模型对未标记的样本进行额外的推理我们进一步贡献了两个负图完成规则，用于在测试过程中为未标记的样本生成负标签最后，我们重新实施和评估六个国家的最先进的模型，证明亲发现收益时，采用我们的计划，甚至超过相关的替代品。我们的实验强调了精确度的重要性，作为场景图生成器的一个长期次要方面，这将鼓励它们在现实世界场景理解问题。2. 语境偏向作为我们调查的跳板，我们研究了模型对磨损的理解水平，这是大多数流行数据集中的头类。人类常识规定，对于要穿戴对象的受试者，必须应用空间接近性，即主体和客体的框应该相交。大多数最先进的模型实现了接近100%的磨损，但他们拥有上述空间常识？图2证明了忽略对未标记样本的预测会错误地导致我们相信它们会。事实上，即使仅保持高置信度预测（p >0. 10%的人认为是错误的。感兴趣的进一步探测器图3描绘了三个令人震惊的事实。首先，一个最先进的模型[54]，聚合视觉，语义和空间信息，预测人穿着衬衫，而不管后者第二，只使用视觉特征的基线[12]也受到这些限制，并且当衬衫的盒子被放置在任何人身上时预测磨损第三，更弱的空间基线[12]，只知道两个边界框，是最精确的，当两个框重叠时预测磨损这些观察结果表明，语义和视觉特征都是负责记忆的上下文偏见和缺乏空间常识，例如。穿着衬衫而与其框具有零交集是不合理的[6]。尽管如此，上下文信息本身就是一种关系合理性的衡量标准。考虑到人和椅子，人类甚至在观看图像之前就本能地对坐在上面具有高优先级。其次，人类注释者 “ 对忽略什么和提及什么应用自己的主观判断”[28]，导致报告偏见[38]。对于场景理解更有用的关系更有可能被注释，例如。我们很少期望衬衫旁边的人是显著的概念，尽管对于穿衬衫的人同样可观察到。为了验证这一点，我们在图中说明了不同主宾标签的谓词分布。4a，b两个流行的数据集，VRD [25]和VG200 [47]。对于man-chair的情况，大多数注释都涉及sitting on及其同义词in，on在此上下文中具有相同的在这些限制下，频率基线实现了具有欺骗性的高召回分数[54]。遗憾的是，最先进的模型仅略微偏离- 或者甚至建立在-这个频率基线上[23]，正如我们15913LLLL图3.三个模型的滑动框实验：我们固定人Motifs-Net [54]似乎忽略了视觉和空间证据，几乎到处都在预测磨损。[12]的视觉基线混淆了人的不同实例。由于不知道所引用对象的类别，[12]中的空间基线采用常识：两个框应该相交以预测磨损。图4.（a）和（b）：背景偏差是报告偏差的结果大多数主宾对都没有用谓词注释，只有那些注释者主观认为在场景描述中有意义的主宾对才用谓词注释这导致有偏的条件谓词分布，其中同义词的集群，例如穿，有和在人的情况下-衬衫，主宰其他类。（c）如果我们测量类占主导地位的上下文的平均熵，我们观察到需要所涉及对象之间的空间接近度例如具有较低的熵值，这意味着它们产生更强的偏差。将在第5节中显示，达到令人不安的低精度分数。另一方面，有许多未标记的样本（97%的VG 和87%的VRD）可以作为负例，但它们仍然未被利用。有限的认知场景图生成器，即使是谓词丰富的例子，强调需要重新评估哪些是最有问题的类。作为回应，我们测量每个上下文的谓词分布的熵，然后，对于每个类，我们平均熵的上下文，在这类是最普遍的。熵排名的详细配方中提出的Suppl.材料该熵排序分析（图4c）揭示了邻近谓词，即需要主体和对象的空间像素接近度的谓词（例如，对象的空间像素接近度）。磨损、开启、具有），倾向于导致更高的上下文偏差（更低的熵）。上述三个类别捕获了超过40%的VRD相反，它是近端谓词，显示最严重的缺乏空间常识。3. 研磨稠度蒸馏上述分析强调了我们的解决方案必须包含的三个关键属性：（1）使用未标记的样本来创建针对上下文偏置的分布偏移，（2）解决包含上下文偏置的相同类别的实体之间的冲突。融合网络以预测主导类，例如两个人拿着同一把伞，（3）是模型不可知的。我们解决这些挑战与半监督蒸馏训练计划利用三个不同的网络：地面，教师SGG和学生SGG。教师的空间常识的获取以及其灌输给学生的结果是两个损失t和s分别补充标准的首先，教师接受训练，迫使其预测准确地回到图像。然后，在学生的训练中受CycleGANs [60]的启发，我们将此方案称为接地一致性蒸馏（GCD），因为预测的关系必须与接地者重新定位它们的能力一致GCD是漠不关心的教师或学生模型的特点，是适用于未标记的样本，作为每上下文占主导地位的类的分布负。教师培训作为教师SGG，我们采用ATR-Net [11]并假设现有的经过训练和冻结的地面，即。在给定关系三元组的情况下，局部化引用主体-对象实体的边界框的模型。训练现在获得了一个闭环形式，老师为一对实体预测一个谓词地球人重新估计他们的空间结构15914LL总L转P不∈×个→ ∈∈PL不LLⓈL×个不×个不确保引用实体的高质量接地。另一方面，空间上不可信的谓词导致所估计的热图h_s、h_o与地面实况框之间的不匹配，这对检测施加惩罚。我们的总目标是具有Lt的标准交叉熵损失的总和：Lt=Lce+α（t）Lt（3）其中α（t）是随时间增加以在记忆（回忆）ce和泛化（精确）t之间平衡的时间依赖正则化子。学生训练采用伴随s的标准交叉熵：从pt到ps（学生学生Ltotal=Lce+λDKL（p p）（4）s t s图5.教师和学生培训管道。老师：一个不-给出标记的对象对作为输入（1）以预测关系三元组（2），然后Grounder尝试定位引用实体，即主体和对象，返回到图像（3）。错误的接地，例如预测人（蓝色）穿着衬衫（红色）导致惩罚关系分类（5）的基础不一致（4）。学生：对未标记样本的预测用于从受过训练的教师中提取知识，而当标签可用时应用标准交叉熵(Fig.（五）。基于基础质量，我们惩罚或奖励检测到的关系，例如在图5中，空间不一致的预测将接地误差反向传播到教师。形式上，令f（S，0）pt是将主体S=（sv，ssem，ssp）和客体0=（ov，osem，osp）信息（视觉、语义、空间）映射到谓词上的概率分布的教师关系检测器。如果r=argmax（pi），则反过来，接地是定义为g（ssem，r，osem）（hsRH×W，hoRH×W）的函数g，其在空间上将关系r接地到测量每个实体在H W图像表示上的定位的置信度的热图。我们通过对在主体和对象的边界框内预测的最大置信度值求平均来量化接地质量q[0，1]由于标记的样本已经提供了训练信息，因此t和s都只应用于未标记的对。避免直接使用教师进行关系检测而采用蒸馏的关键在于，t对所有类型的误分类不同等敏感事实上，由于质量q不是r的分布，而是r的孤立似然性得分，因此任何确保高质量基础的类都将得到奖励。这意味着q有时可能会高估预测概率pr，从而导致噪声，如我们在第5节中所示，对模型的召回率有负面影响学生-教师方案通过使用教师过滤掉噪音，同时更好地将其发展的空间常识提炼给学生，从而减弱了这种不当行为该过滤是KL散度惩罚的结果-与它与pt的偏差成比例地计算ps。接地方法接地指涉关系的经典设置[20]通过检测主语和宾语将主语-谓语-宾语三元组与图像匹配然而，我们发现，这种设置不处理模糊的情况下，输入三元组可以接地到一个以上的实体对，例如。将戴帽子的人接地在示出两个人都戴帽子的图像上。由于我们使用接地作为学习精确关系的支架，而不是与先前的文献进行比较，因此我们修改了任务以解决此类歧义q=max（hsms）+max（homo）2（一）通过将对象的定位调节其中m_s、m_o是非零的H_W在地面实况的盒子里，是阿达玛产品。t是接地质量q之间的交叉熵以及预测谓词r的概率pr：独立接地问题。我们将每个实体的根植分成两个步骤。第一步估计一个合理的盒子，适合图像比例：R R的人骑吗？我们把这个问题作为一个重新-Lt=−[q logpt+（1−q）log（1−pt）]（2）注意，错误仅通过pr反向传播。直观地说，高概率谓词预测应该是-盒子尺寸的回归问题第二步骤回归评估所估计框的中心的位置的空间概率分布的Hff15915RRGCD公式对地滚球的精确选择是不变的。因此，更详细的介绍超出了我们的范围，我们请读者参阅我们的增刊。材料4. 否定式评价的重新定位如图所示（Fig.图1、图2、图. 4a，b），只有在检查未标记的样本时，我们才能确定上下文偏差的影响，强调了将其纳入评估的重要性。然而，最常用的度量Recall@k（R@k）[25]（其测量前k个检测中的真正关系的部分）不对未标记对进行误预测。另一方面，将未标记样本视为否定的精度度量是悲观的，因为它们可能会惩罚未注释的正确预测的关系[25]。此外，我们实验证明，测量精度，这种方式是没有洞察力。这促使人们重新审视如何在评价中利用未标记的样品。负图完成我们提出了一种方法来挖掘，并将未标记的样本到有意义的指标，反映了上下文的偏见和空间常识，通过引入两个负图完成规则，产生负面标签的近端谓词。受上下文偏差影响最大的近端谓词可以分为两组：占有欲和归属感所有格谓词表示从主语到宾语的所有权传递。拥有和吃。从属谓词具有相反的意义，主语是宾语的一部分或依附于宾语，例如。坐在上面的。一般来说，与所有格谓词有关系的主语不在人有手，手只属于被提及的人。类似地，连接到具有所属谓词的对象的主语不被躺在沙发的人很可能不能同时躺在另一个沙发上。其中p，b分别表示所有格和归属谓词的集合，r（s，o）表示主语s之间的关系对象o与谓词r，我们得到以下规则：• 所有格：r∈ Rp，s，o，s′：r（s，o）=⇒¬r（s′，o）• 归属：r ∈ Rb，s，o，o′：r（s，o）=⇒¬r（s，o′）这些规则的例子如图所示。6.在我们的supp中拥有/归属关系的完整列表。材料负标签丰富了数据集的测试集，具有针对性和挑战性的示例，要求模型更加精确，例如每次遇到夹克和人时预测ON的模型现在将错过ON的大量负面示例。同时，精度不易于不完整的注释，并且可以在具有阳性或阴性标记的样品上安全地为什么不简单地对背景边缘进行排序？过去的方法[54，56]采用图6.注释关系（绿色）用于生成负边（红色），遵循特定规则。占有性：因为一个人（黄色）穿着这件衬衫，所以其他人不能穿它。这种方法存在固有的缺陷，因为所有未标记的样本实际上都属于现有的类。此外，两个最突出的修剪策略手动过滤对象框的非相交对作为虽然它们部分改善了边的排序，但它们掩盖了缺乏空间常识：网络仍然对图1中的人（蓝框）进行分类。6.如穿衬衫（青色方框）。最后，认为在未标记对上的错误预测显示出低概率的观点被图1所反驳。2c，其中大部分误预测是过度自信的（p > 0. （七）.5. 实验和结果我们在两个数据集上评估了大量最先进的场景图生成器，旨在：（1）定量地显示了背景偏差效应并验证了GCD对所有测试模型的有效性，（2）定性地解释了GCD对更精确的场景图和改进的空间常识的影响，（3）展示了我们的度量捕获背景偏差的改进能力，（4）证明了GCD相对于其他替代方案的优越性。模型，数据集和度量我们的模型动物园包括六个重新实现的模型， VTransE [57] ， Motifs- Net [54] ，RelDN [59]，ATR-Net [11]，UVTransE [16]和HGAT-Net [27]，都采用各种特征类型和架构。实施细节包含在我们的供应中。材料我们在VRD上训练和测试所有模型[25]和VG200 [47]分别用于谓词检测（PredDet）在PredCls中，对象类别和框被认为是已知的，而在PredDet中，给出了交互作用的对象的附加信息我们选择这些任务，以避免干扰与对象检测错误。a（t）（等式3)是经验性地设置在第一时期之后上升的单位阶跃函数，并且λ（eq. 4)等于80。我们报告R@50，仅在标记的样品、mP+和f-mP+上测量的微精度（mP），其中+表示对我们挖掘的阴性标记的额外评估，并且f-仅在近端聚焦测量15916模型VRD（PredDet）VG200（PredCls）R@50MPMP+f-mP+哈尔梅安R@50MPMP+f-mP+哈尔梅安VTransE [57]53.1713.1117.4226.9535.7761.162.214.5715.6024.72[第54话]55.0613.3120.6732.3840.7862.542.324.5017.9827.70RelDN [59]55.0213.6622.9436.6343.9857.832.034.9316.8225.89ATR-Net [11]57.6913.9923.8738.7846.3863.022.255.8220.0130.30UVTransE [16]56.8813.4621.6334.6943.1062.692.244.6015.5724.88HGAT-Net [27]57.0013.8422.4636.2644.3263.302.325.4016.8226.56VTransE + GCD54.0112.9220.4636.6243.6560.642.287.1824.6334.79模体-网络+GCD55.1213.0625.5842.4347.9563.302.277.3625.2836.08RelDN + GCD53.9712.8925.2241.4446.8855.491.997.3325.3234.43ATR-Net + GCD57.5913.9328.9848.3352.5663.352.327.3425.1735.92UVTransE + GCD56.7213.7228.246.7751.2662.362.287.7026.4537.04HGAT-Net + GCD56.2413.3425.842.6648.5262.832.317.4225.5036.28教师ATR-Net57.2113.9829.4348.9752.7762.782.527.1525.5535.58表1.重新实施的模型的结果与无GCD。我们测量Recall@50（R@50）、微精度（mP）、mP+、f-mP+以及R@50和f-mP+的调和平均值。+表示对所挖掘的否定标记的附加评估，f-仅关注对邻近谓词的评估。老师供参考。我们进行了五个随机初始化的实验VRD的最大标准偏差：R@50 ±0。42，mP ±0. 18，mP +±0. 66，f-mP +±1。十六岁对于VG200：R@50 ±0。04，mP ±0.02，mP +±0. 22，f-mP +±0. 39岁图7.上图：GCD设法将对象的分布集中在主题上，以用于ATR-Net下图：短语person wearing shirt的滑动盒实验。最初，即使衬衫位于背景区域中，Motifs-Net也会预测磨损当用GCD训练时，它获得基本水平的空间常识，并预测仅在主体上或非常接近主体的磨损imal谓词。最后，我们计算R@50和f-mP+的调和平均值（HarMean）作为总体度量。背景偏差和基础一致性所有重新实施的基线的结果包括在表1的上半部分。HarMean会改变两个数据集上模型之间的排名，因为具有相似R@50的模型，例如UVTransE-Net和HGAT-Net，显示显著不同的精度增益。表1的下半部分包含使用所提出的方案（+GCD）对相同模型进行额外半监督时的结果。我们注意到在mP+和f-mP+上的大的改进（对于UVTransE，在VRD上相对高达35%，在VG 200上高达70%），具有非实质性的R@50牺牲。总体而言，HarMean增加，相对于VRD增加22%，相对于VG200增加49%。空间常识和稀疏图由GCD半监督的模型能够生成稀疏图（图1）。8）和发展空间常识的基本水平（图。（七）. 注意，例如，如何ATR-Net（图。8左上）能够完美地解决所有人和衣服之间的冲突，表明对谓词含义的理解有所提高更多定性结果请参阅我们的supp.材料模型预测什么来代替最常见的一个惩罚谓词而支持同义词的模型[12]，例如预测某人坐在椅子上而不是坐在椅子上以获得样本，而其中on是假的，这同样是对谓词解释的无知。可视化图上的所有边缘和预测（图1的顶部和中间右列）。8）表明用GCD训练的模型利用隐含的空间特征，并对所有样本给出合理的预测，例如一个错误地在滑雪板上的人现在就在他们旁边度量比较尽管有上述定性证据，R@50或mP并没有吸引定量改善。另一方面，mP+清楚地量化了GCD对所有模型的好处，这是因为在评估中使用了有针对性的否定项，这些否定项惩罚了基于上下文的无情的有偏见的预测。我们进一步验证，f-mP+更好地捕捉模型这可能归因于非近端等同器械的性质：大部分15917L图8.定性比较三个模型除右列顶部和中部外，为清楚起见，过滤了非近端等同器械。GCD创建具有稀疏连接组件的图。大多数被错误分类为近端谓词的边现在与合理的几何谓词相关联。最好用彩色观看。方法R@50MP+f-mP+哈尔梅安GCD-G+0.50+5.23+6.24+4.03GCD-D-2.41+16.36+20.53+10.22GCD-0.33+19.28+26.19+14.61表2. GCD结构上的消融移除接地（GCD-G）或蒸馏（GCD-D）将分别抵消精度增益并限制模型最佳地发展空间常识。方法R@50MP+f-mP+哈尔梅安空间基线 *47.0820.0932.8738.71Oracle教师 *56.4433.1355.6156.02SpatDistill-0.09正十二点六七+15.10+8.82GraphL+0.27+17.95+23.25+13.35GCD（我们的）-0.33+19.28+26.19+14.66带NCE的Oracle（我们的）-0.09+39.03+45.47+24.03表3.表1中六条基线的平均相对性能增益。GCD在提取空间常识方面优于其他方法，并且可以与使用基于规则的否定的Oracle NCE相媲美。对于带 * 的模型，报告的绝对结果仅供参考。它们是几何形状的并且可选择地用于彼此，例如紧挨着、靠近和邻近。[12]表明在这种情况下，模型倾向于预测每个上下文的最频繁同义词解决这种类型的偏见是一个很难的问题，超出了这项工作的范围。相反，近端谓词明显受益于GCD，如f-mP+所反映的。消融研究接地和知识提炼相结合是有效获取空间共性的关键道理啊为了验证这一点，我们进行了消融研究与两个结构变化的GCD：去除地面（GCD-G）和直接应用t的基线模型，而无需中间蒸馏步骤（GCD-D）。表2显示了表1中所示的六个基线的平均相对性能增益。GCD-D介绍了一个高的相对召回下降，同时具有较差的精度提升相比，GCD管理，以最大限度地提高精度和保留最小的召回处罚。GCD-D证明了简单地利用教师与其他方法的比较在保留教师-学生部分的GCD的同时，我们实验了除了Grounder之外的空间常识的替代来源。出于我们的分析，偏向于上下文忽略空间特征的网络，我们采用图1的空间基线。3.我们称这种方法为SpatDistill。第二种方法是直接使用从我们的规则中导出的 oracle 否定，并将 [18] 的负交叉熵损失（NCE）应用于教师（Oracle教师）。从甲骨文老师中提炼出的信息是GCD的上限，因为网络不需要使用不完美的地滚球来推理一个例子是否是否定的。最后，我们将GCD与[59]的图形对比损失（GraphL）进行了比较，后者学习根据规则对负样本进行排名。所得平均相对性能增益在表3中提供，其中GCD具有优于SpatDistill和GraphL的明显优势。虽然精确，但空间基线是幼稚的（表3），并限制了模型15918先学习好的上下文。GraphL降低了精度增益，因为它不正确地将所有未标记的对视为所有类的否定项，但这些确实属于一个类;事实上，即使对于近端预测物，也存在许多未标记的阳性。最后，靶向阴性（NCE）对精确度度量有很大影响。请注意，与GCD相反，GraphL和NCE依赖于规则，尽管这些规则在VRD和VG200上有效，但可能无法推广到所有数据集。表2、表3的扩展版本见补充说明。GCD的局限性我们管道使用的地滚球并不完美：它可能会被过于接近的实例所混淆（图10）。8右下角），而不正确的谓词预测可能导致正确的接地。尽管如此，我们的实验证明，GCD达到了基本水平的空间常识，并与Oracle NCE相媲美，而被半监督。6. 相关工作视觉关系检测和场景图生成（SGG）都涉及检测对象并分别对每对的谓词进行分类[56，57，59，2，11，12]。22，31，50]或共同地在图[3，4，51，52，53，37，44，43，34]上。所有这些工作都优化了数据集的地面实况的召回率与我们最接近的是，[59]还探索了归因于混淆实体的定性错误，并使用对比损失来提高特定类别的平均精度。然而，它们将所有未标记的样本视为阴性，并且对“不相关”实体之间的预测提供有限的见解与上述正交，我们彻底分析了上下文偏差的影响，挖掘有针对性的负面影响，以增强我们的指标的共振，然后放大所有测试模型的精度。无偏SGG并行文献将偏差归因于关系的长尾分布，并应用低拍摄学习[5，42，30]或图像处理[45，8，19]来克服尾部类别样本的缺乏。[12]和[36]揭示了模仿上下文偏见对少数概括的影响。我们对未标记样本的分析和滑动框实验也普遍说明了无法正确解释频繁谓词。因此，我们重新定义的痛苦类与上下文条件的熵，而不是一个谓词条件的频率排名。接地是指由自然语言表达描述的图像区域的本地化[26，33]。最近的方法对齐视觉和语言场景图[48，24，40]来解析和消除指代表达式的歧义。最接近我们的，[20，35]明确地接地指涉关系，即。主语-谓语-宾语三元组，但它们的任务不同之处在于，它们的目标是检测两个宾语，而我们则将主语条件化为宾语，反之亦然。我们的地滚球也从空间常识作品中汲取灵感[49]，特别是在打破探测中两个步骤，给定关系[6]的对象布局的图像不可知推理接地一致性受到最近半监督方法的启发[55，17]。原始一致性正则化损失[21]最小化输入图像x及其扰动版本x'的预测f（x）和f（x'）之间的差异。我们的公式让人想起对抗性的循环一致性损失[60]，其中f和f−1是联合学习的，使得f−1（f（x））近似于x。在我们的例子中，我们用一个预先训练好的grounder来近似f−1共享类似一致性逻辑的唯一场景图生成器是[13]的场景图生成器，其通过中间场景图表示自动编码图像，但使用生成模型来重建图像，同时我们重新接地物体以增强探测器有限的监督SGG一直是一个答案，由于稀疏的注释场景图的未标记的样本过剩因此，一系列作品采用弱监督方法[29，58，10，51，1]来利用标记/未标记的数据。[7，11，31，32，56，9，46]使用过滤器或多任务来将标记的样本排名在未标记的样本之上。其他方法使用半监督学习[5]，自我训练[2]或蒸馏[50，31]来估计未标记样本的伪标签。然而，伪标签也遭受上下文偏差。与此相反，我们的半监督方法直接惩罚那些没有返回到图像的预测。场景图完成一些作品试图基于现有的谓词边来弹出图[39]。[14]应用传递和逆向关系的规则，而[12]构造关系的同义词类。这些方法生成积极的例子，作为辅助训练，而我们的规则挖掘有针对性的负面例子，以提高精度指标的洞察力。7. 结论目前国家的最先进的发电机还远远不支持可视化图形推理。相反，他们过度拟合的背景偏见，以满足召回指标的小洞察力。我们设计了一个半监督框架，该框架将预测的关系与图像联系起来，以培养基本的空间常识。我们进一步设计了两个负图完成规则，以增强测试集与有意义的负的例子，能够捕捉上下文的偏见，并在各种设置下表现出显着的收益然而，空间常识是解释视觉谓词的一个方面。未来的探测器还应该将概念推理作为关于物理世界的更高层次的我们有信心，我们的 ap-proach 激发了重新思考的重要性，unlabeled数据作为一个固有的元素，场景图生成和，同样重要的是，评估。15919引用[1] Federico Baldassarre，Kevin Smith，Josephine Sullivan，and Hossein Azizpour.基于解释的弱监督学习与图形网络的视觉关系Proc. ECCV，2020。[2] 陈第七、梁小丹、益州王、文杲。基于梯度诊断的软迁移学习在视觉关系检测中的应用。InProc. WACV，2019.[3] Long Chen，Hanwang Zhang，Jun Xiao，Xiangnan He，Shil- iang Pu，and Shih-Fu Chang.场景动态：Counterfac-tualCriticMulti-AgentTrainingforSceneGraphGeneration. InProc. ICCV，2019.[4] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络。在Proc. CVPR，2019中。[5] 文森特 ·S. Chen ， Paroma Varma ， Ranjay Krishna ，Michael Bernstein，ChristopherR e'，andLiFei-Fei. 具有有限标签的场景图预测InProc. ICCV，2019.[6] Guillem Collell ， Luc Van Gool ， and Marie-FrancineMoens.通过隐式空间模板获取常识空间知识。在Proc.AAAI，2018中。[7] Bo Dai，Yuqi Zhang，and Dahua Lin.用深度关系网络检测视觉关系。在Proc. CVPR，2017中。[8] 放大图片作者： Helisa Dhamo ， Azade Farshad ， IroLaina ， Nassir Navab ， Gregory D.Hager 、 FedericoTombari和C.鲁普雷希特使用场景图的语义图像处理。在Proc. CVPR，2020中。[9] Mohammed Haroon Dupty，Zhongpei Zhang，and WeeSun Lee.基于低秩非负张量分解的视觉关系检测。在AAAI，2020年。[10] Sarthak Garg、Joel Ruben Antony Moniz、Anshu Aviral和Priyatham Bollimpalli。从标题和边界框学习关联。在Proc. ACL，2019年。[11] Nikolaos Gkanatsios、Vassilis Pitsikalis、Petros Koutras和Petros Maragos。基于注意-转换-关系网络的可伸缩场景图生成。InProc. ICCV Work-shops，2019.[12] Nikolaos Gkanatsios ， Vassilis Pitsikalis ， and PetrosMaragos.从饱和到零镜头视觉关系检测使用局部上下文。在Proc. BMVC，2020中。[13] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在Proc. CVPR，2019中。[14] Roei Herzig 、 Amir Bar 、Huijuan Xu、Gal Chechik、Trevor Darrell和Amir Globerson。学习场景图到图像生成的规范表示。Proc. ECCV，2020。[15] 杰弗里·E Hinton，Oriol Vinyals，and Jeffrey Dean.在神经网络中提取知识。ArXiv，abs/1503.02531，2015。[16] Zih-Siou Hung，Arun Mallya和Svetlana Lazebnik。用于视觉关系检测和场景图生成的上下文翻译嵌入。PAMI，2020年。[17] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak. 基于一致性的对象检测半监督学习在 Proc.NeurIPS，2019年。[18] Youngdong Kim，Junho Yim，Juseung Yun，and JunmoKim.NLNL：Negative Learning for Noisy Labels（噪声标签的负学习）在proc ICCV，2019。[19] 马修·克拉旺和埃里克·海姆。用对抗网络生成三元组以构建场景图。在Proc. AAAI，2018中。[20] R.放大图片作者：Krishna，Ines Chami，M.伯恩斯坦和李飞飞。关于关系。在Proc. CVPR，2018中。[21] S.莱恩和蒂莫·艾拉用于半监督学习的时间集成。InProc.ICLR，2017.[22] 梁孔明、郭玉红、常洪、陈西林。基于深度结构排序的视觉关系检测。在Proc. AAAI，2018中。[23] Xin Lin，Changxing Ding，Jinquan Zeng，and DachengTao. GPS-Net：用于场景图生成的图形属性传感网络在Proc. CVPR，2020中。[24] 刘大庆，张汉旺，Z. Zha，Meng Wang，and Qianru Sun.联合视觉接地与语言场景图。ArXiv，abs/1906.03561，2020。[25] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。在Proc. ECCV，2016中。[26] 毛俊华， J.Huang ，黄背天蛾 A.Toshev ， Oana-MariaCamburu，A.Yuille和Kevin Murphy无歧义对象描述的生成与理解在proc CVPR，2016年。[27] 李密、陈振中。用于视觉关系检测的层次图注意网络。在Proc. CVPR，2020中。[28] I.米斯拉角L. Zitnick，Margaret Mitchell，and Ross B.娘娘腔。看穿人类的报告偏见：来自嘈杂的以人为中心的标签的可视化分类器。在Proc. CVPR，2016中。[29] Julia Peyre，Ivan Laptev，Cordelia Schmid，and JosefSivic.视觉关系的弱监督学习。InProc. ICCV，2017.[30] Julia Peyre ， Josef Sivic ， Ivan Laptev ， and CordeliaSchmid. 使用类比检测不可见的视觉关系。 InProc.ICCV，2019.[31] FrancoisPlesse，AlexandruGinsca，BertrandDelezoide，andFran coiseJ. P rteux. 基于引导建议和语义知识提取的视觉关系检测InProc. ICME，2018.[32] FrancoisPlesse，AlexandruGinsca，BertrandDelezoide，andFran coiseJ. P rteux. 聚焦视觉关系检测与先验电位的相关关系。在Proc. WACV，2020中。[33] 布莱恩A.放大图片放大图片塞万提斯、朱莉娅·霍肯迈尔和斯维特拉娜·拉泽布尼克。综合图像语言线索的短语定位和视觉关系检测InProc. ICCV，2017.[34] Mengshi Qi， Weijian Li ， Zhengyuan Yang ， YunhongWang，and Jiebo Luo.用于将图像映射到场景图的注意关系网络。在Proc. CVPR，2019中。15920[35] Moshiko Raboh、Roei Herzig、Gal Chechik、JonathanBe rant 和 Amir Globerson 。可微分场景图。在 Proc.WACV，2020中

下载后可阅读完整内容，剩余1页未读，立即下载