显式本体调整：消除偏见的场景图生成模型

149 浏览量更新于2023-10-16 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

更多知识，更少偏见：基于显式本体调整的无偏场景图生成陈占文1SaedRezayi2李胜11弗吉尼亚大学数据科学学院{pct4et，shengli} @ virginia.edu2佐治亚大学计算机学院saedr@uga.edu摘要场景图生成（SGG）模型试图检测给定图像中对象之间的关系。这方面的一个挑战是谓词在数据集和语义空间中的有偏分布。最近的工作，结合知识图与场景图证明有效地提高召回的尾部谓词类。此外，许多最近的SGG方法与有前途的结果显式地重新分配在训练过程和预测步骤中的谓词。为了整合外部知识，我们通过整合ConceptNet和Wikidata构建了一个常识知识图。为了在推理过程中显式地消除SGG与知识的偏差，我们提出了一种新的框架，显式本体调整（EOA），以调整图模型预测与知识先验。我们使用的边缘矩阵从com-monsense知识图作为一个模块，在图神经网络模型，以细化的关系检测过程。该模块在消除谓词长尾分布方面是有效的当结合在一起时，我们表明这些模块在大多数情况下在Visual Genome数据集上实现了最先进的性能源代码可在https://github.com/zhanwenchen/eoa 上获得。1. 介绍如图1所示，人和滑雪板之间的关系是什么？给定来自视觉基因组（VG）数据集的这样的图像[15]，场景图生成（SGG）通过组合从该图像提取的符号和图形表示来回答这样的问题。输出可以表示为图，其中场景对象是节点或实体，并且它们的关系是边或谓词。以图1为例，有12个这样的谓词，如滑雪者，滑雪者，站在滑雪板上和滑雪者，夹克衫，穿着滑雪板。最近的工作引起了人们对SGG的关注，图1：来自Visual Genome数据集[15]的示例图像，具有地面真实关系标签，包括滑雪者，滑雪者，站在滑雪板上，滑雪者，夹克，穿着滑雪板。其在下游任务中的有前途的应用，如图像字幕[34，7，37]，图像检索[13，23]，图像合成[12]和视觉问答（VQA）[6，8，31，34，42]。此外，SGG可以为VQA提供可解释性[39，24]。然而，两个挑战限制了大多数现有SGG方法的性能：（一）.在实践中谓词类的长尾分布，和（2）。基于知识的SGG模型中常识知识的有限数量和深度。如Guoet al.指出[9]，像“on”这样的常见谓词普通谓词具有更大的语义空间（即，更多的含义），导致对不太常见但信息量更大的关系的偏见。此外，尽管通过引入常识知识获得了性能增益，但仅使用了结构化本体的一个来源- ConceptNet[26]，其中仅104个事实用于基于知识的SGG [39]。这104个事实也仅限于属于VG ob的实体402324024对象类。这为进一步提高性能留下了空间，不仅可以使用更多的知识，还可以在VG之外添加更深入的知识。近年来，一些关于SGG的研究工作已经成功地将知识引入到SGG任务中。KB-GAN[8]通过引入外部知识和新的图像再现损失来解决对象标签不平衡的问题。KI-Net[41]结合了场景外的高阶知识（GB-Net[39]引入了二分知识和场景图，并采用了门控图序列神经网络（GGNN）[17]来细化场景图（SG）边缘和SG-KG边缘。然而，作为Zhanget al.指出[41]，GB-Net只包括其头部和尾部实体都是VG视觉类1的一部分的知识边，这可能限制了推理过程的深度为了丰富知识图，并解决仅使用现场概念进行推理的局限性，我们建议通过设计一个通用知识图扩展程序来合并额外的知识。最近的许多著作也试图解决谓词的有偏分布问题。除了提高尾类的每类性能的基于知识的方法[39]之外，最近的努力还包括各种基于数据增强的方法，例如动态拉贝尔频率估计[3]，基于采样的方法，例如总直接效应[28]，平衡谓词学习（BPL）[9]和语义调整（SA）[9]。与我们的工作最相关的是BPL和SA模块[9]。BPL通过在具有欠采样前k个谓词的原始数据集的无偏版本上细化训练模型来进行域转移SA模块使用行归一化混淆矩阵通过矩阵乘法调整模型中的预测对数[9]。虽然BPL和SA有助于显著改善所有三个SGG任务的平均召回指标，但它们没有利用外部常识知识。虽然基于KG的SGG方法（如GB-Net[39]）减少了偏差，但它们依赖于单个知识源，并将知识限制在现场实体。我们利用知识的无偏效应，通过丰富常识KG来改进基于KG的SGG具体而言，我们通过将额外的知识和场外知识与外部知识库（KB）Wiki- data [30]相结合来增加KG的深度和广度。此外，我们提出了一个新的框架，称为显式本体调整（EOA）的rebalance谓词使用知识作为统计先验。我们的方法在谓词分类（PredCls）任务的Visual Genome数据集上的性能优于最先进的方法，并在1我们将属于VG类的实体称为现场实体，将不在VG中的实体称为场外实体。场景图分类（SGCls）任务，证实了一个显着的无偏效应的知识关系reasoning为SGG。我们将我们的贡献总结如下：• 我们通过整合来自ConceptNet和Wikidata的高阶和现场/场外事实为SGG构建了一个丰富的常识图[11]。• 我们提出了显式本体调整（EOA）的神经网络架构，包括BPL，SA，和一个新的本体调整（OA）模块的方法。• 我们的方法在PredCls任务的Visual Genome数据集上的表现优于最先进的方法，并在SGCls任务上实现了有竞争力的性能，这可能表明了无偏见的卓越能力。本文的其余部分组织如下。第2节回顾了SGG的相关工作，并讨论了解决SGG中谓词偏倚问题的各种思路，包括基于知识的方法和基于知识的方法。第3节描述了我们的方法，以消除偏置SGG，包括常识KG扩展过程和 EOA 神经网络模块。第 4 节显示了 VisualGenome数据集的广泛结果和消融研究。最后，第5节通过讨论结果、潜在的后续步骤和局限性来总结本文。2. 相关工作2.1. 场景图生成（SGG）SGG方法首先使用对象检测器（如Faster-RCNN[21]）提取区域建议，其中特征提取主干如VGG-16[25]和ResNet [10]。SGG然后将各个区域分类为对象类，然后将区域对分类为关系类。主要关系推理过程的关键是结合上下文信息进行联合推理。例如，迭代消息传递（IMP）技术[35]沿着场景图拓扑迭代地传播上下文消息。MotifNet[40]使用LSTM对全局上下文进行编码，以帮助进行局部预测。区域建议之间的信息传播通常是通过图神经网络（GNN）实现的[32]。其他统计元数据，如统计相关性和语义信息也证明是有用的。例如，MotifNet[40]通过利用对象对和GloVe向量的统计相关性进行推理来实现2.2. 基于知识图的SGG方法最近，一些方法引入了外部知识来改进推理过程[2，8，39，40]。MotifNet也可以被看作是一种基于知识的方法34025⟨⟩图2：扩展常识知识图的示例子图。来自GB-Net[39]的蓝色节点对应于VG场景实体。橙色节点添加场景外的使用先前的三重频率来偏置关系预测[40]。KERN[2]使用对象和关系共现的先验知识对对象和关系类进行联合分类。为了验证这种统计先验，科恩将任务修改为预测给定似然先验的对象之间的最可能关系[2]。KB-GAN[8]使用来自ConceptNet的[26]以细化SGG的对象和短语特征KB-GAN还使用生成对抗网络（GAN）来正则化整个SGG网络。与我们的工作最相关的是，GB-Net[39]通过显式构建二分图本体来扩展KERN方法，GB-Net还采用了一个图神经网络，门控图序列神经网络（GGNN）[17]，沿着这个二分本体迭代传递消息我们的工作部分是通过使用知识来消除SGG的偏见。我们的第一个基线，GB-Net，提供了一种创新的技术来传播消息的知识图和场景图中的双重消息传递网络模型。然而，GB-Net只使用了ConceptNet[26]中的104个事实[39]，这为KG的额外广度和深度留下了进一步提高性能的空间。此外，GB-Net[39]忽略了可能对场景推理有用的场景外知识。这限制了KG的推理能力，其中数据集中缺少密集知识子图的一部分。如图2所示，左侧的原始KG缺少一个重要的场景外节点，即我们通过使用新的数据源Wikidata丰富KG来解决这两个问题[30]。2.3. 无偏SGG方法最近的许多工作试图解决长尾分布的关系谓词在SGG。而不是孤立地进行预测，IMP方法提出的徐等。[35]在神经网络模型中引入了上下文信息，以解决VG数据集中关系标签的不均匀IMP通过更新与门控递归单元（GRU）交织的方式[4]。其他最近的作品集中在直接解决分布偏差。Tang等人[28]提出了总直接效应（TDE）损失函数来衡量视觉特征对关系检测的相对贡献，这与上下文不同。与传统的去偏方法不同，传统的去偏方法不能区分期望的偏置（例如，“man wearing jacket” instead of “eating” 另一个相关的最近的工作是G2S框架涉及的BPL和SA模块提出的郭等。[9]的文件。直接攻击坏的偏见，即，在语义空间和VG样本空间中缺乏信息谓词，SA和BPL是与各种模型兼容的流水线模块。SA [9]使用混淆矩阵调整模型预测，这是一种经过验证的减少长尾分类任务偏差的策略[19]。至于样本级谓词不平衡，BPL[9]通过创建原始VG数据集的数据增强版本提供了基于域转移的解决方案。通过对原始数据集中的前K个常见谓词进行受SA中显式调整技术的启发，我们提出了一种新的技术，显式本体调整（EOA），使用基于知识的先验知识显式调整预测的分布。EOA使用KG邻接矩阵来调整训练中的谓词逻辑，以利用KG中例如，知道3. 我们的方法在本节中，我们首先介绍了初步的SGG形式主义。我们从两个方面探索额外知识的无偏见潜力第一是用场景外实体丰富SGG的知识图。为了实现这一点，我们采用实体链接算法来集成多个常识知识源，包括Concept-Net [26]和Wikidata [30]。我们还使用知识图来显式地重新分布谓词的长尾分布。3.1. 初步我们首先正式描述场景图生成（SGG）问题。场景图（SG）由表示为主语、谓语、宾语三元组的视觉关系组成。这三重也可以被看作是一个SG边缘去从主体到客体一个例子是《雪中的人》，其中“人”是主语，“雪”是宾语，2类似于KG三元组，头实体，关系，尾实体。44026∈||联系我们{→E→，ESE N{→E→，ESSSESSPE→，E→}？图3：EB-Net和EOA的整个管道概述我们首先在进行常识知识图扩展后训练EB-Net在最后的预测步骤中，我们通过我们的本体调整（OA）矩阵和混淆矩阵C”的和来调整预测的logits，类似于SA [9]。最后，我们使用类似于BPL[9]的欠采样源数据集进行域转移。BPL过程未示出，因为它降低了图的可读性。“stand on”是关系或谓语。这里，关系每个场景s i，i[1，S]由可变数量k i的这种关系r s，m组成，其中m为1，2，.，基岛为了方便起见，我们不考虑诸如“红色”之类的属性。场景s中所有关系的集合Rs可以表示为：RsC×P×C（1）当我们引入知识图（KG）来构建二分SG-KG时，我们拥有来自场景和KG的实体。来自图像的现有实体和谓词现在被称为场景实体和场景谓词。来自KG的实体和谓词被称为概念实体和概念谓词。我们用NSE表示场景实体，用NCP表示场景谓词，其中KG概念对应于视觉类或概念实体NCE。我们还用对应于视觉关系的本体概念来代理视觉关系或场景谓词NSP，即，概念谓词NCP。我们使用双向边，其可以表示为其中C是所有视觉类的集合，并且可以作为主体和/或对象出现; P是数据集中所有谓词的集合。场景s中的每个视觉类cs都有其边界框SE CE SPCP分类T o分类T oCE SE CPSPhasInstance hasInstance（五）bcs和它的地面实况类标签lcs。场景图的概率Ts可以表示为：p（T s|s）= p（B s|s）p（C s|b s，s）p（Rs|C s，B s，s）（2）即，给定图像，SGG算法检测边界框Bs（p（Bs|s）），分类定界. SGG任务变成对场景实体进行分类，场景谓词，给定概念实体和概念谓词[39]：p（N SE，N SP，E S|I，N CE，N CP，E C）=p（N？SP，E|I）×盒成视觉等级C（p（C|B，s）），和de-p（E B）|I，N CE，N CP，E C，N？，N？，ES），（6）检查边界框/类之间的关系Rs（p（R s|C s，B s，s）[43].其中EB是桥边。中的未知节点通常，场景图本体可以被表达为节点N和边E的集合，使得节点由视觉类节点NC和谓词节点NP两者组成。特别是，G={N=NC<$NP，E}（3）SG边可以进一步形式化为两组有向边[39]：要学习的图形用问号表示。3.2. 框架概述我们的框架的总体管道如图3所示，其中包含两个主要组件。为了充分开发知识的无偏见潜力，我们的第一个组件旨在通过增加其容量和深度来丰富KG的额外知识。由于 GB-Net[39] 详尽地添加了相关的ConceptNet[26]P ChasSubjectP ChasObject（四）、44027场景实体，我们可以受益于使用额外的44028⟨⟩⟨⟩⟨⟩|||∈p2pp2p图4：本体扩展对知识边缘矩阵的影响.红色值对应于场景外“身体部位”实体及其边缘的添加。我们包括来自维基数据的26个离线实体。数据源Wikidata[11]，并扩展知识图拓扑以添加场景外概念实体。我们称这种扩展的二部图为扩展桥网络（EB-Net）。我们的第二个组件显式地重新采样基于KG的关系的有偏分布。受SA方法[9]的启发，该方法使用混淆矩阵调整模型预测，我们使用来自知识图的邻接矩阵来调整模型中预测logits的分布我们将这种方法命名为显式本体论-标准调整（EOA）。3.3. 常识知识图扩展为了丰富常识知识图（KG），我们将GB-Net[39]使用的ConceptNet KG [26]与包含常识知识的Wikidata子集Wikidata-CS [11]相结合。我们选择Wikidata-CS，因为它共享相同的本体KG边缘类型（例如，“/r/PartOf”and “/r/RelatedTo”) with ConceptNet, ensuring their con-ceptual 为了链接两个知识库，我们使用BLINK实体链接算法[33]将每个ConceptNet实体类与维基数据相关联。为了增加KG的深度，我们将GB-Net [39]的限制放宽对于每个VG对象标签，我们随机选择一个邻居，以防止KG变得笨拙。结果是总共305个Wikidata KG边缘或事实。我们保留了51个最相关的，如手臂，/r/ISA，身体部位，通过手动删除混淆的，如床，/r/PartOf，成员和不相关的，如引导，/r/UsedFor，酷刑。加上GB-Net[39]中的104条边，我们总共有152条唯一边（两个KB之间有三条重复边我们总共引入了26个场景外实体。除了扩展本体，我们还需要修改GB-Net [39]的其他组件，包括单词相似性、实体协方差、谓词协方差、三元组条件概率和先前由MotifNet [40]和IMP [35]使用的谓词计数统计。由于现有的统计矩阵基于原始的150个VG概念实体，因此我们对其进行重新映射，以包括我们的图5：本体调整（Ontological Adjustment，OA）模块重新平衡了谓词与知识的分布。在右侧的来自等式9的本体矩阵O′近似于在神经网络模型中给定使用常识知识的预测关系y的情况下的知识调整关系yα具有平凡值的新的场景外实体。在这个统计重新映射步骤之后，我们已经构建了我们的最终知识图，扩展桥接网络（EB-Net）。图4说明了这种扩展的效果。3.4. 显式本体调整受语义调整（SA）[9]的logit重新分配技术的启发，我们使用常识知识通过调整模型预测来重新分配关系。我们提出了一种新的方法，本体调整（OA），模型的基础概率分布的关系，先验常识知识。直觉上，模型应该比不相关的谓词更有利地权衡概念上相关的谓词。例如，值得注意的是，与从基于样本的混淆矩阵导出相关性的SA不同，OA使用不受样本级关系不平衡影响的外部知识本体的调整任务可以由等式7表示：P（y）|o subj，o obj）= P（y oa|y）× P（y|osubj，o obj）（7），其中P（y o subj，o obj）R51是SGG模型中主语o i和宾语o j之间的51个谓词范畴的原始谓词。P（yoay）是由OA矩阵给出的谓词概念相关度，P（yoa y）是OA模型的概念调整预测图5说明了这个调整过程。为了进行这种重新分配，我们利用EB-Net知识图（KG）边缘矩阵中现成的基于知识的谓词先验，并将其与原始logits相乘。具体地，我们在整个KG中使用谓词到谓词子图Eext。然后，我们沿着由四种边缘类型组成的KG边缘类型维度对Eext求和。前三个是维基数据本体论边缘类型，描述了两个谓词之间的关系：“再--44029p2pΣ·≤”lateTo“、“MannerOf”和“MannerOf”在相反的方向。最后一个KG边类型是来自[2]的谓词协方差矩阵。我们将这个求和的Eext称为本体矩阵O。为了避免显著降低没有事实的谓词的概率，我们在O.最后，我们对O进行行归一化，使得每个元素ok，l表示潜在地限制了我们模型的无偏潜力。今后的工作也可以包括后一项工作。最后，实体链接步骤中的随机邻居选择策略不能保证相关事实。然而，Wikidata-CS[11]并没有为每个边提供分数。因此，唯一的替代方案将是手动排除更多的边缘。P（rk|rl）：o=ok，l，（8）对于EOA模块，可以存在EOA矩阵的替代网络设计。跨边求和类型k，l51m=1 ok，m维度可能会破坏与最终的本体矩阵由等式9给出O′=行标准化（O + I51）。（九），其与原始预测的logitY进行矩阵相乘以得到调整后的logitL〇 a：Yoa=O′·Y。（十）最后，我们结合了我们的基线SA[9]方法，该方法使用行归一化混淆矩阵C'来调整logits以测量语义距离。最终调整后的logitsYoa+sa变为：Yoa+sa=（C′+O′）Y= C′·Y + O′·Y。（十一）最后，我们包括基线平衡谓词转移（BPL）[9]管道，该管道从具有长尾谓词分布的原始Visual Genome数据集[15]到具有较少常见谓词的欠采样版本进行域BPL对前k（k=15）个谓词（n2000）进行欠采样这种域转移管道需要在VG上训练模型，然后再用额外的全连接干净分类器层重新训练模型[9]。3.5. 讨论在我们的常识知识图扩展过程中，我们选择Wikidata[11]作为我们的新数据源，这是基于链接al-出租的BLINK[33]然而，存在许多替代的常识知识图，包括Cyc和OpenCyc [16]，NELL [20]，WebChild 2.0[27]，Atomic [22]和COMET [1]。通过利用多于一个源进行扩展，可以利用更多样化的知识来进一步丰富知识图。例如， ATOMIC具有推理规则 ; ATOMIC和COMET也包含社会知识[22，1]。此外，还可以研究常识知识图本身的本体结构。例如，我们可以从更深入的知识中受益。研究这一点的一种方法是使用大于1的KG跳。此外，我们只扩展了概念实体本体而没有扩展概念谓词本体，每一种边缘类型。因此，使用另一个完全连接的神经网络层来保持边缘类型维度并压缩logit表示可能是有益的。此外，我们可以通过将两个方向视为所有边缘类型的一个方向来删除边缘方向第4.3节讨论了本体调整过程的这些变化及其影响。4. 实验在本节中，我们首先讨论我们使用的数据集、SGG任务、基线和评估指标。我们还描述了我们的实现细节，如hyperparam- eters和培训。此外，我们在基线的背景下分析我们的结果。最后，我们在消融研究中检查我们的模型组件。4.1. 数据集和设置SGG任务。为了评估所提出的方法和场景图生成基线的性能，我们专注于以下两个任务，谓词分类（PredCls）和场景图分类（SGCls），这是SGG文献中常用的特别地，PredCls任务要求算法在给定真实边界框和真实对象标签的情况下对预测进行分类，并且SGCls任务移除PredCls中给出的对象标签，并且因此还必须对给定边界框中的对象进行分类。数据集。在我们的实验中，我们使用视觉基因组[15]数据集由108，077张图像组成，每个图像都有边界框，对象标签和关系标签。基线。我们首先包括来自经典方法的实验结果，如IMP [35]，MotifNet [40]和VC- Tree [29]。此外，我们转载了我们最相关的基线GB-Net的报告性能[39]。此外，我们还包括另一个平衡有偏分布的相关基线，G2S（包括BPL和SA模块）[9]。最后，我们报告了最近的具有竞争性无偏性能的方法，包括PCPL [36]，DT2-ACBS [5]，DLFE [3]和CogTree [38]。评估指标。图约束（GC）在预测关系时将模型限制为只有一个猜测。对于同一模型，其无约束（UC）性能将44030××表1：在具有和不具有图约束（GC）的情况下，针对谓词分类（PredCls）和场景图分类（SGCls）任务，在前20、50和前100处的平均三重回忆（mR@K）方面的评估。数字是百分比。每个指标的最高性能方法以粗体显示，第二好的方法以蓝色显示。PredClsSGClsmR@20mR@50mR@100mR@20mR@50模型UCCUCCUCCUCCUCCUCCIMP+[35]--20.39.828.910.5--12.19.816.910.5神经基序[40]-10.8-14.0-15.3-6.3-7.7-8.2VCTree[29]-14.0-17.9-19.4-8.2-10.1-10.8PPL[36]--50.635.262.637.8--26.818.632.819.6[39]第三十九话--41.119.355.420.9--21.49.629.110.2DT2-ACBS[5]-27.4-35.9-39.7-18.7-24.8-27.5G2S：Transformer + BPL + SA[9]-26.7-31.9-34.2-15.7-18.5-19.4G2S：MotifNet + BPL + SA[9]-24.8-29.7-31.7-14.0-16.5-17.5G2S：VCTree + BPL + SA[9]-26.2-30.6-32.6-17.2-20.1-21.2MotifNet+DLFE[3]-22.1-26.9-28.8-12.8-15.2-15.9[38]第三十八话-22.9-28.4-31.0-13.0-15.7-16.7EB-Net + EOA（我们的）39.830.854.936.766.339.219.614.926.717.332.518.3比约束（C）高，因为它允许对同一任务进行多次猜测我们在研究中列出了C和UC鉴于我们的动机，以无偏见的SGG，我们报告的前k 平均三重召回（ mR@K ）的结果。 Chenet al.[2]Tanget al. [29]指出，传统的top-k召回率（R@K）度量受到关系标签的长尾分布的影响。通过猜测最频繁的关系，模型可以在R@K度量上表现良好。这两篇论文都采用了mR@K度量，该度量对每个谓词的所有R@ K取平均值，其中尾类中的低R将大大降低mR。相反，一个完美的去偏方法将使R@Ks等于mR@Ks，因为它将为所有关系实现相同的R@K。许多作品只报道了mR@K[28，9]结果。在我们的实验中，我们报告了具有和不具有GC的K=20、50和100的PredCl和SGCl的mR@K结果（即，UC和C）。实施详情。我们使用Adam [14]优化器，学习率为110−3和1/3110−3 我们使用单GPU训练，每次30个epochNVIDIA A5000（24GB）GPU。我们优化代码每个任务需要24小时的训练。我们首先训练PredCls模型，然后使用最佳验证时期来初始化SGCls模型。4.2. 结果和分析如表1所示，我们的模型在PredCls任务中比所有其他模型都有显著的改进。具体而言，与最相关的基线GB-Net和BPL+SA相比，我们的模型在mR@50方面比GB-Net显著增加了17.4%[39]，比BPL+SA增加4.8%[9]。这些结果证实了常识性知识在无偏见方面的有效性。对于SGCls任务，我们的模型并没有优于大多数模型，尽管它实现了与一些强基线（如BPL/SA模型）相当的性能在某些情况下，我们的模型考虑到额外的边界框分类任务，原因可能是对象检测后端的差异。例如，GB-Net[39]使用VGG-16主干网[25]而BPL/SA [9]方法使用ResNet 101-FPN [10，18]。Desai等人显示将检测器骨干从VGG切换到ResNet101-FPN，对于PredCls，在mR@50中将VCTree提高了2.3%，对于SG-Cls，在mR@50中提高了1.1%[5]。因此，我们的模型的性能可以通过使用ResNet 101-FPN骨干进一步提高。另一种策略是纳入Tang等人的总直接效应（TDE）损失。[28]从有偏的关系标签分布中分离视觉推理。4.3. 消融研究我们进一步研究了在我们的框架中使用的丰富知识图和EOA各自的贡献。为了验证额外的知识转化为绩效增益，我们解构了最终的KG，并使用组件的不同组合来训练模型。为了研究EOA的机制，我们研究了OA矩阵的变化对性能的影响。4.3.1KG组件和其他知识如3.3节所述，GB-Net不仅利用ConceptNet知识图，还利用其他信息44031××模型PredCls（mR@50）CN 18.1CN+Wiki 18.6CN+Stat+Emb 19.3CN+Wiki+Stat+Emb 19.5表2：关于Visual Genome上EOA的消融研究数字是百分比。模型EB-Net + BPL + EOA初始34.426.747.631.958.733.919.314.326.116.531.717.4EB-Net + BPL + EOA Plus0.00.00.00.00.00.00.00.00.00.00.00.0EB-Net + BPL + EOA折叠0.00.00.00.00.00.00.00.00.00.00.00.0EB-Net + BPL + EOA合并39.830.854.936.766.339.219.614.926.717.332.518.3EB-Net + BPL + EOA压缩32.624.745.828.957.413.913.59.622.912.426.613.2表3：关于知识在推理中的作用的消融研究数字是百分比。例如条件概率和单词嵌入。为了研究额外知识的作用并突出我们EB-Net丰富过程的贡献，我们剖析了GB-NetGB-Net由ConceptNet边缘、统计矩阵和GloVe嵌入矩阵组成[39]。如表3所示，统计和嵌入矩阵一起在PredCls上将mR@50提高了0.9-1.2，而额外的Wikidata边缘产生了非平凡的0.2-0.5性能增益。4.3.2替代EOA制剂我们还探讨了其他方法来调整基于知识的相关性的谓词。我们设计了五种不同的EOA配方，如下所述，其结果见表21. 天真。我们构造了一个朴素的谓词到谓词（p2p）矩阵的KG p2p边矩阵的大小为51 51 4在最后一个（边类型）的维度。有三种边缘类型-两种无向“r/RelatedTo”类型，一种有向“r/MannerOf”类型，以及来自GB-Net的预测协方差矩阵[39]。朴素模型的表现比EB-Net+BPL更差，可能是因为知识矩阵相对稀疏，这可能会将logit值调整为零。2. 折叠了。为了检验知识边缘方向的影响，我们建立了一个无向知识矩阵，其中我们将朴素EOA矩阵添加到其转置。这个对角折叠的模型一直在-给出非数值结果。这表明方向确实很重要。3. Plus. 考虑到知识矩阵中稀疏性的潜在有害影响，我们尝试将边缘矩阵的值移动1，但该模型也输出非数值结果。4. 合并我们在调整谓词预测逻辑数之前，通过对EOA矩阵和SA混淆矩阵求和，将二者结合起来。这相当于在迭代消息传播过程中两个调整的乘积相加。该公式证明对PredCls最有效，是我们在表1中报告的最终模型。5. 压缩最后，我们使用一个全连接的压缩神经网络，以保持所有的通道尺寸的边缘矩阵组成的三种边缘类型和一个协方差矩阵。这种方法的训练过程收敛缓慢，与Merge相比表现不佳。5. 结论在本文中，我们证明了常识知识，边缘有显着的贡献，以减少在SGG关系推理的偏见。我们通过为SGG设计一个新的框架来说明这种效果。首先，我们的模型通过合并额外的事实来增加知识图的容量和深度，这些事实由现场和现场外的类实体组成。其次，我们的模型调整长尾预测逻辑与知识为基础的统计先验。通过大量的实验，我们表明，我们的模型与上述两个改进可以实现竞争的性能相比，最先进的SGG方法。此外，像我们这样的无偏SGG方法必须牺牲平均召回率，直到我们达到完美的无偏。这种权衡可能并非在所有情况下都可以接受，需要进一步调查。鸣谢：这工作是支持由美国陆军研究办公室奖，资助号 W 911 NF-21-1-0109。PredClsSGClsmR@20mR@50mR@100mR@20mR@50mR@100UC C UC CUC C UC C44032引用[1] AntoineBosselut ， Hannah Rashkin ， Maarten Sap ，Chaitanya Mal a viya ， AsliCeli k yilmaz ， andYejinChoi.Comet：用于自动知识图构造的Commonsense转换器。在计算语言学协会（ACL）第57届年会的会议记录中，2019年。[2] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR），2019。[3] Meng-Jun Chiou，Henghui Ding，Hanshu Yan，ChanghuWang，Roger Zimmermann，and Jiashi Feng.从有偏场景图中恢复第29届ACM国际多媒体会议论文集，第1581-1590页，2021年。[4] 赵永勋，巴特·冯·梅里·恩波，德米特里·巴赫达瑙，约瑟芬·本吉奥。关于神经机器翻译的特性：编码器-解码器方法。在SSST-8会议录中，第103-111页计算语言学协会。[5] A.德赛，T. Wu，S. Tripathi和N.瓦斯康塞洛斯学习视觉关系：魔鬼在尾巴里。在IEEE/CVF国际计算机视觉会议（ICCV），第15384[6] Anthony Fader，Luke Zettlemoyer，and Oren Etzioni.通过精选和提取的知识库进行开放式问答。第20届ACMSIGKDD国际知识发现和数据挖掘会议论文集，第1156-1165页，2014年[7] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，and Gang Wang.基于语言旋转的不成对图像字幕。在欧洲计算机视觉会议（ECCV）的Proceedings中，第503-519页[8] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR），2019。[9] Yuyu Guo，Lianli Gao，Xuanhan Wang，Yuxuan Hu，Xing Xu，Xu Lu，Heng Tao Shen，and Jingkuan Song.从一般到具体：通过平衡调整生成信息场景图。ICCV，2021。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[11] 菲利普·伊利耶夫斯基，佩德罗·A. Szekely和DanielSchwabe。在维基数据中可以找到相关内容。在Lucie-Aime' eKaf fee，Oana Tifrea-Marciuska，Elena Simperl和Denny Vrande- cic ，编辑，第一届维基数据研讨会（Wiki- data 2020）与第19届国际语义网会议（OPub2020）共同举办，虚拟会议，2020年11月2日至6日，年，第2773卷，2020年。[12] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像在IEEE会议的会议记录中计算机视觉和模式识别会议，第1219-1228页，2018年。[13] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。[14] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoonge Bengio和Yann Le- Cun，编辑，第三届学习表征国际会议，2015年。[15] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32[16] 道格拉斯湾莱纳特CYC：对知识基础设施的大规模投资。Commun. ACM，38（11）：32 -38，1995.[17] Yujia Li ， Daniel Tarlow ， Marc Brockschmidt ， andRichard S.泽梅尔门控图序列神经网络在Yoonge Bengio和Yann LeCun的编辑中，第四届学习表征国际会议，2016年。[18] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。2017 年 IEEE 计算机视觉和模式识别会议（CVPR），第936[19] Aditya Krishna Menon、Sadeep Jayasumana、Ankit SinghRawat、Himanshu Jain、Andreas Veit和Sanjiv Kumar。通过logit调整的长尾学习。在2021年第九届国际学习表征会议[20] T. Mitchell，W. Cohen，E.赫鲁施卡山口塔卢克达尔J.Bet- teridge，A.卡尔森湾，澳-地Dalvi，M.加德纳湾Kisiel ， J. Kr- ishnamurthy ， N. 老挝 K. Mazaitis 、 T.Mohamed，N. Nakas-hole，E.Platanios，A.Ritter，M.萨马迪湾塞特勒斯河小王，D. Wijaya ， A. Gupta ， X. Chen ，中国山核桃 A.Saparov，M. Greaves和J.威林永无止境的学习。第29届AAAI人工智能会议，第2302

下载后可阅读完整内容，剩余1页未读，立即下载