魔鬼标签修正：用于强健场景图生成的NICE模型的噪声标签修正策略

91 浏览量更新于2023-10-26 收藏 13.71MB PDF 举报

浙江大学

哥伦比亚大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12313Scene Graph Generation (SGG), i.e., detecting all objectinstances and their pairwise visual relations, is a crucial step188690标签中的魔鬼：用于强健场景图生成的嘈杂标签修正0李林1，陈龙2†，黄一峰1，张志萌1，张松阳3，肖军101 浙江大学，2 哥伦比亚大学，3 罗切斯特大学0{mukti，yfhuang，zhimeng，junx}@zju.edu.cn zjuchenlong@gmail.com szhang83@ur.rochester.edu0(a)0(b) (c)0在下面0的的0的0夹克头臂0腿0滑雪手0人0裤子0原始的新0男人衬衫有0女人衬衫有0男人衬衫带0骑自行车的男人从上方悬挂0在女人椅子上的男人冲浪板0图1：SGG数据集中三种嘈杂注释的示例说明（以VG为例）。 (a)常见倾向：对于一些三元组，注释者倾向于选择不太具有信息量的粗粒度谓词（红色）而不是细粒度谓词（绿色）。每个三元组的主语和宾语分别用蓝色和粉色框表示。 (b)同义词随机：对于一些三元组，注释者通常随机选择几个同义词中的一个谓词（例如，has和with是�man/woman - shirt�的同义词）。原始：原始三元组�man - has/with - shirt�的t-SNE可视化特征。为简洁起见，我们随机抽样了每种类型的部分三元组。新：经过NICE处理后的相同三元组的t-SNE可视化特征。 (c) 负面：一些负面三元组可能不是背景（绿色虚线箭头）。0摘要0无偏SGG在近年来取得了显著进展。然而，几乎所有现有的SGG模型都忽视了主导SGG数据集的地面真实注释质量，即它们总是假设：1）所有手动注释的正样本都是同样正确的；2）所有未注释的负样本都是绝对的背景。在本文中，我们认为这两个假设都不适用于SGG：存在大量“嘈杂”的地面真实谓词标签，这些嘈杂样本实际上会损害无偏SGG模型的训练。为此，我们提出了一种新颖的模型无关的SGG噪声标签修正策略：NICE。NICE不仅可以检测嘈杂样本，还可以为它们重新分配更高质量的谓词标签。经过NICE训练后，我们可以获得一个更干净的SGG数据集用于模型训练。具体而言，NICE由三个组件组成：负噪声样本检测（Neg-NSD），正NSD（Pos-NSD）和噪声样本修正（NSC）。首先，在Neg-NSD中，我们将这个任务定义为一个分布外检测问题，并为所有检测到的嘈杂负样本分配伪标签。然后，在Pos-NSD中，我们使用基于聚类的算法将所有正样本分成多个集合，并将最嘈杂的集合中的样本视为嘈杂的正样本。最后，在NSC中，我们使用一个简单但有效的加权KNN为嘈杂的正样本重新分配新的谓词标签。对于NICE的每个组件的效果和泛化0†通讯作者。本研究始于浙江大学的陈龙。代码可在以下链接找到：https://github.com/muktilin/NICE。0场景图生成（SGG），即检测所有物体实例及其成对的视觉关系，是一个关键步骤01. 简介the annotators tend to select the most common predicate (orcoarse-grained) as ground-truth. As shown in Figure 1(a),both riding and on are “reasonable” for man and bike,but the annotated ground-truth predicate is less informativeon instead of more convincing riding. And this charac-teristic is very common in SGG datasets (more examples inFigure 1(a)). 2) Synonym-random: When these reasonablerelations are synonymous for the subject-object pair, the an-notators usually randomly choose one predicate as ground-truth, i.e., the annotations for some similar visual patternsare inconsistent. For example, in Figure 1(b), both has andwith denote “be dressed in” for man/woman and shirt,but the ground-truth annotations are inconsistent even in thesame image. We further visualize thousands of sampled in-stances of ⟨man-has / with-shirt⟩ in VG, and these in-stances are all randomly distributed in the feature space (cf.Figure 1(b)). Thus, we argue that all the positive samplesare NOT equally correct, i.e., a part of positive samples arenot high-quality — their labels can be more ﬁne-grained (cf.common-prone) or more consistent (cf. synonym-random).For the second assumption, although all SGG works haveagreed that visual relations in existing datasets are alwayssparsely identiﬁed and annotated [25] (Figure 1(c)), almostall of them still train their models by regarding all the un-annotated pairs as background, i.e., there is no visual re-lation between the subject and object. In contrast, we arguethat all negative samples are NOT absolutely background,i.e., a part of negative samples are not high-quality — theyare actually foreground with missing annotations.In this paper, we try to get rid of these two questionableassumptions, and reformulate SGG as a noisy label learningproblem. To the best of our knowledge, we are the ﬁrst workto take a deep dive into the ground-truth annotation qualitiesof both positive and negative samples in SGG. Speciﬁcally,we propose a novel model-agnostic NoIsy label CorrEctionstrategy, dubbed as NICE. NICE can not only detect numer-ous noisy samples, but also reassign more high-quality pred-icate labels to them. By “noisy”, we mean that these sam-ples break these two assumptions. After the NICE training,we can obtain a cleaner version of dataset for SGG training.Particularly, we can: 1) increase the number of ﬁne-grainedpredicates (common-prone); 2) decrease annotation incon-sistency among similar visual patterns (synonym-random);3) increase the number of positive samples (assumption 2).NICE consists of three components: negative noisy sam-ple detection (Neg-NSD), positive noisy sample detection(Pos-NSD), and noisy sample correction (NSC). Firstly, inNeg-NSD, we reformulate the negative NSD as an out-of-distribution (OOD) detection problem, i.e., regarding all thepositive samples as in-distribution (ID) training data, and allthe un-annotated negative samples as OOD test data. In thisway, we can detect the missing annotated (ID) samples withpseudo labels. Then, in Pos-NSD, we use a clustering-based188700朝着全面的视觉场景理解。一般来说，每个场景图都是一个视觉基础图，其中每个节点和边分别指代一个对象和视觉关系。最近，随着几个大规模的SGG基准数据集的发布（例如Visual Genome（VG）[15]）和先进的目标检测器[28, 1,35]，SGG已经受到了前所未有的关注[7]。然而，由于成对视觉关系的组合性质，SGG数据集中不同三元组的数量分布比其他识别任务更不平衡（即长尾）。因此，许多最先进的SGG模型[42, 2, 32,23]在“尾部”类别1上的性能与“头部”类别的对应物相比显著下降。目前，缓解SGG中长尾问题的主流解决方案可以粗略地分为两类：1）重新平衡策略：它利用类别感知的样本重新采样或损失重新加权来平衡网络训练中不同谓词类别的比例。前者试图平衡实例级别2或图像级别[17]的训练样本数量，后者利用先验常识知识（例如，谓词的频率[22]、谓词之间的相关性[39]或基于规则的谓词优先级[23,14]）来重新加权损失计算中不同类别的贡献。2）基于偏置模型的策略：它从预训练的有偏SGG模型中推断出无偏的预测。例如，使用反事实因果关系来解开频率偏差[31]，为不同谓词导出更平衡的损失权重[41]，或调整谓词预测的概率[4]。尽管这些方法在去偏度指标（例如平均召回率@K）上占据主导地位，但值得注意的是，几乎所有现有模型都默认地对地面真实注释做出了两个合理的假设：0假设1：所有手动标注的正样本都是完全正确的。0假设2：所有未标注的负样本都是绝对的背景。01为简洁起见，我们直接使用“尾部”、“主体”和“头部”类别来表示SGG数据集中不同谓词在尾部、主体和头部部分的数字分布中的谓词类别。2我们使用“实例”来表示视觉关系三元组的一个实例，我们也可以互换地使用“样本”来表示三元组实例。algorithm to divide all positive samples (including the out-puts of Neg-NSD) into multiple sets, and regard samples inthe noisiest set as noisy positive samples. The clustering re-sults are based on the local density of each sample. Lastly,in NSC, we use a simple but effective weighted KNN toreassign new predicate labels to all noisy positive samples.We evaluate NICE on the most prevalent SGG bench-mark: VG [15]. Since NICE only focuses on reﬁning noisyannotations of the dataset, it can be seamlessly incorporatedinto any SGG architecture to boost their performance. Ex-tensive ablations have attested to the effectiveness and gen-eralization abilities of each component of NICE.In summary, we make three contributions in this paper:1. We are the ﬁrst to reformulate SGG as a noisy label learn-ing problem, and point out the two plausible assumptionsare not applicable for SGG, i.e., the devil is in the labels.2. We propose a novel model-agnostic strategy NICE. Ex-tensive ablations on several baselines, tasks, and metricshave demonstrated its excellent generalization abilities.3. Each part of NICE can serve as an independent plug-and-play module to improve SGG annotation qualities3.1887102.相关工作0场景图生成。SGG旨在将视觉数据转化为语义图结构。早期的方法[25,43]总是忽略视觉上下文，即将每个对象视为独立的，并直接预测成对关系。随后的SGG工作开始利用被忽视的视觉上下文，采用不同的先进技术，如消息传递[37, 18, 42, 3, 2]或树/图结构建模[40,32]。最近，无偏SGG引起了前所未有的关注，即它们关注不同谓词类别之间的性能差距。如上所述，现有的无偏SGG模型可以分为：重新平衡策略[17, 22, 39, 23, 14]和基于有偏模型的策略[31, 41, 4,10]。与现有的SGG工作不同，我们首次明确改进SGG数据集上的原始噪声标签注释。尽管一些先前的工作也讨论了稀疏注释[34,4]或语义不平衡[10]的问题，但它们仍然严重依赖于这些原始噪声注释进行模型训练。使用噪声标签学习。现有的噪声标签学习方法可以大致分为两类：1）利用显式或隐式噪声模型估计噪声和干净标签的分布，然后删除或校正噪声样本。这些模型可以是神经网络[8, 13,16,27]、条件随机场[33]或知识图谱[20]。然而，它们总是需要丰富的干净样本进行训练，这对于许多噪声标签学习数据集来说是不可行的。2）构建一个算法将所有正样本（包括Neg-NSD的输出）划分为多个集合，并将最嘈杂的集合中的样本视为噪声正样本。聚类结果基于每个样本的局部密度。最后，在NSC中，我们使用简单但有效的加权KNN为所有噪声正样本重新分配新的谓词标签。我们在最常见的SGG基准测试集VG上评估NICE。由于NICE只关注数据集的噪声注释的改进，因此可以无缝地集成到任何SGG架构中以提高其性能。广泛的消融实验证明了NICE的各个组成部分的有效性和泛化能力。总之，本文的贡献有三个：1.我们首次将SGG重新定义为噪声标签学习问题，并指出两个合理的假设在SGG中不适用，即问题出在标签上。2.我们提出了一种新颖的模型无关策略NICE。对几个基线、任务和指标的广泛消融实验证明了其出色的泛化能力。3.NICE的每个部分都可以作为一个独立的即插即用模块，以提高SGG0例如，Pos-NSD可以帮助模型在更少的训练样本下取得良好的结果，而Neg-NSD可以生成丰富的未见过的合理视觉三元组。更多细节请参见第4节和附录。0为了减少噪声样本的影响，我们提出了一种更平衡的损失函数[26, 44, 36,38]。在本文中，我们首次将SGG问题形式化为噪声标签学习问题，并提出了一种新颖的噪声样本检测和校正策略。03.方法0给定一个图像数据集I，SGG任务旨在将每个图像Ii ∈I转换为一个图Gi = {Ni,Ei}，其中Ni和Ei分别表示图像Ii的节点集（即对象）和边集（即视觉关系）。一般来说，每个图Gi也可以被视为一组视觉关系三元组（即�主语-谓语-宾语�），表示为Ti。对于每个三元组集合Ti，我们可以进一步将其分成两个子集：T+i和T-i，其中T+i表示图像Ii中的所有注释正样本（或样本），T-i表示图像Ii中的所有未注释负样本。类似地，我们使用T+={T+i}和T-={T-i}来表示整个数据集I中的所有正样本和负样本三元组。NICE的整个流程如图24所示。在本节中，我们按顺序介绍NICE的每个部分，包括负噪声样本检测（Neg-NSD）、正NSD（Pos-NSD）和噪声样本校正（NSC）。具体而言，给定一张图像及其对应的真实三元组注释（即T+和T-），我们首先使用Neg-NSD检测所有可能的噪声负样本，即缺失的注释前景三元组。T-可以分为T-clean和T-noisy。同时，Neg-NSD将为T-noisy中的所有样本分配伪正谓词标签（例如，图2中�字母-窗户�的paintedon）。带有伪正标签和原始T+的T-noisy与T+组合起来。03.1.负噪声样本检测（Neg-NSD）0提出一个新的正集T +。然后，我们使用Pos-NSD来检测T+中所有可能的有噪声的正样本，即受常见倾向或同义随机特性影响的正样本（例如，在图2中的�women-laptop�中的at）。类似地，T +可以分为T +清洁和T+噪声。接下来，我们使用NSC来重新分配更高的04在图2中，我们使用一张单独的图像作为清晰说明的输入。在实际实验中，我们在每个模块中直接处理整个数据集。为简洁起见，我们省略了图像Ii的下标i。0将质量谓词标签分配给所有样本中的T +噪声，表示为T+噪声→清洁。最后，在处理所有图像的真实三元组注释之后，我们可以获得一个更干净的数据集版本（T +清洁T+噪声→清洁T-清洁）用于SGG训练。0（c）噪声样本校正……��188720窗户女人0（b）正噪声样本检测0OOD检测0窗户信0在0笔记本电脑桌子0有0带0桌子0穿在0坐在0女人0信0头发0窗户0衬衫0信窗户0画在上面0穿着女人衬衫0坐在笔记本电脑桌子上0��0衬衫头发带0特征提取0加权KNN0数据集划分0本地密度计算0��0窗户信0窗户女人0笔记本电脑头发0��0画在上面0在0坐0桌子0信0窗户0女人0衬衫0头发在0带着穿着桌子0信0窗户0女人0衬衫0头发0看着0桌子0信0窗户0女人0衬衫0头发0在0在0有0桌子0信0窗户0女人0衬衫0头发0图2：NICE的流程（以VG中的一张图片为例）。（a）Neg-NSD：给定所有负三元组（蓝色虚线箭头），OOD检测模型检测缺失的注释三元组（T-有噪声）并为它们分配伪标签（绿色谓词）。0新组成的正三元组集（�T +），Pos-NSD检测所有噪声正样本（�T +噪声）。（c）NSC：NSC将更多高质量的谓词标签重新分配给所有噪声正样本（红色谓词）。最后，我们获得了一个新的更干净的地面真实注释版本。0基于这些噪声样本构建分类器。为此，我们提出将负噪声样本检测形式化为一种分布外（OOD）检测问题[12]。具体而言，我们将所有注释的正样本视为内部分布（ID）训练数据，将所有未注释的负样本视为OOD测试数据。Neg-NSD建立在一个普通的SGG模型之上（表示为Fnsgg），但它只使用注释的正样本T +进行训练。在推理阶段，Neg-NSD将为每个三元组t-i∈T-预测前景得分和伪正谓词类别。根据现有的OOD检测方法[6]，我们还使用基于置信度的模型，即Neg-NSD由两个网络输出分支组成：1）一个分类分支，用于预测所有正谓词类别上的概率分布p，2）一个置信度分支，用于预测置信度得分c∈[0，1]，表示成为ID类别（前景）的置信度。在推理阶段，对于每个样本t-i，如果其置信度得分ci大于阈值θ，则将此负样本视为噪声负样本，即检测函数g(∙)为：0g(t-i) = 1，ci ≥ θ0，ci < θ。（1）0当g(t-i) =1时，t-i的伪标签直接由分类分支导出，即argmax(pi)。由于不同谓词类别的预测平均置信度得分差异很大，我们为头部、身体和尾部类别设置不同的阈值。（更多细节请参见第4节。）Neg-NSD的训练。为了训练分类分支和置信度分支，我们结合了预测的概率pi和相应的目标概率分布yi，即0p'i = ci∙pi + (1 - ci)∙yi，（2）0图3：左：具有谓词in的随机采样三元组特征的多维缩放可视化。右：由Pos-NSD检测到的干净样本和噪声样本。0其中p'i是通过置信度ci调整的概率。方程（2）的动机是，如果模型有机会请求地面真实概率的提示并付出一些惩罚，如果模型对其输出不自信（即ci较小），则模型肯定会选择请求提示。Neg-NSD的训练目标包括加权交叉熵损失和正则化惩罚损失：0L = -∑j=1 wj log(p'ij) yij - λ log(ci)，（3）0其中p'ij和yij分别是pi和yi的第j个元素。wj是第j个谓词类别的频率的倒数，可以减轻长尾问题对置信度的影响。惩罚损失用于防止网络始终选择c =0并使用地面真实概率分布来最小化任务损失。03.2.正噪声样本检测（Pos-NSD）0如图2 4所示，原始正样本集T+和Neg-NSD的输出（即T-噪声）组成了一个新的正样本0正样本集�T +。Pos-NSD模块旨在检测所有噪声样本plantvasepotcabinetdrawerdeskfoodpotbedroombananahandininininininmanshirtskierjacketboyshirtwomanjeanplayerpantpersoncoatininininininSubset 1Subset 2Subset 3noisycleanSubset 4188730图4：上方：具有谓词 in的随机采样三元组特征的多维缩放可视化，截断距离排名为50％（左）和1％（右）。下方：对应红色圆圈和绿色圆圈的随机采样视觉关系三元组的三元组类别。0�T+中的所有噪声样本。通常，我们使用基于聚类的解决方案将所有这些正样本划分为具有不同噪声程度的多个子集，并将最嘈杂的子集中的所有样本视为噪声正样本。直观地说，如果一个谓词标签与同一谓词类别的其他视觉相似样本一致（即这些样本的视觉特征彼此接近），则该谓词更有可能是一个干净样本，因为这些注释彼此一致。否则，它很可能是一个噪声样本。如图3所示，两个干净的三元组�window-in-room�具有比噪声三元组（例如�plant-in-window�）更多的视觉相似邻居。基于这些观察结果，我们提出了一种基于局部密度的正噪声样本检测解决方案。具体而言，我们使用现成的预训练SGG模型（表示为Fpsgg）提取所有视觉关系三元组特征，并使用hki表示谓词类别k的第i个样本的视觉特征（该样本表示为tki）。然后，我们使用距离矩阵Dk = (dk ij) N × N ∈ R N ×N来衡量同一谓词k的所有正样本之间的相似性，其中dkij由以下公式计算：0dkij = ��hki − hkj��2，(4)0其中∥∙∥是欧氏距离。因此，较小的距离dkij意味着样本tki和tkj之间的相似性较高。然后根据[29]，我们将每个样本tki的局部密度ρki定义为与样本tki的相似距离小于阈值dkc的样本数量（在相同谓词类别内），即0ρki = �0j1((dkc−dkij)>0)，(5)0其中1(∙)是指示函数，dkc是谓词k的截断距离，它在排序后的DK的α%处。因此，局部密度ρ较高的样本意味着该样本更加密集。0�� 0��0��0�� 0��0��0� �0��0��0��0�� 0图5：NSC的示意图。虚线表示嘈杂样本与干净子集中其他样本（girl-chair）之间的距离。wKNN将嘈杂样本girl替换为sitting on。0与相同谓词类别的样本相似。类似地，局部密度ρ较低的样本被认为是噪声样本。最后，我们使用无监督的K均值算法[11]将所有数据样本分成多个子集，具有不同的ρ值，即不同程度的噪声[9]。最低ρ子集中的所有样本被视为嘈杂的正样本（即T+噪声），并输入以下NSC模块进行标签校正。截断距离dkc的影响。从公式（5）可以看出，局部密度ρ的分布直接由截断距离dc（或超参数α%）决定。如图4所示，当截断距离排名为50%和1%时，样本的局部密度从大到小依次向外扩散，分别具有一个和两个中心，即较小的截断距离（例如α%=1%）可能将整个特征空间划分为更多的簇。同时，不同的谓词类别可能包含不同类型的语义含义。例如，在图4中，红色圆圈内的样本的谓词in表示“inside”（例如�plant-in-vase�），而绿色圆圈内的样本的谓词in表示“wearing”（例如�man-in-shirt�）。因此，我们为不同的类别设置不同的截断距离。更多细节请参见第4节。此外，关于截断距离dkc对聚类结果的影响的更详细讨论留在附录中。03.3. 嘈杂样本校正（NSC）0给定从Pos-NSD检测到的所有嘈杂的正样本，NSC模块旨在校正这些嘈杂的正谓词标签。我们NSC的动机是样本的谓词标签应与其他视觉上相似的样本保持一致，特别是对于具有相同主体和客体类别的样本。例如，在图5中，对于嘈杂样本�girl-in-chair�，我们可以检索所有其他具有相同�girl-chair�的样本，并发现大多数视觉上相似的样本被标注为�girl-sitting-on-chair�。因此，我们188740使用简单但有效的加权K最近邻（wKNN）算法为嘈杂的正样本推导出最可能的标签。wKNN对最近的样本分配更大的权重，对远离的样本分配较小的权重。具体而言，设N(i)为样本ti的K个邻居集合，则ti的新分配标签为：0r′i = arg max v0�0tj ∈ N(i) wij ∙ 1(v = rj), (6)0其中v是谓词类别，rj是tj的谓词标签，1(∙)是一个指示函数。权重wij被赋值为02c2)。dij是hi和hj之间的欧氏距离（参见公式（4）），a、b、c是超参数。值得注意的是，由于我们只考虑具有相同主体-客体类别的样本，因此我们可以通过快速推理速度解决NSC问题。如果新标签与旧标签相同，则不会分配标签。04. 实验04.1. 实验设置和细节0数据集。我们在具有挑战性的VG数据集[15]上进行了所有实验。总共包含108,073张图像。在本文中，我们遵循广泛使用的分割[37]，保留了最常见的150个对象类别和最常见的50个谓词类别。具体而言，70%的图像是训练集，30%的图像是测试集。根据[42]，我们从训练集中抽取了5,000张图像作为验证集。此外，我们根据训练集中样本数量将所有谓词类别分为三个部分：头部（>10k），中部（0.5k�10k）和尾部（<0.5k）。任务。我们在三个SGG任务[37]上评估了NICE：1）谓词分类（PredCls）：给定带有标签的真实对象，我们只需要预测成对的谓词类别。2）场景图分类（SGCls）：给定真实的对象边界框，我们需要预测对象类别和谓词类别。3）场景图生成（SGGen）：给定一张图像，我们需要检测所有对象边界框，并预测对象类别和谓词类别。指标。我们在三个指标上评估所有结果：1）Top-K召回率（R@K）：计算置信度排名前K的预测关系三元组在真实关系中的比例。按照先前的工作，我们使用K = {50,100}。2）平均Top-K召回率（mR@K）：分别计算每个谓词类别的召回率，然后对所有谓词的R@K进行平均，即相对更加强调尾部类别。3）平均值：它是所有mR@K和R@K分数的平均值。R@K偏好于头部谓词，而mR@K偏好于尾部谓词。因此，它是一个综合指标，可以更好地反映模型在不同谓词上的性能。实现细节。见附录。04.2. 与最先进方法的比较0设置。由于NICE是一种与模型无关的策略，因此可以无缝地融入任何先进的SGG模型中。在本节中，我们将NICE应用于两个基线模型：Mo-tifs [42]和VCTree[32]，并将它们与最先进的SGG方法进行比较。根据这些方法的泛化性，我们将它们分为两类：1）TDE [31]，PCPL[39]，CogTree [41]，DLFE [4]和BPL-SA[10]。这些方法都是与模型无关的SGG去偏策略。为了公平比较，我们还报告了它们在Motifs和VCTree基线上的性能。2）KERN [3]，G-RCNN [40]，MSDN [19]，BGNN[17]和DT2-ACBS[5]。这些方法是专门设计的SGG模型。所有结果都在表1中报告。结果。从表1的结果中，我们得出以下观察结果：1）与两个强基线（即Motifs和VCTree）相比，我们的NICE可以在所有三个任务的mR@K指标上始终提高模型性能（例如，在Motifs和VCTree上的mR@100指标上，相对增益分别为6.7%至14.5%和4.7%至14.6%）。2）与其他最先进的与模型无关的去偏策略相比，NICE不仅在mR@K指标上始终能够达到最佳性能，而且在R@K指标上也能保持相对较高的性能，即NICE可以显著提高尾部类别的性能，并在头部类别上保持良好的性能。因此，NICE可以在不同谓词类别之间实现更好的准确性平衡，并始终达到最佳的平均分数。04.3. 消融研究04.3.1 对 Neg-NSD 的消融研究0Neg-NSD 的超参数设置。Neg-NSD中的超参数是置信度阈值 θ（参见公式（1））。特别地，当某个类别的阈值 θ 设置为100%，意味着我们从不将该类别分配为伪标签。为了不失一般性，我们选择了三个代表性的超参数设置，即：1）对所有谓词类别进行挖掘，或者2）仅对主体和尾部类别进行挖掘，或者3）仅对尾部类别进行挖掘。相应的头部、主体和尾部类别的阈值 θ 分别设置为 95%、90% 和60%。为了分离出另外两个模块（即 Pos-NSD 和NSC）的影响，我们直接使用 Neg-NSD的输出和原始的正样本进行 SGG训练。结果表明，在表3（a）中的结果中，我们可以观察到：1）不同的阈值设置对 mR@K 指标的影响较小，但对R@K 指标的影响相对较大。2）当仅在 Neg-NSD中挖掘缺失的尾部谓词时，模型获得了最佳性能。Neg-NSD 的有效性。我们通过使用 Neg-NSD 和原始的正样本进行SGG 训练，评估了 Neg-NSD 的有效性。VGG-16Motif [42] CVPR’1814.0 / 15.365.2 / 67.140.47.7 / 8.235.8 / 36.522.15.7 / 6.627.2 / 30.317.5VCTree [32]CVPR’1917.9 / 19.466.4 / 68.143.010.1 / 10.838.1 / 38.824.56.9 / 8.027.9 / 31.318.5KERN [3]CVPR’1917.7 / 19.265.8 / 67.642.69.4 / 10.036.7 / 37.423.46.4 / 7.329.8 / 27.117.7PCPL [39]MM’2035.2 / 37.850.8 / 52.644.118.6 / 19.627.6 / 28.423.69.5 / 11.714.6 / 18.613.6X-101-FPNMSDN [19]ICCV’1715.9 / 17.564.6 / 66.641.29.3 / 9.738.4 / 39.824.36.1 / 7.231.9 / 36.620.5G-RCNN [40]ECCV’1816.4 / 17.264.8 / 66.741.39.0 / 9.538.5 / 37.023.55.8 / 6.629.7 / 32.818.7BGNN [17]CVPR’2130.4 / 32.959.2 / 61.345.914.3 / 16.537.4 / 38.526.710.7 / 12.631.0 / 35.822.5DT2-ACBS [5]ICCV’2135.9 / 39.723.3 / 25.631.124.8 / 27.516.2 / 17.621.522.0 / 24.415.0 / 16.319.4Motifs [42]CVPR’1816.5 / 17.865.5 / 67.241.88.7 / 9.339.0 / 39.724.25.5 / 6.832.1 / 36.920.3+TDE [31]CVPR’2024.2 / 27.945.0 / 50.636.913.1 / 14.927.1 / 29.521.29.2 / 11.117.3 / 20.814.6+PCPL [39]MM’2024.3 / 26.154.7 / 56.540.412.0 / 12.735.3 / 36.124.010.7 / 12.627.8 / 31.720.7+CogTree [41]IJCAI’2126.4 / 29.035.6 / 36.832.014.9 / 16.121.6 / 22.218.710.4 / 11.820.0 / 22.116.1+DLFE [4]MM’2126.9 / 28.852.5 / 54.240.615.2 / 15.932.3 / 33.124.111.7 / 13.825.4 / 29.420.1+BPL-SA [10]ICCV’2129.7 / 31.750.7 / 52.541.216.5 / 17.530.1 / 31.023.813.5 / 15.623.0 / 26.919.8+NICE (ours)29.9 / 32.355.1 / 57.243.616.6 / 17.933.1 / 34.025.412.2 / 14.427.8 / 31.821.6VCTree [32]CVPR’1917.1 / 18.465.9 / 67.542.210

下载后可阅读完整内容，剩余1页未读，立即下载