没有合适的资源?快使用搜索试试~ 我知道了~
细粒度谓词学习:解决场景图生成中难以区分的谓词的问题
09182736450918273645194670用于场景图生成的细粒度谓词学习0吕新宇 1 高连利 1 * 郭宇宇 1 赵洲 2 黄浩 3 沈恒涛 10宋靖宽 101 中国电子科技大学未来媒体中心和计算机科学与工程学院,中国 2浙江大学,中国 3 快手,中国0摘要0当前场景图生成模型的性能受到一些难以区分的谓词的严重影响,例如“女人-站在/踩在/走在-海滩上”或“女人-靠近/看着/在孩子面前”。虽然一般的SGG模型倾向于预测头部谓词,而现有的重新平衡策略更喜欢尾部类别,但它们都不能适当处理这些难以区分的谓词。为了解决这个问题,我们受到细粒度图像分类的启发,该分类专注于区分难以区分的对象类别,提出了一种名为细粒度谓词学习(FGPL)的方法,旨在区分场景图生成任务中难以区分的谓词。具体而言,我们首先引入了一个谓词格,帮助SGG模型找出细粒度的谓词对。然后,利用谓词格,我们提出了一种类别判别损失和实体判别损失,两者都有助于区分细粒度的谓词,同时保持对可识别谓词的学习判别能力。所提出的与模型无关的策略显著提高了三个基准模型(Transformer,VCTree和Motif)在谓词分类子任务上的性能,分别提高了22.8%,24.1%和21.7%的平均召回率(mR@100)。我们的模型还在VisualGenome数据集上以较大的优势(即平均召回率(mR@100)提高了6.1%,4.6%和3.2%)超过了最先进的方法。代码公开可用1。01. 引言0* Corresponding author. 1https://github.com/XinyuLyu/FGPL0(c) Transformer0(b) Visual Genome上的组平均召回率结果 (a) 输入图像0(d) Transformer (Re-weight) (e) Transformer (FGPL)0Transformer Transformer (Re-weight) Transformer (FGPL)0海滩0孩子0波浪0冲浪板0女人0孩子 波浪0靠近0携带0靠近0海滩0冲浪板 女人0孩子 波浪0飞行中0携带0看着0海滩0冲浪板 女人0孩子 波浪0在...前面0携带0在...前面0海滩0冲浪板0女人0头部 身体 尾部0mR@500头部 身体 尾部0mR@1000图1. SSG模型处理难以区分的谓词的示意图。 (b) Transformer(FGPL)在组平均召回率上优于Transformer和Transformer(Re-weight)。 (c) Transformer [20, 23]倾向于预测头部谓词。 (d)Transformer (Re-weight)更喜欢尾部类别。 (e) Transformer(FGPL)可以适当处理难以区分的谓词,例如“女人-站在/踩在/走在-海滩上”或“女人-靠近/看着/在孩子面前”。0它们的关系。通过最终以图形结构表示图像内容,场景图生成作为连接视觉场景和人类语言的强大手段,有益于几个视觉理解任务,如图像检索[16, 33],图像字幕[6,30]和视觉问答[9, 10, 12, 17, 18, 22, 26]。之前的工作[8,13, 14, 19, 22, 27,32]致力于探索场景图生成的表示学习,但由于SGG数据集中谓词的长尾分布,偏见预测仍然具有挑战性。在严重倾斜的类别分布下训练的一般SGG模型倾向于预测头部谓词,如Transformer [20, 23]在图1(c)中所示。最近的工作[2, 7,11, 31]已经利用重新平衡方法来解决这个问题。00.20.40.60.8100.20.40.60.81194680为了解决场景图生成中的偏差预测问题,提出了一种方法来使谓词分布平衡或学习过程平滑。如图1(b)所示,Transformer(Re-weight)的性能比Transformer更平衡。然而,现有的重新平衡策略依赖于类别分布,更倾向于尾部类别的谓词,同时受到一些难以区分的谓词的阻碍。例如,如图1(d)所示,Transformer(Re-weight)将“woman-infront of- child”错误分类为“woman-lookingat-child”,这是因为“in front of”和“lookingat”之间的视觉相关性。问题的根源在于区分难以区分的谓词需要探索它们之间的相关性。现有方法[28,31]低估了谓词之间的相关性,无法选择足够惩罚的难以区分的谓词。为了获得完整的谓词相关性,我们考虑上下文信息,因为一对谓词之间的相关性可能随着上下文的变化而大不相同,正如[15]所述。特别地,上下文被视为场景图生成中谓词的对象和主语的视觉或语义信息。以“观看”和“玩耍”之间的谓词相关性分析为例。“观看/玩耍”在图2(b)中相关性较弱或者可以区分开,而在图2(a)中它们之间的相关性较强或者很难区分开。受到上述观察的启发,我们提出了一种Fine-Grained PredicatesLearning(FGPL)框架,通过充分利用谓词相关性来区分难以区分的谓词。我们首先引入谓词格来帮助理解SGG数据集中所有场景中普遍存在的谓词相关性。借助谓词格,我们设计了一个Category DiscriminatingLoss(CDL)和一个Entity DiscriminatingLoss(EDL),两者都可以区分难以区分的谓词,同时保持对可识别谓词的学习区分能力。特别是,CategoryDiscriminatingLoss(CDL)试图找出并区分难以区分的谓词。此外,由于谓词之间的相关性随实体的上下文而变化,EntityDiscriminatingLoss(EDL)根据实体的预测自适应调整区分过程。使用CDL和EDL,我们的方法可以在训练过程中确定谓词对是否难以区分,从而保证不同类别之间更平衡的学习过程,而不像之前的方法[2, 7, 11, 28,31]那样。贡献:我们的主要贡献总结如下:1)我们提出了一种新颖的即插即用的Fine-Grained PredicatesLearning(FGPL)框架,用于区分场景图生成中难以区分的谓词。2)我们设计了一个谓词格,以获取关于上下文信息的每对谓词之间的完整谓词相关性。CategoryDiscriminatingLoss(CDL)旨在找出并区分难以区分的谓词。此外,Entity DiscriminatingLoss(EDL)根据实体的预测自适应调整区分过程。3)我们的FGPL大大提高了三个基准模型(Transformer,VCTree和Motif)在谓词分类子任务上的性能,MeanRecall(mR@100)分别提高了22.8%,24.1%和21.7%,并在VisualGenome数据集上取得了比现有方法更好的性能(即MeanRecall(mR@100)分别提高了6.1%,4.6%和3.2%)。0(a)人-?-飞盘0(b)人-?-电视0(c)预测分数0玩耍0观看0观看0玩耍0图2.关于上下文的谓词相关性的示意图。在不同的上下文中,“观看/玩耍”之间的谓词相关性是不同的。特别是,在(b)中,“观看/玩耍”之间的相关性较弱或者可以区分开,而在(a)中它们之间的相关性较强或者很难区分开。0Loss(EDL)根据实体的预测自适应调整区分过程。3)我们的FGPL大大提高了三个基准模型(Transformer,VCTree和Motif)在谓词分类子任务上的性能,MeanRecall(mR@100)分别提高了22.8%,24.1%和21.7%,并在VisualGenome数据集上取得了比现有方法更好的性能(即MeanRecall(mR@100)分别提高了6.1%,4.6%和3.2%)。02. 相关工作0场景图生成:由于存在偏见预测,当前的场景图生成任务远未实用。为了解决这个问题,一些方法[1, 11,21]被提出来根据类别分布或视觉线索平衡区分过程。[28,31]探索谓词相关性,采用分层或全局结构来区分谓词。然而,谓词之间的相关性因上下文而异,既不是分层的也不是全局的。因此,我们专注于通过构建谓词图来区分难以区分的谓词。长尾分布分类:为了解决长尾问题,已经提出了各种基于分布的再平衡学习策略[4, 24,25]。然而,除了类别分布,相关性对于区分难以区分的谓词在场景图生成中至关重要。因此,在这项工作中,我们利用谓词分布和谓词相关性来处理这个问题。细粒度图像分类:细粒度图像分类旨在以粗到细的方式识别难以区分的对象。现有方法从两个角度解决这个问题,即表示编码[5,34]和局部识别[3,29]。然而,由于谓词之间存在复杂的关系,这种粗到细的区分方式可能无法区分场景图生成中的谓词。特别是,在特定场景中,不同的谓词可能具有相似的含义,而一个谓词可能具有00.800.20.40.60.8194690在不同的上下文中,谓词具有不同的含义。我们不采用分层结构,而是将谓词相关性构建成图形。具体而言,我们构建谓词格来理解谓词相关性以进行谓词区分。03. 细粒度谓词学习03.1. 问题形式化0场景图生成通常是一个两阶段的多类别分类任务。在第一阶段,Faster R-CNN检测出实例标签O = {oi},边界框B ={bi}和特征图X ={xi}。在第二阶段,场景图模型根据检测结果,即Pr(R | O,B, X),从主体i到主体j推断谓词类别,即R ={rij}。在我们的细粒度谓词学习(FGPL)框架中,如图4所示,我们首先构建一个包含上下文信息的谓词格,以理解谓词之间的普遍相关性。然后,利用谓词格,我们开发了一个类别区分损失和一个实体区分损失,帮助场景图生成模型区分难以区分的谓词。03.2. 谓词格构建0为了充分理解谓词之间的关系,我们构建了一个谓词格,其中包括了关于每对谓词的上下文信息的相关性。一般来说,谓词相关性是在不同的上下文中获得的,因为上下文(即谓词的主体和客体的视觉或语义信息)决定了谓词之间的关系。具体而言,我们从包含了每对谓词之间所有可能上下文的偏见预测中提取它们基于上下文的相关性。构建过程如图3所示。上下文-谓词关联:我们首先建立谓词节点和上下文节点之间的上下文-谓词关联。由于上下文决定了谓词之间的相关性,谓词相关性被构建为一个包含谓词和相关上下文(即谓词的主体和客体的视觉或语义信息)的谓词格。在图3(a)中,我们展示了谓词格的结构。谓词格中有两种节点,即谓词节点和上下文节点,分别表示谓词类别和主体-客体对的标签。几个谓词节点连接到同一个上下文节点,表示几个谓词可以描述相同上下文中的关系。例如,在图3(a)中,“holding”和“carrying”都可以用来描述“person-racket”的关系。具体而言,我们采用频率模型[32]从场景图生成数据集(VG)中推导出每个谓词的每个主体-客体对作为上下文。此外,谓词节点和上下文节点之间的边的权重0步骤3:谓词-谓词关联0谓词格的构建0步骤1:上下文-谓词关联0打球 拿着0携带0人-板0人-包0人-球拍0人-飞盘0(a)0(c)0步骤2:偏置谓词预测0(b)0(d)0完成:谓词格0上下文节点0谓词节点0谓词-谓词关联0上下文-谓词关联0在上下文下累积相关性0谓词对:拿着-打球0打球 拿着0人-包0人-球拍0人-飞盘 人-板0打球 拿着0人-包0人-球拍0携带0着打球0看0上下文:人-球拍0打球拿着0看0上下文:人-包0图3.谓词格的构建。整个过程分为三个步骤:(1)上下文-谓词关联;(2)偏置谓词预测;(3)谓词-谓词关联。0节点,即Pr(rij|oi,oj),表示数据集中每个“主体(oi)-谓词(rij)-客体(oj)”三元组的出现频率。通过这种方式,我们在谓词格中建立了谓词节点和上下文节点之间的连接。偏置谓词预测:为了将谓词对与下一步中的谓词相关性关联起来,我们从SGG模型中获取偏置谓词预测。首先,我们将第一步中构建的上下文-谓词关联信息纳入SGG模型中。特别地,我们提取每个“主体-谓词-客体”三元组的上下文-谓词关联作为语义信息。然后,为了获取完整的上下文信息,我们将语义信息与视觉特征(即bi和xi)结合起来,预测谓词Pr(rij|oi,oj,bi,bj,xi,xj)。利用上下文信息,我们通过对SGG数据集的训练集进行推断,得到预训练SGG模型的偏置谓词预测。这样,偏置谓词预测包含了每个谓词对在所有可能情景下的谓词预测。例如,如图3(b)所示,我们对谓词“playing”或“holding”进行了所有可能情景下的预训练SGG模型推断,例如“人-球拍”和“人-包”。谓词-谓词关联:最后,我们根据偏置谓词预测中获得的基于上下文的相关性建立谓词-谓词关联。偏置谓词预测暗示了每对谓词之间的基于上下文的相关性。例如,如果大多数样本被预测为j但在标签中标记为i,那么谓词i与谓词j相关。………………......(1)j=ηj194700场景图数据集0输入图像0谓词格0打球0人-包0人-飞盘 人-板0人-球拍0拿着0携带0(Motif, Vctree, Transformer)0场景图模型0类别判别损失0类别中心0玩0持有0实体区分损失0实体“持有”0持有0玩0移动0预测0图4.我们的细粒度谓词学习(FGPL)框架的概述。它包括三个部分:谓词网格,类别区分损失,实体区分损失。细粒度谓词学习被纳入几个最先进的SGG模型中。谓词网格是从SGG数据集(VisualGenome)构建的,用于帮助理解谓词之间的相关性。通过谓词网格,架构被优化为两个术语:类别区分损失和实体区分损失。0在大多数情况下,谓词j在大多数上下文中都与谓词i相关。根据上述观察,我们从每个可能的上下文中累积预测结果,以获得每对谓词之间的整体谓词相关性,如图3(c)所示。例如,给定谓词对“playing-holding”,我们收集它们在所有上下文/场景下的相关性,如“person-racket”和“person-bag”。此外,如果谓词i在大多数上下文中与谓词j相关,它们很可能强相关。因此,我们将收集到的谓词相关性归一化为S = {sij},其中sij ∈ [0,1],表示标记为i但预测为j的样本比例。特别地,较高的sij意味着谓词对i和j之间的相关性更强。然后,我们将谓词对与谓词相关性sij关联起来。最后,谓词相关性形成谓词网格,如图3(d)所示。03.3.类别区分损失0在本节中,我们首先分析了重新加权方法的局限性。然后,我们详细介绍了我们的类别区分损失(CDL)。重新加权方法的局限性:总体而言,最近的重新加权方法通过加强对头类的惩罚并减小对尾类的惩罚来重新平衡学习过程。具体而言,最先进的重新加权方法[24]根据训练样本的比例调整交叉熵损失中每个类别的权重,如下所示:0LCD(η) = -�Ci=1yi log(ˆϕi),0�Cj=1wijeηj,wij=0ni)α,如果nj > ni1,如果nj ≤ ni,0其中η = [η1, η2, ..., ηC]和ˆϕ = [ˆϕ1, ˆϕ2, ..., ˆϕC]表示0预测的logits和重新加权的概率。标签Y = [y1, y2, ...,yC]是一个独热向量。此外,wij表示与正类别i和负类别j之间的分布相关的重新加权因子。明确地,wij是基于类别i和j之间分布的比例计算的,如公式1所示,其中α > 0。0∂ L CD (η)0�Ck=1wieηk。(2)0Eq.2显示了类别j的负梯度。如果正类别i的频率低于负类别j,即nj > ni且wij >1,则会加强对负类别j的惩罚。相反,如果nj ≤ ni且wij =1,则会降低对负类别j的惩罚。最终,这将导致一个平衡的学习过程。不考虑谓词之间的相关性,重新加权方法无法根据区分的难度自适应地调整区分过程,从而导致学习过程低效。作为谓词的固有特性,谓词相关性揭示了不同谓词对的区分难度。然而,在学习过程中忽略谓词之间的相关性,重新加权方法粗略地减少了所有负样本谓词的负梯度,这些负样本谓词少于正样本谓词。作为将决策边界从头类推向尾类的过程,这种区分过程容易过度抑制弱相关的谓词对,并降低了在[4,25]中所保持的可识别谓词的学习区分能力。以“on/has/standing on”为例,其中“on-standingon”强相关,“has-standingon”弱相关。为了防止尾类“standingon”被过度抑制,重新加权方法粗略地减少了对其的惩罚。wij =µβij (≥ 1),if µij ≥ 1 and φij > ξ1,if µij ≥ 1 and φij ≤ ξ1,if µij < 1 and φij > ξµαij (< 1),if µij < 1 and φij ≤ ξ,µij = njni, φij = sijsii,(3)LED(η) =1|Vi|�j∈Vimax(0, ϕj − ϕi + δ)njni,(4)where Vi is defined as a set of strongly correlated predi-cates selected in reference to predicate correlations sij inPredicate Lattice. For each predicate category i, M predi-cates with the highest sij in the Predicate Lattice are cho-sen to construct Vi. Given the input sample η, ϕi and ϕjare the predicted probabilities for predicates i and j, andϕj − ϕi implies the learned discriminatory ability betweenthem during training. The δ is a hyper-parameter, whichdenotes prediction margins for predicates.Furthermore,EDL is reduced to zero if predicate pairs are distinguishableenough i.e., ϕiϕjδ. Moreover, we also adopt the bal-L(η) = LCD(η) + λLED(η) ,(5)194710尽管它增强了“on”和“standingon”之间的区分能力,但同时也减弱了“has”和“standing on”之间的区分能力。CDL的公式如下所示:根据上述观察,我们既要考虑类别分布,又要考虑谓词之间的相关性,以区分难以区分的谓词。因此,基于公式 1中的重新加权方法,我们设计了类别区分损失(CDL),根据谓词格中获得的谓词相关性调整重新加权过程。总体上,我们利用谓词相关性 s ij 作为信号来调整谓词 i 和 j之间重新加权的程度。特别地,我们通过在公式 1中设置不同的值来减小弱相关谓词的重新加权幅度,同时增强强相关谓词的重新加权幅度。通过这种方式,我们在可识别的谓词之间保持了获得的区分能力,并进一步增强了难以区分的谓词之间的区分能力,如下所示:0其中,φ ij 是由 s ij 和 s ii之间的比例计算得出的,揭示了谓词 i 和 j之间的相关性。此外,α 和 β 是大于 0 的超参数。例如,当n j ≥ n i ( µ ij ≥ 1 )时,如果 φ ij > ξ ,表示谓词对 i 和j 之间的相关性很强,w ij 大于 1 ,以加强对负谓词 j的惩罚。相反,如果 φ ij ≤ ξ ,表示谓词对 i 和 j之间的相关性较弱,w ij 设为 1 ,以减小对负谓词 j的惩罚幅度。这是因为对于模型来说,对于弱相关的谓词 j来说,与谓词 i 区分是容易的。当 n j < n i ( µ ij < 1)时,我们设置 w ij ≤ 1 (包括 φ ij > ξ 和 φ ij ≤ ξ),以减轻从头谓词 i 到尾谓词 j 的过度抑制。此外,如果φ ij ≤ ξ ,我们设置 w ij = µ α ij ( < 1),以减小对负谓词 j 的惩罚幅度。03.4. 实体区分损失0尽管 CDL能够有效区分难以区分的谓词,但它仍然存在一个限制:在训练过程中,分配给谓词的权重是稳定的,既不能适应训练过程中逐渐获得的区分能力,也不能适应随着训练样本变化的上下文。因此,我们将每个样本的预测结果作为信号来调整决策边界。基于这些观察,我们提出了实体区分损失。0(EDL)是一种根据学习状态和上下文调整区分过程的方法,如下所示:0为了减轻类别观测较少或较多的类之间不平衡的梯度,我们引入了归一化因子 n i 。最后,我们将 CDL 和 EDL结合起来,得到公式 5,该公式区分难以区分的谓词,同时保持可区分谓词之间的性能。0其中 L CD 和 L ED分别表示类别区分损失和实体区分损失。此外,λ是一个超参数,用于平衡 CDL 和 EDL。04. 实验04.1. 实验设置0数据集:我们采用了广泛使用的 Visual Genome数据集进行场景图生成,遵循之前的工作[1, 21,32]。在这个设置下,Visual Genome 数据集有 150个物体类别和 50 个关系类别。然后,我们将数据集划分为70% 的训练集、30% 的测试集以及来自训练集的 5k张图像用于验证。模型配置:对于我们的细粒度谓词学习(FGPL),我们采用了最近的工作[7]中的 VCTree[22]、Motif [32] 和 Transformer [23],并将其融入到SGG基准测试[20]中。评估指标:我们在场景图生成的三个子任务中评估我们的方法,包括 PredCls、SGCls 和SGDet。我们按照最近的工作[1, 11, 22],使用 mR@K 和Group Mean Recall来评估先前方法的性能,即头部、身体和尾部。此外,我们引入 DP@K(%)来表示模型在前 k个难以区分的谓词中的区分能力。一般来说,DP@K是通过对样本被正确预测为 i和被错误分类为难以区分的谓词 j( j ∈ V ′ i)之间的比例差异进行平均计算得到的。此外,V ′ i被定义为谓词 i 的前 k个难以区分的谓词集合。特别地,为了确定难以区分的谓词,我们收集了一个归一化的混淆矩阵。194720方法 谓词分类(PredCls) 场景图分类(SGCls) 场景图检测(SGDet)0mR@20 mR@50 mR@100 mR@20 mR@50 mR@100 mR@20 mR@50 mR@1000BGNN [11] - 30.4 32.9 - 14.3 16.5 - 10.7 12.6 PCPL [28] - 35.2 37.8 - 18.6 19.6 - 9.5 11.7 TDE-VCTree [21, 22] 18.4 25.4 28.7 8.9 12.2 14.0 6.99.3 11.1 CogTree-Motif [31, 32] 20.9 26.4 29.0 12.1 14.9 16.1 7.9 10.4 11.8 CogTree-VCTree [22, 31] 22.0 27.6 29.7 15.4 18.8 19.9 7.8 10.412.1 CogTree-Transformer [23, 31] 22.9 28.4 31.0 13.0 15.7 16.7 7.9 11.1 12.7 Reweight*-Motif [24, 32] 18.8 28.1 33.7 10.7 15.6 18.3 7.210.5 13.2 Reweight*-VCTree [22, 24] 19.4 29.6 35.3 13.7 19.9 23.5 7.0 10.5 13.1 Reweight*-Transformer [23, 24] 19.5 28.6 34.4 11.9 17.220.7 8.1 11.5 14.90FGPL-Motif 24.3 33.0 37.5 17.1 21.3 22.5 11.1 15.4 18.2 FGPL-VCTree 30.8 37.5 40.2 21.9 26.2 27.6 11.9 16.2 19.1 FGPL-Transformer 27.536.4 40.3 19.2 22.6 24.0 13.2 17.4 20.30表1. 现有方法与FGPL的比较。*表示[24]中提出的最新重新加权方法。0矩阵S'∈RC×C是根据模型的预测结果构建的,其中s'ij∈[0,1]表示谓词对i和j之间的混淆程度。对于每个谓词类别i,选择具有最高s'ij的k个谓词来构建V'i。总之,DP@K得分越高,说明对难以区分的谓词具有更强的区分能力。04.2. 实现细节0检测器:对于物体检测器,我们使用[21]中预训练的FasterR-CNN来检测图像中的物体。此外,在三个子任务的场景图生成训练过程中,物体检测器的权重被冻结。场景图生成模型:遵循[20],基线模型使用交叉熵损失和SGD优化器进行训练,初始学习率为0.01,批量大小为16。细粒度谓词学习:我们将FGPL与[20]中的基线模型集成,使用相同的CDL和EDL超参数。具体而言,我们将α、β和ξ设置为1.5、2.0和0.9作为CDL的超参数。此外,我们将难以区分的谓词数量(即|Vi|)设置为5作为EDL的超参数。此外,边界间隔δ和超参数λ分别设置为0.5和0.1。04.3. 与现有技术的比较0我们通过将FGPL纳入三个SGG基线模型(Transformer[23]、Motif [32]和VCTree[22])中来评估其性能。与VisualGenome上的最新方法进行比较的定量结果如表1所示。具体而言,FGPL-Motif、FGPL-VCTree和FGPL-Transformer在PredCls的mR@100上分别取得了8.5%、10.5%和9.3%的改进,超过了CogTree-Motif、CogTree-VCTree和CogTree-Transformer,证明了格结构谓词相关性相对于树结构谓词相关性(即CogTree)的有效性。值得注意的是,尽管Reweight*-Motif、Reweight*-VCTree和Reweight*-Transformer在所有指标上超过了大多数先前的工作,但FGPL-Motif、FGPL-VCTree和FGPL-Transformer在PredCls的mR@100上仍然取得了较大的改进,分别为3.8%、4.9%和5.9%,验证了FGPL在提高区分能力方面的显著效果。0直观地说,我们的方法可以根据谓词之间的相关性调整重新加权过程,增强对谓词的区分能力,从而完全理解谓词之间的关系。04.4. SGG模型的泛化性能0为了验证FGPL的CDL和EDL都是即插即用的,我们将它们纳入不同的基准模型中,包括Transformer、VCTree和Motif。在VisualGenome上的定量结果如表2所示。从表2中可以看出,与基准模型相比,我们观察到Transformer-FGPL(CDL)(17.5% vs. 35.4%)、VCTree-FGPL(CDL)(16.1% vs.35.3%)和Motif-FGPL(CDL)(15.8% vs.34.4%)在PredCls任务的mR@100上都有显著的改进,表明FGPL(CDL)具有显著的泛化能力。原因在于CDL有助于找出和区分难以区分的谓词。此外,将FGPL(EDL)与CDL集成后,我们的Transformer-FGPL(CDL+EDL)、VCTree-FGPL(CDL+EDL)和Motif-FGPL(CDL+EDL)在PredCls任务的mR@100上进一步取得了4.9%、4.9%和3.1%的进展,这表明我们的FGPL(EDL)具有很好的兼容性。可能的原因是EDL根据学习过程和训练样本的上下文调整学习过程。04.5. FGPL的谓词区分性0我们观察到FGPL有助于SGG模型区分难以区分的谓词,因此进行定量和定性研究以深入了解FGPL。定量分析:正如我们的假设,与重新加权方法相比,我们的FGPL在难以区分的谓词中提高了区分能力,同时保留了可区分的谓词。因此,我们在三个设置中进行实验来验证我们的假设:1)基线方法使用传统的交叉熵损失。2)基线方法使用[24]中最先进的重新加权方法。3)基线方法使用我们的FGPL。为了专注于谓词的预测,我们只在PredCls任务上进行实验。表3对Transformer、VCTree和Motif在三个设置上进行了比较,除了mR@50,我们还评估了0Transformer12.416.017.57.79.610.25.37.38.8Transformer-FGPL(CDL)23.0 ↑ 10.631.4 ↑ 15.435.4 ↑ 17.914.3 ↑ 6.618.9 ↑ 9.321.2 ↑ 11.09.4 ↑ 4.113.3 ↑ 6.016.5 ↑ 7.7Transformer-FGPL(CDL+EDL)27.5 ↑ 15.136.4 ↑ 20.440.3 ↑ 22.819.2 ↑ 11.522.6 ↑ 13.024.0 ↑ 13.813.2 ↑ 7.917.4 ↑ 10.120.3 ↑ 11.5VCTree11.714.916.16.27.57.94.25.76.9VCTree-FGPL(CDL)23.0 ↑ 11.331.6 ↑ 16.735.3 ↑ 19.215.7 ↑ 9.521.1 ↑ 13.623.3 ↑ 15.411.0 ↑ 6.814.7 ↑ 9.017.5 ↑ 10.6VCTree-FGPL(CDL+EDL)30.8 ↑ 19.137.5 ↑ 22.640.2 ↑ 24.121.9 ↑ 15.726.2 ↑ 18.727.6 ↑ 19.711.9 ↑ 7.716.2 ↑ 10.519.1 ↑ 12.2Motif11.514.615.86.58.08.54.15.56.8Motif-FGPL(CDL)22.2 ↑ 10.730.3 ↑ 15.734.4 ↑ 18.612.6 ↑ 6.116.7 ↑ 8.718.5 ↑ 10.08.2 ↑ 4.111.6 ↑ 6.114.3 ↑ 7.5Motif-FGPL(CDL+EDL)24.3 ↑ 12.833.0 ↑ 18.437.5 ↑ 21.717.1 ↑ 10.621.3 ↑ 13.322.5 ↑ 14.011.1 ↑ 7.015.4 ↑ 9.918.2 ↑ 11.439%4%1%4%14%38%31%6%3%5%16%39%68%3%1% 3%45%19%3%4%4%25%35%24%6%6%5%24%87%Entity Discriminating Loss: To validate the superiority foreach component of Entity Discriminating Loss, i.e., Predi-cate Correlation (PC) and Balancing Factor (BF), we ex-periment with the following four settings: 1) Transformerwith EDL (without PC and BF). 2) Transformer with EDL(without PC), i.e., setting Vi in Eq. 4 as a set containingall predicate categories. 3) Transformer with EDL (with-194730方法 谓词分类(PredCls) 场景图分类(SGCls) 场景图检测(SGDet)0表2. FGPL中CDL和EDL的泛化能力的定量结果。我们与基线方法比较,验证了我们提出的组件,即实体区分损失(EDL)和类别区分损失(CDL)的泛化能力。0将它们与DP@K一起展示,以显示对难以区分的谓词的区分能力。在与FGPL集成之后,Transformer(FGPL)、VCTree(FGPL)和Motif(FGPL)在DP@10上大大超过基线,分别为22.9%、22.1%和22.1%。这直接证明了我们的FGPL在对难以区分的谓词具有显著的区分能力。值得注意的是,与Transformer(重新加权)、VCTree(重新加权)和Motif(重新加权)相比,Transformer(FGPL)、VCTree(FGPL)和Motif(FGPL)在DP@10上取得了一致的进展。这反映了我们的FGPL在生成细粒度谓词方面比重新加权方法[24]具有更强的区分能力。一个可能的原因是FGPL使学习过程既适应谓词之间的相关性,又适应每个样本的内在上下文信息,增强了对难以区分的谓词的区分能力。0定性分析:为了直观地说明FGPL在难以区分的谓词中的区分能力,我们在图5中可视化了Transformer、Transformer(重新加权)和Transformer(FGPL)之间难以区分的谓词的区分情况。环的比例表示预测结果的分布,包括难以区分的谓词j和真实谓词i,对于所有具有真实谓词i的样本。在图5中,“standingon”这个谓词,Transformer很难将其与相关的谓词区分开,例如“in”或“on”。此外,Transformer(重新加权)无法区分难以区分的谓词,例如“standingon”、“walking on”和“sittingon”。对于Transformer(FGPL),与Transformer相比,正确分类的样本比例从6%上升到39%。与此同时,难以区分的谓词比Transformer(重新加权)更容易识别,即“walking on”从16%下降到14%,“sittingon”从5%下降到4%。因此,结果验证了我们的FGPL对于难以区分的谓词具有有效的区分能力。04.6.消融研究0为了深入研究我们的FGPL,我们进一步研究了PredCls任务中CDL和EDL的不同消融变体。0方法:谓词分类(PredCls)0mR@50 DP@1 DP@5 DP@100Transformer 16.0 9.9 15.6 17.4 Transformer(重新加权) 28.625.3 33.3 36.1 Transformer(FGPL) 36.4 30.1 37.9 40.30VCTree 14.9 10.5 14.1 15.7 VCTree(重新加权) 29.6 26.2 33.936.5 VCTree(FGPL) 37.5 27.1 35.4 37.80Motif 14.6 10.0 15.1 16.6 Motif(重新加权) 29.6 25.6 33.0 35.6Motif(FGPL) 33.0 28.6 36.1 38.70表3.PredCls中前k个难以区分的谓词的区分能力的定量结果(DP@K(%))。019%站在0在0附近0坐在0走在0其他03% 5%悬挂在0在0在0附加到0覆盖0其他0图5.FGPL在难以区分的谓词中的有效性。内环、中环和外环分别表示来自Transformer(FGPL)、Transformer(重新加权)和Transformer的具有“站在”左侧和“悬挂在”右侧的地面真实样本的预测分布。0在等式4中的ni。4)带有EDL(带有PC和BF)的Transformer。实验结果如表4所示。没有谓词相关性(PC),我们观察到mR@50(22.0% vs. 17.0%)和Group MeanRecall(头部:39.2% vs. 37.2%,身体:19.7% vs.11.4%,尾部:7.4% vs.3.7%)急剧下降。这验证了PC在提高SGG模型的区分能力方面的有用性。可能的原因是EDL(PC)在每个实体内探索了潜在的上下文信息,并根据逐渐获得的区分能力调整区分过程,以缓解不平衡学习的问题。此外,可以观察到在没有BF的情况下训练,mR@50和Group MeanRecall有显著减少。1-s
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功