基于谓词概率分布损失的无偏场景图生成

88 浏览量更新于2023-10-25 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19447PPDL：基于谓词概率分布损失的无偏场景图生成李伟1，4，张海伟1，2，4，白启杰1，4，赵国庆3，姜宁3，袁晓杰1，2，41南开大学计算机学院，2南开大学网络科学学院，天津3马商消费金融有限公司，公司4天津市网络与数据安全技术重点实验室，天津liwei@dbis.nankai.edu.cn，{zhhaiwei，yuanxj}@nankai.edu.cnqijie.mail.nankai.edu.cn，{guoqing.zhao02，ning.jiang02}@ msxf.com摘要近年来，由于S场景G生成（SG）具有丰富的结构-语义细节，在许多下游任务中具有重要的应用价值，因此S场景G生成（SGG）越来越受到视觉研究者的关注然而，长尾数据导致的谓词分类偏差严重限制了SG在下游任务中的应用价值，表现为预测关系谓词的语义偏差现有方法主要通过更好地聚合上下文和整合外部先验知识来降低预测偏差本文提出了一种基于预测概率分布的损失估计（PPDL）来训练有偏SGG模型，最终得到无偏的场景图。首先，我们提出一个预测-图1.长尾偏差和无偏场景的一个例证将概率分布定义为特定谓词类的语义然后，我们根据预测概率分布与估计概率分布之间的相似性重新平衡有偏训练损失值得注意的是，PPDL训练方法是模型不可知的，并且在Visual Genome数据集上的广泛实验和定性分析揭示了我们的方法在尾类上与最先进的方法相比的显著性能改进。1. 介绍场景图生成（SGG）[12]涉及生成全面的，结构化的表示，* 通讯作者。本工作得到了国家自然科学基金 2030 科技创新计划（2018AAA0102100）（U1936206，U1903128）的资助。图生成（SGG）。(a)Visual Genome中不同谓词类别的长尾分布[14]。(b)带有边界框的输入图像（c）地面实况现场图。（d）来自VCTree [29]模型的偏倚SG（e）来自相同模型的无偏SG，使用我们提出的无偏训练方法。图像.场景图是由图像中的对象实体对及其关系组成的有向图，其中对象和关系分别表示为节点和由于场景图具有丰富的结构-语义信息，因此在图像生成[10，11]、视觉问答[6，25]、图像字幕[2，7，15，33，37，43]、语义图像检索[12，23，24]等，因此受到越来越多的关注。尽管在对象-对象关系的获取和可视化推理方面取得了很大的进展，但是，Ex-observed SGG方法仍然不能满足X 10000频率806040200谓词(a)前24个频繁谓词街对对停在街道上自行车自行车头盔头盔对(d)Biased scene graph（无偏场景图(b)输入图像(c)地面实况场景图对头盔自行车停在街道上19448站在坐在走在走在相似度计算...估计预测PPD相似性PPD分布损失偏置SGG人对海滩(a)输入图像无偏训练(b)偏置损失损失人在海滩⟨⟩(c) 基于PPD的去偏策略(d) 无偏损失上面很少关心不同谓词的语义相似性。受密集对象检测的焦点损失[18]的启发，我们提出了一种新的损失函数，基于谓词概率分布的损失（PPDL），以削弱模型对尾类的抑制。我们首先建造等同概率分布矩阵（PPDM），用于表示每个等同类别的估计概率分布。如图2、谓语图2. 预测概率分布的一个小例子（PPD）的损失重新加权方法。(a)带有边界框的输入图像。(b)偏置模型的偏置损失和SG。(c)我们提出的基于PPD的去偏置策略的说明，该策略计算预测的PPD和估计的地面实况PPD之间的相似性，用于随后的损失重新加权。在这一部分中，我们使用不同的颜色深浅来表示不同值的大小，每个分布的最高值由红色虚线框标识（d）使用我们的无偏训练方法，来自同一个有偏模型的无偏损失和实际应用场景的下游任务。如图2所示。1（a），头类的数量（例如，““一方面，在长尾数据的驱动下，大多数现有的偏置SGG方法被训练为“偏好”高频谓词。因此，在谓词分类中，尾类往往被忽略和错误分类例如，在图。1（d），“自行车”和“街道”之间的关系被另一方面，头类往往语义较少，而尾类包含更丰富的语义信息，因此即使有时头类和尾类在同一对象对中都可以被认为是正确的，高频预测的语义较少的结果可以显著降低SGG在需要更丰富语义的下游任务中的性能，例如，故事-讲述[30]。由于这些原因，长尾数据分布严重降低SGG性能的事实引起了更多的关注。为了解决不同谓词类之间的长尾分布，已经开发了反事实因果推理[28]，它在训练中区分好的和坏的偏差，然后保留好的偏差。Chen等人。[3]提出将数据集中谓词和对象对的统计先验知识嵌入到消息传递中。此外，Yu et al. [38]和Suhail et al. [26]不是依赖于先验知识或更好的推理方法，而是用无偏训练损失改进了现有的有偏训练方法。然而，所描述“因此，我们可以通过检查预测的谓词概率分布和相应的估计概率分布之间的相似性来确定每个训练示例的谓词分类是否存在偏差。然后，如果存在预测偏差，我们可以重新加权预测谓词的损失。如示于图在图2（b）中，语义较弱的三元组man，on，beach由偏置模型生成（例如，VC-树模型）。然而，在使用PPDL进行训练之后，我们可以减少头部类的损失，并专注于训练硬但有意义的尾部类，最终获得更有意义的谓词（例如，“第2段（d）分段）。为了更好地估计每个谓词类的概率分布，我们提出了一种在训练期间动态更新PPDM的方法。PPDM不是依赖于简单的同现统计，而是可以通过对每个小批次中的无偏预测关系的概率分布求和来自适应地更新，并且逐渐接近训练数据的真实平均概率分布。总之，我们的主要贡献有三方面：• 分析了现有SGG模型忽略谓词之间语义相关性的问题，并将谓词概率分布引入无偏训练损失PPDL中，以降低长尾数据对SGG的影响。我们强调PPDL是一种模型无关的训练策略，因此适用于各种现有的SGG模型。• 此外，我们提出了一种自适应更新方法，用于PPDM估计有偏模型训练期间每个谓词的实际概率分布，这将在下面更详细地描述。• 大量的实验和定性分析上广泛使用的SGG基准数据集的Visual Genome证明了我们提出的无偏训练损失，PPDL的有效性令人印象深刻的是，提出的PPDL显着改善了大多数预测，尾类的性能明显提高。19449⟨⟩2. 相关工作2.1. 场景图生成（SGG）SGG的目标是检测图像中的实体对及其关系，以主语、谓语、宾语的形式。SGG模型一般由三个主要模块组成：定位对象边界框的预测生成模块、标记检测到的对象的对象分类模块和预测成对对象之间谓词的关系预测模块，因此大多数SGG方法主要是在这三个模块中进行创新。Liu等人[19]没有依赖于一个额外强大的对象检测器[22]来获得对象的属性，而是通过在整个SGG模型中应用一个完全卷积的网络来定位对象并细化边界框。为了更好地利用上下文进行对象分类和关系预测，RNN和图卷积网络被应用于传播图像上下文，例如， IMP+ [32] ， MOTIFS [41]， Graph R-CNN [36]。VCTree [29]通过利用动态树结构捕获局部和全局视觉上下文。此外，由于Tang et al. [29]和Chen et al.[3]提出了无偏的评价指标Mean Recall，许多研究者关注主流视觉基因组数据集的长尾偏差[14]。Gu et al. [8]and Chen et al.[3]将外部知识集成到SGG模型中，以解决噪声注释的偏差。Tang等人[28]提出采用反事实因果推理来消除长尾数据引起的预测偏差Yan等人。[34]建议使用类相关性感知权重执行重新加权。CogTree[38]利用已有模型的偏误构建了一个谓词的层次认知树，并将注意力集中在一小部分容易混淆的Suhail等人。[26]提出了一种基于能量的训练方法，该方法允许模型执行结构感知学习，并减轻预测的长尾偏差。还有一些其他有趣的技巧可以消除预测偏差或打破SGG中Yang等人[35]提出将关系预测概率建模为高斯分布，以生成不同的场景图。Chen等人[4]介绍了一种半监督方法来训练具有有限标签设置的SGG模型。Zhang等人[42]提出了专门针对实体实例混淆和邻近关系模糊的图形Zareian等人。[40]提出了SGG的弱监督学习框架，可以在没有边界框注释的情况下进行训练。上面提到的方法很少利用对象对之间的类相关性或通过无偏训练实现无偏SGG。然而，我们没有利用外部知识或专注于消除视觉特征学习的偏见，而是提出通过预测谓词概率分布和相关性之间的欧氏距离来量化预测相关性。响应估计值，然后建立一个基于谓词相关性的无偏2.2. 阶级再平衡真实世界的数据集通常具有长尾数据分布，如图所示。1（a），从不同类别中抽样的谓词数量差异很大。因此，在这些数据集上训练的有偏模型往往在较少呈现的类上表现不佳。针对这一问题，研究人员提出了各种类别的重新平衡方法，这些方法可以分为两大类：一种是重新平衡方法[21，39]，另一种是重新加权方法[13，20]。一般来说，重采样方法主要是指对频繁出现的类进行欠采样[9]，对较少出现的类进行过采样[1]。然而，当涉及到小数据集时，欠采样方法往往会忽略大量的数据示例，这不仅会导致数据浪费，还会严重降低性能。而低频样本的过采样会导致重复采样样本的过拟合问题。重赋权法是对不同类别样本的预测损失赋予不同的权重，比重赋权法稍复杂直接的重新加权方法是使用不同类别的比例的倒数作为预测损失的权重，但是它们对整体性能具有显著的不利影响，特别是对于头类别。Lin等人[17]提出了有效样本数的概念，认为有效样本数对模型的性能影响最大Fo- cal Loss [18]也可以被视为重新加权方法，它降低了分类良好的示例的损失权重，并将训练集中在少量硬示例上，以提高硬示例的性能和整个数据集的平均性能。由于重分类方法容易出现过拟合和性能下降的问题，我们提出利用预测概率分布和估计概率分布之间的相关性来重新平衡不同类的权重，重点训练硬样本，减少长尾偏差。3. 方法本文提出的PPDL无偏训练框架由两个主要模块组成：一个是有偏SGG，另一个是无偏训练损失函数。因此，在本节中，我们首先概述了有偏SGG的一般方法，然后描述了我们提出的基于SGG的无偏训练损失的谓词概率分布。19450人衬衫海滩轨道0.350.30.250.20.150.10.0500.350.30.250.20.150.10.050- -- -- -- -联系我们{|联系我们我Σ我ri，jrj，i我ri，jri，j我 Ji=1i是预测谓词概率，.ΣΣ长尾数据，使用交叉熵损失单词嵌入人衬衫滩轨道语义特征实体分类运动衫海滩预测概率特征细化在行走中穿着损失损失损失损失损失损失0.35关系分类Re- bala nceing0.30.250.20.150.10.050预测概率预测概率空间特征上下文建模人动态更新PPDM轨道穿着走进海滩衬衫输入图像和边界框探测器特性视觉特征场景图基于PPDL的无偏训练PPDM初始PPDM图3.PPDL无偏见培训框架说明我们使用对象检测器提取特征和建议，并将其馈送到特征交互模块中。图像特征迭代传播以捕获局部和全局上下文，然后由对象和关系分类模块进一步解码为有偏概率。我们将PPDM初始化为单位矩阵，然后在训练过程中迭代更新。同时，根据每个谓词的预测概率分布与对应的估计概率分布的相似性，重新平衡交叉熵损失，最终得到无偏场景图。最好用彩色观看3.1. 场景图形生成如图3、SGG方法通常由两个主要模块组成：对象实体检测和关系分类。通常，给定输入图像I，对象实体检测旨在获得每个对象的视觉特征x in、边界框B=bin以及检测到的对象实体的初步标签L=l in，其中n表示输入图像中检测到的实体的数量。如公式：“输入xi，li，bi输出fi“，可以获得一组对象特征F =f i n，并将其用于对象检测和随后的关系分类。关系分类旨在获得关系集R=r i，ji，j 1，2，.，在检测到的成对对象实体中。在判断对象i和对象j之间的关系时，关系特征由三个重要部分组成：对象特征fi和fj，实体对li和lj的标签嵌入，以及两个实体重叠区域的视觉特征xi，j。因此，关系特征fri，j可以被获得为公式：“输入{fi，f j，li，l j，xi，j } →输出{fr i，j }“。为了更好地捕获上下文，大多数现有的SGG方法使用RNN和图卷积来传播图像上下文并迭代地更新这些特征。更新后的对象特征ft+1和关系特征ft+1到目前为止，可以获得成对对象的关系三元组，并进一步组织成场景图。然而，由于不平衡的数据和有偏的训练策略，不同谓词的性能仍然是长尾的。在这项工作中，我们提出了一个基于谓词相似性的无偏损失，以消除模型训练过程中的长尾偏差。3.2. 基于损失的大多数现有的SGG方法总是在头谓词类中表现良好，但在尾谓词类中表现不佳然而，高频头部类，如如图1，很容易发现- ten的预测偏差发生在具有相似语义的两个谓词之间，例如，“对于特定的宾语对，语义相似的谓词在分类概率上更接近。例如，在图。2（b）中，“standing on“和“walking on“的预测概率这表明，在该示例中，偏置模型在区分“继续行走“、“继续站立“和“继续“方面很弱因此，可以定义为ft+1=G。ft，ftri，j，f tft+1=谓词，下面将详细解释其中G（·）和H（·）分别是对象和关系的特征交互层。之后，这些特征被馈送到相应的类中，fification头来预测对象和关系标签。输出模块可分为两个解码器，3.2.1无偏训练损失函数交叉熵损失通常用于SGG模型，可以描述为LCE=−myi log（pi），其中p我和y可以表示为P o=D对象。fT和Pr=F不ri，j，其中T表示最后一次迭代。表示为one-hot向量，m是谓词类别的数量。由于.Σiii，jD谓词19451·G·W ∈联系我们B {} ∈L {}S {} ∈B← {∈ B|}← ×··RW·第十七章PPDM′←1L（x）;“我更喜欢”头等舱。因此，为了调整优化方向，集中训练尾谓词类，一些研究者根据不同谓词的频率重新加权损失。然而，如前所述，现有的重加权方法严重削弱了高频关系的性能。为了找到一种合适的方法来度量关系谓词之间的相似性并调整损失函数的重加权，我们提出将每个谓词类表示为具有谓词类别维度的预测概率分布我们选择被有偏模型正确预测的谓词，并平均然后，PPD可以表示如下：算法1PPDM更新算法和训练期间基于PPD的丢失再平衡策略。要求：训练数据集D;初始PPDM0;权重向量平衡参数β;动量α;交叉熵CE（）。确保：无偏模型（）;估计PPDM T。1：设t= 0;第二章：将PPDM0初始化为单位矩阵;3：对于t1，2，3，...，N时期：do4：将混洗数据集D设置为Dt;5：f或每个最小批次=（xi，pi） Dt：do6：将g（xi）设置为关系i的预测的有偏概率;|B| ×K;8：Set =li作为分类谓词的无偏损失; 9：对于每个谓词概率g（xi）：do10：对于每个预测类r∈ Rgt，Rgt∈RK：dor11：s（pi，r）=EDi1;1PPD=P（x|p = y）（1）12：结束（g（x），PPDMt−1，r）+1RN（x，y=r）∈D13：′（xi，pi）pi=argmax（s（pi，r））;r，r∈Rgt14：li=CE（g（xi））+β×θ（pi，Rgt）×（W·CE（g（xi）;其中x和N是图像的视觉特征以及数据集中正确预测的关系的数量，py表示有偏差的预测谓词和基础15：结束16：f或每个谓词类s∈{1，2，3，...，K}：做真值分别为1和P（x|p = y）表示预测的R18：结束|B′|（x，p=r）∈B′有偏模型正确预测的关系的概率分布。此外，我们还可以计算出19：PPDMtα PPDM20：结束21：结束+（1−α）？PPDMt−1;利用两个PPD之间的欧氏距离（ED），并利用它的互易性来表示两个谓词之间的相似性.这个过程可以表示如下：1二十二：返回模型G（·）和PPDMT;对头部类的性能损害对于θ（pi，Rgt），s（pi，r）=ED（g（xi），PPDr）+1（二）我们可以自适应地对与相应的地面实况不其中s（pi，r）是关系i和预测r之间的相似性，xi，g（）是关系i的特征和预测概率生成函数。ED（）表示两个概率分布的欧氏距离结合两个PPD之间的相似性和基于频率的重加权方法，我们提出了一个二值化函数θ（pi，gt），它表示为方程：3.确定是否重新称量损失，预测概率分布，并设置损失权重对于正确预测的谓词为零。因此，我们提出的基于预测概率分布的损失只关注有偏的预测关系，对高频谓词的性能造成的损害较小，其设计如下：LPPDL=θ（pi，Rgt）×（W ·LCE）（4）θ（pi，Rgt）=. 1，如果pir′，r′=argmax（s（pi，r））;r，r∈Rgt其中权重向量简单地由出现的每个谓词类的分数的倒数哪里0，否则。（三）Rgt表示所有同品种器械在数据集中，CE意味着交叉熵损失，并且意味着向量点积运算。此外，我们还引入了一个平衡参数β来平衡传统的类，并且arg max（s（pi，r））是一个r，r∈Rgt用于找到与预测的谓词概率分布具有最大相似性的谓词类r ′的数学函数。如果预测的谓词pi与最相似的谓词r′不同，则在预测关系i的谓词时可能存在预测偏差。传统的权重调整方法简单地根据不同谓词类别的出现频率对损失进行重新加权，忽略了正确预测的高频样本，而过于关注低频样本，导致尾类的过拟合，19452交叉熵损失和重新加权的损失。最终损失函数可以表示如下：L=LCE+β×LPPDL（5）3.2.2PPD的动态更新策略长尾数据不仅是由于注释者倾向于标注简单谓词造成的，也是由于不完全关系注释造成的。因此，由Equ. 1忽略了许多在数据集中正确预测但未注释的关系，19453BB← {∈ B|}不能完全消除长尾数据的影响。因此，我们建议选择最接近的预测谓词对应的估计谓词表示，而不是匹配地面实况。通常，如Equ.2、通过计算谓词预测概率分布的欧氏距离的倒数来评价谓词的相似性在此基础上，采用文献[5]中的动态更新思想，提出了一种PPDM估计的动态更新策略。如Al-出租m1所示，我们选择与相应的估计谓词概率分布相匹配的预测概率，并计算每个小批量的平均谓词概率分布，如下所示：′（xi，pi）pi= arg max（s（pi，r））（6）r，r∈Rgt其中“是满足上述标准的结果集合。如图所示7.可以用每批平均PPDM′和动量α来动态更新PPDM估计值，使最新估计值在更新过程中发挥更重要的作用PPDMt<$α×PPDM′+（1−α）×PPDMt−1（7）4. 实验4.1. 实验设置数据集。我们在常用的大规模视觉基因组（VG）基准上评估了我们的方法[14]，该基准由75k对象类别和40k谓词类别的108077个图像由于大多数关系类别包含的示例太少而无法支持训练，因此我们使用最常见的150个对象类和50个谓词类来训练模型，这些谓词类遵循了大量工作的设置[28，29，32，38，41]。选取5000幅图像进行验证，训练集和测试集分别占数据集的70%评估设置。 Xu等。[32]，我们在三种设置中训练和评估各种SGG模型：（1）谓词分类（PredCls），预测给定边界框和对象标签的成对对象的谓词，（2）场景图分类（SGCls），预测给定边界框的谓词和对象标签，（3）场景图生成（SGGen），预测仅使用输入图像的每对检测到的对象之间的谓词。由于传统的指标召回@K（R@K）不能反映长尾数据的影响，我们使用平均Re- call@K（mR@K）作为[3，28]之后的主要指标，它分别评估每个谓词类的 R@K 此外，Unconstrained和constrained mR@K分别用于表示多输出关系和单输出关系的语义丰富度。图4.几种方法在VG150数据集上的性能比较。给出了PredCls任务中头15和尾15谓词类的受约束R@100实施详情。根据之前的工作[3，28，41]，我们采用冻结的Faster-RCNN [22]作为对象检测器，其配备有ResNeXt-101- FPN骨架[17，31]并由Tang等人预先训练。[28]。对于SGG训练，我们采用Tang等人提出的场景图生成基准[27][28]，使用SGD作为优化器训练SGG模型。批次大小和初始学习率设置为12和0.01，用于三个评估设置。根据Tang等人的研究[28]，在验证后，学习率将衰减10倍。动量α和β分别设置为0.1和0.03 。所有实验都是使用 PyTorch 实现的，两个NVIDIA 2080 GPU用于训练。4.2. 与现有技术的设置. 为了验证我们提出的PPDL无偏训练方法的性能改进，我们用几个现有的有偏模型（例如，IMP+[32]，MOTIFS [41]，VCTree [29]），并将其与其他包含去偏策略的无偏SGG方法（例如，[28][29]定量结果。由于长尾数据分布，如表1，2和图。4、由于尾谓词类的不精确性，有偏模型的平均召回率严重下降，而我们的在表1中，PPDL比其他去偏置策略（例如，TDE、CogTree、EBML），但要付出较小的R@ K度量减少。VCTree+PPDL的mR@100在三个评价任务中分别比VCTree+TDE高18%、60.0%和20%。特别是，由于我们的方法是模型不可知的，它可以结合不同的模型的优点，并取得更好的性能。正如我们在表1和图中看到的。4、将TDE和PPDL结合使用比单独使用TDE和PPDL可以获得更好的性能。虽然PCPL方法优于我们的VCTreeVCTree+TDEVCTree+PPDLVCTree+PPDL TDE1.210.80.60.40.20召回@10019454∗同品种器械分类场景图分类场景图形生成方法mR@50/100R@50/100mR@50/100R@50/100mR@50/100R@50/100[12]第十二话9.8/10.559.3/61.35.8/634.6/35.43.8/4.820.7/24.5主题[41]14.0/15.365.2/67.17.7/8.235.8/36.55.7/6.627.2/30.3[29]第二十九话17.9/19.466.4/68.110.1/10.838.1/38.86.9/8.027.9/31.3[34]第三十四话35.2/37.850.8/52.618.6/19.627.6/28.49.5/11.714.6/18.6[26]第二十六话11.8 2.0 / 12.8 ↑2.3- /-6.8 1.0 / 7.2 ↑1.2- /-4.2 0.4 / 5.4 ↑0.6- /-IMP+PPDL24.8↑15.0/25.3↑14.839.5/39.714.2↑8.4/15.9↑9.925.8/26.79.8↑6.0/10.4↑5.618.5/19.4MOTIFS+TDE+ [28]MOTIFS+CogTree† [38]MOTIFS+EBML† [26]25.5 11.5 / 29.1 13.826.4 12.4 / 29.0 ↑13.718.0↑4.0 / 19.5 ↑4.246.2/51.435.6/36.8- /-13.1↑5.4 / 14.9 ↑6.714.9↑7.2 / 16.1 ↑7.910.2 2.5 / 11.027.7/29.921.6/22.2- /-8.2↑2.5 / 9.8 ↑3.210.4↑4.7 / 11.8 ↑5.27.7↑2.0 / 9.1 ↑2.516.9/20.320.0/22.1- /-MOTIFS PPDL32.2↑18.2/33.3↑18.047.2/47.617.5↑9.8/18.2↑10.028.4/29.311.4↑5.7/13.5↑6.921.2/23.9VCTree+TDE† [28]25.4↑7.5 / 28.7 ↑9.327.6↑9.7 / 29.7 ↑10.318.2 0.3 / 19.7 ↑0.326.7 2019年10月18日，2019年10月18日，47.2/51.644.0/45.4- /-- /-12.2↑2.1 / 14.0 ↑3.218.8↑8.7 / 19.9 ↑9.112.5 2.4 / 13.5 ↑2.718.2↑8.1 / 20.5 ↑9.725.4/27.930.9/31.7- /-- /-9.3↑2.4 / 11.1 ↑3.110.4↑3.5 / 12.1 ↑4.17.7 0.8 / 9.1 ↑1.19.7 2.8 / 11.6 ↑3.619.4/23.218.2/20.4- /-- /-VCTree+CogTree† [38]VCTree+EBML+ [26]VCTree+TDE EBML† [26]VCTree +PPDLVCTree+TDE PPDL33.3↑15.4/ 33.8↑14.433.0 15.1 /36.2↑16.847.6/48.041.6/43.621.8↑11.7/22.4↑11.620.2 10.1 / 22.0 ↑11.232.1/33.024.8/26.211.3↑4.4 / 13.3 ↑5.312.2↑5.3/14.4↑6.420.1/22.913.6/16.5表1.PredCls、SGCls和SGGen任务的约束R@K和约束mR@K的比较†表示绩效由相应的论文报告表示模型在我们的实现设置下被重新实现↑表示与相应的基础模型相比的性能改进表2和表3中的†和具有相同的含义。同品种器械分类βmR@20mR@50mR@1000.0125.631.231.90.0228.731.932.90.0329.233.033.60.0429.632.533.30.0529.932.733.2表2.三项评估任务中无约束mR@K的比较第二个最大值加下划线。同品种器械分类类型方法R@50/100mR@50/1001基线‡65.8/67.417.1/18.42PPDL系列48.7/49.331.6/32.334PPDL（w/o θ（·））PPDL（w/θ（·））47.1/46.547.6/48.032.9/33.833.3/33.8表3.我们方法的消融研究。给出了VCTree模型在PredCls任务上的约束R@K和约束mR@K。表示使用PPDL进行模型训练，不使用动态更新策略。使用交叉熵损失训练基线模型。方法在PredCls任务上，我们的方法在SGCls和SGGen任务上实现了更高的mR@K。与PCPL方法通过谓词表示之间的距离来度量谓词相似性不同，我们的方法利用动态估计的谓词概率表示来判断预测偏差。因此，我们推测PPDL较少依赖于地面真实标签。而这处房产...表4. VCTree [29]模型上的β消融研究。提供了PredCls任务的受约束mR@20/50/100增强了PPDL在SG-Cls和SGGen任务中相对于PCPL方法的优势。此外，如表1所示，有偏方法的R@50/100（例如，IMP [16]，MO-TIFS [41]，VCTree [29]）比去偏方法（例如，CogTree [38]，TDE [28]，EBML[26]，PCPL [34]）和我们提出的PPDL。然而，与最先进的去偏置策略相比，例如，CogTree和TDE，PPDL在三个子任务中的R@K度量上实现了更好或相当的例如，在MOTIFS模型的SGGen子任务中，我们的R@100分别比TDE和CogTree高18%和8%。如图4、PPDL显著提高了尾类的R@100，并在大多数预测类别上表现更好。这证明了我们的PPDL显着提高了尾类的性能，并有较小的和可接受的损害头类的性能。定性分析为了更好地展示PPDL对谓词语义增强的有效性，我们在图中提供了定性的例子。五、正如我们可以在底部两行的结果中观察到的，基线模型（VC树）将关系分类为粗粒度谓词（例如，“PredClsSGClsSGGen方法mR@50/100mR@50/100mR@50/100[12]第十二话20.3/28.912.1/16.95.4/8.0主题[41]27.5/37.915.4/20.69.3/12.9VCTree34.8/47.122.5/30.012.4/16.8[34]第三十四话50.6/62.626.8/32.810.4/14.4IMP+PPDL33.9/38.419.5/23.811.3/12.6MOTIFS PPDL41.8/46.622.5/25.915.5/18.8VCTree +PPDL43.3/47.027.9/31.315.1/18.3VCTree+TDE PPDL45.8/58.229.3/36.816.7/20.619455·自行车停在··−→树前头−→图5.PredCls子任务的定性结果顶部两行显示输入图像、用红色框指示的检测到的边界框以及地面实况场景图。下面两行分别显示了由VCTree基线模型和VCTree+PPDL方法生成的场景图由于空间限制，部分检测到的对象将从结果中删除。最好用彩色观看。更有意义和细粒度的谓词（例如，街道）。因此，很明显，我们的方法大大提高了基线方法，并有一个显着的贡献，对尾类的谓词分类。虽然我们的一些无偏结果（例如，tower）似乎与地面实况SG不同，但从语义的角度来看，我们预测的谓词要准确得多，也更有价值。4.3. 消融研究PPDL分析。如表3所示，我们对新提出的重新加权方法和基于PPD的类重新平衡策略进行了消融研究。类型1是使用上述实施设置训练的基线方法，类型2是动态更新策略的消融研究，类型3和类型4分别训练了具有PPDL损失的VCTree模型，不具有/具有二值化函数θ（）。具体而言，在类型3的整个实验中将θ（）设置为1，以消除θ（）的影响。通过类型1和类型4的比较，我们可以观察到PPDL确实有助于尾类的性能，mR@100 提高了 83% 。此外，与 3 型相比， 4 型的R@50/100 和 mR@50 分别增加了 1%/3% 这意味着，PPDL，作为一个有效的去偏置策略改编自重加权方法，可以在很大程度上保持头类的性能时，增加权重的损失的尾类。此外，在废除动态更新策略后，我们的方法可以得到在 PredCls 任务中， R@50/100 指标为 48.7/49.3 ，mR@50/100指标为31.6/32.3，表明性能的提高主要是由无偏损失贡献的，动态更新策略进一步提高了mR@K指标。分析β。我们用不同的β值进行实验，0.01到0.05之间的范围内，以判断不同的网损平衡超参数对模型性能的影响如表4所示，我们可以观察到PredCls任务的mR@K（20/50/100）随着β的增加而增加。当β值上升到一定程度时，模型的性能开始下降。因此，我们在模型训练中将β设置为0.03，可以达到更好的效果。5. 结论本文探索用估计概率分布来表示谓词的高层语义，并根据预测谓词与估计谓词的相似度对训练损失进行重新加权。借助谓词预测分布的动态更新策略，我们可以为每个谓词类估计一个更真实的谓词预测分布，更好地度量两个谓词之间的相似性。我们减少了长尾数据分布带来的偏差，并保持了头谓词类的性能，这导致所有谓词类的性能更加均匀此外，该方法是模型不可知的，并被证明可以提高各种有偏SGG模型的性能，证明了我们的PPDL方法的有效性。树钟附近塔自行车停在对街对挡风玻璃对具有总线女人站在人行道鸟吃食品房子的对建筑头盔对摩托车背后树座椅屋顶发动机板凳树钟自行车街对汽车对的挡风玻璃对具有女人鸟对对对房子附近塔总线人行道对对食品建筑对对树在...塔对发动机头盔摩托车街停在自行车背后树的有座位的具有屋顶板凳停在车树沿着挡风玻璃对具有鸟钟建筑女人走在坐对的背后总线对对停在沿着对人行道吃食品的的座椅房子有屋顶发动机头盔摩托车围栏背后树具有板凳无偏方法偏倚方法（VCTree+PPDL）（VCTree）输入图像地面实况19456引用[1] 乔纳森·伯德和扎卡里·利普顿。深度学习中重要性加权的效果是什么？国际机器学习会议，第 872-881页PMLR，2019年。3[2] 陈世哲、秦晋、彭王、齐武。如您所愿：使用抽象场景图对图像标题生成进行细粒度控制。在IEEE/CVF计算机视觉和模式识别会议论文集，第9962-9971页1[3] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在IEEE/CVF计算机视觉和模式识别会议论文集，第6163- 6171页二、三、六[4] Vincent S Chen ， Paroma Varma ， Ranjay Krishna ，Michael Bernstein，Christopher Re，and Li Fei-Fei.具有有限标签的场景图预测在IEEE/CVF计算机视觉国际会议论文集，第2580- 2590页3[5] Meng-Jun Chiou，Henghui Ding，Hanshu Yan，ChanghuWang，Roger Zimmermann，and Jiashi Feng.从有偏场景图中恢复第29届ACM国际多媒体会议论文集，第1581-1590页，2021年6[6] Vinay Damodaran、Sharanya Chakravarthy、Akshay Ku-mar 、 Anjana Umapathy 、 Teruko Mitamura 、 YutaNakashima、Noa Garcia和Chenhui Chu。理解场景图在视觉问答中的作用。arXiv预印本arXiv：2101.05479，2021。1[7] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，Handong Zhao，Xu Yang，and Gang Wang.通过场景图对齐的不成对图像字幕。在IEEE/CVF计算机视觉国际会议论文集，第103231[8] 顾久香，赵汉东，林哲，李胜，蔡剑飞基于外部知识的场景图生成与图像重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第1969-1978页3[9] 郭海翔、李怡静、尚雯婕、顾明云、黄远月、宫冰。从类不平衡数据中学习：方法与应用综述.专家系统与应用，73：220-239，2017。3[10] Roei Herzig 、 Amir Bar 、Huijuan Xu、Gal Chechik、Trevor Darrell和Amir Globerson。学习场景图到图像生成的规范表示。欧洲计算机视觉会议，第210-227页Springer，2020年。1[11] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集，第1219-1228页1[12] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索在Proceedings of the IEEE计算机视觉和模式识别会议，第3668-3678页，2015年。1、7[13] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE/CVF计算机视觉国际会议论文集，第8420-8429页3[14] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalan-Kang，Li-Jia Li，David A Shamma，et al.Visual genome ： Connecting language and vision usingcrowdsourced dense image annotations. 国际计算机视觉，123（1）：32-73，

下载后可阅读完整内容，剩余1页未读，立即下载