没有合适的资源?快使用搜索试试~ 我知道了~
15404- -学习视觉关系:魔鬼在尾巴里Alakh Desai*1,Tz-Ying Wu*1,Subarna Tripathi2,and NunoVasconcelos11加州大学圣地亚哥分校,美国2英特尔实验室,美国摘要最近已经投入了大量的精力来建模视觉关系。这主要解决了架构的设计,通常通过添加参数和增加模型的复杂性。然而,视觉关系学习是一个长尾问题,由于联合推理的组合性质的群体的对象。增加模型的复杂性,在一般情况下,不适合长尾问题,由于其倾向于过拟合。在本文中,我们探讨了另一种假设,表示魔鬼在尾巴。在此假设下,通过保持模型简单但提高其处理长尾分布的能力来实现更好的性能。为了验证这一假设,我们设计了一种新的方法来训练视觉关系模型,这是受到最先进的长尾识别文献的启发。这是基于迭代解耦训练方案,表示为用于尾部魔鬼的解耦训练(DT2)。DT2采用了一种新的采样方法,交替类平衡采样(ACBS),捕捉视觉关系的长尾实体和谓词分布之间的相互作用。结果表明,一个非常简单的架构,DT 2-ACBS显着执行更复杂的国家的最先进的方法场景图生成任务。这表明,开发复杂的模型必须与问题的长尾性质相结合。1. 介绍场景图提供了复杂场景的紧凑结构化描述和对象/实体之间的语义关系。建模和学习这样的视觉关系有利于几个高级视觉和语言任务,如标题生成[45,44],视觉问题回答[16],图像检索[20,34],图像生成[19,24,33]和机器人操纵规划[29]。场景*作者有相同的贡献。视觉关系机器人球踢模型产品知识知识图1.魔鬼在尾巴里:架构设计和视觉关系的学习过程需要考虑实体和谓词类分布的长尾性质。图形生成需要理解与实体相关的位置和类,以及一对实体之间的关系。一对实体之间的关系通常表述为<主题谓词object > tuple,其中subject和object是两个实体。场景图生成面临着长尾实体识别和视觉关系识别两方面的挑战。虽然长尾实体识别已经在文献[28,1,5,21]中得到了解决,但由于谓词分布的严重长尾性质,SGG任务 的 不 平 衡 变 得 更 加 普 遍 以 图 1 为 例 。 虽 然 主 语(“球”)的类是流行的,但宾语(“机器人”)和谓语(“踢球”)的类可能是不常见的,导致元组“机器人这表明,即使当实体类分布是平衡的,不平衡的预测类分布也会导致更不平衡的元组分布。当然,如果实体类和谓词类两者都是偏斜的(例如,实体类和谓词类都是偏斜的),则这种不平衡问题可能会加剧。“三脚架安装在驴上”)。长尾实体类和谓词类的结合使得SGG15405×个一个更具挑战性的问题。虽然长尾问题对SGG任务提出了很大的挑战,但它在SGG文献中没有得到很好的解决。现有的工作[48,43,3,32,49]反而专注于设计更复杂的模型,主要是通过添加增加模型大小的架构增强。虽然这使得能够在Recall@k(R@k)度量下实现令人鼓舞的性能,但是该度量偏向于高度流行的类。这表明先前的工作可能在流行的谓词类上过拟合(例如,on/has),但是它们的性能可能在较不频繁的类(例如,吃/骑)。这种偏向于填充类是有问题的,因为位于尾部的谓词通常提供场景内容的更多信息描述。预测尾部类的失败可能导致信息量较少的场景图,从而限制场景图对于预期应用的有效性。在本文中,我们探讨了假设,魔鬼是在尾巴。在这个假设下,视觉关系学习更好地解决了一个简单的模型,提高了处理长尾分布的能力。为了研究这一假设,我们首先分析了Visual Genome数据集中实体和谓词类的分布如图2所示,两种分布都严重偏斜,但幅度不同谓词分布的不平衡据我们所知,现有的SGG方法都没有考虑实体和谓词类的联合长尾分布。为了解决这个问题,我们提出了一种新的方法来视觉关系学习,基于一个更简单的架构比那些在 文 献 中 , 但 更 复 杂 的 训 练 过 程 , 表 示 在 尾 巴(DT2)。DT2是最近在长尾识别中流行的解耦训练过程的推广[21]。它由一个替代抽样方案组成,该方案可产生实体和谓词的平衡分布。这伴随着一种新的采样方案,交替类平衡采样(ACBS),它通过基于在采样迭代之间引入记忆的机制的无遗忘学习[26]的实现捕获两种不同长尾分布之间的相互作用,使用知识蒸馏。与DT 2,我们表明,一个简单的architecture与10少的参数显着优于形式之前,更复杂的,为SGG设计的架构,在mRecall@K度量,这是适合于测量长尾数据集的性能。不同抽样方案的消融研究以及对不同受欢迎程度类别的性能分析进一步验证了我们的假设。总的来说,本文做出了三个贡献。1)我们设计了一个简单的模型架构与解耦的训练计划,即DT2,适合于长尾SGG任务2)我们提出了一种新的抽样策略,交替类平衡抽样(ACBS),捕捉不同的长尾分布的实体和关系之间的相互作用。3)组合的DT 2-ACBS在视觉基因组基准上的所有SGG任务上显著优于更复杂架构的最先进方法。代码可在项目网站1上获得。2. 相关工作2.1. 场景图生成几项工作已经解决了图像的场景图的生成[46,42,47,14,38,41,48,43,25,9,10]。3、32、17、49、7]。大多数方法关注复杂的架构设计或上下文特征融合策略,例如消息传递和递归神经网络[48,32],以在Recall@K度量下优化Visual Genome数据集[22]上的SGG性能。虽然这些方法实现了高人口密度类的收益,代表性不足的类往往有更差的性能。最近,[3,31,42,37,23]开始通过使用更合适的评估指标mRecall@K来解决由数据集统计引起的学习偏差,该指标可以在类间平均召回值。为了解决数据集偏差,TDE [31]在预测阶段采用因果推理,而[37]使用伪连体网络来提取平衡的视觉特征,PCPL [42]利用谓词类之间的隐式相关性,并使用由许多堆叠编码器和注意力头组成的复杂图形编码模块。并行工作[23]引入了基于置信度的门控,具有双层数据重采样以减轻训练偏差。这些方法认为,最多,长尾分布的谓词或实体,并没有解开的复杂架构的采样的收益。例如,[42]提出了一个上下文特征生成器,通过6个堆叠编码器的图形编码,每个编码器有12个注意力头和一个前馈网络。我们认为,长尾分布应考虑实体和谓词,并表明,当这样做,更好的结果,可以实现一个更简单的架构。2.2. 长尾识别以前的工作在3个方向上解决了长尾问题:数据重新采样,成本敏感损失和迁移学习。数据重采样[12,10,51,11,8,2]是一种流行的策略,用于过采样尾部(代表性不足)类和欠采样头部(填充)类。过采样可以通过复制样本或合成数据来实现[10,51,2]。虽然产生了更均匀的训练分布,但最近的作品[21,50]认为这种策略不适合像CNN这样的深度表示学习1http://www.svcl.ucsd.edu/projects/DT2-ACBS15406∈∈E∈∈∈Ei=1j=1|||×× ×我i=1i i=1[21]将表示学习与分类器学习解耦,在两个阶段中采用不同的采样策略,而[50]提出了具有混合采样策略的双流模型所提出的方法就是在这个方向上,因为我们考虑了实体和谓词类的不同分布,并采用不同的采样策略来训练不同的模型组件。成本敏感损失[6,5,1,27]根据类别频率[5,1]或难度[6,27]为不同样本的错误预测分配不同的成本。这是通过分配更高的权重或强制执行更大的利润率为样本较少的类来实现。权重可以与逆类频率或有效数量[5]成比例,并且可以通过元学习[18]进行估计这种重新加权策略最近被应用于场景图文献[42]以克服长尾分布。迁移学习方法将信息从头部类转移到尾部类。[35,36]学习从多镜头模型参数预测少镜头模型参数,并且[28]提出了用于知识共享的元存储器。[39]利用分层分类器在类之间共享知识。[40]为每个类流行度学习一个专家模型,并通过知识蒸馏将它们组合起来。3. 配方和数据统计在本节中,我们将回顾学习视觉关系的问题,并讨论其长尾性质。3.1. 定义场景中的视觉关系的推断通常被公式化为三阶段过程。场景中的对象/实体被检测、分类,并且最终推断出谓词形式的每对实体之间的关系。[20]用场景图来表达这些阶段。设C和P分别是实体类和谓词类的集合。每个实体e=(eb,ec)由边界框e b组成R4和一个类标签e cC.关系r=(s,p,o)是一个三元组,通过谓词p P连接主语s和宾语o身份(s,o)。例如,人骑自行车。图像I的场景图G=(E,R)包含一组实体E={e i}m和一组关系R={rj}n图2.对象类(左)和谓词类(右)都是长尾分布在VisualGenome(VG150)中。称为场景图检测(SGDet)。然而,因为边界框预测已经在对象检测中被广泛研究[30],所以可以简单地采用现成的检测器。这激发了另外两个任务:预测分类(PredCls),其中给出边界框和实体类,以及场景图分类(SGCls),其中仅已知边界框。3.2. 长尾视觉关系长尾分布是自然界的一个主要特征,不同的类别以非常不同的频率出现。例如,虽然一些实体类(例如,椅子)经常发生,其他的(如驴)则很少发生。长尾是有问题的,因为在标准损失函数和评估度量下,它们促使机器学习系统在少数头部类上过度拟合,而忽略大量尾部类。最近的工作[28,5,50,21]表明,当分布是长尾的时,不强调流行类的采样技术,给予罕见类更多的权重,可以引起非常大的识别增益然而,这个问题还没有被彻底考虑在视觉关系文学。考虑到实体和谓词上的视觉关系的组合依赖性,这有点令人惊讶由于实体是长尾的,因此实体对之间的关系具有甚至更偏斜的分布。例如,因为实体类然而,这并不是偏斜的唯一来源,因为即使当相关联的实体类很流行时,谓词也可能是罕见的,例如现在的演奏远不如以前流行。最后,即使当涉及频繁的实体和预测时,关系也可能是罕见的,例如。“汽车有轮子”的关系比“汽车有照相机”的关系更可能。由于所有这些原因,很长的尾巴是不可避免的视觉关系。这一点在从图像中提取。 这可以进一步分解划分为一组边界框B={e b}m、一组类标签Y={e c}m和一组关系R。广泛使用的Visual Genome [22]数据集。如图2所示,实体类和谓词类的分布都是长尾的对于实体,填充最多的类是35×从图像I生成场景图G自然地映射到概率模型Pr(G|I)=Pr(B|I)Pr(Y|B,I)Pr(R|B,Y,I),(1)其中Pr(B,I)是边界框预测模型,Pr(Y,B,I)是实体类模型,并且Pr(R,B,Y,I)是谓词类模型。三个任务的联合推断是比人口最少的地方大对于谓词,前者比后者大12,000(如果丢弃最不频繁的谓词类,则为5,000请注意,这远大于关系的阶乘性质所建议的实体类之间的比率的平方(1,225)。长 尾 的 问 题 是 加 剧 了 评 估 协 议 , 根 据 召 回 @K(R@K)措施,采用15407K·∈JJJJJJJJΣi(2)在大多数场景图文献中。这测量了在前K个预测中出现的地面真实关系三元组的平均百分比,并且与任何平均值一样,由最频繁的关系类支配。因此,它不会惩罚简单地忽略不频繁的解决方案此外,我们将ρ定义为具有温度τ的softmax函数的输出处的概率向量,并且其第i个条目被公式化为exp(wTf/τ)关系类。因为大多数作品,例如。[32,7,3],专注于设计更加复杂的网络架构ρi(f,W,τ)=K exp(wTf/τ),为了优化R@K性能,目前还不清楚是否所有正在完成的是对少数主导类的更强的过拟合(例如“on”)。出于两个原因,这是不期望的。第一,非频繁关系的数量远大于显性关系的数量。第二,虽然支配关系包括许多明显的上下文关系(例如,“car-has-wheels”),不常见的那些潜在地更具信息性(例如, “monkey-playing-ball”)。总之,对优化R@K的关注可能导致系统仅能够检测相对低信息内容的少数关系。其中f∈Rd是特征向量,W∈Rd×k是矩阵的k个权参数wk∈Rd.4.2.模型架构图3总结了Devil in the Tails(DT2)模型的解耦训练架构。这将实体编码器F(如图3的右侧部分所示)和谓词分类器H组合。DT2将边界框坐标Sb,ob[4]和对应的裁剪图像块Is和Io作为输入。然后,实体编码器F被应用于Is和Io两者,以提取一对主题-这个问题已经在最近的文献中被认识到,其中一些作品[3,31]已经开始采用mRecall@K(mR@K)度量,其首先对相同谓词类内的三元组的重新调用进行平均,然后对所有三元组的重新调用进行平均。对象特征向量fs{a,s},fo{a,s},其表示实体s,j和o,j的外观和语义。然后将这些与边界框坐标s b和o b的嵌入级联,并馈送到谓词分类器H。J J对所有谓词类执行类召回。虽然这是朝着正确方向迈出的一步,但仅在评估阶段考虑班级不平衡是不够的。相反,学习算法应该明确地解决这种不平衡。这导致了我们在这项工作中探索的另一种假设:魔鬼在尾巴里吗?或者,换句话说,一个简单的模型是否可以明确地设计来应对视觉关系的长尾性质,从而超越现有的模型?ing模型,这些模型要复杂得多,但忽略了这一点实体编码器和预测分类器的实现细节在下面详述。实体编码器F首先通过特征提取器映射实体e的图像块Ie,该特征提取器利用预训练的ResNet101 [13]的前三个卷积块来实现我们使用一个更快的R-CNN预训练,用于在常规采样下的视觉基因组上进行对象检测(所有图像都是均匀采样的)。 得到的特征向量fe为映射到两个特征向量fs和fa,其编码se。e e财产?为了研究这一假设,我们引入了一个解决方案,它使用的模型比最近提出的架构简单得多,但更复杂的采样技术,其使用的目标是长尾性质的视觉关系。4. 方法在本节中,我们将介绍所提出的网络架构、损耗和训练过程。4.1. 符号对于图像I中的关系元组rj=(sj,pj,oj),pj是智能和外观信息,通过两个不同的分支共享相同的架构。参数θ的语义分支 Fs(;θ)是用卷积层的堆栈(ResNet 101的最后一个卷积块)实现的。然后,它的输出被馈送到预测概率e¯c的softmax层[0,1]C,即e¯c=ρ ( Fs (fe;θ ) , We , τ=1 ) ,(3)其中We是实体分类器权重的矩阵,并且(2)中ρ的τ被设置为1。独热编码ec可以通过取ec的argmax来生成,然后将其映射到转换为语义特征向量fs∈R128,其中具有单个完全groundtruth谓词类,而s =(sb,sc)和ejjjoj=(ob,oc)是主体和客体实体,由连接层虽然语义分支原则上是suf-J J其相关联的边界框坐标(例如,s b)和地面实况实体类(例如,s c)。实体的边界框可以是地面实况坐标或来自检测模型的预测,这取决于感兴趣的任务(即,目标)。SGCl或SGDet)。对于边界框,对象的对应图像块Is和Io,以及足以将实体身份传达给网络的其余部分,但这不足以推断视觉关系。例如,图3中的“人”和“自行车”实体的检测这个问题通过引入外观来解决J J可以从图像I中裁剪对象。参数的分支Fa(·;),输出特征15408,, ,,,级联实体编码器谓词分类器实体编码器ee∈----∈KKKK���Ƹ图3. DT2的模型架构由实体编码器F(右)和谓词分类器H组成。向量fa∈R128,没有预定义的语义,简单地4.4.采样策略编码实体外观。最后,特征向量f{a,s}e同时将语义和外观封装在-和fs被级联成向量feR256,其表示实体E的外观和语义。谓词分类器将主语f s{a,s}和宾语f o{a,s}特征向量作为输入。然后,这些向量与由全连接层产生的主题b和对象b边界框的嵌入连接,以产生选择语义的联合编码f{a,s,b}∈R520,形成,建议在SEC的培训损失。4.3需要为长尾数据量身定制的补充抽样策略。该长尾问题主要在对象识别文献中被研究,其中图像块被馈送到具有参数Φ的特征提取器和具有权重矩阵W的(2)的软最大层ρ。一种流行的训练策略是使用不同的采样策略来训练s,o主体-客体斑块我和两个网络组件[21]。直觉告诉我们,如果-Io.谓词分类器H用小特征提取器H(.ψ),由每-表格降维 输入f {a,s,b}∈ R520首先是由于大部分网络参数在特征提取器(φ)中,这应该用最大可能的数据量因此,首先训练整个网络变成了256s,o- 维向量与完全一致-使用标准随机采样(SRS),该采样连接层,接着是批归一化和ReLU层,其输出最终通过具有双曲正切非线性的全连接层,以产生最终特征向量这被馈送到softmax层以产生谓词类p¯=p ( fs,o , Wp , τ=1 )(4)其中Wp是谓词分类器的权重矩阵。4.3. 培训DT2使用针对实体和谓词分类的标准交叉熵损失进行训练。前者定义为n图像一致,独立于它们的类标签。虽然这产生了良好的特征提取器,但结果分类器通常过拟合到头部类,头部类由更多的图像表示并且在成本函数上具有更大的这个问题是通过在平衡分布上对网络进行微调来解决的,平衡分布是用类平衡采样(CBS)获得的。这包括在类上均匀采样,而不是图像,并保证所有类都以相等的频率表示。然而,因为来自尾类的图像比头类的图像更频繁地被重新采样,所以它带有对前者过拟合的一些风险。为了避免过拟合,微调限于softmax层的权重W。总而言之,网络的训练分为两个阶段。首先,参数φ和W被联合学习L=1Σ1 ΣLi=1ek∈Ei(ec,e´c)(5)其中,L_ce表示交叉条目损失,e_c是(3)的输出概率预测,并且e_c是来自图像Ii的集合Ei中的第k个实体的真实独热码。这是补充了一个谓词分类损失n4.5.视觉关系与长尾对象识别类似,分两个阶段训练视觉关系模型是明智的。在第一阶段,目标是学习有限元分析的参数θ,ψ,ψL=1Σ1ΣL(p,p¯)(6)真萃取器(参见第4.2),这是压倒性的predni=1 |Ri|ceK Krk=(sk,pk,ok)∈Ri大多数网络参数。在物体识别中,网络应使用SRS进行训练在秒-其中p¯k是公式(4)的输出概率,p k是图像I i中视觉关系集R i中第k个谓词的基础真值独热码。(5)和(6)都是重要的。保证网络可以从实体和谓词关系中学习。第二阶段,目标是微调softmax参数We和Wp,以避免过拟合到头部类。然而,与长尾对象识别不同,图2显示谓词和实体可以具有非常不同的分布,这使得长尾视觉关系的学习成为一个实体编码器,���Ƹ���EMBentnce|Ei|在SRS第二,特征提取器(Φ)是固定的,并且softmax层参数W用CBS重新学习。15409DP(PPPPL← L(5)+ αL(8);总kd←DD ← D Pent||ent算法一:ACBS培训程序输入:训练数据集、谓词分布p,实体分布e,ACBS超参数α,β,τs)和模型参数(θ,,ψ)。输出:模型参数(Wp,We)。而不收敛//P-Step(D,P);图4.ACBS捕捉长尾dis-binding之间的相互作用而Dp中的批处理茶通过实现P-步骤和E-步骤之间的知识蒸馏,实现了实体和关系的分配独特的问题。这表明需要两个类平衡的采样策略来适应谓词和实体类之间的分布差异。一个简单的解决方案是引入一个2步迭代训练过程,即实体优化步骤(E-步骤)和谓词优化步骤(P-步骤),以分别优化We和Wp在E步骤中,从相对于实体类均匀的分布e对而在P-步骤中,它们从相对于谓词类均匀的分布p中然而,由于p的均匀采样对于实体类不是类平衡的,因此P步骤将导致实体分类参数We的过拟合。为了解决这个问题,我们提出了一种新的采样策略,交替CBS(ACBS),专为长尾视觉关系。ACBS包含一个记忆机制来维持P步骤的实体预测,确保在E步骤中不会忘记所学的内容。它通过P步骤和E步骤之间的蒸馏[15]以及权重矩阵Wt的辅助教师实体分类器来实现。教师实体分类器与(3)中的权重矩阵We的实体分类器(其是其学生)并行地插入,并且产生第二组实体预测概率为e¯t=ρ(Fs(fe;θ),Wt,τ=1).(七)随着教师实体分类器的引入,我们将(5)重写为Lstu和Ltea,其中前者对LtotalLpred(6)+βLent(5);关于(Wp,Wt)最小化Ltotal端//E-Stepe平衡样本( 、e);当批处理进入edo时学生关于We最小化Ltotal结束结束固定.在E步骤中,Wp和Wt(教师)保持固定,We(学生)用Lstu和(8)优化。这实现了在两个步骤之间不遗忘的学习,鼓励学生分类器模仿教师分类器的预测,并使网络能够学习一个分布的新参数,例如。不忘记一个,例如。Wt,以前为另一个学习。训练过程在算法1中详细描述。5. 实验在本节中,进行若干实验以验证DT 2-ACBS的有效性。5.1. 数据集视觉基因组(VG)[22]由75k个对象类别和37k个谓词类别的108k个图像组成,但92%的谓词具有少于10个实例。在先前的工作之后,我们使用流行子集的原始分裂(即,VG150)进行培训和评估。它包含最常见的150个对象类和50个谓词类。分布仍然是高度长尾的。每-entCent不在训练期间形成平衡采样,谓词类(3)的e ′,后者作用于e′。此外,为了从教师实体分类器中提取知识,Kullback-Leibler散度(KL)损失(Lkd)定义为KL(ρ(Fs(fe;θ),We,τ=τs)ρ(Fs(fe;θ),Wt,τ=τs)),(八)其中,到Lkd的两个输入是具有温度τs的(3)和(7)的平滑版本。总之,P步骤分别用(6)和L_t更新谓词分类器的参数W_p和教师的参数W_t,而学生参数W_e保持不变少于5个实例,例如“飞进来”,都被忽略了。5.2. 与SOTA为了验证我们的假设,我们在mRecall@K度量下将DT 2-ACBS与VG [22如表1所示,比较的基线包括1)简单的基于频率的方法[48],2)用于上下文表示学习的复杂架构设计[41,3,32,46]和3)最近的作品P步老师CBSe步骤学生CBS15410表1. SGG任务(PredCls、SGCls、SGDet)的结果(mRecall@K)与场景图中的SOTA相比。其他方法的结果一般由相应的论文报道。†表示具有ResNet 101-FPN骨架的复制模型。方法同品种器械分类mR@20 mR@50 mR@100场景图分类mR@20 mR@50 mR@100场景mR@20图形检测mR@50 mR@100IMP+[41]-9.810.5-5.86.0-3.84.4频率[48]8.313.016.05.17.28.54.56.17.1主题[48]10.814.015.36.37.78.24.25.76.6主题[48]†科恩[3]13.2-16.317.717.519.27.1-8.89.49.310.04.9-6.76.48.27.3VCTree [32]14.017.919.48.210.110.85.26.98.0GBNet [46]-22.124.0-12.713.4-7.18.5TDE-MOTIFS-SUM [31]18.525.529.19.813.114.95.88.29.8TDE-MOTIFS-SUM [31]†TDE-VCTree-SUM [31]17.918.424.825.428.628.79.68.913.012.214.714.05.66.97.79.39.111.1TDE-VCTree-GATE [31]17.223.326.68.911.813.46.38.610.3PCPL [42]-35.237.8-18.619.6-9.511.7DT 2-ACBS(我们的)27.435.939.718.724.827.516.722.024.4表2.头、中、尾类SGG任务的mR@100†表示具有ResNet 101-FPN骨架的复制模型方法同品种器械分类头部(16)中部(17)尾部(17)场景图分类头部(16)中部(17)尾部(17)场景头(16)图形检测(17)第十七章:你是我的女人主题[48]†TDE-MOTIFS-SUM [31]†42.344.99.835.80.66.124.625.64.015.80.13.320.222.24.65.60.40.1DT 2-ACBS(我们的)35.145.238.624.629.128.622.326.724.0图5.SGCl上每类召回@100的比较类按样本数量的降序排序。解决谓词类的长尾偏差[31,42]。可以进行几次观察。首先,DT 2-ACBS在前两组中以较大幅度超过所有基线(mR@100增益大于15)。7%)的PredCls任务,其中实体边界框和类别。第三组中的基线[31,42]解决了同品种分布的长尾偏倚,在精神上与DT 2-ACBS相似。然而,后者依赖于更简单的模型设计和更复杂的解耦训练方案来克服过拟合。这使得1. 9%的改进mR@100(5%的相对改进),显示了所提出的采样机制在解决谓词分布中的长尾问题方面的有效性。接下来,当在给定真实边界框的情况下预测谓词和实 体 类 ( SGCls 任 务 ) 时 , DT 2-ACBS 以 更 大 的mR@100 裕 度 ( 1. 9% 对 PredCls vs 7. 9% , 相 当 于PredCl中5%相对于SGCl中40%的相对改善SGCls的这一显著改善表现为可以归因于ACBS的解耦训练,其更好地捕获实体和谓词的不同分布之间的相互作用。最后,我们还在由预先训练的Faster-RCNN为SGDet任务生成的建议框上运行DT 2-ACBS。表1显示DT 2-ACBS比现有方法表现出明显更大的mR@100裕度12。7%(>100%相对改善)的SGDet任务。按类别的性能分析:为了研究不同受欢迎程度的类的性能,我们将50个关系类按其频率排序,并将它们分成 3 个 相 等 的 部 分 , 头 ( 16 ) , 中 间 ( 17 ) 和 尾(17)。表2呈现了针对每个SGG任务在这些分区上的mR@100性能。如在先前的长尾识别工作[28,21]中所观察到的,在提高尾类性能的同时,头部类的性能下降是难以避免的。相反,目标是在所有类之间实现最佳平衡,DT 2-ACBS显然在中间和尾部类中进行了显着的改进。还应当注意,头部性能的下降可能是欺骗性的,这是由于像“wearing”和“wears”这样的数据集构造问题最重要的是,许多VG150尾部类别(例如 头类性能的一些下降我们注意到,其中一个高频谓词类On具有低召回值(图5),并且观察到DT 2-ACBS为-10,而不是预测其细粒度的子类别,例如站立,坐在,安装在。特别是有15411人行道上的女人有窗女衫男童运动鞋栅栏后面的男孩包对栅栏男孩穿衬衫图6. PredCls(左)和SGCls(右)的定性结果。在每个子图中,图像(左)中的边界框的颜色对应于三元组(右上)中的实体,背景颜色为绿色/橙色,用于正确/不正确的谓词预测。在生成的图(右下角)中,实体和谓词的正确/不正确预测分别以紫色/蓝色和绿色/橙色显示,其中在括号中注明了地面实况(以颜色查看更多示例见补充说明。表3.针对SGCl的不同采样策略的消融方法mR@20mR@50mR@100单级-SRS6.49.611.2单级独立CBS8.511.212.4DT 2-同品种器械-CBS10.013.014.3DT 2-独立CBS17.323.926.7DT 2-ACBS(我们的)18.724.827.5测试集中的On谓词的41,620个地面实况实例,并且DT 2-ACBS在PredCls上预测On-子类别14,317次,这构成了根据度量的34%的总体而言,DT 2-ACBS在SGG任务的中间和尾部类中表现得明显更好,并且在SGCl和SGDet的头部类上表现得相当,在所有类中达到最佳平衡。5.3. 采样策略SGCl的性能受到交织的实体和谓词分布的影响。在本节中,我们在表3中对1)单阶段与两阶段训练和2)不同的采样方案进行了消融研究表的前半部分示出了单阶段训练的性能,其中表示和分类器被一起学习。这显然低于两阶段训练,这在表的后半部分列出,其中我们比较了DT2第二阶段中的不同采样策略。对于谓词分类器,它可以基于SRS或谓词的类平衡采样(谓词-CBS)来训练。由于每个关系都带有主语和宾语,因此可以相对于谓词-CBS来训练实体分类器,这表明可以基于SRS、谓词-CBS或实体的类平衡采样(Entity-CBS)来训练实体分类器注意,谓词分类器不能用实体CBS训练,因为实体并不总是属于视觉关系元组。从表的后半部分,我们发现考虑谓词和实体中的分布差异是重要的,因为DT 2-谓词CBS(即实体和谓词分类器两者的谓词-CBS)的性能不如DT 2-Indep。CBS(即实体分类器的实体-CBS和谓词分类器的谓词-CBS)。观察者-DT2-Indep. CBS已经表现得比现有的方法(表1)支持我们的主张,即视觉关系可以有效地建模与一个简单的architec- ture,如果长尾方面的问题被认为是。然而,所提出的ACBS通过提取P步骤和E步骤之间的知识(参见算法1)来进一步改进SG-Cls性能5.4. 定性结果图6呈现了DT 2-ACBS的定性结果。在PredCls任务中,DT 2-ACBS可以正确地预测填充的谓词类(具有磨损)以及未填充的谓词类(行走)。DT 2-ACBS不仅对长尾谓词类具有鲁棒性,而且还能够对范围从更多填充类(男孩)到尾部类(运动鞋)的实体进行分类。我们可以观察到,虽然预测的谓词可以不同于基础事实,但是关系仍然可以是合理的(例如,地面实况的子类或同义词)。例如,预测谓词这些例子表明,DT 2-ACBS是能够预测更细粒度的谓词在尾类和提供的场景更令人兴奋的描述。6. 结论学习视觉关系本质上是一个长尾问题。现有的方法大多提出了复杂的模型来学习视觉关系。然而,复杂的模型是不适合的长尾问题,由于其倾向于过拟合。在本文中,我们考虑的唯一性的视觉关系,实体和关系有偏态分布。我们提出了一个简单的模型,即DT2,以及交替采样策略(ACBS)来解决长尾视觉关系问题。在基准VG 150数据集上的大量实验表明,DT2-ACBS显著优于更复杂体系结构的最新方法。致谢本工作由NSF奖项IIS-1924937、IIS-2041009和亚马逊的礼物资助15412引用[1] Kaidi Cao , Colin Wei , Adrien Gaidon , NikosArechiga,and Tengyu Ma.学习具有标签分布感知的边际 损 失 的 不 平 衡 数 据 集 。 在 神 经 信 息 处 理 系 统(NIPS)的进展,2019年。第1、3条[2] 放大图片作者:Kevin W.作者:Lawrence O. Hall和W.菲利普·凯格尔迈耶Smote:合成少数过采样技术.J. Artif.国际Res. ,16(1):321-357,2002年6月。二个[3] 陈天水,于伟豪,陈日泉,林亮。用于场景图生成的知识嵌入路由网络在计算机视觉和模式识别会议上,2019年。二四六七[4] 文 森 特 ·S. Chen , Paroma Varma , Ranjay Krishna ,Michael Bernstein,Christopher Re,and Li Fei-Fei.具有有限标签的场景图预测。在IEEE计算机视觉国际会议(ICCV)上,2019年10月。四个[5] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie.基于有效样本数的类平衡损耗。在IEEE计算机视觉和模式识别会议(CVPR),2019年。第1、3条[6] 齐东,龚少刚,朱夏天。用于不平衡深度学习的类校正硬挖掘。在国际计算机视觉会议(ICCV),2017年10月。3[7] ApoorvaDornadula , AustinNarcomey , RanjayKrishna,Michael Bernstein,and Li Fei-Fei.作为功能的视 觉 关 系 : 启 用 少 数 镜 头 场 景 图 预 测 。 CoRR ,abs/1906.04876,2019。二、四[8] 克里斯·德拉蒙德和罗伯特·霍尔特C4.5、类别不平衡和成本敏感性:为什么欠采样胜过过采样。ICML'03不平衡数据集学习研讨会论文集二个[9] 顾久香,赵汉东,林哲,李胜,蔡剑飞基于外部知识的场景图生成与图像重建。在IEEE计算机视觉和模式识别会议(CVPR)中,2019年6月。二个[10] 何海波、杨白、E. A. Garcia和Shutao Li。Adasyn:用于不平衡学习的自适应合成采样方法在2008年IEEE神经网络国际联合会议,第1322-1328页二个[11] Han Hui,Wen-Yuan Wang,and Bing-Huan Mao.边缘打击:一种新的非平衡数据集过采样学习方法。Advancesin Intelligent Computing,3644:878-887,2005年9月。二个[12] H. He和E. A.加西亚从不平衡的数据中学习。IEEETransactions on Knowledge and Data Engineering , 21(9):1263-1284,Sep. 2009. 二个[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR),2016年。四个[14] Roei Herzig、Moshiko Raboh、Gal Chechik、JonathanBe rant和Amir Globerson。将图像映射到场景图具有排列不变的结构化预测。CoRR,abs/1802.05451,2018。二个[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。六个[16] 德鲁Hudson和Christopher D.曼宁GQA:一个用于现实世界视觉推理和组合问题回答的新数据集。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。一个[17] Zih-Siou Hung,Arun Mallya和Svetlana Lazebnik。用于视觉关系检测和场景图生成的联合视觉平移嵌入。CoRR,abs/1905.11624,2019。二个[18] Muhammad Abdullah Jamal , Matthew Brown , Ming-Hsuan Yang,Ligiang Wang,and Boqing Gong.重新思考长尾视觉识别的类平衡方法域适应的观点。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。三个[19] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生 成 图 像 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,2018年6月。一个[20] J. 约翰逊河,巴西-地克里希纳,M。斯塔克湖Li,D.A.莎玛M. S. Bernstein和L.飞飞使用场景图进行图像检索。在2015年IEEE计算机视觉和模式识别会议(CVPR),第00卷,第36682015年6月。 第1、3条[21] Bingyi Kang,Saining Xie,Marcus Rohrbach,ZhichengYan,Albert Gordo,Jiashi Feng,and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。在国际学习代表会议(ICLR),2020年。一二三五七[22] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A.作者:Michael S.伯恩斯坦和李飞飞
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功