没有合适的资源?快使用搜索试试~ 我知道了~
1093553134767121413333ManDogSurfboard12194270堆叠混合注意力和组协作学习用于无偏场景图生成0董兴宁 1 , 甘田 1† , 宋雪萌 1 , 吴建龙 1 , 程远 2† , 聂立强 101 山东大学,2 蚂蚁集团0dongxingning1998@gmail.com, gantian@sdu.edu.cn, sxmustc@gmail.com0jlwu1992@sdu.edu.cn, chengyuan.c@antgroup.com, nieliqiang@gmail.com0摘要0场景图生成通常遵循常规的编码器-解码器流程,旨在首先对给定图像中的视觉内容进行编码,然后将其解析为一个简洁的摘要图。现有的SGG方法通常不仅忽视了视觉和语言之间不足的模态融合,而且由于有偏的关系预测而无法提供信息丰富的谓词,导致SGG远离实际应用。为此,我们首先提出了一种新颖的堆叠混合注意力网络,它促进了模态内部的细化和模态间的交互,作为编码器。然后,我们设计了一种创新的组协作学习策略来优化解码器。特别地,基于一个分类器对极不平衡数据集的识别能力有限的观察,我们首先部署了一组擅长区分不同类别子集的分类器,然后从两个方面进行合作优化,以促进无偏的SGG。在VG和GQA数据集上进行的实验证明,我们不仅在无偏度量上建立了新的最先进水平,而且与两个基准相比,性能几乎翻了一番。我们的代码可在以下网址找到:0https://github.com/dongxingning/SHA-GCL-for-SGG01. 引言0场景图生成 (SGG) [ 41 ]的目标是将所有对象及其两两关系组织成一个简洁的摘要图。作为中间的视觉理解任务,SGG可以为各种视觉和语言任务提供帮助,包括跨模态检索 [ 6 , 11 , 28],图像字幕生成 [ 2 , 10 , 51 ] 和视觉问答 [ 12 , 32 , 48]。然而,由于不足的模态融合和有偏的关系预测,SGG在实际应用中仍然远未令人满意。0† 通讯作者。0第1组0第2组0第3组0第4组0第5组0Visual Genome数据集中的50个谓词类别0训练集中的不平衡实例0模态内部细化0模态内部细化0模态间交互0视觉内容0语义线索0输入图像0图1. 促进无偏SGG的两个意图。 (1)对于不足的模态融合,我们旨在增强模态内部的细化和模态间的交互 (见图的右上角)。 (2)我们将极不平衡的数据集分成一组相对平衡的组,基于这些组我们为所有新添加的分类器配置分类空间 (见图的其余部分)。0尽管明显证明将语义线索 (对象类别名称的语言先验)融入视觉内容 (对象提议) 可以显著提高生成能力 [ 18 , 21],但最近的大多数方法 [ 17 , 26 , 30 , 31 , 42 , 43 , 46, 47 ]简单地通过直接求和或连接来融合这些视觉和语义特征,这限制了模型进一步推断它们的交互信息。为了解决视觉内容和语义线索之间这个未充分探索的不足的模态融合问题,我们旨在通过共同探索模态内部细化和模态间交互来加强编码器,如图1所示。为了实现这个目标,我们首先设计了自注意力 (SA) 单元和交叉注意力 (CA)单元来分别捕捉模态内部和模态间的信息。然后,我们将这两个单元组织成一个混合注意力 (HA)层,并堆叠多个HA层来构建编码器。提出的堆叠混合注意力 (SHA)网络可以充分探索多模态交互,从而提高关系预测性能。194280现有的SGG方法面临的另一个突出问题是由于长尾数据分布导致的偏置关系预测。由于只有少数几个头谓词(例如on,has)拥有大量和各种实例,它们会主导训练过程,并导致输出的场景图中只有少数有信息的尾谓词(例如riding,watching),这几乎无法支持广泛的下游任务。尽管已经提出了各种去偏置的方法[4, 29,37],但它们容易过拟合尾类并在头类上牺牲很多,导致另一个极端。从某种意义上说,我们推测这个困境的根源在于一个天真的SGG模型,无论是传统的还是去偏置的模型,只能区分训练实例数量相对相等的有限范围的谓词。0直观地说,由于单个分类器很难在合理的预测折衷中取得好的结果,我们可以将偏置谓词类别分成几个平衡的子集,然后引入更多的分类器来征服每个子集,并最终利用这些分类器共同解决这个挑战。为了实现这种“分割-征服-合作”的思路,我们提出了群体协作学习(GCL)策略,其中:1)首先分割:由于单个分类器足以区分平衡数据集中的类别,我们首先将所有谓词根据它们的训练实例数量划分为一组相对平衡的组,如图1所示。2)然后征服:我们借鉴了类别增量学习的思想[14],强制所有分类器遵循一个不断增长的分类空间,即每个分类器通过合并一个新添加的谓词组来扩展先前的分类空间。此外,我们设计了中位数重采样策略,为每个分类器提供相对平衡的训练集。基于这种群体增量配置,这些嵌套的分类器可以公平地处理其分类空间内的谓词,因此它们更有可能学习到区分性表示,特别是对于新添加的谓词组。3)最后合作:我们进一步利用这些分类器共同增强无偏关系预测,从两个方面进行。首先,我们提出了并行分类器优化(PCO)来联合优化所有分类器。这可以看作是一个“弱约束”,因为我们期望收集所有梯度能够提升每个分类器的识别能力。其次,我们设计了协作知识蒸馏(CKD)来确保先前学习到的区分能力能够很好地传递给后续的分类器。这可以看作是一个“强约束”,因为我们强制每个分类器模仿其前任的预测行为。通过采用这两个约束,我们有效地减轻了对尾类的过度惩罚,并弥补了对头类的欠拟合。0我们的工作有三个贡献:0•我们提出了一种新颖的堆叠混合注意力网络来加强SGG中的编码器,从而解决了未充分利用的模态融合问题。0•我们设计了群体协作学习策略来优化SGG中的解码器。特别地,我们部署了一组分类器,并从两个方面进行合作优化,从而有效解决了棘手的偏置关系预测问题。0•在VG和GQA数据集上进行的实验证明,当使用我们的模型无关的GCL时,我们不仅在无偏度指标上建立了新的最先进水平,而且与两个典型基线相比,性能几乎提高了一倍。02. 相关工作0场景图生成。SGG通过将视觉关系解码为摘要图形,为场景理解提供了一种高效的方法。早期的方法[5, 18, 19,21]主要致力于从各种模态中融合更多特征,但忽视了丰富的视觉上下文,导致性能不佳。为了解决这种不足,后来的方法采用了更强大的特征精炼模块来编码丰富的上下文信息,例如消息传递策略[17, 40],顺序LSTM[31,47],图神经网络[3, 46]和自注意力网络[20,26]。尽管在常规指标上性能有所提高,但它们预测的关系往往是琐碎且信息不足的,这是由于训练数据的偏见所致,几乎无法支持下游的视觉和语言任务。因此,各种方法[4,29,37]已被提出来解决偏见关系预测问题,包括采用重新采样[17]或重新加权[42]的去偏策略,从偏见中解开无偏表示[30],以及利用树结构来过滤不相关的谓词[43]。然而,这些方法容易过拟合尾部类别,对头部类别的牺牲较大。基于观察到单个分类器很难区分偏见数据集中的所有类别,并受到“分而治之”直觉的启发,我们提出了群体协作学习策略来指导解码器的训练。通过这种方式,我们不仅显著提高了对尾部类别的预测性能,而且有效地保留了头部类别学习到的区分能力,从而实现了合理的预测权衡。跨注意力模型。改进多模态融合[35, 36]和构建跨注意力模型[38,50]的研究在各种视觉和语言任务中越来越受到关注。例如,Yu等人[44]提出了深度模块化共同注意网络·································194290� 空间特征0� 初始对象0标签预测0� 视觉特征0(1) 提案网络0帽子男人衬衫马0语言模态0� � �0视觉0模态0� 视觉特征0�0精炼对象0(2) 对象编码器04层 堆叠混合注意力0(3) 对象解码器0男人0衬衫0马0预测的对象 � ′ 最终对象0标签预测0CA0� [�, �]0���(�)0SA0SA0� ′0最终对象0特征0(4) 关系编码器02层 堆叠混合注意力0(5) 关系解码器0群体协作学习0穿着0男人0衬衫 马0穿着0场景图0CA0SA0� ′ [�, �]0���(� ′)0FCFCFC0FC0FC0[� 0′ , � 0′]0� ��0� �→�0[ ,∙, ] 连接0���(∙) 获取嵌入0� �� 联合特征0� �→� 谓词预测0FC全连接层0SA自注意力单元0CA交叉注意力单元0FC0图2.SGG中常见流程的框架,包括五个关键组件。值得注意的是,我们改进了图中标为红色的三个关键组件。具体而言,我们提出了堆叠的混合注意力网络来增强对象编码器和关系编码器,还设计了群组协作学习策略来指导关系解码器的训练。0在VQA中,一些方法(如[20]和[21])通过完全建模问题词和图像区域之间的交互来实现多模态融合,Lu等人[22]提出了ViL-BERT来扩展BERT架构,用于联合预训练图像和文本。然而,在SGG中,很少有方法专门解决对象提议和其对应类别名称之间融合不足的问题。因此,我们提出了堆叠的混合注意力(SHA)网络,以促进内部模态的细化和跨模态的交互。知识蒸馏。知识蒸馏[9, 13,23]旨在将较大的深度网络的知识蒸馏到较小的网络中,广泛应用于各种任务,包括模型压缩[1, 34]、标签平滑[27,45]和数据增强[7,8]。需要注意的是,传统的知识蒸馏方法通常遵循一个教师-学生的流程。这两个网络在不同的时间步骤中进行优化,因为教师网络通常先可用。与这种模型到模型的范式不同,我们在添加了几个分类器之后,允许前面的分类器生成软标签作为约束后续训练的输出,从而建立了一种层与层之间的“知识传递”。03. 方法论03.1. 问题建模0SGG旨在生成一个高度概括给定图片I内容的摘要图G。为此,我们首先检测出图片I中的所有对象,表示为O ={oi}Ni=1。然后对于每对对象(oi,oj),我们预测它们的谓词pi→j。最终,我们以三元组的形式组织所有这些预测,构建场景图,可以表示为G = {(oi,pi→j, oj) | oi, oj ∈ O, pi→j ∈P},其中P表示所有可能的谓词集合。03.2. 总体框架0如图2所示,我们的框架基于典型的SGG方法[31, 42, 43,47]遵循的常见流程,即常规的编码器-解码器结构。ProposalNetwork实际上是一个预训练的对象检测器。给定一张图片I,它生成一组对象预测O ={oi}Ni=1。对于每个对象oi,它提供了一个视觉特征vi,一个边界框坐标的空间特征si,以及一个初始的对象标签预测li。对象编码器旨在获取进一步预测所需的经过细化的对象特征xi,计算方式如下:0xi = Enc obj([vi, FC(si)], Emb(li)), (1)0其中,Enc obj(∙)表示对象编码器,可以是任何特征细化模块(例如BiLSTMs [47]和GNNs [3]),[ , ∙ ,]表示连接操作,FC(∙)表示全连接层,Emb(∙)指的是预训练的语言模型,用于根据初始对象标签预测li获取oi的语义特征。对象解码器旨在根据经过细化的对象特征xi获取最终的对象标签预测l′i,计算方式如下:0l′i = argmax(Softmax(Dec obj(xi))), (2)0其中,Dec obj(∙)表示对象解码器,它是一个单层全连接层。关系编码器用于获取谓词预测的最终对象特征x′i,计算方式如下:0x'i = Enc rel([vi,xi],Emb(l'i)),(3)0其中,Encrel(∙)表示关系编码器,其与对象编码器具有相同的架构。关系解码器负责基于主体的最终对象特征预测谓词标签pi→j。(5)194300多头注意力0加和规范化0前向0前向0Q0V0多头注意力0加和规范化0前向0前向0加和规范化0加和规范化0K0QKV0X0Y0交叉注意力(CA)模块0自注意力(SA)模块0X01 → 模态102 → 模态2 一个SHA层0CA0CA0SA0SA0�(�)→ �(�+1)0�(�)→ �(�+1)0图3.单个堆叠的混合注意力(SHA)层由两种类型的注意力单元组成,即自注意力(SA)单元用于促进内部模态的精炼和交叉注意力(CA)单元用于促进模态间的交互。0oi和oj分别表示主体oi和对象oj,计算公式如下:0pi→j = argmax(Softmax(Dec rel(x'i,x'j,uij)),(4)0其中,Decrel(∙)表示关系解码器。我们还遵循[47]的方法,使用对象对(oi,oj)的并集特征uij来增强谓词预测。值得注意的是,我们改进了图2中标为红色的三个关键组件,以促进无偏的SGG。具体而言,对于对象编码器和关系编码器,我们提出了堆叠的混合注意力(SHA)网络来缓解模态融合不足的问题。对于关系解码器,我们设计了群体协作学习(GCL)策略来解决棘手的有偏关系预测问题。03.3. 编码器:堆叠的混合注意力0除了理解给定图像的视觉内容(对象提议)之外,鲁棒的关系预测还需要语义线索(指SGG中的类名)。不幸的是,SGG中的大多数方法仅通过直接求和或连接来融合这两种模态特征,这可能不足以挖掘潜在的模态间交互,从而导致次优的性能。为了解决这个问题,我们提出了堆叠的混合注意力(SHA)网络,它由多个SHA层组成。每个SHA层包含两个并行的混合注意力(HA)单元,每个HA单元由两种类型的注意力单元组成,即自注意力(SA)单元用于促进内部模态的精炼,交叉注意力(CA)单元用于建模模态间的交互。如图3所示,SA单元和CA单元都建立在基于注意力机制[33]的多头注意力模块和前馈模块之上。SA和CA之间的区别在于输入特征是否属于同一模态。最终,我们通过按顺序级联L个SHA层来构建SHA网络。对于第l个SHA层,特征传播过程可以表示为:0X(l)= SA(X(l-1))+C0Y(l)= SA(Y(l-1))+ CA(Y(l-1),X(l-1)),0其中,SA(∙)和CA(∙)分别表示自注意力和交叉注意力计算。对于第一个SHA层,我们将其输入特征X(0)=X和Y(0)=Y,其中X和Y分别表示原始视觉特征和语义特征。在获得最后一个SHA层生成的最终视觉特征X(L)和语义特征Y(L)之后,我们将它们相加得到精炼的输出,其中包含丰富的多模态交互信息。03.4. 解码器:群体协作学习0如前所述,当面对一个极度不平衡的数据集时,一个简单的SGG模型很难在所有谓词类上达到令人满意的预测性能。为了解决这个问题,我们的目标是部署几个擅长区分不同谓词子集的分类器,并组织这些分类器来共同解决偏倚的关系预测。基于这个“分而治之、合作”的意图,我们提出了群体协作学习(GCL)策略。如图4所示,GCL包含以下五个关键步骤:谓词类分组旨在将不平衡的数据集分成几个相对平衡的组,并为所有分类器配置分类空间。基于识别能力会受到偏倚数据分布的影响的观察,我们的目标是为每个分类器提供一个相对平衡的训练集,以便它能充分学习区分一部分谓词的表示。因此,我们首先按照它们的训练实例数量按降序对谓词类进行排序,得到一个排序后的集合Pall ={pi}Mi=1。然后,我们根据预定义的阈值µ将Pall划分为K个互斥的组{Pk}Kk=1。算法1总结了工作流程,其中Count(pi)表示指向谓词pi的训练实例的数量。算法1中的第3行确保对于每个组Pk,最大的训练实例数量不会超过最小数量的µ倍,因此Pk中的谓词共享相对相等的数量。0算法1:谓词类分组。0输入:一个按照数量排序的谓词集合Pall =0输出:K个互斥的组{Pk}Kk=1 1 设置cur = 1,k =1,P1 = {};02 for i ← 1 to M do03 if Count(pcur) > µ * Count(pi) then04 cur = i;05 k = k + 1;06 设置Pk = {};08 Pk = Pk ∪ {pi}09 end·······························································RelationshipFeature𝐱𝑗′𝐱𝑖′𝐮𝑖𝑗UnionFeatureSubjectFeatureObjectFeature[ , . , ]ϕki =(6)wkij = Softmax(FC([x′i, x′j]) ⊗ uij),(7)LP CO =1|Dk|�(oi,oj)∈DkLCE(yij, wkij),(8)LCKD =1|Q|�(m,n)∈Q1|Dn|)194310协作知识蒸馏 类概率预测 平衡样本准备 谓词类分组 并行分类器优化0∙∙∙0∙∙∙0∙∙∙0∙∙∙0真实标签0CELoss0CE Loss0CE Loss0Logit-2Logit-50∙∙∙0KL Loss ∙∙∙0∙∙∙0KLLoss0∙∙∙0∙∙∙0∙∙∙ ∙∙∙0KLLoss0∙∙∙0Logit-1Logit-1Logit-20∙∙∙0FC-10FC-20FC-50SoftMax0组0所有类别0数据0分布0∙∙∙0Group10Group1,20所有组0采样0Rate0数据分布0FC0图4.提出的群体协作学习(GCL)策略的示意图,包括五个关键步骤。值得注意的是,我们设计了两个优化机制,即并行分类器优化(PCO)和协作知识蒸馏(CKD),来共同指导关系解码器的训练。0然后,我们借鉴了类增量学习[14]的思想,并部署了一组分类器{Ck}Kk=1,这些分类器遵循一个不断增长的分类空间。除了第一个分类器C1之外,其他分类器应该能够识别先前和当前组的谓词类,即Ck中的分类空间为P'k =P1∪P2∪∙∙∙∪Pk。注意,我们只选择最后一个分类器CK来获得评估阶段的最终谓词预测结果。平衡样本准备旨在通过重新采样实例为进一步的联合优化提供几个平衡的训练集。对于每个将新添加的组Pk纳入先前的分类空间P'k-1扩展为P'k =Pk∪P'k-1的分类器Ck,我们希望它能充分学习区分谓词的表示,特别是在新添加的组Pk中。因此,对于组Pk中的谓词,我们应该保留其所有的训练实例以促进收敛。对于先前的分类空间P'k-1中的谓词,由于它们在原始数据集中有更多的样本,我们应该对它们的训练实例进行欠采样以避免偏倚的预测。为了实现这个目的,我们提出了中位数重新采样策略来执行重新采样操作。对于每个分类空间P'k,我们首先计算所有类别在P'k中的中位数数量Med(P'k)。例如,如果P'k按降序排序并包含9个谓词类,则中位数数量Med(P'等于Count(p5)。然后对于P'k中的每个谓词类pkk)i,我们计算采样率ϕki如下:0Count ( p i ) , 如果 Med ( P ′ k ) < Count ( p i) ,01 . 0 , 如果 Med ( P ′ k ) ≥ Count ( p i ) .0通过采用上述策略,每个分类器都将成为区分谓词的专家,特别是在新添加的组内。例如,由于我们会对第三组的实例进行欠采样,以训练第四个和第五个分类器,因此第三个分类器在区分谓词方面可能会取得更好的性能。0在分类器中,第三个分类器更有可能在区分第三组谓词时取得更好的性能,因为我们保留了该组的所有样本,让第三个分类器充分学习区分性表示。0类概率预测旨在将采样的实例解析为类概率对数,以进行进一步的损失计算和模型优化。对于通过中值重采样策略选择的对象对 (o i , o j ),在获取主体特征 x ′ i ,客体特征 x ′ j和它们的并集特征 u ij 后,由分类器 C k 生成的类概率预测w k ij 计算如下:0其中 �表示逐元素乘积。并行分类器优化旨在通过联合优化所有分类器来规范化最终分类器 C K 。在训练阶段,所有 K个谓词分类器的参数将同时进行优化,目标函数可以定义为:0K个0其中,D k 表示通过中值重采样策略选择的对象对集合,|∙|表示给定集合的长度,y ij 表示对象对 (o i , o j )的真实谓词标签,L CE (∙)是一个常规的交叉熵损失函数。并行分类器优化可以看作是群体协作学习的“弱约束”,因为我们期望从所有分类器中收集梯度能够促进最终分类器 C K的收敛。协作知识蒸馏旨在建立一种知识传递机制,以提升最终分类器 C K的无偏预测能力。如前所述,每个分类器专门用于区分谓词,特别是在新添加的组内。为了保留和转化这种学到的知识,以弥补对头部类别的欠拟合,我们提出了协作知识蒸馏(CKD),其目标函数定义如下:0( o i ,o j ) ∈D n L KL ( pm ij , p n ij ) ,LGCL = LP CO + αLCKD,(11)194320其中 Q 表示从分类器 C m 到分类器 C n ( m < n )的成对知识匹配集合。我们提供两种选择,即相邻和自顶向下策略,来配置集合 Q(这两种策略在图 6和参数分析中有说明)。请注意,分类器 C n 生成的输出 wn ij 包含了之前分类空间 P ′ m中不包括的新谓词类别,我们使用 � w n ij来表示通过切除增加的类别而得到的切片输出,以确保 � wn ij 与 w m ij 具有相同的维度。L KL ( ∙ )是一个常规的Kullback-Leibler散度损失,定义如下:0L KL ( p m , p n ) = −0l =1 w l m log p l m p ln . (10)0通过将分类器 C m 的先前谓词概率输出 w m ij作为软标签,CKD 强制当前分类器 C n 模仿 C m的预测行为,因此可以被视为“强约束”。最终,我们提出的群体协作学习(GCL)的目标函数是 PCO 和 CKD的组合,定义如下:0其中α是预定义的超参数,用于权衡总损失L GCL。通过使用这两种约束,我们有效地减轻了对尾部类别的过度惩罚,并补偿了对头部类别的欠拟合,从而在谓词预测过程中建立了一个合理的权衡。04. 实验04.1. 实验设置0数据集。我们在两个数据集上展示实验结果:VisualGenome (VG) [16]和GQA[15]。VG是SGG领域最广泛使用的基准数据集,由超过108,000张图像和2.3M个关系实例组成。按照之前的方法[3, 4,029-31, 40, 42, 43, 47,49],我们采用最广泛使用的VG150划分,其中包含最常见的150个对象类别和50个谓词类别。GQA是另一个视觉和语言基准,具有超过3.8M个关系注释。为了实现类似VG150的代表性划分,我们手动清理了一部分质量较差或含义模糊的注释,然后按频率选择了前200个对象类别和前100个谓词类别,从而建立了GQA200划分。对于VG150和GQA200,我们使用70%的图像进行训练,剩余30%进行测试。我们还按照[47]的方法从训练集中抽样了一个5K的验证集用于参数调整。0任务。为了全面评估性能,我们遵循三个常规任务:1)谓词分类(PredCls)通过使用给定的真实边界框和类别预测所有成对对象之间的关系;2)场景图分类(SGCls)通过使用给定的真实对象边界框预测对象类别及其成对关系;3)场景图检测(SGDet)检测图像中的所有对象,并预测它们的边界框、类别和成对关系。评估指标。根据[4, 17, 20, 29,30, 42, 43],我们使用平均召回率@K(mR@K)[3,31]来评估无偏的SGG,该指标计算每个谓词类别的平均召回率@K(R@K),对于由于极度无偏的数据集而导致的头部类别占主导地位的情况,mR@K可以公平地评估头部和尾部类别的性能,被广泛用作无偏评估指标。实现细节。我们采用预训练的Faster R-CNN [25]和ResNeXt-101-FPN[39]作为对象检测器,由[30]提供。我们使用Glove[24]获取语义嵌入。对象编码器和关系编码器分别包含四个和两个SHA层。我们将划分阈值µ设置为4,并采用自上而下的策略(每个分类器都被强制从其所有前任中学习预测行为,详见图6)构建成对知识匹配集Q。平衡优化目标的超参数α设置为1.0。我们使用Adam优化器进行网络优化,动量为0.9。对于所有三个任务,总的训练阶段持续60,000步,批量大小为8。初始学习率为0.001,我们采用与[30]相同的热身和衰减策略。我们使用一张RTX2080 Ti进行所有实验。04.2. 对比方法0我们声明,我们提出的方法不仅在生成无偏场景图方面非常强大,而且适用于各种SGG方法。对于前者,我们将其与最先进的方法进行比较,包括重现的IMP+ [40],KERN[3],GPS-Net [20],PCPL [42],重现的VTransE+[49]和BGNN[17]。对于后者,我们采用了两个典型的基准方法,即Motifs [47]和VCTree[31],以与其他模型无关的方法进行公平比较,例如Reweighting [4],TDE [30],CogTree [43],DLFE [4]和EBM[29]。表1和表2分别展示了在VG150和GQA200上进行的不同方法的性能。我们有以下几点观察结果:1)我们提出的SHA+GCL在所有三个任务上明显优于所有基线。据我们所知,我们的工作是第一个在PredCls的mR@50和mR@100上突破40%精度的,我们也实现了mR@100IMP+†-9.810.5-5.86.0-3.84.8KERN†-17.719.2-9.410.0-6.47.3GPS-Net†17.421.322.810.011.812.66.98.79.8PCPL†-35.237.8-18.619.6-9.511.7VTransE+13.617.118.66.68.28.75.16.88.0SG-CogTree22.928.431.013.015.716.77.911.112.7BGNN-30.432.9-14.316.5-10.712.6Motifs11.714.816.16.78.38.85.06.87.9Motifs + Reweightd14.317.318.69.511.211.76.79.210.9Motifs + TDEd18.525.529.19.813.114.95.88.29.8Motifs + CogTreed20.926.429.012.114.916.17.910.411.8Motifs + DLFEd22.126.928.812.815.215.98.611.713.8Motifs + EBMd14.218.028.88.210.211.05.77.79.3Motifs + GCL30.536.138.218.020.821.812.916.819.3VCTree13.116.718.19.611.812.55.47.48.7VCTree + Reweightd16.319.420.410.612.513.16.68.710.1VCTree + TDEd18.425.428.78.912.214.06.99.311.1VCTree + CogTreed22.027.629.715.418.819.97.810.412.1VCTree + DLFEd20.825.327.115.818.920.08.611.813.8VCTree + EBMd14.218.219.710.412.513.55.77.79.1VCTree + GCL31.437.139.119.522.523.511.915.217.50VTransE14.0 / 15.08.1 / 8.75.8 / 6.6VTransE + GCL30.4 / 32.316.6 / 17.414.7 / 16.4Motifs16.4 / 17.18.2 / 8.66.4 / 7.7Motifs + GCL36.7 / 38.117.3 / 18.116.8 / 18.8VCTree16.6 / 17.47.9 / 8.36.5 / 7.4VCTree + GCL35.4 / 36.717.3 / 18.015.6 / 17.8SHA19.5 / 21.18.5 / 9.06.6 / 7.8SHA + GCL41.0 / 42.720.6 / 21.317.8 / 20.1194330模型 PredCls SGCls SGDet0SHA 14.4 18.8 20.5 8.7 10.9 11.6 5.7 7.8 9.1 SHA + GCL (我们的方法) 35.6 41.6 44.0 19.6 23.0 24.3 14.2 17.9 20.90表1. 在VG150的PredCls、SGCls和SGDet任务上不同方法的性能比较,以mR@20/50/100(%)为指标。上标†表示该方法使用FasterR-CNN和VGG-16作为目标检测器,下标d表示该方法是模型无关的,并旨在解决SGG中的偏倚关系预测问题。0模型 PredCls SGCls SGDet0表2.在GQA200的三个任务上不同方法的性能比较,以mR@50/100(%)为指标。0在SGCls和SGDet任务上取得了最佳性能。2)Motifs+GCL和VCTree+GCL相对于Motifs和VCTree在所有三个任务上的平均召回率几乎提高了一倍。这表明所提出的GCL是模型无关的,可以大大增强无偏的关系预测。3)与Motifs+GCL和VCTree+GCL相比,SHA+GCL的性能明显提高。这表明所提出的SHA模块可以促进模态内部的细化和模态间的相互作用,从而导致更准确的预测。总之,SHA+GCL有效地解决了SGG中两个上述问题,即模态融合不足和偏倚的关系预测。04.3. 消融研究0如前所述,我们提出了堆叠的混合注意力(SHA)网络来改进对象编码器和关系编码器,并提出了群体协作学习(GCL)策略,该策略将并行分类器优化(PCO)作为“弱约束”和协作知识蒸馏(CKD)作为“强约束”,来指导解码器的训练。为了证明上述组件的有效性,我们在VG150上进行了各种消融模型的测试,如下所示:0• w/o-GCL:为了评估GCL的有效性,我们将关系解码器设为一层分类器,使用常规的交叉熵损失进行训练。0• w/o PCO&CKD:为了评估GCL中PCO的有效性,我们移除了PCO损失和CKD损失,仅在优化步骤中使用中位数重采样策略和常规0• w/oCKD:为了评估GCL中CKD的有效性,我们移除CKD损失,但保留所有分类器来计算PCO损失。0• w/o CA或w/oSA:为了评估SHA的有效性,我们在每个SHA层中移除交叉注意力(CA)单元或自注意力(SA)单元。表3给出了所有消融模型的结果。我们有以下几点观察:1)与w/o-GCL相比,SHA+GCL的性能几乎提升了一倍。0w/o - GCL18.8 / 20.510.9 / 11.67.8 / 9.1w/o - PCO&CKD35.2 / 37.420.1 / 21.214.6 / 16.9w/o - CKD39.3 / 41.722.0 / 23.216.5 / 19.0w/o - CA39.8 / 42.522.6 / 23.616.8 / 19.3w/o - SA39.2 / 41.522.6 / 23.717.5 / 20.1SHA + GCL41.6 / 44.023.0 / 24.317.9 / 20.900.20.40.60.81w/o-GCLSHA+GCLGroup-1Group-2Group-3Group-4Group-500.20.40.60.81w/o-CKDSHA+GCLGroup-1Group-2Group-3Group-4Group-5𝜇 = 3𝜇 = 4𝐺13𝐺23𝐺38𝐺46𝐺5𝐺610···𝐺14𝐺26𝐺39𝐺4𝐺512···𝐺14𝐺28𝐺3201910𝐺428···𝜇 = 5194340模型 PredCls SGCls SGDet0表3. 对VG150上提出的方法进行消融研究。0(a) 在VG150上,w/o-GCL和SHA+GCL的所有谓词类别的R@100。0(b) 在VG150上,w/o-CKD和SHA+GCL的所有谓词类别的R@100。0图5. VG150上50个谓词类别的PredCls的R@100。0此外,在图5a中,我们将w/o-GCL和SHA+GCL与所有谓词类别的R@100进行了比较。可以观察到,SHA+GCL明显提高了大多数谓词类别的性能,只在第1组和第2组的头部类别上有可接受的性能下降,显示出了生成无偏场景图的强大能力。2)与w/o-PCO&CKD相比,w/o-CKD明显提高了预测性能,证明了“弱约束”,即从所有分类器中收集梯度,有助于最终分类器的收敛。3)与w/o-CKD相比,我们在SHA+GCL中观察到明显的性能提升。此外,我们还比较了w/o-CKD和SHA+GCL在VG150上对每个谓词类别的详细精度。如图5b所示,CKD有效地防止了模型在头部类别上的牺牲,并且在尾部预测方面取得了可比较的性能。这表明,“强约束”,即知识传递范式,通过保留先前学到的判别能力有效地补偿了头部类别的欠拟合,并有助于实现合理的权衡。4)从表3的最后三行可以看出,当移除CA单元或SA单元时,性能明显下降。这验证了结合两种注意力机制可以有效缓解模态融合不足,从而实现更准确的预测。0模型 PredCls SGCls SGDet0µ 策略 mR 50/100 mR 50/100 mR 50/10003 相邻 40.0 / 42.4 22.5 / 23.4 16.8 / 19.2 4 相邻 41.0 /43.5 23.0 / 23.9 17.3 / 19.7 5 相邻 39.4 / 41.7 21.8 / 23.016.7 / 19.103 自顶向下 40.9 / 43.2 22.9 / 23.8 17.0 / 19.9 4 自顶向下41.6 / 44.0 23.0 / 24.3 17.9 / 20.9 5 自顶向下 39.7 /42.0 23.1 / 23.8 16.9 / 19.60表4. GCL在VG150上对阈值µ和成对知识匹配策略的参数分析。0不同组别划分中的谓词类别数量0相邻策略 � 1 � 2 � 3 � 40自上而下策略 � 1 � 2 � 3 � 40成对知识匹配策略0图6.根据阈值µ的三种平衡组划分配置的示意图(上),以及两种成对知识匹配策略的选择(下)。04.4. 参数分析0如前所述,阈值µ和组织策略将影响GCL的性能。如图6所示,对于前者,我们设置µ=3、4和5,分别得到6、5和4个组划分。对于后者,我们提供两种选择,即相邻和自上而下策略,它们的区别在于每个分类器是否可以从其最近的前任(相邻)或从所有前任(自上而下)学习知识。表4给出了性能比较,其中µ=4,自上而下策略是最佳组合。05. 结论0在这项工作中,我们指出了两个限制SGG实际应用的问题,即不充分的模态融合和有偏见的关系预测。为了解决这些问题,我们提出了堆叠的混合注意力网络和群体协作学习策略。通过这种方式,我们在无偏度量上建立了新的最先进水平,并提供了一种与模型无关的去偏方法。未来,我们计划探索更强大的群体划分方法,并设计更多的知识蒸馏策略。0致谢。本工作得到了中国国家自然科学基金(编号:62176137,U1936203和62006140)、山东省自然科学基金(编号:ZR2020QF106)、北京人工智能研究院(BAAI)和蚂蚁集团的支持。194350参考文献0[1] Haoli Bai,Jiaxiang Wu,Irwin King和Michael Lyu.通过交叉蒸馏进行少样本网络压缩.在AAAI人工智能会议论文集中,卷34,页码为3203-3210,2020年3月0[2] Shizhe Chen,Qin Jin,Peng Wang和Qi Wu.随心所欲地控制图像标题生成的细粒度控制.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码为9962-9971,2020年1月0[3] Tianshui Chen,Weihao Yu,Riquan Chen和Lian
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功