没有合适的资源?快使用搜索试试~ 我知道了~
The Visual Relationship Recognition (VRR) task goesbeyond recognizing individual objects by comprehensivelyunderstanding relationships between interacting objects ina visual scene. Owing to the enriched scene understandingprovided by VRR, it benefits various other vision tasks suchas image captioning (e.g., [10,46,47]), VQA (e.g., [15,40]),image generation (e.g., [16]), and 3D scene synthesis (e.g.,195070RelTransformer:基于Transformer的长尾视觉关系识别0Jun Chen 1 , Aniket Agarwal 1,2 , Sherif Abdelkarim 1 , Deyao Zhu 1 , Mohamed Elhoseiny 101. 沙特阿卜杜拉国王科技大学 2. 印度理工学院 {jun.chen,deyao.zhu,mohamed.elhoseiny } @kaust.edu.saaagarwal@ma.iitr.ac.in , sherif.abdelkarim91@gmail.com0在接球员和裁判后面0穿着护腿护具的接球员0穿着头盔的球员0player pla0holding0bat0player0在...前面0全局上下文0∙∙∙0bat player ?0S0O0S 主体 O 客体 注意力流0(a)(b)0图1.(a)给定一张带有几个注释对象的图像,目标是预测图像区域“player”和“bat”之间的视觉关系。“holding”特征通过注意力从全局上下文、主体和客体的所有三元组中聚合视觉特征。(b)它说明了我们的消息传递策略:我们通过注意力从全局上下文、主体和客体的所有三元组中聚合视觉特征到“holding”特征。上面的所有框表示相应的视觉特征。0摘要0视觉关系识别(VRR)任务旨在理解图像中相互作用对象之间的成对视觉关系。由于其组合性质,这些关系通常具有长尾分布。当词汇量变大时,这个问题变得更加严重,使得这个任务非常具有挑战性。本文表明,通过注意机制对有效的消息传递流进行建模对于解决VRR中的组合性和长尾挑战至关重要。所提出的方法名为RelTransformer,将每个图像表示为完全连接的场景图,并将整个场景重构为关系三元组和全局场景上下文。它通过自注意力将来自关系三元组和全局场景上下文中的每个元素的消息直接传递给目标关系。我们还设计了一个可学习的记忆模块来增强长尾关系表示学习。通过大量实验证明,我们的模型在许多VRR基准测试中表现出很好的泛化能力。我们的模型在两个大规模长尾VRR基准测试VG8K-LT(+2.0%整体准确率)和GQA-LT(+26.0%整体准确率)上优于最佳模型。它还在VG200关系检测任务上取得了强大的结果。我们的代码可在https://github.com/Vision-CAIR/ RelTransformer 上找到。0在视觉关系识别(VRR)任务中,不仅要识别单个对象,还要全面理解视觉场景中相互作用对象之间的关系。由于VRR提供了丰富的场景理解,它对于各种其他视觉任务(如图像字幕生成(例如[ 10 , 46 , 47 ]),VQA(例如[ 15 , 40]),图像生成(例如[ 16 ])和3D场景合成(例如01. 引言augment the relation representation with external persistentmemory vectors, as we will detail later.We showcase the effectiveness of our model on VG200[20] and two recently proposed large-scale long-tail VRRbenchmarks, GQA-LT [1] and VG8K-LT [1]. GQA-LT andVG8K-LT scale the number of relation types up to 300and 2,000 compared to only 50 relation types in VG200.These two benchmarks are highly skewed (e.g., the VG8K-LT benchmark ranges from 14 to 618,687 examples per re-lation type) and offer us a suitable platform for studyinglong-tail VRR problems. Our approach achieves the state-of-the-art on those three datasets in our experimental re-sults, demonstrating its effectiveness. We also conductedseveral ablative experiments and showed the usefulness ofeach component design in RelTransformer.2. BackgroundVisual Relationship Recognition. Correct visual relationprediction requires having a comprehensive understand-ing of the image contents, which guides many successfulworks in the literature. Early works employ RNN mod-els to construct a global context by aggregating the nodeand edge features via iterative message passing such as[14, 22, 39, 44, 50].e.g., VCTree [39] composes a dy-namic tree structure to organize the object orders and applyTreeLSTM [36] to aggregate features. There are also sev-eral graph convolutional network (GCN) [18] approaches[5, 21, 30, 45], which attempt to learn different importanceweights to the neighborhood nodes. Lin et al. [24] extendthe graph attention to also capture the node-specific con-textual information and encode the edge direction informa-tion. More recently, there is also emerging a Transformer-based approach [19], which models the pairwise interactionamong nodes and edges in two separate Transformer net-works. Our model differs from it mainly in two aspects:a) we have a different message-passing flow in which wespecifically aggregate relation features from the relation-triplet and global-context information. b) We further designan effective memory attention module for augmenting thelong-tail relation representation.Long-Tail Visual Relationship Recognition.Long-tailproblem is very severe in visual relation recognition (VRR)[1,24,51]. There are mainly two approaching directions toalleviate this problem. The first one is semantically guidedvisual recognition. In this case, language models [27] areemployed for zero-shot or few-shot recognition [11, 29].There are also several VRR works [1, 45, 48, 51] using thelanguage priors as a guidance to learn relation features,which can derive a better classification on long-tail classes.The second direction is to apply the strategies that havebeen designed for unbalanced object detection, includingvarious class imbalance loss functions (e.g. weighted crossentropy, focal loss [23], equalization loss [37]), sampling195080[ 31 ]). 然而,由于许多VRR数据集中类别分布不平衡[ 15 ,20],大多数现有模型的预测都被头部/频繁关系所主导,缺乏对尾部/低频关系的泛化能力。许多先前的方法将VRR问题描述为图形场景。流行的基于图形的方法使用长短期记忆[39 , 44 , 50 ]或图形注意力网络[ 24 , 45],通过迭代地将消息从其他直接或间接节点传递给关系,并利用图形的结构。然而,图形结构可能会隐式地限制关系集中在其附近的邻居上。最近的研究[ 2 , 43]观察到了这种现象,表明图形神经网络倾向于最关注局部周围节点,但无法从远距离节点中获得太多益处[ 2],如果有很多层,节点表示将变得无法区分[ 43]。这些问题在长短期记忆网络中也可以看到,因为它们具有迭代的消息传递学习性质。然而,目标关系也可以从远距离节点中获得很多益处。例如,在图1中预测“player”和“bat”之间的“holding”关系时,像“catcher”和“umpire”这样的远距离对象可以提供一个上下文,即“player”在一个棒球比赛中,这些可以帮助模型更好地预测“holding”关系。为了缓解上述问题,我们提出了将Transformer中最初引入的自注意机制应用于解决VRR挑战。自注意力可以被视为一种非局部均值操作[ 3],它计算所有输入的加权平均值。当应用于VRR问题时,它假设关系与图中的所有其他节点具有完全连接,并通过注意力直接在它们之间传递消息。与GNN/LSTM方法相比,这种策略可以使关系具有更大的注意范围,并且可以不受图形结构或空间约束的影响传递消息。它还避免了远距离节点的有价值信息被附近邻居压制。因此,每个关系可以有选择地关注其相关特征,而不受空间约束,并学习到更丰富的上下文表示,这可以有助于长尾视觉关系理解。在我们的方法中,我们将场景图重构为关系三元组和全局场景上下文,如图1所示。这里的关系三元组指的是目标关系及其相关的主体和客体,例如图中的 � player , holding , bat �。全局上下文表示为为每个出现的关系收集的所有关系三元组。我们直接将目标关系“holding”与关系三元组和全局上下文中的每个元素连接起来,并通过自注意力将它们的信息传递给目标关系。此外,由于长尾关系往往容易被遗忘,我们还提出了一种新颖的记忆注意力模块来增强长尾关系表示学习。通过大量实验证明,我们的模型在许多VRR基准测试中表现出很好的泛化能力。我们的模型在两个大规模长尾VRR基准测试VG8K-LT(+2.0%整体准确率)和GQA-LT(+26.0%整体准确率)上优于最佳模型。它还在VG200关系检测任务上取得了强大的结果。我们的代码可在https://github.com/Vision-CAIR/ RelTransformer 上找到。Layer 1Layer pLayer PRelationalEncoder𝑋! (3×D)Layer 1Layer lLayer LGlobal-Context Encoder…𝑋"#$(𝑁×3D)𝑧%𝑧&𝑧'Final Triplet PredictionRelationalEncoder Layer p𝑋()% (3×ℎ)𝑧% (𝑁×ℎ)…Meshed Attention Fusion……𝑋( (3×ℎ)sro 𝑋* (3×ℎ)SubjectClassifierRelation ClassifierObjectClassifiermanpicking upsuitcase𝑔(. , . )Self Attention…QueryKeyValueM+ (𝑚×ℎ)Memory AttentionQueryKeyValue+𝑧, (𝑁×ℎ)Word2Vec𝑋( (3×ℎ)sro…………195090sro sro0+位置嵌入0图2.我们的RelTransformer的架构。它包括一个多层全局上下文编码器和一个关系编码器。我们在左侧显示了一个关系编码层的详细操作,包括记忆注意力和网格注意力融合模块。0策略(例如欠采样[9]、过采样[13]和类平衡采样[33])、数据增强[1,49]、元学习[12,42]、反事实学习[38]、记忆模块[25]和解耦方法[17]。在我们的长尾VRR实验中,我们还利用语言模型和许多前述的长尾策略来更好地分类长尾关系类型。但我们重点是理解它们与我们的消息传递机制的协同效应以及它们如何影响头部和尾部的预测。03.方法03.1.问题定义0一张图像可以分解为一个场景图G = (N,E),其中每个节点(ni∈N)表示一个对象,每个边(ei∈E)表示两个相互作用对象之间的空间或语义关系。我们将主体ns和对象no之间的视觉关系表示为r。在视觉关系识别(VRR)任务中,目标是预测给定的ns和no之间的r。0yr = f(bs, bo, br, I) (1)0其中bs,bo和br分别是主体、客体和关系的边界框。br是通过bs和bo的最小包围区域获得的。yr是关系标签。I表示0任意信息,如图像原始RGB像素特征。f是推理模型。03.2. RelTransformer架构0RelTransformer主要由两个组件组成,一个L层全局上下文编码器和一个P层关系编码器。整体架构如图所示。02 .给定一张图像,我们首先通过更快的R-CNN检测网络[32]提取对象和关系特征。根据数据集中提供的空间或语义关系,将这些特征组合成三元组的元组(�s1,r1,o1�,...,�sN,rN,oN�),其中每个si,ri和oi∈R1×D,N是三元组的数量。我们首先将所有的三元组输入到一个多层全局上下文编码器中,以学习一个场景上下文化的表示。然后,我们集中于从关系编码器中的�si,ri,oi�的上下文中学习目标关系ri的表示。这里还引入了一个外部记忆模块来增强长尾关系表示。最后,我们采用网格连接(见图2)将全局上下文特征集成到关系表示学习中。全局上下文编码器。我们采用一个L层Transformer[41]来建模全局上下文信息并学习它们的成对关系。我们首先将(�s1,r1,o1�,...,�sN,rN,oN�)中的每个三元组连接在一起,形成一个紧凑的表示Xsro =(xsro1...xsroN),其中fsa(Q, K, V ) = softmax�(WqQkK)⊤d(6)195100Xsro∈RN×3D。然后,我们按照不变排列的顺序将Xsro输入到全局上下文编码器中。Transformer[41]是一个多头自注意力(MSA)和MLP层的堆叠。它的核心组件是自注意力,如Eq.2中定义的那样。在每个Transformer编码层中,多头自注意力多次重复自注意力,并将结果连接在一起;然后将结果投影回相同的维度。之后,将结果输入到MLP网络中,并产生每个层的输出。0√0WvV (2)0其中,Q、K和V∈Rt×h是查询、键和值向量,t是输入标记的数量,h是隐藏大小,d是缩放因子,Wq、Wk和Wv是可学习的权重参数。我们将Xsro输入全局上下文编码器,每个层l输出一个上下文化表示zl。我们将它们聚集在一起,得到Z=(z1,...,zL),其中zl∈RN×h。关系编码器具有多个功能:1)它通过自注意力特别聚合其所指的主体和客体的关系表示;2)它通过持久性记忆增强关系,提供“超出上下文”的信息,这对于长尾关系尤其有益;3)它还通过网状注意力模块将每个全局上下文编码层的输出聚合到关系表示中。具体的操作过程如下所述。我们首先为si、ri和oi的每个位置添加可学习的位置嵌入[8],以区分它们在输入序列中的语义差异,并将此序列表示为Xp−1在层p中。我们在每个层p上对Xp−1应用Eq.2中定义的自注意力,并对它们的成对关系进行建模。它们的结果将是Xattp,如Eq. 3所示。0Xattp = f sa(Xp−1, Xp−1, Xp−1) (3)0记忆增强。训练模型很容易忘记长尾关系,因为模型训练主要由实例丰富(或头部)关系主导,因此在低频关系上性能往往较差。此外,自注意力仅限于关注输入序列中的标记特征,因此每个关系仅学习基于即时上下文的表示。为了缓解这个问题,我们提出了一种新颖的记忆注意力模块,受到文献中几个成功的持久性记忆思想[35,53]的启发。我们将一组持久且可微分的记忆向量表示为M。每次关系将其特征传递给M并通过注意力从M中检索信息。这里的记忆捕捉到不依赖于即时上下文的信息。0相反,它在整个数据集中共享[35]。通过这种方式,长尾关系能够访问与自身相关的信息(例如来自其他关系或不同训练步骤中的自身),并且它们可以在训练良好的模型中增强目标关系的有用的“超出上下文”的信息。为了计算这个记忆,我们首先在每个关系编码层p中随机初始化m个记忆向量,表示为Mp∈Rm×h。然后,我们计算输入特征与Mp之间的记忆注意力,将Xp−1视为查询,M作为键和值。在Eq.4中应用相同的自注意力操作,我们可以得到Xmemp。记忆通过SGD直接更新。0X mem p = f sa(X p − 1, M p − 1, M p − 1) (4)0为了将Xmemp聚合到Xattp中,我们设计了一个融合函数g(x, y),如Eq. 5所示。g(x,y)是一个注意力门,确定如何有效地组合两个输入特征。它计算互补的注意力权重,并将它们加权组合为输出。通过这个融合函数与跳跃连接的组合,我们可以得到融合特征¯Xp= g(Xattp, Xmemp) + Xp−1。0g(x, 0α = σ(W[x; y] + b) (5)0其中,W是一个2D×D矩阵,b是偏置项,[]表示连接操作,⊙表示Hadamard乘积,J是一个与α具有相同维度的全1矩阵。Meshed AttentionFusion。来自不同全局上下文编码层的特征捕捉到不同的视觉粒度,利用所有层的特征要优于仅使用最后一个编码层的特征[4,7]。因此,在我们的模型中采用了网状连接,并将每个层的输出zl贡献给关系表示。为了计算网状注意力,我们首先计算¯Xp与(z1,...,zL)中的每个全局上下文编码输出之间的交叉注意力;它的注意力输出通过Eq.5与¯Xp融合。它们的结果在每个层上进行平均。然后,我们在MLP网络中投影平均输出,并通过跳跃连接计算最终融合的关系表示Xp,如Eq. 6所示。0zl p = f sa(¯Xp, zl, zl)0Xp = MLP(10L0l=1 g(¯Xp, zl p)) + ¯Xp0最终三元组预测。在关系编码器的最后一层P中,我们从Xp中提取主体xs、关系xr和对象xo。在预测阶段,我们根据先前的语言先验知识进行利用。195110VG8K-LT GQA-LT0架构学习方法许多中等少数所有许多中等少数所有0LSVRU VilHub [1] 27.5 17.4 14.6 15.7 63.6 17.6 7.2 11.7 LSVRU VilHub + RelMix [1] 24.5 16.5 14.4 15.4 63.4 14.98.0 11.9 LSVRU OLTR [25] 22.5 15.6 12.6 13.6 63.5 15.0 8.2 12.1 LSVRU EQL [37] 22.6 15.6 12.6 13.6 62.3 15.8 6.610.8 LSVRU Counterfactual � [38] 12.1 25.6 14.9 17.1 38.6 38.0 9.4 15.20LSVRU CE 22.2 15.5 12.6 13.5 62.6 15.5 6.8 11.00RelTransformer(我们的)CE 26.8 18.6 15.0 16.1 63.4 16.6 7.0 11.20LSVRU Focal Loss [23] 24.5 16.2 13.7 14.7 60.4 15.7 7.7 11.60RelTransformer(我们的)Focal Loss 30.5 22.8 14.8 16.8 61.9 16.8 8.3 12.20LSVRU DCPL [17] 34.3 15.4 12.9 14.4 61.4 23.6 7.6 12.70RelTransformer(我们的)DCPL 37.3 27.6 16.5 19.2 58.4 38.6 13.2 19.30LSVRU WCE 35.5 24.7 15.2 17.2 53.4 35.1 15.7 20.50RelTransformer(我们的)WCE 36.6 27.4 16.3 19.0 63.6 59.1 43.1 46.50表1.VG8K-LT和GQA-LT数据集中关系预测的平均每类准确率。我们评估了许多、中等、少数和所有类别的平均每类准确率。每列的最佳性能已经被强调。�表示我们的复现。学习方法包括各种类别不平衡损失函数、数据增强和反事实方法。我们的模型用灰色标记。0工作[51]中,我们使用Word2Vec[27]将每个真实标签表示为它们的嵌入,然后使用分类器中的2层MLP将它们投影到隐藏表示中。最后,在训练过程中,我们分别最大化它们与xs、xr和xo的余弦相似度。04. 实验04.1. 数据集0我们在VG200数据集和两个大规模长尾VRR数据集上评估我们的模型,分别命名为GQA-LT [1]和VG8K-LT[1]。GQA-LT。该数据集包含72,580个训练图像,2,573个验证图像和7,722个测试图像。总体上,它包含1,703个对象和310个关系。GQA-LT具有严重的“长尾”分布,每个类别的示例数量从仅1到1,692,068不等。VG8K-LT。它是从VisualGenome(v1.4)[20]数据集中收集的,包含97,623个训练图像,1,999个验证图像和4,860个测试图像。它总共涵盖了5,330个对象和2,000种不同的关系类型,其中最不常见的对象/关系只有14个示例,而最常见的对象/关系有618,687个示例。VG200。这个数据集在文献[44, 51,52]中已经广泛研究。它包含50种关系,与GQA-LT和VG8K-LT相比,该数据集的类别频率更加平衡。我们在实验中遵循与[51]相同的数据划分。04.2. 实验设置0GQA-LT和VG8K-LT基线。我们将RelTransformer与几种最先进的模型进行比较。最受欢迎的0此基准中的常规模型是基于LSVRU[51]框架实现的。为了改善长尾性能,基线模型通常与以下策略相结合:1)类别不平衡损失函数,如加权交叉熵(WCE)、均衡损失(EQL)[37]、焦点损失[23]和ViLHub损失[1]。2)关系增强策略,如RelMix[1],以增加长尾关系的示例。3)Decoupling[17]将学习过程分解为表示学习和分类。4)Counterfactual [38]通过反事实学习减轻了偏倚的场景图生成。5)OLTR[25]具有增强注意力的记忆模块。0VG200基线。我们与几个强基线进行比较,包括VisualRelationship Detection [26],Message Passing[44],Associative Embedding [28],MotifNet[50],Permutation Invariant Predication [14],LSVRU[51],relationship detection with graph contrastive loss(RelDN) [52],GPS-Net [24],Visual RelationshipDetection with Visual-Linguistic Knowledge (RVL-BERT)[6]和Relational Transformer Network (RTN) [19]。0评估指标。对于GQA-LT和VG8K-LT数据集,我们报告每类平均准确率,这在长尾评估中常用[1,17,37]。按照与[1]相同的评估设置,根据训练数据集中的关系频率,我们将关系类别分为多、中和少,如表1所示。对于VG200数据集,按照[34,51]中的先前评估设置,我们测量谓词分类(PRDCLS)的Recall@k和平均Recall@K,即在给定主体和客体的真实框和标签的情况下预测关系标签。195120模型PRDCLS R@20 R@50 R@1000VRD [26] - 27.9 35.0 Message Passing [44] 52.7 59.361.3 Associative Embedding [28] 47.9 54.1 55.4MotifNet (从左到右) [50] 58.5 65.2 67.1 PermutationInvariant [14] - 65.1 66.9 LSVRU [51] 66.8 68.4 68.4RelDN [52] 66.9 68.4 68.4 Graph-RCNN [45] - 54.259.1 VCTREE-SL 59.8 66.2 67.9 GPS-Net [24] 60.7 66.968.8 RVL-BERT [6] - 62.9 66.6 RTN [19] 68.3 68.7 68.70RelTransformer (我们的) 68.5 69.7 69.70表2. VG200数据集上的关系预测。04.3. 定量结果0GQA-LT和VG8K-LT评估。我们在表1中呈现了GQA-LT和VG8K-LT数据集的结果。相对于所有基线,添加RelTransformer明显改善了性能,特别是在中等和少数类别上。将RelTransformer与WCE相结合,相对于所有基线,GQA-LT的中等和少数类别的改进幅度约为20%。这种巨大的增益可以归因于应用WCE损失时对不同类别的加权分配。这进一步改进了对全局上下文中不同类别的注意权重分配,从而有助于整体性能。虽然以前的工作[38]通过牺牲头部类别的准确性来提高尾部性能,但RelTransformer在表中一致改善了尾部和头部,突显了我们模型的有效性。对于VG8K-LT,我们还可以看到在“多”、“中”和“少”类别上添加RelTransformer与所有基线相比的性能提升。当RelTransformer与DCPL[17]相结合时,可以看到约5%的显著改进,这在VG8K-LT数据集中表现最好。虽然我们在VG8K-LT数据集中添加RelTransformer时看到了一致的改进,但与GQA-LT相比,改进幅度显然较低,如表1所示。这是由于VG8K-LT的挑战性更大,其中包含2000个关系类别,而GQA-LT中只有300个类别。添加RelTransformer后的一些定性示例可在图5中看到。VG200评估。我们还在表2中对VG200数据集进行了评估。我们与许多不同的消息传递方法进行比较,包括基于RNN的[39,50],基于GCN的[24,45]和基于Transformer的[6,19]。这两种基于Transformer的方法要么只关注关系三元组上下文[6],要么忽略了关系上下文[19]。0模型方法PRDCLS mR@20 mR@50 mR@1000IMP CE 8.85 10.97 11.77 IMP EBM [34] 9.43 11.8312.77 Motif CE 12.45 15.71 16.8 Motif EBM 14.2 18.219.7 VCTREE CE 13.07 16.53 17.77 VCTREE EBM14.17 18.02 19.530我们的CE 18.51 19.58 20.190表3. VG200数据集上的平均Recall@K性能。0与它们完全不同[19]。我们的模型与它们不同,具有不同的消息传递策略、不同的上下文构建和一种新颖的记忆注意力。实验结果表明,我们的方法可以更好地利用关系特征,相对于最佳基线,我们在R@20上提高了0.2%,在R@50上提高了1.0%,在R@100上提高了0.9%。在VG200上的平均召回率@K。我们评估了VG200数据集上关系预测的平均召回率@k性能,并将RelTransformer与VCTREE和Motif等强基线进行了比较,这些基线使用了交叉熵损失和EBM损失[34]。结果总结如表3所示。我们观察到,RelTransformer在mR@(20, 50,100)上的表现都优于所有基线,仅与交叉熵损失相结合,这显示了它在其他数据不平衡的数据集上的鲁棒性。04.4. 进一步分析0为了更深入地分析我们的结果,我们量化了我们模型在每个类别上的改进,并在图4中进行了可视化。我们提供了RelTransformer和LSVRU在交叉熵损失下的对比。从图中可以观察到,RelTransformer可以在两个数据集上改进大多数类别。特别是,在VG8K-LT数据集上,RelTransformer在173个关系上有所改进,而只有32个关系变差,其中大部分性能提升来自中等和少数类别。GQA-LT和VG8K-LT组合预测。组合预测是主语、关系和宾语的正确预测。由于其组合性质,这可能导致更倾斜的长尾分布。为了评估我们模型的组合行为,我们按照[1]的方法将分类结果按照(主语, 宾语)、(主语,关系)和(宾语,关系)的配对进行分组。结果如表4所示,与基线相比,我们可以看到所有类别的性能都有明显的改进。但我们还观察到,无论是RelTransformer(CE)还是LSVRU(CE),在许多类别中都比与焦点损失和WCE相结合的结果表现更好,这与仅预测关系的结果不同。主要原因是这些类别不平衡损失对主语/宾语的“头部”性能造成了更大的伤害。ManyMediumFewMany MediumFew+4.6+3.1+2.4+0.8+1.1+0.2ManyMediumFewMany MediumFew-2.0-1.7-1.1-0.8-2.2-1.0195130许多中等少 架构 学习方法 SO SR OR SO SR OR SO SR OR0LSVRU VilHub 40.5 32.8 33.7 25.7 14.2 13.9 10.2 5.3 5.20LSVRU CE 38.6 30.3 31.5 21.8 11.3 10.8 7.5 4.3 4.2 RelTransformer CE 54.2 46.6 47.2 37.4 20.821.8 16.1 8.6 7.70LSVRU Focal Loss 39.2 31.1 32.3 23.2 11.9 11.5 8.2 4.3 4.2 RelTransformer Focal Loss 49.9 41.742.5 32.2 17.7 8.0 13.1 7.0 6.40LSVRU WCE 18.3 17.3 17.2 13.7 9.4 9.4 7.1 4.2 3.6 RelTransformer WCE 19.2 20.0 19.5 15.7 13.613.5 10.3 8.7 8.10表4. GQA-LT数据集上的关系三元组性能。SO = (主语, 宾语), SR = (主语, 关系)和OR = (宾语, 关系)。0VG8K-LT: RelTransformer与LSVRU对比0GQA-LT: RelTransformer与LSVRU对比0图3.RelTransformer与LSVRU[51]基线在VG8K-LT(上)和GQA-LT(下)数据集上的每类关系准确率比较。绿色柱表示RelTransformer相对于LSVRU的改进,红色柱表示变差,没有柱表示没有变化。左侧y轴表示每类示例的数量。右侧y轴显示绝对准确率改进。x轴表示按频率排序的关系类别。0没有全局上下文的RelTransformer与RelTransformer对比0没有记忆的RelTransformer与RelTransformer对比0图4.RelTransformer与没有全局上下文编码器和记忆注意力的版本在CE损失下的每类准确率比较,参见表5。0与CE相比(见补充材料),这些结果在组合预测中得到了体现。0模型 损失 准确率 多类 中等类 少数类 所有类 100 300 1,6002,0000完整模型 CE 26.8 18.6 15.0 16.1 � 全局 CE 24.8 16.9 13.914.8 � 记忆 CE 26.0 16.4 14.0 15.00完整模型 Focal Loss 30.5 22.8 14.8 16.8 � 全局 Focal Loss28.9 19.8 13.3 15.1 � 记忆 Focal Loss 30.1 20.8 14.2 15.90完整模型 DCPL 37.3 27.6 16.5 19.2 � 全局 DCPL 36.1 25.415.7 18.2 � 记忆 DCPL 37.0 26.8 16.1 18.80完整模型 WCE 36.6 27.4 16.3 19.0 � 全局 WCE 35.6 24.515.2 17.6 � 记忆 WCE 36.5 27.2 16.0 18.70表5.在VG8K-LT数据集上对RelTransformer进行消融研究。全局和记忆分别表示全局上下文编码器和记忆注意力模块。�表示移除操作。我们的默认设置用灰色标记。04.5. 消融研究0为了量化每个组件对整个模型性能的贡献,我们在VG8K-LT数据集上对我们的Rel-Transformer进行了不同版本的消融研究,如表5所示。我们选择了VG8K-LT而不是GQA-lT,因为它更具挑战性,涵盖了更多的类别。全局上下文编码器的作用。为了研究全局上下文编码器的效果,我们消融了没有学
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功