没有合适的资源?快使用搜索试试~ 我知道了~
3746爪子狗腿人衬衫树耳朵帽子爪子狗腿人衬衫树耳朵狗帽子狗狗人衬衫狗人衬衫狗腿人狗腿人狗人狗人具有穿着在前面的对背后已经坐在 已经穿着坐在对衬衫腿耳朵衬衫腿耳朵人狗人狗树帽子爪子树帽子爪子GPS-Net:用于场景图生成的图形属性感知网络新林1长兴丁1金泉曾1大成涛21华南理工大学电子信息工程学院2UBTECH悉尼人工智能中心,计算机科学学院,工程学院,悉尼大学,达林顿,新南威尔士州2008年,澳大利亚{eelinxin,eetakchatsau}@ mail.scut.edu.cnchxding@scut.edu.cndacheng. sydney.edu.au(b)边缘方向信息的影响具有穿着面前的的对坐在衬衫腿耳朵人狗树帽子爪子具有穿着面前具有的的对坐在衬衫腿耳朵人狗树帽子爪子(a)地面实况场景图(c)具有不同优先级的图节点(d)具有低频率的误分类关系图1:(a)一幅图像的地面实况场景图。(b)边的方向指定了主体和客体,也影响了关系类型和特定于节点的上下文。(c)节点的优先级根据图中包含的三元组的数量而变化。(d)关系的长尾分布会导致低频关系的错误,例如,未能认识到坐在。摘要场景图生成(SGG)的目的是检测图像中的对象以及它们的成对关系。在最近的工作中,场景图有三个关键属性未被充分探索:即边缘方向信息、节点之间的优先级差异以及关系的长尾分布。因此,在本文中,我们提出了一个图形属性传感网络(GPS-Net),充分探讨了这三个属性的SGG。首先,我们提出了一种新的消息传递模块,该模块使用节点特定的上下文信息来增强节点特征,并通过三线性模型对边缘方向信息进行编码。其次,我们引入了一个节点优先级敏感损失,以反映在训练过程中的节点之间的优先级的差异。这是通过设计一个映射函数来实现的,该映射函数在焦点损失中调整聚焦参数。第三,由于关系的频率受到长尾分布概率的影响,lem,我们通过首先软化分布,然后使其能够根据每个主体-客体对的视觉外观对其进行调整来缓解这个问题。系统实验证明了所提方法的有效性.此外,GPS-Net在三个流行的数据库上实现了最先进的性能:VG、OI和VRD在各种设置和指标下均大幅增长。代码和模型可在https://github.com/taksau/GPS-Net网站。1. 介绍场景图生成(SGG)提供了一个有效的,它是场景理解的一种方法,对各种计算机视觉任务提供有价值的帮助,包括图像字幕[1],视觉问答[2]和3D场景合成[3]。这主要是因为场景图[4]不仅记录了场景SGG具有穿着面前的的对坐在衬衫腿耳朵人狗树帽子爪子3747而且还表示对象的成对视觉关系。如图1(a)所示,场景图由多个三元组组成,其形式为主题关系-object>. 具体地说,对象被表示为节点,它的类别标签,关系的特征是两个节点之间的有向边,具有特定类别的谓词。边缘的方向指定了三重中的主体和客体由于关系表征的复杂性在现有的研究中,场景图的多个关键属性尚未得到充分探索,例如[5,6,7]。其中第一个是边缘方向。事实上,边缘方向不仅指示三元组中的主体和客体,而且还影响关系的类。此外,它还包含相应节点的上下文信息,如最近的作品[8,9]所示在图1(b)中描述了一个示例,如果人与其他对象之间的方向流被反转,则上下文的焦点将改变,并且因此影响所有相关节点的上下文信息。这是因为节点的重要性根据它们在图中包含的三元组的数量而变化。如图1(c)所示,腿、狗和人分别涉及图中的两个、三个和四个三元组。因此,考虑到每个节点对此场景图的贡献,对象检测的优先级应遵循以下顺序:人>狗>腿。然而,现有的作品通常平等地对待场景图中的所有节点。在这里,我们提出了一种新的方向感知的消息传递模块,利用边缘方向信息。通过使用以下策略提供特定于节点的上下文信息,首先,不是使用流行的一阶线性模型[10,11],而是采用基于Tucker分解的三线性模型[12]来产生引导消息传递的注意力图在三线性模型中,边缘方向影响产生的注意力分数。其次,我们增加了注意力地图与转置,以说明在消息传递步骤中的边缘方向的不确定性第三,采用Transformer层来细化所获得的上下文信息。之后,我们设计了一个节点优先级敏感的损失(NPS-loss)编码的场景图中的n-节点之间的优先级的差异。具体来说,我们通过调整焦点损失的聚焦参数来操纵每个节点的损失贡献[13]。该调整基于图的三元组中包括的每个节点因此,网络可以在训练期间更多地关注高优先级节点。与文献[11](利用不可微的局部敏感损失函数来表示节点优先级)相比,所提出的NPS-损失是可微的和凸的,因此可以通过以下方式容易地优化:基于梯度下降的方法,并部署到其他SGG模型。最后,关系的频率分布已被证明是有用的先验知识在关系预测[7]。然而,由于这种分布是长尾的,其作为先验的有效性大大降低。例如,如图1(d)所示,一个SGG模型倾向于错误分类坐着,因为后者的发生率相对较高。据此,我们提出了两种解决这一问题的策略。首先,我们利用log-softmax函数来软化关系的频率分布S.其次,我们提出了一个注意力模型,以自适应地修改频率分布的每个主体对象对根据他们的视觉外观。总之,拟议的全球定位系统网络的创新有三个方面:(1)用于消息传递的加密,其利用节点特定的上下文信息增强节点特征;(2)NPS-Loss对不同节点之间的优先级差异进行编码;以及(3)处理关系的长尾分布的新方法。在三个流行的SGG数据库上系统地评估了拟议的GPS-Net的有效性:视觉基因组(VG)[14]、开放图像(OI)[15]和视觉关系检测(VRD)[16]。实验结果表明,所提出的GPS-Net始终达到顶级的性能。2. 相关工作视觉环境建模:最近的可视化上下文建模方法可以分为两类,分别对全局上下文和特定于对象的上下文进行建模。为了模拟全球环境,SENet [17]和PSANet[18]在特征融合中,对特征图中的不同通道采用重新缩放。此外,Neural Motif [7]通过长短期记忆网络表示全局上下文。为了对特定于对象的上下文进行建模,NLNet [19]采用自注意机制来对像素级成对关系进行建模。CCNet [20]通过堆叠两个交叉块来加速NLNet。然而,正如[21]中所指出的,由于使用一阶线性模型,这些方法[22,23,24]可能无法学习特定于对象的上下文。为了解决这个问题,我们设计了一个方向感知的消息传递模块,通过一个三层结构来生成节点特定的上下文。线性模型场景图形生成。 现有的SGG方法可以大致分为两类:即一步法和两步法。一般来说,大多数一阶段方法专注于对象检测和关系表示[1,5,10,16,22,30],但几乎忽略了场景图的内在属性,例如,边方向和节点优先级。为了进一步捕获场景图的属性,两阶段方法利用额外的训练阶段来细化第一阶段训练产生的结果。例如,[24]利用置换不变3748p W人一科洛曼一只猫③爪运动衫埃克利尔地面实况场景图场景图生成的场景图边方向节点优先级 长尾分布Ś ś③ ❣ ⑤Śś③❣⑤277936科洛曼一只猫具有对的穿着的穿着146399136099看看3490时内心戴着手表具的具Transformer层偏置适应节点优先级敏感损耗猫人衬衫耳朵方向感知上下文建模频率软化(a)DMP(b)NPS-损失GPS网络(c)臂输入图像对象检测结果猫一只猫③爪运动衫埃克利尔爪子爪子③爪人科洛曼衬衫耳朵运动衫埃克利尔图2:GPS-Net的框架。GPS-Net采用Faster R-CNN来获取目标建议的位置和视觉特征。它包括SGG的三个新模块:(1)一个新的消息传递模块,名为NPS-loss,通过节点特定的上下文信息增强节点特征;(2)一个新的损失函数,名为NPS-loss,反映不同节点之间的优先级差异;(3)一个自适应推理模块(ARM),用于处理关系的长尾分布[7]的结果进行细化。此外,[2]利用动态树结构来刻画场景图的无环性同时,[11]采用图级度量来学习场景图的节点优先级。然而,[2,11]中采用的损失函数是不可微的,因此难以优化。本文提出的方法是一步法,但与现有的方法相比,具有以下优点。首先,对场景图的性质作了较为恰当的探讨。其次,它很容易优化和部署到现有模型。3. 方法图2示出了所提出的GPS-Net。 我们采用3.1. 方向感知消息传递消息传递(MP)模块采用节点特性xi作为输入。它的第i个节点的输出表示为zi,该节点的邻域表示为Ni。对于本节中的所有MP模块,Ni包括除第i个节点本身之外的所有节点图形注意力的定义网络[8],给定两个节点i和j,我们将i→j的方向表示为第i个节点的前向,i←j表示为第i个在下文中,我们首先回顾了一个具有代表性的MP模块的设计GCMP采用软-max函数进行归一化。其结构如图3(a)所示,可以正式表示为:更快的R-CNN [25],以获得每个图像的对象建议。我们采用与[7]完全相同的方法来获得每个建议的特征。有O个对象类别zi= xi+Wzσ.ΣΣj∈Nexp(wT[xi,xj])exp(wT[x, xΣ])Wv xj,(包括背景)和R关系类别(在-im∈Ni我M(一)包括非关系)。第i个建议是通过连接外观特征vi∈R2048、对象分类置信度得分si∈RO,空间特征bi∈R4.然后,concate-其中σ表示ReLU函数。Wv和Wz∈R512×512是线性变换矩阵。 w ∈ R1024是投影向量,并且[,]表示级联运算符。exp(wT[x, x])状态。为简单起见,我们定义cij=ij将一个指定的特征投影到一个512维的子空间中m∈Ni exp(wT[xi,xm])并表示为xi。此外,我们进一步从一对建议i和j的并盒中提取特征,记为uij∈R2048。为了更好地捕捉场景图的属性,我们从三个角度做出贡献。首先,介绍了一个方向感知的消息传递模块第3.1节介绍。第二,在第3.2节中引入节点优先级敏感损失(NPS-loss)。第三,在3.3节中设计了自适应推理模块(ARM)。作为节点i和i之间的成对上下文系数J在前进方向上。然而,已经揭示,利用等式(1)中的级联操作可能无法获得节点特定的上下文信息[21]。事实上,更可能的是,等式(1)中的xi被忽略,W.因此,GCMP实际上为所有节点生成相同的上下文信息。受此观察的启发,等式(1)可以被简化为:对象检测模块3749Xi国际XJWsWo·+Transformer层(c)DMPWt2LN,ReLUWt1ReLU堆叠规范Wt3weWuXiXJ·+Transformer层(a)GCMPWzWvReLU规范WConcatXiXJ·+Transformer层(b)S-GCMPWzWvReLU规范weLNConcateeΣ αe级联上下文建模规范化上下文建模层规范化方向感知上下文建模图3:第3.1节中三个MP模块的架构分别表示Hadamard乘积、逐元素加法和Kronecker乘积如[21]所示: .Σzi= xi+ Wzσexp(wTxj)ΣΣWv xj,共同影响上下文建模。通过这种方式,我们获得了特定于节点的上下文信息。第四,等式(3)指定了主体和客体的位置;因此,它认为j∈Nim∈Ni exp(wTxm)(二)边缘的边缘方向信息然而,边缘的方向在MP其中we∈R512是投影向量。如图3(b)所示,我们将此模型表示为简化的全局上下文MP(S-GCMP)模块。上述两个MP模块对于SGG可能不是最佳的,因为它们忽略了边缘方向信息并且不能提供节点特定的上下文信息。因此,我们提出了一种新的模块来解决上述问题。如图3(c)所示,该系统由两个主要部分组成:方向感知上下文建模和一个Transformer层。方向感知上下文建模:这component- t旨在学习节点特定的上下文并通过边方向信息引导消息传递。受多模态低秩双线性池化方法[34]的启发,我们对-模拟两个节点i之间的上下文系数eijj如下:SGG的步骤,因为两个节点之间的关系仍然未知。因此,我们通过将它们作为二元向量[α ij α ji]T来考虑前向和后向的上下文系数,其中α ij表示归一化的上下文系数。最后,第i个节点的第一个分量的输出可以表示为:ΣΣijWt3xj,(4)j∈Niαji其中,λ表示克罗内克积。Wt3∈R256×512是一个可学习的投影矩阵.Transformer层:背景信息ob-eij=wT(Wsxi<$Wo xjWuuij)、(3)上面的信息可能包含冗余信息。启发在[21]中,我们采用Transformer层来细化对象。其中⊙表示Hadamard乘积。Ws、Wo和Wu∈R512×512是用于融合的投影矩阵。方程(3)可以被认为是基于Tucker de-组成[12]。与前两个MP模块相比,等式(3)保留的上下文信息。具体来说,它由两个完全连接的层组成,具有ReLU激活和层规范化(LN)[33]。最后,利用剩余连接融合原始特征和上下文信息.我们的整个模块可以表示为有四个优点。首先,它采用联合盒特征来扩展上下文建模中的接收域。第二,三线性模型是一种更强大的建模方法,zi= xi +Wt1..σLNWt2 ΣΣj∈Ni阿吉Σ ΣΣWt3xj,三种类型特征之间的顺序交互。 第三、由于两个节点和并集盒的特征通过等式(3)中的Hadamard乘积耦合在一起,(五)其中Wt1∈R512×128和Wt2∈R128×512表示线性变换矩阵。规范3750γ(θi)= min(2,−(1−θi)μlog(θi))μ=2μ=3μ=4高发21.61.20.80.400 0.2 0.4 0.6 0.8 1对象优先级θi图4:具有不同控制因子μ的映射函数γ(θi)3.2. 节点优先级敏感损耗SGG的现有工作倾向于使用交叉熵损失作为对象分类的目标函数,其隐含地认为场景图中所有节点的优先级是相等的。然而,它们的优先级根据它们涉及的三胞胎的数量而变化。最近,在[11]中提出了局部敏感损失来解决这个问题。由于损失是不可微的,[11]中的作者采用了两阶段训练策略,其中第二阶段通过复杂的策略梯度方法实现[46]。为了解决这个问题,我们提出了一种新的NPS-loss,它不仅可以捕获场景图中的节点优先级,而且还具有可微和凸公式的好处映射函数的曲线对于具有低优先级的节点变化快,而对于高优先级的节点变化慢。此外,更大的μ会导致在训练过程中突出显示更多的节点。最后,我们获得了根据节点优先级指导训练过程的NPS-lossLnps(pi)=−(1−pi)γ(θi)log(pi),(8)其中pi表示第i个节点的地面实况对象类的对象分类得分。3.3. 自适应推理模块在通过网络结构获得节点特征和通过NPS-loss获得对象分类得分后,我们进一步提出了一个自适应推理模块(ARM)来进行关系分类。具体而言,ARM通过两个步骤为分类提供先验:频率软化和偏置适应每个三元组。下面,我们将详细介绍这两个步骤。频率软化:受[7]中引入的频率基线的启发,我们像以前一样使用关系的频率来提高关系分类的性能。 然而,[7]中的原始方法遭受-是从关系的长尾分布问题-S.因此,它可能无法识别低频率的关系。为了处理这个问题,我们首先采用log-softmax函数来软化关系的原始频率分布,如下所示:第NPS-loss受到焦点损失的启发,焦点损失使用聚焦参数来降低分类良好的对象的权重,pi→j = logsoftmax. pi→j 、(9)在本文中表示为γ 与病灶丢失相比,NP-丢失具有以下关键差异:(1)主要用于解决SGG中的节点优先级问题。相比之下,焦点丢失的设计是为了解决目标检测中的类别不平衡问题;(2)在[13]中,γ是固定的。在NPS丢失中,它取决于节点优先级。具体来说,我们首先根据第i个节点对场景图的贡献计算其优先级θitiθ=,(6)iT其中ti表示包括第i个节点的三元组的数量,并且是一个图中的三元组的总数其中pi→j∈RR表示原始频率分布,第i个节点和第j个节点之间的向量相同的如[7]所述,该向量由两个节点的对象类确定。 是pi→j的归一化向量。偏置适应:为了使频率优先于广告,对于每个节点对,我们进一步提出了一个自适应的注意机制,以根据节点对的视觉外观来修改先验具体地说,应用一个sigmoid函数来获得对频率先验的关注:d=sigmoid(Wp uij),其中Wp∈RR×2048是变换矩阵。然后,可以获得如下关系:.Σ给定θi,获得聚焦参数的一种直观方法pij =softmaxWr(zi<$zj<$uij)+d<$pi→j、(10)参数γ是线性变换,例如,γ(θi)=−2θi+2.然而,这种转变夸大了差异-在高优先级节点和中优先级节点之间进行划分,缩小了中优先级节点和低优先级节点之间的差别。为了解决这个问题,我们设计了一个将θi转换为γ的非线性映射函数:γ(θi)= min(2,−(1−θi)μlog(θi)),(7)式中,µ表示控制因子,控制θi对γ值的影响。如图4所示聚焦参数γ(θi)3751其中,Wr∈RR×1024表示分类器r,dpi→j表示偏置。 X表示在[47]中定义的融合函数:x y=ReLU(W xx+W y y)−(W x x−W y y)(W x x−W y y),其中W x和W y将x,y投影到1024维空间,分别关系预测:在测试过程中,第i个节点和第j个节点之间的关系类别通过下式预测:r ij=arg maxr∈R(p ij(r)),(11)其中R表示关系范畴的集合。3752上有磨损近在身后,坐在上面,坐在下面,站在在连接到进行步行看完了悬挂在......上,停在......上,躺在......上,吃和用之间的覆盖沿覆盖着-1.60-0.79模型R@20SGDETR@50R@100 R@20SGCLSR@50R@100 R@20PREDCLSR@50 R@100是说[24]第二十四话----36.538.8-65.166.9-两级VCTREE-HL电子琴[2]22.027.931.335.238.138.860.166.468.145.1CMAT考试[11]22.127.931.235.939.039.860.266.468.145.4[5]第五章14.620.724.531.734.635.452.759.361.339.3频率范围[7]20.126.230.129.332.332.953.660.662.240.7主题[7]21.427.230.332.935.836.558.565.267.143.7一期[22]第二十二话-11.413.7-29.631.6-54.259.133.2[23]第二十三话-27.129.8-36.737.4-65.867.644.1VCTREE-SL系列[2]21.727.731.135.037.938.659.866.267.944.9[11]第十一话---34.036.937.6----RelDN [6]21.128.332.736.136.836.866.968.468.445.2GPS网络定位系统22.628.431.736.139.240.160.766.968.845.9GPS网络定位系统22.328.933.241.842.342.367.669.769.747.7表1:与VG最新技术的比较。由于某些工作在R@20上不进行评估,因此我们计算R@50和R@100上的所有任务* *和**表示使用相同Faster-RCNN检测器和评估度量的方法,[7][6]分别。302520151050-5-10表2:所有50种关系类别中各种方法之间的mR@100指标比较4. 实验我们在三个数据集上展示了实验结果:视觉基因组(VG)[14],OpenImages(OI)[15]和视觉关系检测(VRD)[16]。我们首先报告评价设置,然后与最先进的方法和消融研究进行比较。此外,补充文件中提供了GPS-Net与其他方法之间的定性比较。4.1. 评估设置视觉基因组:我们使用在最近的工作中广泛采用的相同数据和评估指标[22,10,1,24,30,11]。具体而言,最常见的150个对象类别和50个关系类别用于评估。经过预处理后,每幅图像的场景图平均包含11.6个对象和6.2个关系.将数据分为一个训练集和一个测试集。训练集包括70%的图像,其中5K图像作为验证子集。测试集由剩余的30%图像组成。为了公平比较,我们还采用具有VGG-16主干的Faster R-CNN [25]来获得ob的位置和特征。图 5 : 与 VCTREE [2]相 比 , GPS-Net 的 PREDCLS 的R@100改进。前35类关系是根据其出现频率选择的。反对提案此外,由于SGG性能高度依赖于预训练的对象检测器,因此我们分别使用与[7]和[6]相同的超参数集。我们遵循三种常规方案进行评估:(1)场景图检测(SGDET):给定图像,检测对象边界框及其类别,并预测它们的成对关系;(2)场景图分类(S-GCLS):给定地面实况对象边界框,预测对象类别及其成对关系;(3)谓词分类(PREDCLS):给定对象类别及其边界框,仅预测它们的成对关系。所有算法都通过Recall@K度量进行评估,其中K分别为20、50和100。考虑到VG中关系的分布是高度不平衡的,我们进一步利用平均召回@K(mR@K)来评估每个关系的性能[2,23]。OpenImages:训练集和测试集分别包含53,953张图像和3,234张图像。我们利用与预训练的ResNeXt-101-FPN [6]相关的Faster R-CNN作为骨干。我们也遵循同样的数据R@100改善(%)+2.61+1.94+1.74+0.89+1.76+3.75+19.72+3.82+3.00+2.97+0.00+4.37+3.87+2.79+3.91+2.75+0.63+7.35+3.79+7.17+0.56+12.31+4.91+4.19+8.68+0.00+16.36九点九一+5.29+5.86+3.13+4.31+20.51模型SGDETmR@100SGCLSmR@100PREDCLSmR@100[5]第五章4.86.010.5频率范围[7]7.18.516.0主题[7]6.68.215.3[23]第二十三话7.310.019.2VCTREE-HL电子琴[2]8.010.819.4GPS网络定位系统9.812.622.83753模型R@50 wmAP相关wmAPphr分数WTD在对持有起每类AP相对值与磨损物安打内部下RelDN,L0[6]74.6734.6337.8943.9432.40 36.51 41.84 36.0440.435.70 55.4044.1725.00RelDN[6]74.9435.5438.5244.6132.90 37.00 43.09 41.0444.167.83 51.0444.7250.00GPS网络77.2738.7840.1547.0335.10 38.90 51.47 45.6644.5832.35 71.7147.2157.28表3:与OI最新技术水平的比较我们采用与[6]相同的评估指标在每类非最大抑制(NM-S)之后选择,IoU为0.3。此外,没有任何关系的对(背景对)和在训练期间具有关系的对之间的比率被采样为3:1。4.3.与最先进方法的视觉基因组:表1显示,GPS-Net在各种度量上的性能优于所有最先进的方法,S.具体来说,GPS-Net优于一个最近的一阶段模型,名为KERN [23],在三种协议的R@50和R@100下平均为1.8%。更详细地说,它的表现优于科恩1.9%,2.7%和1.2%,表4:与VRD最新技术水平的比较(−de-注释不可用)。 前,博士,和Rel。 表示谓词,特征检测、短语检测和关系检测、再匹配。*和*表示使用相同的对象检测器。处 理 和 评 估 指 标 , 如 [6] 。 更 具 体 地 , 通 过 计 算Recall@50 ( R@50 ) 、 关 系 的 加 权 平 均 AP(wmAPrel)、和短语的加权平均AP(wmAPphr)。 最终的s-核心由分数wtd= 0给出。2×R@50+0。4×wmAPrel+0的情况。4×wmAPphr.请注意,wmAPrel将评估AP主词和宾语盒子的IoU至少为0.5,具有地面真实值。wmAPphr与之类似,但用于主题框和对象框的联合区域。视觉关系检测:我们应用与[6]中相同的对象检测器。更具体地说,提供了两个基于VGG16的主干,它们分别在ImgaeNet和COCO上训练。评估指标与[16]中相同,其中报告了R@50和R@100的关系,谓词和短语检测。4.2. 实现细节为了确保与最先进的方法架构的兼容性,我们使用ResNeXt-101-FPN作为OI上的OpenImages主干,并使用VG和VRD上的VGG-16。在训练过程中,我们冻结ROIAlign层之前的层,并在考虑对象和关系分类损失的情况下优化模型。我们的模型通过SGD和动量进行优化,初始学习率和批量大小分别设置为10−3和6。对于SGDET任务,我们遵循[7],即我们仅预测具有重叠边界框的提案对之间的关系。此外,每个图像中的前64个对象建议分别在SGDET、SGCLS和PRECLS上的R@100即使与最好的两阶段模型CMAT [11]相比,GPS-Net在三 种 协 议 上 的 平 均 性 能 仍 提 高 了 0.5% 同 时 , 与VCTREE的一阶段版本相比,[2] 和 CMAT [11] , GPS-Net 在 Recall@100 时 分 别 在SGCLS上实现了1.5%和2.5%的性能增益。GPS-Net相对于VCTREE和CMAT的另一个优势是GPS-Net更有效,因为这两种方法采用策略梯度进行优化,这是耗时的[46]。此外,当与使用相同骨干网的RelDN相比时,GPS-Net的性能增益甚至更显著,即在Recall@100时SGCLS上提升5.5%,在三种协议上平均提升2.5%由于VG中的类不平衡问题,以前的工作通常在频率较低的情况下实现较低的性能。t类别。因此,我们利用平均召回率作为评估指标进行实验[23,2]。如表2和图5所示,GPS-Net在Mean Recall和Recall指标上均显示出较大的绝对增益,这表明GPS-Net在处理SGG的类不平衡问题方面具有优势。OpenImages:我们在表3中列出了与RelD- N [6]相比的 结 果 。 RelDN 是 赢 得 Google OpenImages VisualRelationship Detection Challenge的模型的改进版本,使用相同的对象检测器,GPS-Net在整体度量分数wtd上优于RelDN2.4%。此外,尽管存在严重的类不平衡问题,GPS-Net仍然在每类关系的APrelGPS-Net和RelDN在APrel中的最大差距是磨损24.5%,命中20.6%。视觉关系检测:表4显示了VRD与最新方法的比较。为方便-模型Pre.R@50Rel.R@50R@100Phr.R@50R@100VtransE [37]44.819.422.414.115.2VIP-CNN [39]-17.320.022.827.9VRL [40]-18.220.821.422.6[43]第四十三话55.219.221.323.124.0MF-URLN [44]58.223.926.831.536.1[42]第四十二话50.718.921.424.828.1[42]第四十二话56.019.522.425.228.9GPS-Net图形库(ImageNet)58.721.524.328.934.0RelDN† [6]-25.328.631.336.43754W.堆栈工作堆叠R@2035.736.1SGCLS R@5038.839.2R@10039.640.1R@2022.422.6SGDET R@5028.328.4R@10031.531.7GCMP S-GCMP DMPR@2034.334.836.1SGCLS R@5037.237.739.2R@10037.938.440.1R@2021.722.122.6SGDET R@5027.528.028.4R@10030.831.231.7焦µ= 3 µ= 4 µ= 5R@20 35.836.036.135.8SGCLS R@50 39.038.939.239.1R@100 39.839.940.139.9R@20 22.422.522.622.5SGDET R@50 28.228.228.428.3R@100 31.531.631.731.6ExpDMP模块NPS臂R@20SGDETR@50R@100R@20SGCLSR@50R@100R@20PREDCLSR@50R@10012C21.122.326.328.129.431.432.735.235.438.336.339.358.859.665.666.167.367.93C21.526.629.833.236.337.159.165.967.74C21.326.529.632.935.836.860.566.768.55CCC22.628.431.736.139.240.160.766.968.8表5:拟定方法的消融研究我们始终使用与[7]相同的主干表6:左侧子表显示了在P2P中堆叠操作的有效性。中间的子表比较第3.1节中具有相同Transformer层的三个MP模块的性能。右侧子表比较了NPS损失和焦点损失,并显示了控制因子μ的影响。为了公平比较,我们分别采用RelDN [6]中提供的两种骨干模型来训练GPS-Net。结果表明,GPS-Net始终实现优越的性能与骨干模型。4.4.消融研究为了证明我们提出的方法的有效性,我们进行了四个消融研究。消融研究的结果分别总结于表5和表6中。建议模块的有效性。我们首先进行了消融研究,以验证消融、NPS丢失和ARM的有效性。结果总结在表5中。我们将上述模块一个接一个地添加到基线模型中。在表5中,Exp 1降级了我们的基线,该基线基于MOTIFNET-NOCONTEXT方法[7],具有我们用于关系预测的特征构建策略。从实验2-5中,我们可以清楚地看到,当所有模块一起使用时,性能会持续提高。这表明,每个模块在推断对象标签及其成对关系中起着关键作用堆料作业的有效性。我们对堆栈操作进行了额外的分析。叠加操作考虑了边缘方向信息的不确定性。如表6的左侧子表所示,堆叠操作在各种度量上一致地提高了性能。因此,它的有效性是合理的。三个MP模块的比较。我们在第3.1节中比较了三个MP模块的性能:GCMP、S-GCMP和GCMP。为了便于公平比较,我们实现了与其他两个模块相同的Transformer层。如表6中的中间子表所示,另外两个模块。这是因为TCP对边方向信息进行编码,并为消息传递中涉及的每个节点提供特定于节点的NPS-Loss的设计选择控制因子μ的值决定了节点优先级对对象分类的影响。如表6右侧子表所示,我们展示了三种不同µ值的NPS损耗性能。我们也将NPS损失与焦点损失进行比较[13]。当µ等于4时,NPS损耗达到最佳性能。此外,NPS-loss优于focal loss,证明了其解决SGG节点优先级问题的有效性。5. 结论在本文中,我们设计了GPS-Net,通过捕获场景图的三个关键属性来解决SGG中的主要挑战。具体地,(1)当经由所述边缘检测模块计算节点特定的上下文信息时,对边缘方向进行编码;(2)节点优先级的差异表现为一种新的NPS损失;(3)通过ARM提高关系使用频率,缓解关系的长尾分布。通过大量的对比实验和消融研究,我们验证了GPS-Net在三个数据集上的有效性。谢谢。 丁长兴先生部分获得中国国家科学基金会资助61702193 , 部 分 获 得 广 州 市 科 技 计 划 资 助201804010272,部分获得广东省引进创新创业团队项目 资 助 2017ZT07X183 。 Dacheng Tao 得 到 ARC FL-170100117和DP-180103424的部分支持。3755引用[1] Y. Li,W. Ouyang、B. Zhou,K. Wang和X.王.从对象、短语和区域字幕生成场景图InICCV,2017.[2] K. 唐,H.张湾,澳-地吴,W.Luo和W.刘某学习为视觉环境编写动态树结构。在CVPR,2019年。[3] S. Qi,Y. Zhu,S.黄角Jiang,S.竹使用随机Gram-mar进行以人为中心的室内场景合成。在ICLR,2018年。[4] J. 约翰逊河,巴西-地克里希纳,M。斯塔克湖Li,D.Shamma,M.Bernstein和L.飞飞使用场景图进行图像检索。CVPR,2015。[5] D. Xu,Y. Zhu,C. Choy和L.飞飞通过迭代消息传递生成场景图在CVPR,2017年。[6] J. Zhang,K.Shih,A.Elgammal,A.Tao和B.卡坦萨罗。场景图分析的图形对比损失。在CVPR,2019年。[7] R. Zellers,M.Yatskar,S.Thomson和Y.崔神经基序:全局上下文场景图解析。在CVPR,2018年。[8] P. Velickovic,G.葫芦A. Casanova和A.罗梅罗图注意力网络。在ICLR,2018年。[9] L. Gong和Q.程利用图神经网络中的边缘特征。在CVPR,2019年。[10] M.齐,W. Li,Z. Yang,Y. Wang和J. Luo.用于将图 像 映 射 到 场 景 图 的 Atten- tive 关 系 网 络 。 在CVPR,2019年。[11] L. Chen,H. Zhang,J.肖,X.他,S. Pu和S. F.Chang , Counterfactual Critic Multi-Agent Trainingfor Scene Graph Generation。在CVPR,2019年。[12] H.本尤尼斯河Cadene,M. Cord和N.托米Mutan:用于视觉问题回答的多模态折叠融合在CVPR,2017年。[13] T.- Y. Lin,P.戈亚尔河格希克角He和P.美元.用于密集对象检测的焦点损失。InICCV,2017.[14] R. Krishna,Y. Zhu,O. Groth,J. Johnson ,K.Hata,J. Kravitz,S.Chen,Y.卡兰蒂迪斯湖J. Li,D.A. Shamma等人可视化基因组:使用众包密集图像注释连接语言和视觉。InIJCV,2017.[15] A. Kuznetsova,H. Rom,N.奥尔德林岛Krasin,J.Tuset , S. Kamali , S. Popov , M. Mallocus 、 T.Duerig等人打开图像数据集v4:统一的图像分类、对 象 检 测 和 大 规 模 视 觉 关 系 检 测 。 在 arXiv :1811.00982,2018。[16] C. 卢河,巴西-地克里希纳,M。Bernstein和L.飞飞具有语言先验的视觉关系检测在ECCV,2016年。[17] 胡杰湖,澳-地Shen和G.太阳压缩-激励网络。在CVPR,2018年。[18] H. Zhao,Y. Zhang,S. Liu,J.Shi,C.换洛伊,D。Lin和J. Jia. Psanet:用于场景解析的逐点空间注意力网络。在ECCV,2018。[19] X.Wang,R.Girshick,A.Gupta和K.他外非局部神经网络。在CVPR,2018年。[20] Z. Huang,X.王湖,加-地黄角Huang,Y.黄氏Y.魏W.刘某Ccnet:语义分割的交叉注意力。在arXiv预印本arXiv:1811.11721,2018。[21] Y. Cao和J. Xu. GCNet:非局部网络满足挤压激励网络和超越。在arXiv预印本arXiv:1904.11492,2019。[22] J. Yang,J. Lu,S. Lee,D. Batra和D.帕里克用于场景图生成的图r-cnn。在ECCV,2018。[23] T.陈威于河,巴西-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功