没有合适的资源?快使用搜索试试~ 我知道了~
522面向多标签图像识别陈天水1、2徐慕欣1小陆惠1吴和峰1吴良林1、2中山大学2暗物质人工智能研究{tianshuichen,wuhefeng}@ gmail.com,{xumx7,huixlu}@ mail2.sysu.edu.cn,linliang@ieee.org摘要图像多标签识别是一个具有实际意义和挑战性的任务,通过搜索语义感知区域和建立标签依赖模型已经取得了重大进展。然而,现有的方法不能准确定位的语义区域,由于缺乏部分级别的监督或语义指导。此外,它们不能充分探索语义区域之间的相互作用,也没有显式地对标签共现进行建模 为了解决这些问题,我们提出了一个语义特定的图表示学习(SSGRL)框架,该框架由两个关键模块组成:1)语义解耦模块,其结合类别语义以指导学习语义特定的表示,以及2)语义交互模块,其将这些表示与建立在统计标签共现上的图相关联,并且通过图传播机制来探索它们的交互。M.在公共基准测试上进行的大量实验表明,我们的SSGRL框架比当前最先进的方法有相当大的优势,例如。在PASCAL VOC 2007和2012、Microsoft-COCO和Visual Genome基准上,mAP分别提高了2.5%、2.6%、6.7% 和 3.1%& 。 我 们 的 代 码 和 型 号 可 在https://github.com/HCPLab-SYSU/SSGRL获得。1. 介绍多标签图像分类是计算机视觉中的一个基本而实用的任务,因为现实世界的图像通常包含多个不同的语义对象。最近,通讯作者是吴和风。这项工作得到了中国国家重点研究与发展计划的部分支持,批准号:2018YFC 0830103,部分国家自然科学基金项目,批准号:61622214、61876045和U1811463,部分由国家高层次人才特别支持计划(万人计划)资助,部分由广东省自然科学基金资助,资助号:2017A030312006,部分由广州珠江科技新星项目(批准号:201906010057。图1.我们的语义特定图表示学习框架的插图。它通过语义解耦模块结合类别语义来指导学习语义特定的表示,并通过语义交互模块探索它们的交互它正受到越来越多的关注[17,28,34],因为它在基于内容的图像检索和推荐系统[4,31]中得到了大量的关键应用。除了处理视点、尺度、光照和遮挡的复杂变化的挑战之外,预测多个标签的存在还需要挖掘语义对象区域以及对这些区域之间的关联和交互进行建模,使得多标签图像分类成为一项未解决的且具有挑战性的任务。当前的多标签图像分类方法通常采用对象定位技术[28,30]或诉诸视觉注意力网络[34]来定位语义对象区域。然而,对象定位技术[23,35]必须搜索许多类别不可知和冗余的建议,并且很难集成到深度神经网络中进行端到端训练,而视觉注意力网络由于缺乏监督或指导而只能粗略地定位对象区域。其他一些工作引入RNN/LSTM [13,24,2]来进一步建模语义区域之间的上下文依赖关系并捕获标签依赖关系。然而,RNN/LSTM顺序地对区域/标签依赖性进行建模,这不能完全·车自行车··人·风筝·标签Semantic-Specific Graph Representation学习分布····汽车人风筝自行523因为在每个区域或标签对之间存在直接关联,所以可以利用该属性此外,他们没有明确的模型统计标签共现,这也是关键,以帮助多标签图像分类。为了解决这些问题,我们提出了一种新的语义特定的图表示学习(SSGRL)框架,结合类别语义来指导学习语义特定的功能,并探索它们的相互作用,以促进多标签图像分类。更具体地说,我们首先设计了一个语义解耦模块,该模块利用类别的语义特征来指导学习与类别相关的图像特征,这些特征更多地关注于相应的语义区域(见图1)。然后,我们构建了一个图的基础上的统计标签同现相关的这些功能,并通过图形传播机制探索它们的相互作用。图1示出了所提出的SSGRL框架的基本流水线。这些贡献可归纳为三个方面:1)我们制定了一个新的语义特定的图表示学习框架,更好地学习语义特定的功能,并探讨他们的相互作用,以帮助多标签图像识别。2)我们引入了一个新的语义解耦模块,结合类别语义来指导学习语义特定的功能。3)我们对各种基准测试进行了测试,包括PASCAL VOC 2007 2012 [7],Microsoft-COCO [19]和具有较大规模类别的Visu- al Genome [16],并证明我们的框架表现出明显的性能改进。具体而言,与当前最先进的方法相比,它将Pascal VOC 2007和2012数据集上的mAP分别从92.5%提高到95.0%和92.2%提高到94.8%,将Microsoft-COCO数据集上的mAP从77.1%提高到83.8%,将Visual Genome 500数据集上的mAP从33.5%提高到36.6%。通过简单地在Microsoft- COCO数据集上进行预训练并融合两个尺度结果,我们的框架可以在Pascal VOC 2012数据集上将mAP进一步提高到95.4%。2. 相关作品多标签图像分类的最新进展依赖于对象定位和深度学习技术的组合[28,30]。一般来说,他们引入了假设包含图像中所有可能的前景对象的对象建议[35],并将所有这些建议中的特征聚合起来,虽然这些方法取得了显着的性能改进,区域候选定位的步骤通常会产生冗余的计算成本,并阻止模型与深度神经网络进行端到端的训练Zhang等人[33]进一步利用基于学习虽然这种方法可以联合优化,它需要边界框的附加注释来训练提议生成组件。为了解决这个问题,一些其他作品[34,26,34]采用注意力机制来定位信息区域,并且这些方法可以以端到端的方式用图像级注释进行训练。例如,Wang等人[26]引入了空间Transformer来自适应地搜索语义感知区域,然后从这些区域聚合特征以识别多个标签。但由于缺乏监督和指导,这些方法只能粗略地定位区域对标签依赖性进行建模可以帮助捕获标签共现,这也是辅助多标签识别的关键为了实现这一点,一系列作品引入了图形模型,例如条件随机场[8],依赖网络[10]或共生矩阵[29]来捕获成对标签相关性。最近,Wang et al.[24]制定了一个CNN-RNN框架,该框架隐式地利用语义冗余和共现依赖性来促进有效的多标签分类。一些工作[33,2]进一步利用提议生成/视觉注意机制来搜索局部区分区域和LST-M [13]来显式地对标签依赖性进行建模。例如,Chen et al.[2]提出了一个递归注意强化学习框架,用于迭代地发现一系列注意和信息区域,并对这些注意区域之间的长期依赖关系进行 建 模 , 以 帮 助 捕 获 语 义 标 签 共 现 。 然 而 ,RN-N/LSTM [13]以顺序的方式对标签依赖性进行建模,并且它们无法完全利用该属性,因为每个标签对之间可能存在相互依赖性。与其他方法不同的是,本文的框架引入了类别语义来指导语义感知特征向量的学习.此外,我们直接将所有标签对以结构化图的形式相关联,并引入图传播机制来探索它们在统计标签共现的明确指导因此,我们的框架可以更好地学习与类别相关的特征,并探索它们之间的相互作用,从而导致明显的性能改善。3. SSGRL框架3.1. 概述在这一部分中,我们首先给出了一个整体的描述所提出的SSGRL框架,包括两个关键模块,即语义解耦和语义交互。给定一幅图像,我们首先将其送入一个全卷积网络以生成其特征图。然后,对于每个类别,语义解耦模块结合类别语义来指导学习语义特定的表示,这些表示专注于该类别的语义区域524ΣWHFWHCa=(acc)h,(acc)h。(八)egory。最后,语义交互模块使用基于统计标签共现构建的图来关联这些表示,并且其使用图传播网络来探索图2示出了SSGRL框架的详细流水线。3.2. 语义解耦语义解耦模块的目标是以类别语义为指导,学习在这里,我们采用语义引导的注意机制来实现这个模块。给定输入图像I,该框架首先提取其特征图fI∈RW×H×N,其中W、H和N是特征图的宽度、高度和通道数,公式为fI=fcnn(I),(1)其中fcnn(·)是特征eextractor,并且它由全卷积网络实现对于每个类别c,该框架提取一个d-s维语义嵌入使用预训练的GloVe [21]模型的向量x=f(w),(2)最后,我们对所有位置执行加权平均池化以获得特征向量fc=ac,whfc,wh(6)w,h其编码与类别C相关的信息。我们对所有类别重复该过程,并获得所有类别相关的特征向量{f0,f1,. . .,fC−1}.3.3. 语义交互一旦获得对应于所有类别的特征向量,我们将这些向量以基于统计标签共现构造的图的形式进行关联,并引入图神经网络来通过图来传播消息以探索它们的相互作用。图构造 我们首先引入图G ={V,A},其中节点指的是类别和边指的是对应类别之间的共现-血淋淋的具体地,假设数据集覆盖C类,V可以表示为{v0,v2,. . . ,vC−1},其中元素v c表示范畴c,A可以表示为{a00,a01,.. . . ,a0(C−1),. . . ,a(C−1)(C−1)},其中元素acc′表示对象存在的概率为-c g c其中wc是类别c的语义词。然后,我们引入了一个语义引导的注意力机制,该机制将语义向量xc结合起来,以引导更多地关注语义感知区域,从而学习对应于该类别的特征更具体地说,对于每个位置(w,h),我们首先融合对应的im,在存在属于范畴c的对象的情况下渴望到范畴c′。我们使用训练集上样本的标签注释来计算所有类别对之间的概率,因此我们不引入任何额外的注释。受当前图传播工作的启发[18],1,27,3],我们采用门控定期更新机制年龄特征fI方法[14]和xc使用低秩双线性池化通过图表传播信息并学习上下文-tualized节点级功能。具体来说,对于每个节点vc∈V,它在时间步t有一个隐藏状态ht。在这项工作中,~我c,wh=PT。丹(UTfI)(VTxc)+b,(3)C因为每个节点对应一个特定的类别,模型旨在探索语义-其中tanh(·)是双曲正切函数,U∈RN×d1,V∈Rds×d1,P∈Rd1×d2,b∈Rd2是 可学 习的 参数;d1和d2是接头的尺寸嵌入和输出功能。然后,在xc的指导下计算注意力系数,具体特征,我们用与对应类别相关的特征向量初始化t=0处的隐藏状态,公式为h0=fc.(七)在时间步t,框架聚合来自其邻居节点的消息,表示为a∈c,wh=fa(f∈fI). (四)该系数表示位置(w,h)的重要性。fa(·)是一个注意力函数,它是由一个完全连接的网络实现的该过程对所有低-阳离子为了使不同样本之间的系数易于比较,我们使用softmax函数对所有位置的系数进行exp(axc,wh)t′t−1′t− 1C c cc′c′通过这种方式,如果节点c′与节点c具有高相关性,则框架鼓励消息传播,否则它抑制传播。因此,它可以通过图传播消息,并在统计LA的先验知识的指导下探索节点交互。ac,wh=w′,h′exp(a)c,w′h.(五)’)c,wh525贝尔共同出现。然后,框架更新隐藏的526CCh=(1−z)CCCC不CCCC ccCc图2.我们的语义特定图表示学习框架的插图。 给定一个输入图像,我们首先将其输入到CNN来提取图像表示。然后,语义解耦(SD)模块采用类别语义来指导学习特定于语义的表示,语义交互模块使用图将这些表示关联起来,并采用图神经网络(GNN)来探索它们的交互。基于聚合特征向量at的状态及其在前一时间步ht-1的隐藏状态,通过类似于门控递归单元的门控机制,公式为zt=σ(Wzat+Uzht−1)rt=σ(Wrat+ Urht−1)3.4. 网络架构根据现有的多标签图像分类工作[3 4],我们基于广泛使用 的ResNet-101 [11]实现了 特征提取器f c n n(·)。具体来说,我们用另一个平均值池化层,大小为2×2,步长为2,其他C c c(九)h~t= tanh. Wat+U(rt<$ht−1)<$不t−1不层不变的实现。 对于低级别的双-线性池化操作,N、ds、dl和d2被设置为2,048,不C其中,σ(·)是逻辑S形函数,t和h(·)是双曲正切函数,并且f是逐元素乘法运算。 这样,每个节点都可以聚合消息,并同时通过图传递其信息,从而实现与所有类别对应的所有特征向量之间的交互这个过程重复T次,最终的隐藏状态是生成的。300,1,024和1,024,尊重。因此,fa(·)是简单的。由一个1,024比1的全连接层划分,1,024个特征向量对应一个注意力系数。对于图神经网络,我们将隐藏状态的维数设置为2,048,迭代次数T设置为3. 输出向量c的维数也被设置为2048。因此,输出网络o(·)可以由4,096到2,048的全连接层实现,然后是hy(·)。双曲正切函数,每个分类网络已认证,即, {hT,hT,. . . ,hT{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 在这里,fc(·)可以由一个2,048比1的全连通0 1C−1每个节点不仅编码类别c的特征,而且还携带来自其他类别的上下文化消息。最后,我们将hT和输入特征向量h0层.3.5. 优化C c预测类别给定包含M个训练样本的数据集{I,y}M−1,其中I是第i个图像,y=c,公式为我i i=0iioc=fo(hT,h0)sc=fc(oc)(十){y i0,y i1,. . . ,y i(C−1)}是相应的注释。yic如果样本用catego注释,则赋值为1否则为0。给定图像I i,我们可以获得预测得分向量Si={Si0,Si1,. . .,s i(C−1)},并计算相应的概率向量pi=其中,f〇(·)是映射控制器的输出函数将hT和h0串联成输出向量oc。我们采用了C分类函数,其参数是非共享{f0,f1,. . . ,fC−1},其中fc(·)将oc作为输入来预测分数以指示类别c的概率。我们对所有类别执行该过程并获得分数0t =1t = 2t = T100…标签n���-1分布������−���…������−���GNNGNNGNNSDSDSD………向量s={s0,s1,. . . ,sC−1}.527ΣΣ{p i0,p i1,. . . ,p i(C−1)}通过sigmoid函数p ic= σ(s ic)。(十一)我们采用交叉熵作为目标损失函数N−1C−1L=(y iclog p ic+(1 − y ic)log(1 − pic))。(十二)i=0时c=0528我N我我NNCC前3所有方法地图CPCRCF1OP或OF1CPCRCF1OP或OF1WARP [9]-59.352.555.759.861.460.7------CNN-RNN [24]-66.055.660.469.266.467.8------[33]第三十三话-67.657.262.070.163.466.5------RARL [2]-78.857.266.284.061.671.1RDAR [26]73.479.158.767.484.063.072.0------KD-WSD [20]74.6--66.8--72.7--69.2--74.0ResNet-SRN-att [34]76.185.857.566.388.161.172.181.263.370.084.167.775.0[34]第三十四话77.185.258.867.487.462.572.981.665.471.282.769.975.8我们83.891.962.572.793.864.176.289.968.576.891.370.879.7表1.在以下设置下,比较我们的框架和最新方法的mAP、CP、CR、CF1和OP、OR、OF1(%)Microsoft COCO数据集上的所有和前3个标签所提出的框架是用损失L在其中C是标签的数量,Nc是im的数量Ip端到端的方式。 具体来说,我们首先利用在ImageNet数据集上预训练的ResNet-101参数[5]初始化FCNN中相应层的参数,并随机初始化其它层的参数。由于在ImageNet数据集上预训练的较低层fcnn(·)中的层,并联合优化所有其他层r。S. 该框架使用ADAM算法进行训练[15]批量大小为4,动量为0.999和0.9。学习率初始化为10−5,当误差达到稳定水平时除以10。在训练过程中,输入图像的大小被调整为640×640,我们随机选择一个数字。从{640,576,512,384,320}中提取的值作为宽度和高度到随机的作物块。最后,裁剪后的面片将进一步调整为576×576。在测试过程中,我们简单地将输入图像的大小调整为640×640,并使用576×576的大小执行中心裁剪以进行评估。4. 实验4.1. 评估指标为了与现有方法进行公平比较,我们遵循它们,采用每个类别的平均精度(AP)和所有类别的平均精度(mAP)进行评估[28,30]。 我们还遵循以前的作品[34,17]来呈现进一步的精确度,召回率和F1测量。对比在这里,我们为每个图像分配前3个最高分数的标签,并将它们与地面真实标签进行比较。具体地说,我们采用了总体精度,重新调用,F1-测度(OP,OR,OF 1)和每类精度,重新调用,调用,F1-measure(CP,CR,CF 1),定义为低年龄,Ni是第i个标签的预测图像的数量,Ng是第i个标签的预测图像的数量,第i个标签的地面实况图像的数量上述度量需要固定数量的标签,但是不同图像的标签因此,我们进一步呈现了OP、OR、OF1和CP、CR、CF1度量,其设置为如果标签的估计概率大于0.5则将其预测为阳性[34]。在这些指标中,mAP、OF1和CF1是最重要的指标,可以提供更全面的评估。4.2. 与最新技术为了证明所提出的框架的有效性,我们在各种广泛使 用 的 基 准 上 进 行 了 大 量 的 实 验 , 即 , MicrosoftCOCO [19] 、 Pascal VOC 2007 2012 [7] 和 VisualGenome [16]。4.2.1微软COCO比较Microsoft COCO [19]最初是为对象检测和分割而构建的,最近已被用于评估多标签图像分类。该数据集包含122,218张图像,涵盖80个常见类别,进一步分为82,081张图像的训练集由于测试集的地面实况注释不可用,因此我们的方法和所有现有的竞争对手都在训练集上训练,并在验证集上进行评估对于具有top-3约束的OP,OR,OF 1和CP,CR,CF 1度量,我们遵循现有方法[24]来排除概率低于阈值(在我们的实验中为0.5)的标签。比较结果见表1。 作为ΣciiCP=1ΣNc如图所示,现有的性能最好的方法是RDAR,ResNet-SRN,其中RDAR采用空间TransformerOP =BLP,C NpΣiNiii来定位语义感知区域,并且LSTM网络来OR=Ni,CR = 1ΣNc(十三)隐式捕获标签依赖关系,而ResNet-SRNGg我我我建立在ResNet-101上,并将注意力机制应用于OF1 =2×OP×OR,OP + ORCF1 =2×CP ×CRCP + CR模型标号关系 mAP、CF 1和OF 1为73.4%,RDAR分别为67.4%、72.0%和77.1%、67.4%、72.9%529方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图CNN-RNN [24]96.7 83.1 94.2 92.8 61.282.189.1 94.2 64.283.670.092.491.784.293.759.893.275.399.778.684.0RMIC [12]97.1 91.3 94.2 57.1 86.790.793.1 63.3 83.376.492.894.491.695.192.359.786.069.596.479.084.5[22]第二十二话--------------------89.3VGG19+SVM [22]---------------------89.3[32]第三十二话96.4 92.7 93.8 94.1 71.292.594.2 95.7 74.390.074.295.496.292.197.966.993.573.797.587.688.5HCP [28]98.6 97.1 98.0 95.6 75.394.795.8 97.3 73.190.280.097.396.194.996.378.394.776.297.991.590.9FeV+LV [30]97.9 97.0 96.6 94.6 73.693.996.5 95.5 73.790.382.895.497.795.998.677.688.778.098.389.090.6RDAR [26]98.6 97.4 96.3 96.2 75.292.496.5 97.1 76.592.087.796.897.593.898.581.693.782.898.689.391.9RARL [2]98.6 97.1 97.1 95.5 75.692.896.8 97.3 78.392.287.696.996.593.698.581.693.183.298.589.392.0RCP [25]99.3 97.6 98.0 96.4 79.393.896.6 97.1 78.088.787.197.196.395.499.182.193.682.298.492.892.5我们99.5 97.1 97.6 97.8 82.694.896.7 98.1 78.097.085.697.898.396.498.884.996.579.898.492.893.4我们的(前)99.7 98.4 98.0 97.6 85.796.298.2 98.8 82.098.189.798.898.797.099.086.998.185.899.093.795.0VGG16 19+SVM [22]98.9 95.0 96.8 95.4 69.790.493.5 96.0 74.286.687.896.096.393.197.270.092.180.398.187.089.7FeV+LV(融合)[30]98.2 96.9 97.1 95.8 74.394.296.7 96.7 76.790.588.096.997.795.998.678.593.682.498.490.492.0表2.在PASCAL VOC 2007数据集上比较我们的框架和最先进的方法的AP和mAP的百分比。上半部分显示单个模型的结果,下半部分显示聚合多个模型的结果。“Ours”和“Ours(pre)”表示我们的框架在COCO数据集上没有和有预训练。最佳和次佳结果分别以红色和蓝色突出显示。“-”表示未提供相应结果。最好用彩色观看。方法Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视地图RMIC [12]98.0 85.5 92.6 88.7 64.086.882.0 94.9 72.783.173.495.291.790.895.558.387.670.693.883.084.4VGG16+SVM [22]99.0 88.8 95.9 93.8 73.192.185.1 97.8 79.591.183.397.296.394.596.963.193.475.097.187.189.0VGG19+SVM [22]99.1 88.7 95.7 93.9 73.192.184.8 97.7 79.190.783.297.396.294.396.963.493.274.697.387.989.0HCP [28]99.1 92.8 97.4 94.4 79.993.689.8 98.2 78.294.979.897.897.093.896.474.394.771.996.788.690.5FeV+LV [30]98.4 92.8 93.4 90.7 74.993.290.2 96.1 78.289.880.695.796.195.397.573.191.275.497.088.289.4RCP [25]99.3 92.2 97.5 94.9 82.394.192.4 98.5 83.893.583.198.197.396.098.877.795.179.497.792.492.2我们99.5 95.1 97.4 96.4 85.894.593.7 98.9 86.796.384.698.998.696.298.782.298.284.298.193.593.9我们的(前)99.7 96.1 97.7 96.5 86.995.895.0 98.9 88.397.687.499.199.297.399.084.898.385.899.294.194.8VGG16 19+SVM [22]99.1 89.1 96.0 94.1 74.192.285.3 97.9 79.992.083.797.596.594.797.163.793.675.297.487.889.3FeV+LV(融合)[30]98.9 93.1 96.0 94.1 76.493.590.8 97.9 80.292.182.497.296.895.798.173.993.676.897.589.090.7HCP+AGS [28,6]99.8 94.8 97.7 95.4 81.396.094.5 98.9 88.594.186.098.198.397.397.376.193.984.298.292.793.2RCP+AGS [25,6]99.8 94.5 98.1 96.1 85.596.195.5 99.0 90.295.087.898.798.497.599.080.195.986.598.894.694.3我们的(融合前)99.9 96.6 98.4 97.0 88.696.495.9 99.2 89.097.988.699.499.397.999.285.898.686.799.495.195.4表3.在PASCAL VOC 2012数据集上比较我们的模型和最先进方法的AP和mAP百分比。上半部分显示单个模型的结果,下半部分显示聚合多个模型的结果。“Ours”和“Ours(pre)”表示我们的框架在COCO数据集上没有和有预训练。“Ours (pre 最佳和次佳结果分别以红色和蓝色突出显示。最好用彩色观看。ResNet-SRN。与这些方法不同的是,我们的框架结合了类别语义来更好地学习语义特定的特征表示,并在统计标签共现的明确指导下探索它们的相互作用,从而在所有指标上都有显着的性能改进。具体而言,它实现了83.8%,72.7%和76.2%的mAP,CF1和OF1,分别将先前最好的方法提高了6.7%,5.3%和3.3%。4.2.2Pascal VOC 2007和2012的比较Pascal VOC 2007 2012 [7]是用于评估多标签图像分类任务的最广泛使用的数据集,并且大多数现有作品都报告了这些数据集的结果。因此,我们对这些数据集进行实验,以进行更全面的比较。这两个数据集涵盖了20个常见类别。其中,Pascal VOC 2007包含5,011个图像的训练集和4,952个图像的测试集,而VOC2012由作为训练集的11,540个图像和作为测试集的10,991个图像组成为了进行公平的比较,建议的框架和现有的竞争对手都是经过训练的训练集并在测试集上进行评估我们首先在表2中展示了Pascal VOC 2007数据集上每个类别的AP和所有类别的mAP。大多数现有技术的方法集中于定位信息区域(例如,建议候选[30,28,33],关注区域[26],随机区域[25])来聚集局部区别特征,以便于识别给定图像的多个标签。例如,RCP实现了92.5%的mAP,这是迄今为止的最佳结果。不同的是,我们的框架结合了类别语义,以更好地学习语义特定的功能,并探索他们的相互作用下的统计标签依赖性的明确指导下,进一步提高mAP到93.4%。此外,通过在COCO数据集上预训练框架,我们的框架可以获得更好的性能,即,95.0%,如表2所示。请注意,现有方法将多个模型[22]聚合或将结果与其他方法[30]融合以提高整体性能。例如,FeV+LV(融合)将其结果与VGG1619 +SVM的结果聚合,将mAP从90.6%提高到92.0%。尽管我们的结果是由单个模型生成的,但它仍然优于所有这些聚合结果。5301.00.80.60.40.20.0图3.我们提出的框架和ResNet-101基线的每个类别的AP(%)我们还比较了Pascal VOC 2012数据集的性能,如表3所示。虽然VOC 2012更具挑战性,规模更大,但我们的框架仍然l与最先进的竞争对手相比,实现了最佳性能。具体来说,它在没有和有CO-CO数据集上的预训练的情况下获得了93.9%和94.8%类似地,现有方法也聚合多个模型的结果以提高性能。为了确保公平的比较,我们训练了另一个模型-EL,输入为448 ×448。具体来说,在训练过程中,我们将输入图像调整为512×512,并从512、448、384、320、256中随机选择一个数字作为宽度和高度来随机裁剪面片,并进一步将裁剪后的面片大小调整为448×448。我们将前一个模型标记为scale-640,将此模型标记为scale-512。这两个模型都在COCO数据集上进行了预训练,并在VOC 2012数据集。然后,我们为每个尺度执行十个作物评估(四个角落作物和中心作物以及它们的水平翻转版本),并从两个尺度汇总结果。如表3的下半部分所示,我们的框架将mAP提高到95.4%,抑制了所有具有单个和多个模型的现有方法。4.2.3Visual Genome 500Visual Genome [16]是一个包含108,249个图像并覆盖80,138个类别的数据集。由于大多数类别的样本很少,我们只考虑500个最频繁的类别,从而产生VG-500子集。我们随机选取10,000幅图像作为测试集,其余98,249幅图像作为训练集。与现有的基准相比,它涵盖了更多的类别,500V.S. Pascal VOC上有20个[7],Microsoft- COCO上有80个[19]。 为了证明我们专业的有效性方法地图ResNet-101 [11]30.9[34]第三十四话33.5我们36.6表4.VG-500数据集上mAP(%)的比较我们在这个数据集上构建了一个ResNet- 101基线网络,并使用与我们相同的过程对其进行训练。由于ResNet-SNR [34]是Microsoft-COCO数据集上性能最好的方法,我们进一步遵循其发布的代码在该数据集上训练ResNet-SNR进行比较。所有的方法都在训练集上进行训练,并在测试集上进行评估。比较结果见表4。我们的框架也比现有的最先进的和ResNet-101基线方法表现得更好。具体而言,它实现了36.6%的mAP,将现有最佳方法的mAP提高了3.1%。这种比较清楚地表明,我们的框架也可以更好地识别大规模的类别。4.3. 烧蚀研究所提出的框架建立在ResNet-101 [11]的具体来说,我们只需将ResNet-101的最后一个完全连接层替换为2,048到C的完全连接层,并使用Csigmoid函数来预测每个类别的概率。训练和测试设置与第3.5节中描述的设置完全相同。我们在Microsoft-COCO数据集上进行了实验,结果见表5。可以观察到,mAP从83.8%下降到80.3%。为了深入分析它们的性能比较,我们进一步提出了每个AP我们基线AP长颈鹿斑马网球拍人象滑板熊风筝飞机厕所火车猫羊冲浪板棒球手套滑雪马比萨饼飞盘棒球棒西兰花摩托车牛水槽狗笔记本电脑船巴士泰迪熊汽车运动球交通灯床式消火栓电视键盘香蕉领带炉钟伞滑雪板蛋糕甜甜圈沙发停止标志橙色鼠标鸟自行车微波花瓶远程热狗酒杯冰箱餐桌椅子胡萝卜杯手提箱瓶子碗三明治叉车手机苹果停车计时器盆栽牙刷书长凳刀勺子剪刀手提包背包烤面包机吹风机531……汽车自行车人表5.在Microsoft-COCO数据集上比较我们的框架(Ours),我 们 没 有 SD 模 块 的 框 架 ( Ours w/o SD 和 Ours w/o SD-concat)和我们没有SI模块的框架(Ours w/o SI)的mAP(%)图3中的类别。 它表明,AP改善对于更难以识别的类别(即,基线获得较低AP的类别例如,对于长颈鹿和斑马这样的类别,基线获得了非常高的AP,而我们的框架只是实现了轻微的改进。相比之下,对于更困难的类别,如烤面包机和吹风机,我们的框架将AP提高了相当大的幅度,烤面包机和吹风机分别提高了24.7%和32.5%。上述比较验证了所提出的SSGRL作为一个整体的贡献实际上,SSGRL包含两个协同工作的关键模块,即,语义解耦(SD)和语义交互(SI)。接下来,我们进一步进行烧蚀实验,分析各个模块的实际贡献.4.3.1语义解耦我们评估的贡献,SD模块的性能进行比较,没有这个模块。 为此,我们对f I执行平均池化以获得图像特征向量f,并使用以下两个设置来初始化图节点:1)直接使用f(即Ours w/o SD); 2)连接f和相应的语义向量(即,xc对应于类别c)的节点,它被映射到2,048个特征向量用于初始化(即Ours w/o SD-concat)。如表5所示,“Ours 这表明直接连接语义向量不提供额外的或甚至干扰的信息。如上所述,我们的框架可以通过语义解耦来学习关注相应语义区域的语义特定特征图。在这里,我们进一步可视化图4中的一些示例。在每一行中,我们呈现输入图像、对应于具有前3个最高置信度的类别的语义图以及预测的实验结果表明,如果存在对应类别的对象,我们的语义解耦模块可以很好地比如说滑雪板滑雪者……床笔记本电脑的人自行车司机……网球拍椅人图4.输入图像的几个示例(左),对应于具有前3个最高置信度的类别 的语义特征图(中 ),以及预测的 标签分布(右)。地面实况标签以红色突出显示。第二个例子具有滑雪板、滑雪板和人的对象,我们的语义解耦模块突出显示两个滑雪板、滑雪板和人腿的对应区域。对于其他示例也观察到类似的现象。4.3.2语义互动为了验证SI模块的贡献,我们去除了图传播网络,因此分类器fc(·)直接将相应的解耦特征向量fc作为输入来预测类别c的概率(即我们的w/o SI)。如表5所示,我们发现其mAP为82.2%,mAP降低了1.6%。5. 结论在这项工作中,我们提出了一个新的语义特定的图表示学习框架,其中语义引导的注意力机制被设计来学习语义相关的特征向量,并引入图传播网络,同时探索这些特征向量之间的相互作用的指导下,统计标签共现。在Microsoft-COCO、Pascal VOC 2007 2012和Visual Genome等多种基准测试上的大量实验证明了该框架在所有现有领先方法上的有效性。…………狗滑雪板滑雪人猫狗汽车自行车人猫香蕉床笔记本电脑人苹伞车人猫手提网球拍椅子单人飞盘方法地图ResNet-101 [11]80.3我们的,不含SD80.9Ours w/o SD concat79.6我们的,不包括SI82.2我们83.8532引用[1] 陈天水,梁林,陈日全,杨武,罗晓南.用于细粒度图像识别的知识嵌入表示学习。在国际人工智能联合会议(IJCAI)中,第627-634页[2] 陈天水,王周霞,李冠斌,林亮。用于多标签图像识别的递归注意强化学习。在AAAI人工智能会议论文集,第6730-6737页[3] 陈天水,于伟豪,陈日泉,林亮。用于场景图生成的知识嵌入路由网络在IEEE计算机视觉和模式识别会议(CVPR)上,2019年。[4] Tat-Seng Chua , Hung-Keng Pung , Guo-Jun Lu , andHee-Sen Jong.基于概念的图像检索系统。在Proceedingsof the International Conference on System Sciences,第3卷,第590-598页中IEEE,1994年。[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功