没有合适的资源?快使用搜索试试~ 我知道了~
5177基于图卷积网络的多标记图像识别陈兆民1,2魏秀申2王鹏3郭艳文11南京大学软件新技术国家重点实验室2南京兆维科技研究院3澳大利亚阿德莱德大学计算机科学学院{chenzhaomin123,weixs.gm}@www.example.com,www.example.comgmail.com @peng.wangadelaide.edu.au,ywguo@nju.edu.cn摘要多标签图像识别的任务是预测图像中出现的一组对象标签。由于对象通常共同出现在图像中,期望对标签依赖性进行建模以提高识别性能。为了捕捉和探索这些重要的依赖关系,我们提出了一个基于图卷积网络(GCN)的多标签分类模型。该模型在对象标签上构建有向图,其中每个节点(标签)由标签的词嵌入表示,并且GCN被学习以将该标签图映射到一组相互依赖的对象分类器中。这些分类器应用于图像人,运动球,网球拍人,领带人,滑雪由另一个子网提取的描述符,使整个网络能够端到端训练。此外,我们提出了一种新的重新加权方案,以创建一个有效的标签相关矩阵,以指导信息传播之间的节点在GCN。两个多标签图像识别数据集上的实验表明,我们的方法明显优于其他现有的最先进的方法。此外,可视化分析表明,我们的模型学习的分类器保持有意义的语义拓扑。1. 介绍多标记图像识别是计算机视觉中的一项基本而它可以应用于许多领域,如医疗诊断识别[7],人类属性识别[19]和零售结账识别[8,30]。与多类图像分类[21]相比,多标签任务更具挑战性,因为我是Z- M. 陈先生X.- S. Wei和Y.郭为通讯作者。郭彦文同时就职于中国信息系统工程科学技术实验室和中国电子科技集团公司第二十八 研 究 所 , 南 京 210007 。 本 研 究 得 到 了 国 家 重 点 研 发 计 划( No.2017YFA0700800 ) 、 国 家 自 然 科 学 基 金 ( 61772257 、61672279)的资助图1.我们在对象标签上构建有向图来建模多标签图像识别中的标签依赖性在这个图中,输出空间的组合性质由于物理世界中的对象通常是1.一、解决多标签识别问题的一种简单方法是孤立地对待对象,并将多标签问题转换为一组二进制分类问题,以预测每个感兴趣的对象是否存在。得益于深度卷积神经网络(CNN)[10,26,27,12]实现的单标签图像分类的巨大成功,二进制解决方案的性能然而,这些方法本质上是有限的,忽略了复杂的拓扑结构之间的对象。这刺激了对以各种方式捕获和探索标签相关性的方法的提出了一些基于概率图模型[18,17]或递归神经网络(RNN)[28虽然前者将多标签分类问题公式化为可能由于高计算复杂度而遭受可扩展性问题的结构化推理问题,但是前者将多标签分类问题公式化为可能由于高计算复杂度而遭受可扩展性问题的结构化推理问题。运动球铁人网球球拍滑雪5178后者基于预定义或学习的一些顺序以顺序方式预测标签。另一系列工作通过注意力机制隐式地对标签相关性进行建模[36,29]。它们考虑图像的关注区域之间的关系,这可以被视为局部相关性,但仍然忽略了需要从单个图像之外的知识推断的标签之间的全局相关性在本文中,我们提出了一种新的基于GCN的模型(又名ML-GCN)捕获标签相关性的多标签图像识别,其属性的可扩展性和灵活性不可能竞争的方法。我们不把对象分类器看作是一组独立的待学习的参数向量,而是从先前的标签表示中学习相互依赖的对象分类器,例如,词嵌入,通过基于GCN的映射函数。在下文中,将生成的分类器应用于由另一子网生成的图像表示,以实现端到端训练。由于嵌入到分类器的映射参数在所有类之间共享(即,图像标签),来自所有分类器的梯度影响基于GCN的分类器生成函数。这隐含地对标签相关性进行建模。此外,为了显式地建模分类器学习的标签依赖关系,我们设计了一个有效的标签相关矩阵来指导GCN中节点之间的信息传播。具体地说,我们提出了一种重新加权的方案来平衡节点和其邻域之间的权重,用于节点特征更新,这有效地消除了过拟合和过平滑。两个多标签图像识别数据集上的实验表明,我们的方法明显优于现有的国家的最先进的方法。此外,可视化分析表明,我们的模型学习的分类器保持有意义的语义结构。本文的主要贡献如下:• 我们提出了一个新的端到端可训练的多标签图像识别框架,它采用GCN映射标签表示,字嵌入,以相互依赖的对象分类器。• 我们对GCN相关矩阵的设计进行了深入的研究,并提出了一种有效的重新加权方案,同时减轻过拟合,过度平滑的问题。• 我们在两个基准多标签图像识别数据集上评估了我们的方法始终如一地获得优于竞争性方法的性能2. 相关工作近 年 来 , 随 着 ImageNet [4] 、 MS-COCO [20] 和PASCAL VOC [5]等大规模手工标注数据集的建立和快速发展,图像分类的性能得到了快速的进步。深度卷积网络[10,11,35,3,32]。许多努力致力于扩展深度卷积网络以用于多标签图像识别。多标签识别的一种直接方法是为每个类别/标签训练独立的二进制分类器但该方法没有考虑标签之间的关系,预测标签的数量会随着类别数量的增加而呈指数增长。例如,如果数据集包含20个标签,则预测的标签组合可以超过1百万(即,,220)。此外,这种基线方法本质上受到忽略对象之间的拓扑结构的限制,而拓扑结构可以是ob的同现模式的重要正则化器对象。例如,一些标签组合几乎不可能出现在物理世界中。为了规范预测空间,许多研究者试图捕捉标签依赖.Gong等人 [9]使用基于排名的学习策略来训练深度卷积神经网络进行多标签图像识别,并发现加权近似排名损失效果最好。另外,Wang et al. [28]利用递归神经网络(RNN)将标签转换为嵌入的标签向量,以便可以使用标签之间的相关性。此外,注意机制也被广泛应用于多标签识别任务中的标签相关性发现在[36]中,Zhu等人提出了一种空间正则化网络,以基于加权注意力图捕获这些多个标签的 Wang等人 [29]引入了空间Transformer层和长短期记忆(LSTM)单元来捕获标签相关性。通过与上述结构学习方法的比较,证明了该图在建模标签关联方面的有效 Li等人 [18]通过使用最大生成树算法在标签空间中创建了树结构图。Li等人。 [17]基于图形Lasso框架产生了图像依赖条件标签结构Lee等人[15]结合了知识图来描述多个标签之间的关系。在本文中,我们利用图结构来捕获和探索标签相关依赖。具体来说,基于图,我们利用GCN来传播多个标签之间的信息,从而学习每个图像标签的相互依赖的分类器这些分类器从标签图中吸收信息,这些信息被进一步应用于全局图像表示以用于最终的多标签预测。这是评估标签共现的更明确的方式。实验结果验证了我们提出的方法是有效的,我们的模型可以在一个端到端的方式进行训练3. 方法在这一部分中,我们详细介绍了我们的ML-GCN模型的多标签图像识别。首先,我们介绍了动机-5179^^图卷积网络棒球手套棒球手套棒球棒d0棒球手套棒球手套棒球手套DD人GC人GC人球球球图2.用于多标签图像识别的ML-GCN模型的总体框架 对象标签用词嵌入Z ∈ RC×d(C为类别数,d为词嵌入向量的维数)表示。在这些标签表示上构建有向图,其中每个节点表示标签。在标签图上学习堆叠的GCN以将这些标签表示映射到一组相互依赖的对象分类器中,即,W∈RC×D,并将其应用于通过卷积网络从输入图像中提取的图像表示,用于多标签图像识别。为我们的方法辩护然后,我们介绍了GCN的一些初步知识,然后详细说明了所提出的ML-GCN模型和相关矩阵构造的重新加权方案。3.1. 动机如何有效地捕捉目标标签之间的相关性,并利用这些标签之间的相关性来提高分类性能,对于多标签图像识别来说都是非常重要的在本文中,我们使用一个图形来模拟标签之间的相互依赖关系,这是一种灵活的方式来捕捉标签空间中的拓扑结构。具体来说,我们将图的每个节点(标签)表示为标签的单词嵌入,并提出使用GCN将这些标签嵌入直接映射到一组相互依赖的分类器中,这些分类器可以直接应用于图像特征进行分类。两个因素促使我们的GCN模型的设计。首先,由于嵌入到分类器的映射参数在所有类之间共享,学习的分类器可以保留词嵌入空间中的弱语义结构,其中语义相关通过GCN更新节点特征,将从相关节点(标签)中吸收信息。3.2. 图卷积网络概述图卷积网络(GCN)在[14]中被引入来执行半监督分类。其基本思想是通过在节点之间传播信息来更新节点表示与对图像中的局部欧氏结构进行操作的标准卷积不同,GCN的目标是学习图G上的一个函数f(·,·),它以特征描述Hl∈ Rn× d和相应的相关矩阵A ∈ Rn× n为输入(其中n表示节点数,d表示节点特征的维数),将节点特征更新为Hl+1∈Rn×d′. 每个GCN层都可以写成非线性函数,H1+ 1=f(H1,A).(一)利用文[14]中的卷积运算,f(·,·)可以表示为概念彼此接近。同时,所有分类器的梯度可以影响分类器生成函数,其隐式地建模标签依赖性。其次,我们设计了一个新的标签相关矩阵的基础上,他们的共现模式显式模型的标签依赖,H1+ 1=h(AH1W1),(2)其中Wl∈Rd×d是要学习的变换矩阵,A∈Rn×n是相关矩阵A的归一化版本,h(·)表示非线性运算,表示学习DfcnnCD点积CNN全局最大池化H生成分类器DC多标签丢失′5180i=1LeakyReLU [22]在我们的实验中发挥了作用因此,我们可以通过堆叠多个GCN层来学习和建模节点的复杂相互关系有关更多详细信息,请参阅[14]。3.3. 用于多标签识别的GCN我们的ML-GCN是建立在GCN之上的。GCN被提出用于半监督分类,其中节点级输出是每个节点的预测得分与此不同的是,我们将每个GCN节点的最终输出设计为相应标签的分类器。此外,图结构(即,相关矩阵)通常在其它任务中被预定义,然而,在多标签图像识别任务中没有提供。因此,我们需要从头开始构建我们的方法的总体框架如图所示。2,它由两个主要模块组成,即,图像表示学习和基于GCN的分类器学习模块。我们可以使用任何CNN基础模型来学习图像的特征在我 们 的 实 验 中 , 遵 循 [36 , 1 , 15 , 6] , 我 们 使 用ResNet-101 [10]作为实验中的基础模型。因此,如果输入 图 像 I 具 有 448×448 的 分 辨 率 , 则 我 们 可 以 从“conv5x”层获得2048×14×14然后,我们采用全局最大池化来获得图像级特征x:x=fGMP ( fcnn ( I;θcnn ) ) ∈RD ,(3)其中θcnn为模型参数,D = 2048.基于GCN的分类器学习我们学习相互依赖人0.1冲浪板冲浪板0.75人图3.两个标签之间的条件概率的说明像往常一样,当但是,在“人“出现的条件3.4. ML GCNGCN通过基于相关矩阵在节点之间传播信息来工作。因此,如何建立相关矩阵A是GCN的一个关键问题。在大多数应用中,相关矩阵是预定义的,然而,在任何标准的多标签图像识别数据集中都没有提供相关矩阵。在本文中,我们通过数据驱动的方式建立这个相关矩阵。也就是说,我们通过挖掘数据集中标签的共现模式来定义标签之间的相关性。我们以条件概率y的形式对标签相关性依赖进行建模,即, P(L)j|Li),其表示当标签Li出现时标签L j的出现概率。如图所示。 3、P(L) j|不等于P(Li|Lj)。因此,相关矩阵是不对称的。为了构造相关矩阵,首先,我们统计训练集中标签对的出现次数,得到矩阵M ∈ RC× C。具体地说,C是范畴的个数,Mij表示Li和Lj的同时发生时间。然后,对象分类器,即,W={wi}C标签Repre-通过使用这个标签共生矩阵,我们可以得到通过基于GCN的映射函数,C表示类别的数量。我们使用堆叠的GCN,其中每个GCN层1将来自前一层(H1)的节点表示作为输入并输出新的节点表示,即,H1+ 1。对于第一层,输入是Z∈RC×d矩阵,其中d是矩阵的维数。标签级单词嵌入。 对于最后一层,输出是W∈RC×D,其中D表示图像表示的维数。通过将学习的分类器应用于图像表示,我们可以获得如下预测分数y=Wx.(四)我们假设图像的地面真值标签是y∈RC,其中yi={0,1}表示标签i是否出现在图像中。整个网络使用传统的多标签分类损失训练如下ΣL=c=1条件概率矩阵Pi=Mi/Ni,(6)其中,Ni表示Li在训练集中的出现次数,并且Pij=P(Lj|Li)表示当标签Li出现时标签L j的概率。然而,上述简单的相关性可能存在两个缺点。首先,标签和其他标签之间的共现模式可以呈现长尾分布,其中一些罕见的共现可能是噪声。其次,来自训练和测试的共现绝对数量可能不完全一致。过拟合的相关矩阵会损害泛化能力.因此,我们建议将相关性P二值化。具体地,我们使用阈值τ来过滤噪声边缘,并且操作可以写为:.0,如果Pijτ1,如果Pij≥τ其中σ(·)是S形函数。其中A是二进制相关矩阵。Cyclog(σ(y<$c))+(1−yc) log(1−σ(y<$c)),(5)Aij=、(7)5181Σp/A=过度平滑问题(2)、我们可以得出结论,在GCN之后,节点的特征将是其自身特征与相邻节点特征的加权和。然后,二进制相关矩阵的直接问题是它可能导致过平滑。也就是说,节点特征可能被过度平滑,使得来自不同集群的节点(例如,厨房相关的vs.”(《易经》卷十六)“道”,“道”,“道”也。为了缓解这个问题,我们提出以下重新加权方案,这导致实验中更快的收敛我们采用ResNet-101 [10]作为特征提取主干,它在ImageNet [4]上进行了预训练。在训练过程中,输入图像被随机裁剪并调整为448×448,并随机水平翻转以增强数据用于网络优化,SGD被用作优化器。动量设定为0.9。重量衰减为10−4。初始学习率为0.01,每40个历元衰减10倍,网络总共训练100个历元。我们基于PyTorch实现了网络。C1.0=1iji/=j 一个ij、如果我J、(8)4.3.实验结果1−p,如果i=j其中A′是重新加权的相关矩阵,并且p确定分配给节点本身和其他相关节点的权重。通过这样做,当更新节点特征时,我们将为节点本身提供固定权重,相关节点的权重将由邻域分布 当p→1时,节点本身将不被考虑。而另一方面,当p→0时,邻近信息趋于被忽略。4. 实验在本节中,我们首先描述评估指标和实现细节。然后,我们报告了两个基准多标签图像识别数据集,即,MS-COCO [20]和VOC 2007 [5]。最后,可视化分析。4.1. 评估指标按照常规设置[28,6,36],我们报告了平均每类精度(CP),召回率(CR),F1(CF1)和平均整体精度(OP),召回率(OR),F1(OF1)用于性能评估。对于每个图像,如果标签的置信度大于0.5,则将其预测为阳性。为了公平比较,我们还报告了前3个标签的结果,参见。[36,6]。此外,我们还计算和报告平均精度(mAP)。总体平均F1(OF1)、平均每类F1(CF1)和mAP对于性能评估相对更重要。4.2. 实现细节在没有另外说明的情况下,我们的ML-GCN由两个GCN层组成,其输出维度分别为1024和2048。对于标签表示,我们采用在维基百科数据集上训练的300-dimGloVe [25]。对于名称包含多个词的类别,我们获得作为所有词的嵌入的平均值的标签表示对于相关矩阵,在没有另外说明的情况下,我们将τ设置在等式(1)中。(7)为0.4,方程中的p为0.4(8)为0.2。在图像表示学习分支中,我们采用负斜率为0.2的LeakyReLU[22]作为非线性激活函数,在这一部分中,我们首先提出了我们的比较与国家的最先进的MS-COCO和VOC 2007年,分别。然后,我们进行消融研究,以评估所提出的方法的关键方面。4.3.1与现有技术的比较Microsoft COCO [20]是一个广泛使用的多标签图像识别基准。它包含82,081张图像作为训练集,40,504张图像作为验证集。这些对象被分为80类,每个图像大约有2.9个对象标签。由于测试集的地面真实标签不可用,我们评估了所有方法在验证集上的性能。不同图像的标签数量也有很大差异,这使得MS-COCO更具挑战性。定量结果见表1。 我们比较了最先进的方法,包括CNN-RNN [28],RNN-Attention [29],Order-Free RNN[1],ML-RNL [15],SRN [36],Multi-Evidence [6]等。对于建议的ML-GCN,我们报告的结果的基础上的二进制相关矩阵(“ML-GCN(二进制)”)和重新加权的分解矩阵(“ML-GCN(重新加权)”)。显而易见的是,我们的基于二进制相关矩阵的ML-GCN方法获得了较差的分类性能,这可能主要是由于在第2节中讨论的过平滑问题。三点四分。所提出的重加权方案可以减轻过度平滑的问题,从而获得优异的性能。与现有的方法相比,我们的方法与建议的重新加权计划一致表现出更好的几乎所有的指标,这表明我们提出的ML-GCN及其相应的重新加权计划的有效性。VOC 2007PASCAL Visual Object Classes Challenge(VOC 2007)[5]是另一个流行的多标签识别数据集。它包含来自20个对象类别的9,963张图像,分为训练集,验证集和测试集。在[2,29]之后,我们使用trainval集来训练我们的模型,并在测试集上评估识别性能为了与其他最先进的方法进行比较5182表1.与MS-COCO数据集上的最新方法进行比较。建议ML-GCN的性能的基础上两种类型的相关矩阵的报告。“Binary”当量(七)、 当量(八)、方法所有前3地图CPCRCF1OP或OF1CPCRCF1OP或OF1CNN-RNN [28]61.2––––––66.055.660.469.266.467.8[29]第二十九话–––––––79.158.767.484.063.072.0无序RNN [1]–––––––71.654.862.174.262.267.7[15]第十五话–––––––74.164.569.0–––SRN [36]77.181.665.471.282.769.975.885.258.867.487.462.572.9ResNet-101 [10]77.380.266.772.883.970.876.884.159.469.789.162.873.6多证据[6]–80.470.274.985.272.578.484.562.270.689.164.374.7ML-GCN(二进制)80.381.170.175.283.874.278.784.961.371.288.865.275.2ML-GCN(重新加权)83.085.172.078.085.875.480.389.264.174.690.566.576.7表2.AP和mAP与VOC 2007数据集上最先进方法的比较“二进制”和“重新加权”的含义方法Aero 自行车鸟船瓶总线 车猫椅子 牛表狗马电机人植物 羊沙发 火车 电视 地图CNN-RNN [28]96.7 83.1 94.2 92.8 61.2 82.1 89.1 94.2 64.2 83.6 70.0 92.4 91.784.293.759.893.2 75.3 99.7 78.6 84.0[第34话]96.4 92.7 93.8 94.1 71.2 92.5 94.2 95.7 74.3 90.0 74.2 95.4 96.292.197.966.993.5 73.7 97.5 87.6 88.5VeryDeep [26]98.9 95.0 96.8 95.4 69.7 90.4 93.5 96.0 74.2 86.6 87.8 96.0 96.393.197.270.092.1 80.3 98.1 87.0 89.7ResNet-101 [10]99.5 97.7 97.8 96.4 65.7 91.8 96.1 97.6 74.2 80.9 85.0 98.4 96.595.998.470.188.3 80.2 98.9 89.2 89.9FeV+LV [33]97.9 97.0 96.6 94.6 73.6 93.9 96.5 95.5 73.7 90.3 82.8 95.4 97.795.998.677.688.7 78.0 98.3 89.0 90.6HCP [31]98.6 97.1 98.0 95.6 75.3 94.7 95.8 97.3 73.1 90.2 80.0 97.3 96.194.996.378.394.7 76.2 97.9 91.5 90.9[29]第二十九话98.6 97.4 96.3 96.2 75.2 92.4 96.5 97.1 76.5 92.0 87.7 96.8 97.593.898.581.693.7 82.8 98.6 89.3 91.9注意强化[2]98.6 97.1 97.1 95.5 75.6 92.8 96.8 97.3 78.3 92.2 87.6 96.9 96.593.698.581.693.1 83.2 98.5 89.3 92.0VGG(二进制)98.3 97.1 96.1 96.7 75.0 91.4 95.8 95.4 76.7 92.1 85.1 96.7 96.095.397.877.493.1 79.7 97.9 89.3 91.1VGG(重新加权)99.4 97.4 98.0 97.0 77.9 92.4 96.8 97.8 80.8 93.4 87.2 98.0 97.395.898.879.495.3 82.2 99.1 91.4 92.8ML-GCN(二进制)99.6 98.3 97.9 97.6 78.2 92.3 97.4 97.4 79.2 94.4 86.5 97.4 97.997.198.784.695.3 83.0 98.6 90.4 93.1ML-GCN(重新加权) 99.5 98.5 98.6 98.1 80.8 94.6 97.2 98.2 82.3 95.7 86.4 98.2 98.496.799.084.796.7 84.3 98.9 93.7 94.0我们报告平均精度(AP)和平均精度(mAP)的结果。2007年VOC的结果见表2。因为之前关于VOC 2007的许多研究结果都是基于VGG模型[26]。为了公平比较,我们还报告了使用VGG模型作为基础模型的结果很明显,我们提出的方法观察到对以前的方法的改进具体地说,建议ML-GCN与我们的重新加权方案获得94。0%mAP,比最先进的技术高出2%。 即使使用VGG模型作为基础模型,我们仍然可以获得更好的结果(+0。8%)。此外,与MS-COCO上的结果一致,重加权方案享有更好的性能比二进制相关矩阵的VOC以及。4.3.2消融研究在本节中,我们从四个不同的方面进行消融研究,包括ML-GCN对不同类型的词嵌入的敏感性,相关矩阵二值化中τ的影响,相关矩阵重新加权的p的影响,以及GCN的深度。不同类型词嵌入下的ML-GCN默认情况下,我们使用Glove [25]作为标签表示,其用作用于学习对象分类器的堆叠GCN的输入。在这一部分中,我们评估了ML-GCN在其他类型的流行词表示下的性能。具体来说,我们研究了四种不同的词嵌 入 方 法 , 包 括 GloVe [25] , Google- News [24] ,FastText [13]和简单的一个热门词嵌入。图4显示了在MS-COCO和VOC 2007上使用不同单词嵌入的结果。如图所示,我们可以看到,当使用不同的词嵌入作为GCN的输入时此外,观察结果(特别是one-hot的结果)证明,我们的方法所取得的准确性此外,使用强大的词嵌入可以带来更好的性能。一个可能的原因可能是从大型文本语料库中学习的词嵌入[25,24,13]也就是说,对于语义相关的概念,它们的嵌入在嵌入空间中是接近的我们的模型可以利用这些隐含的依赖关系,并进一步有利于多标签图像识别。不同阈值τ的影响我们改变等式中的阈值τ(7)对相关矩阵进行二值化,结果如图所示。五、请注意,如果我们这样做,5183地图100806040MS-Coco100806040VOC85807570650.00.10.20.30.40.50.60.70.80.91.0比例95908580750.00.10.20.30.40.50.60.70.80.91.0比例2020(a) 与MS-COCO的比较。(b) 2007年VOC比较mAP CF1 OF1 CF1-3 OF1-3地图图6.不同p值的准确度比较。注意当p= 1时,模型不收敛。图4.不同词嵌入方法的效果。可以清楚地看到,不同的词嵌入几乎不会影响准确性,这表明我们的改进并不完全来自于词嵌入所产生的语义,而不是我们的ML-GCN。表3.在我们的模型中与不同深度的GCN的比较84958382818079787776750.00.10.20.30.40.50.60.70.80.91.0阈值(a) 与MS-COCO的比较。949392919089888786850.00.10.20.30.40.50.60.70.80.91.0阈值(b) 2007年VOC比较可以获得81的mAP。67%的MS-COCO和93。VOC 2007的15%,仍然优于现有的方法。请注意,当p=0时,我们基本上没有显式地包含标签相关性。这种改进得益于我们的ML-GCN模型通过基于共享GCN的映射函数从先前的标签表示中学习对象分类器,该映射函数隐式地对标签依赖性进行建模,如在第12节中所讨论的。第3.1节图5.不同τ值的精度比较。不过滤任何边缘,模型将不会收敛。因此,在该图中没有τ=0的结果 如图所示,当过滤掉小概率的边缘时(即,噪声边缘),提高了多标签识别的准确性。然而,当太多的边缘被过滤掉时,准确度会下降,因为相关的邻居也会被忽略。τ的最佳值为0。MS-COCO和VOC 2007均为4不同p值对相关矩阵重新加权(8)在多标签分类精度上,我们改变了{0,0. 1,0。2、. . .、0. 9,1},如图所示。六、通常,该图显示了在更新GCN中的节点特征在实验中,我们通过交叉验证选择p的最佳值。我们可以看到,当p=0时。2、在MS-COCO和VOC 2007上都能达到最佳性能。如果p太小,图的节点(标签)不能从相关节点(标签)获得足够的信息但是,如果p太大,则会导致过度平滑。另一个有趣的观察是,当p=0时,我们越深越好?我们在表3中显示了我们模型的不同GCN层数的性能结果。对于三层模型,连续层的输出维数分别为1024、1024和2048对于四层模型,维度为1024、1024、1024和2048。如图所示,当图卷积层的数量增加时,两个数据集上的多标签识别性能都会下降性能下降的可能原因可能是当使用更多GCN层时,节点之间的传播将被累积,这可能导致过度平滑。4.4. 分类器可视化我们的方法的有效性已经通过与现有方法和详细的消融研究的比较进行了定量评估。在本节中,我们将学习到的相互依赖分类器可视化,以显示是否可以维护有意义的语义拓扑。图8,我们采用t-SNE [23]来可视化我们提出的ML-GCN学习的分类器,以及通过vanilla ResNet学习的分类器(即,最后一个完全连接层的参数)。可以清楚地看到,通过我们的方法学习的类词保持了有意义的语义地图地图地图最大平均接入点性能(%)最大平均接入点最大平均接入点最大平均接入点MS-Coco多层所有前3地图CF1OF1CF1OF12层83.078.080.374.676.73层82.176.979.773.776.24层81.176.479.472.575.8VOC所有地图94.093.693.05184我们的方法香草ResNet自行车,狗自行车,狗,自行车,狗,自行车,狗,自行车,狗人人,背包人,背包人,背包自行车,背包,自行车,狗,汽车,人,停止标志人,背包自行车,手提包,自行车,人,自行车,人,人红绿灯盆栽人,滑雪板人,滑雪板,人,滑雪板人,滑雪板人,风筝人,滑雪板风筝人,风筝车停车标志人员,远程人员,远程人员,远程人员,远程人员、远程人员、手机人员、手机人员,远程人,手机人,手机狗铁厕所床飞盘椅子书冲浪板沙发泰迪熊香蕉火车鸟电视熊盆栽键盘水槽马花瓶滑雪板网球拍披萨鼠标微波杯停车标志烤箱酒杯停车收费表行李箱风筝羊面包机叉橙色刀人剪刀手袋蛋糕吹风机背包消防栓牙刷勺子热狗西兰花板凳手机三明治大象猫冰箱苹果胡萝卜餐桌棒球棒棒球手套斑马碗伞甜甜圈长颈鹿运动球远程总线滑板笔记本滑雪板牛飞机摩托车车卡车瓶时钟船自行车红绿灯查询(一)自行车,狗,人(b)第(1)款人,滑雪板(c)人员,远程图7.返回的前5个图像与查询图像。左边的返回结果基于我们提出的ML-GCN,而右边的所有结果按照与查询图像的距离以升序排序。topology. 具体而言,学习的分类器表现出聚类模式。在一个超级概念(“运输”)中的分类器(这与常识是一致的,这表明通过我们的方法学习的分类器可能不限于学习分类器的数据集,而是可能具有泛化能力。相反,通过vanilla ResNet学习的分类器均匀地分布在空间中,并且没有表现出任何有意义的拓扑。这种可视化进一步显示了我们的方法在建模标签依赖性方面的有效性。4.5. 图像检索性能除了分析学习的分类器,我们还进一步评估我们的模型是否可以学习更好的图像表示。我们进行了一个图像检索实验来验证这一点。具体来说,我们使用k-NN算法来执行基于内容的图像检索,以验证我们的模型学习的图像表示的区分能力尽管如此,我们还是选择vanilla ResNet的功能作为基线。我们展示了k-NN返回的前5个图像检索结果如图所示7 .第一次会议。对于每个查询图像,根据到查询图像的距离以升序对对应的返回图像进行排序我们可以清楚地观察到,我们的检索结果明显优于vanilla ResNet基线。例如图7(c),我们的方法返回的图像的标签它可以证明我们的ML-GCN不仅可以有效地捕获标签依赖性以学习更好的分类器,而且可以在多标签识别中受益于图像表示学习。5. 结论获取标签依赖关系是多标签图像识别的关键问题之一。为了对这些重要信息进行建模和探索,我们提出了一个基于GCN的模型滑雪板滑雪板沙发遥控器电视花瓶盆栽椅子餐桌键盘鼠标鸟猫酒杯牛狗笔记本瓶羊书杯碗勺子手机马熊 泰迪熊斑马长颈鹿大象铁蛋糕叉刀风筝床水槽吹风机橙色苹果香蕉厕所牙刷时钟摩托车伞滑板自行车网球拍运动球行李箱手提包背包停车标志板凳停车收费表胡萝卜西兰花冲浪板消防栓车总线棒球手套棒球棒人卡车红绿灯船火车飞机剪刀飞盘甜甜圈热狗烤箱微波炉冰箱烤箱三明治披萨(a) t-SNE对我们的模型学习的相互依赖的分类器(b) t-SNE在vanilla ResNet的分类器运输厨房动物食品水果洗 手 间客厅体育电动器具人别人图8.通过我们的模型和MS-COCO上ResNet的vanillia分类器对学习到的相互依赖分类器进行可视化为了从先前的标签表示中学习相互依赖的对象分类器,例如,词嵌入为了显式地对标签依赖进行建模,我们设计了一种新的重加权方案,通过平衡节点与其邻域之间的权重来构建GCN的相关矩阵,以进行节点特征更新。该方案可以有效地缓解影响GCN性能的两个关键因素--过拟合和过平滑。定量和定性结果都验证了我们的ML-GCN的优势5185引用[1] 陈尚福、陈宜臣、叶志宽、王玉强。具有视觉注意力的无顺序RNN用于多标签分类。在AAAI,第6714-6721页,2018年。四五六[2] 陈天水,王周霞,李冠斌,林亮。用于多标签图像识别的递归注意强化学习。在AAAI,第6730-6737页,2018年。五、六[3] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习在CVPR中,第12512[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.ImageNet:一个大规模的分层图像数据库。CVPR,第248-255页,2009。二、五[5] Mark Everingham , Luc Van Gool , Christopher KIWilliams , John Winn , and Andrew Zisserman.PascalVisual Object Classes ( VOC)IJCV,88(2 ):303-338,2010. 二、五[6] 伟峰阁、司北央、益州羽。基于弱监督学习的多标签分类、目标检测和语义分割的多证据过滤与融合在CVPR中,第1277-1286页,2018年。四五六[7] Zongyuan Ge,Dwarikanath Mahapatra,Suman Sedai,and Rajib Chakravorty.胸部X射线分类:多标签和细粒度问题。arXiv预印本arXiv:1807.07247,2018。1[8] 玛丽安·乔治和克里斯蒂安·弗洛克梅尔识别产品:一种基于样本的多标签图像分类方法。在ECCV,第440-455页,2014年。1[9] 龚云超,贾扬青,梁志华,杜雪夫,艾菲.用于多标签图 像 标 注 的 深 度 卷 积 排 名 arXiv 预 印 本 arXiv :1312.4894,2013年。2[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习CVPR,第770-778页,2016年一二四五六[11] 杰虎,李申,孙刚。压缩-激励网络。在CVPR中,第7132-7141页,2018年。2[12] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在CVPR中,第4700-4708页,2017年。1[13] Armand Joulin , Edouard Grave , Piotr Bojanowski ,Matthijs Douze,He'r v eJe'gou,andTomasMi k ol ov.例如xt.zip :压缩文本分类模型。 arXiv预印本arXiv:1612.03651,2016。6[14] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。在ICLR,第1-10页,2017年。3[15] 李中伟、方伟、叶志宽、王玉强。使用结构化知识图的多标签零射击学习。在CVPR中,第1576-1585页,2018年。二、四、五、六[16] Qimai Li,Zhichao Han,and Xiao-Ming Wu.深入了解用于半监督学习的图卷积网络在AAAI,第3538-3545页,2018年。5[17] 李强,乔茂英,边伟,陶大成。用于多标签图像分类的卷积套索。在CVPR中,第2977-2986页,2016年。一、二[18] Xin Li,Feipeng Zhao,and Yuhong Guo.基于概率标签增强模型的多标签图像分类。在UAI,第1-10页,2014年。一、二[19] Yining Li,Chen Huang,Chen Change Loy,and XiaoouTang.基于深层层次背景的人类属性识别在ECCV,第684-700页,2016年。1[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。在ECCV,第740-755页,2014中。二、五[21] L. Liu,P.Wang,C.申湖,澳-地Wang,中国山核桃A.诉D. 亨格尔角Wang和H. T.沈基于组合模型的fisher矢量编码在图像分类中的应用。IEEE TPAMI,39:23351[22] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功