元数据邻域图协同注意网络用于图像标注

101 浏览量更新于2023-10-17 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2956注意你的邻居：基于元数据邻域图协同注意网络的图像标注张俊杰1，2吴琦3，张建建1沈春华3路建峰21澳大利亚悉尼科技大学2南京理工3澳大利亚阿德莱德大学{俊杰.张@学生。zhang@} uts.edu.aulujf@njust.edu.cn{qi.wu01，chunhua.shen} @ adelaide.edu.au摘要图像作为人们日常生活的视觉反映，在社交网络上被频繁分享，产生了大量的“元数据”，记录了用户与图像的由于内容的多样性和复杂的风格，一些图像在忽略上下文的情况下可能很难识别具有类似元数据的图像，例如“相关主题和文本说明”、“用户的共同朋友”和“附近位置”，形成每个图像的邻域，其可用于辅助注释。在本文中，我们提出了一个元数据邻域图协同注意力网络（MangoNet）模型之间的每一个目标图像和它的邻居。为了准确地从邻域中捕获视觉线索，引入了一种共同关注机制，将目标图像及其邻域作为图节点嵌入，而图边缘则捕获节点对的相关性。通过对邻域图的推理，得到了用于标注目标图像的图表示。在三个基准数据集上的实验结果表明，与现有的方法相比，我们提出的模型具有最佳的性能1. 介绍随着社交网络的兴起，人们喜欢捕捉生动的时刻并在互联网上分享。这些图像以爆炸性的速度产生和传播，这产生了对有效的注释方法的迫切需要，以帮助用户理解和检索图像。通过揭示图像像素内容和标签之间的关系，如分类[3，4]，聚类[8，32]和图形推理[16，27]，在图像注释方面取得了重大进展最近，深度神经*通讯作者图1.对于带有红框的目标图像，它们很难单独识别。然而，在具有类似元数据的neighbours的上下文中，例如基于这种动机，我们提出了一个邻域图作为网络[9，24]已经展示了图像特征学习的高级能力，这激发了各种基于网络的模型[29，31]。这些模型将单个图像视为独立的对象，并专注于在没有上下文信息的情况下求解然而，由于内容的多样性和复杂的风格，一些图像仍然很难单独注释。像Flickr、Instagram和Facebook这样的社交网络将用户与图像的交互记录为大量的元数据，这些元数据以各种形式呈现。最常见的元数据包括集合，即由用户创建的图像组;文字说明，即标签和标题;以及用户简档，即用户名、位置和朋友。作为与其他用户交流的一种手段，这些元数据可以像视觉像素一样提供信息，以理解图像。参见图1作为示例，在没有看到其元数据相关图像的情况下，图像难以被识别和注释有几行工作[1，25]通过利用元数据来支持注释，其中不同类型的元数据2957图2.提出的模型的框架。目标图像i的邻域z通过测量它们的元数据相似性来决定。然后，我们建立的邻域图使用图像表示为节点和相关的边缘。为了准确地从其邻居中收获视觉线索，我们引入了一种共同注意力机制来引导图卷积网络（GCN）并获得图表示，然后将其与目标全局特征连接起来以生成标签置信度。被嵌入到注释框架中。在[12]中，作者提出非参数化地使用Meta数据来生成图像邻居，并基于来自目标图像及其邻居的视觉特征来训练注释模型。然而，来自图像邻居的特征彼此独立地嵌入，并且仅考虑全局特征。在本文中，我们解决的图像标注问题，通过例行检查其邻居在一个图，这是由配备的Meta信息的图像。整个框架如图所示。2.由于元数据显式或隐式地指示图像之间的连接，例如，语义相似的文本描述，如通常与具有相似视觉外观的图像相关联的标签和标题[8]，因此具有相同兴趣的朋友具有跟随具有相似主题的图像的高概率[26]，并且地标照片总是在固定位置拍摄[17]。我们通过测量图像Meta数据之间的相似性来定位图像邻居然后我们建立一个图网络来模拟目标图像和它的邻居之间的相关性。整个邻域被表示为一个图，其中每个节点是对应的图像特征。图的边表示节点对之间的相关性。考虑到邻居的视觉外观的多样性，应根据其内容给予不同的关注。因此，我们引入了一个共同关注机制来获得节点表示。也就是说，我们通过在目标图像及其邻居之间连续切换注意力来获得共同注意力图。给定图结构，我们可以在图上执行推理，并通过应用图卷积运算来推断表示。图形表示最终与目标全局特征连接以预测标签置信度，该置信度在直观的，因为我们想要捕获图像相邻者之间的连接我们将我们提出的模型命名为Meta datan neighbourhoodg-attentionnet work（MangoNet）.总之，我们的方法的主要贡献如下：1) 我们建议通过探索它们的邻域来注释图像，这些邻域由元数据相似性分配。建立了一个邻域图网络来模拟每幅图像与其邻域之间的相关性。学习的图形表示用于辅助目标图像的注释。2) 为了准确地捕获每个图像邻居中有利于理解目标图像的相关区域，我们引入了图共同关注机制来获得图中的节点表示。3) 我们在三个基准数据集上评估了我们提出的方法我们的模型在所有这些方面都达到了最先进的性能。2. 相关作品图像标注作为一种传统的视觉任务，已经被广泛研究了几十年。给定带有手动注释标签的图像训练集，早期作品通过使用手工制作的特征利用像素内容来进行[20]。基于分类的方法[3，4]将每个标签表示为一个独立的类并分别训练分类器，而基于投票的方法[8，32]旨在从训练集中转移标签，这对用于分配邻居的度量敏感。除了对标签对之间的语义相关性进行建模之外，还在[16，27]中采用了概率图形模型随着近年来深度学习方法的发展，几种基于神经网络的模型[6，29，31]元数据邻里关系共同参与指导GCN模型NN邻居家元数据集KNN加权⊕总和⊕图表示共同关注1+预测目标图像Neighborz��（⊕⊕2目标函数N目标全球表示拉法茨河平均池化（Average-Pooling）邻域图……2958提出了提取高级图像特征和捕获高阶标签依赖的方法。尽管训练样本是从社交网络中收集的，但这些工作主要集中在处理没有上下文信息的图像注释。带有元数据的图像注释图像注释最常用的元数据是一组用户提供的标签，其中为图像特征和相关标签学习多模态表示。在[1，7]中，采用CCA和KCCA（核典型相关分析）方法来构建潜在语义空间，而在[25]中获得生成模型来揭示多模态关联。除了用户标签之外，还对其他类型的元数据进行了调查。在[13，17]中使用GPS，EXIF和时间戳来注释地标图像，而在[26]中，友谊有助于标签推荐。在文献[22]中，利用多种文本特征和网络链接信息，构造了一个基于CRF的图像标注推理模型。 Johnson等人建议通过非参数化地探索[12]中的元数据来分配图像邻居，并从目标图像及其邻居中整合特征进行注释。我们在我们的模型中采用了类似的设置，然而，与[12]不同的是，提出了一种基于图的解决方案来对图像邻域进行建模。注意力机制考虑到图像的多标签特性，而不是使用整体特征来表示图像，注意力机制被应用于图像注释。在[10，33]中，采用注意力机制来捕获图像内容和相关标签之间的相关性。与这些工作不同的是，我们不仅适用于目标图像区域的注意力，但也使用一个共同的注意力机制来引导目标图像和它的邻居之间的注意力。图神经网络图是结构化信息的最佳表示。在图中，节点由边连接，边指示对应节点之间的成对关系。在图神经网络（GNN）模型[23]中，邻域信息通过图传播，每个节点的隐藏状态由多层神经网络（MLP）更新，而在[18]中，采用递归门控机制在[14]中，提出了一种可扩展的方法图卷积网络（GCN），以通过卷积运算来学习图结构数据。在[30]中，通过将帧建模为时空图并应用GCN来推断视频类别、区域信息和时间序列用于建立图的边。在[28]中，自注意机制被引入到GCN中以计算节点表示。每个节点都是通过参与其邻居来嵌入的。与以往的工作不同，我们地面的图像邻域，利用其Meta数据，并应用GCN推断建议的邻域图的图像标注问题，和一个新的共同注意力机制被引入到模型之间的目标图像和它的邻居。3. 芒果网我们提出的元数据邻域图协同注意力网络（MangoNet）的主要特点是将图像邻域表示为一个图，以辅助图像注释。通过元数据建立邻域图。引入共同注意机制，引导目标图像与其相邻图像之间的视觉注意，以获得节点表示。整个框架如图所示。二、在下面的部分中，我们首先描述如何通过测量图像邻居的元数据相似性来定位图像邻居;然后通过统一实例级和共同注意机制，介绍了邻域图的结构和节点表示更新过程。最后给出了培训和实施的细节3.1. 邻域图共同关注3.1.1图构建邻域图背后的动机是图结构，其中其边缘指示图像节点之间的相关性通过对图的推理，将节点特征聚合为图的表示，辅助目标图像的标注。元数据作为图像之间的桥梁我们首先通过测量它们的元数据相似性来定位图像邻居。形式上，设I为一组图像，V为一组手动标签|V|=C，且D={（i，v）|i∈I，v<$V}是图像数据集，其中每个图像与标签的子集相关联。设T为I携带的元数据的词汇表。在给定词汇表T的情况下，每个图像i与ti=T元数据的子集相关联我们使用Jaccard度量来度量元数据对之间的相似性，即，给定两个图像i，j∈I，其中ti，tj<$T，<$（i，j）=|tiTJ|/|titj|，其中n（i，j）∈[0，1]. 基于元数据相似性，最近邻方法可以应用于找到邻居。由于大多数元数据是基于用户行为生成的[12]，因此元数据词汇表可能非常大，并且与每个图像相关联的元数据在一定程度上可能不精确[15]。为了准确有效地定位邻居，我们进行层次结构2959注意力地图输入图像信心指数Ins-Attention��（⨂置信度图汇总实例级关注模块图3.我们使用实例级注意力模块来捕获图像内容和相关标签之间的区域语义对应关系搜索策略或语义搜索策略。具体而言，对于具有大元数据词汇量的大规模数据集中的每个图像，如NUS-WIDE [5]，我们基于子图像集内的用户标签执行邻居搜索，该子图像对于具有相对干净的语义元数据的数据集，例如具有人类标记标题的MS-COCO [19]，我们提取图4.共同注意力模块。共同注意力图是目标图像i与其邻域z之间的实例级注意力图的语义重叠。作为骨干CNN模型，以提取卷积层的输出作为视觉特征φ∈N×d，其中N=H×W。给定具有特征φ（i）和相关标签子集v的图像i，每个标签生成如下：将每个图像的元数据表示作为视觉属性的语义表示的加权和。我们将搜索参数设置为每个图像的m个邻域，并获得候选邻域z={z1，.，zm}，用于每个图像i.图像i和它的邻居z完全彼此连接以形成邻域图。3.1.2图形协同注意机制节点注意力由于我们打算从图像邻居获得视觉线索以辅助目标图像的注释，因此对于每个邻居，应根据其内容给予不同的注意力我们采用共同注意机制来生成目标图像及其邻居的注意图，即共同注意机制可以被看作是学习图像视觉表征以有助于节点表征。考虑到我们只有图像级监督信息，即注释的地面实况，我们建议首先生成关于个体图像的实例级注意力图，然后将它们组合为我们期望的共同注意力图，这与我们的动机一致，即来自邻居的视觉线索从与目标图像的公共语义类中收获，并且目标图像用来自其邻居的线索重新访问。实例级注意模块和所提出的共同注意模块的框架如图所示。图3和图4分别。更具体地说，与图像相关联的多个标签通过参考[33]，我们采用实例级注意力模块来捕获每个图像的多标签属性。也就是说，分别从图像地面实况中学习每个标签（实例）的注意力权重，记为InsAtten模块。我们使用ResNet-101 [9]X=q（φ（i），η），x∈RH×W×C（1）β=softmax（x），（2）其中注意力由q（·）估计，参数η为三个卷积层，512个1 × 1的内核，512个3 × 3的内核和C个1 × 1的内核。β是归一化的注意力权重，β∈RH×W×C，其中第三个维度代表整个标签集V的大小。每个注意力图βk∈ RH×W×1，其中k∈[1，C]，用于对第k个标签的图像特征进行加权求和，如下所示：Σik=βkφ（i），（3）L其中l∈[1，N]索引空间位置。加权图像特征i_k表示与k_t_h相关的区域label.然后，可以将加权特征馈送到FC层以生成每个标签的置信度为了有效地学习注意力权重，通过参考[33]，我们将FC层重新制定为应用特定于标签的线性分类器在图像特征φ（i）的每个空间位置，然后基于β聚合标签置信度。也就是说，我们将φ（i）转发到具有C 个 1×1 内核的卷积层，以生成置信度图 E∈RH×W×C，然后E和β进行逐元素相乘和求和，以获得置信度向量y∈ RC，可以使用图像地面真实值v进行训练。由于引入了共同注意机制来捕捉目标图像与其邻域之间的相关性也就是说，目标图像i及其邻居Z（|z|= m）首先通过主干和InsAtten模块，得到注意图βi和βz，以及置信向量yi和yz，其中y∈RC，β∈RH× W× C.目标图像缩放InsAtten地图服务器CoAtten地图服务器⊕⊙⊙⊙=⊙InsAtten邻居模块InsAttenMaps地图库CoAttenMaps地图库=⊙⊕协同注意模块2960我然后，邻居zj的共同注意力可以计算为：其中S是引入的（m+1）×（m+1）维邻接矩阵，Z是（m+1）×d维图像节点的特征，W是可学习的wj= yiyzjΣC01 - 02- 2016刘晓波（（四）wk<$βk）（5）D×D的维度。一个图卷积层的输出Z′是（m+1）×d维，其后是ReLU激活。为了快速收敛，我们使用一个残差-jzjk=1Σ用于更新节点特征的单元i. e. Z′=Z′+Z′。的z=αj<$φ（zj）（6）L更新的节点特征被馈送到平均池化层，得到一个1×D的表示。此外，我们还对目标图像特征进行平均池化，以获得1×d其中，αj∈RH× W×1，n表示广播式元素乘，wj表示目标与其邻居z j之间的语义重叠. 加权和zj是第j个邻居的加权特征为了表示简单，我们省略了加权特征中的φ（·）类似地，对于目标图像i，共同注意力为：计算为：w=yi{yz1... yzj. 中国（7）ΣC全球代表性。两个表示连接在一起被发送到全连接（FC）层以预测最终的置信度向量yneb∈RC，其中C是类别的数量。图示见图23.2. 实现细节我们使用预训练的ResNet-101 [9]作为初始骨干CNN模型φ（·）来提取卷积特征。我们采用分阶段的培训策略：首先，我们对每个数据集上的预训练骨干模型进行微调，01 - 02-2016刘晓波（Σk=1wkβk）（8）然后参考[33]训练InsAtten模块，最后训练CoAtten-GCN模块。在实践上许多ˆi 为（i）（9）L初始训练实例级注意力图的大小大小为14×14，然后最大池为7×7。交叉熵损失函数和随机梯度分解其中，R1是加权的目标图像特征。加权图像（及其邻居）特征将被用作所提出的邻居图中的节点表示。具有关注特征的图推理在我们获得图像i及其m个邻域的关注表示为z∈={z∈0，z∈1，.之后， zm}1. 每两个图像之间的相关性s（z<$k，z<$l）=<$（z<$k）T<$（z<$l），<$k，l∈[0，m]（10）其中，将该f（·）建模为具有隐藏状态大小512的FC层我们在相关矩阵的每一行上应用softmax函数，它将所有边缘的和连接到每个节点的值为1。将归一化矩阵S作为所提出的图的邻接矩阵。我们采用图卷积网络（GCN）[14]在图上进行推理。基于邻域关系的定义，GCN可以计算每个节点的响应并在图中传递消息。GCN的输出是更新的节点特征，其将被聚集以供进一步使用。更具体地，图卷积的一层表示为：Z′=SZW（11）对于统一图形表示，目标图像i的加权特征i被记为z=02961[2]这是一个优化的过程。我们从一开始就使用批量大小64和学习率0.001来训练模型，并将图像邻域的大小改变为m=3/7/15。通过参考[12]，分别执行训练和测试元数据4. 实验在本节中，我们给出了实验结果，并分析了所提出的模型的有效性我们的模型在三个基准数据集上进行评估：[5][10][11][12][13][14][15][16] 我们将我们的模型与几个基线和最先进的方法进行比较。然后进行消融研究，以评估我们的模型的每个组件最后，我们可视化了一些注意力地图的例子来展示它们的有效性。4.1. 数据集NUS-WIDE [5]和Mirflickr [11]都包含大量从Flickr网站收集的图像，这是一个常用的图像共享社交网络。数据集中的每个图像被手动注释预定义标签集的存在。通过参考[12，22]，我们通过Flickr API查询图像的元数据。为了确保数据集的规模，我们对最常见的元数据进行标记和词形化，即用户标签和图像集合的解压缩，用于我们的实验。我们在处理后的元数据集中删除重复项，2962方法映射CmAPOCPCRCF1OPOROF1Meta+Logistic [12]0.5270.6670.6790.3930.4750.7680.4500.567KNN [21]0.4620.669------多CNN [9]0.5800.7890.6930.4080.4900.8100.5650.666[12]第十二话0.5990.7990.6740.4230.4970.7950.5970.682标签属性[8]0.5410.7420.6740.4080.4960.7840.5720.661Link-CRF [22]0.5420.7700.6980.3470.4370.8050.5480.652SRN [33]0.6000.8060.7040.4150.4960.8110.5870.682[12]第十二话0.5980.8030.7250.3900.4780.8000.5980.685MangoNet-m30.6170.8060.7150.4190.5070.8020.5990.686MangoNet-m70.6260.8080.7200.4150.5050.8040.5990.687MangoNet-m150.6280.8080.7390.4100.5010.8060.5990.687方法映射CmAPOCPCRCF1OPOROF1Meta+Logistic [12]0.5710.7190.7710.3340.4290.7670.4940.601KNN [21]0.7450.839------多CNN [9]0.8160.9150.8890.6380.6960.8570.8000.827[12]第十二话0.8250.9160.9020.6300.6850.8600.7980.828标签属性[8]0.8180.8560.7760.6250.6570.8640.5940.704Link-CRF [22]0.8000.9020.8830.6010.6710.8530.7660.807SRN [33]0.8310.9250.8390.7110.7600.8530.8270.840[12]第十二话0.8400.9180.8400.7240.7650.8490.8260.837MangoNet-m30.8490.9240.8700.7130.7690.8650.8220.843MangoNet-m70.8520.9240.8660.7180.7720.8650.8260.845MangoNet-m150.8510.9250.8810.7050.7610.8670.8230.844表1.图像注释结果与其他国家相比最先进的方法和我们在NUS-WIDE上的MangoNet，表示我们模型中使用的邻域大小。有效的URL或地面实况标签。值得注意的是，元数据信息仅用于定位图像邻域，它不影响数据集规模或参与模型训练。我们根据网格搜索来选择元数据集预处理后，NUS-WIDE使用了201，302张图像，其中包含81 个标签， 3 ， 010 个用户标签和 704 个集合主题 ;Mirflickr使用了12，682张图像，其中包含14个标签，450个用户标签。然后，我们选择150，000和51，302张图像进行训练，分别在NUS-WIDE上进行测试;在Mirflickr上分别获取了5200和7482幅训练和测试图像。为在MS-COCO [19]中，每个图像的描述采用一组标题的形式。我们标记标题，并提取最常见的256个视觉属性作为该数据集的元数据。对于视觉属性的语义表示，我们查询预训练的word2vec。我们使用官方的train/val分割，训练时是82，783，测试时是40，5044.2. 评估指标我们采用了几个指标来评估所提出的模型和比较方法的性能。通过参考以前的工作[12，15，33]，我们计算平均精度（AP），它根据查询的相关性对检索结果进行排名。对于每个标签，相关图像的排名应高于不相关图像，标记为mAPC。为了考虑数据集分割上的标签不平衡问题，我们还通过将每个标签分配视为独立标签来计算总体mAP，记为mAPO。此外，为了进行定量评估，我们预测最多三个高于置信阈值0的排名标签。每幅图像5个，与地面实况进行比较。每个标签的平均评分和总体精确度、召回率和F1评分记录为报道了CP、CR、CF1/OP、OR、OF14.3. 整体性能表2.图像注释结果与其他国家相比最先进的方法和我们在Mirflickr上的MangoNet，其中m表示我们模型中使用的邻域大小。方法映射CmAPOCPCRCF1OPOROF1Meta+Logistic [12]0.7030.7790.8510.5560.6430.8820.5750.696KNN [21]0.6990.766------多CNN [9]0.7380.8120.8270.5630.6460.8480.6010.703[12]第十二话0.7500.8180.8160.5580.6350.8390.5820.687标签属性[8]0.7200.8140.8150.5700.6410.8320.6070.703Link-CRF [22]0.7180.7870.8230.5480.6420.8310.5940.693SRN [33]0.7710.8390.8520.5880.6740.8740.6250.729[12]第十二话0.7600.8330.8380.5790.6690.8710.6080.716MangoNet-m30.7750.8430.8710.5790.6760.8950.6190.732MangoNet-m70.7780.8450.8810.5770.6760.9020.6180.733MangoNet-m150.7790.8460.8760.5840.6800.8980.6220.735表3.图像标注结果与其他最先进的方法和我们在MS-COCO上的MangoNet进行了比较，其中m表示我们模型中使用的邻域大小。模型，为了公平比较，我们通过使用我们处理的元数据词汇和数据集分割来重新实现其中的一些[8，12，22，21，33]，并且来自原始模型的手工制作的特征被来自主干的平均池化的2048-d卷积特征替换。为了公平比较，比较的模型在每个数据集上共享相同的微调主干。我们给出了主要比较模型的详细信息如下：- Meta+Logistic[12]：该模型仅使用元数据来研究注释能力。每个图像都由具有元数据词汇大小的二进制向量表示|不|- 维，并使用逻辑损失进行训练以生成标签置信度。- CNN投票[12]：该模型旨在研究图像元数据邻域对基于投票的方法的贡献。与KNN在训练集中分配视觉相似邻域不同然后，测试图像的标签置信度被设置为其Multi-CNN预测和其邻居的Multi-CNN预测的平均值的加权和- SRN[33]：这是一种最先进的基于注意力的模型，它利用实例级注意力作为空间和语义规则化来加强CNN框架。我们报告了来自MS-COCO的结果我们比较了几个流行的和国家的最先进的注释模型，其中涉及利用图像元数据或注意力机制所提出的模型。由于在这些研究中研究了不同的元数据和数据集拆分原始模型，因为我们也使用相同的官方数据集分裂。对于NUS-WIDE和Mirflickr，预处理后的数据集分割是不同的，因此，我们使用与所提出的相同的分割来训练和测试该模型。2963方法映射CmAPOCPCRCF1OPOROF1NGCN0.6120.8070.7270.3810.4700.8080.5950.685MangoNet不含GF0.4990.6910.6560.3280.4120.7390.4920.591InsAtten0.5790.8010.7000.3830.4680.8220.5620.668芒果网0.6170.8060.7150.4190.5070.8020.5990.686方法映射CmAPOCPCRCF1OPOROF1NGCN0.7650.8340.8420.5680.6630.8800.6100.721MangoNet不含GF0.6920.7740.8110.5040.5990.8540.5470.667InsAtten0.7410.8160.8310.5650.6490.8510.6030.706芒果网0.7750.8430.8710.5790.6760.8950.6190.732表4.在NUS-WIDE上对我们的模型进行消融研究方法映射CmAPOCPCRCF1OPOROF1NGCN0.8430.9230.8850.6670.7310.8660.8130.838MangoNet不含GF0.7680.8760.8070.6130.6790.8210.7370.777InsAtten0.8200.9160.8840.6650.7230.8570.8060.831芒果网0.8490.9240.8700.7130.7690.8650.8220.843表5.我们的模型在Mirflickr上的烧蚀研究这两个数据集的模型。- NCNN[12]：该模型采用元数据邻域来辅助目标注释。用来自图像全局特征的隐藏状态大小512嵌入图像邻近我们在这个模型中使用相同的处理元数据邻域来研究共同注意GCN模块的重要性。选项卡.图1、图2和图3示出了我们提出的称为MangoNet的模型在所有三个数据集上的总体评估指标mAPC、mAPO和OF1Meta+Logistic[12]代表每个图像其中二进制向量指示元数据的存在，并且利用关于每个标签的逻辑损失来训练分类器大多数基于视觉的方法都优于该模型，这证明了从图像视觉内容中学习对于注释至关重要。Multi-CNN[9]是一个标准的多标签注释模型，使用逻辑损失作为基线进行训练。CNN投票[12]利用我们处理的相同元数据邻域，并对测试集邻域上的Multi-CNN的标签置信度进行平均。它优于经典的KNN[21]，这表明元数据可以用于消除视觉歧义并定位有助于注释的邻居。对这些模型的优越性能显示了所提出的图结构的意义，探索的邻域功能。而不是平等地对待图像邻居，Tag-Prop[8]是一种训练的最近邻居方法，其中每个图像邻居通过判别式度量学习重新加权。与此模型相比，我们提出的Man-goNet将目标图像及其邻居之间的关系表示为图形。通过图上的推理，我们可以聚合节点特征作为邻域表示来辅助注释，这比该模型性能要好得多。最先进的方法SRN[33]采用实例级注意力机制作为空间和语义规则化，以增强对单个图像的注释，而在我们的模型中，我们不仅考虑目标区域注意力，而且还重视所提出的图模型从邻域中收获的视觉线索。图形解决方案Link-CRF[22]通过元数据定义图像关系，并将其建模为CRF。我们有类似的动机使用表6.我们的模型在MS-COCO上的烧蚀研究由元数据定义的邻域。然而，我们不仅着眼于邻域，而且还提出了通过共同注意机制来捕获来自每个邻域的视觉线索，这取得了更好的效果。最相关的方法NCNN[12]还提出利用相邻特征来辅助注释。然而，在该模型中，这些邻居与目标图像分开嵌入，并且仅考虑整体特征。与NCNN不同的是，我们的MangoNet建立了一个图结构来表示邻域，并采用共同注意力机制来指导图中的消息传递。此外，我们还研究了不同邻域大小的影响，在表中给出了m=3/7/15时的结果正如我们所看到的，在一般情况下，与较大的邻里，视觉模糊可以进一步消除，所提出的模型取得了更好的效果。为了表明整个标签集上所提出的分量的重要性，我们在图中示出了AP值与NCNN的比较（在该模型中没有采用共同注意力邻域图）。5，其中x射线代表每个标签上的NCNN值，y射线是MangoNet的相应值。正如我们所看到的，大多数值都在y=x以上，这证明了所提出的图模型对整个标签集的有效性4.4. 消融研究我们对三个数据集进行消融分析，以分层方式进一步研究拟议组件的单独贡献。我们比较了以下消融模型：- NGCN：这是一个普通的图模型，没有提出的共同关注机制。为了实现该模型，我们将GCN模型中的节点表示替换为整体特征，即平均池卷积特征。- MangoNet w/o GF：这是所提出的模型的共同注意力引导GCN部分，没有目标全局特征连接。- InsAtten：在这个模型中，我们独立地训练实例级别的attention模块。- MangoNet是提议的完整模型，邻域大小m=3，与所有其他消融模型相同结果见表。4、5和6。我们可以看到通过在图模型中引入共同注意机制，我们的MangoNet在NGCN上取得了更好的效果，证明了所提出的at-296410.80.60.40.20NUS-wide00.20.40.60.81NCNN10.80.60.40.20Mirflickr00.20.40.60.81NCNN10.80.60.40.20MS-Coco00.20.40.60.81NCNN图5.建议的MangoNet与NUS-WIDE，Mirflickr和MS-COCO上的NCNN模型的AP比较。注意力机制在捕捉邻域内的相关性。在GCN模块中不使用全局特征连接，我们可以看到，MangoNet w/o GF的性能较低，因为图像邻居不能保证包含与目标图像相关的所有标签。仅实例级注意力模型InsAtten的性能低于其他模型，但基于InsAtten模块生成的共同注意力映射，我们的完整模型MangoNet实现了最佳性能。4.5. 注意力可视化为了验证所提出的注意力机制，我们从共同注意力模块中可视化注意力图。颜色越亮（黄色）表示注意力权重越高。我们在图中显示了给定图像的共同注意力图的例子。6.每两行的第一列是目标图像及其共同注意力图，而其余列是邻居及其对应的注意力图。正如我们所看到的，共同注意力图捕捉了简单和复杂场景中目标图像及其相邻图像之间的相关性。例如，在示例2和示例4中，像“冲浪板”和“球”这样的小主题被很好地捕捉，而在诸如示例3的复杂场景中，“人”和“车”也在邻居中被很好地捕捉。该方法利用共同注意机制寻找最相关的视觉特征，消除识别的不确定性，然后邻域图接收这些特征并在邻域内进行通信，提高了标注模型识别目标图像的能力。5. 结论图像通过丰富的元数据相互连接。充分利用这些联系可以作为图像注释的辅助手段.在本文中，我们探索图像的邻居，通过测量他们的元数据相似性，并提出了一个图网络模型之间的相关性目标图像和它的邻居。引入共同注意机制以利用邻域内的视觉注意在三个基准数据集上的实验结果表明，该模型取得了最好的性能与比较方法。由于文本元数据主要用于我们的实验，我们将探讨图6.目标及其邻居的共同注意力图的可视化第一列是目标及其注意力图，其余列是邻居，其中邻居大小m= 3。其他元数据类型在我们未来的工作。6. 确认我们非常感谢NVIDIA公司捐赠用于本研究的TitanXp GPU。最终模型最终模型最终模型2965引用[1] 兰贝托·巴兰，提贝里奥·乌里基奥，洛伦佐·塞德纳里和阿尔贝托·德尔·宾博。一种跨媒体的图像自动标注模型。载于ICMR，第73页。ACM，2014年。[2] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT’2010的Proceedings施普林格，2010年。[3] 利奥·布莱曼乱林。Machine Learning，45（1）：5[4] 张志忠林志仁Libsvm：支持向量机库。ACM Trans.智能系统技术，2（3）：27，2011。[5] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络在Pro。ACM国际会议图像和视频检索，第48页。ACM，2009年。[6] 龚云超，贾扬青，梁志华，杜雪夫，艾菲.用于多标签图像注释的深度卷积排名CoRR，abs/1312.4894，2013年。[7] 龚云超，柯启发，迈克尔·伊萨德，斯韦特兰娜·拉泽布尼克.一个多视图嵌入空间，用于建模互联网图像，标签及其语义。IJCV，106（2）：210-233，2014年。[8] MatthieuGuillaumin ， ThomasMensink ， JakobVerbeek，and Cordelia Schmid.Tagprop：用于图像自动标注的最近邻模型中的判别度量学习。见ICCV，第309-316页。IEEE，2009年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[10] 黄斐然，张晓明，李周军，梅涛，何月英，赵中华.使用深度多模态注意网络学习社会图像嵌入在proc ACMMultimedia 2017年的研讨会，第460-468页。ACM，2017。[11] Mark J Huiskes和Michael S Lew。mir flickr检索评估。在Pro。ACM国际会议多媒体信息再审判，39-43页。ACM，2008年。[12] Justin Johnson，Lamberto Ballan，and Fei-Fei Li.爱你的邻居：利用图像元数据进行图像标注。在ICCV，第4624-4632页[13] Dhiraj Joshi ， Jiebo Luo ， Jie Yu ， Phoury Lei ， andAndrew Gal- lagher.使用地理标记来获得丰富的标记云用于图像和符号。在社交媒体建模和计算中，第239-256页。Springer，2011.[14] Thomas N Kipf 和 Max Welling 图卷积网络的半监督ICLR，2016.[15] Xirong Li，Tiberio Uricchio，Lamberto Ballan，MarcoBertini，Cees GM Snoek，and Alberto Del Bimbo.将语义鸿沟社会化：图像标签分配、细化和检索的比较研究。ACM Computing Sur-veys，49（1）：14，2016.[16] Xin Li，Feipeng Zhao，and Yuhong Guo.基于概率标签增强模型的多标签图像分类。 Proc. Uncertainty inArtificial Intell，2014.[17] YunpengLi ， DavidJCrandall ， andDanielPHuttenlocher. 大规模图像采集中的地标分类。载于ICCV，第1957-1964页。IEEE，2009年。[18] Yujia Li ， Daniel Tarlow ， Marc Brockschmidt ， andRichard S. 泽梅尔门控图序列神经网络 CoRR ，abs/1511.05493，2015年。[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得·多尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.[20] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV，60（2

下载后可阅读完整内容，剩余1页未读，立即下载