循环图像注释中的语义正则化

58 浏览量更新于2023-10-16 收藏 12.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

128720用于循环图像注释的语义正则化0Feng Liu 1 , 2 Tao Xiang 2 Timothy M. Hospedales 3 Wankou Yang 1 Changyin Sun 101 中国东南大学 2 伦敦玛丽女王大学 3 爱丁堡大学0{ liufeng,wkyang,cysun } @seu.edu.cn, { feng.liu,t.xiang } @qmul.ac.uk, t.hospedales@ed.ac.uk0摘要0“CNN-RNN”设计模式在多种图像注释任务中越来越广泛应用，包括多标签分类和字幕生成。现有模型使用弱语义的CNN隐藏层或其变换作为图像嵌入，提供CNN和RNN之间的接口。这使得RNN需要同时完成两个任务：预测视觉概念并建模它们之间的相关性以生成结构化的注释输出。重要的是，由于通过RNN反向传播梯度来训练CNN的困难，使得CNN和RNN的端到端训练变得缓慢且低效。我们提出了对设计模式的简单修改，使得学习更加有效和高效。具体而言，我们建议使用语义正则化的嵌入层作为CNN和RNN之间的接口。通过对接口进行正则化，可以部分或完全解耦学习问题，使每个问题能够更有效地训练，并且联合训练更加高效。大量实验证明，在多标签分类和图像字幕生成方面实现了最先进的性能。01. 引言0经典的图像识别任务开始接近解决方案，最新的Inception-ResNet [26]在ILSVRC15[24]数据集上实现了3.08%的前5错误率，超过了人类。因此，对于生成图像属性的更丰富描述而不仅仅是简单的分类，包括多标签分类/标记[13, 15, 14, 31]和图像字幕生成[30, 9,16, 33, 35,32]的兴趣越来越大。在多标签分类中，目标是通过注释出现在图像中的所有视觉概念来描述图像，因此标签空间比单标签识别情况更丰富 -标签可以指代场景属性、对象、属性、动作、美学等。这些标签之间存在更丰富的关系，例如，警察是一个人；汽车和天空的共现频率比汽车和海洋更高。图像字幕生成具有类似的目标，其目的是生成一个有序的标签列表，描述一个有效且相关的句子。0生成完整的自然语言句子描述的关键是基于图像内容，而不是简单的无序标签集合。对于这两个问题，一个有效的模型需要很好地完成两个密切相关的任务：预测一组视觉概念标签和建模标签之间的相关性。在标签相关性建模方面，通常采用结构化学习策略，这在多标签分类的情况下有助于更好地区分视觉上模糊的概念，并抑制错误的预测（例如，当存在汽车时，建模汽车-天空-海洋的相关性可以纠正将海洋错误预测为天空）。对于图像字幕生成，结构化学习甚至更加关键，以生成一个有序的单词列表，编码一个有效且相关的句子。0最近，卷积神经网络 -循环神经网络（CNN-RNN）编码器-解码器设计模式在多标签分类[14, 31]和图像字幕生成[29, 30, 33,35]中越来越受欢迎。CNN用于将图像编码为固定长度的向量，然后将其输入到RNN中，RNN将其解码为标签列表（多标签）或组成句子的单词序列（字幕生成）。通过这种编码器-解码器架构，CNN和RNN可以进行端到端训练，输入一张图像并输出一个有序的标签列表。现有的工作在CNN和RNN模型的接口上略有不同（参见图1（a）-（c））。然而，它们共享一个关键特征：提供CNN-RNN接口的图像嵌入是CNN的最终特征层[14, 22,31]（例如Alexnet的FC7层[18]或GoogLeNet的最终池化层[27]）或其线性变换[29, 30]。0使用这样的层作为RNN的输入对于学习端到端的循环图像注释模型有一些不利影响。首先，由于CNN的输出特征没有明确的语义意义，标签预测和标签相关性/语法建模任务现在需要由RNN模型独自承担。这加剧了RNN训练的挑战，因为视觉概念/单词的数量通常很大（MSCOCO训练集中有超过12,000个单词），它们的相关性很丰富。其次，连接的CNN-RNN模型在RNN展开方面实际上相当深入；现有的CNN-RNN模型仅在最终RNN输出上应用监督，并将监督传播回较早（CNN）层。这导致了“消失”梯度[19]的训练困难。此外，必须非常小心地进行CNN和RNN的联合训练，以防止从RNN反向传播的噪声梯度破坏CNN模型。因此，模型的收敛速度通常非常慢[30]。…28730CNN I F0LSTM0（c）0w0CNN I F ...0（b）t=1 t=20LSTM0w0LSTM0w0CNN I F ...0（d）t=1 t=20LSTM0w0LSTM0w0CNN I F0LSTM0LSTM0t=0 t=1（a）0w单词/嵌入图像/联合/嵌入循环/单元输出/层语义/嵌入CNN/层0sˆs0Ie Ie0Ie Je0图1.用于图像注释（多标签分类和字幕）的CNN-RNN架构。在所有模型中，LSTM被用作RNN模型。（a）CNN将图像（I）编码为特征表示（F）。图像嵌入Ie和单词表示经过相同的单词嵌入层后被馈送到LSTM[29]。（b）图像CNN输出特征F设置LSTM隐藏状态[14]。（c）图像CNN输出特征层通过后期融合与LSTM输出集成[22，31]。（d）提出的语义规范化模型。CNN模型通过地面真实语义概念s进行规范化，这些概念作为强有力的深度监督，引导CNN层的学习。CNN预测层ˆs用作图像嵌入，用于设置LSTM初始状态。最佳查看颜色。0tions）和它们的相关性丰富。其次，连接的CNN-RNN模型在RNN展开方面实际上相当深入；现有的CNN-RNN模型仅在最终RNN输出上应用监督，并将监督传播回较早（CNN）层。这导致了“消失”梯度[19]的训练困难。此外，必须非常小心地进行CNN和RNN的联合训练，以防止从RNN反向传播的噪声梯度破坏CNN模型。因此，模型的收敛速度通常非常慢[30]。0在本文中，我们建议改变图像嵌入层，并引入语义规范化到CNN-RNN模型中，以产生更准确的结果，并使模型训练更稳定和更快速。具体而言，我们进行多任务学习，其中辅助任务（除了标记/句子生成）是对图像嵌入/接口层进行规范化，以编码与标签预测任务直接相关的语义上有意义的视觉概念（图1（d））。这可以从几个角度理解：（i）将系统分解为用于生成一元潜势（CNN）的模型，通过单独预测标签，并对它们的关系（RNN）进行建模以进行结构化预测。通过一元CNN负责概念预测，关系RNN模型更能够专注于学习概念相关性/句子生成。在多标签分类情况下，语义规范化的标签空间和RNN输出空间相同，可以看作是对联合分布的CRF解码的类比[36]。（ii）作为深度监督网络的一部分。0work[19]，为实际上是非常深的网络的中间提供辅助监督。这种深度监督提高了准确性和收敛速度[19，27]。在我们的情况下，它在很大程度上消除了RNN梯度向后传播以破坏CNN编码器[30]的问题。因此，它允许更好和更有效地微调CNN模块，以及全面的CNN-RNN模型的端到端训练中的快速收敛。（iii）追求具有更喜欢语义有意义代码的编码器-解码器模型[34]。本文的贡献如下：（1）我们提出了一种新颖的CNN-RNN图像注释模型，它在图像嵌入层的选择和深度监督语义规范化的引入方面与现有模型不同。（2）我们提出的语义规范化使得CNN图像编码器的可靠微调以及端到端CNN-RNN训练的快速收敛成为可能。（3）通过大量实验证明，在多标签分类和图像字幕生成方面，我们实现了最先进的性能。02. 相关工作0深度多标签分类许多早期的研究[15]将多标签分类问题视为多个单标签分类问题，并忽略了标签空间中丰富的相关性。为了建模标签之间的相关性，需要一个结构化输出模型。Deng等人[6]提出了一个层次结构和排除图（HEX）来建模标签的结构；然而，他们只关注了标签之间的排除关系，而忽略了标签之间的层次关系。我们的工作与[6]的主要区别在于我们使用LSTM作为语言模型。与这些模型相比，我们的模型是一个端到端的CNN-RNN模型，它共同学习图像编码和语言解码模块。基于CNN-RNN的图像字幕生成模型已经变得流行。Vinyals等人[29,30]采用了编码器-解码器的方案，将图像特征作为RNN解码器的初始输入，从而根据图像生成句子。在[16]中采用了类似的方法。我们的工作与[29]相关，但我们使用语义概念来规范化CNN-RNN接口层的表示，从而显著提高性能并更容易进行模型训练。最近，引入视觉注意力以提高字幕生成的准确性。Xu等人[33]提出了一种能够顺序关注具有区分性区域以改善字幕生成的模型。You等人[35]提出了将视觉属性和图像特征相结合的方法。引入了注意机制来重新加权属性预测，并与RNN的输入和输出进行合并。图像特征在第一步作为外部指导被提供。这样的注意模型可以很容易地集成到我们的模型中以进一步提高性能。在深度编码器-解码器中引入语义规范化的想法已经在图像合成的背景下得到了利用。Yan等人[34]通过在中间嵌入层引入属性诱导的语义规范化来扩展变分自动编码器[17]。基于生成对抗网络的类似模型也被提出[23]。尽管与我们的策略相似，但目标非常不同：我们使用编码器-解码器架构来对齐文本和图像模态，并使用中间层监督来实现更有效和高效的编码器和解码器训练。main difference being that LSTM is used as the languagemodel. Compared with these model, our model is an end-to-end CNN-RNN model which jointly learns the image en-coding and language decoding modules.CNN-RNN based image captioning models have becomepopular. Vinyals et al. [29, 30] follow an encoder-decoderscheme, and feed image features as the initial input to theRNN decoder, so that sentences are generated according tothe image. A similar approach is employed in [16]. Ourwork is related to [29], but we use semantic concepts toregularise the representation of the CNN-RNN interfacelayer, which leads to signiﬁcantly improved performanceand much easier model training. Recently, visual attentionhas been incorporated to improve captioning accuracy. Xuet al. [33] propose a model capable of sequentially attend-ing to discriminative regions to improve the caption gener-ation. You et al. [35] propose to combine visual attributesand image features. An attention mechanism is introducedto reweight attribute predictions and merged with both theinput and output of the RNN. Image features are fed at theﬁrst step as an external guide. Such attention models couldeasily be integrated into our model to further improve per-formance.Semanticregularisationindeepencoder-decodersThe idea of introducing semantic regularisation to anencoder-decoder model has been exploited in the contextof image synthesis. Yan et al. [34] extend the variationalautoencoder [17] by introducing attribute induced seman-tic regularisation to the middle embedding layer. A similarmodel based on generative adversarial networks is also pro-posed [23]. Despite the similar strategy to ours, the objec-tive is very different: we use the encoder-decoder architec-ture to align the text and image modalities and middle-layersupervision is employed to achieve more effective and efﬁ-cient training of both the encoder and decoder.3.1. CNN-RNNIe = fenc(I),(1)28740专注于单标签分类。深度结构化学习广泛应用于对象分割。例如，Zheng等人[36]提出了一种将CNN模型与CRF相结合的端到端结构化模型。它允许使用高斯边缘潜力快速推理和学习深度模型。Chen等人[2]将其扩展为一种深度模型，将MRF和CNN结合起来以建模输出相关性，并应用于多标签分类。条件图Lasso[20]也有效地对多标签结构进行了建模，但仅适用于浅层模型。这些CNN-CRF/MRF模型在图像分割中效果很好。然而，对于多标签分类，庞大的标签空间、严重不平衡的标签分布以及对可变长度预测的需求挑战了这些模型的应用[31]。最近，CNN-RNN[14,31]模式已被应用于多标签分类，以捕捉标签之间的相关性，并解决标签不平衡和可变长度预测的问题。由于RNN需要顺序输入，在训练之前，无序的标签集被转换为有序列表，例如，频繁的标签排在前面[31]或罕见的标签排在前面[14]。罕见的标签顺序可以提升小类的性能。对于结构化预测，它比CNN-CRF更具计算效率，因为它只迭代到输出所需数量的标签为止。此外，它是一个端到端的预测模型，因为它直接输出标签，而不是预测分数，从而消除了棘手的预测分数阈值启发式算法。我们的模型与[14,31]类似，因为它遵循CNN-RNN设计模式；然而，它使用一个语义正则化的图像嵌入层作为接口层，而不是一个非正则化的CNN特征层。另一方面，将侧面信息纳入多标签分类中也是一种方法，因为侧面信息可能是图像数据的补充。侧面信息可以是用户标签或图像元数据中的组[13,15]。Johnson等人[15]使用非参数方法根据元数据找到图像邻居，然后使用深度网络聚合图像及其邻居的视觉信息以改善分类。在[13]中，标签、组和标签由不同的概念层建模，对应于不同的抽象层次。通过利用双向结构化网络，可以进行自上而下和自下而上的消息传递。侧面信息也可以在我们的模型中利用，但我们表明，即使使用较少的侧面信息，例如仅使用标签，我们的模型也可以显著优于[13,15]中的模型。基于神经网络的图像字幕生成最近的一些字幕生成研究采用自下而上的方法，首先检测单词或短语，然后使用语言模型将其组合成句子。Fang等人[9]提出了一种使用多实例学习首先检测关键词，然后使用关键词生成句子的字幕模型。在[32]中提出了类似的模型。我们的工作与[29]相关，但我们使用语义概念来规范化CNN-RNN接口层的表示，从而显著提高性能并更容易进行模型训练。最近，引入视觉注意力以提高字幕生成的准确性。Xu等人[33]提出了一种能够顺序关注具有区分性区域以改善字幕生成的模型。You等人[35]提出了将视觉属性和图像特征相结合的方法。引入了注意机制来重新加权属性预测，并与RNN的输入和输出进行合并。图像特征在第一步作为外部指导被提供。这样的注意模型可以很容易地集成到我们的模型中以进一步提高性能。深度编码器-解码器中的语义规范化在图像合成的背景下，引入语义规范化到编码器-解码器模型中的想法已经被利用。Yan等人[34]通过在中间嵌入层引入属性诱导的语义规范化来扩展变分自动编码器[17]。基于生成对抗网络的类似模型也被提出[23]。尽管与我们的策略相似，但目标非常不同：我们使用编码器-解码器架构来对齐文本和图像模态，并使用中间层监督来实现更有效和高效的编码器和解码器训练。03. 方法0在介绍我们的语义规范化CNN-RNN之前，我们首先概述现有的CNN-RNN模型。其在多标签分类和图像字幕生成中的应用分别在第4节和第5节详细介绍。0CNN-RNN模型由两部分组成：视觉编码器感知图像的视觉内容并将其编码为图像嵌入；解码器将嵌入作为输入并生成标签（单词）序列。给定一张图片I，视觉编码器将其编码为一个固定长度的向量Ie ∈ Rd × 1，称为图像嵌入：0其中fenc是编码器，可以是一个预训练的CNN，也可以带有一些额外的转换层。所以CNNIF…LSTMLSTMLSTMLSTMCNNIF…BOWLSTMLSTMsssLu(s, ˆs)Lr(π, π∗|ˆs)ˆsˆsit = σ(Wi,h · ht−1 + Wi,c · ct−1 + Wi,x · xt + bi)gt = δ(Wg,h · ht−1 + Wg,c · ct−1 + Wg,x · xt + bg)ct = ft ⊙ ct−1 + it ⊙ gtht = ot ⊙ δ(ct)(2)28750（b）一元模型的预训练0 一个小男孩0一个小男孩正在吃0（c）关系模型的预训练0（a）整个模型的端到端训练0一个小男孩正在吃一个带有彩色糖粒的巧克力甜甜圈。…0字幕：0甜甜圈，餐桌，椅子，人0标签：0 一个0一个小0图2.所提出的语义规范化注释模型的完整流程。真实的语义概念在中间作为强监督用于规范一元模型的训练（a）。由于使用语义概念作为CNN和RNN之间的接口，一元模型和关系模型可以并行预训练，如（b），（c）所示。0Ie可以是一个特征层[14, 22,31]，例如VGG16的FC7层[25]，或者它的线性变换[29,30]。在本文中，我们强制它成为一个语义表示，以更好地与RNN进行交互。然后，RNN解码器将Ie作为条件，并生成一个预测路径π = (a1, a2, ...,ans)，其中对于多标签分类，ai是语义标签，ns是预测的图像I的标签数；而对于图像字幕生成，ai是单词标记，ns是句子的长度。路径是一个有序序列，因此在多标签分类中，必须定义标签的优先级以将标签转换为序列。我们采取了一个罕见的一阶，以便在预测过程中给予罕见类更多的重要性，从而解决标签不平衡问题。已经考虑了许多不同的CNN用于编码器，但对于RNN解码器，几乎所有现有模型都选择了长短期记忆（LSTM）模型[12]。这是因为它通过门控机制控制时间步之间的信息传递，以减轻先前RNN模型训练中的梯度消失/爆炸问题。该模型有两种状态：细胞状态c和隐藏状态h。根据[11]，在时间t的前向传递以输入xt计算如下。0ft = σ(Wf,h ∙ ht−1 + Wf,c ∙ ct−1 + Wf,x ∙ xt + bf) ot= σ(Wo,h ∙ ht−1 + Wo,c ∙ ct−1 + Wo,x ∙ xt + bo)0其中c t 和h t 是模型的细胞状态和隐藏状态，i t , f t , o t是输入门、遗忘门和输出门的激活，0分别是输入门、遗忘门和输出门的激活；W ∙ ,h , W ∙ ,c是循环权重，W ∙ ,x 是输入权重，b ∙ 是偏置。σ(∙)是sigmoid函数，δ是输出激活函数。在时间步骤t，模型使用其上一个预测a t − 1作为输入，并计算可能输出的分布：0x t = E ∙ a t − 1, h t = LSTM(x0y t = softmax(W ∙ h t + b), (3)0其中E是词嵌入矩阵，h t − 1 是时间步骤t −1的循环单元的隐藏状态，W，b是输出层的权重和偏置，at − 1 是上一个预测a t − 1的独热编码，LSTM(∙)是单元的前向步骤。输出y t定义了可能动作的分布，从中采样得到下一个动作a t+1。为了生成与图像相关的序列，解码器必须利用图像嵌入Ie，现有模型通过多种方式实现这一目标。Vinyals等人[29]（图1（a））建议将I e作为LSTM模型的第零步输入，即（h 0，c 0）= LSTM（Ie，0，0），其中0是一个零向量。在这种情况下，词嵌入的权重与图像嵌入共享，这是一个值得怀疑的假设，因为这两个嵌入具有非常不同的含义，并且它们的维度没有对齐。Wang等人[31]和Mao等人[22]不将I e视为LSTM的输入，而是通过输出融合将词嵌入和图像特征结合起来（图1（c））。相比之下，Jin等人[14]使用图像嵌入来初始化LSTM（图1（b）），即设置隐藏状态h 0 = W i∙ I e + b i，其中W i，bi是图像输入的权重和偏置。尽管存在这些差异，现有的CNN-RNN模型具有一个关键的共同特征：图像嵌入Lu(s, ˆs)=�iℓu(si, ˆsi)Lr(π, π∗|ˆs)=�iℓr(πi, π∗i |ˆsi)L=Lu(s, ˆs) + Lr(π, π∗|ˆs),(4)where si is the ground truth concept labels for the i-th train-ing image and ˆsi is the corresponding prediction; For theRNN loss Lr(π, π∗|˜s), π∗i is the ground truth path; πi is thepredicted path, which is a sequence of word tokens or list oftags. The speciﬁc form of the losses will be discussed next.1k is the size of label space in multi-label classiﬁcation. For imagecaptioning, k is the number of visual concepts, which is typically smallerthan the vocabulary size as not all words are visual.3.3. Training and inferenceThe introduction of semantic regularisation in the mid-dle of CNN-RNN allows for more effective and efﬁcientmodel training. It facilitates a two-staged training strategyillustrated in Fig. 2. In the ﬁrst stage, we pretrain the CNNmodel and RNN model in parallel and in the second stage,they are ﬁne-tuned together.CNNFor pretraining of the CNN model (Fig. 2(b)), theground truth semantic concepts si are used as the learningtarget in a standard cross entropy loss for k visual concepts:ℓu(si, ˆsi) =k�jsij ·log(ˆsij)+(1−sij)·log(1−ˆsij), (5)LSTMFor the LSTM pretraining (Fig. 2(c)), the conceptinput ˆsi is ﬁrst connected to a fully connected (FC) layer be-fore being used to set the initial hidden state of the LSTM2.The LSTM model learns to maximise the likelihood of gen-erating the target sequences conditioned on the semantic in-put, and the loss Lr(π, π∗|ˆs) is simply the sum of the nega-tive log likelihood over all time steps. By feeding s , ratherthan ˆs the LSTM can be pre-trained independently of theCNN.Joint CNN-LSTMAfter the CNN and RNN models arepretrained, the whole model can be jointly trained by simul-taneously optimising the deeply supervised joint loss L. Forinference, we condition on the image by setting the initialstate, then feed a start signal and recurrently sample modelpredictions of the previous step as input until an end signalis generated. For multi-label classiﬁcation, we just greedilytake the maximum model output, whilst beam search with awidth of three is employed for image captioning [30].4. Application to Multi-label Classiﬁcation4.1. FormulationTo apply our S-CNN-RNN to multi-label classiﬁcation,we ﬁrst rank the training labels according to their frequencyin the training set and generate a ordered label list with therare labels ﬁrst. We also explore the use of side information[15, 13]: exploiting the noisy user-provided tags availablewith each image. In this case the model in Fig. 2 is slightlymodiﬁed. Speciﬁcally, we pretrain a multiple layer percep-tion (MLP) (single 256 neuron hidden layer and ReLU ac-tivation) to predict the true tags given the noisy metadata.Then we combine the image model with the pretrained tagmodel by summing their predictions as the ﬁnal embeddingˆs), and train them together with a cross entropy loss [37].2This is to allow for the ﬂexibility of using arbitrary LSTM unit size.28760作为CNN和RNN模型之间的接口的I e被认为是一层弱的和隐含的语义，例如CNN特征层或其变换。这意味着RNN必须同时学习从提供的特征中预测语义概念，并对这些概念的相关性进行建模。对于RNN来说，学习预测概念更加困难，因为梯度是从相对较远的监督（RNN在未来时间步骤的输出）反向传播的。此外，微调CNN变得棘手，因为从RNN传播的噪声梯度很容易导致性能下降而不是提升[30]。03.2. 语义正则化CNN-RNN0为了减轻RNN的负担，我们提出了一种分而治之的策略来分离两个任务：语义概念学习和关系建模。具体而言，语义概念学习现在由一元CNN模型执行，该模型以图像（如果有的话还有相关的附加信息）作为输入，并生成语义概念的概率估计。关系建模由RNN模型处理，该模型以概念概率估计作为输入，并对它们的相关性进行建模以生成标签/单词序列。具体而言，我们不再使用CNN特征层作为嵌入I e，而是使用CNN标签预测层，例如Inception网络的概念预测层[28]。由于所选择的嵌入是在地面实况标签/视觉概念的直接监督下进行训练的，因此它具有明确的语义含义：每个单元对应一个语义概念。如图2所示，在我们的语义正则化CNN-RNN（S-CNN-RNN）中，CNN部分以图像I作为输入，并预测语义概念的可能性 ˆ s ∈ R k ×1，其中k是语义概念的数量1。RNN模型以 ˆ s作为输入，并生成序列π。关键意义在于现在可以在RNN输出层和嵌入层 ˆ s上添加监督。这导致了两个损失：概念预测损失 L u ( s , ˆ s) 和关系建模损失 L r ( π, π � | ˆ s )。形式上，我们有4.2. Datasets and settingsDatasetsTwowidelyusedlarge-scalebenchmarkdatasets are selected to evaluate our model. NUS-WIDE [5]dataset contains 269,648 images. Originally coming fromFlickr, there are 5,018 unique user tags released along withthe images. Of them, 81 tags are manually selected andreﬁned as the ground truth [5], covering different aspectsincluding object classes, scenes, and attributes. The groundtruth labels are highly imbalanced: the most frequent tag,sky appears 74,190 times while the rarest one map appears60 times. In addition, the user-provided tags are extremelynoisy and sparse – 8.73 noisy tags per image on average.Following [15, 13], we consider two settings: multi-labelclassiﬁcation with only imagery data and with both imagesand noisy tags as side information. The most popular 1,000noisy user tags are kept and we remove the images withoutany ground-truth tags. As in many Flicker based studies,the numbers of images used by different works vary as theydownload the images at different times. For fair compari-son, we use the same train/test split ratio as [15, 13]; as aresult, 15,000 images are used for training and 59,347 fortesting. Microsoft COCO [21] is popular for tasks such asobject detection, segmentation and image captioning. Fol-lowing [31], we also use it for multi-label classiﬁcation bytreating the 80 object classes as labels. Since there are nor-mally many types of objects in each image, it is naturally amulti-label classiﬁcation problem. Because the label spacecontains objects only and some objects are rather small, itis perhaps more suitable than NUS-WIDE for evaluatinga structured prediction model, as modelling label correla-tion becomes more important to detect visually similar andsmall objects. We also download the original user tags fromFlickr via the provided URLs, and the most frequent 1,000tags are used as side information.We keep the originaltrain/validation split [21] for training and evaluation.Implementation detailsFor fair comparisons with pre-vious work, in our S-CNN-RNN model, we use the caffereference net [8] as our unary CNN subnet on the NUS-WIDE dataset [5], and VGG16 on MS COCO. Both mod-els are pretrained on the ILSVRC12 dataset [24]. For pre-traini

下载后可阅读完整内容，剩余1页未读，立即下载