没有合适的资源?快使用搜索试试~ 我知道了~
图像字幕学习机制及新对象分类的研究
6580图像字幕中学习新对象的学习机制姚婷、潘英伟、李业豪、梅涛微软研究院,北京,中国中国科学技术大学,中国合肥中山大学,中国{tiyao,tmei}@ microsoft.com,{panyw.ustc,yehaoli.sysu}@ gmail.com摘要图像字幕通常需要大量的训练图像-句子对。然而,在实践中,获取足够的训练对总是昂贵的,使得最近的字幕模型在其描述训练语料库之外的对象的能力方面受到限制(即,小说对象)。在本文中,我们提出了具有复制机制的长短期记忆(LSTM-C)-一种新的架构,将复制纳入卷积神经网络(CNN)和递归神经网络(RNN)图像captioning框架,用于描述标题中的新对象-S.具体而言,利用免费提供的对象识别数据集来开发新对象的分类器。然后,我们的LSTM-C很好地将解码器RNN的标准逐词句子生成与复制机制相结合,后者可能会在输出句子的适当位置从新对象中选择单词在MSCOCO图像字幕和ImageNet数据集上进行了大量的实验,证明了我们提出的此外,优越的结果相比,国家的最先进的深模型。1. 介绍用完整和自然的句子自动描述图像的内容,这是一个被称为图像字幕的问题,例如对机器人视觉或帮助视力受损的人具有很大的潜在影响。计算机视觉和自然语言处理领域都对这一新兴课题产生了浓厚的研究兴趣。最近在这个问题上的大多数尝试[4,23,26,29]是基于卷积神经网络(CN-N)和递归神经网络(RNN)的序列学习方法,其主要灵感来自于在机器翻译中使用RNN的进步[21]。那个...检测到的对象:猫,行李箱,衣服,包包,行李,眼睛.一只猫坐在红色的椅子LSTM-C:猫躺在行李箱图1.一个物体识别和图像字幕的例子输入是图像,而输出分别是检测到的对象(上行:图像中检测到的对象;中间一行:用LRCN [4]图像字幕方法生成句子;最下面一行:由我们的LSTM-C模型生成的句子。SIC IDEA是用于翻译的编码器-解码器机制。具体来说,CNN被用来编码图像内容,然后解码器RNN被用来生成自然句子。虽然报告了令人鼓舞的性能,但序列学习方法直接从图像和句子对学习,这在它们描述训练数据之外的对象的能力方面失败新奇的对象。以图1中的图像为例,由流行的图像字幕方法长期递归卷积网络(LRCN)[4]生成的输出句子无法描述“手提箱”,更重要的是,手动标记大规模图像字幕数据集是智力上昂贵且耗时的过程。在本文中,我们证明了上述限制可以通过结合外部视觉识别数据集的知识来缓解,这些数据集可免费用于开发对象检测器。具体来说,我们提出了一种新的长短期记忆与复制机制(LSTM-C)框架,以产生单词集成的“复制机制”。搜索机制起源于人类的语言交流,是指在输入序列中定位某一段,并直接将其放入输出序列中的机制[7]。其背后的精神是人类在语言处理过程中的死记硬背,需要借鉴6581到输入的子序列。我们在这里扩展了复制的思想,选择从外部来源学习的新对象,并将它们放在生成的句子中的适当位置。LSTM-C框架的概述如图2所示。给定一幅图像,CNN用于提取视觉特征,这些特征将在初始时间步被馈送到LSTM中用于句子生成。同时,输入图像的对象也由在识别数据集上预训练的在整个架构的顶部设计了一个复制层,以适应LSTM的生成模型通过将复制机制集成到图像字幕中,从检测到的对象中复制单词“手提箱”,并将其输出到由LSTM-C生成的句子中,如图1所示。整个架构都是端到端训练的。本文的主要贡献是提出了LSTM-C框架,通过引入外部资源的知识来解决图像字幕任务中预测新对象的问题这个问题也导致了一个优雅的观点,如何适应生成模型和复制机制从检测到的对象生成句子,这是一个尚未完全理解的问题。2. 相关工作我们将相关的作品简单地分为两类:图像字幕和新颖对象字幕。第一部分回顾了意象造句的研究,第二部分考察了近年来各种试图在语境中描述新奇事物的造句模式。2.1. 图像字幕对图像字幕的研究从三个不同的维度进行:基于模板的方法- s [11,14,27],基于搜索的方法[3,6,15],以及基于语言的模型[4,10,23,24,26,28,29]。基于模板的方法将模板用于句子生成并将句子分成几个部分(例如,主语、动词和宾语)。有了这样的句子片段,许多作品将每个部分与视觉内容对齐(例如,[11]中的CRF和[27]中的HMM),然后为图像生成句子。显然,它们大多高度依赖于句子模板,生成的句子往往具有句法结构。基于搜索的方法[3,6,15]这个方向确实可以实现人类水平的描述,因为所有的输出句子都来自现有的人类生成的句子。然而,收集人类生成的句子的需要使得句子库很难扩大。与基于模板和基于搜索的模型不同,基于语言的模型旨在学习视觉内容和文本的公共空间中句子生成具有更灵活的句法结构的新颖句子在这个方向上,最近的工作主要使用神经网络来探索这种概率分布,并在图像字幕任务中取得了令人满意的结果。Kiros等人。[10]通过提出多模态对数双线性神经语言模型,采用神经网络为图像生成句子。在[23]中,Vinyals等人提出了一种端到端的神经网络架构,通过利用LSTM为图像生成句子,并在[26]中进一步结合注意力机制,以便在生成相应的单词时自动关注突出对象最近,在[24]中,当注入现有的最先进的基于RNN的模型时,高级概念/属性被证明可以在图像字幕任务上获得明显的改进。这些高级属性在[29]中进一步用作语义注意力,并在[17,28]中对视觉特征进行复杂表示,以增强图像/视频字幕。2.2. 新颖的对象字幕新对象字幕是最近受到越来越多关注的新问题,它利用额外的图像-句子配对数据[13]或未配对的图像/文本数据[8,22]来描述现有基于RNN的图像字幕框架中的新对象。[13]是早期的作品之一,它通过仅使用少量成对的图像-句子数据来扩大原始的有限词词典以描述新颖的对象特别是,提出了一个转置的权重共享计划,以避免大量的再训练。相反,对于大量可用的未配对图像/文本数据(例如,ImageNet和Wikipedia),Hendricks等人。[8]显式地转移语义相关对象的知识,以在所提出的深度组合字幕(DCC)中组合关于新对象的描述。在[22]中,通过同时优化视觉识别网络、基于LSTM的语言模型和具有不同来源的图像字幕网络,将DC-C模型进一步扩展到端到端系统。我们的模型主要集中在后一种情况下,在企业的知识,从免费提供的非配对对象识别数据的新对象字幕。与以前的方法不同,这些方法仅仅依赖于通过解码器RNN生成标准的逐词句子,我们将常规解码器RNN与复制机制集成在一起,该机制可以同时3. 图像加字幕机制我们的长短期记忆与复制机制(LSTM-C)框架的主要目标是通过将复制机制结合到图像帽的解码阶段来描述输出句子中的新对象。6582CNN对象分类器#开始aa...行李箱......一(a)(b)第(1)款猫...行李箱#end图2. 长短期记忆与记忆机制(LSTM-C)的概述,用于描述新的对象(更好地查看颜色)。(a)Wg和Wc分 别 是成对图像-句子数据集和未成对对象识别数据集上的词汇表。(b) CNN提取的图像表示在初始时被注入到LSTM中,用于标准的逐词句子生成。同时,利用在未配对对象识别数据集上学习的对象分类器来检测对象候选者,这些对象候选者被额外地并入LSTM中,用于将它们直接为了更好地利用标准逐词句子生成的生成机制和我们采用的复制机制,专门设计了一个复制层,将它们集成到端到端的可训练架构中。定。LSTM-C的整体训练类似于常规CNN加RNN系统,通过最小化能量损失来估计解码阶段中生成的单词之间的上下文关系特别地,我们不仅通过通用RNN解码器的自然生成,而且还通过从在大部分对象识别数据集上学习的检测到的对象中直接“复制”来测量目标词的对数概率框架概述如图2所示。在下文中,我们将首先定义图像的表示,句子中的顺序词和从图像中检测到的对象,其次是图像字幕中的序列其次,为了从小说中选择单词并将它们放在输出句子中的适当位置,我们从像人类一样死记硬背的观点出发,提出了图像字幕的复制机制。最后,在CNN + RNN框架下给出了LSTM-C的总体目标和优化策略。从技术上讲,我们在CNN + RNN架构的顶部设计了一个复制层,它结合了生成和复制机制来优化整个网络。3.1. 符号假设我们有一个图像I要由一个文本句子S来描述,其中S ={w1,w2,...,wNs}由Ns个单词组成。设I∈RDv和wt∈RDw分别表示图像I的Dv维视觉表征和句子S中第t个词的Dw维文本特征. 由于句子是由一系列单词组成的,所以一个句子可以用一个Dw×Nsma-W[w1,w2,., [2019-05-15]每一个字都是一个字,作为其列向量。成对的图像-句子数据的词汇表表示为Wg。此外,我们利用免费提供的对象识别数据集来训练对象分类器,这些分类器将被注入到我们的CN-N加RNN系统中,用于新的对象字幕。设Wc表示用于不成对对象识别的词汇表数据集,图像I包含每个对象 wi∈Wc的概率表示为δ(wi)。更具体地,对于具有单个标签的外部图像(例如,ImageNet[19]),采用标准CNN架构[20]来训练对象检测器,而对 于 具 有 多 个 对 象 的 图 像 数 据 ( 例 如 ,MSCOCO[12]),我们遵循[5]并通过使用多实例学习(MIL)的弱监督方法来3.2. 图像字幕受最近在统计机器翻译中利用的概率序列方法的成功的启发[1,21],我们的目标是基于RNN模型以端到端的方式制定我们的图像字幕模型,该模型首先将给定图像编码为固定维度的向量,然后将其解码为由连续单词组成的目标输出句子。因此,给定图像,我们在这里利用的目标句子的序列建模问题通常可以通过最小化以下能量损失函数来公式化:E(I,W)= − log Pr(W|(1)其是给定视觉图像的正确文本句子的负对数概率。对象分类器...多层多层LSTMLSTMLSTMCNN行李箱袋子猫行李衣服眼睛多层多层LSTMLSTM鹿肉烘烤机聊天#开始衣服出租车#end门水袋猫运行眼睛人一花窗口瓶手提行李箱微波公共汽车球拍沙发斑马一只#end袋猫行李箱一只#end袋猫行李箱一只#end袋猫行李行李箱一只#end袋猫行李行李箱一只#end袋猫行李箱一只#end袋猫行李箱一只#end袋猫行李箱一只#end袋猫行李箱6583不wMctt+1我由于该模型在每个时间步在句子中产生一个单词,因此很自然地应用链式规则来对连续单词的联合概率进行建模。因此,句子的对数概率由单词上的对数概率之和给出,并且可以表示为ΣNs对数Pr(W|I)= log Pr(wt|我,我,。. . ,wt−1)。(二)t=1在编码步骤中,图像表示被转换为LSTM的输入,然后在接下来的解码步骤中,单词嵌入xt将与前一步在解码阶段,给定第t个时间步长的LSTM单元输出ht,广泛采用的下一个单词预测方法是生成机制[1],其计算生成任何目标词的相应概率wt+1as通过最小化这种损失,在给定图像的视觉内容的情况下,可以保证句子中的单词我们将此任务表述为一个可变长度的序列到序列问题,并对参数分布Pr(wt)进行建模|我,我,。. . ,wt−1)在等式中。(2)LSTM是图像/视频字幕中广泛使用的RNN类型[23,28,16,25]。LSTM层的向量公式如下所示。对于时间步长t,xt和ht分别是输入和输出向量,T是输入权重。s矩阵,R是递归权重矩阵,b是偏置向量。Sigmoidσ和双曲正切φ是元素-明智的非线性激活函数。两个向量的点积用表示。给定输入xt、ht−1和ct−1,时间步t的LSTM单元更新为:gt =φ(Tg xt +Rg ht−1 +bg),it =σ(Ti xt +Riht−1 +bi),Prg(wt+1)= w<$Mght,(6)其中Dh是LSTM输出的维数,Mg∈RDw×Dh是文本特征的生成机制。对于标准的逐词句子生成模型,在生成的概率测量之后应用softmax函数,机制,以在词汇表Wg中的所有单词上产生归一化的概率分布。3.3. 复制机制复制机制已被证明对序列学习[7]有效,可以解决文本摘要中的词汇表外(OOV)问题这种机制被认为是人类语言处理过程中的死记硬背,将输入序列中已有的片段直接在精神上相似,我们扩展了ft =σ(Tfxt+Rf ht−1+bf ),ct= gtit+ct−1 ft,- 图像字幕中的复制机制,以直接ot =σ(To xt + Ro ht−1 + bo),ht =φ(ct)ot,其中gt、it、ft、ct、ot和ht分别是LSTM的单元输入、输入门、遗忘门、单元状态、输出门和单元输出如上所述,LSTM模型被用来预测给定图像内容和先前单词的句子中的每个单词。我们把嵌入的图像表示-特别是对于从未出现在成对的图像-句子数据中的新颖对象,能够实现新颖对象字幕。具体而言,在第t个解码步骤,我们直接将Wc中的任意单词wt+1与对应的LSTM cell输出ht之间的相似度作为将目标单词w t +1“复制”到目标句子的概率在初始时刻,它会将视觉内容告知LSTM中的整个记忆细胞。考虑到图像I和Prc(w.t+1)=0⊤电话+1Σhtδ(wt+1),(7)对应句子W [w0,w1,.,wNs],LST-其中,Mc∈RDw×Dh是变换矩阵,M更新过程如下:x−1=T I,(3)xt=Tswt, t∈ {0,. . .,Ns− 1},(4)在复制机制中映射单词的文本特征,m和m是逐元素非线性激活函数。还值得注意的是,我们另外将对象分类得分δ(wt+1)并入以下公式中:ht=f . xt ,t ∈ {0,. . . ,Ns − 1},(5)“copying”物体出现在图像中的几率。 下-其 中 De 是 LSTM 输 入 的 维 数 , TI∈RDe×Dv 和Ts∈RDe×Dw分别是词的图像表示和文本特征的变换矩阵,f是LST-M单元内的更新函数。请注意,对于输入句子W[w0,. . . ,wNs],我们把w0作为表示句首的起始标志词,wNs作为表示句尾的结束标志词,两者都是特殊的标志单词被包括在成对图像-句子数据的现有词汇表Wg更具体地说,在最初6584一个谎言的假设是,除了LSTM单元输出的影响之外,图像中这个词的分类得分越大,在目标句子中“复制”这个词的概率就越高3.4. LSTM与并行机制与现有的图像字幕方法不同,这些方法总是用生成机制来建模序列学习以生成句子,我们提出的LSTM-C架构进一步将复制机制纳入到65851Pr(wt+1)LSTM在解码阶段描述句子中的新对象。特别地,给定LSTM单元在每个解码步骤的输出,我们同时利用生成和复制机制来测量生成任何目标词。由于复制机构的词汇表Wc是从外部图像数据导出的,因此它可以包括在图像-句子数据的词汇表Wg在这种情况下,我们直接考虑方程中的复制机制的概率。(7) 作为最终的概率这些新奇的物品。同样地,对于只长到W g的词,它们的最终概率完全取决于它们在等式中对应的生成机制的概率。(六)、根据Wg和Wc之间的重叠词,我们线性地融合来自生成和复制机制的概率作为最终输出概率。能力因此,在第t个解码步骤,任何目标词wt+1的最终输出概率Prt(wt+1)定义如下:布吕格Ket,wt+1∈Wg<$Wc布雷格c层测量每个单词的输出概率,考虑到生成和复制机制,如等式中定义的。(8)之后是用于整体优化的softmax归一化操作。在句子生成的测试阶段,我们在每个时间步从Wg和Wc的组合词汇中选择概率最大的词,并将其嵌入的文本特征设置为下一个时间步的LSTM输入,直到输出结束符号词。4. 实验我们通过在两个图像数据集上进行新的对象捕获任务来评估和比较我们提出的LSTM-C与最先进的方法held-out Microsoft COCO Caption 数 据 集 ( held-outMSCOCO)[8]是MSCOCO数据集[12]和ImageNet[19]的子集,这是一个大规模的对象识别数据集。4.1. 数据集拒绝了MSCOCO 所保持的MSCOCO由MSCOCO的子集组成,该子集排除了所有图像-λePrt(wt+1)+1−λePrt(wt+1),w∈ W<$W句子对包含至少八个特定的ob-KPrt(wt+1)=1K1Prc(wt+1)t+1gC,MSCOCO.值得注意的是,在[8]之后,ket,wt+1∈Wg<$Wc0,否则(八)通过对MSCOCO分割挑战中的所有80个对象进行聚类,选择8个特定对象,每个聚类排除一个对象,从而产生最终的8个对象其中λ是两个机制之间的折衷参数。nisms,K是softmax归一化项。因此,我们在训练阶段为每个图像-句子对定义能量损失函数如下:Ns−1E(I,S)= −logPrt(wt +1)。(九)t=0假设N表示训练集中图像-句子对的数量,我们有以下优化问题:新的评价对象:“瓶子”,“公共汽车”,“沙发”,“微波炉”,“比萨饼”,“球拍”,“手提箱”和“斑马”。对于这个子集,每个图像有五个人工注释的描述。由于官方测试集的注释未公开提供,因此遵循[8],我们将M- SCOCO验证集分为两个:50%用于验证,另外50%用于测试。对于保持出的M-SCOCO上的实验,用于复制机制的对象分类器用包括八个新对象的所有MSCOCO训练图像来训练,并且用于序列建模的LSTM用MSCOCO训练集中的所有句子来预训练,min1TI,Ts,Mg,Mc,θNΣNi=1 E(I)(i),S(一))而整个CNN加RNN系统都是用,配对的图像-句子数据仅来自保持出的MSCO-+TI2+Ts2+Mg2+Mc2+θ22 222 2(十)指挥官训练装备MSCOCO的测试集是其中第一项是总能量损失,其余项分别是图像嵌入、LSTM输入的文本嵌入、生成机制中的文本嵌入、复制机制中的文本嵌入和LSTM的正则化项。此外,在[22]之后,我们还将整体能量损失与外部句子数据上的文本特定损失进行了集成,以保持模型根据方程中的总损耗目标求解优化问题。(10)我们在LSTM的顶部设计了一个复制层,其中包含两个文本嵌入参数,用于生成和复制机制。在训练中,这种模仿然后用来评估我们的LSTM-C模型的能力来描述这八个新奇的物体。ImageNet. 我们还在大规模的目标识别数据集上进行了实验,ImageNet,用于评估。与[22]类似,在我们的实验中采用了ImageNet的一个子集,其中包含634个在MSCOCO数据集中不存在的不同对象特别是,每个类别中大约75%的图像用于训练,其余的用于测试,导致训练集和测试集分别有493,519和164,820张图像。对于ImageNet上的实验,我们训练对象分类器,6586在ImageNet训练集上复制机制,并使用MSCOCO训练集中的所有句子预训练LSTM部分就整个CNN + RNN系统而言,利用MSCO-CO训练集中的成对图像-句子数据进行优化由于ImageNet的这个子集中没有一个对象在配对的图像-句子数据中被处理,我们为ImageNet的测试集中的图像生成句子,并根据经验评估我们的LSTM-C模型描述634个新对象的能力。4.2. 实验设置功能和参数设置。对于图像表示,我们从在ImagenetILSVRC 12数据集[19]上预训练的16层VGG [20]中获取4,096路fc7层的输出。句子中的每个词都表示为嵌入式one-hot表示和Glove的组合向量[18] 代 表 。 对 于 成 对 的 图 像 - 句 子 数 据 ( 例 如 ,MSCOCO),我们选择MSCOCO上最常见的1,000个词作为对象,并纯粹基于MSCOCO的训练数据,用MIL模型[5]训练相应的对象分类器。MIL模型主要基于16层VGG扩展的全卷积网络(FCN)设计。对于未配对的对象识别数据(例如,ImageNet),通过直接微调在Imagenet ILSVRC 12数据集上预训练的16层VGG来训练634个对象分类器。LSTM中的输入层和隐藏层的维度都设置为1,024。利用生成机制和复制机制两者的折衷参数λ根据经验被设置为0.2。λ的灵敏度将在后面讨论。实施详情。我们主要基于Caffe [9]实现我们的图像字幕模型,Caffe是广泛采用的深度学习框架之一。特别地,初始学习率和小批量大小分别设置为0.01和1,024。我们的LSTM-C中的整个CNN加RNN系统在两个数据集上训练了50个epoch,或者我们停止训练,直到相应的验证集上的性能不再评估指标。为了定量评估我们提出的MSCOCO模型,我们采用最常见的标题度量,即,METEOR[2],用于评估描述质量,该质量针对所有地面真实句子计算单字精确度和召回率,并对WordNet同义词和词干标记进行一些预处理。然而,正如[8]中所指出的,在不提及新对象的情况下,仍然有可能获得高METEOR分数S.因此,为了充分验证模型描述新对象的能力,利用F1-score作为另一个评估度量,其确定特定的新对象是否在包含该新对象的图像的生成描述中被提及。 上述所有指标为了公平比较,使用[8]发布的代码 1计算。为了在ImageNet上评估我们的模型,而不使用任何地面真值语句,我们使用另外两个指标来执行新对象字幕任务:描述新对象(小说)[22]和准确度[22]评分。小说分数测量生成的描述中提到的所有634个小说对象的百分比,即,对于每个新对象,模型应该将其合并到ImageNet图像的至少一个句子中。对于每个新对象的准确度分数,它表示属于该新对象的图像的百分比,该图像可以通过在句子中寻址该新对象而被正确地准确度分数最终在所有634个新对象上平均。4.3. 比较方法为了从经验上验证我们的LSTM-C模型的优点,我们比较了以下最先进的方法,包括常规图像字幕和新颖的对象字幕方法。• 长期递归卷积网络(LRC- N)[4]:LRCN是一种基本的基于RNN的图像字幕模型,它输入视觉图像和在每一个时间步将前一个单词放入LSTM中以生成句子。LRCN作为一种没有考虑新对象机制的常规图像字幕模型,仅在没有任何新对象的成对图像-句子数据上训练。• 深度组合字幕(DCC)[8]:DCC首先使用外部未配对的数据,然后将这两个部分结合起来,以学习用配对的图像-句子数据训练的改进的字幕模型。最后,DCC显式地传递语义相关对象的知识,以组成具有新对象的描述。• Novel Object Captioner(NOC)[22]:最近提出的,NOC通过联合优化三个部分来扩展DCC:视觉识别网络,基于LSTM语言模型和图像字幕网络。请注意,为了与使用一个热向量作为其单词表示的LRCN和DCC进行公平比较,我们包括两个运行,即,NOC(Onehot)和NOC(One hot+Glove)是我们对NOC的实现。后者的词表示是嵌入式单热向量和手套向量的组合。• 长短期记忆(LSTM-C):我们设计了两个运行,即,LSTM-C(单热)和LSTM-C(单热+手套),对于我们提出的端到端架构,用于新颖的对象字幕。1https://github.com/LisaAnne/DCC6587表1.每个对象的F1,平均F1和METEOR分数,我们提出的模型和其他国家的最先进的方法,对新的对象字幕。所有值均报告为百分比(%)。模型F1瓶F1总线F1沙发F1微波F1披萨F1球拍F1旅行箱F1斑马F1平均值流星LRCN[4]00000000019.33DCC[8]4.6329.7945.8728.0964.5952.2413.1679.8839.7821国家奥委会[22]- (一个热)16.5268.6342.5732.1667.0761.2231.1888.3950.9720.7- (一个热+手套)14.9368.9643.8237.8966.5365.8728.1388.6651.8520.7LSTM-C- (一个热)29.0764.3826.0126.0475.5766.5455.5492.0354.4022- (一个热+手套)29.6874.4238.7727.8168.1770.2744.7691.455.66234.4. 性能比较我们首先在MSCOCO上进行实验,以检查我们的LSTM-C模型如何描述八个新对象。然后,为了进一步验证我们提出的模型的可扩展性,第二个实验在ImageNet上进行,以描述数百个在成对图像-句子数据之外的新对象对被拒的管理层协调行动的评价。表1显示了六个模型在支持的MSCO-CO数据集上的性能比较。总体而言,两个一般评估指标(平均F1和METEOR分数)的结果一致表明,我们提出的LSTM-C表现出更好的性能比所有的国家的最先进的技术,包括定期图像字幕模型(LRCN)和两个新的对象字幕系统(DCC和NOC)。特别地,通过额外地利用外部未配对数据进行训练,所有后五个新颖对象字幕模型在描述质量和新颖性两者上都优于常规图像字幕模型LRCNDCC和LSTM-C(One hot)之间存在显著的性能差距。尽管这两种运行都涉及外部图像数据的利用,但它们在以下方式上是根本不同的:D-CC利用显式传输机制来识别新对象,并且不能端到端地训练,而LSTM-C(Onehot)以端到端的方式隐式地利用复制机制来寻址用于句子生成的新对象。此外,通过将复制机制结合到标准的逐词句子生成模型中,LSTM-C(One hot)导致了对NOC(One hot)的性能提升,这表明生成机制和复制机制是互补的,因此对于新颖的对象字幕具有相互的增强作用。另一个观察结果是,当组合来自嵌入的one hot vector和Glove vector的单词表示时,LSTM-C(One hot+Glove)进一步提高了性能。表1还详细列出了所有8个新物体的F1分数。在所有新对象中,我们提出的LSTM-C在描述六个新对象时达到了最佳性能,其次是DCC和NOC。一般可以预期的改进,通过额外纳入复制机制的顺序表2.我们提出的模型和其他最先进的方法在ImageNet数据集上的新颖性,F1 和准确性得分所有值均报告为百分比(%)。模型小说F1精度[22]第22话我的世界-MSCOCO69.0815.6310.04-BNC Wiki87.6931.2321.96LSTM-C(一次加热+手套)-MSCOCO72.0816.3911.83-BNC Wiki89.1133.6431.11学习除了“沙发”和“微波炉”对象。这并不奇怪,因为这样的新颖对象总是与其他对象具有高的视觉相似性(例如,“bed” for在ImageNet上进行评估。表2总结了ImageNet数据集上的实验结果。通过仅采用MSCOCO作为CNN加RNN系统的训练数据,我们的LSTM-C(One hot+Glove)在 新 颖 性 , F1 和 准 确 性 方 面 分 别 比 NOC ( Onehot+Glove)提高了4.3%,4.9%和17.8%。结果基本上表明了在CNN + RNN系统中利用生成和复制机制进行新对象字幕的优势,即使在缩放到具有数百个新对象的ImageNet图像时也是如此。此外,在[22]之后,我们还包括外部未配对的文本数据(即,British NationalCorpus 和 Wikipedia ) 在 我 们 的 LSTM-C ( Onehot+Glove)中的应用,并进一步观察到性能的提高。定性分析图3和图5分别显示了通过不同方法生成的几个句子示例,检测对象和人类注释的MSCOCO和ImageNet数据集上的基础事实。从这些示例结果中,很容易看出,所有这些字幕模型都可以在两个数据集上生成一些相关的句子,而我们提出的LSTM-C可以通过结合图像字幕的复制机制来预测新对象。例如,与LRCN生成的句子中的对象术语“hydrant”相比6588GT:一辆公共汽车在城市街道的高楼检测到的对象:城市:0.94,公共汽车:0.91,街道:0.89,开车:0.75,高:0.72一个红色的消防栓停在城市LSTM-C:一辆公共汽车沿着一条街道行驶,旁边是一座建筑物GT:一个人拿着球拍站在球场检测到的对象:网球:1,球场:1、球拍:0.94,女子:0.92,匹配:0.88一个男人在网球场LSTM-C:网球比赛中手持球拍GT:黑色和白色的猫在一个红色的手提箱检测到的对象:猫:1,手提箱:0.96,包:0.89,行李:0.65,黑色:0.63一只猫坐在红色的椅子LSTM-C:猫躺在行李箱一只黑猫和一瓶酒检测到的对象:猫:1,瓶:0.98,酒:0.84,黑色:0.58,站立:0.58LRCN:一只猫坐在窗户LSTM-C:一只猫坐在桌子上,旁边是一瓶葡萄酒GT:客厅里有一张皮沙发,靠近餐桌检测到的对象:房间:1,生活:0.94,电视:0.77,电视:0.7,沙发:0.62LRCN:一间带笔记本电脑和书桌的LSTM-C:带沙发和电视GT:一个孩子正在咬一口比萨饼检测到的对象:男孩:0.94,披萨:0.88,年轻:0.77、吃饭:0.65,表:0.64一个小男孩正在吃一盘食物LSTM-C:一个人坐在一张桌子旁,手里拿着一个比萨饼图3. 对象和句子生成的结果保持了M-SCOCO。检测到的对象由[5]中的MIL模型预测,并且输出句子由1)Ground Truth(GT):一个基本事实句子,2)LRCN和3)我们的LSTM-C。流星F1GT:otter检测到的对象:水獭:0.98,水:0.98,熊:0.64,身体:0.49,游泳:0.39一只熊在水LSTM-C:一只水獭在水GT:snowdrift检测到的物体:雪:1,雪堆:0.69,下雪:0.69,覆盖:0.57,雪鞋:0.42一个女人拿着滑雪板LSTM-C:一个女人站在雪堆旁边,在一条下雪的街道GT:toucan检测到的物体:巨嘴鸟:0.99,鸟:0.97,树:0.96,枝:0.54,长:0.47一只鸟栖息在树枝上LSTM-C:巨嘴鸟栖息在树枝上GT:虎鲸检测到的对象:虎鲸:1,冲浪板:0.96,海洋:0.9,水:0.89,波浪:0.85一个冲浪者在海洋LSTM-C:一只虎鲸在海洋GT:wallaby检测到的对象:小袋鼠:0.91,地面:0.72,草地:0.58,婴儿:0.55,小型:0.47LRCN:一只小鸟站在一棵树LSTM-C:一只小袋鼠在田野里吃草GT:gator检测到的对象:水:0.99,鳄鱼:0.96,湖泊:0.85,池塘:0.61,身体:0.52一只鸟站在湖边的水里LSTM-C:一只鳄鱼站在池塘图5. ImageNet上的对象和句子生成结果。GT表示地面实况对象。检测到的对象由标准CNN架构[20]预测,输出句子由1)LRCN和2)我们的LSTM-C生成。0.6.具体地,当λ为约0.2时实现最佳性能。此外,当λ增加超过0.6时,F1分数开始显著下降,再次证明了复制机制在我们的实验中的重要性0.60.550.50.450.40.350.30.250.20.1500.10.20.30.40.50.60.70.80.9 1LSTM-C用于描述新对象。5. 讨论和结论我们提出了长短时记忆与视觉识别机制(LSTM-C)的框架,杠杆年龄的外部视觉识别的图像字幕。具体地说,我们研究了通过将检测到的目标与复制目标相结合来预测图像字幕中的新目标的问题图4. 在我们的LSTM-C(One hot+Glove)框架中权衡参数λ对保持出MSCOCO的影响。在保持的MSCOCO数据集上的第一个图像,因为新对象4.5. 折衷参数λ为了澄清等式中的折衷参数λ的影响,(8),我们在图4中展示了具有不同权衡参数的性能曲线。如图所示,我们可以看到,当λ在0到ing机制。为了验证我们的说法,我们设计了一个端到端架构,以适应LSTM的标准逐词句子生成和从检测到 的 对 象 复 制 的 机 制 。 在 MSCOCO 图 像 字 幕 和ImageNet数据集上进行的实验验证了我们的建议和分析。与其他新颖的对象字幕技术相比,可以清楚地观察到性能我们未来的工作如下。首先,将在大规模图像基准上学习更多对象,例如,YFCC-100 M数据集,并集成到我们的LSTM-C架构中。我们将进一步分析所涉及的不同来源的影响。其次,如何将我们的方案应用到视频领域值得尝试。6589引用[1] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年,国际会议。[2] S. Banerjee和A.拉维Meteor:一种用于mt评估的自动度量,具有与人类判断的改进相关性。2005年在ACL研讨会[3] J. Devlin,H. Cheng,H. Fang,S.古普塔湖Deng,X.他,G. Zweig和M.米切尔图像字幕的语言模型在ACL,2015年。[4] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR,2015。[5] H. Fang,S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说,P. 多尔,J。Gao、X. 他,M。我的朋友,J. C. 普拉特角L. Zit-nick和G.茨威格从标题到视觉概念再到后面。CVPR,2015。[6] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨,C. Rashtchian,J. Hockenmaier和D.福赛斯每一张照片都讲述了一个故事:从图像生成句子。载于欧洲共同体-《公民权利和政治权利国际公约》,2010年。[7] J. Gu,Z. Lu,H. Li和V. O.李序列到序列学习中的重复复制机制arXiv预印本arXiv:1603.06393,2016年。[18] J. 彭宁顿河Socher和C。D. 曼宁Glove:单词表示的全局在EMNLP,2014年。[19]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV,2015年。[20] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年,国际会议[21] I. Sutskever,O.Vinyals和Q.诉乐用神经网络进行序列到序列在NIPS,2014。[22] S. 韦努戈帕兰湖A. 亨德里克斯M.罗尔巴赫河穆尼T. Darrell和K.萨恩科为具有不同对象的图像添加字幕。arXiv预印本arXiv:1606.07770,2016年。[23] O. Vinyals,A. Toshev,S. Bengio和D.二汉Show andtell:A neural image caption generator. CVPR,2015。[24] Q.吴角,加-地申湖,澳-地Liu,中国粘蝇A. Dick和A. v.d.亨格尔明确的高级概念在解决语言问题方面有什么价值?在CVPR,2016年。[25] J. Xu,T. Mei,T. Yao和Y.瑞MSR-VTT:一个用于桥接视频和语言的大型视频描述数据集。在CVPR,2016年。[26] K. Xu,J. Ba,R. Kiros、K. Cho,A.库维尔河萨拉胡迪诺 夫 河 Zemel 和 Y. 本 吉 奥 。 Show , attend and tell :Neuralimagecaptiongenerationwithvisualattention.ICML,2015。[8]L. A. Hendricks,S. Venugopalan、M.罗尔巴赫河穆尼[27] Y.杨角,澳-地L.特奥,H。道梅 III和Y. 再见K. Saenko和T.达雷尔。深度合成字幕:在没有配对训练数据的情况下描述新的对象类别。在CVPR,2016年。[9] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。InMM,2014.[10] R.基罗斯河Salakhutdinov和R.泽梅尔多模态神经语言模型。InICML,2014.[11] G. 库 尔 卡 尔 尼 河 谷 Premraj
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功