图卷积网络与长短时记忆结构的图像字幕生成模型

159 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

图像字幕Ting Yao1，Yingwei Pan1，Yehao Li2，and Tao Mei11 JD AI Research，北京，中国2中山大学，广州，中国{tingyao.ustc，panyw.ustc，yehaoli.sysu}@ gmail.com，tmei@live.com抽象。人们一直相信，对象之间的建模关系将有助于表示和最终描述图像。然而，还没有证据支持图像描述生成的想法在本文中，我们介绍了一种新的设计，探索对象之间的连接，图像字幕的保护伞下，基于注意力的编码器-解码器框架。具体来说，我们提出了图卷积网络加上长短期记忆（称为GCN-LSTM）架构，该架构新颖地将语义和空间对象关系集成到图像编码器中。从技术上讲，我们在图像中检测到的对象的基础上建立图形的空间和语义连接。然后通过GCN利用图结构来细化对象上提出的每个区域的表示利用学习的区域级特征，我们的GCN-LSTM利用基于LSTM的字幕框架，具有用于句子生成的注意力机制COCO图像字幕数据集上进行了广泛的实验，并报告了优越的结果相比，国家的最先进的方法。更值得注意的是，GCN-LSTM在COCO测试集上将CIDEr-D性能从120.1%提高到128.7%关键词：图像字幕·图卷积网络·视觉关系·长短时记忆1介绍深度神经网络的最新进展令人信服地证明了学习视觉模型的高能力，特别是用于识别。这些成果使图像理解的最终目标，即用完整自然的句子自动描述图像内容，或称图像字幕问题，又向前迈进了一步。图像字幕的典型解决方案[7，34，37，39]受到机器翻译的启发，相当于将图像翻译为文本。如图1（a）和（b）所示，通常利用卷积神经网络（CNN）或基于区域的CNN（R-CNN）来编码图像，并且利用具有/或不具有注意力机制的递归神经网络（RNN）的解码器来生成句子，每个时间步长一个单词。不管这些不同版本的CNN plus2T. Yao，Y.潘湾，澳-地Li和T.梅CNNLSTM语句（a）R-CNNGCN注意/平均值合并注意/平均值合并LSTM语句（b）LSTM语句（c）第（1）款图1.一、图像编码器在（a）CNN加LSTM，（b）R-CNN加LSTM和（c）我们的GCN-LSTM中生成的视觉表示用于图像字幕。在RNN图像字幕框架中，未充分研究的常见问题是鉴于对象之间的相互关联或交互是描述图像的自然基础，应如何视觉关系表征图像中检测到的对象之间的相互作用或相对位置。视觉关系的检测不仅涉及定位和识别对象，而且涉及对每对对象之间的交互（谓词）进行分类。一般来说，关系可以表示为<主语-谓语-宾语>，例如，吃人三明治车里的狗在文献中，人们充分认识到，推理这种视觉关系对于视觉世界更丰富的语义理解至关重要[19，23]。然而，对象可以具有宽范围的尺度、在图像中的任意位置处并且来自不同类别的事实导致难以确定关系的类型。在本文中，我们利用对象之间的内在关系来整体地解释图像，并新颖地探索使用视觉连接来增强图像编码器的图像字幕。我们的基本设计是在语义和空间两个层面上的关系建模，并集成到图像编码器的连接，以产生关系感知的区域级表示。因此，我们赋予图像表示与更多的权力时，馈入句子解码器。通过巩固为图像字幕建模视觉关系的想法，我们提出了一种新的图卷积网络加长短期记忆（GCN-LSTM）架构，如图1（c）所示。具体来说，首先实现Faster R-CNN以提出一组显著图像区域。我们在检测到的区域上构建具有有向边缘的语义图，其中顶点表示每个区域，边缘表示每对区域之间的关系（谓词），这是由在Visual Genome上学习的语义关系检测器预测的[16]。同样，空间图也是在区域上构建的，区域之间的边模型是相对的几何关系。然后利用图卷积网络分别在结构化语义图和空间图中丰富具有视觉关系的区域表示。在此之后，关于每种关系的学习的关系感知区域表示被馈送到一个单独的注意力LSTM解码器中以生成句子。在推理阶段，要将......树木狗人苏恩格拉斯飞盘弗里斯布ee锥短裤草图像字幕3在两个解码器的输出中，我们在每个时间步长对来自两个解码器的单词的预测得分分布进行线性平均，并且在下一步骤中弹出具有最高概率的单词作为两个解码器的输入单词这项工作的主要贡献是建议使用的视觉关系，lationship丰富的区域级表示，并最终提高图像字幕。这也导致了可以在对象之间建立什么样的视觉关系的优雅视图，以及如何很好地利用这样的视觉关系来学习用于图像字幕的更多信息和关系感知区域表示，这是尚未完全理解的问题。2相关工作图像字幕。随着深度学习[17]在计算机视觉中的普及，现代图像字幕的主导范式是序列学习方法[7，34，37，38，39，40]，其利用CNN加RNN模型生成具有灵活句法结构的新颖句子。例如，Vinyals等人通过利用LSTM为[34]中的图像生成句子，提出了一种端到端神经网络架构，该架构进一步与[37]中的软/硬注意力机制结合，以在生成相应的单词时自动聚焦于显著对象不是为每个生成的单词激活图像上的视觉注意力，[24]开发了一种自适应注意力编码器-解码器模型，用于自动决定何时依赖视觉信号/语言模型。最近，在[35，39]中，语义属性被证明在注入CNN加RNN模型时可以明显提高图像字幕，并且可以进一步利用这些属性作为语义注意力[40]来增强图像字幕。最近，提出了一种新的基于注意力的编码器-解码器模型[2]，通过自下而上的注意力机制检测一组显著图像区域，然后使用自上而下的注意力机制处理显著区域以生成句子。视觉关系检测。视觉关系检测的研究越来越受到人们的关注。一些早期的作品[9，10]试图学习四个spatialrelations（i. 例如，稍后，语义关系（例如，动作或交互）在[6，32]中进行了探索，其中语义关系的每个可能组合被视为视觉短语类，并且视觉关系检测被公式化为分类任务。最近，相当多的作品[5，19，23，29，36]设计了基于深度学习的视觉关系检测架构。[36]将视觉关系视为连接场景图中两个对象节点的有向边，并以迭代的方式在构建场景图[5，19]基于将对象和主体覆盖在一起的附加联合边界框来直接学习用于关系预测的视觉在[23，29]中，参与对象/字幕的语言线索被进一步考虑用于视觉关系检测。摘要总之，我们的方法在本文中属于序列学习方法的图像字幕。与以前的方法类似[2，8]，GCN-LSTM在句子对象的检测图像区域上探索视觉注意力4T. Yao，Y.潘湾，澳-地Li和T.梅输入句子“WtLSTM注意机制LSTMWt+1平均池图二、概述我们的图卷积网络加上用于图像字幕的长短期存储器（GCN-LSTM）（以彩色显示更好首先利用更快的R-CNN来检测一组显著图像区域。接下来，在检测到的区域上用方向边构建语义/空间图，其中顶点表示每个区域，并且边表示它们之间的语义/空间关系。然后利用图卷积网络（GCN）对结构化语义/空间图中具有视觉关系的区域进行上下文编码。之后，从每种图中学习的关系感知区域级特征被馈送到一个单独的atten-tion LSTM解码器中用于句子生成。在推理阶段，我们采用了后期融合方案，线性融合两个解码器的结果。一代新颖之处在于利用图像字幕对象之间的语义和空间关系，这是以前没有探索过的。特别地，这两种视觉关系都通过GCN无缝地集成到基于LSTM的字幕框架中，目标是产生关系感知区域表示，从而通过强调对象关系来潜在地提高生成的句子的质量。3探索视觉关系的图像字幕我们设计了我们的图卷积网络加长短期记忆（GCN-LSTM）架构，通过额外整合语义和空间对象关系来生成图像描述。GCN-LSTM首先利用对象检测模块（例如，更快的R-CNN [30]）来检测图像中的对象，旨在将整个图像编码和概括为一组包含对象的显着图像区域语义和空间关系图，然后构建在所有检测到的图像区域的对象的语义和空间连接的基础上，分别。接下来，GCN-LSTM的训练是通过GCN使用语义或空间图结构对整个图像区域集进行上下文编码来执行的所有编码的关系感知区域表示被进一步注入到基于LSTM的字幕框架中，从而实现用于句子生成的区域级注意机制我们的图像字幕架构的概述如图2所示。C2空间图形C1C2C1GCNC1C2C1C2C7和C11C11C7Faster R-CNN语义图厨房衬衫男在GCN穿着面包控股图像字幕5Si=13.1问题公式化假设我们有一个图像I要由一个文本句子S来描述，其中S ={w1，w2，.，由N个字组成。设wt∈RDs表示句子S中第t个词的Ds维文本特征.更快的R-CNN首先被利用以产生检测到的对象的集合V={vi}K，其中KI和v中物体的图像区域i∈RDv表示每个图像区域的Dv此外，通过将每个图像区域vi视为一个顶点，我们可以构造语义图Gsem=（V，Esem）和空间图Gspa=（V，Espa），其中Esem和Espa分别表示区域顶点之间的语义和空间关系边关于我们如何挖掘对象之间的视觉关系并构建语义和空间图的更多细节将在3.2节中详细阐述。受最近在图像/视频字幕[26，27，34]和区域级注意力机制[2，8]中利用的序列模型的成功的启发，我们的目标是在R-CNN加RNN方案中模拟我们的图像字幕模型我们的R-CNN加RNN方法首先将给定图像解释为一组具有R-CNN的图像区域，然后将它们唯一地编码为基于语义/空间图的关系感知特征从图卷积网络[15，25]的思想中推导出，我们利用图像编码器中的GCN模块来根据上下文细化每个图像区域的表示，该图像区域被赋予对象之间的固有因此，我们在这里探索的句子生成问题可以通过最小化以下能量损失函数来公式化E（V，G，S）= − log Pr（S| V，G），（1）其是给定检测到的对象V的图像区域和构造的关系图G的正确文本句子的负对数概率。注意，为了简单起见，我们使用G ∈ {Gsem，Gspa}，即，G表示语义图Gsem或空间图Gspa。这里的负对数概率通常用交叉熵损失来度量，这不可避免地导致训练和推理之间的评估的差异因此，为了通过修改这种差异来进一步提升我们的字幕模型，我们可以直接优化LSTM，并像[18，22，31]中那样预期句子级奖励损失。3.2图像中物体之间的视觉关系语义对象关系。我们从基于深度学习的视觉关系检测[5，19]的最新进展中汲取灵感，并将其简化为学习视觉关系基准上的语义关系分类器的分类任务（例如，Visual Genome [16]）。语义关系的一般表达是成对宾语之间的<主语-谓语-宾语>注意，语义关系是方向性的，即，它通过谓词将一个对象（主语名词）和另一个对象（宾语名词）联系起来，该谓词可以是对象之间的动作或交互。因此，给定对象Vi（主语名词）和Vi（主语名词）的两个检测到的区域，6T. Yao，Y.潘湾，澳-地Li和T.梅小行星2048-d携带饮食骑穿着非关系Res4b22特征图RoI池Pool5Concat分类图三. 语义关系检测模型（红色：主语名词区域，蓝色：宾语名词区域，黄色：联合边界框）。（对象名词）在图像I内，我们设计了一个简单的深度分类模型，以根据将两个对象覆盖在一起的联合边界框来预测Vi和Vj图3描述了我们设计的语义关系检测模型的框架。特别地，输入的两个区域级特征Vi和Vj首先经由嵌入层被单独地变换，其进一步与包含Vi和Vj两者的并集边界框的所转移的区域级特征Vij级联。组合的特征最终被注入到分类层中，该分类层在N个语义关系类加上非关系类上产生softmax概率这里，每个区域级特征都是从Pool 5层的Dv维（Dv= 2，048）输出中提取的，在RoI池化之后，来自Faster R-CNN的Res 4 b22特征图与ResNet-101 [11]。在视觉关系基准上对视觉关系分类器进行训练后，直接使用学习到的视觉关系分类器构造相应的语义图Gsem=（V，Esem）。具体来说，我们首先将图像I中检测到的对象的K个图像区域分组为K×（K-1）个对象对（两个相同的区域将不被分组）。接下来，我们用学习的视觉关系分类器计算每个对象对的所有（N个sem+ 1）个关系类的概率分布。如果非关系类的概率小于0.5，则建立一条从主语名词的区域顶点到宾语名词的区域顶点的有向边，将概率最大的关系类作为该边的标号。空间对象关系。语义图仅展现对象之间的内在动作/交互，而留下未利用的图像区域因此，我们构造另一个图，即，空间图，充分挖掘一幅图像中每两个区域之间的相对空间关系。在这里，我们通常将方向空间关系表示为>对象i-对象j>，它表示对象j相对于对象i的相对几何位置。在空间图Gspa=（V，Espa）中，每两个对象顶点的边和相应的类标号空间关系的详细定义如图4所示。512-d.............. ................图像字幕7.我θij6班类别5第四班第七班第十一届全国学生代表大会第9 Class 101级（C1）：内部第2类（C2）：盖IoU≥0.53类（C3）：重叠IOU0.54-11类（C4-11）：索引=θij+345（一）（b）第（1）款（c）第（1）款（d）其他事项见图4。11种空间关系的定义>对象i-对象j>（红色：对象i的区域，蓝色：对象j的区域）。具体地，给定两个区域vi和vj，它们的位置被表示为（xi，yi）和（xj，yj），其分别是针对vi和vj的边界框的质心在图像平面上因此，我们可以实现v i和v j之间的IoU、相对距离d ij（d ij=（x j−x i）2+（y j−y i）2）和在iveangleθij（i. 例如，从vi的中心记录到v j的中心记录）。首先考虑两种特殊情况，对Vi和Vj之间的空间关系进行分类如果vi完全包含vj或vi被vj完全覆盖，我们建立一条从vi到vj的边，并设置空间将其表示为“in side”（classl）和“cover”（class2）。对于这两个特殊类别，如果v i和v j之间的IoU大于0.5，则我们可以将不一致的vitovj定义为“上界“（cl as s 3）。另一方面，当相对角θij小于0.5且整个图像的边长度小于0.5时，我们根据相对角θi j的大小和c_l的指数x将v_i和v_j之间的边缘分类为：θij/45 ◦ 当ioφij>0时。5和<0。5.在这种情况下，它们之间的空间关系趋于弱，并且不建立边缘。3.3具有视觉关系的通过基于空间和语义连接在检测到的对象上构建的图，我们接下来讨论如何通过我们设计的GCN-LSTM将学习的视觉关系集成到序列学习中，并使用基于区域的注意力机制进行图像字幕具体地，基于GCN的图像编码器被设计为经由GCN将具有语义或空间图结构的所有图像区域上下文编码为关系感知表示，其被进一步注入到注意力LSTM中以用于生成句子。基于GCN的图像编码器受用于节点分类[15]和语义角色标记[25]的图卷积网络的启发，我们设计了基于GCN的图像编码器，用于通过捕获语义/空间图上的语义/空间关系来丰富区域级特征，如图2的中间部分所示。原始的GCN通常在不规则图上操作，将关于每个顶点vi的邻域的信息编码为实值向量，该实值向量由下式计算：v（1）=ρ.ΣWvj +bΣ，（2）vj∈N（vi）8T. Yao，Y.潘湾，澳-地Li和T.梅.t−1Σ我我J我Ji=1不t−1通过基于GCN的图像编码器，如等式（1）所示（4）、细化区域级特征其中W∈RDv×Dv是变换矩阵，b是偏置向量，ρ表示激活函数（例如，ReLU）。N（Vi）表示Vi的邻居的集合，即，区域顶点在这里具有与Vi的视觉连接。注意，N（vi）也包括vi本身。尽管原始GCN通过累积其邻居的特征来细化每个顶点，但是没有包括关于方向性或边缘标签的信息用于编码图像区域。为了实现对标记有向图的操作，通过充分利用顶点之间的方向和标记视觉连接来升级原始GCN形式上，考虑标记有向图G=（V，E）∈ {Gsem，Gspa}，其中V是所有检测到的区域顶点的集合，E是视觉关系边的集合。分离的变换矩阵和偏置向量分别用于边缘的不同方向和标签，目标是使修改后的GCN对方向性和标签都敏感因此，每个顶点vi经由经修改的GCN被编码为v（1）=ρ.ΣWdir（v，v）vj+ blab（v，v）Σ，（3）iijijvj∈N（vi）其中dir（Vi，Vi）选择关于每条边的方向性的变换矩阵对于vi-至-vi，W1，对于vi-至-vi，W2，以及对于vi-至-vi，W3）。lab（vi，vj）表示每条边的标签此外，代替均匀地累积来自所有连接的顶点的信息，边向门单元被另外地并入GCN中以自动地聚焦于潜在的重要边。因此，每个顶点vi最终经由GCN结合边缘选通被编码为v（1）=ρ.Σgv，v（Wdir（v，v）vj+ blab（v，v）），iijvj∈N（vi）ijijΣ（四）gvi，vj=σW~dir（vi，vj）vj+~blab（vi，vj）、当vi，vjde不为空间因子或一个随机方程时，σ为函数的逻辑空间，W~dir（v，v）∈R1×Dv为函数的随机形式，且~blab（v，v）∈Risthebias. 根据等式，在对所有区域s{vi}K进行编码后{v（1）}K被赋予了物体之间固有的视觉关系。i i=1注意LSTM句子解码器。从当地汲取灵感在[2]中的注意力水平机制，我们设计了我们的注意力LSTM句子解码器通过注入所有关系感知区域级特征{v（1）}K变成两个-i i=1层LSTM与注意力机制，如图2的右边部分所示。特别地，在每个时间步长t，注意力LSTM解码器首先通过将输入单词wt与第二层LSTM单元h2的先前输出和平均值池图像特征v =K1K i=1v（1），它将被设置为第一层LSTM单位。因此，第一层LSTM单元的更新过程如下h1=f1。Σh2 ，Wswt，vΣΣ，（5）图像字幕9S不不我Σ我不我不不不不其中Ws∈RD1×D s是输入词wt的变换矩阵，h1∈RDh是第一层LSTM单元的输出，并且f1是第一层LSTM单元内的更新函数。接下来，取决于第一层LSTM单元的输出h 1，所有关系感知区域级特征上的归一化注意力分布被生成为at，i=Watanh.Wfv（1）+Whh1ΣΣ， λt=softmax（at），（6）其中ai是ai的第i个元素，Wa∈R1×Da，Wf∈RDa×Dv和Wh∈RDa×Dh是变换矩阵. λ t∈ RK表示归一化的注意分布，它的第i个元素λ t，i是v（1）的注意概率。根据数据分布，我们计算出数据分布的最大值为：Ki=1 λ t，i，v（1）通过聚合所有用注意力加权的区域级特征。我们将更新后的数据文件重新写入第二层LSTM单元，其更新过程因此由下式给出：h2=f2。Σvt，h1ΣΣ，（7）其中f2是第二层LSTM单元内的更新函数。系统层LSTMunith2的输出为平均数据，以执行索引数据+1通过softmax层。3.4训练和推理在训练阶段，我们预先构造两种视觉图（即，语义和空间图）。然后，每个图被单独地用于训练一个单独的基于GCN的编码器加注意力LSTM解码器。请注意，解码器中的LSTM可以使用传统的交叉熵损失或预期的句子级奖励损失进行优化，如[22，31]所示。在推理时，我们采用后期融合方案来连接我们设计的GCN-LSTM架构中的两具体来说，我们线性融合预测的字分布从两个解码器在每个时间步和弹出的字作为输入字的最大概率在下一个时间步的两个解码器。每个单词wi的融合概率被计算为：Pr （ wt=wi ） =α Prsem （ wt=wi ） + （ 1-α ） Prspa （ wt=wi ），（8）其中α是折衷参数，Prsem（wt=wi）和Prspa（wt=wi）分别表示来自用语义和空间图训练的解码器的每个单词wi的预测概率4实验我们在COCO字幕数据集（COCO）[21]上进行了实验并评估了我们提出的GCN-LSTM模型，用于图像字幕任务。此外，Visual Genome [16]用于预训练我们的GCN-LSTM中的对象检测器和10T. Yao，Y.潘湾，澳-地Li和T.梅S4.1数据集和实验设置COCO是图像字幕最受欢迎的基准，其中包含-s 82，783个训练图像和40，504个验证图像。每个图像有5个人工注释的描述。由于官方测试集的注释尚未公开，我们遵循[2，31]中广泛使用的设置，并采用113，287张图像进行训练，5K用于验证，5K用于测试。与[13]类似，我们将训练集中的所有描述转换为小写，并丢弃出现次数少于5次的罕见单词，从而在COCO数据集中产生具有10，201个唯一单词的最终词汇表。Visual Genome是一个大规模的图像数据集，用于建模对象之间的相互作用/关系，它包含108 K图像，具有密集注释的对象，属性和关系。为了预训练对象检测器（即，在这项工作中更快的R-CNN），我们严格遵循[2]中的设置，取98 K用于训练，5 K用于验证，5 K用于测试。请注意，由于Visual Genome中的部分图像（约51K）也存在于COCO中，因此Visual Genome的分割经过仔细选择，以避免污染COCO验证和测试集。与[2]类似，我们对训练数据进行了广泛的清理和过滤，并在选定的1，600个对象类和400个属性类上训练Faster R-CNN。为了预训练语义关系检测器，我们采用相同的数据分割用于训练对象检测器。此外，我们选择前50名频繁谓词的训练数据，并手动将它们分组为20 predi- cate/关系类。因此，语义关系检测模型在20个关系类加上非关系类上进行训练功能和参数设置。句子中的每个词被表示为“on e-hot”vec t or（binaryindexvec t or inavocabulary）。对于一个图像，我们应用FasterR-CNN来检测该图像中的对象，并选择具有最高检测置信度的前K =36个区域来表示图像。每个区域都表示为来自Faster R-CNN的Res 4b22特征图的RoI池化后pool 5层的2，048维输出，并结合ResNet-101[11]。在注意力LSTM解码器中，单词嵌入D1的大小被设置为1000。每个LSTM中的隐藏层Dh的维度被设置为1，000。将用于测量注意力分布的隐藏层Da的维度等式中的折衷参数α（8）根据经验设定为0。7.实施详情。我们主要基于Caffe [12]实现GCN-LSTM，Caffe是广泛采用的深度学习框架之一整个系统由Adam [14]优化器训练。我们将初始学习率设置为0.0005，minibatch大小设置为1，024。最大训练迭代被设置为30K次迭代。对于推理阶段的句子生成，我们采用了波束搜索策略，并将波束大小设置为3。评估指标。我们采用五种类型的指标：BLEU@ N [28]、ME-TEOR[3] 、 ROUGE-L [20] 、 CIDER-D [33] 和 SPICE [1] 。所有指标均使用COCO Evaluation Server [4]发布的代码1计算。比较方法。我们比较了以下最先进的方法：（1）LSTM [34]是标准的CNN加RNN模型，它只注入1https://github.com/tylin/coco-caption图像字幕11表1. 我们的GCN-LSTM和其他最先进的方法在CO-CO上的性能，其中B@N 、M、R、C和S是BLEU@N 、METEOR、ROUGE-L 、CIDER-D 和SPICE分数的缩写。所有值均报告为百分比（%）。B@1交叉熵B@4 M R损失CSCIDEr-D评分优化B@1 B@4 M R C SLSTM [34]-29.625.252.694.0--31.925.554.3106.3-SCST [31]-30.025.953.499.4--34.226.755.7114.0-ADP-ATT [24]74.233.226.6-108.5-------LSTM-A [39]75.435.226.955.8108.820.078.635.527.356.8118.320.8上下[2]77.236.227.056.4113.520.379.836.327.756.9120.121.4GCN-LSTMspa 77.236.527.856.8115.620.880.337.828.458.1127.021.9GCN-LSTM扫描电镜77.336.827.957.0116.320.980.538.228.558.3127.622.0GCN-LSTM77.4 37.1 28.1 57.2 117.1 21.1 80.9 38.3 28.6 58.5 128.7 22.1在初始时间步将图像转换为LSTM。我们直接提取[31]中报道的结果。（2）SCST [31]采用[37]的修改后的视觉注意机制进行字幕。此外，设计了一种自临界序列训练策略来训练具有预期句子级奖励损失的LSTM。（3）ADP-ATT [24]开发了一种基于自适应注意力的编码器-解码器模型，用于自动确定何时查看（哨兵门）和查看哪里（空间注意力）。(4)LSTM-A [39]将语义属性集成到CNN和RNN字幕模型中，以增强图像字幕。（5）Up-Down [2]设计了一种自下而上和自上而下相结合的(6)GCN-LSTM是本文的提案。此外，GCN-LSTM的两个稍微不同的设置被命名为GCN-LSTMsem和GCN-LSTMspa，它们分别仅用语义图和空间图进行训练。请注意，为了公平比较，所有基线和我们的模型都采用ResNet- 101作为图像特征提取器的基本架构。此外，结果报告的模型优化与交叉熵损失或预期的句子级奖励损失。句子级奖励用CIDEr-D评分来测量4.2性能比较与实验分析定量分析相表1显示了不同模型在COCO图像字幕数据集上的性能总体而言，使用交叉熵损失和CIDEr-D评分优化的六种评估指标的结果一致表明，我们提出的GCN-LSTM相对于其他最先进的技术（包括非注意力模型（LSTM，LSTM-A）和基于注意力的方法（SCST，ADP-ATT和Up-Down））实现了优异的性能特别是，我们的GCN-LSTM的CIDEr-D和SPICE得分可以在交叉熵损失的情况下达到117.1%和21.1%的优化，分别比最佳竞争对手Up-Down提高了3.2%和3.9%，这通常被认为是该基准的重大进步。如预期的，当用CIDEr-D评分优化时，CIDEr-D和SPICE评分提高至128.7%和22.1%LSTM-A表现出比LSTM更好的性能，进一步12T. Yao，Y.潘湾，澳-地Li和T.梅男孩表控股叉吃甜点周围孩子一群孩子坐在桌子旁吃蛋糕LSTM：一群人坐在桌子旁，手里拿着一块蛋糕上-下：一群孩子坐在一张桌子旁，手里拿着一个蛋糕GCN-LSTM：一群孩子坐在桌子旁吃蛋糕球拍男孩男孩控股球拍法院控股站在站在GT：两个小男孩在玩网球拍LSTM：一个小男孩在打网球上下：两个小男孩在网球场上打网球GCN-LSTM：两个小男孩在球场上玩网球拍孩子裙子伞裤子控股对在GT：站在购物车里撑着伞的女婴LSTM：一个拿着雨伞走在街上的女人上-下：一个小女孩拿着雨伞在街上GCN-LSTM：一个小女孩在购物车里撑着一把伞推车天空彩虹在草斑马吃吃斑马GT：一群斑马在田野里吃草，彩虹LSTM：一群斑马站在田野上-下：一群斑马和天空中的彩虹GCN-LSTM：一群斑马在天空中的彩虹中吃草伞雨人在地面控股穿着西装走在GT：广场上一个西装革履的男人，在雨中撑着一把蓝色的伞LSTM：一个人撑着伞走在街上Up-Down：一个人撑着伞走在雨中GCN-LSTM：一个穿着西装的人撑着伞走在雨中图五、COCO数据集上的图形和句子生成结果语义图是由我们的语义关系检测模型预测的语义关系构建的。空间图是用图1中定义的空间关系构建的4. 输出句子由1）地面实况（GT）生成：一个基础事实句子，2）LSTM，3）Up-Down和4）我们的GCN-LSTM。明确地考虑高级语义信息来编码图像。此外，SCST，ADP-ATT和Up-Down导致LSTM的性能大幅结果基本上表明了视觉注意机制的优势，通过学习fucus的图像区域，最有指示性的推断下一个词。更具体地说，Up-Down通过使注意力能够在对象水平上计算，改善了SCST和ADP-ATT 。 Up-Down 的性能仍然低于我们的 GCN-LSTMspa 和 GCN-LSTMsem，GCN-LSTM spa和GCN-LSTM sem分别额外地利用对象之间的空间/语义关系来丰富区域级表示并最终增强图像字幕。此外，通过以后期融合的方式利用空间和语义图，我们的GCN-LSTM进一步提升了性能。定性分析图5示出了具有构造的语义和空间图、人类注释的基础事实句子和通过三种方法生成的句子的一些图像示例，即，LSTM，Up-Down和我们的GCN-LSTM。从这些示例结果中，很容易看出，三种自动方法可以生成一些相关的和逻辑正确的句子，而我们的模型GCN-LSTM可以通过用图形中的视觉关系丰富语义来生成更多描述性的句子，以提高图像字幕。例如，与通过LS T M和Up-D针对第一图像生成的语义图中的“具有语法”的语义图相比，在我们的GCN-LSTM中的“语法”更全面地描绘了图像内容，因为语义图中检测到的关系“吃”被编码为用于指导句子生成的关系感知区域级特征。图像字幕13表2. 在线COCO测试服务器上发布的最先进的图像字幕模型排行榜，其中B@N，M，R和C是BLEU@N，METEOR，ROUGE-L和CIDEr-D分数的缩写所有值均报告为百分比（%）。模型B@2B@3B@4MRCC5C40C5C40C5C40C5C40C5C40C5C40GCN-LSTM65.5 89.3 50.8 80.3 38.7 69.7 28.5 37.6 58.5 73.4 125.3 126.5上下[2]64.1 88.8 49.1 79.4 36.9 68.5 27.6 36.7 57.1 72.4 117.9120.5LSTM-A [39]62.7 86.7 47.6 76.5 35.6 65.2 27.0 35.4 56.4 70.5 116.0118.0SCST [31]61.9 86.0 47.0 75.9 35.2 64.5 27.0 35.5 56.3 70.7 114.7116.7G-RMI [22]59.1 84.2 44.5 73.8 33.1 62.4 25.5 33.9 55.1 69.4 104.2107.1ADP-ATT [24]58.4 84.5 44.4 74.4 33.6 63.7 26.4 35.9 55.0 70.5 104.2105.9COCO在线测试服务器性能。我们还向在线COCO测试服务器提交了使用CIDEr-D评分优化的GCN-LSTM，并在官方测试集上评估了性能。表2总结了官方测试图像集的性能排行榜，其中包含5（c5）和40（c40）参考标题。表中列出了已正式公布的最新的前5种性能最好的方法与排行榜上表现最好的方法相比，我们提出的GCN-LSTM在c5和c40测试集的所有评估指标上都达到了最佳性能。人体评价。为了更好地了解不同方法生成的句子的满意程度，我们还进行了一项人类研究，将我们的GCN-LSTM与两种方法进行比较，即LSTM和Up-Down所有这三种方法都用CIDEr-D评分进行了优化。邀请12个评估者，并且从测试集中随机选择1K个图像的子集用于主观评估。所有的评估者被分成两组。我们向第一组展示了每种方法生成的所有三个句子加上五个人类注释的句子，并问他们这个问题：系统是否会产生类似于人类生成的句子的标题？相比之下，我们向第二组展示了一次由不同方法或人类注释（人类）生成的一个句子，并询问他们：你能确定给定的句子是由系统还是由人类生成的吗？根据评价或序列号，我们计算出以下内容：1）M1：评价为优于或等于人工字幕的字幕的百分比; 2）M2：通过图灵测试的帽的百分比。对于GCN-LSTM、Up-Down和LSTM，M1的结果分别为74.2%、70.3%、50.1%。对于M2指标，Human，GCN-LSTM，Up-Down和LSTM的结果分别为92.6%，82.1%，78.5%和57.8%。总的来说，我们的GCN-LSTM在两个标准方面显然是赢家。融合方案的效果。在GCN-LSTM中，通常有两个方向用于融合语义图和空间图一种是通过连接注意模块之前的图的每对区域特征或注意模块之后的图的关注特征来执行早期融合另一个是我们采用的后期融合方案，线性融合预测字分布从两个解码器。图6描绘了三种融合方案。我们比较14T. Yao，Y.潘湾，澳-地Li和T.梅下一字下一字融合算子LSTMAttendedFeatureAttendedFeatureAttention注意力区域要素区域要素空间图语义图LSTMAttendedFeatureAttendedFeatureAttention注意力区域特征区域特征空间图语义图(a)（b）（c）见图6。在GCN-LSTM中融合空间图和语义图的不同方案：（a）注意模块之前的早期融合，（b）注意模块之后的早期融合和（c）晚期融合。融合算子可以是级联或求和。37.13728.111736.936.836.736.636.500.10.20.30.40.50.60.70.80.91(a) 蓝色@42827.927.800.10.20.30.40.50.60.70.80.91(b) 流星116.5116115.500.10.20.30.40.50.60.70.80.91(c) CIDEr-D见图7。我们的GCN-LSTM中的权衡参数α在（a）BLEU@4（%）、（b）METEOR（%）和（c）CIDEr-D（%）上的交叉熵损失对COCO的影响。我们的GCN-LSTM在三种融合方案中的性能（具有交叉熵损失）。在CIDEr-D度量上，注意模块前/后的早期融合和后期融合分别为116.4%、116.6%和117.1%，表明所采用的后期融合方案优于其他两种早期融合方案。权衡参数α的影响。为了阐明等式中的折衷参数α我们在图7中示出了具有不同权衡参数的三个评估度量的性能曲线。如图所示，我们可以看到所有形式的计算结果都类似于“∧”的形状，其中n在0到1的范围内当α约为0.7时实现最佳性能。这证明了语义和空间用于增强图像字幕的对象之间的关系。5结论我们提出了图卷积网络加长短期记忆（GCN-LSTM）架构，它探索了增强图像字幕的视觉关系。特别地，我们从对象/区域之间的相互作用的角度来研究这个问题，以丰富被馈送到句子解码器的为了验证我们的说法，我们建立了语义和空间相关性，并在具有视觉关系的区域级表示上设计了图卷积然后将这种关系感知的区域级表示输入到注意力LSTM中以用于句子生成。COCO图像captioning数据集上进行了广泛的实验验证了我们的建议和分析。更值得注意的是，我们在这个数据集上实现了新的最先进的性能。一个可能的未来方向是将关系建模和利用推广到其他视觉任务。下一字LSTM注意事项Attention区域特色区域特色空间图形语义图图像字幕15引用1. Anderson，P. Fernando，B.，Johnson，M.，Gould，S.：Spice：语义命题图像字幕评价。In：ECCV（2016）2. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，Zhang，L.：自下而上和自上而下关注图像字幕和视觉问答。来源：CVPR（2018）3. Banerjee，S.，Lavie，A.：Meteor：一种自动度量mt评估与改进的相关性与人类的判断。在：ACL研讨会（2005年）4. C hen，X.， Fang，H.，林，T. 是的，我也是，去吧S 做吧，P Zitnick，C. L. ：Microsoft COCO字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325（2015）5. Dai，B.，张玉，Lin，D.：使用深度关系网络检测视觉关系。在：CVPR（2017）6. Divvala，S.K.，Farhadi，A.，Guestrin，C.：学习关于任何事情的一切：视觉概念学习。在：CVPR（2014）7. Dona

下载后可阅读完整内容，剩余1页未读，立即下载