基于上下文和属性的密集字幕模型

188 浏览量更新于2023-10-18 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43216241上下文和属性接地密集字幕尹国军1，路胜2， 4，刘斌1，余能海1，王晓刚2，邵晶31中国科学技术大学、中国科学院电磁空间信息重点实验室2香港中文大学-商汤科技联合实验室3商汤科技研究院4北京航空航天大学gjyin@mail.ustc.edu.cn，lsheng@buaa.edu.cn，{flowice，ynh}@ ustc.edu.cn，xgwang@ee.cuhk.edu.hk，shaojing@sensetime.com摘要密集字幕旨在同时定位语义区域并使用自然语言中的短语或句子以往的研究已经取得了显著的进展，但它们往往容易受到孔径问题的影响，即由一个ROI内的特征生成的帽与输入图像中的周围上下文缺乏上下文一致性。（一）…（一）黄色气球（二）天空中的黄色风筝（三）滑雪者的黄色裤子target[20]target+global[34]target+global+neighborhood...年龄在这项工作中，我们调查上下文推理的基础上，（b）第（1）款(i) 一块白石(ii) 墙上的灯(iii) 摩托车的反光镜从相邻内容到目标ROI的多尺度消息传播。为此，我们设计了一个端到端的基于上下文和属性的密集字幕框架，该框架包括：1）上下文可视化挖掘模块; 2）基于多层次属性的描述生成模块。知道字幕经常与语言属性（例如谁、什么和在哪里）共现，我们还结合来自分层语言属性的辅助监督来增强学习字幕的独特性。在Visual Genome数据集上进行的大量实验和消融研究表明，与现有方法相比，该模型具有很好的优越性。1. 介绍密集字幕首先由[20]引入，是解析输入图像中的语义内容，并用自然语言中的字幕描述它们它可以有益于其他任务，包括图像字幕[38]，分割[28]，视觉问答[14]等。在本文中，我们主要关注字幕生成，并采用Faster RCNN [29]进行语义实例本地化，遵循最近的进展[20，34]。与用于整个图像的高级抽象的主观图像描述不同，刘斌为通讯作者。target[20]target+global[34]target+global+neighborhood图1.具有不同层次的上下文交互的密集字幕：（i）没有任何上下文线索（用蓝色标记）[20]，(ii) 在全球线索（以红色标记）的指导下[34]，(iii) 具有来自相邻的相互作用（由或- ange标记）和全局视觉信息。(Best以颜色查看）。紧凑边界框中的实例更加客观，并且较少受到主观注释引起的歧义的影响。也就是说，当目标区域在视觉上不明确而没有上下文推理时，可能生成不正确的字幕。例如，它可能会错误地将蓝色框中标记的目标ROI标注为1（a-i），如果不知道他们的上下文视觉内容[20]。[34]中提出的另一种解决方案试图利用整个图像的全局特征然而，描述有时会被全局外观损坏，特别是对于占主导地位的全局内容的小而不寻常的对象。图中的“黄裤子”。1（a-ii）被错误地描述为“天空中的黄色风筝”。类似的现象发生在图。1（a-ii），它错误地产生“一面镜子”，而不是“一盏灯”。与现有技术相比，在这项研究中，我们表明，创新的模型，命名为上下文和属性接地网络（ CAG-Net），设计与上下文相关的视觉线索（即，局部、邻近、全局）允许多尺度上下文消息传递以加强区域描述生成。例如，邻居-43216242在图中的温箱中标记ROI。1（a-iii）中，语义上连接到图1（a-i）中的蓝框中的目标中的视觉特征，提供了目标是属于滑雪者的“黄裤子”的更有价值的提示。这种上下文学习在目标检测、分割和检索等领域显示出了巨大的潜力然而，语境表征的学习，以及它如何有效地在密集字幕上发挥作用，仍然是一个悬而未决的问题。具体而言，拟议的现金援助网包括两个重要模块：1) 上下文特征提取器基于目标ROI及其相邻ROI之间的特征亲和度和空间接近度为它们之间的特征交互建立非局部相似性图，允许来自多个相邻ROI的自适应上下文信息共享（即，全局和邻居）与目标ROI交互。2) 基于属性的字幕生成器采用LSTM作为基本单元，并融合上下文特征来生成目标ROI的描述。为了加强描述生成的粗到细结构，我们分别在顺序LSTM单元中采用粗级和细级语言属性损失作为在没有来自地面实况字幕的顺序限制的情况下，这样的关键字或属性更容易被目标ROI中的内容识别，并且因此对于视觉模式的提取具有更在一定程度上，它与多标签分类中对象的视觉属性相似我们的贡献如下：1) 我们设计了一个基于上下文和属性的密集覆盖模型，允许多尺度（即，局部的、邻近的、全局的）上下文信息共享和消息传递，其中知识集成建立在输入图像中的实例之间的非局部相似性图上。2) 提出了一种由粗到细的语言属性监督方法，通过一种新的由粗到细的方式将真实的分层语言属性与预测的关键词进行匹配，以提高生成字幕的区分度。3) 大量的实验证明了所提出的CAG-Net模型在具有挑战性的大规模VG数据集上的有效性。2. 相关工作近年来，人们对用自然语言描述一般图像的图像字幕进行了探索[5，26，12，30，2、27、35、25]。工作[5，36，1，6，19，7]专注于通过由额外的注意力模型生成的注意力嵌入特征来改善ifiguremage字幕基于注意力模型，Guet al. [15]采用了一个由粗到细的框架，随着注意力权重的不断细化，图像字幕在我们的工作中，密集的图像字幕渲染的图像中的不同的ROI的个人字幕对于密集字幕，我们首先采用多尺度特征交互和属性接地生成的方法来实现准确的区域描述。我们的粗到细策略是基于分层属性监督，而不是描述生成模块的不同注意力输入[15]。之前的作品[38，36]采用了属性（词汇表中的单词）来训练LSTM单元的另一个输入的额外模型，以用于描述生成。与此不同的是，我们的工作采用语言属性作为辅助监督的粗到细生成没有任何外部分支或输入。密集图像字幕。密集图像字幕不仅可以定位图像中的感兴趣区域，还可以用自然语言生成描述，这在[20]中首次提出。Johnson等人[20]介绍了一种新的稠密局部化层，它是完全可微的，并使用双线性插值来平滑地提取每个区域内的激活。Yang等[34]通过对给定区域的定位和描述的联合推理，利用图像的全局特征作为上下文线索来改进区域字幕，从而提高了区域的定位精度然而，这些先前的工作没有捕捉到不同区域的相对特征和上下文区域之间的有效消息传递以用于准确的区域字幕。情境学习。近年来，语境学习被用于各种主题[32，24，22，39，33，10， 9]，例如，目标检测、分割和检索。对于检测和分割，从全局视图而不是定位对象本身学习特征表示Gkioxari等人[13]使用一个以上的区域建议的行动识别，而胡等人。[17]通过它们的外观特征和几何形状之间的相互作用来处理一组对象对于图像字幕的上下文学习，Yaoet al. [35]用学习的视觉关系分类器计算每个对象对的所有语义关系类的概率分布，以建立用于图像字幕的语义图。在以往的工作中，从未探索过密集captioning的定位区域之间的上下文特征学习。在我们的工作中，我们建立上下文消息传递模块没有额外的分支或任何辅助的关系标签。3. 上下文和属性接地密集字幕（CAG-Net）在本文中，我们提出了一个新的端到端的密集图像字幕框架，命名为上下文和属性接地密集字幕（CAG网）。所示43216243我我我我全局邻居目标LSTM单元融合人站● ●●对冲浪者站● ●●对图2. CAG-Net的体系结构。多尺度特征是由建议的上下文特征提取器在区域建议后生成的。然后目标区域的局部（蓝色）特征和多尺度上下文线索，即，全局（红色）和相邻（橙色），广播到属性接地字幕生成器，以并行显示区域字幕。目标区域的最终描述由辅助属性损失训练的层次结构联合生成。相似度图表靶ROI相邻ROI属性，分层地基于序列LSTM单元的输出，如图所示二、所提出的模型被训练以最小化用于字幕生成的句子损失和二进制交叉熵损失（属性损失）。3.1. 上下文特征提取器将图像中的感兴趣区域（ROI）表示为R={Ri|i=1，2，…N}，整个图像为R。图3.目标提案的上下文特征提取器示例。（左）考虑空间配置和外观相似性生成目标（蓝色）提议和上下文相邻（橙色）提议之间的相似性图。（右）相邻特征通过以下方式获得：局部区域Ri的上下文特征来自局部区域Ri、相邻区域Rn=R/Ri和全局区域Rn 的多尺度上下文线索。对于目标区域Ri，表示局部、相邻和全局特征分别为Fl、Fn和Fg，其中Fg是指将所述上下文相邻提议与所述相似性图融合。最好用彩色观看。对于从整个输入图像提取的特征，并且Fl是目标实例的特征。上下文特征提取器（CFE）主要研究相邻特征Fn，其形式为Fn=f（Ri，Rn）。我我我图2，我们首先学习输入图像的视觉特征，一个CNN模型作为Faster RCNN [29]采用的方式，并获得语义特征。这样的语义特征用于通过以下步骤生成候选区域（ROI）的集合： a区域提案网络[29]。基于这些ROI特征，我们引入了一个上下文特征提取器（CFE），它生成全局、邻域和局部（即，目标本身）线索（第二节）。第3.1节）。通过在目标ROI和相邻ROI之间建立相似性图来收集相邻线索，如图所示。我们设计了一个区域级相似性图（即，ROI-级别）用于相邻ROI聚合，其灵感来自像素级别的非局部操作。非局部均值[4]通常通过计算图像中所有像素的加权均值来用作滤波器，这允许像素基于补丁外观相似性对滤波响应做出贡献。类似地，具有相似语义外观的相邻ROI应该对目标局部实例的特征提取做出更多贡献。根据[4]中的运算，我们将f（Ri，Rn）的公式改写为：图三. 多尺度的上下文线索，广播在部分-”“f（Ri，Rn）=Σ G（F1，F1）F1，（1）使用多个LSTM [16]单元的生成器（AGCG）（Sec.3.2）。生成丰富的细粒度描述我j，j我i j j加强由粗到细的描述过程其中，G（Fl，Fl）是重新生成的图像之间的外观相似性I j生成时，我们采用辅助监督，gionRi和Rj，Fl是的定长局部特征，全球邻居目标一个年轻的冲浪者站在冲浪板上结果属性固定字幕生成器上下文特征提取器语义特征长方体输入图像α1α2αK…精细级属性损失粗能级属性损失43216244我我我我我exp（）(a) L(b) L+G(c) L+G+N（CCI）(d) CAG-Net图4.不同网络结构的比较。 (a)L在区域建议之后单独生成描述;（b）L + G生成的描述不仅具有图像的局部特征，而且具有图像的全局特征;（c）L + G + N（CCI）集成目标的全局、邻近和局部信息以生成描述;（d）由多个LSTM细胞组成的CAG-Net是（c）CCI的堆叠版本，但受到分层语言属性丢失的监督。使得越近的ROI越相对于目标ROI。我们基于与目标区域Ri的IoU（交集）度量对Rn中的ROI进行排序。通过将前k个提案采样为Rn，计算相邻的特征可以加速为Fn=f（Ri，Rn）。我我GroundTruth预测（b）字幕损失图5. Contextual Cue Integrator（CCI）的展开结构。（a）展开结构整合了局部（蓝色）信息和多尺度上下文线索，即，global（红色）和 neigh-boring（橙色）。空心圆圈代表LSTM单元，而加号代表特征融合。(b)标题损失包括句子损失和属性损失。区域Ri.相似度G是基于高斯函数的归一化交叉检验，公式为，exp（FlFl）3.2. 属性固定字幕生成器本文提出了一种新的字幕生成器，它由两部分组成：（1）一个上下文线索集成器，用于融合第二章中CFE产生的上下文特征3.1，以及（2）具有粗级和细级语言属性损失的属性接地的粗到细生成器，作为增强所生成的字幕的区分度的附加监督上下文线索集成器（CCI）-上下文线索集成器采用多个LSTM单元来分层地将多尺度上下文特征集成到本地化特征中。局部、相邻和全局特征通过LSTM单元传播，以便生成目标ROI的上下文感知描述。这些描述被融合在一起，用于在LSTM的每个时间步对目标区域进行最终字幕。展开的上下文线索集成模块如图所示。第五条（a）款。局部分支被认为是目标的主干，全局和相邻分支被分组为多尺度上下文线索，以提供互补的指导。因此，首先自适应地组合上下文线索，并且G（Fl，Fl）=i j，（2）它们然后经由第二自适应适配器被添加到本地分支ijFlFlj，j i ij其中，Fl=Fl是互相关的点积相似性。融合，如图所示第4（c）段。通过自适应权值对不同层次特征的重要性I j因此，我们可以获得每个目标的相似性图ROI与图像中的相邻ROI。为了保证区域定位和检测的准确性和鲁棒性，一般的目标检测算法通常会产生然而，在这种情况下，集成的相邻特征Fn将被遥远和独立的建议污染，并且Rn中的ROI的数量也极大地增加了计算成本和环境中的噪声因此，我们根据R n的空间接近度对Rn的子集进行属性接地粗到细生成器-它是在生成丰富而准确的描述方面具有挑战性，通过连续的LSTM。为此，我们通过引入具有顺序LSTM单元的由粗到细的字幕生成过程来增加其代表性，即，粗分类阶段和精分类阶段，辅助分层语言属性损失。语言属性损失作为字幕一般句子损失之外的由粗到细的中间和辅助监督，● ● ●● ● ●● ● ●（一）展开结构句话损失属性丢失● ● ●对● ● ●对站站年轻年轻冲浪板冲浪板冲浪者冲浪者一个年轻的冲浪者站在冲浪板上。一个年轻的冲浪者站在冲浪板上。EOS冲浪者年轻一43216245. ... ... ... . .. ..白色短谈有站背后到. ... ... ... ..那个年轻人正站在公共汽车后面。人们在人行道上交谈培训注释（句子）关系/空间性背后到对. ..有资格互动/行动. ... . .talking说话人女孩男子衬衫年轻年轻白色短对象/场景属性/状态. ... ... ... ..精细级属性1对. . .. . .粗级属性2一个男人和女孩说话。年轻的女孩留着短发。那个人穿着白衬衫。年轻布人图6.句子逐项说明。精细级属性A1：训练注释的原始句子（底部）被分项为单个单词并被分成四组：对象/场景（名词）、属性/状态（形容词）、交互/动作（动词）和关系/空间（介词）。粗层次属性A2：单个词被规范化并通过高级词的语义相似性进行聚类，例如在A1的女孩和男人属于在A2的人。如图所示的每个阶段。2.属性损失被形成为二元分类（即，存在或不存在）在训练过程中分别针对每个属性的损失。如图5（b），属性，例如，冲浪者、站立者、年轻人和其他人都将被单独测量，而不管语音顺序如何，类似于用于对象的属性识别的多标签分类随后的LSTM层（细化阶段）被假定为充当由前一层（粗略阶段）生成的粗略区域描述的细粒度解码器。由粗阶段产生的LSTM单元的隐藏向量被用作细化阶段的消歧线索。在粗级处的全局分支和邻近分支的输出直接在细化级处用作相应分支的输入。这三个分支在粗级的自适应融合被馈送作为细化级的输入。同时，这些向量用于粗级属性预测。多级分支的连接如图所示。第4段（d）。字解码器在细化阶段的最终输出是针对目标区域生成的描述同时，这些输出也用于精细级属性预测。这些语言属性是在训练过程中从LSTM的输出预测的，这里未解决的问题是如何获得真实的语言属性。在我们的工作中，层次语言属性是通过逐项的句子在训练分裂与自然语言处理工具包（NLTK）。1) 精阶属性A1，精阶。我们通过NLTK的语音工具包从训练注释（句子或短语）中提取语言知识到单个关键字/属性，如图所示。6.根据词性将指称句分为四类，名词、形容词、动词和介词分别从以下几个方面进行分析：（1）名词性词语通常是物体或场景的标记，例如，人、公交车、人行道等。（2）形容词表示属性或状态，Tus，例如，年轻的，黑人;（3）动词是动作或相互作用的意思，例如，站立，谈话;（4）关系或空间性介词，例如，后面在后一阶段使用冲浪者和站立等精细级属性进行精确的信息提取。2) 粗糙级属性A2用于粗糙级。我们使用高级语义聚类属性，例如，每个人都代表主要信息。我们注意到，具有相同概念的标签可能具有不同的单复数形式或不同的分词，例如，人与人，谈话与谈话。这些词被NLTK Lemmatizer规范化为统一的格式，例如，从谈话到谈话。此外，具有更紧密语义相关性的标签（例如，girl和man是person的下位词）需要与其他语义概念（如cloth）区分开来，如图1的上图所示。6.因此，我们用Leacock-Chodorow距离计算的语义相似度对标签进行聚类[31]。我们发现阈值为0。85非常适合于分裂语义概念。粗层次的项目，如人和立场是在前一阶段的关键信息提取。4. 实验4.1. 实验设置数据集。可视化基因组（VG）区域字幕数据集[21]在我们的实验中用作评估基准。为了公平比较，我们使用版本1.0的数据集和与[20]相同的训练/验证/测试分割，即，77398张图像用于训练，5000张图像用于验证和测试。评估指标。在[20]之后，受对象检测[11，23]和图像字幕[3]中的评估指标的对于本地化，交集大于并集（IoU）阈值。3、。4、. 5、. 6、. 7使用时，METEOR[3]评分阈值0，. 05，。1、. 15、。2、. 25个使用43216246语言相似性。平均精度在所有成对设置中测量，即，（IoU，METEOR），并报告平均AP（mAP），这意味着针对定位准确性的不同IoU阈值和语言相似性的不同METEOR得分阈值计算mAP，然后将其平均为最终得分。为了在没有定位的情况下分离预测字幕中的语言准确性，预测字幕被评估而忽略它们的在[20]之后，每个预测的参考都是通过将每个图像的地面实况合并到一袋参考句子中来生成的。除上述mAP 评分外，METEOR 评分将作为辅助评价指标报告，表示为METEOR。请注意，来自图像中所有区域的参考仅提供全局和粗略的地面实况描述。实施详情。我们使用在ImageNet [8]上预训练的VGG-16 [21]作为网络骨干。在图2中，我们总共使用了6个LSTM单元，在每个阶段，一个LSTM分别用于局部、邻近、全局特征。新引入的层和LSTM单元是随机初始化的，我们提出的CAG网络是端到端训练的。这些实现基于使用Caffe [18]的Faster RCNN [29]，并且网络通过随机梯度下降（SGD）进行优化，基本学习率为0。001。输入图像的大小被重新调整为具有720像素的较长边，并且在训练的每个前进通道用于顺序建模的LSTM单元有512个隐藏节点。训练注释中最频繁的10，000个单词被保留为词汇表，其他单词在与[34]相同的条件下被折叠成一个特殊的UNK>在[20]之后，我们丢弃所有超过10个单词的句子（7%的注释），即LSTM的时间长度为10。我们框架的损失来自两个方面：1）位置：边界框回归（L bbox）的平滑交叉熵损失和二元前景/背景分类器（Lcls）的softmax损失，2）标题：用于描述生成的句子的交叉熵损失（Lsent），遵循[34]和用于语言属性识别的二元交叉熵损失（Lattr）。总损失函数为L=Lsent+αLbbox+βLcls+γLattr，其中α=0。1，β=0。1且γ=0。01在我们的实验与经验值。在评估中，我们遵循[20]的设置进行公平比较。具有最高预测置信度的300个建议在具有IoU阈值0的非最大抑制（NMS）之后保留。7 .第一次会议。我们使用高效的beam-1搜索来产生区域描述，其中在每个时间步选择具有最高置信度的单词。使用具有IoU阈值0的另一轮NMS。3，剩余的区域及其生成的描述用于最终评估。为了建立一个上界，无论区域的建议，我们评估的模型地面真理界-方法地图RPN流星地图GT流星CAG-Net10.510.27936.290.316T-LSTM [34]9.310.27533.580.307FCLN [20]5.390.27327.030.305表1. Visual Genome的定量结果与最先进的方法T-LSTM [34]和FLCN [20]进行比较。粗体显示的结果T-LSTM上的度量，即，METEOR，没有提供的文件，我们衡量这些指标使用的模型提供的作者。方法CAG-NetL+G+NL+GL地图RPN10.519.557.976.31GT36.2933.5031.7726.70表2.CAG-Net上的消融研究比较了上下文线索整合模块的变体，即，1)L，没有相邻或全局特征的局部线索，2）L+G，局部和全局线索整合，以及3）L+G+N，局部、全局和相邻整合，而不堆叠上下文线索整合模块。粗体显示的结果表示最佳性能。包装盒，在表中标记为GT。4.2. 与最新技术水平方法的我们定量地比较了所提出的上下文和属性接地密集字幕（CAG-网）模型与以前的最先进的，FCLN[20]和T-LSTM [34]。FCLN [20]引入了一个用于密集定位的完全可微层。每个区域的字幕是单独生成的，没有来自上下文特征的任何消息传递 T-LSTM [34]设计了包含两个新颖部分的网络结构：联合推理进行精确定位，并与全局场景进行上下文融合，以实现精确描述，而不考虑相关区域之间的相互作用。比较实验使用与现有技术相同的设置，如表10所示1.一、 CAG-Net通过将mAP评分从9提高到9，显著优于这些方法。31%比1051%使用RPN，33. 58%到36。与之前最先进的T-LSTM相比，使用地面真值边界框的比例为29%[34]。该方法的优点主要来自于基于属性的粗到细描述生成，使用上下文特征提取器和区域之间的消息集成提出的CAG-Net在捕获相关区域之间的相关性和生成更准确的描述方面具有很强的能力。不同方法的METEOR 评分这是因为预测字幕的METEOR分数是通过使用图像中所有区域的所有地面实况解压缩作为参考来计算的这些参考是粗略的，对于某个区域可能不准确。在接下来的消融研究中（第5），我们主要关注mAP评分的比较。43216247人在一排。黑色长凳人们在田野里，两个人骑马一个金属架子骑马的人在田野里一个金属篮子骑手骑在马上一个钢篮子白蛋糕白色糖霜涂有粉红色糖霜苹果片的甜甜圈苹果片一只棕色口袋一个棒球手套棕色的棒球手套运动员的棕色手套投手的棕色手套一个黑匣子一扇木门一台黑色电视桌子上的黑色电视书桌上的黑色电视L L+G L+G+N（CCI）CAG-Net地面实况图7.将CAG网络与VG数据集上不同模块配置的变体进行比较，（a）L（Local Cue），(b)L+G（Local and Global Integration），L+G+N（CCI）（Local，Global and Neighboring Integration）。5. 消融研究5.1. CAG网属性固定字幕生成器与上下文真实的线索。为了证明多尺度上下文和属性接地字幕模块的好处，我们在图中比较了CAG-Net的结果4（d）通过逐步去除单个线索，即，1）L，局部线索作为基线，而没有上下文相邻或全局特征，如图1所示4（a），2）L+G，图中没有上下文相邻线索的局部和全局线索整合4(b)（3）L+G+N、局部、全局和邻近整合，而不叠加图1中的上下文线索整合模块4（c），定义为第3.2节中的CCI定量结果见表1。二、与基本L相比，L+G+N的mAP从6. 31%至9。55%使用RPN，26. 70%到33 50%使用地面真值框，涉及上下文特征提取器和消息集成，而L+G的mAP仅包括全局线索达到7。97%使用RPN和31。77%使用地面实况边界框。这一显著的改进表明了多尺度背景和单个区域之间的背景线索整合对于区域生成的重要性，全局和邻域对提高最终性能有一定的贡献。此外，在语言属性损失的辅助下，CAG-Net的mAP达到了10。使用RPN的 mAP 中的 51% ，增益为 0 。 96% 相比， L+G+N（CCI），而增益1。79%使用地面实况边界框。采用基于属性的由粗到细的字幕模块，生成的字幕对区域的描述定性结果见图。7.由目标区域直接生成的描述由于缺乏足够的视觉信息而容易出错，例如，错把棒球手套当成了棕色的袋子，错把苹果片当成了白色的。方法CAG-Net（A2，A1）（A1，A1）（A2，A2）（1k， 1k）（−，−）CCImAPRPN10.519.939.999.959.599.55GT36.2934.9835.1735.0233.7833.50表3. CAG-Net上的消融研究比较了语言属性损失的变体，即，1) （A2，A1），具有所提出的从粗到细的属性，2）（A1，A1），仅具有细级别属性A1，3）（A2，A2），仅具有粗级别属性A2，4）（1k，1k），用前1 k个属性替换所提出的属性，5）（-，-），没有任何属性的堆叠结构，6）CCI，只有一个阶段没有属性。粗体的结果是最好的蛋糕和铁篮子给黑板凳。所涉及的图像全局线索也会导致偏差，例如，房间里的电视被误认为是木门，尽管有时会有积极的效果，例如，在全局图像特征的帮助下准确地预测手套。此外，与图中所示的单个模块a黑色电视相比，由粗到细的生成模块将加强对桌子上的黑色电视的更丰富的描述。实验结果表明，本文提出的基于上下文和属性的密集字幕生成结构具有良好的性能。语言属性损失。为了证明所提出的语言属性损失的好处，我们通过以下方式比较了CAG网络与语言属性变体的性能：1）“（−，−）“，去除框架中所有辅助语言属性损失，2）“（A1，A1）“，仅在两个阶段使用精细级属性A1，3）“（A2，A2）“，仅在两个阶段使用粗级属性A2。两个阶段，4）“（1k，1k）"，在两个阶段用前1k个属性（词汇表中前1k个最频繁的单词）替换所提出的语言属性。结果见表。3和CAG网络与建议的粗到细的语言属性表示为与“CCI”相比43216248方法随机最近SGFCAveMaxmAPRPN8.6269.1449.3158.1327.9818.024GT32.27433.41133.412 30.272 29.937 30.121K10203050100地图RPN8.9159.1449.1098.8048.749GT33.26033.41233.41133.38933.089表4.不同上下文特征提取器的结果设置.“随机”意味着从图像中的所有区域中随机选择上下文相邻区域。“最近”是指从通过IoU分数排序的最近区域中选择相对区域。“SG”是指将这些相邻区域与相似性图融合。“FC” means fusing “MAX” means max-pooling of尽管具有更多的参数，但是操作模块不能显著地提高性能。相比之下，具有所提出的由粗到细属性的属性接地结构可以实现从9. 59%到10。51%（使用RPN）和33。78%到36。29%（使用地面真值框），因为建议的语言属性损失的辅助分层监督。此外，为了评估粗到细结构的有效性，我们比较了CAG网络，即，“‘如果在两个阶段没有粗到细的策略，具有不同属性的堆叠结构不能实现与使用RPN和使用地面真值边界框的CAG网络一样好的性能。本文提出的从粗到细的语言属性损失方法对提高目标区域的描述生成效果具有重要意义。5.2. 上下文特征提取器在本节中，我们通过逐步改变其中一个超参数或设置来比较上下文特征提取器（CFE）与变体的性能，在生成结构上，我们使用CCI而不是CAG-Net，因为它速度更快，计算成本更低上下文特征提取器的k-最近的相邻区域执行最好的。为了在我们的框架中探索上下文特征提取器中相似性图的好处，我们替换了图1所示的CCI中的相似性图。4（c）具有1）“FC”，全连接层，2）“MAX”，最大池化层，3）“AVE”，在连接k个相邻区域的所有特征向量之后的平均池化层。结果见表。4.与简单的全连接/最大池化/平均池化操作相比，相似图操作在连接了k个相邻区域的所有特征向量后，可以提高所有的评价指标这此外，Tab。4示出表5. 不同k-最近区域用于上下文特征提取器中的相邻特征。当超参数k分别设置为10，20，30，50，100时，报告了结果。最近邻区域（“最近”）比从图像中的所有区域随机选择的区域（“随机”）表现得更好，这是由于在描述生成中涉及更多的上下文特征提取器与超参数k=20优于其他参数。相邻区域的数量值得研究，因为它可以用于以在有效的消息传递和来自图像中的不相关建议的噪声之间找到折衷。我们验证了CCI的10，20，30，50和100之间的相邻区域的数量结果报告在表1中。5.我们采用k为20进行进一步的实验，以获得最佳性能（9。144%）。6. 结论在本文中，我们提出了一种新的端到端的密集字幕框架，命名为上下文和属性接地密集字幕（CAG-Net），它利用目标区域的视觉信息和多尺度上下文线索，全球和邻国。所提出的上下文特征提取器利用图像中的目标区域和k-最近邻为了提高对区域的描述生成，我们在训练过程的每个阶段从参考句子中提取语言属性作为辅助监督。大量的实验证明了相应的有效性和意义上的挑战性的大规模VG数据集上提出的CAG-Net。国家自然科学基金（批准号：2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000061371192）、中国科学院重点实验室基金（CXJJ-17S044 ）及中央大学基础研究基金（WK2100330002、WK3480000005）（部分由商汤科技集团有限公司赞助）、香港研究资助局资助的一般研究基金（编号：61371192）及香港大学研究资助局资助的一般研究基金（编号： 61371192 ）。CUHK14213616、CUHK14206114、CUHK14205615、CUHK14203015 、 CUHK14239816 、 CUHK419412 、CUHK14207-814、CUHK14208417、CUHK14202217），香港创新及科技支援计划（编号ITS/121/15 FX）。43216249引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[2] Jyoti Aneja，Aditya Deshpande和Alexander G. 施温卷积图像字幕。在CVPR，2018年6月。[3] S. Banerjee和A.拉维Meteor：一种用于mt评估的自动度量，具有与人类判断的改进相关性。2005年在ACL研讨会[4] A.布阿德斯湾Coll和J. - M.莫瑞尔一种非局部图像去噪算法。在CVPR，2005年。[5] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年7月。[6] 史辰和齐钊。提高注意力：利用人类的注意力为图像字幕。在欧洲计算机视觉会议（ECCV）上，2018年9月。[7] Tianlang Chen ， Zhongping Zhang ， Quanzeng You ，Chen Fang ， Zhaowen Wang ， Hailin Jin ， and JieboLuo.“事实”或“情感”：具有自适应学习和注意力的风格化图像字幕。在欧洲计算机视觉会议，2018年9月。[8] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。[9] C. Desai，D. Ramanan和C. C.福克斯多类别物件布局的判别模型。在IJCV，第95卷，第1-12页[10] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。在ECCV，2018。[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。在IJCV，第88卷，第303施普林格，2010年。[12] Zhe Gan，Chuang Gan，Xiaodong He，Yunchen Pu，Kenneth Tran，Jianfeng Gao，Lawrence Carin，and LiDeng.视觉字幕的语义合成网络在CVPR，2017年7月。[13] G.基奥沙里河Girshick和J.马利克使用R* CNN进行上下文动作识别。在ICCV，2015年。[14] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在CVPR，2017年。[15] Jiuxiang Gu，Jianfei Cai，Gang Wang，and Tsuhan Chen.Stack-captioning：从粗到精的图像字幕学习。在AAAI，2018。[16] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，第9卷，第1735-1780页。MIT Press，1997.[17] H. 胡，J.古，Z.张，J.Dai和Y.伟. 用于对象检测的关系在CVPR，2018年。[18] Y. Jia、E. Shelhamer，J.多纳休S. J. Long，R. KarayevGirshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM，2014中。[19] Wenhao Jiang，Lin Ma，Yu-Gang Jiang，Wei Liu，andTong Zhang.用于图像字幕的递归融合网络。在欧洲计算机视觉会议（ECCV），2018年9月。[20] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。在CVPR，2016年。[21] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M. S.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。在IJCV，第123卷，第32-73页[22] Y. Li，C.黄角C. Loy和X.唐基于深层层次背景的人类属性识别。在ECCV，2016年。[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV[24] 刘念，韩俊伟，杨明轩。Picanet：Learning pixel-wisecontextual attention for saliency detection.在CVPR，2018年。[25] 刘希慧，李洪生，邵晶，陈大鹏，王晓刚.显示，告诉和歧视：图像字幕的自我检索与部分标记的数据。在欧洲计算机视觉会议（ECCV），2018年9月。[26] Jiasen Lu ，Caiming Xiong，Devi Parikh，and RichardSocher. 知道

下载后可阅读完整内容，剩余1页未读，立即下载