大规模基准：推动视觉概念学习的图像字幕模型

175 浏览量更新于2023-10-12 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1nocaps：按比例添加新对象字幕Harsh Agrawalx1Mark Johnson2Karan Desaix1，4 DhruvBatra1，3王宇飞2DeviParikh1，3Xinlei Chen3Stefan Lee1，5彼得·安德森11佐治亚理工学院、2麦考瑞大学、3Facebook AI Research4密歇根大学5俄勒冈州立大学1{hagrawal9，kdexd，rishabhjain，dbatra，paradise，steflage，peter.anderson}@ gatech.edu2{yufei.wang，mark.johnson}@ mq.edu.au3xinleic@fb.comhttps://nocaps.org摘要图像字幕模型在包含有限视觉概念和大量成对图像字幕训练数据的数据集上取得了令人印象深刻的结果。然而，如果这些模型要在野外发挥作用，就必须学习更多种类的视觉概念，最好是在较少的监督下。为了鼓励开发可以从替代数据源（如对象检测数据集）学习视觉概念的图像字幕模型，我们提出了这项任务的第一个大规模基准。被称为“nocaps”，用于大规模的新颖对象字幕，我们的基准测试由166，100个人类生成的字幕组成，描述了来自Open Images验证和测试集的15，100个相关的训练数据包括的COCO图像标题对，加上开放图像级标签和对象边界框。由于OpenImages包含的类比COCO多得多，测试图像中的近400个对象类没有或很少有相关的训练标题（因此，nocaps）。我们扩展现有的新的对象字幕模型，建立强大的基准，并提供分析，以指导未来的工作。1. 介绍图像字幕的最新进展，即生成视觉内容的自然语言描述的任务[9，10，16，17，41，44]，可以在很大程度上归因于公开可用的大规模图像字幕对数据集[5，14，48]以及稳定的建模改进[4，24，35，46]。然而，尽管这些模型的基准性能令人印象深刻，但它们在野外的图像中推广效果很差[37]，因为它们是在数据集上训练的，这些数据集只覆盖了现实世界中视觉概念长尾分布例如，在COCO Captions [5]上训练的模型通常可以描述包含狗，人和嗯-前两位作者贡献相等，按字母顺序排列。KD在佐治亚理工学院实习期间完成的工作图1：nocaps任务设置：图像字幕模型必须利用Open Images对象检测数据集（左下角）来成功描述COCO Captions数据集（左上角）未覆盖的新对象nocaps基准测试（右）分别评估仅包含COCO类、COCO和新类以及仅包含新类的图像的域内、近域和域外子集的性能。brellas，但不是手风琴或海豚。这限制了这些模型在现实世界应用中的使用，例如为视力受损的人提供帮助，或用于改进基于自然语言查询的图像检索。为了更好地“在野外”推广这种具有检测注释但不存在于字幕语料库中的对象被称为新对象，描述包含新对象的图像的任务被称为新对象字幕[2，3，13，25，40，43，47]。到目前为止，已经使用[12]中介绍的概念验证数据集评估了新的对象这个数据集有限制-89488949假设-它只包含8个从COCO数据集[ 13 ]中提出的新对象类，故意选择与现有对象高度相似（例如，马是看得见的，斑马是新奇的）。这使得这些方法的大规模性能受到质疑。鉴于这项任务的新兴兴趣和实际必要性，我们介绍nocaps，第一个大规模的基准小说对象字幕，包含近400个小说对象类。详细地说，nocaps基准由验证集和测试集组成，分别由4，500和10，600张图像组成，这些图像来自Open Images对象检测数据集[18]，每个图像注释有11个人类生成的字幕（10个用于自动评估的参考字幕加上人类基线）。至关重要的是，我们不提供额外的成对图像标题数据进行训练。相反，如图 1 所示，nocaps基准的训练数据是来自COCO Captions 2017 [5]训练集的图像-标题对（包含80个对象类的118 K图像），加上Open Images V4对象检测训练集（用600个对象类的边界框和20 K类别的图像标签注释的1.7M图像）。为了成功，图像字幕模型可以利用COCO配对的图像-字幕数据来学习生成语法正确的字幕，同时利用大规模开放图像检测数据集来学习更多的视觉概念。我们的关键科学目标是从“如何谈论它”中解开“如何识别一个物体”。在学习了新对象的名称之后，人类可以立即谈论其属性和关系。因此，现有的模型已经内化了大量的字幕示例，不能再教新的对象，这在智力上是令人不满的。与之前的工作一样，该任务设置也是出于以下观察：收集人类注释的标题是资源密集型的，并且随着对象多样性的增长而扩展性较差，而另一方面，大规模对象分类和检测数据集已经存在[8，18]，并且它们的收集可以大规模扩展，通常是半自动的[28，29]。为了在我们具有挑战性的基准上建立最先进的技术，我们评估了两种表现最好的现有方法[2，25]，并根据完善的评估指标- CIDEr [ 39 ]和SPICE [ 1 ]报告了它们的性能为了提供更细粒度的分析，我们进一步将性能分解为三个子集-虽然这些模型确实比仅在COCO字幕上训练的基线模型有所改进，但它们仍然远远低于人类在这项任务上的表现-这总之，我们做出了三个主要贡献：- 我们收集nocaps-第一个大规模的nocaps，包含400个nocaps。- 我们进行了详细的调查，现有的两个国家的最先进的模型对这项任务的性能和局限性，并将它们与人类的表现。- 我们作出改进，并提出简单的启发式，提高约束波束搜索的性能显着我们的基准。我们相信nocaps的改进将加速图像字幕在野外的进展。我们在EvalAI [45]上托管了一个公共评估服务器，以衡量nocaps的进展。为了可重复性和刺激创新，我们还发布了代码来复制我们的实验：https://github.com/nocaps-org。2. 相关工作新颖的对象字幕新颖的对象字幕包括迁移学习和领域自适应的方面[6]。测试图像包含以前看不见的或为了获得在目标域中表现良好的字幕模型，Deep Compositional Captioner [13]及其扩展Novel Object Captioner [40]都试图通过将字幕模型分解为视觉和文本组件来转移知识，这些组件可以使用单独的损失函数进行训练，也可以联合使用可用的图像标题数据。几种替代方法选择更明确地使用对象检测器的输出。两个并行的作品，神经婴儿谈话[25]和去耦小说对象字幕[43]，从婴儿谈话[19]中获得灵感，并提出神经方法来生成开槽字幕模板，然后使用现代最先进的对象检测器识别的视觉概念填充与Neu- ral Baby Talk相关，LSTM-C [47]模型用复制机制增强了标准递归神经网络句子解码器，该复制机制可以选择与对象检测器预测相对应的单词出现在输出句子中。与这些作品相反，一些新的对象字幕的方法是架构不可知的。约束波束搜索[2]是一种解码算法，可用于在推理过程中强制在字幕中包含选定的单词，例如对象检测器预测的新对象类。基于这种方法，部分指定的序列监督（PS3）[3]使用约束波束搜索作为子例程来估计包含新对象的图像的完整字幕。然后，这些完整的帽被用作受期望最大化（EM）启发的迭代算法中的训练目标[7]。在这项工作中，我们研究了两种不同的方法：神经婴儿谈话（NBT）[25]和约束波束搜索（CBS）[2]在我们具有挑战性的基准-两者其中最近声称在概念验证新颖对象字幕数据集上的最新技术水平[13]。8950图2：与COCO Captions [5]相比，平均而言，nocaps图像每个图像具有更多的对象类（4.0 vs. 2.9）、每个图像更多的对象实例（8.0与7.4），以及更长的标题（11个字与10个字）。这些差异反映了基础开放图像数据的多样性增加[18]，以及我们的图像子集选择策略（参见第3.1节）。过去，已经出现了两种用于收集图像标题数据集的范例：直接表示和过滤。直接注释的数据集，如Flickr8K [14]，Flickr 30K [48]和COCO Captions [5]，是使用人群工作人员收集的，他们被给予指令来控制结果字幕的质量和风格。为了提高自动评估度量的可靠性，这些数据集通常包含每个图像五个或更多个帽。然而，即使是其中最大的一个，COCO Captions，也只基于一个相对较小的80个对象类。相比之下，过滤后的数据集，如 Im 2 Text [27] ， Pinterest 40 M [26] 和Conceptual Captions [36]，包含大量从网络上获取的图像-标题对。这些数据集包含许多不同的视觉概念，但由于收集管道的自动化性质，在描述中也更有可能包含非视觉内容此外，这些数据集缺乏人类基线，并且可能不包括用于自动评估度量和人类判断之间的良好相关性的每个图像的足够字幕[1，39]。我们的基准，nocaps，旨在填补这些数据集之间的差距，通过提供一个高质量的基准，每个图像10个参考字幕和比COCO更多的视觉据我们所知，nocaps是唯一一个人类在自动评估中优于最先进模型的图像字幕基准。3. 无卡普斯在本节中，我们将详细介绍nocaps收集过程，与COCO Captions [5]进行对比，并介绍评估协议和基准指南。3.1. 标题集合nocaps中的图像来源于Open Im-年龄V4 [18]确认和测试集。1Open Images是目前最大的可用人类注释对象检测数据集，包含190万张复杂场景的图像，这些图像用600个类的对象边界框进行注释（训练集中每个图像平均有8.4个对象实例）。此外，在500个不太宽泛（例如1nocaps中使用的图像来自Open Images V4数据集，并在其原始许可证（CC BY 2.0）在COCO Captions [5]（我们选择作为图像标题训练数据）中，几乎没有或很少提到近400个，使这些图像成为我们基准测试的理想基础。图像子集选择由于Open Images主要是对象检测数据集，因此大部分图像包含单个对象的框架良好的图标视角。此外，对象类的分布是高度不平衡的，具有相对不频繁出现的对象类的长尾。然而，对于图像字幕，包含多个对象和罕见对象共现的图像更有趣和具有挑战性。因此，我们从Open Images验证中选择图像子集，并通过应用以下采样程序测试拆分。首先，我们排除所有图像的正确图像旋转是非零或未知的。接下来，基于地面实况对象检测注释，我们排除仅包含来自单个对象类别的实例的所有图像。然后，为了捕获尽可能多的视觉上复杂的图像，我们包括包含超过6个独特对象类的所有图像。最后，我们使用采样过程从剩余的图像中迭代地选择，该采样过程在对象类和图像复杂性（基于每个图像的唯一类的数量）方面都鼓励均匀表示具体地说，我们根据图像中存在的唯一类的数量（从2-6包括在内）将剩余的图像分为5个池。然后，依次取每个池，我们随机抽取n个图像，并在这些图像中选择添加到基准测试时在对象类上产生最高熵的图像。这可以防止nocaps被频繁出现的对象类（如person、car或plant）过度支配。总共，我们选择了4，500个验证图像（从Open Images验证集中总共41，620个图像中）和10，600个测试图像（从Open Images测试集中总共125，436个图像中）。平均而言，每个选定的图像包含4.0个对象类和8.0个对象实例（参见图2）。为了评估模型生成的图像字幕，我们从 AmazonMechanical Turk（AMT）上的大量群众工作者中为每张图像收集了11个在11个字幕中，我们随机抽取每个图像的一个字幕，以建立hu-8951数据集1克2克3克4克Coco6,91346,66492,946119,582无卡普斯8,29159,714116,765144,577Labels：Kondola，Tree，VehicleLabels：小熊猫表1：从COCO和nocaps验证集中均匀随机选择的相同大小（4，500张图像/22，500个nocaps中增加的视觉多样性没有启动：一个男人和一个女人被一个水手用船运送通过运河启动：一些人在后面有一棵树的贡多拉上享受美好的旅程。没有启动：一只棕色的啮齿动物爬上树林里的一棵树。一只小熊猫坐在树旁的草地上。与COCO（1-grams）相比，需要更大的词汇量，但语言成分也更加多样化（2-，3-和4-克）。3.2. 数据集分析在本节中，我们将nocaps基准与图3：我们进行了试点研究，以评估字幕采集界面。由于Open Images包含稀有且细粒度的类别（如右上角的小熊猫），我们发现使用正确的对象类别启动工作人员会产生更准确和描述性的标题。man在nocaps上的性能，并使用剩余的10个captions作为自动评估的参考字幕。先前的工作表明，当提供更多的参考字幕时，自动字幕评估指标与人类判断的相关性更好[1，39]，这促使我们收集比COCO更多的参考字幕（每个图像只有5个）。我们的图像标题收集界面非常类似于用于COCOCaptions数据集收集的界面，尽管有一个重要的差异。由于nocaps数据集包含比COCO更稀有和细粒度的类，在最初的试点研究中，我们发现人类注释者并不总是能够正确地识别图像中的对象。例如，如图3所示，小熊猫被错误地描述为棕色啮齿动物。因此，我们通过显示图像中存在的地面实况对象类的列表来尝试启动工作人员为了最大限度地减少这种启动的可能性，以减少语言多样性的字幕，对象类被呈现为“关键字”，并明确指示工人，这是没有必要提到所有显示的为了减少混乱，我们没有显示在Open Images中分类为部件的对象类例如人手、轮胎、门把手。对有启动和没有启动的标题进行比较的试点研究表明，启动的工人产生了更多的定性准确和描述性的标题（见图3）。因此，所有的nocaps标题，包括我们的人类基线，都是使用这个启动修改的COCO收集界面收集的。为了帮助保持所收集的字幕的质量，我们只使用了在AMT上完成至少5000个先前任务且批准率超过95%的美国员工我们还抽查了每个工人编写的字幕，并阻止了提供低质量字幕的工人。这些工人写的字幕然后被丢弃，取而代之的是高质量工人写的字幕总的来说，727名工人参与了，平均每人写了228个字幕，总共有166，100个字幕。COCO字幕[5]在图像内容和标题多样性。基于地面实况对象检测注释，nocaps包含跨越600个对象类的图像，而COCO仅包含80个。与这种更大的视觉多样性相一致，nocaps在每个图像中包含更多的对象类（4.0 vs 2.9），并且每个图像中包含更多的对象实例（8.0 vs 7.4），如图2所示。此外，nocaps不包含仅包含一个对象类的图标图像，而COCO数据集的20%由这样的图像组成。同样，只有不到10%的COCO图像包含超过6个对象类，而这些图像构成了近22%的nocap。虽然在数据收集过程中用对象类作为关键词来启动工作者有可能减少语言多样性，但nocaps标题仍然比COCO更多样。由于nocaps图像在视觉上比COCO更复杂，因此平均而言，收集来描述这些图像的标题往往稍长（11个单词，10个单词），并且比COCO数据集中的标题更加多样化。如表1所示，在每个数据集中对相同数量的图像和字幕进行均匀随机采样，我们表明，不仅nocaps字幕使用比COCO字幕更大的词汇表，反映了存在的视觉概念数量的增加。独特的2，3和4-克的数量也显着较高的nocaps此外，我们在图4中比较了COCO、域内和域外之间的视觉和语言相似性。我们观察到，域中类与等价的COCO类（例如，cat，book），而许多域外类在视觉上和语言上不同于域内类（例如，水母、甲虫、大提琴）。域外还涵盖了许多在视觉上和语言上与COCO相似但在COCO中很少描述的概念（例如：老虎，柠檬）3.3. 评价nocaps的目标是通过利用其他数据源，对能够描述包含视觉上新颖概念的图像的模型进行基准测试。为了方便评估并避免暴露新的对象标题，我们在8952T-SNE：视觉相似性（从类的GT边界框中平均自下而上的特征）。布罗科利T-SNE：语言相似性（类名的GloVe特征草莓橙色柠檬手枪近域域外马铃薯步枪手风琴钢琴大提琴猫虎甲虫水母海星人女孩男孩1. 一个人坐在马鞍上骆驼2. 一个人坐在骆驼上后面跟着另一只骆驼3. 一个长头发的蓝色男人1. 一辆油罐车停在加油站。2. 加油站的一辆坦克3. 一辆吉普车和一辆黄褐色的坦克图4：T-SNE [38]图比较了COCO、域内和域外类别中的视觉（左）和语言（右）相似性。我们注意到：（a）域内显示出与COCO的高度视觉相似性（例如，猫，书（左））。(b)许多域外类在视觉上和语言上与域内类不同（例如，水母、甲虫、大提琴）。（c）域外还涵盖许多视觉上和语言上与COCO相似的概念，这些概念在COCO中没有很好地涵盖（例如老虎、柠檬）。EvalAI [45]-- 不要使用从人类收集的额外成对图像-字幕数据。通过利用额外的人工生成的配对图像来提高评估分数-牛仔裤骑在骆驼上4. 一个人坐在骆驼上，后面站着一只骆驼。5. 长发男子穿着坐在毯子披着骆驼6. 一只骆驼站在一个坐着的骆驼背上有一个人7. 站着的骆驼靠近一只坐着的骆驼，骆驼背上有一个人8. 有人坐在骆驼在另一头骆驼的前面。9. 两个骆驼在甜点和一个一个人坐在一个坐着。10. 两个骆驼在沙滩上，一个人坐在其中一个坐着的骆驼上。在加油站加油4. 一辆坦克和一辆卡车停在加油站的油泵旁。5. 一辆军用悍马正在76加油站加油。6. 一辆军用坦克停在加油站。7. 一辆陆地车辆停在加油站加油。8. 一辆大型军车停在加油站的加油泵旁。9. 一辆油罐车停在一个旧加油站外面10. 多辆军用车辆在民用加油站加油字幕数据与此基准测试是对立的-应该使用的然而，在训练或推断期间可以使用外部文本语料库、知识库和对象检测数据集。- 不要利用地面实况对象注释。我们注意到，地面实况对象检测注释可用于Open Images验证和测试分割（因此，也可用于nocaps）。虽然地面实况注释可以用于建立验证集的性能上限，除非明确披露，否则绝不应在提交给评估服务器时使用它们。我们预计，研究人员可能希望在不对训练数据集进行任何限制的情况下研究nocaps的性能限制因此，我们为此保留了一个单独的排行榜“nocaps（XD）“2排行榜。与现有的字幕基准一样，我们依靠自动度量来评估模型生成的字幕的质量。我们主要关注CIDEr [39]和SPICE [1]，它们已被证明与人类判断[23]具有最强的相关性，并已用于之前的新对象字幕工作[3，12，25]，但我们也报告了Bleu [30]，Meteor [20]和ROUGE[22]。这些指标测试模型是否准确地提及新对象[41]以及流畅地描述它们[20]。值得注意的是，这些指标的绝对规模并不一致。图5：来自nocaps验证集的近域和域外图像的示例左边的图像属于近域子集（COCO和Open Images类别），而右边的图像属于域外子集（仅Open Images类别）。评估子集我们进一步将nocaps的性能分解为三个子集的验证和测试分裂，对应于不同的“接近”为了确定这些子集，我们手动将80个COCO类映射到Open Images类。然后我们选择- 另外39个开放图像类，其不是COCO类，但是在COCO字幕训练集中被提及超过1,000次（例如，我们将这119类分类为与COCO相关的域内类。有87个Open Images类没有出现在nocaps3中。其余的394个类是域外的。然后如下确定图像子集：– 域内图像仅包含属于域内类的对象。由于这些对象已经在成对的图像-字幕训练数据中描述，我们预计仅在COCO上训练的字幕模型在这个子集上表现得相当好，尽管由于图像域偏移会产生一些负面影响该子集包含1，311个测试图像（13K字幕）。–近域图像包含域内和域外域对象类。这些图像更具挑战性-由于引用的数量不同标题和语料库范围的统计。2XD代表“额外数据”3这些类没有被包含，要么是因为它们不存在于底层的OpenImages val和test split中，要么是因为它们被我们的图像子集选择策略过滤掉了，更倾向于更复杂的图像。飞机飞机导弹喷泉消防栓鼓大提水槽浴缸老虎猫书书烤箱面包机按摩浴缸猫搅拌机橙芒果柠檬厕所胡萝卜金鱼水母甲虫瓢虫蛇浴盆香蕉8953对于COCO训练的模型，特别是当图像中最显著的对象是新的时。这是包含7，406张测试图像（74K字幕）的最大子集。– 域外图像不包含任何域内类，并且在视觉上与COCO图像非常不同。我们预计这个子集将是最具挑战性的，仅在COCO数据上训练的模型可能会在这个子集上犯“令人尴尬的错误”，这反映了该子集包含1，883张测试图像（19K字幕）。4. 实验提供一个最先进的初步措施，nocaps，我们扩展并呈现了两种现代方法的结果，以新颖的对象字幕我们简要回顾这些approaches的完整性，但鼓励读者寻求原始作品的进一步细节。自下而上自上而下字幕（UpDown）[4]对使用在大量对象和属性类上训练的对象检测器提取的视觉特征进行对于视觉特征，我们使用公开可用的Faster R-CNN [34]检测器在[4]的Visual Genome上训练，以建立一个专门在配对图像标题数据上训练的强基线。神经婴儿谈话（NBT）[25]首先生成一个混合文本模板，其中插槽明确地绑定到特定的图像区域，然后用与对象检测器识别的视觉概念相关的单词填充这些插槽。这使得NBT能够在与适当的预训练对象检测器相结合时为新对象添加字幕为了使NBT适应nocaps设置，我们结合了Open Images检测器，并使用VisualGenome图像特征训练语言模型我们在对象区域的视觉特征表示中使用固定的GloVe嵌入[31]，以便更好地将与新对象对应的单词上下文化。打开Images Object Detection。CBS和NBT都使用对象检测;我们使用在Open Images上训练的相同预训练FasterR-CNN模型。具体而言，我们使用来自Tensorflow模型zoo [15]的模型4，其在0.5 IoU（mAP@0.5）处实现了54%的检测平均平均精度。约束波束搜索（英语：Constrained Beam Search，CBS）[2]是一种推理时间过程，可以强制语言模型包含被称为约束的特定单词我们将CBS应用于基线UpDown模型和基于检测到的对象的NBT。在[2]之后，我们使用具有24个状态的有限状态机（FSM）来合并多达4tf_faster_rcnn_inception_resnet_v2_atrous_oidv4三个选择的对象作为约束，包括两个和三个单词短语。在解码之后，我们选择满足至少两个约束的最高对数概率字幕。约束过滤虽然原始工作[2]从检测中随机选择约束，但在nocaps设置的初步实验中，我们发现一个简单的启发式算法显着提高了CBS的性能。为了从对象检测中生成字幕约束，我们通过删除39个Open Images类来细化原始对象检测标签，这些Open Images类是“部分”（例如，人眼）或很少提及（例如，哺乳动物）。具体地，我们通过移除两个对象的高阶（例如，高阶）来解决重叠检测（IoU = 0.85）。，“dog”将抑制“mam-mal”）（如果相等则保持两者）。最后，我们把基于检测置信度的前3个对象作为约束。语言嵌入为了处理新词汇，CBS需要词嵌入或语言模型来估计词转换的可能性。我们扩展了原始模型-由于字幕是从左到右解码的，因此我们只能使用ELMo的前向表示作为输入编码，而不是像[11，42]中那样使用完整的双向模型。我们还初始化的softmax层，我们的帽- tion解码器与ELMo和固定它在训练过程中，以提高模型的泛化看不见的或罕见的培训和实施细节。我们在COCO训练集上训练所有模型，并在nocaps验证集上调整参数。所有模型都是用交叉熵损失训练的，即我们不使用RL微调来优化评估指标[35]。5. 结果和分析我们在表2中报告了nocaps测试集的结果。而我们的最佳方法（UpDown + ELMo + CBS，这在下面进一步解释）显著优于COCO训练的Up-Down基线字幕机（ 19CIDER ），但仍然比人类差很多（12CIDER）。如所预期的，最大的差距出现在域外实例（n25CIDEr）。这表明，虽然现有的新的对象字幕技术确实比标准模型有所改进，但野外字幕仍然是一个值得考虑的开放性挑战。在本节的其余部分，我们将讨论nocaps和COCO验证集的详细结果（表3），以帮助指导未来的工作。总的来说，证据表明，通过更强大的对象检测器和更强大的语言模型可以取得进一步的进展，但仍然存在一些悬而未决的问题-例如将这些元素结合起来的最佳方式，以及该解决方案应该在多大程度上涉及学习与学习。CBS等推理技术。我们将这些讨论与以下一系列具体问题联系起来8954nocaps测试域内近域域外总体方法CIDEr香料苹果酒香料苹果酒香料Bleu-4流星ROUGE_L CIDER SPICEUpDown74.311.556.910.330.18.174.019.223.050.954.310.1UpDown + ELMo + CBS76.011.874.211.566.79.776.618.424.451.873.111.2NBT60.99.853.29.348.78.272.314.721.548.953.49.2NBT + CBS63.010.162.09.858.58.873.412.922.148.761.59.7人类80.615.084.614.791.614.276.619.528.252.885.314.6表2：在nocaps测试分割上的单个模型图像字幕性能我们评估了四个模型，包括仅在COCO上训练的UpDown模型[4]，以及基于约束波束搜索（CBS）[2]和神经婴儿谈话（NBT）[25]的三个模型变体，这些模型利用了Open Images训练集。COCO val 2017nocapsval总体域内近域域外总体方法蓝-1蓝-4流星苹果酒香料苹果酒香料苹果酒香料苹果酒香料苹果酒香料（1）向上向下77.037.227.8116.221.078.111.657.710.331.38.355.310.1（2）UpDown + CBS73.332.425.897.718.780.012.073.611.366.49.773.111.1（3）UpDown + ELMo + CBS72.431.525.795.418.279.312.473.811.471.79.974.311.2（4）UpDown + ELMo + CBS +GT-----84.212.682.111.986.710.683.311.8（5）NBT72.729.423.888.316.562.710.151.99.254.08.653.99.2（6）NBT + CBS70.228.225.180.215.862.310.361.29.963.79.161.99.8（7）NBT + CBS + GT-----68.910.768.610.376.99.870.310.3（8）人类66.321.725.285.419.884.414.385.014.395.714.087.114.2表3：COCO和nocaps验证集上的单一模型图像字幕性能。我们从一个强大的基线开始，即在COCO字幕上训练的UpDown[4]。然后，我们使用基于Open Images检测器（+ CBS）的对象检测的约束Beam Search [2]来研究解码，以及分别结合预训练语言模型（+ ELMo）和地面真实对象检测（+ GT）的影响。在面板2中，我们回顾了神经婴儿谈话（NBT）的性能[25]，说明了类似的性能趋势。即使在使用地面实况对象检测时，所有方法都远远落后于人类对nocaps的基线。注：不应直接比较COCO和nocaps的评分（见第3.3节）。COCO人类评分是指测试分割。– 针对nocaps优化的模型在COCO上是否保持其性能？我们发现nocaps性能的显著提高对应于COCO上的大损失（下降 2-3 对下降 1 ， 20 CIDER 和 3SPICE）。鉴于收集方法的相似性，我们不期望看到COCO和nocaps之间的语言结构的显著差异。然而，最近的工作已经观察到在跨数据集传输模型时显著的性能下降，即使新的目标数据集是旧数据集的精确重建[33]。限制字幕设置中的这种退化是未来工作的潜在重点– 约束过滤有多重要？应用 CBS 极大地提高了UpDown和NBT的性能（特别是在域外字幕上），但成功在很大程度上取决于约束的质量。如果没有我们的39类黑名单和重叠过滤，我们发现所有的nocaps 验证过程都是针对我们的 UpDown+ELMo+CBS的8 CIDER和3 SPICE大部分损失来自黑名单上的似乎更复杂的约束选择技术，考虑图像上下文可以进一步提高性能。– 更好的语言模型对CBS有帮助吗？为了处理新词汇，CBS需要新词汇的表征。我们将使用第4节中描述的ELMo编码（第3行）与仅在COCO训练期间学习单词嵌入的设置（第2行）进行比较。请注意，在此设置中，任何未在COCO中找到的单词的嵌入都是随机初始化的。令人惊讶的是，训练的嵌入在域内和近域子集上与ELMo嵌入表现相当，尽管ELMo模型在域外子集上表现得更好。看起来，即使COCO中相对罕见的nocaps对象名称也足以学习有用的语言模型，但是没有视觉基础，如仅COCO模型的差分数所示8955域内近域域外方法一个海滩上有椅子和雨伞。一个穿红衬衫的男人拿着棒球棒。一只鸟在海洋中的海洋。+ ELMo一个海滩上一个穿红衬衫的男人拿着棒球棒。一只漂浮在水面上的鸟。+ ELMo + CBS有椅子和雨伞的海滩，风筝。一个戴着红帽子的人拿着一把棒球步枪。一只海豚在海里游泳晴天。+ ELMo +CBS+ GT有椅子和雨伞的海滩。一个戴着红帽子的人拿着一把棒球步枪。鲸鱼海豚在海洋中游泳在海洋上NBT一个海滩，有一堆草坪椅，雨伞+ CBS一个海滩上有一堆雨伞。在球场上拿着棒球棒的棒球运动员。拿着棒球步枪的棒球运动员在外地海豚坐在水里。坐在海豚身上的海洋哺乳动物在海里+ CBS +GT海滩上有许多遮阳伞的海滩拿着棒球步枪的棒球运动员在外地一只黑海豚在阳光明媚的日子里在海洋里游泳。一对椅子，坐在一个海滩.一个戴着红帽子的男人举着一把猎枪。海豚鳍在水里。图6：来自nocaps的一些具有挑战性的图像以及由我们的基线模型生成的相应标题给予CBS的约束以蓝色示出，并且与NBT相关联的基础视觉词以红色示出。模型在域内图像上表现得相当好，但将近域和域外图像中的对象与视觉上相似的域内对象混淆，例如步枪（棒球棒）和鳍（鸟）。在困难的域外图像上，模型生成重复的标题，例如“在海洋中”，并生成不连贯的标题，例如“海洋动物”和“海豚”指的是图像中的同一实体– 更好的物体探测器有帮助吗？为了评估对对象检测的依赖性，我们将按面积递减排序的地面实况检测提供给我们的完整模型（第4行和第7行）。这些地面实况检测经历与预测的相同的约束过滤。与依赖预测的模型（第3行和第6行）相比，我们在所有拆分上都看到了较大的增益（对于UpDown，R 0为4vs3-n9CIDER和n0.6SPICE增益）。随着检测器的改进，我们期望在nocaps基准上看到相应的收益为了定性评估各种方法之间的一些差异，在图6中，我们展示了使用各种模型配置生成的字幕的一些示例。正如预期的那样，我们所有的基线模型都能够为域内图像生成准确的标题。对于近域和域外，我们仅在COCO上训练的UpDown模型无法识别步枪和海豚等新对象，并将它们与棒球棒或鸟等已知其余模型利用Open Images训练数据，使它们能够潜在地描述这些新的对象类。虽然它们确实产生了更合理的描述，但在基础和语法方面仍有很大的改进空间6. 结论在这项工作中，我们激励需要一个更强大的，更严格的基准，以评估在新的对象字幕任务的进展。我们引入了nocaps，一个大规模的基准测试，由166，100个人类生成的描述15，100幅图像的字幕，其中包含500多个独特的对象类别和更多的视觉概念。与现有的新颖对象字幕概念验证数据集[12]相比，我们的基准测试包含的新颖对象类别数量增加了50倍，这些类别此外，我们收集了两倍数量的评价字幕每幅图像，以提高自动评价指标的保真度。我们扩展了两个新的对象captioning最近的方法，为nocaps基准提供强大的基线。虽然我们的最终模型比直接从COCO转移的模型有了显著的改进，但它们的性能仍然远低于人类基线-这表明在这项任务上还有很大的改进空间。我们提供了进一步的分析，以帮助指导未来的努力，表明它有助于通过预训练的词嵌入和语言模型来杠杆化大型语言语料库，更好的对象检测器有助于（并且可以成为进一步改进的来源），并且用于确定在标题中提及哪些对象检测的简单启发式方法具有显著的影响。鸣谢：我们感谢陆佳森的有益讨论。佐治亚理工学院的努力得到了NSF、AFRL、DARPA、ONR YIPs、ARO PECASE的部分支持。的本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表美国政府的官方政策或认可，无论是明示还是暗示。政府或任何赞助商。8956引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. SPICE：语义命题图像帽评价.在ECCV，2016年。二三四五[2] 彼得·安德森巴苏拉·费尔南多，马克·约翰逊，史蒂芬·古尔德。带约束波束搜索的引导开放词汇图像字幕。在EMNLP，2017年。一、二、六、七[3] 彼得安德森斯蒂芬古尔德和马克·约翰逊。部分监督图像字幕。在NIPS，2018年。一、二、五[4] 彼得·安德森何晓东：克里斯·比勒，达米安Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。一、六、七[5] 陈新蕾、方浩、林宗义、罗摩克里希纳·韦丹-tam，Saurabh Gupta，Piotr Dollár，and C.劳伦斯·齐尼克。Microsoft COCO字幕：数据收集和评估服务器。arXiv：1504.00325，2015。一、二、三、四[6] 加布里埃拉·楚卡视觉应用程序的域适应：全面调查。计算机视觉与模式识别，2017年。2[7] Arthur P Dempster，Nan M Laird，and Donald B Rubin.通过EM算法从不完整数据中获得最大似然。英国皇家统计学会会刊。1977年，B辑（方法）。2[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。CVPR，2009。2[9] 放大图片作者：Jeffrey Donahue，Lisa A.亨德里克斯，塞尔吉奥·瓜达拉马，Marcus Rohrbach 、 Subhashini Venugopalan 、 KateSaenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR，2015。1[10] 作者：Hao Fang，Saurabh Gupta，Forrest N.鲁佩什？斯里？扬多拉[10]李登，何晓东，高建峰，何晓东，玛格丽特·米切尔，约翰·C.普拉特角劳伦斯·齐特尼克和杰弗里·茨威格。从标题到视觉概念再到后面。CVPR，2015。1[11] Luheng He ， Kenton Lee ， Omer Levy ， and LukeZettlemoyer.联合预测神经语义角色标注中的谓

下载后可阅读完整内容，剩余1页未读，立即下载