图像字幕中的人类注意力

80 浏览量更新于2023-10-12 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8529图像字幕中的人类注意力：数据集与分析Sen He1，Hamed R. Tavakoli2，3，Ali Borji4和Nicolas Pugeault11埃克塞特大学、2诺基亚科技、3阿尔托大学、4MarkableAI摘要在这项工作中，我们提出了一个新的数据集，包括眼动和口头描述同步记录的图像。利用这些数据，我们研究了人类在自由观看和图像字幕任务中的注意力差异。我们研究了在感知和句子发音过程中人类注意力和语言结构之间的关系。我们还分析了自上而下的软注意力的方法，认为模仿人类的注意力在字幕任务中的注意力部署机制，并调查视觉显着性是否可以帮助图像字幕- ING。我们的研究表明：（1）人类的注意行为在自由观看和图像描述任务中存在差异。人类倾向于在后一任务下注视更多种类的区域，（2）在描述的对象和关注的对象之间存在强关系（97%的描述的对象正在被关注），（3）作为特征编码器的卷积神经网络在很大程度上（大约78%）在图像字幕期间考虑人类关注的区域，（4）软注意机制在时间和空间上与注意机制不同，字幕得分与注意一致性得分之间的相关性较低。这表明人类和机器在自上而下的注意力方面存在很大的差距，（5）通过将软注意力模型与图像显着性相结合，我们可以显着提高模型在Flickr30k和MSCOCO基准测试中的性能。该数据集可在以下网址找到：https://github.com/SenHe/ Human-Attention-in-Image-Captioning.1. 介绍“Two elderly ladies and a young man sitting at atable with food on这句话是一个例子，说明人们如何描述图1中的图像。1.用几句话描述图像，提取场景的要点，同时忽略不必要的细节，这对人类来说是一件容易的事情，图像录音说明文本转录：两个老太太和一个年轻人坐在一张桌子上面有食物眼睛注视顺序，从左到右，从上到下图1：我们数据集中收集的数据示例，包括向受试者显示的图像、受试者在某些情况下，可以通过非常简短的一瞥来实现。与此形成鲜明对比的是，为相同的任务提供正式的算法是一个复杂的挑战，几十年来计算机视觉一直无法实现。最近，随着强大的深度神经网络架构和大规模数据集的可用性，已经提出了新的数据驱动方法用于图像的自动字幕，并且已经展示了有趣的性能[5，21，33，35]。虽然没有证据表明这样的模型可以完全捕捉视觉场景的复杂性，但它们似乎能够为各种图像生成可信的字幕。这提出了这样的人工系统是否使用人类视觉系统所采用的类似策略来生成字幕的问题人类如何执行字幕任务的一个线索是通过眼动追踪研究视觉注意力。注意机制已经从不同的角度进行了研究，包括视觉注意（自下而上和自上而下的注意机制），显著性预测（预测注视）以及眼动分析。计算机视觉和机器人技术的大量研究试图将这些功能复制到不同的应用中，例如对象检测，图像缩略图和人机交互[1，2，3]。那里8530采用注意力机制用于自动图像字幕已经成为最近的趋势。[5、21、35]。这样的研究论文经常显示出视觉区域上特征重要性的吸引人的可视化，伴随着相应的短语“模仿人类注意力”。有人可能会问：“这真的和人类的注意力一样吗？“以及在这项工作中，我们努力回答上述问题。我们通过研究人类在字幕任务下如何注意场景项建立了一个基础。我们的贡献包括：i）引入具有同步记录的眼睛注视和场景描述（以口头形式）的数据集，该数据集提供了目前最大数量的实例，ii）将场景自由观看期间的人类注意力与描述图像期间的人类注意力进行比较，iii）分析图像字幕期间的眼睛注视和描述之间的关系，iv）将图像字幕中的人类注意力和机器注意力进行比较，以及v）将图像显著性与软注意力相结合以提高图像字幕性能。2. 相关工作2.1. 自下而上的注意力和显著性预测预测人类在图像或视频中的位置是计算机视觉中一个长期存在的问题，对此的评论超出了本文的范围（参见[2]）。我们在下面回顾了自底向上注意力建模的一些最新工作目前，最成功的显着性预测模型依赖于深度神经架构。Salicon [15]是自由观看中用于显着性预测的最大数据集（10k训练图像）。基于Salicon数据集，SAM模型[7]使用LSTM [12]网络，可以关注图像中的不同显著区域Deep gaze II [18]使用来自预训练深度模型的不同层的特征，并将它们与先验知识（中心偏差）相结合来预测显着性。He等人[11]分析了通过深度显着性模型学习的内部表征。这些模型试图复制人类在自由观看自然场景时自下而上的注意机制。2.2. 神经图像字幕图像字幕任务可以看作是一个机器翻译问题，例如.将图像翻译成英语句子。在大规模图像字幕数据库的帮助下，这一任务取得了突破性进展（例如：Flickr30k [36]，MSCOCO [20]），其中包含大量图像和标题（即，源和目标实例）。神经字幕模型通常包括深度卷积神经网络（CNN）和长短期记忆（LSTM）[12]语言模型，其中CNN部分生成图像的特征表示，LSTM单元充当语言模型，其将来自CNN部分的特征解码为文本，例如，[33]第33段。在本文中，我们主要集中在模型，纳入注意机制。Xu等[35]对[33]中的方法引入软注意机制。也就是说，在生成新单词的过程中，基于先前生成的单词和语言模型的隐藏状态，他们的Chenet al. [5]利用空间和信道加权。Lu等人[21]利用记忆来防止模型主要关注视觉内容，并强制它也利用文本上下文。这被称为适应性注意力。Chen等人[6]应用视觉显著性来增强加帽模型。他们使用从显着性预测中学习到的权重来初始化他们的字幕模型，但与从头开始训练他们的模型相比，相对的改进是微不足道的。2.3. 人的注意力和图像描述在视觉领域，一些先前的工作已经调查了人类注意力和图像字幕之间的关系（例如，视觉研究）。[28，13]）。Yun等人[37]研究了注视与描述的关系，在自由观看条件下记录了人类注视。在他们的工作中，受试者被展示了3秒钟的图像，另一组参与者分别描述了我们将把他们的数据称为sbugaze。Tavakoli等人[29]进一步推动研究机器生成和人类生成的描述之间的关系。他们研究了使用显着性模型在空间上提升视觉特征的贡献，Abhishek等[8]研究了视觉问答中人的注意与机器注意之间的关系。与以往的研究不同，本文主要研究了图像字幕任务下人的注意行为，探讨了人和机器的注意行为。在自然语言领域，眼动跟踪和图像描述已经被用来研究语言之间歧义的原因，例如：英国vs荷兰[23].Vaidyanathan等人[30]利用眼动数据和图像描述研究了语言标签与图像中重要区域的关系。与自然语言处理社区中的现有数据集相比，我们的与以前的工作相比，我们还追求一个不同的目标，这是：了解如何以及当前的计算注意力机制，nisms在图像字幕模型与人类的注意力行为在图像描述任务。8531表1：将我们的数据与其他类似数据集进行比较。数据集图片数量受试者数量实例数DIDEC [23]305454604SNAG [30]100303000[37]第三十七话100033000我们400016140003. 数据收集刺激：我们收集的数据被组织在两个语料库中，分别由capgaze1和capgaze2表示。本文使用capgaze1语料库进行分析，capgaze2语料库用于对图像字幕任务下的视觉显著性进行建模。对于capgaze 1，从Pascal-50 S数据集[32]中选择了1，000个图像，该数据集为每个图像提供了50个人类字幕和具有222个语义类别的注释语义掩码（与 sbugaze 中的图像相同）。对于capgaze2 ，从 MSCOCO 中随机选择 3 ， 000 张图像[20]。Yun等人[37]在Pascal-50 S中记录受试者在自由观看图像期间的眼睛运动。因此，我们可以使用capgaze1来在自由观看或字幕下吸引人类注意力。设备：在图像字幕任务中精确记录受试者的我们使用Tobii X2-30眼动仪在实验室条件下记录了图像字幕任务下的眼动。眼动仪位于笔记本电脑屏幕的底部，分辨率为1920×1080。受试者受试者被要求同时看着图像，并以口头形式用一句话描述它。眼动仪和嵌入式语音记录器在计算机中同步记录受试者五名受试者（研究生、母语为英语的人，3男2女）参与了capgaze1语料库的数据收集。所有五名受试者都完成了对该语料库中所有1,000张图像的数据收集。11名受试者（研究生，3名女性和8名男性）参与了capgaze2corpus上的数据收集该语料库中的每个图像具有来自三个不同主题的记录数据。图像呈现顺序在受试者中随机分配。对于每个受试者，我们将数据收集分为每次20张图像。在每次会话之前，重新校准眼动仪。在一个阶段开始时，受试者被要求注视中心的红色交叉，出现2秒。然后将图像显示在屏幕上，受试者观看并描述图像。在描述图像之后，受试者按下指定按钮以移动到会话中的下一个图像一个收集到的数据的一个例子如图所示1.一、期间表2：评估所收集的说明文字与Pascal-50 S的50个地面实况说明文字的质量。数据集苹果酒平均数/方差流星平均数/方差[37]第三十七话0.938/0.0380.368/0.012我们0.937/0.0600.366/0.015(a)自由（b）帽3s（c）帽图2：整个数据集的平均注视图，(a) 自由观看条件，（ b ）图像字幕条件的前 3 秒（ cap3s），以及（ c）字幕条件的整个持续时间（cap）。在实验中，受试者通常会静静地看一小会儿图像以浏览场景，然后开始自发地描述内容几秒钟。后处理：在数据收集之后，我们手动将capgaze1语料库中的口头描述转换为所有图像和主题的文本。转录本经过了双重检查，并与图像进行了交叉检查。我们使用现成的词性（POS）标记软件[22]提取转录句子中的名词然后，我们形成了从提取的名词到图像中存在例如，男孩和女孩都映射到人类别。为了检查我们收集的数据中字幕的质量，我们根据Pascal-50 S数据集（每张图像50个句子）中的地面真值计算收集的字幕的CIDER [31]和METEOR [9]分数为了确保眼动追踪和同步语音记录不会对字幕的质量产生不利影响，我们将我们的分数与以文本形式收集的spugaze[37]字幕的分数进行了表2总结了结果，显示眼动追踪似乎没有分散受试者的注意力，因为他们的描述与凝视中的描述相比相差很大。4. 分析在本节中，我们将详细分析（i）自由观看和字幕任务期间的注意力，（ii）注视与生成字幕之间的关系，以及（iii）字幕模型中的注意机制。8532表4：不同区域的平均注意力分配（对象与背景）。几头奶牛从一个槽吃;奶牛吃从一个槽在一个领域;奶牛喂养的围栏;棕色和白色的奶牛在一个领域吃从一个槽;奶牛吃从一个槽图3：自由观看和图像字幕任务中注视点之间的差异示例从左到右：原始图像、自由观看注视点、前3s注视点和字幕任务中的所有注视点。5个主题生成的字幕显示在底部。表3：以AUC-Judd参考任务免费cap3s帽免费0.810.780.75cap3s0.840.840.81帽0.840.850.834.1. 注意自由观看与图像字幕注意自由观看和描述图像的注意力有什么不同？我们先分析一下差异-表5：基于所描述的对象在描述名词顺序12345帽0.4860.2010.1470.0970.053免费0.5020.2040.1580.107-句子中的分配和名词描述。给定描述的对象（D（O））、未描述的对象（<$D（O））、描述的背景（例如，山、天空、墙壁）表示为D（B）、未描述的背景（-D（B））和注视对象（F（O）），我们比较了在自由观看、前3s字幕和全字幕任务中对象和图像背景上的我们计算感兴趣区域的注意力比率为：通过观察注意力中心偏向的数量和跨任务观察者一致性（IOC）的程度，在两个任务之间进行sbugaze数据集包含#固定在一个区域注意力比率=#图像上的总固定次数（一）在自由观看条件下，最大持续时间为3s，而在我们的实验中，受试者平均需要6。79秒来观察和描述每个图像。为了确保注视位置的差异不仅仅是由于观看持续时间，我们将图像字幕任务中的视觉注意力分为两种情况：i）在前3秒（cap3s）期间的固定，以及ii）在整个观看时段（cap）期间的注视自由观看和图像字幕之间的视觉注意力的差异显示在图1和图2中。2和3我们发现，在自由观看时，视觉注意力更集中在图像的中心部分（即中心点）。高中心偏置），而在图像字幕任务下的注意力在整个任务持续时间上具有较高的分散度。表3报告了跨任务观察者间一致性（IOC）。为了计算跨任务IOC，我们将一个任务中一个受试者的注视点排除在外，并使用AUC-Judd [4]评估评分计算其与另一任务中其他受试者的注视点的一致性结果表明，字幕任务中的人类注意不同于自由观看。4.2. 分析注视点与场景描写基于任务的注意与图像描述有什么关系？为了回答这个问题，我们分析了场景中物体上的注视分布以及注意力与视觉的关系。被描述的对象是否更容易被注视？表4显示了整体注意力分配的结果如图所示，在所有观看条件下，大多数注视对应于字幕中描述的对象。这与以前的研究结果一致[29]：描述的对象比背景（描述的或未描述的）和未描述的对象接收更多的注视。当比较自由观看和字幕条件下的注视时，我们看到在字幕的前3秒（自由观看的常见观看持续时间）中，稍微更多的注意力被分配给所描述的对象。分析字幕任务的整个持续时间，我们观察到的注意分配的描述对象的减少和增加的注意描述的背景。这表明受试者更有可能注意到在最初几秒钟内将要描述的项目，然后将他们的注意力转移到场景中的上下文定义元素。出现在描述开头而不是结尾的对象是否更容易被固定？表5示出了相对于对象在描述中的出现顺序（名词顺序）的对对象的注意力分配的大小我们看到，首先被描述的名词比随后的名词获得更大比例的注视字幕条件下稍低的数字与前3秒后观察到的观看策略的变化有关，以前讨论过D（O）D（O）D（B）- D（B）免费0.660.090.140.11盖（3s）0.680.090.140.098533码头机场站餐厅摄影机院子畜栏停车场街店厨房加油站围场沙漠森林博物馆隧道竞技场城市花园阳台小镇2501.00.162001501000.80.60.40.140.120.100.080.06500.20.040.020图像中未注释的已描述名词0.0前15个类别0.00最后15个类别图4：从左到右：在标题中描述但在图像中未注释的名词;被描述的可能性非常高的固定对象（顶部15个）;被描述的可能性非常低的固定对象。表6：在所描述的对象上的平均注视持续时间（T）与非描述对象（O）D（O）TF（O）0.52 s 1.68s表7：当注视与注视时描述对象的概率被描述的时候。p（D（O））|F（O），O）p（F（O）|D（O），O）免费0.560.87盖（3s）0.480.95帽0.440.96受试者花多少时间观看所描述的物体？同步眼动跟踪和描述艺术使我们能够研究对场景元素的注视持续时间TF，特别是对描述和非描述对象的注视持续时间TF。如表6所示，描述的对象比未描述的对象吸引更长的注视。这表明，一旦一个重要的对象抓住了注意力，更多的时间被分配来仔细检查它。如果一个物体是固定的，那么它被描述的可能性有多大？我们计算概率p（D（O））|F（O），O）），并将其与对象在被描述时（当其存在于图像中时）被固定的概率p（F（O））进行比较。|D（O），O）。换句话说，我们更有可能专注于我们所描述的，还是描述我们所关注的？结果总结于表7中。他们证实了被描述的对象很可能被固定的预期，而许多固定的对象没有被描述。有趣的是，在图像字幕任务下，更多的注视对象不被描述，而被描述的对象更可能被注视。受试者多久描述一次图像中没有注释的东西（即，（不存在于图像中）。还有，哪些名词更常被描述，哪些更少被提及？数据在图中可视化4.第一章大多数出现的描述但未注释的名词是场景类别和地点名词，它们没有注释作为场景元素（因为注释是局部的并且是基于像素的）。一个明显的例外，在场景中不存在的对象被描述，是特殊情况下的提到“照相机”时由于在这种情况下，相机这个词表示场景的属性，而不是物质对象（这里是实际的相机），我们可以松散地将这种情况解释为场景类别。4.3. 比较人类和机器的注意力人类和机器在图像字幕中的注意力有多相似？本节描述了为回答该问题而进行的两项分析。4.3.1注意视觉编码器在以前的研究中，一个被忽视的方面是可能在深度神经网络的视觉编码器中隐式编码的显着性量考虑其中通常用于编码视觉特征的标准卷积神经网络（CNN）架构被用于将特征提供给用于字幕的语言模型的情况。我们问（1）这个CNN在多大程度上捕捉了视觉输入的显著区域？以及（2）在字幕任务中，CNN的显著区域与人类参与的位置的对应为了回答这些问题，我们首先通过将所收集的注视数据与高斯滤波器（在我们的实验中，西格玛对应于视角的一度）进行卷积来将所收集的注视数据变换成显著性图。然后，我们通过其前5%的值对显着图进行阈值化，并提取连接区域。然后，我们检查CNN中的激活图为此，对于每个连接区域，我们确定是否存在NSS分数[4]高于该连接区域内阈值（此处T=4）的激活图。如果存在一个，则相应的连接区域也由CNN参与。我们报告了人类参与的图像中有多少区域也被机器参与，以及所有连接的区域中平均最高的NSS分数。描述频率房间p（d|（f、e）p（d|（f、e）鸟牧羊犬式飞机猫马牛火车船人公交摩托车雪地自行车沙发锅绳簿海报板地板电杆人行道板包装纸杯形帘壁斗8534表8：人类和视觉编码器之间的注意力一致性（预训练的CNN）。百分比平均值免费72.5%5.43cap3s百分之七十八点一5.62帽百分之七十七点九5.61图5：字幕任务下的人类注意力和VGG-16的注意力的示例。从左至右：图像、人类关注区域以及与每个人类关注区域最佳相关的VGG-16关注区域。表9：自下而上显著性模型（SalGAN）和自上而下注意力字幕模型（软注意力）的空间注意力一致性评估。通过NSS/s-AUC评价。图6：空间注意力差异的示例。从左至右：原始图像、自由观看中的注意力、图像字幕中的注意力、由SalGAN预测的显著性图以及来自自顶向下图像字幕模型的显著性图。固视我们还通过在SalGAN [25]的显着性图上计算NSS和s-AUC来与自下而上的显着性模型进行比较，SalGAN [25]是一种没有中心偏差的领先显着性模型表9总结了由标准的自下而上显著性模型（在自由观看数据上训练）[25]和自上而下的软注意力图像字幕系统[35]生成的显著性图的一致性，其中地面真实显著性图在自由观看或字幕条件下捕获（完整持续时间）。有趣的是，自下而上的显着性在自由观看和基于任务的地面实况数据上都获得了更高的分数。换句话说，自下而上的模型比自上而下的软注意力模型更好地预测人类注意力，即使对于字幕任务也是如此。图6图示一些示例地图。所有图像中的区域（每个连接区域具有来自512个激活图的最高NSS分数）。我们使用的固定地图从自由观看注意（免费），前 3s 的字幕任务下的固定（cap3s），和固定的整个持续时间的图像字幕任务（帽）。结果0.620.510.40.33……0.53……0.82人类注意序列机器注意顺序机如表8所示可以看出，编码器的内部激活图之间存在很一群牛在田野里放牧字幕CNN和人类参与的地区（超过70%）。有趣的是，尽管没有对CNN进行字幕微调，但基于任务的眼动数据的一致性高于自由观看注视的一致性（参见图1中的示例）（五）。4.3.2图像字幕模型自上而下的注意机制在描述图像时，自上而下的图像字幕模型与人类注意的一致性如何我们研究了[35]中软注意机制与图像字幕中人类注意的空间和时间一致性空间一致性：我们评估人类注意力和机器的空间维度之间的一致性。对于机器，空间注意力被计算为所有生成的单词上的平均显著性图。我们使用人的神经网络计算这个显着图上的NSS和s-AUC [4]图7：hu-人的注意和机器的注意。顶行是描述图像时人类对图像的注意力序列，底行是生成图像标题时自上而时间一致性：在图像字幕中，人类和机器的注意力在时间上有什么区别？在这里，对于人类注视数据，我们将注视的序列按0的间隔分割。5s，使用记录的样本时间戳。然后将每个间隔的注视变换成单独的显著性图，从而产生一系列显著性图。对于机器注意力，我们在场景描述期间使用生成的显着图的序列。然后，我们采用动态时间规整（DTW）[24]来对齐序列并计算它们之间图图7显示了一个模型地面实况自由观看图像字幕SalGAN软注意1.929/0.721.618/0.6771.128/0.6221.149/0.6228535我⊤543210110 1 2 3 45NSS54321010.60 0.65 0.70 0.75 0.80 0.85 0.90DTW距离显着图，我们使用“赢家通吃”的方法[17]为每个图像提取一组固定位置（FL）。我们将这些位置表示为：FL={（x1，y1），· · ·，（x1，y1），· · ·，（xN，yN）}（2）对于图像中的每个固定位置，我们应用聚焦图8：机器-人类注意力一致性（空间和时间）与机器对图像字幕的表现（CIDEr分数）之间的相关性。示例序列。我们将每个帧对之间的距离报告为1−SIM（hi，mj），其中hi是人类注意力序列中的第i帧，mj是机器注意力序列中的第j帧，SIM是两个注意力图之间的相似性得分[4]。两个序列之间的最终距离是总距离除以DTW中的路径长度我们的分析表明，平均差异为0。8，这是显着大，并表明这两个注意力模式随时间的推移显着不同机器字幕性能与人机注意一致性之间的相关性：机器和人类受试者的注意力模式之间的一致性是否是描述生成质量的预测因子？变换[34]，为那些固定位置产生一组中心凹图像FI={FI1，···，FI1，···，FIN}（3）我们进一步使用预先训练的CNN处理每个中心凹图像，为每个中心凹图像生成K维向量。最后，对于每个图像，我们有一组中心凹表示（FR）：FR={FR1，···，FRi，···，FRN}（4）我们的SPM和LM之间的桥梁是一个学习感知模块（PM），由函数f参数化，其中我们使用了局部空间Transformer网络[14]（LSTN）。对于每个注视图像位置（xi，yi），PM基于对应的FRi生成仿射变换（Ai），以感知以注视位置为中心的区域：由机器？为了回答这个问题，我们计算机器之间的斯皮尔曼相关系数Ai=Σ Σf（FRi）（xi，yi）每个图像实例上的字幕性能Σ=θi11θi12中国（5）质量（CIDEr评分）和机器属性的一致性与人类的关系（空间和时间）（空间一致性NSS评分，时间一致性DTW距离）。结果在图1B中可视化。8，表明空间和时间注意的相对注意系数很低，分别为0.01和-0.05。换句话说，机器注意力与人类注意力的相似性与生成的描述的质量之间似乎没有关系4.4. 显著性能帮助字幕吗？基于表7中的分析结果，96%的所描述的对象被固定（在自由观看中为87%），这意味着图像显著性图提供了在图像字幕中参与何处相比之下，用于图像字幕的软注意力模型首先同等地对待所有区域，然后在生成每个单词时重新加权在这里，我们检查图像显着性是否可以通过提出一个通用架构来帮助图像字幕，该架构包括θi21θi22yi每个感知区域然后由特征提取网络处理，并且由维度K的向量表示。最后，对于每个图像，它都有一组特征向量（FV）：FV={FV1，···，FV1，···，FVN}（6）LM是具有软注意力模块（由学习函数att参数化）的LSTM。软注意力模块接收FV作为输入。基于隐藏状态的LSTM（h）和FV中的每个特征向量，LM为每个特征向量生成权重（w），然后取FV中的那些特征向量的加权和（WSFV）来更新LSTM状态并生成下一个单词：wi=att（FVi，h）（7）1ΣN将视觉显著性和软注意力机制图像字幕如图所示9.第九条。我们的建筑WSFV= Ni=1（8）关于我们分三部分：显着性预测模块（SPM）、感知-语法模块（PM）和语言模型（LM）。在SPM部分，我们在capgaze2语料库上训练了一个显着性预测模型，以预测每个图像的显着性图。从这个1我们采用[11]中的模型进行显着性预测CIDEr评分CIDEr评分8536我们的模型与[35]中的原始软注意力模型之间的唯一区别是，我们的注意力模块只强调SPM引导的并由PM感知的显著区域，而原始软注意力模型在生成每个单词时强调图像中的所有8537图9：所提出方法我们的架构分为两个阶段。在第一阶段，我们训练SPM，并提取FL和FR。然后，通过最小化字幕生成的交叉熵损失来联合训练PM和LM。FV和FR的预训练特征提取是resnet-18 [10]，它将每个中心凹图像和每个感知区域转换为512维特征向量。学习率设置为10- 3，并以0的因子减少。每3个时期8个。如果BLEU-4[26]评分不符合连续五个时期的增长。我们的模型是使用Karpathy等人在Flickr30k和MSCOCO基准上训练和测试的。s分裂[16]。四个指标用于评估，包括 BLEU- 4 （ B4 ），ROUGEL（RG）[19]，METEOR（MT）和CIDER（CD）。我们还考虑了在图像字幕中使用自由观看显著性（即，在Salicon [15]数据库上训练的显著性预测模型我们的架构的性能如表10和11所示我们的基线模型是软注意力模型在[35]中（为了公平比较，我们用resnet-18作为骨干2重新实现了这个模型）。我们的模型显着improves的软注意力模型的性能，通过整合自下而上的显着性方法的软注意力模型。使用任务显着性的模型（在我们的capgaze 2语料库上训练的显着性预测模型）比使用自由观看显着性训练的模型表现得我们的模型是一个通用的架构，它可以很容易地与其他CNN骨干或[21]中的自适应注意力机制集成我们还认为，该架构可以应用于其他任务的视觉显着性是很重要的。5. 讨论和结论在本文中，我们介绍了一个新的，相对较大的数据集，包括同步多模态注意力和字幕注释。我们重新审视了人类注意力和字幕模型在这些数据上的一致性，2使用以下代码实现：https://github.com/ sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning表10：在Flickr 30 k测试数据集上的性能（我们的-在自由查看显著性数据库上训练的自由均值显著性预测模型）模型B4MtRGCD软注意（SoftAttention）0.1910.1710.4190.352我们免费的0.2130.1750.4310.403我们0.220.1840.4410.416改进百分之十五点二百分之七点六百分之五点三百分之十八点二表11：MSCOCO测试数据集模型B4MtRGCD软注意（SoftAttention）0.2810.2230.4960.81我们免费的0.2970.2340.5110.889我们0.3030.2380.5180.907改进百分之七点八6.7%百分之四点四百分之十二并且表明人眼运动在图像字幕和自由观看条件之间不同我们还再次证实了描述对象和关注对象之间的密切关系，这与自由观看实验中观察到的结果相似有趣的是，我们证明了自动字幕系统所使用的自上而下的软注意机制既不能捕获字幕期间人类注意力的空间位置，也不能捕获字幕期间人类注意力的此外，人类和机器注意力之间的相似性对机器生成的字幕的质量没有影响最后，我们表明，调谐软注意力字幕模型图像显着性，表现出显着的性能改善，-总的来说，所提出的数据集和分析为字幕管道中自上而下的注意力机制的研究提供了新的视角，提供了迄今为止缺失的关键信息，我们相信这些信息将有助于进一步推进图像字幕模型的开发和评估。鸣谢：作者感谢志愿者在数据收集方面的帮助。该研究得到EPSRC项目DEVA（EP/N 035399/1）的支持。Pugeault博士由Alan Turing研究所（EP/N510129/1）支持。FL和FI感知区域FV1输入图像“中心凹变换特征提取FR软关注显着性预测感知模块（感知）我FL语言模型特征提取一男子站在面前一个生日蛋糕联系我们………………8538引用[1] 阿里·博尔吉深度学习时代的显着性预测：一项实证调查。arXiv预印本arXiv：1810.03716，2018。[2] Ali Borji和Laurent Itti最先进的视觉注意力建模。IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：185[3] Ali Borji、Dicky N Sihite和Laurent Itti。视觉显着性建模中人类模型一致性的定量分析：比较研究。IEEETransactions on Image Processing，22（1）：55[4] Zoya Bylinskii ， Tilke Judd ， Aude Oliva ， AntonioTorralba和Fre'doDurand。关于显着性模型，不同的评估指标告诉我们什么IEEE关于模式分析和机器智能的交易，2018。[5] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。2017年IEEE计算机视觉与模式识别会议（CVPR），第6298-6306页。IEEE，2017年。[6] 史辰和齐钊。提高注意力：利用人类的注意力为图像字幕。在欧洲计算机视觉会议（ECCV）的会议记录中，第68-84页[7] Marcella Cornia，Lorenzo Baraldi，Giuseppe Serra，andRita Cucchiara.SAM：推动显着性预测模型的极限。IEEE/CVF计算机视觉和模式识别工作，2018年。[8] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。视觉问题回答中的人类注意力：人类和深层网络看的是同一个区域吗计算机视觉和图像理解，163：90[9] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估第九届统计机器翻译集，第376-380页，2014年[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[11] 何森，哈米德·塔瓦科利，阿里·博尔吉，杨幂，尼科-拉斯·普杰奥特。理解和可视化深度视觉显着性模型。在IEEE计算机视觉和模式识别集，第10206[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[13] Laurent Itti和M. A. Arbib.注意和最小的子场景。In M.A.Arbib，editor，Action to Language via the Mirror NeuronSystem，pages 289剑桥大学出版社，英国剑桥，2006年[14] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年[15] Ming Jiang，Shengsheng Huang，Juanyong Duan，andQi Zhao. Salicon：语境中的显著性。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，pages 1072[16] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition，pages 3128[17] 克里斯托弗·科赫和西蒙·厄尔曼。选择性视觉注意的转移：朝向潜在的神经回路。见《情报问题》，第115-141页Springer，1987年。[18] 放大图片作者：Thomas S. A.作者声明：A. Gatys和Matthias Bethge理解固定预测的低水平和高水平贡献。在IEEE国际计算机视觉会议（ICCV）上，2017年10月。[19] 林金耀。Rouge：一个用于自动评估摘要的软件包。文本摘要分支，2004年。[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[21] Jiasen Lu ，Caiming Xiong，Devi Parikh，and RichardSocher. 知道什么时候看：自适应注意力通过视觉sentinel图像字幕。在IEEE计算机视觉和模式识别会议论文集（CVPR），第6卷，第2页，2017年。[22] Christopher Manning 、 Mihai Surdeanu 、 John Bauer 、Jenny Finkel、Steven Bethard和David McClosky。斯坦福自然语言处理工具包。在计算语言学协会第52届年会上：系统演示，第55-60页，2014年。[23] Emie lMiltenb ur g，A'kosKa'da'r，RuudKoolen，andApriel克莱默Didec：荷兰图像描述和眼动追踪语料库。在第27届国际计算语言学会议论文集，第3658- 3669页[24] Me i nardMüller.动态时间warping。音乐和运动的信息检索，第69-84页，2007年[25] JuntingPan，CristianCantonFerrer，KevinMcGuinness，Noel ESalgan：Visual显着性预测与生成对抗网络。arXiv预印本arXiv：1701.01081，2017。[26] Kishore Papineni，Salim Roukos，Todd Ward，and Wei-Jing Zhu. Bleu：一种机器翻译的自动评测方法。第40届计算语言学协会年会论文集，第311-318页计算语言学协会，2002.[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[28] Michael K Tanenhaus 、 Michael J Spivey-Knowlton 、Kathleen M Eberhard和Julie C Sedivy。视觉信息与语言信息在口语理解中的整合。Science，268（5217）：1632[29] Hamed R Tavakoliy， Rakshith Shetty ，Ali Borji， andJorma Laaksonen. 注意生成的描述8539图像字幕模型。在计算机视觉（ICCV），2017年IEEE国际会议上，第2506IEEE，

下载后可阅读完整内容，剩余1页未读，立即下载