图像字幕的自动评价指标与人类判断的相关性不足，需要基于学习的度量来评估图像字幕质量

124 浏览量更新于2023-10-13 收藏 1023KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

NNEval：基于神经网络的图像字幕Naeha Sharif1，Lyndon White1，Mohammed Bennamoun1，and Syed Afaq Ali Shah1， 21西澳大利亚大学35 Stirling Highway，Crawley，Western Australia{naeha.sharif，lyndon.white}@ research.uwa.edu.au，uwa.edu.au2澳大利亚中央昆士兰大学工程技术学院s.shah@ cqu.edu.au抽象。图像描述的自动评价是一项复杂的任务，在字幕系统的开发和细粒度分析中具有重要意义现有的自动评估图像字幕系统的指标未能达到令人满意的水平的相关性与人类的判断，在句子的水平。此外，与人类不同，这些指标往往专注于质量的特定方面，例如n-gram重叠或语义含义。在本文中，我们提出了第一个基于学习的度量来评估图像字幕。我们提出的框架使我们能够将词汇和语义信息，到一个单一的学习指标。这导致评估器考虑到各种语言特征来评估字幕质量。我们进行的实验，以评估所提出的度量，显示改进的最先进的人类判断的相关性方面，并证明其优越的鲁棒性分心。关键词：图像字幕;自动评价指标神经网络;相关性;准确性;稳健性1介绍随着图像字幕研究的快速发展[25]，[20]，[12]，[38]，[39]，[40]，[29]，[41]，对可靠有效的评价方法的需求日益迫切。用自然语言描述图像是人类与生俱来的能力。对于人类来说，简短的一瞥足以理解场景的语义含义，以便描述其视觉内容的令人难以置信的细节和微妙之处[41]。虽然在复制这种人类特征的方向上取得了合理的进展，但它仍然远远没有得到解决[31]，[17]。有效的评估方法是必要的，以促进系统开发，比较分析，并确定进一步改进的领域的细粒度分析。评估图像描述比通常认为的更复杂，主要是由于可接受的解决方案的多样性[18]。人工评估可以2Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShah作为字幕质量的最可靠评估。然而，它们是资源密集型的、主观的和难以复制的。另一方面，自动评估方法更有效且成本效益更高。然而，汽车-目前用于字幕评估的自动度量未能达到与句子级别的人类判断的期望一致水平[11]，[21]。根据一些指标的得分，最好的机器模型在图像字幕任务3（Microsoft COCO挑战[8]）中的表现优于人类，描绘了图像字幕接近解决的错觉。这反映了需要开发更可靠的自动度量，其捕获人类在判断字幕质量的一组标准。一些通常用于评估图像描述的自动度量，例如BLEU [33]，METEOR[5]和ROUGE [27]，最初是为了评估机器翻译/摘要系统而开发的。然而，近年来，CIDEr [37]和SPICE [4]专门针对图像字幕评估任务开发，并且与现有的那些。所有这些度量输出表示候选字幕与参考字幕之间的相似性的某个分数。虽然存在许多可能的方面来测量候选字幕的质量，但是所有可能的方面都可以被用来测量候选字幕的质量。在上述度量中，依赖于词汇或语义信息来测量候选句子和参考句子之间的相似性我们形成一个复合指标的动机是由人类判断过程涉及各种语言维度的评估我们从机器翻译（MT）文献中汲取灵感，其中提出了学习范式来创建成功的复合指标[6]，[7]。基于学习的方法是有用的，因为它提供了一个系统的方法来结合各种信息的功能。然而，这也伴随着对大量训练数据的需求为了避免创建人力素质评价的昂贵资源，我们利用了受[9]，[24]启发的培训标准，其中涉及将一个职位的特征定义为“人力素质或人力资源“。这使我们能够利用可用的人工生成和机器生成的数据进行训练（第4.1节）。当难以找到“goodcaption”的全局访问时，我们假设更接近于人类生成的描述的字幕可以被分类为可接受的/期望的字幕系统越好，其输出就越像人类生成的描述。此外，字幕是人类还是机器生成的问题具有由包含对应图像的人类参考字幕的现有数据集回答MS COCO [8]，Flickr30K [34]和Visual Genome [23]等数据集具有与每个图像相关联的多个人类生成的标题这些字幕以及由机器模型生成的字幕可以用于训练网络以区分两者（人或机器），从而克服获得针对语料库的人类判断的劳动密集型任务的需要。3http://cocodataset.org/#captions-leaderboardNNEval：基于神经网络的图像字幕评价指标3在我们提出的框架中，我们把图像描述评价的问题作为一个分类任务。多层神经网络是用一个对象训练的。有效区分人类和机器生成的字幕，同时使用基于词汇/语义信息的各种度量的分数作为特征。为了在[0，1]的连续尺度上生成分数，我们使用通过类概率获得的置信度度量，表示字幕是人工制作的或其他方式。拟议的框架提供了灵活性，将各种有意义的功能，有助于评价。此外，随着图像字幕系统的发展，可以及时添加敏感和更强大的功能据我们所知，这是第一个我们的主要贡献是：1. 一种新的基于学习的度量，“NNEval”，以评估图像字幕系统。2. 一种学习框架，用于将判断字幕质量的各种标准统一到一个复合度量中。3. 一个详细的实验分析，反映了NNEval的各个方面，它的能力，更好地与人类的判断，在句子水平和它的鲁棒性，以各种分心。2相关工作2.1自动评估指标可靠的自动评价指标的重要性是不可否认的图像字幕系统的进步。虽然图像字幕已经从基于编码器-解码器的字幕网络的MT域中获得灵感[38]，[39]，[40]，[42]，[29]，但它也受益于最初提出的用于评估机器翻译/文本摘要的自动度量为了评估候选字幕的质量，这些度量测量候选字幕和参考字幕之间的相似性，其被报告为分数（较高的分数反映较好的字幕质量）。近年来，已经专门开发了两个度量CIDEr [37]和SPICE [4]来评估图像字幕系统。CIDER主要使用词汇信息来测量候选字幕和参考字幕之间的一致性。另一方面，SPICE使用场景图形式的语义信息来度量候选句子和参考句子之间的相似性。SPICE和CIDEr都改进了常用的度量，例如就像BLEU、ROUGE和METEOR在模仿人类判断方面一样。然而，句子水平与人类分数的相关性仍有很大的提高空间[21]。[28]中的作者表明，针对SPICE和CIDEr分数的线性组合优化字幕模型可以产生更好的字幕。这种度量的线性组合被称为SPIDER（SPICE+ CIDER）。然而，未评估SPIDEr与人类的相关性。4Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShah判断。最近，[21]建议使用被称为“W或d M 〇 v e r s D i s t ance”（W M D）[ 26]的距离度量来进行图像捕获评估，从而WMD最初是为了测量文档之间的距离而开发的，它使用word2vec[30]嵌入空间，以确定两个文本之间的相异性。2.2确定性指标与学习指标目前使用的自动度量图像字幕，判断字幕质量的候选和参考字幕之间的相似性进行确定性的测量。这些指标往往侧重于对应性的特定方面，例如常见的单词序列或语义相似性（使用场景图）。此外，这些确定性度量未能在句子级别实现与人类判断的足够水平的相关性，这反映了它们没有完全捕获人类在评估字幕质量时使用的标准集的事实。捕获更多特征进行评估的一种方法是组合各种指标，每个指标都侧重于特定方面，以形成融合的度量[28]。机器学习提供了一种将独立的确定性度量（或与它们相关的特征）组合成统一度量的系统方式。在与MT评估相关的文献中，已经提出了各种学习范例，并且现有的学习度量可以被广泛地分类为二元函数，“当可以将该函数和该函数转换为goo d或bad时”[ 24]，[ 15]和C 〇 n t i nu u u s f u n ct i 〇 n s，“当在一个ab s u t e s c al e上转换时”[ 3]。还示出了机器学习可以用于成功地组合独立度量和/或语言特征以创建复合评估度量，与单个度量相比，显示出与人类判断的更高相关性[15]，[3]，[7]。2.3特征基于学习的度量所使用的特征可以是独立度量（诸如BLEU、NIST、METEOR和TER）的分数和/或反映候选字幕和参考字幕之间的词汇、句法或语义相似性的其他数值测量。在MT [3]、[13]、[16]中，已经针对上述范例提出了此外，结合有意义的语言特征已经在度量评估活动中显示出有希望的结果，例如WMT（机器翻译研讨会）[6]。[7]的文件。因此，我们假设，一个基于学习的框架可以帮助创建定制的，可靠的和高效的字幕评价以及。我们提出了一个基于神经网络的度量，它结合了各种现有的度量，通过学习框架的判断。我们的工作在概念上更类似于[24]中的工作，它引入了类似人类的标准。然而，它在学习算法以及所使用的特征方面有所不同。在[24]中SVM分类器使用高斯核训练，以区分人类和机器类翻译，使用词汇特征以及个体度量WER（词错误率）和PER（位置无关词错误率）的得分NNEval：基于神经网络的图像字幕评价指标5率）[36]。相比之下，我们提出了第一个基于神经网络的框架，以诱导字幕评价的度量。我们的功能集由各个指标得分组成，其中一些来自字幕特定指标，其他则来自来自MT中使用的度量。我们还包括更新的最先进的MT度量“W M D”作为我们的一部分。我们相信，用作特征的度量的新组合将允许我们学习的复合度量与人类判断良好地相关。3NNEval在本节中，我们将详细描述所提出的度量NNEval的整体1.一、3.1该方法为了创建与人类评估完全一致的基于机器学习的度量我们采用基于一个简单问题的训练标准：“候选字幕是人还是机器人？”“人类的创造能力与机器产生的创造能力[31]、[17]一样，因为前者的质量更高。如果图像字幕系统的输出具有如此高的质量以至于它们不能与人类生成的字幕区分开，则图像字幕将是一个解决的问题利用这一质量差距，我们经过训练的分类器可以在人类和机器制作的字幕之间设置边界。此外，为了获得连续的输出分数，而不是类标签，我们使用类概率。这些概率表示关于属于两个类别之一的候选者的置信度因此，所得到的评估的输出可以被认为是简单的，因为输入字幕是人工产生的。创建学习度量的另一种可能的方式可以是根据在输入字幕上生成的一些特征集来直接近似人类判断分数。然而，这种方法将需要包含人工评估的候选字幕及其参考对应物的大型训练语料库的可用性。这种资源的开发可能非常困难，耗时甚至令人望而却步[24]。将我们的学习问题框架为分类任务，可以从现有的包含给定图像的人类参考标题的数据集创建训练集[9]。对于给定图像，与各种机器生成的字幕配对的人类生成的字幕可以用作度量的训练示例。因此，不需要获得昂贵的手动注释。此外，这样的数据集可以通过包括更进化的模型的输出而容易地更新，而不会产生任何额外的成本。我们使用一个完全连接的多层前馈神经网络作为我们的学习算法，以buildhep op osedmeric。我们在第3.3节中描述了NNEval的架构和学习任务的细节，而在以下章节中描述了6Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShahFig. 1. NNEval的整体架构3.2NNEval特征在我们提出的框架中，候选“C”和参考句子“S”不直接作为神经网络的输入，而是从它们中提取一组数字特征，如图1所示。只有特征向量作为神经网络的输入，不允许网络直接分析候选句子和参考句子。特征向量中的每个实体对应于由给定候选的个体度量生成的质量分数。我们用来生成特征向量的度量被发现在统计上彼此不同[21]，并且在评估候选字幕的质量时相互补充我们的基本特征集由以下指标的分数组成SPICE[4]通过首先将候选文本和参考文本转换为称为“场景图”的语义表示来估计字幕质量;该语义表示对字幕中发现的对象，属性和关系进行接下来，通过使用图的元素的可能组合来形成一组逻辑元组最后，基于候选字幕元组和参考字幕元组的结合来计算F分数CIDEr[37]使用n-gram匹配来测量候选和参考字幕之间的一致性。通过计算词频逆文档频率权重来对所有字幕中常见的N元语法进行降权。参考字幕和候选字幕的η元语法之间的平均余弦相似性被称为CIDErη分数。最终的CIDEr分数被计算为CIDErn分数的平均值，其中n= 1， 2， 3， 4，我们将其用作特征。BLEU[33]通过测量候选文本和参考文本之间的n-gram重叠来评估候选字幕。BLEU分数经由修改的η元精确度分数乘以简洁度的几何度量平均来NNEval：基于神经网络的图像字幕评价指标7惩罚短刑期的惩罚因素我们使用BLEU的四个变体，即，BLEU1、BLEU2、BLEU3和BLEU4得分作为我们的特征。METEOR[5]判断是基于候选日期和参考标题之间的单字重叠。它根据它们的含义、确切形式和词干形式匹配一元词而度量分数被定义为unigram精确度和n-gram召回率的调和平均值。WMD[26]测量两个句子之间的差异，作为一个句子的嵌入词到达另一个句子的嵌入词需要覆盖的最小更正式地说，每个句子被表示为词嵌入d∈RN的加权点云，而两个词i和j之间的距离被设置为它们对应的word2vec嵌入之间的欧几里得距离[30]。为了将其用作特征，我们通过使用负指数将该距离分数转换为相似性。我们使用MS COCO评估代码[8]来实现除WMD之外的所有上述为了实现WMD，我们使用Gensim库脚本[35]。我们还使用最小-最大归一化来映射[-1，1]范围内的所有特征值（得分）。3.3网络架构和学习任务给定候选字幕C和参考列表S ={S1，S2，S3…SN}，目标是将候选字幕分类为人类或机器生成的。我们使用前馈神经网络对该任务进行建模，其输入是固定长度的特征向量x ={x1，x2，x3，…xi}，我们使用候选标题和相应的参考文献（第3.2节）提取，其输出是类别概率，给出为：ezkyk=ez0+ez1，k∈{0， 1}（1）其中zk表示未归一化的类得分（z0和z1分别对应于机器类和人类类）。我们的架构有两个隐藏层，我们网络中的整体转换可以写为：h1=（W1x+b1）（2）h2=n（W2h1+b2）（3）zk=W3h2+b3（4）Wl和bl分别是输入层、隐藏层和输出层之间的权重和偏置项。其中，Wl∈RNl×Ml，bl∈RMl，给定l∈{1， 2， 3}。此外，（. R-R是非线性激活函数，给出为：（x）=max（x，0）（5）我们使用P（k = 1 |X）作为我们的度量得分，其是输入候选字幕是人类生成的概率。它可以被公式化为：ez1P（k = 1 |x）= ez0 + ez1（6）8Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShahz具有参数θ=（W1，W2，W3，b1，b2，b3）的训练数据的交叉熵损失可以写为：1ΣpJθ=−pS伊伊河log（ezs+ezs）+βL（θ）（7）0 1s=1在上面的等式中，zs是对应的输出层节点的激活y~s对于如sy~的测试，给出输入x。当βL（θ）为零时，其通常用于减少模型过拟合。对于我们的网络，我们使用L2正则化[32]。3.4游戏性自动评估指标设计中的一个常见问题是，被评估的系统可能会试图优化指标得分，导致不期望的结果[37]，[4]。在这种情况下，所得到的字幕可能不具有与人类判断相同的质量。然而，通过“游戏”，字幕系统可以实现比应得的性能更高的性能，这可能导致错误的例如，仅考虑候选字幕和参考字幕之间的词汇相似性的度量可能被设计为向恰好具有针对参考字幕的许多n元语法匹配的字幕分配高于应得的分数。由于NNEval本身是各种度量的组合，因此它具有针对仅使用一个或几个子集度量的系统的内置抵抗力。话虽如此，一个系统与所有或一部分功能进行博弈的可能性仍然是合理的。4实验设置为了训练我们的指标，需要一个包含每个图像的人类和机器生成的标题的数据集我们通过从Flickr30k数据集获取数据来创建训练集[43]。Flickr30k数据集包含从Flickr4获取的31，783张照片，每张照片都与通过 Amazon Mechanical Turk （ AMT ）获得的 5 个标题配对。对于Flickr30k数据集中的每张图像，我们从五个标题中选择三个作为人工生成的候选标题。然而，我们使用三种图像字幕模型获得相同图像的机器生成字幕，这些模型在发布时达到了最先进的性能[38]，[39]，[29]。在第4.1节中，我们描述了这些图像字幕模型的训练设置。在第4.2节和第4.3节中，我们提供了用于NNEval的训练集和验证集的详细信息。NNEval的提前停止准则和网络参数分别在4.4节和4.5节中讨论4.1图像字幕模型我们用来为训练集获得机器生成字幕的模型是：1）显示和告诉[38]，2）显示，参加和告诉（软注意力）[39]，4www.flickr.com/NNEval：基于神经网络的图像字幕评价指标9图二.显示，（a）来自Flickr30k数据集的图像，（b）人类为相应图像生成的字幕，以及（c）由机器模型[38]，[39]，[29]为给定图像生成的字幕。（3）适应性注意[29]。我们使用这些字幕模型5的公开可用的官方代码，并在MS COCO数据集[8]上训练它们，MS COCO数据集是最大的图像字幕数据集之一。在大型数据集上训练的模型在看不见的数据集上测试时往往会提供更好的性能。MS COCO数据集由训练集、验证集和测试集组成，分别包含82，783、40，504和40，775张图像除了测试集之外，这些集中的每个图像与五个或更多个字幕（通过AMT收集）相关联我们将MS COCO训练集和验证集结合起来，并将此组合集用于字幕模型的训练，同时保留10，000个图像-字幕对用于验证和测试目的。我们使用原始的实验协议来训练图像字幕模型，以达到接近其报告的性能。4.2NNEval的训练集我们使用上面讨论的经过训练的图像字幕模型来为Flickr30k数据集中的图像生成对于每个图像，我们获得三个机器生成的字幕，每个模型一个此外，我们随机选择三个字幕中的五个人类产生的字幕，这是最初配对的各自的图像在Flickr30k，使用作为人类生成的字幕。这为我们提供了相同数量的人类和机器生成的可以显示每幅图像的标题。图2示出了针对给定图像的人和机器产生的候选字幕为了获得每个候选字幕的参考字幕，我们再次利用Flickr30k的人类书面描述对于每个机器生成的候选字幕，我们随机选择最初与每个图像相关联的五个人类书面字幕中的四个。然而，对于每个人类生成的候选字幕，我们从五个原始AMT字幕中选择我们确保每个人类候选字幕与其对应的参考字幕之间没有重叠在图3中，示出了可能的配对场景以展示候选字幕和参考字幕的分布如果我们选择S1作为候选人字幕，则我们选择S2、S3、S4、S5作为其候选人字幕。5我们感谢这些字幕方法的作者公开了他们的代码。10Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShah图三.显示了图像（a），其对应的人类和机器生成的字幕（b），以及训练集中给定图像的候选（人类和机器生成的字幕）和参考配对（c）。参考资料。然而，当我们选择M1作为候选机器字幕时，我们随机地选择S1、S2、S3、S4、S5中的四个中的任何一个作为参考。虽然可以探索不同种类的配对策略，但我们将其留给未来的工作。此外，我们为每个标题选择四个参考文献的原因是为了利用每个度量的最佳性能。这些指标中的大多数已经过测试并报告，以提供更好的性能，具有更大数量的参考字幕[33]，[10]，[37]，[4]。4.3NNEval的验证集对于我们的验证集，我们从Flickr8k [43]中提取数据，该数据由8，092张图像组成该数据集中的图像主要集中在执行某些动作的人和动物该数据集还包含对总共对应于1000幅图像的5，822个字幕的子集的人类判断每个字幕都由三位专家评委以1（字幕与图像无关）到4（字幕描述了图像，没有任何错误）的等级进行评估。从我们的训练集中，我们删除了与验证集和测试集中的字幕重叠的图像字幕（在第5节中讨论），为我们留下了总共132，984个非重叠字幕用于训练NNEval模型。4.4提前停止NNEval在最多500个时期的训练集上进行优化，并在每个时期之后在验证集上测试分类准确性。虽然在训练期间使用损失函数以最大化分类准确性，但我们主要感兴趣的是最大化与人类判断的相关性。由于准确度不是相关性的完美代理[24]，我们使用基于Kendallsτ（秩相关性）的早期停止，在每个时期之后在验证集上进行评估因此，当相关性最大化时，我们终止（提前停止）训练。由于验证集中的每个字幕都与三个判断配对，因此我们使用这三个判断的模式值来评估相关系数。NNEval：基于神经网络的图像字幕评价指标11表1.评价指标与人员素质判断的标题级相关性。所有p值（未显示）均小于0.001度量Pearson Spearman 肯德尔BLEU-10.3730.3660.269BLEU-40.2230.3600.267ROUGE-L0.3810.3760.279流星0.4480.4510.337苹果酒0.4400.4790.359香料0.4750.4820.376蜘蛛0.4670.4950.381NNEval0.5320.5240.4044.5网络参数我们使用Adam优化器[22]来训练我们的网络，初始学习率为0.25，小批量大小为75。我们通过从随机均匀分布中采样值来初始化网络的权重此外，我们将每个隐藏层h1和h2（第3.3节）的大小设置为72个节点。NNEval架构使用TensorFlow库[1]实现。5结果和讨论为了分析我们提出的指标的性能，相比现有的字幕指标，我们设计了三组实验，每个判断不同的首先，我们判断指标与人类判断相关的能力第二，我们观察在给定对的人类共识的情况下，在区分两个候选字幕方面的准确度（参见第5节）。2）的情况。第三，我们观察到，在候选句子中引入了各种干扰的情况下，测试人员能够处理这些干扰的能力在后两个实验中，我们报告的准确性，而不是相关性。5.1与人类判断的设计自动度量的目的是取代人类的判断。因此，自动评估指标最理想的特征是其与人类评分的强相关性[44]。与人类判断的更强相关性指示度量捕获人类在评估候选字幕时寻找的特征。为了测量我们提出的度量与人类判断的句子级相关性，我们使用COMPOS-ITE数据集[2]，该数据集包含11，985个候选字幕及其图像对应物的人类判断该数据集中的图像是从MS COCO、Flickr8k和Flickr30k数据集获得的，而相关联的字幕由人类生成的字幕（来源于上述数据集）和机器生成的字幕（使用两个字幕模型[2]、[19]）组成。图像的候选字幕由AMT工作人员在1（低相关性）到5（高相关性）的尺度上针对正确性进行评分使绩效12Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShah表2.在PASCAL-50 S上测试四种字幕对的准确性比较度量HC 嗨 HM MM AVGBLEU-153.5 95.6 91.1 57.374.4BLEU-453.7 93.2 85.6 61.073.4ROUGE-L56.5 95.3 93.4 58.575.9流星61.1 97.6 94.6 62.078.8苹果酒57.8 98.0 88.8 68.278.2香料58.0 96.7 88.4 71.678.7蜘蛛56.7 98.5 91.0 69.178.8NNEval60.4 99.0 92.1 70.480.5的NNEval是在看不见的数据上进行评估的，我们从这个测试集中删除了771个图像-标题对（它们与我们的验证集重叠），总共留下11，214对用于评估。按照[21]中的方法，我们报告了常用caption评估指标的Pearsonr 、 Kendallsτ 和 Spearmansp 相关系数以及较新的指标 SPIDEr（SPICE和CIDEr的线性组合）[28]。表1中的结果示出了NNEval在线性（Pearson）和基于等级（Spearman和Kendall）的相关系数方面优于现有的用于字幕的自动度量。这是对现有技术的。5.2精度我们遵循[37]中介绍的框架来分析度量在参考地面实况字幕的一对字幕之间进行区分的能力。如果度量为人类偏好的字幕分配更高的分数，则该度量被认为是准确的在这个实验中，我们使用PASCAL-50 S[37]，它包含了人类对4000个描述三元组（一个参考标题和两个候选标题）的判断。基于配对，三联体被分成四个类别（每个类别包括1000个三联体），即，人-人正确（HC）、人-人错误（HI）、人-机（HM）、机-机（MM）。PASCAL-50 S中的人类判断是通过AMT收集的，其中工人被要求识别候选句子，这是更相似的三元组中的给定参考与之前的研究不同[？]AMT工作人员不被要求对候选字幕进行评分，而是选择最佳候选字幕。我们遵循相同的原始方法[37]，每个候选人使用5个参考标题来评估指标的准确性，并在表 2中报告它们。与先前报道的结果[37]、[4]的微小变化可能是由于参考文献选择的随机性。表2中的结果表明，平均而言，NNEval领先于现有指标。在个体类别方面，它在区分人-人不正确字幕方面实现了最佳准确性我们认为，促成这一改进的原因是，我们的验证集具有所有人类生成的字幕，这些字幕由人类法官根据其相关性进行评分。NNEval：基于神经网络的图像字幕评价指标13见图4。示出了图像（a）、对应的正确字幕（b）、正确字幕的分心版本（c）以及每个字幕中的分心类型（d）。to the image图像.此外，通过使用早期停止（第4.2节），我们选择了与人类判断相关性最好的模型。因此，我们的模型针对人-人不正确场景的这种特定情况进行了优化。从表2中的结果可以明显看出，NNEval是表现最一致的模型，具有最高的平均准确度。请注意，HC是最难的类别，因为所有指标在该类别中产生的准确性最低。在HC类别中，NNEval仅略微落后于表现最佳的指标METEOR。NNEval在四个类别中的三个类别中优于三个字幕特定指标（CIDEr、SPICE和SPIDEr），并且仅次于SPICE在MM类别中，达到的准确度存在微小差异。5.3稳健性作者在[17]中最近引入了一个数据集，用于通过一系列二进制强制选择任务对图像字幕系统进行集中评估，每个任务都旨在判断图像字幕的特定方面。每个任务包含与两个候选字幕配对的图像，一个是正确的，另一个是不正确的（正确字幕的分心版本）。对于我们的评估，鲁棒的图像字幕度量应该主要选择正确的而不是分心的，以表明它可以捕获单词的语义显著变化，并且可以识别完整的句子描述何时优于单个名词短语。在[21]中，作者使用该数据集对各种图像字幕度量进行稳健性分析。按照他们的方法，我们也使用相同的数据集。然而，我们报告了六个不同任务的表现，而不是[21]中报告的四个，即1）替换人，2）替换场景，3）共享人，4）共享场景，5）只是人和6）只是场景。图4中显示了六个任务中的每一个的示例。对于替换场景和替换人物任务，给定图像的正确标题，通过用不同的场景/人物替换正确标题中的场景/人物（第一人称）来构建对于共享人任务和共享场景任务，干扰项共享具有正确标题的相同场景/任务。但是，句子的其余部分是不同的。纯场景和纯人物干扰项只包括正确标题的场景/人物。我们评估每个正确和分心的版本对其余的正确的字幕，可用于数据集中的图像的度量分数字幕评估指标的平均准确性得分报告在14Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShah表3.各种分心任务度量取代人取代场景分享人分享场景只是人只是场景AVG差情况精度BLEU-184.978.187.588.287.598.487.478.1BLEU-485.975.283.582.454.967.772.154.9ROUGE-L83.371.186.886.883.494.184.171.1流星83.775.192.491.491.998.489.375.1苹果酒89.995.094.193.173.381.585.773.3香料84.076.088.588.878.192.083.676.0蜘蛛89.795.094.793.676.686.189.376.6NNEval90.291.895.194.085.894.791.985.8实例数581625134594261958112624总人数：23977表3.表3的最后一行显示了针对每个类别。可以看出，NNEval优于中的其他度量。三个类别即，replace-person、share-person和share-scene任务。注意，NNEval再次是所有指标中最一致的执行者。它具有最好的平均性能，并且在所有指标中具有最高的最差情况准确性。因此，我们得出结论，NNEval总体上是最稳健的6结论和未来工作我们提出了NNEval，一个基于神经网络的评价指标，衡量质量的字幕在各个语言方面。我们的实证结果表明，NNEval与人类的判断更好地相关比现有的指标字幕评价。此外，我们的实验表明，它也是强大的候选句子中的各种分心。我们提出的框架，促进了各种有用的功能，有助于我们的指标的成功表现的结合。为了进一步改进NNEval以模仿人类得分，我们打算对各种特征对相关性和鲁棒性的影响进行详细我们计划在未来几个月内发布我们的代码，并希望它将导致基于学习的评估指标的进一步发展，并有助于字幕模型的细粒度评估。确认我们感谢英伟达提供Titan-Xp GPU，该GPU曾用于实验我们还要感谢Somak Aditya和Ramakrishna Vedantam分别分享他们的COMPOSITE和PASCAL-50 S数据集。这项工作得到了澳大利亚研究委员会的支持，ARC DP150100294。NNEval：基于神经网络的图像字幕评价指标15引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G.Isard，M.，等：Tensorflow：一个大规模机器学习系统。 In：OSDI. vol. 第16页。2652. A ditya，S.，是的，是的， Baral，C.， A loimonos，Y.， Ferrmüller，C. ：我是一个geunderrst和ing使用视觉和推理通过场景描述图。计算机视觉与图像理解（2017）3. Albrecht，J.S.，Hwa，R.：句子级机器翻译评估的回归机器翻译22（1-2），1（2008）4. Anderson，P. Fernando，B.，Johnson，M.，Gould，S.：Spice：语义命题语义分析。 In：EuropeanConferenceonComp uterVision. pp. 三百八十二398. Springer（2016）5. Banerjee，S.，Lavie，A.：Meteor：一种自动度量mt评估与改进的相关性与人类的判断。在：acl机器翻译和/或总结的内在和外在评估措施研讨会论文集pp. 656. Bojar，O.， Graham，Y.， Kamran，A.，我不知道，M。：16个元器件共享任务的恢复。第一届机器翻译会议论文集：第2卷，第一部分。 vol.第2页。1997. Bojar，O.， Helcl，J.， Kocmi，T.， Libovi ck y，J.， Musil，T. ：恢复第17个神经元训练任务。在：第二次会议上机器Translation。pp. 5258. C hen，X.， Fang，H.，林，T. 是的，我也是，去吧S 做吧，P Zitnick，C. L. ：Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325（2015）9. Corston-Oliver，S. Gamon，M.，Brockett，C.：一种机器学习方法用于机器翻译的自动评估。In：Proceedingsofthe39thAnnualMeetingonAssociationforComuttatinallLinguisics.pp.148-15503TheDog oftheDog（2001）10. Denkowski，M.，Lavie，A.：流星通用：针对任何目标语言的特定语言翻译评估。见：第九次统计分析讲习班会议记录。pp. 37611. 艾略特D.凯勒，F.：比较图像描述的自动评价措施。In：Proceedings of the52nd Annual Meeting of the Association for Computati onalLinguis ics（第2卷：ShortPaper s）。 vol. 第2页。45212. F a ng，H.，去吧S 我和我的女儿， Sriv a stav a，R. 登湖 Doll'ar，P.，乔，嗨，X.，Mitchell，M.Platt，J.，等：从字幕到视觉概念再回来（2015）13. G im'enez，J. Ma`rquez，L. ：逻辑系统的自动评估的潜在用户特征。在：第二次统计机器训练研讨会的会议记录。 pp.256-264AssociaationforCommputationalLinguistics（2007）14. Glorot，X.，Bengio，Y.：了解训练深度前馈神经网络的困难。在：第十三届人工智能和科学国际会议论文集。pp. 24915. Guzm'an ， F. ，Joty ， S. ，Ma`rquez ， L. ，Nakov ， P.：Pairwiseneurlmachinetr a t i n t i t inat ion评估。在：第53届计算语言学协会年会和第7届自然语言处理国际联合会议的会议记录（第1卷：语言处理）。 vol. 第1页。80516. Guzm'an ， F. ，Joty ， S. ，Ma`rquez ， L. ，Nakov ， P.：Machinetranslatonevatonwith neurnetor ks. ComputerSpeecLanguage45，18016Naeha Sharif，Lyndon White，Mohammed Bennamoun，Syed Afaq AliShah17. Hodosh，M.，Hockenmaier，J.：二进制强迫选择任务对图像描述的聚焦评价第五届视觉与语言研讨会论文集。pp. 1918. Hodosh，M.，扬，P.，Hockenmaier，J.：帧图像描述作为等级-评估任务：数据、模型和评估指标。 Journal of ArtificialIntelligenceResearch47，85319. Karpathy，A.，李菲菲：用于生成图像去重的深度视觉语义对准铭文在：IEEE计算机视觉和模式识别会议论文集中。pp. 312820. Karpathy，A.，Joulin，A.，飞飞L.F.：用于双向的图像句子映射在：神经信息处理系统的进展。pp. 188921. Kilickaya，M.Erdem，A.，Ikizler-Cinbis，N.Erdem，E.：重新评估自动图像字幕的度量。arXiv预印本arXiv：1612.07600（2016）22. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）23. 克里希纳河Zhu，Y.，格罗斯岛Jo

下载后可阅读完整内容，剩余1页未读，立即下载