没有合适的资源?快使用搜索试试~ 我知道了~
17929EMScore:通过粗粒度和细粒度嵌入匹配石亚亚1,徐阳2,徐海洋3,袁春风4*,李兵4,胡伟明4,5,6,查正军11中国科学技术大学2东南大学3阿里巴巴集团4中国科学5中国科学6中科院脑科学与智能技术shiyaya@mail.ustc.edu.cn101013120@qq.edu.cnshuofeng. alibaba-inc.com@ nlpr.ia.ac.cnzhazj@ustc.edu.cn摘要当前视频字幕的度量主要基于参考字幕和可编辑字幕之间的文本级比较。然而,它们也有一些无法克服缺点,它们不能在没有参考的情况下处理视频,并且由于视频到文本的一对多特性和对视觉相关性的忽视,它们可能导致有偏见的评估。 从人类评估者的角度来看,高质量的字幕应当与所提供的视频一致,但不必在文字或语义上与所述引用相似。受人类评价的启发,(一)视频引用候选标题我们提出了一种新的无参考的视频字幕度量标准EMScore(EmbeddingMatching-basedscore),它直接度量视频字幕和候选字幕之间的相似性。受益于最近大规模预训练模型的发展,我们利用一个良好的预训练视觉语言模型来提取视觉和语言嵌入用于计算EMScore。具体而言,EMScore结合了粗粒度(视频和字幕)和细粒度(帧和单词)级别的匹配分数,这将视频的整体理解和详细特征考虑在内。此外,考虑到潜在的信息增益,EMScore可以(b)录像引用候选标题A候选标题B×灵活地扩展到人类标记参考可用的条件。最后但并非最不重要的是,我们收集VATEX-EVAL和ActivityNet-FOIl数据集,以系统地评估现有指标。VATEX-EVAL实验表明EMScore具有较高的人相关性和较低的参考依赖性。ActivityNet-FOIL实验验证了EMScore能够有效 识 别 “ 幻 觉 ” 字 幕 。 代 码 和 数 据 集 可 在https://github.com/shiyaya/emscore 上 获得。图1.两个字幕评估的例子所有的度量分数被缩放到[0,1],包括人类分数。例如(a),由于“岩石”不包含在参考中,基于参考的度量过度惩罚该正确的候选日期标题我们的无参考指标EMScore在使用视频作为基础事实的帮助下给出了合理的高分例如(b),一些基于参考的度量(例如,ROUGE L和METEOR)对幻觉的惩罚不足(例如,“different games”) which is not related to the video,and give an unreasonable higher score for “hallucinating”caption B than correct caption*通讯作者R1:一个男孩从悬崖上后空翻入水。一个人站在悬崖上,翻到河里去了。一个人从悬崖上翻了一个后空翻,掉到了下面的湖里。一个男人从一块岩石上跳到湖里,然后翻了个身。√几个男孩拿着球拍在室内体育馆打羽毛球一群小孩子在体育馆里玩球和不同的游戏。一群孩子在打羽毛球。一大群人,聚集在体育馆,打几场羽毛球。一大群青少年正在体育馆里练习壁球。人类:0.917EMScore(我们的):0.836ROUGE_L:0.432流星:0.402BERT评分:0.535人:0.830EMScore(我们的):0.710ROUGE_L:0.210流星:0.358BERT评分:0.546人类:0.500EMScore(我们的):0.513ROUGE_L:0.519流星:0.548BERT评分:0.540179301. 介绍视频字幕[4]旨在生成描述给定视频的视觉内容的文本。 在新的驱动下,在传统的编码器-解码器范例中,视频字幕的研究已经取得了重大进展[29,35]。为了使视频字幕的进一步发展,它是必不可少的准确评估生成的字幕。最理想的衡量标准是人的评价,而进行人的判断是费时费力的。因此,各种自动度量被应用于视频字幕评估。然而,目前广泛应用的BLEU [19]、ROUGE [12]、CIDEr [28]和BERTScore [34]等视频字幕度量指标大多来自于机器翻译、文本摘要和图像字幕等其他任务,这可能忽略了视频字幕的特殊性,从而限制了视频字幕的发展。此外,这些自动度量需要人工标记的参考-因此它们被称为基于参考的度量-并且这样的要求导致三个内在缺陷:(1)当提供的视频没有人类标记的参考时,它们不能使用,这在这个时代并不罕见,每天都有数百万的无参考视频在线制作。(2)他们可能会过度惩罚正确的字幕,因为引用几乎没有描述视频的所有细节,这是由于一对多的NA,[32]特别是当参考文献的数量有限时。图图1(a)示出了一个这样的示例,其中候选字幕正确地描述了“a rock”,而基于引用的度量由于引用不包含该词而惩罚该词。(3)如[ 23 ]所指出的,这些基于参考的度量可能会对具有“幻觉”描述的字幕进行惩罚,因为这些度量仅测量与参考的相似性,并且无法完全捕获视觉相关性。例如,如图2所示。在图1(b)中,由于在参考文献中出现了单词这些缺点启发我们开发一种无参考的度量。从人类评估者的观点来看,如果字幕与源视频一致,即,视频中的视觉内容由字幕全面准确地描述,该字幕是高质量的字幕,并且不必在文字或语义上与参考文献相似。一个有前途的评价指标应该模仿人类的评价过程,并将视频内容引入到评价中。如今,由于大规模视觉语言预训练模型的蓬勃发展[11,17,21],视觉和语言嵌入之间的差距进一步缩小,使我们能够判断字幕是否与视频一致。基于这些研究进展,本文提出了一种无参考的度量EMScore(Embedding Matching-基于分数)来评估视频字幕,它利用预先训练的大规模视觉语言模型来提取视觉和语言嵌入。 具体而言,为了获得视频和字幕之间的全面比较,EMScore对粗粒度(视频和字幕)和细粒度(帧和单词)级别的匹配分数进行对于粗粒度的,我们计算视频的全局嵌入和候选字幕之间的相似度,考虑到视频的整体对于细粒度的嵌入匹配,我们计算帧和词嵌入之间的余弦相似度之和,这考虑了视频的详细特征(视觉元素随时间变化)。此外,它为EM分数提供了更多的可解释性此外,考虑到潜在的信息增益,如参考文献中的句法结构,以及在同一语言域中进行嵌入匹配比跨模态域更容易,我们将EMScore扩展到人类标记参考文献可用的情况,并将扩展度量命名为EMScore ref.目前,没有可用的视频字幕质量数据集可用于评估指标。 为了促进视频字幕评价标准的发展,我们首先收集了一个视频字幕质量数据集VATEX-EVAL,其中包含54,000个视频字幕对的人类评分。在VATEX-EVAL上的实验表明,引入视频进行评价,EMScore具有以下优点.首先,与BLEU、ROUGE或CIDER等一些流行的自动化指标相比,EMScore具有更高的人类相关性。其次,EMScore具有低参考依赖性,例如,,EMScore的0-参考Kendall与人类的相关性类似于BLEU1的4-参考相关性,或者EMScore ref的1-参考与CIDER的9-参考相关性类似。因此,EMScore可以显著降低手动注释引用的成本。第三,EMScore对质量漂移更鲁棒,当评估不同质量的字幕时,与其他自动度量相比,它实现了更高的相关性。此外,我们收集了另一个数据集ActivityNet-FOIL,其中包含“幻觉”字幕,以验证EMScore的敏感性。实验结果表明,EMScore比其他指标更有效地识别我们的贡献总结如下:• 本 文提 出了 一 种无 参考 的 视频 字幕 度 量方 法EMScore,该方法直接度量视频内容在粗粒度和细粒度两个层次上的一致性,并将其扩展到有参考的情况。• 我 们 收 集 了 两 个 数 据 集 VATEX-EVAL 和ActivityNet-FOIL,供研究人员分别研究指标17931i=1·V我j=1∈| |• 详尽的实验结果验证了EMScore具有更高的人类相关性,并且能够有效地识别2. 相关工作2.1. 字幕评估基于规则的评估最广泛使用的字幕度量是基于n-gram匹配- BLEU [19],ROUGE [12]和METEOR [3]。特别地,CIDEr [28]通过tf-idf对每个n-gram进行加权。然而,它们对词汇变化敏感,并且难以捕获帽的语义,因此它们与人类判断的相关性很差[34]。基于嵌入的评估基于嵌入的度量使用预训练的模型来提取嵌入并在嵌入空间中执行语义匹配,已被证明与人类判断更好地相关。BERTScore [34]使用BERT生成的上下文单词嵌入,并通过计算标记级余弦相似度来衡量两个文本的语义相似度。BERTScore可以看作是我们的一个特例,它只使用引用进行评估,并执行单个细粒度的嵌入匹配。在这些嵌入度量中,有些作品试图考虑视觉信息。Tiger [8]使用经过训练的图像-文本匹配SCAN模型[10]来比较候选标题和参考之间的地面输出。ViLBERTScore [9]使用预训练的ViLBERT模型[16]来比较候选标题和参考之间的视觉基础文本表示在这两个评估指标中,图像在评估中被夹-大规模数据集上的文本任务,例如Conceptual cap-tions [24]和HowTo 100 M [18]。在预训练期间,模型学习缩小视觉和语言嵌入之间的差距,这使它们能够很好地推广到各种下游任务,如VQA [2],视觉基础[14],图像/视频文本检索和图像/视频字幕[13,26,33]。受窄嵌入间隙的启发,我们利用一个大规模的预训练模型:CLIP [21],它通过对4亿个图像-文本对的对比学习进行预训练,以设计视频字幕度量。CLIP-straight [20]表明,直接将CLIP应用于视频-文本检索可以实现出色的零拍摄性能,这证明了提取的视频和文本嵌入之间的因此,CLIP将视频内容与候选字幕之间的一致性度量转化为计算候选视频与字幕嵌入之间的余弦相似度。3. EMScore图2显示了EMScore的流水线,它计算生成的字幕和源视频的嵌入相似度,以实现无参考字幕评估。3.1. 包埋提取我们使用CLIP [21]在细粒度和粗粒度级别提取视频和文本嵌入。具体来说,视觉编码器Ev(ViT-B/32)[6]提取单个帧和整个视频的嵌入。语言编码器Et(Transformer)[22]提取每个标记和整个句子的嵌入。帧和视频表示给定视频V=[7]和FAIEr [30]是最近提出的参考。{vi}|V|(|V|是帧的数量),每个细粒度免费评估指标。 CLIPScore [7]使用预训练的帧嵌入,如下获得:图像语言模型CLIP [21]来获取图像和文本嵌入,并计算余弦相似度。 但他们其中,Normfvi =Norm(Ev(vi)),fv∈Rd,(1)只考虑粗粒度的匹配而忽略细粒度的匹配,因此CLIPScore缺乏可解释性,并忽略了更精确的分数来自细粒度的匹配。()是L2归一化函数。粗粒度视频嵌入fV是正常的-所有帧嵌入的均值池化匹配. FAIEr [30]引入场景图来评估图像字幕的保真度和充分性。上述度量都是针对图像字幕提出的在f=标准1|V||V|·i=1fv∈Rd.(二)本文通过引入视频内容,提出了一种专门针对视频字幕的评价指标。我们不仅考虑视频和文本之间的粗粒度嵌入匹配,而且考虑细粒度嵌入匹配-单词和文本表示给定一个标题,我们首先使用CLIP默认的tokenizer获取单词token,然后添加两个特殊token [SOS]和[EOS],构造新的token序列X={xj}|X| (|X|的数目记在在帧和字之间进行切换,以考虑视频的视觉元素随时间的2.2.预训练的视觉语言模型代币)。上下文令牌嵌入是:{fsos,fx1,···,fx|X |−2,feos}= Norm(W·LN(Et(X),fx∈Rd,(三)受NLP大规模预训练成功的启发[5,22],大规模预训练模型[11,16,17,27]也成为视觉语言界的研究热点。一般来说,这些模型是通过预训练的其中LN是层归一化,WRh×d是固定的pa-CLIP中的参数,h是文本编码器的隐藏大小所有这些X个标记嵌入都用于细粒度嵌入匹配,最后一个feos被视为粗粒度嵌入匹配的全局嵌入fXΣ17932Σ1−F|X|vj∈VXiVJxi∈XXiVJΣ细粒度嵌入匹配视频单词嵌入视觉编码器视觉编码器视觉编码器视觉编码器框嵌文本编码器平均池候选[SOS]一幼女玩滑板[EOS]0.65视频嵌入文本嵌入粗粒度嵌入匹配图2.使用视频作为地面实况的EMScore计算说明给定视频V和候选字幕C,我们提取视频和字幕的全局表示用于粗粒度向量匹配EMScore(X,V)c,以及帧和单词的局部表示用于细粒度贪婪匹配EMScore(X,V)f。我们用红色突出显示了精确贪婪匹配,为了简单起见,我们给出了没有idf加权的计算。总体EMScore是EMScore(X,V)c和EMScore(X,V)f的平均分数。3.2. 嵌入匹配给 定 源 视 频 V 和 生 成 的 字 幕 X , 粗 粒 度 嵌 入 匹 配EMScore(X,V)c为:EMScore ( X ,V )c=fXfV ,1(4)其中fV和fX分别是视频和字幕的嵌入。该过程显示在图的下部二、细粒度嵌入匹配对于视频,由于帧中的视觉元素随时间变化,仅执行粗粒度嵌入匹配可能会丢失细节信息,这启发我们设计细粒度嵌入匹配来实现帧-标记对齐。图的上部。2示出了所应用的细粒度匹配。给定视频帧嵌入fv,在计算回忆时,很容易找出哪个单词与特定的视觉框架对齐。召回评估字幕的全面性,例如视频中的内容是否描述得没有遗漏。F1指标结合了这两个方面的评价。标题通常由两种文字组成:视觉内容词如名词和功能词如“the”、“and”等。对于这些功能词,很难将它们与视频帧对齐,因此在标记-帧匹配时,我们应该降低它们的重要性权重。由于越多的视觉无关词在整个字幕语料库中出现的次数越多,当单词并整合到EMScore中。 给出一个语料库。X(i)N,句子标记嵌入fx,我们首先计算精确度(P)和召回率(R),然后将它们结合起来,得到F1得分(F)作为我们的细粒度嵌入匹配得分令牌x的idf值是:Nidf(x)= logNI<$x∈X(i)<$i=1、(8)EM评分(X,V)f:在那里,我[]i=1是一个指标函数。特殊代币(EOS)1P(X,V)=最大值fxi∈X、(五)出现在每个标题和Eq中。(8)将其权重分配为0,而此令牌包含全面的上下文-R(X,V)=1Σvj∈V最大值f、(6)整个句子的形成,因为它被用作在预训练EM评分(X,V)f=2P·R。(七)P+R在CLIP中。为了解决这个问题,我们根据经验将将[EOS]令牌转换为整个idf集的平均值通过这种令牌-帧匹配,计算idf值后,公式中的精度(五)更改为:在这种情况下,很容易找出哪个视觉框架对齐P(X,V)=<$xi∈Xidf(xi)maxvj∈Vfx<$ifvj.(九)一个特定的词。精度评估正确的标题的性质,例如描述是否相关Fxi∈X 以色列国防军(xi)没有错误的细节的视频内容。 同样1由于所有嵌入都是L2归一化的,因此余弦相似度被简化为内积。F|V|17933在计算查准率和查全率时,将分别对X和V应用IDF。注意,idf加权将不影响等式中的召回计算。(6)因为每一帧都同样重要。17934i=1系统GT顶向下ORG-TRLAM 1AM 2AM 3平均分4.7503.9204.0033.9163.8543.793表1.六个不同字幕源的平均得分3.3. EMScore EMScore参考在计算EMScore时,我们不需要任何参考,仅使用视 频 V 。 具 体 而 言 , EMScore 定 义 为 EMScorec 和EMScoref的平均值:EMScore(X,V)= EMScore(X,V)c+ EMScore(X,V)f。(十)2分数在范围[-1,1]内较高的EMScore表示更好的字幕,因为它与视频更一致当参考标题X可用时,我们可以将其合并以获取EMScore ref。第一,EMScore(X,X)计算公式如Eq.(10)用X代替V,将基本事实嵌入从帧和视频表示改变为单词和文本表示。其次,我们将增强的EMScore ref定义为EMScore(X,V)和EMScore(X,X)的平均值。句子评分一个婴儿坐在沙发上用吸管杯喝水。5一个婴儿正在用吸管杯喝水,一个女人在和他说话4当一个男孩在玩球时,一个婴儿正在用吸管杯喝水。3一个婴儿在玩玩具,一只小狗在旁边。2一个女孩正在玩玩具,一只小狗在旁边。1图3. VATEX-EVAL数据集的注释示例。标题中不正确的细节以红色突出显示。原正确段落一个男人漂浮在河里的一根管子上。他在喝苏打水一边漂浮一边大笑另一个人撞了他好几次。陪衬段落一个人漂浮在游泳池的中间管上。他喝着苏打水,一边漂浮一边大笑。另一个人撞了他好几次。EM评分参考EM评分(X,V)+EM评分(X,X)图4. ActivityNet-FOIL的正确箔对示例(X,V,X)=.2(十一)不正确的细节用红色突出显示。注释者是亲-如果 那里 是 多 参考 句子 {Xi}M,∗∗附有详细说明(参见附录),是为了尽量减少注释中的主观性而编写的。EM评分(X,X) =最大EM评分(X,Xi)。在我数据集分析我们证明了我们的可靠性,的 接着,除非 否则 指定,EMScore表示EMScore(X,V),EMScore ref表示EMScore(X,V,X*)。4. 收集的数据集4.1. VATEX-EVAL数据集收集VATEX-EVAL数据集以评估自动度量与人类判断的相关性。候选字幕集我们使用VATEX [31]的所有3000个验证视频,并收集总共18,000个可编辑字幕,每个视频6个字幕。 为了涵盖字幕质量的全方位,对于每个视频,我们收集三种字幕:一个高质量、两个中等质量和三个低质量字幕。具体而言,对于高质量字幕(GT),它们是从原始地面实况参考字幕中随机选择的;对于中等质量的字幕(Top-Down和ORG-TRL),它们是从Top-Down [1]和ORG-TRL [35]字幕模型生成的;对于低质量字幕(AM 1、AM 2、AM 3),通过对抗匹配从VATEX验证数据集中的其它视频中选择它们。有关字幕收集的更多详情,请参阅附录。为了确保高质量的人工评估,每个候选字幕都由3名英语注释员进行评分,总计54,000个人工评分。对于每个视频,我们要求3个注释者对视频之间的字幕之间的一致性程度进行比率从1到5,其中1表示不一致,5表示一致。图3显示了一个示例,其中从两个方面收集了VATEX-EVAL数据集。首先,为了检查不同注释者之间的一致性,我们计算Kendall和Spearman相关系数,分别为0.568和0.628。这些注释者之间的相关性表明注释者之间的一致性很强其次,Tab。1表示六个候选字幕集合源的平均注释分数。原始地面实况字幕的平均得分大大优于所有其他字幕类型的平均得分,这与GT字幕具有最高质量信息的事实相符。ORG-TRL模型得到了比自顶向下模型更高的注释分数,这也与模型复杂度呈正相关。对抗性匹配的三个标题以上分析证明了我们的注释是可靠的。4.2. ActivityNet-FOIL数据集先前的工作表明,当前的字幕模型通常会生成为了测试EMScore识别包含不准确视觉概念的箔标题的灵敏 度 , 我 们 遵 循 FOIL-COCO 数 据 集 [25] 来 更 改ActivityNet-Entities测试数据集[36]以构建ActivityNet-FOIL数据集。在ActivityNet-Entities中,每个视频都有两个对应的段落。我们使用两个段落中的一个来构建正确的箔对,并使用另一个作为基于参考的度量的参考每个段落大约有3个句子在不同的时间戳,和一个视觉概念,在每个句子是接地到一个anno-17935| |站边界框。一个陪衬标题是通过用一个类似但错误的视觉概念替换原始视觉概念来创建的。我们的数据生成过程有三个主要步骤:首先,我们收集所有的视觉概念,并过滤掉那些频率较低的。然后,我们将属于同一超范畴的词配对在一起(如river-pool、shirt-shoe、cat-dog)。最后,我们得到了2,191个正确的箔对,其中每个视觉概念大约有13个箔对。其次,我们用配对的陪衬候选项替换原始正确标题中的视觉概念,每个正确的标题都有多个候选的陪衬标题。第三,对于每一个正确的字幕,我们通过选择最低困惑度的候选来挖掘最难的陪衬字幕最后,我们创建了1900个正确的陪衬段落对,并且陪衬段落中至少有一个标题包含陪衬视觉概念。如图4,它包含每个视频的正确箔段落对我们计算每个指标的准确性关于ActivityNet-FOIL集合的更多细节可以在附录中看到。5. 实验我们进行实验以评估我们的EMScore和VATEX-EVAL上的EMScore ref(参见第5.1节)和ActivityNet-FOIL(参见第5.2节)数据集。为了测量字幕级别的人类相关性,我们计算Kendall我们将EMScore与四个基于规则的指标进行比较,例如,BLEU [19],ROUGE L [12],METEOR [3]和CIDEr [28]2和两个基于嵌入的度量,例如,[32]第34话,我 的 世 界对于这 两个基于 嵌入的度量 ,我们使 用RoBERTa-base [15]作为骨干,并分别使用具有idf的F1-measure对于我们的EMScore和EMScore ref,它们也可以选择与idf组合。具体地,来自源数据集(VATEX和ActivityNet)的训练字幕语料库对于V的值,我们使用视频中的所有帧h和d的值都是512。5.1. VATEX-EVAL结果5.1.1消融研究P、R、F和idf权重的影响2.可以看出,无论是否使用idf加权,F1-measure都取得了相对稳定的通过引入idf权重,提高了EMScore的精度和F1测度结果证明idf加权是有效的。在计算F1-测度和使用idf相结合的情况下,获得了最佳的性能2这些指标在MS COCO评估工具https中实现//github.com/tylin/coco-caption网站。3https://github.com/Tiiiger/bert_score4https://github.com/ck0123/improved-www.example.com图像字幕评估公制τ ρEM评分f(P)0.18430.2404EMScoref(R)0.22630.2946EMScoref(F)0.2228零点二九EM评分f(P-idf)0.2052 0.2674EM评分f(R-idf)0.2263 0.2946EM评分f(F-idf)0.2296 0.2989表2.分析了不同计算方法的性能差异以及idf加权对细粒度EMScoref的影响。τ/ρ分别表示Kendall/Spearman相关#公制GTτρ1EMScorecV0.2269零 点 二九五五2EMScore f(F-idf)V0.22960.29893EMScore(F-idf)V0.23240.30264EMScore cX*0.23900.31045EMScore f(F-idf)X*0.24950.32406EM评分(F-idf)X*0.25500.33077EM评分参考CV+X*0.27380.35488EM评分参考值f(F-idf)V+X*0.27790.35999EM评分参考(F-idf) V+X*0.28630.3705表3.不同粒度嵌入匹配的效果和不同地面实况的效果GT、V、X* 表示为地面实况、视频和参考。对于X*,有一个引用。τ/ρ分别表示Kendall/Spearman相关指标编号参考1参考9参考τ ρ τ ρ τ ρ蓝色1--0.12190.15910.2890.3697蓝色4--0.08060.08810.2160.256红色L--0.12490.16310.23780.3085流星--0.16440.21490.27630.3574苹果酒--0.17320.22630.27810.3606BERT评分(F-idf)--0.18240.23730.2930.3775改进BERT评分(R-idf)--0.15160.1980.24420.3167EM评分(F-idf)0.23240.3026----EM评分参考(F-idf)--0.28630.37050.36810.4719表4. VATEX-EVAL数据集上的人类相关性。τ/ρ分别表示Kendall/Spearman相关性加权因此,在下文中,我们使用F1-measure结合idf权重作为默认设置。不同粒度和研磨真相对片剂的影响。3、我们首先观察不同粒度的影响对于使用视频作为地面实况(GT)的EMScore,第2行中的细粒度EMScore比第1行中的粗粒度EMScore获得更好的结果。实验结果验证了我们在视频字幕评价过程中考虑视频视觉元素随时间变化的特性的动机是正确的。此外,第3行中两种粒度组合的性能也得到了进一步的提高.结果表明,多粒度组合是有益的。接下来,我们观察使用不同地面实况的影响。当同时使用视频和参考作为GT时,比单独使用它们实现更好的相关结果。实验结果证明了我们的猜想,即视频和参考文献中的信息是互补的,参考文献的额外使用可以带来信息增益。因此,我们建议在参考文献可用时使用EMScore ref。5.1.2与其他指标的在接下来的实验中,我们证明了我们的EMScore实现了更高的人类相关性和更低的参考依赖性,这得益于视频内容的引入我们还表明,我们的度量是强大的质量17936∈{···}∈{···}∼图5. 自动驾驶汽车与驾驶员之间的肯德尔和斯皮尔曼相关性(a) 不同注释分数的标题在不同测试集中的分布。(b) Kendall相关性的不同指标与人类判断不同的测试集。在VATEX-EVAL数据集上使用不同数量的参考文献进行自动度量和人工判断虚线表示EMScore,它不依赖于任何参考。漂移,并与人类具有一致的系统级排名高人类相关性选项卡。图4示出了每个候选帽具有0、1、9个引用的度量的相关结果。我们有以下几点意见:(1)在没有参考文献的情况下,我们的EMScore仍然工作得很好,并取得了令人惊讶的竞争结果。结果表明,考虑视频内容的优势,而其他基于参考的指标不能处理这种情况;(2)当使用相同数量的引用时(例如,1或9),我们的EMScore ref远远优于其他先前的指标。比较结果表明,该度量达到了更高的人类识别率,并提出了一个更可靠的度量.低参考依赖性自动度量和人工判断之间的Kendall和Spearman相关性与不同数量的参考如图所示。五、我们的EMScore没有任何参考,可以实现有竞争力的结果,相比之下,基于参考的指标需要至少4或5个参考,如BLEU 1和改进的BERTScore。此外,我们的EMScore ref只有一个参考,可以实现与基于参考的指标相当的结果,这些指标至少需要8或9个参考,如CIDER和BERTScore。实验结果表明,该度量具有较低的参考依赖性,这得益于在评价中引入了视频内容。对质量漂移的鲁棒性对于metrics来说,处理质量漂移是极其重要的,因为生成的字幕的质量在不同的视频字幕模型中可能会有很大的差异。 评估指标的稳健性 对于质量漂移,我们通过对具有不同概率的不同质量级别的候选字幕进行采样,从我们的注释VATEX-EVAL数据集创建有偏集。具体地,每个字幕的注释得分的范围从1到5。 然后,我们创建5个有偏集,由变量I1,2,,5. 对于第I个集合,我们对注释得分为k的候选字幕进行采样,概率为1,其中k为1,2, ,5。|I − k|+1个以这种方式,5个集合具有不同质量的可识别字幕的不同分布第6(a)段。我们计算了5个集合上不同度量和人类判断一个裁判-图6.不同字幕质量偏差集上度量的鲁棒性。一个参考用于基于参考的指标和我们的EMScore参考。erence用于基于参考的指标和我们的EM-评分参考。图6(b)表明:(1)我们的度量EMScore和EMScore ref在所有有偏集上都比其他度量具有更高的相关性,这证明我们的度量对质量漂移具有鲁棒性;(2)我们发现基于规则的度量,例如,BLEU 4在低质量字幕(第1组)上的表现要比在高质量字幕(第5组)上好得多。随着视频字幕的发展,他们将变得越来越不可靠,因为他们很难判断高质量的字幕。VATEX-EVAL视频字幕的系统级排名研究者通常报告系统级分数来验证他们的方法的有效性,因此,测量度量的系统级人类相关性是必要的一个可靠的指标预计将具有与人类相同的系统排名。在选项卡中。5,我们比较了VATEX-EVAL数据集上由指标和人类评定的六个系统平均分数的排名。所有指标分数都缩放到[0,1],包括人类分数。对于人类评分,GT系统获得最高评分,其次是ORG-TRL,Top-Down,AM 1,AM 2,AM 3。我们使用红色字体来强调指标我们可以看到CIDER和BERTScore不能正确地对GT、ORG-TRL和Top-Down系统进行排名,例如, 他们给ORG-TRL 系 统 而 不 是 GT 最 高 分 。 我 们 的 EMScore 和EMScore ref与人类排名一致。实验结果表明,本文提出的EMScore和EMScore ref在系统级评价中具有较好的可靠性,对视频字幕的发展具有一定的参考价值5.1.3EMScore可视化图7可视化了细粒度的EMScore如何将最相似的视觉元素与标记匹配(作为精度的计算)。对于第一个例子,对于第二个示例,视觉概念“boy”在第53帧中作为主要视觉元素出现,因此标记“boy”匹配该帧而不是其中出现多个视觉元素的第84帧和第298帧。与粗粒度嵌入匹配相比,17937系统人类EM评分(F-idf)EM评分参考(F-idf)苹果酒BERT评分(F-idf)GT0.937(一)0.581(一)0.639(一)0.178(二)0.498(三)ORG-TRL0.751(二)0.539(二)0.606(二)0.185(一)0.527(一)顶向下0.730(三)0.530(三)0.591(三)0.173(三)0.515(二)AM 10.729(四)0.522(四)0.584(四)0.146(四)0.464(四)AM 20.714(五)0.515(五)0.571(五)0.140(五)0.451(五)AM 30.698(六)0.512(六)0.566(六)0.134(六)0.447(六)表5.VATEX-EVAL数据集上的系统级排名在基于参考的指标和我们的EMScore参考中使用了九个参考。表中指标的每一列给出了每个系统的得分和六个系统的排名突出显示的红色字体表示该指标(一)4 6 253350106160187221(二)14 173749538485 104 105 298图7.EMScore精确可视化。每个标记与最相似的帧相匹配时间索引显示在框架下注意,对于具有大的视觉场景变化的视频,单独使用细粒度匹配就足够了。6. 结论本文对这一问题进行了系统的研究,表6.ActivityNet-FOIL数据集上的成对排序精度可以考虑视频的特性,并为EMScore提供更多的可解释性。5.2. ActivityNet-FOIL实验为了测试EMScore识别“幻觉”字幕的能力,我们计算了每个评估指标的成对排序的准确性,以确定它们的分配能力。在ActivityNet-FOIL数据集上,正确候选段落的得分高于陪衬段落。每个候选段落都有多个字幕,因此我们首先计算字幕得分,然后计算段落的整体得分作为多个字幕的平均得分通过根据候选字幕的时间戳将视频和参考段落分别切割成多个片段和参考字幕来获得每个字幕的基本事实。准确度结果显示在选项卡中。6、我们有以下发现:(1)即使没有任何参考,我们的EMScore也优于所有基于参考的指标。此外,我们的EMScore在准确性方面实现了显著的改进,与最佳先验度量(BERTScore 86.68%)相比提高了约3%。实验结果表明,将视频内容作为背景真值进行幻觉字幕识别是有效的;(2)当被参考增强时 , 我 们 的 EM- Score ref f 达 到 了 最 高 的 准 确 率(93.00%);(3)由于ActivityNet数据集中视频的视觉场景变化很大,考虑细粒度的嵌入匹配比粗粒度的嵌入匹配更有效。同时,多粒度组合并没有带来性能的提高,结果表明,视频字幕评估指标。首先,针对基于参考的评价指标的 不 足 , 提 出 了 一 种 新 的 视 频 字 幕 评 价 指 标EMScore,该指标通过衡量视频和字幕之间的一致性来实现。其次,我们收集了两个数据集(VATEX-EVAL和ActivityNet-FOIL)来系统地分析现有指标的可靠性。VATEX-EVAL实验表明,我们的EMScore具有较高的人类相关性和较低的参考依赖性。此外,它对质量漂移具有鲁棒性,并且在系统级排名上与人类一致ActivityNet-FOIL实验表明,我们的EMScore对识别“幻觉”字幕很敏感局限性。EMScore是一种基于嵌入的度量,依赖于所使用的视觉语言预训练(VLP)模型的性能。通过利用更好的VLP模型来提取更好的表示,可以获得更可靠的评估分数有关VLP模型影响的更多讨论见附录。鸣谢。本工作得到了北京市自然科学基金(批准号:JQ21017 ) , 国 家 重 点 & 研 发 计 划 ( No.2020AAA0105702)、国家自然科学基金(批准号:61972397、62036011、62192782、61721004, U19B2038, 61906192), 的 重点研究中国科学院前沿科学计划,批准号:QYZDJ-SSW-JSC040、安徽省高校协同创新计划(GXXT-2019-025)、中国科学院科技服务网络计划(批准号:KFJ-STS-SCYD-317)。一男孩与脸上的颜料和另一个男孩玩泡泡一小男孩走起来到mickeymouseacross的房间度量准确度(%) 度量准确度(%)蓝色160.11EM评分c87.95蓝色466.11EM评分f(F-idf)90.32红色L56.74EM评分(F-idf)89.47流星72.89EM评分参考c90.21苹果酒77.89EM评分参考值f(F-idf)93.0017938引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。2018年IEEE计算机视觉和模式识别会议,CVPR 2018,第6077-6086页,2018年。5[2] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。在2015年IEEE计算机视觉国际会议上,ICCV 2015,第2425-2433页,2015年。3[3] Satanjeev Banerjee和Alon Lavie。METEOR:一个自动的机器翻译评估指标,与人类判断的相关性得到了改善.在ACL机器翻译和/或摘要的内在和外在评估措施研讨会论文集,第65-72页,2005年三、六[4] Jincan Deng,Liang Li,Beichen Zhang,Shuhui Wang,Zhengjun Zha,and Qingming Huang.用于视频字幕的句法引导的语义注意网络 IEEE Trans.电路系统视频技术,32(2):8802[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。在Jill Burstein ,Christy Doran 和Thursday Solorio的编 辑中,计算语言学协会北美分会2019年会议论文集:人类语言技
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功