无参考视频字幕新度量：EMScore——粗细粒度嵌入匹配提升

PDF格式 | 2.22MB | 更新于2025-01-16 | 182 浏览量 | 举报

本文主要探讨了当前视频字幕度量方法存在的局限性，特别是对于无参考视频和对视觉相关性的忽视问题。作者石亚亚等人提出了一个新的无参考视频字幕度量标准——EMScore，旨在解决这些问题。EMScore的核心思想是利用大规模预训练的视觉语言模型，通过粗粒度和细粒度嵌入匹配来直接度量视频字幕与候选字幕之间的相似性。这种方法摒弃了传统的基于文本比较的依赖，能够更好地反映字幕的质量，即使在没有参考字幕的情况下也能提供客观评价。粗粒度匹配关注视频和字幕的整体一致性，确保两者在内容上的一致性，而细粒度匹配则聚焦于帧和单词级别，捕捉更具体的视觉和语言细节。这种设计允许EMScore综合考虑视频的全局理解与局部特征，从而更准确地衡量字幕的质量。同时，EMScore具有灵活性，可以在有参考的情况下进一步优化，利用人类标记的参考信息。为了验证EMScore的有效性，作者构建了VATEX-EVAL和ActivityNet-FOIL数据集，分别进行系统的评估。在VATEX-EVAL实验中，结果显示EMScore在人相关性方面表现优异，减少了对参考字幕的依赖，这表明其能更公正地评价字幕质量。而在ActivityNet-FOIL实验中，EMScore成功地识别出所谓的“幻觉”字幕，即那些看似合理但实际上与视频内容不符的字幕，证明了其在识别偏差和误导性字幕方面的优越性。 EMScore作为一种创新的无参考视频字幕度量方法，通过结合视觉和语言嵌入的匹配，为视频字幕评估提供了更为全面和客观的视角。该方法不仅适用于无参考场景，还能在有参考情况下充分利用额外信息，极大地提升了字幕评价的准确性和公平性。研究者们已经开源了相关的代码和数据集，使得其他研究人员和实践者能够在实际应用中体验和改进这一度量标准。

17931

我

∈

| |

•

详尽的实验结果验证了EMScore具有更高的人类

相关工作

2.1.

字幕评估

基于规则的评估最广泛使用的字幕度量是基于n-gram

匹配- BLEU [19]，ROUGE [12]和METEOR [3]。特别

地，CIDEr [28]通过tf-idf对每个n-gram进行加权。然

而，它们对词汇变化敏感，并且难以捕获帽的语义，

因此它们与人类判断的相关性很差[34]。基于嵌入的

评估基于嵌入的度量使用预训练的模型来提取嵌入并

在嵌入空间中执行语义匹配，已被证明与人类判断更

好地相关。BERTScore [34]使用BERT生成的上下文单

词嵌入，并通过计算标记级余弦相似度来衡量两个文

本的语义相似度。BERTScore可以看作是我们的一个

特例，它只使用引用进行评估，并执行单个细粒度的

嵌入匹配。在这些嵌入度量中，有些作品试图考虑视

觉信息。Tiger [8]使用经过训练的图像-文本匹配SCAN

模型[10]来比较候选标题和参考之间的地面输出。

ViLBERTScore [9]使用预训练的ViLBERT模型[16]来

比较候选标题和参考之间的视觉基础文本表示在这两

个评估指标中，图像在评估中被夹-

大规模数据集上的文本任务，例如 Conceptual cap-

tions [24]和HowTo 100 M [18]。在预训练期间，模型

学习缩小视觉和语言嵌入之间的差距，这使它们能够

很好地推广到各种下游任务，如VQA [2]，视觉基础

[14]，图像/视频文本检索和图像/视频字幕[13，26，

33]。受窄嵌入间隙的启发，我们利用一个大规模的预

训练模型：CLIP [21]，它通过对4亿个图像-文本对的

对比学习进行预训练，以设计视频字幕度量。CLIP-

straight [20]表明，直接将CLIP应用于视频-文本检索可

以实现出色的零拍摄性能，这证明了提取的视频和文

本嵌入之间的因此，CLIP将视频内容与候选字幕之间

的一致性度量转化为计算候选视频与字幕嵌入之间的

余弦相似度。

EMScore

图2显示了EMScore的流水线，它计算生成的字幕和

源视频的嵌入相似度，以实现无参考字幕评估。

3.1.

包埋提取

我们使用CLIP [21]在细粒度和粗粒度级别提取视频

和文本嵌入。具体来说，视觉编码器E

（ViT-B/32）

[6] 提取单个帧和整个视频的嵌入。语言编码器 E

（ Transformer ） [22] 提取每个标记和整个句子的嵌

入。

帧和视频表示

给定视频

[7]和FAIEr [30]是最近提出的参考。

{

}

（|V|是帧的数量），每个细粒度

免费评估指标。

CLIPScore [7]

使用预训练的

帧嵌入，如下获得：

图像语言模型CLIP [21]来获取图像和文本

嵌入，并计算余弦相似度。但他们

其中，

Norm

Norm（E

（v

））

，

∈

，

（

）

只考虑粗粒度的匹配而忽略细粒度的匹配，因此

CLIPScore缺乏可解释性，并忽略了更精确的分数来自

细粒度的匹配。

（）是

归一化函数。

粗粒度视频嵌入

是正常的-

所有帧嵌入的均值池化

匹配. FAIEr [30]引入场景图来评估图像字幕的保真度

和充分性。上述度量都是针对图像字幕提出的在

标准

∈

（

二）

本文通过引入视频内容，提出了一种专门针对视频字

幕的评价指标。我们不仅考虑视频和文本之间的粗粒

度嵌入匹配，而且考虑细粒度嵌入匹配-

单词和文本表示给定一个标题，我们首先

使用CLIP默认的tokenizer获取单词token，然后添加两

个特殊token [SOS]和[EOS]，构造新的token序列X

}

（

的数目记在

在帧和字之间进行切换，以考虑视频的视觉元素随时

间的

2.2.

预训练的视觉语言模型

代币）。上下文令牌嵌入是：

{

sos

，

···

，

|X |−

，

eos

}= Norm（

（

）

，

∈

，

（

三

）

受NLP大规模预训练成功的启发[5，22]，大规模预

训练模型[11，16，17，27]也成为视觉语言界的研究

热点。一般来说，这些模型是通过预训练的

其中LN是层归一化，W R

h×d

是固定的pa-

CLIP中的参数，h是文本编码器的隐藏大小所有这些X

个

标记嵌入都用于细粒度嵌入匹配，最后一个f

eos

被视

为粗粒度嵌入匹配的全局嵌入

剩余10页未读，继续阅读

cpongm

粉丝: 6

无参考视频字幕新度量：EMScore——粗细粒度嵌入匹配提升

COSMIC度量手册V5.0

算法性能度量与评价指标:常用性能度量与评价方法

一种新的基于对应像素距离度量的图像相关匹配方法

面向对象度量方法有哪些特点

常用特征提取方法、特征匹配方法和相似度度量方法

powerbi新建度量值新建度量值：销售收入

适合细粒度图像分类的方法，以及能提升细粒度图像分类精度的具体方法，以及如何进行数据处理

什么是维度，什么是事实，什么是度量，什么是粒度

软件度量，基于代码行的度量方法，基于功能点度量方法

python视频特征匹配

最新资源