LEMON: 大规模视觉语言预训练提升图像字幕性能

144 浏览量更新于2024-06-20 收藏 1.26MB PDF 举报

大规模图像字幕的视觉语言预训练方法是当前AI领域的一项重要研究，它专注于通过深度学习技术提升图像字幕生成的准确性和多样性。最近几年，基于视觉语言预训练（VLP）的方法在图像字幕任务上取得了显著的进步，其中关键因素之一就是模型的规模。传统上，许多研究集中在较小规模的预训练Transformer模型（如12或24层），在大约400万张图像上进行训练。本文的创新在于LEMON，一个专门为图像字幕设计的大规模预训练模型。LEMON采用了最先进的VinVL架构，该模型由图像特征提取器和Transformer组成，能够处理从1300万到6.75亿个参数的模型扩展。 VinVL本身就是一个强大的基础，其基础模型已经在Visual Genome、SBU和Conceptual Captions等大型图像-文本数据集上得到训练。 LEMON的数据集尤为独特，它利用了从网络上自动抓取的基于图像alt属性的大量图像-文本对，总量达到了2亿对，具体称为ALT200M1。这使得LEMON能够在更大的数据量上进行预训练，从而更好地理解和捕捉图像内容的多样性。文章深入探讨了模型规模和预训练数据对图像字幕性能的影响，通过一系列细致的分析，揭示了随着模型参数和数据量的增长，性能提升的趋势。此外，研究还特别关注了在大规模噪声数据上的训练策略，这对于实际应用中的鲁棒性至关重要。 LEMON在多个主要的图像字幕基准测试中，如COCO Caption、nocaps和Conceptual Captions上实现了新的性能高度，证明了其在处理各种视觉概念，包括长尾概念时的强大能力。值得注意的是，LEMON甚至可以在无需额外图像数据的情况下，通过零样本学习生成高质量的字幕，显示出其在泛化能力和效率方面的优势。这篇论文不仅介绍了LEMON这一大规模图像字幕预训练模型的构建，还提供了对现有VLP技术在图像字幕任务中缩放行为的深入理解，为今后该领域的研究和发展奠定了坚实的基础。

17982

Unigram

标题长度

unique #unique in 0. 1%尾部平均值±标准品P5%/50%/95%

数据集

#images

（

）

#cap./

图像

[5]

第五话

CC3M [35]

CC12M [4]

ALT200M

（Ours）

0的情况

。

3 .第三章

。

个

。

203

号

，

2641，184

49，638 22，677

、

319

、

284

、

193

、

368

2，067，401 1，167，304

10个

。

44± 2

。

2014

年

10月24日

个

。

2019

年

月

日

十七

岁

17± 1276 6/ 13/ 43

十三

岁

。

2027

年

月

日，

表1. 现有的和我们收集的数据集的统计。CC3M和CC12M中的图像数量是在我们下载时针对有效RGB图像计算的。对一元组

进行计数，并按出现次数从大到小进行排序，以形成每个数据集的分布曲线。我们的数据集具有更多的长尾概念，如

中包含

的一元语法的数量所示

。

1%分布尾部。CLIP [33]和ALIGN [17]中使用的数据集不包括在内，因为我们不知道相应的统计数

据。

SimVLM专注于图像-文本检索，而SimVLM没有研究

其缩放行为w.r.t.预训练数据大小。与它们相比，我们

专注于图像字幕，通过改变数据和模型大小，提供了

一个更全面的研究的缩放行为，并表明，通过使用200

M的图像，我们可以优于SimVLM图像字幕。

比例定律随着大规模预训练模型在语言和视觉领域的

成功，发现这些模型的经验标度律的[18]提出，语言

模型性能在许多数量级上按幂律缩放，数据集大小，

模型大小和训练中使用的计算。[12]进一步研究了自

回归生成建模的标度。除了模型大小，[41]还表明，

模型形状对于从上游预训练到下游微调的有效转移也

很重要。在视觉领域，[47]缩放了一系列在图像分类

任务上评估的视觉Transformer模型。虽然缩放协议已

被研究用于许多NLP和视觉任务，但我们是第一个研

究VLP用于图像字幕的缩放行为，并将多模态

Transformer预训练推向更大规模。在附录中，我们还

提供了一个详细的相关工作，

查看非基于预训练的图像字幕方法。

方法

在本节中，我们在第3.1节中介绍了预训练数据集，

在第3.2节中介绍了模型结构，在第3.3节中介绍了训练

对象。

3.1.

预训练数据集

我们构建了一个数据收集管道来抓取来自互联网的

图像和相关的alt属性，它通常提供图像内容的描述为

了容易地扩大规模，我们遵循图像的自然分布而不重

新平衡，并且仅应用最小的基于规则的过滤。我们保

持图像的长边超过200像素，纵横比小于3。由于有些

替代文本太长，我们用标点符号将它们分开，

图3.我们的预训练数据集ALT 200M中前200个单词的单词

云，不包括停止词，

例如

，a、the、of

等

。

一个含有英文维基百科标题和正文的一元词词汇表我

们删除出现少于

次的unigrams，得到大约

2.5

亿个唯一

unigrams。如果在词汇表中找不到替换文本的任何一

个单字，我们将其删除之后，我们统计所有剩余句子

的频率，并过滤掉一些过于通用的样板句，

例如。

，

库存图片，3D插图，矢量照片。为了隐私起见，我们

使用命名实体识别模型spaCy

来识别人名和地名，并

分别用特殊的标记

“

PERSON

”

和

“

PERSON

”

来替换它

们。最后，我们对所有收集的图像进行重复检查，以

确保它们不与现有的测试集重叠，如COCO，nocaps

和Conceptual Captions。

最终的数据集名为ALT 200M，包含超过

亿张图

像，每张图像对应一个替代文本。图3显示了

200

个最

常见单词的单词云。如表1所示，与 CC12M相比，

ALT 200M多了近

张图像。词汇量几乎翻了一番。

我们观察到，

56%

的一元文法的总和仅为

。

的总发

生率，其特征是罕见的unigrams的非常长的尾巴标题

的平均长度为

。

，比 COCO 字幕数据集（

）。我们还观察到，我们的数据集包含更多的短标

题，只有

或

个uni-gram。这表明字幕的分布从预训练

到微调的转变。

如句点和感叹号，并选择最长的

部分为了过滤掉一些罕见的或拼写错误的单词，

https://github.com/explosion/spaCy

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

LEMON: 大规模视觉语言预训练提升图像字幕性能

探秘CogVLM：视觉语言模型的最新突破

掌握yolov5: 预训练模型与数据集的应用

基于Tensorflow的神经图像字幕生成器

bio_image_caption:生物医学图像字幕

remote-sensing-image-captioning:遥感图像字幕论文的体系结构

FCN 实现图像语义分割

多模态文本图像匹配mutimodal

SG2IM预训练模型版本选择指南

yolov5检测模型与预训练数据解析

YoloV8通用目标检测模型及其预训练文件解读

最新资源