LEMON: 大规模视觉语言预训练提升图像字幕性能

0 下载量 144 浏览量 更新于2024-06-20 收藏 1.26MB PDF 举报
大规模图像字幕的视觉语言预训练方法是当前AI领域的一项重要研究,它专注于通过深度学习技术提升图像字幕生成的准确性和多样性。最近几年,基于视觉语言预训练(VLP)的方法在图像字幕任务上取得了显著的进步,其中关键因素之一就是模型的规模。传统上,许多研究集中在较小规模的预训练Transformer模型(如12或24层),在大约400万张图像上进行训练。 本文的创新在于LEMON,一个专门为图像字幕设计的大规模预训练模型。LEMON采用了最先进的VinVL架构,该模型由图像特征提取器和Transformer组成,能够处理从1300万到6.75亿个参数的模型扩展。 VinVL本身就是一个强大的基础,其基础模型已经在Visual Genome、SBU和Conceptual Captions等大型图像-文本数据集上得到训练。 LEMON的数据集尤为独特,它利用了从网络上自动抓取的基于图像alt属性的大量图像-文本对,总量达到了2亿对,具体称为ALT200M1。这使得LEMON能够在更大的数据量上进行预训练,从而更好地理解和捕捉图像内容的多样性。 文章深入探讨了模型规模和预训练数据对图像字幕性能的影响,通过一系列细致的分析,揭示了随着模型参数和数据量的增长,性能提升的趋势。此外,研究还特别关注了在大规模噪声数据上的训练策略,这对于实际应用中的鲁棒性至关重要。 LEMON在多个主要的图像字幕基准测试中,如COCO Caption、nocaps和Conceptual Captions上实现了新的性能高度,证明了其在处理各种视觉概念,包括长尾概念时的强大能力。值得注意的是,LEMON甚至可以在无需额外图像数据的情况下,通过零样本学习生成高质量的字幕,显示出其在泛化能力和效率方面的优势。 这篇论文不仅介绍了LEMON这一大规模图像字幕预训练模型的构建,还提供了对现有VLP技术在图像字幕任务中缩放行为的深入理解,为今后该领域的研究和发展奠定了坚实的基础。