"多模态大模型综述：从专家到通用助手"

需积分: 0 62 浏览量更新于2023-12-09 15 收藏 55.51MB PDF 举报

本报告是由微软七位华人研究员撰写的一份总结性报告，共有119页。报告主要从目前已经完善的和最前沿的多模态大模型研究方向出发，全面总结了五个具体的研究主题。这五个主题分别是视觉理解、视觉生成、统一视觉模型、LLM加持的多模态大模型和多模态agent。报告的发起人和整体负责人是Chunyuan Li，他是微软雷德蒙德首席研究员，毕业于杜克大学，并且他的最近研究兴趣是在CV和NLP中的大规模预训练。Chunyuan Li负责了报告的开头介绍和结尾总结，以及"利用LLM训练的多模态大模型"这一章的撰写。报告的核心作者共有四位，分别是Zhe Gan, Zhengyuan Yang, Jianwei Yang和Linjie Li。他们分别负责了剩下四个主题章节的撰写。本报告主要介绍了多模态基础模型的发展过程，从专家模型到通用助手的转变。多模态大模型是在视觉和语言等多种模态下进行训练和生成的模型。报告提到了多个重要的研究方向和应用领域，包括图像和视频的理解和生成，统一视觉模型的构建，以及多模态智能体的发展等。在视觉理解方面，报告介绍了通过多模态大模型实现图像和视频的语义理解、目标检测和场景理解等任务。通过训练大规模数据集和迁移学习，研究人员取得了显著的成果。在视觉生成方面，报告介绍了使用多模态大模型生成图像和视频的方法。通过将图像生成和文本生成结合起来，研究人员能够生成具有语义和感知一致性的图像和视频内容。在统一视觉模型方面，报告探讨了如何构建适用于多种视觉任务的统一模型。通过预训练和微调的方式，研究人员提出了一种有效的方法来提高模型的表现和泛化能力。在LLM加持的多模态大模型方面，报告介绍了如何利用LLM（Language as a Latent Space）训练方法来提高多模态大模型的性能。通过将文本和图像进行联合训练，并将语言作为潜在空间，研究人员能够实现更好的模型性能和生成能力。最后，报告还介绍了多模态agent的发展和应用。通过将语言、视觉和行为融合在一起，研究人员开发了多模态agent，可以在不同的任务中具有更好的理解和交互能力。总的来说，本报告对多模态大模型的研究方向和应用领域进行了全面总结，介绍了多个重要的研究主题，并提出了一些关键的创新方法和思路。报告的撰写团队由微软的华人研究员组成，他们的工作为多模态大模型的发展和应用做出了重要贡献。

图 2.5: ImageBind（Girdhar等，2023年）提出通过利用预训练的CLIP模型，将六种模态数

据连接到一个共同的嵌入空间中，从而实现新的紧密对齐和功能。图片来源：Girdhar等

（2023年）。

数量通常以十亿计，而不是以百万计。以这种方式训练的视觉transformer模型的大小通

常在300M（大型）到1B（巨型）之间变化。

– 零样本预测：如图 2.4 (2)和(3)所示，通过将图像分类问题转化为检索任务，并考虑标

签背后的语义，CLIP使零样本图像分类成为可能。它还可以通过其设计用于零样本图

像-文本检索。此外，对齐的图像-文本嵌入空间使得所有传统视觉模型都能够支持开放

词汇，并且已经激发了关于开放词汇目标检测和分割的丰富研究方向 (Li et al., 2022e;

Zhang et al., 2022b; Zou et al., 2023a; Zhang et al., 2023e)。

2.3.2 CLIP Variants

自从CLIP诞生以来，已经有大量后续研究工作致力于改进CLIP模型，如下所述。我们不

打算提供所有方法的综合文献综述，而是专注于一组选定的主题。

数据扩展。数据是CLIP训练的燃料。例如， OpenAI的CLIP是在从Web中挖掘的4亿

个图像-文本对上训练的，而ALIGN使用了一个包含18亿个图像-文本对的专有数据集。

在BASIC ?pham2021combined）中，作者仔细研究了三个维度之间的扩展情况：批次大

小，数据大小和模型大小。然而，这些大规模数据集大多不是公开可用的，并且训练这

样的模型需要大量的计算资源。

在学术环境中，研究人员?li2022elevater）推荐使用数百万个图像-文本对进行模型

预训练，例如CC3M ?sharma2018conceptual）， CC12M ?changpinyo2021conceptual），

YFCC ?thomee2016yfcc100m）。公开可用的相对小规模图像-文本数据集包括SBU ?or-

donez2011im2text）， RedCaps ?desai2021redcaps）和WIT ?srinivasan2021wit）。大规模公

开可用的图像-文本数据集包括Shutterstock ?nguyen2022quality）， LAION-400M ?schuh-

mann2021laion）， COYO-700M ?coyo700m）和LAION-2B ?schuhmann2022laion）等，仅

举几例。例如， LAION-2B ?schuhmann2022laion）已被研究人员用于研究CLIP训练的可

重现的扩展规律?cherti2023reproducible）。

有趣的是，在寻找下一代图像-文本数据集的过程中，DataComp ?gadre2023datacomp）提

出了一种不固定数据集、设计不同算法的方法，而是提议使用固定的CLIP训练方法来选

择和排名数据集。除了为CLIP训练从Web挖掘的成对图像-文本数据外，受Flamingo引入

的交错图像-文本数据集M3W的启发，近期已经有一些努力收集交错图像-文本数据集，

如MMC4 ?zhu2023multimodal）和OBELISC ?laurenccon2023obelisc）等。

模型设计和训练方法。 CLIP 训练方面有了显著的改进。以下是一些代表性的研究。

– 图像塔: 在图像编码器方面，FLIP (Li et al., 2023m) 提出了通过屏蔽来扩展CLIP训练的

方法。通过随机遮盖具有高遮盖比率的图像补丁，并只将可见的补丁编码，就像MAE

(He et al., 2022a)中所示，作者证明了屏蔽可以提高训练效率而不损害性能。该方法可以

Text

Encoder

Image

Encoder

Image Text

Image

Encoder

Text

Decoder

Image

Encoder

Image

(a) CLIP (b) VirTex/SimVLM

Text

Encoder

Text

Decoder

Text

Contrastive loss

Captioning loss

Contrastive loss

Captioning loss

图 2.6: 对于图像编码器的预训练，对比损失和字幕损失的高级比较。 (a) CLIP (Radford et al.,

2021)仅使用对比损失进行预训练，能够实现零样本图像分类，且表现出强大的扩展性。 (b)

VirTex (Desai and Johnson, 2021)仅使用字幕损失进行预训练。SimVLM (Wang et al., 2022g)使

用更大规模的前缀语言建模进行预训练。模型结构类似于多模态语言模型（如GIT (Wang et

al., 2022a)和Flamingo (Alayrac et al., 2022)），但VirTex和SimVLM的目标是从零开始预训练

图像编码器。 (c) CoCa (Yu et al., 2022a)同时使用对比损失和字幕损失进行预训练。模型架

构类似于ALBEF (Li et al., 2021b)，但CoCa目标是从零开始预训练图像编码器，而不是使用

预训练的编码器。

用于所有CLIP训练。 Cao et al. (2023)发现在图像中过滤出包含文本区域的样本可以提

高CLIP的训练效率和鲁棒性。

– 语言塔: 在语言编码器方面，K-Lite（Shen et al. (2022a)）提出使用维基百科中的实体定

义以及原始的替代文本进行对比预训练时使用外部知识的形式。实证表明，使用丰富的

文本描述可以提高CLIP的性能。LaCLIP（Fan et al. (2023a)）表明，通过使用大型语言

模型（例如ChatGPT）对嘈杂且简短的替代文本进行重写可以改善CLIP。

– 解释性: 图像表示通常是一个稠密的特征向量。为了提升共享的图像-文本嵌入空间的解

释性，STAIR （Chen等，2023年）提出将图像和文本映射到一个高维稀疏的嵌入空间，

其中稀疏嵌入中的每个维度都是大字典中的一个（子）词，预测的非负标量对应于与该

标记相关联的权重。作者表明，STAIR相比原始CLIP取得了更好的性能，并提高了解释

性。

– 更多的模态: 对比学习的思想是通用的，不仅局限于图像和文本模态。例如，如图 2.5

所示， ImageBind (Girdhar et al., 2023) 提出将六种模态编码到一个共同的嵌入空间

中，包括图像、文本、音频、深度、热像和IMU模态。在实践中，使用预训练的CLIP模

型，并在训练期间保持固定，这意味着其他模态编码器被学习以对齐到CLIP嵌入空间，

从而使训练过的模型可以应用于新的应用，如音频到图像生成和多模态LLM (例如，

PandaGPT (Su et al., 2023))。

目标函数。单独使用对比损失的效果很强大，尤其是当模型扩展时。然而，也可以应用

其他目标函数。

– 细粒度监督：通过学习单词-补丁对齐，可以使监督更加细粒度，而不是使用简单的点

积计算图像-文本对的相似度。在FILIP (Yao et al., 2022b)中，作者首先通过计算标记之

间的相似度来计算损失，然后通过最大池化对矩阵进行聚合以进行单词-补丁对齐。

– 对比式字幕生成器: 除了对比学习分支外，CoCa (Yu et al., 2022a)（见图 2.6(c)）还添加

了生成损失以提高性能，并允许需要多模态融合（如图像字幕生成和视觉问答）的新功

能。这与许多基于融合编码器的视觉语言模型（如ALBEF (Li et al., 2021b)）类似，但关

(a) SimCLR

(b) SimSiam (c) DINO

图 2.7: 对于自监督图像表示学习， SimCLR (Chen et al., 2020a)、 SimSiam (Chen and

He, 2021)和DINO (Caron et al., 2021)的综述。 SimCLR使用对比学习进行模型训练，

而SimSiam和DINO则探索非对比学习方法。图像来源： Chen et al. (2020a)，Chen and He

(2021)，Caron et al. (2021)。

键区别在于CoCa旨在从头开始学习一个更好的图像编码器。有关多模态融合的详细讨

论在第 2.6.1节中。

– 仅使用描述损失: 仅使用描述损失来预训练图像编码器怎么样呢？实际上，在CLIP问世

之前，VirTex（图 2.6(b)所示）和ICMLM（(Sariyildiz et al., 2020)）都使用单一的图像

描述损失来学习编码器，但规模非常小（限于COCO图像），性能较差。CLIP也表明对

比度预训练是更好的选择。在SimVLM（(Wang et al., 2022g)）中，作者发现学习到的图

像编码器不如CLIP竞争力强。然而，在最近的研究Cap/CapPa（(Tschannen et al., 2023)）

中，作者认为图像描述者也是可扩展的视觉学习者。描述也可以展现相同甚至更好的可

扩展性行为。

– 用于语言-图像预训练的Sigmoid损失函数: Zhai et al. (2023)与标准的具有softmax规范化

的对比学习不同，它使用了一种简单的成对sigmoid损失函数来进行图像-文本预训练，

该损失函数操作于图像-文本对之间，并不需要全局视角下的成对相似性进行规范化。

作者表明，使用简单的sigmoid损失函数也可以在零样本图像分类上取得强大的性能。

2.4 Image-Only Self-Supervised Learning

现在，我们将注意力转向仅限图像的自监督学习，并将讨论划分为三个部分：（i）对比学

习，（ii）非对比学习和（iii）遮蔽图像建模。

2.4.1 Contrastive and Non-contrastive Learning

对比学习。对比学习的核心思想 (Gutmann and Hyv

arinen, 2010; Arora et al., 2019) 是促进

正样本对和排斥负样本对。除了在CLIP中使用之外，对比学习也是自监督图像表示学习

中的一个流行概念 (Wu et al., 2018; Ye et al., 2019b; Tian et al., 2020a; Chen et al., 2020a; He

et al., 2020; Misra and Maaten, 2020; Chen et al., 2020c)。对比目标被称为InfoNCE损失 (Oord

et al., 2018)，已经显示出可以解释为最大化数据不同视图间的互信息的下界 (Hjelm et al.,

2018; Bachman et al., 2019; Henaff, 2020)。

简而言之，所有基于图像的对比学习方法（例如SimCLR (Chen et al., 2020a)，见图 2.7(a)，

MoCo (He et al., 2020)，SimCLR-v2 (Chen et al., 2020b)，MoCo-v2 (Chen et al., 2020c)）共

享相同的高级框架，如下所述。

– 给定一幅图像，采用两种独立的数据增强方法；

图 2.8: BEiT预训练在图像多模态模型中的概述。图像来源：Bao et al. (2022)。

– 一个基础编码器后面是一个项目头，该项目头通过对比损失进行训练以最大化一致性

（即它们是否来自相同的图像）。

– 项目负责人被转移到下游任务中。

然而，对比学习的一个注意点是需要大量的负样本。这些样本可以保存在一个记忆库中

(Wu et al., 2018)，或直接来自当前批次 (Chen et al., 2020a)，这暗示了对大批次大小的

要求。 MoCo (He et al., 2020)维护一个负样本队列，并将其中一个分支转换为动量编码

器，以提高队列的一致性。最初，对比学习主要是用来预训练卷积网络的。然而，随着

视觉Transformer（ViT）的日益流行，研究人员也开始探索它在ViT上的应用 (Chen et al.,

2021b; Li et al., 2021a; Xie et al., 2021)。

非对比学习。最近的自监督学习方法不依赖于负样本。负样本的使用被不对称的架构

(e.g.，BYOL (Grill et al., 2020), SimSiam (Chen and He, 2021))、维度去相关 (e.g.，Barlow

twins (Zbontar et al., 2021), VICReg (Bardes et al., 2021), Whitening (Ermolov et al., 2021))、和

聚类 (e.g.，SWaV (Caron et al., 2020), DINO (Caron et al., 2021), Caron et al. (2018); Amrani

et al. (2022); Assran et al. (2022); Wang et al. (2023b)) 等方法所取代。

例如，如图 2.7(b) 所示，SimSiam (Chen and He, 2021)通过相同的编码器网络处理了单个

图像的两个增强视图。然后，在一个视图上应用了一个预测MLP，而在另一个视图上应用

了一个停梯度操作。该模型的主要目标是最大化两个视图之间的相似性。值得注意的是，

SimSiam既不依赖负对，也不依赖动量编码器。

另一个值得注意的方法是DINO (Caron et al., 2021)，如图 2.7(c) 所示，它采用了一种不同

的方法。DINO通过将输入图像的两个不同的随机变换输入到学生网络和教师网络中。两

个网络具有相同的架构但具有不同的参数。教师网络的输出通过对批次进行均值计算而

居中。每个网络输出一个特征向量，并在特征维度上应用温度softmax进行归一化。这些

特征之间的相似性使用交叉熵损失进行度量。此外，还应用了一个停梯度操作符，确保梯

度只在学生网络中传播。此外，DINO使用学生网络参数的指数移动平均来更新教师网络

的参数。

(a) MAE

(b) MaskFeat

图 2.9: 多模态模型(Multimodal Models)中使用原始像素值进行MIM训练的Masked Autoen-

coder (MAE)的示意图 (He et al., 2022a)，以及使用不同特征作为目标的MaskFeat (Wei et

al., 2021)。手工设计的特征描述符HOG在性能和效率方面表现出色。图片来源：He et al.

(2022a)和Wei et al. (2021)。

2.4.2 Masked Image Modeling

屏蔽语言建模（Masked Language Modeling） (Devlin et al., 2019)是一种强大的预训练任务，

它彻底改变了自然语言处理研究的方式。为了效仿BERT预训练在自然语言处理中的成功，

开创性的工作BEiT (Bao et al., 2022)提出了进行屏蔽图像建模（Masked Image Modeling，

MIM）以预训练图像多模态变压器模型。具体来说，如图 2.8所示，

– 图像分词器：为了进行掩码标记预测，需要使用图像分词器将图像划分为离散的视觉

标记，以便将这些标记视为额外的语言标记。一些众所周知的图像分词器学习方法包

括VQ-VAE (van den Oord et al., 2017)，VQ-VAE-2 (Razavi et al., 2019)，VQ-GAN (Esser

et al., 2021)，ViT-VQGAN (Yu et al., 2021)等等。这些图像分词器也被广泛用于自回归图

像生成，如DALLE (Ramesh et al., 2021a)，Make-A-Scene (Gafni et al., 2022)，Parti (Yu et

al., 2022b)等等。

– 掩码后预测: MIM的思想在概念上很简单：模型接受损坏的输入图像（例如，通过对图

像块进行随机掩码），然后预测掩码内容的目标（例如，BEiT中的离散可视令牌）。正

如在iBOT (Zhou et al., 2021)中讨论的那样，这个训练过程可以理解为图像分词器（作为

教师）和BEiT编码器（作为学生）之间的知识蒸馏，而学生只能看到图像的部分内容。

目标。在Peng et al. (2022b)中，作者提供了MIM的统一视角：教师模型、规范化层、学

生模型、MIM头和适当的损失函数。所有这些模型中最显著的区别在于重构目标，可以是

像素、离散图像标记、预训练模型的特征以及动量更新教师的输出。具体而言，这些目标

可以粗略地分为两类。

– 以低层像素/特征为目标: MAE （He等人， 2022年）， SimMIM （Xie等人， 2022年），

ConvMAE（Gao等人，2022年），HiViT（Zhang等人，2022年）和GreenMIM（Huang等

人，2022年）都使用原始或归一化的像素值作为MIM的目标。这些方法通常探索了使用

普通的视觉变换器（Dosovitskiy等人，2020年）或Swin变换器（Liu等人，2021年）作为

骨干架构。

MaskFeat（Wei等人，2021年）将方向梯度直方图（HOG）特征描述符作为MIM的目标

（见图 2.9(b)）。同时，Ge

-AE（Liu等人，2023年）使用从二维离散傅里叶变换得到的

像素值和频率信息作为目标。以MAE（He等人，2022年）为例（图 2.9(a)），作者表明

剩余126页未读，继续阅读

Java要加糖吗

粉丝: 1
资源: 1

"多模态大模型综述：从专家到通用助手"

大模型综述（中文版）- 研究细节非常详细

大模型综述来了！一文带你理清全球AI巨头的大模型进化史.pdf

大模型-AI大模型总体概述.pdf

【多模态大模型综述】【中文精细翻译】multimodal foundation models:

两篇多模态大模型综述论文

多模态大语言模型综述来啦！一文带你理清多模态关键技术

多模态大语言模型综述来啦！一文带你理清多模态关键技术.pdf

微软发布多模态大模型最全综述！.pdf

PaddleMIX基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖多模态理解、多模态生成等丰富的多模态任务 它提供开箱即用的开发体验，同时支持灵活定制，高效完成各类多模态大模型任务

多模态大模型了解-cv大模型-视频大模型

最新资源

PaddleMIX基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖多模态理解、多模态生成等丰富的多模态任务它提供开箱即用的开发体验，同时支持灵活定制，高效完成各类多模态大模型任务