FLAVA：一种基础的语言和视觉对齐模型

87 浏览量更新于2023-10-25 收藏 13.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

multimodal and unimodal pretraining datatextimage-textFLAVA for multi-domain joint pretrainingvisual(e.g. ImageNet)language(e.g. GLUE)different capabilities, then the following limitation shouldbe overcome: a true foundation model in the vision and lan-guage space should not only be good at vision, or language,or vision-and-language problems–it should be good at allthree, at the same time.Combining information from different modalities intoone universal architecture holds promise not only because itis similar to how humans make sense of the world, but alsobecause it may lead to better sample efﬁciency and muchricher representations.In this work, we introduce FLAVA, a foundational lan-guage and vision alignment model that explicitly targetsvision, language, and their multimodal combination all atonce. FLAVA learns strong representations through jointpretraining on both unimodal and multimodal data while en-compassing cross-modal “alignment” objectives and multi-modal “fusion” objectives. We validate FLAVA by applyingit to 35 tasks across vision, NLP, and multimodal domainsand show impressive performance. An important advantageof our approach is that it was trained on a corpus of openlyavailable datasets that is an order of magnitude smaller thandatasets used in comparable models. Our models and codeare available in https://flava-model.github.io/.156380FLAVA：一种基础语言和视觉对齐模型0Amanpreet Singh * Ronghang Hu * Vedanuj Goswami * GuillaumeCouairon Wojciech Galuba Marcus Rohrbach Douwe Kiela Facebook AIResearch (FAIR)0摘要0最先进的视觉和视觉语言模型依赖于大规模的视觉语言预训练，以在各种下游任务中获得良好的性能。通常，这些模型往往是跨模态（对比）或多模态（具有早期融合），但不是两者兼具；而且它们通常只针对特定的模态或任务。一个有希望的方向是使用一个单一的整体通用模型，作为“基础”，同时针对所有模态——一个真正的视觉和语言基础模型应该在视觉任务、语言任务和跨模态和多模态视觉和语言任务上表现出色。我们将FLAVA引入为这样的模型，并展示了在涵盖这些目标模态的广泛任务中的令人印象深刻的性能。01. 引言0大规模的视觉和语言转换器的预训练在各种下游任务中取得了令人印象深刻的性能提升。特别是，对比方法，如CLIP [82]和ALIGN[50]表明，自然语言监督可以为迁移学习提供非常高质量的视觉模型。然而，纯粹的对比方法也存在重要的缺点。它们的跨模态性质使得它们不容易在需要同时处理两种模态的多模态问题上使用。它们需要大规模的语料库，而CLIP和ALIGN都没有向研究界提供这些语料库，并且其细节仍然神秘，尽管这些数据集的构建存在众所周知的问题[9]。相比之下，最近的文献中充斥着明确针对多模态视觉和语言领域的转换器模型，这些模型具有早期融合和跨模态自注意力。然而，对于这些情况，模型的单模态仅视觉或仅语言性能往往要么被忽略，要么完全被忽视。如果我们的领域的未来在于广义的“基础模型”[10]或具有许多不同能力的“通用”转换器[72]，那么应该克服以下限制：一个真正的视觉和语言基础模型不仅应该在视觉、语言或视觉和语言问题上表现出色，而且应该同时在这三个方面表现出色。将不同模态的信息结合到一个通用的架构中不仅有望类似于人类对世界的理解方式，而且可能导致更好的样本效率和更丰富的表示。在这项工作中，我们引入了FLAVA，一种基础的语言和视觉对齐模型，它明确地同时针对视觉、语言及其多模态组合。FLAVA通过对单模态和多模态数据进行联合预训练来学习强大的表示，同时包括跨模态的“对齐”目标和多模态的“融合”目标。我们通过将其应用于视觉、NLP和多模态领域的35个任务来验证FLAVA，并展示了令人印象深刻的性能。我们的方法的一个重要优势是它是在一个比可比模型使用的数据集小一个数量级的公开可用数据集上进行训练的。我们的模型和代码可在https://flava-model.github.io/上获得。0* 同等贡献。0不配对的0不配对的图像0对0（全局对比，MMM，MIM，MLM，...）0识别0多模态推理（例如VQA）0理解0图1.我们提出了FLAVA，一种语言和视觉对齐模型，可以从多模态（图像-文本对）和单模态数据（不配对的图像和文本）中学习强大的表示，并可以应用于共同的Transformer模型架构下的三个领域的广泛任务（视觉识别、语言理解和多模态推理）。156390方法0多模态预训练数据预训练目标目标模态0公共数据集大小贡献 ITM 掩码单模态 V CV&L MV&L L0CLIP [82] � 网络图像文本 4亿 � – – – � � – – ALIGN [50] � JFT 18亿 � – – – � � – – SimVLM [107] � JFT 18亿 – – Pre�xLM CLM * � � � UniT[43] – 无 – – – – – * – � � VinVL [115] � 组合 900万 � – MLM – – � � – ViLT [54] � 组合 1000万 – � MLM – – � � – ALBEF [62] � 组合500万 � � MLM – – � � – FLAVA（我们的） � PMD（Tbl. 2） 7000万 � � MMM MLM+MIM � � � �0表1. 不同模态的最新模型的比较。CV&L和MV&L代表跨模态和多模态的视觉和语言。*表示该模态部分被针对（SimVLM [107]和UniT[43]分别包括ImageNet和目标检测）。02. 背景0自监督预训练范式在各个领域中取得了显著的进展，从自然语言处理[6, 17-19, 23, 24, 28, 30, 61, 68, 73,82-84]，到计算机视觉[2, 5, 8, 12, 31, 33, 37, 59, 75, 102,114]，到语音识别[4, 22, 42, 67,116]，以及视觉和语言理解等多模态领域[12, 16, 34,43-45, 50, 62-65, 70, 71, 93, 99, 100, 107, 113, 115,117]。尽管这一进展是基于在transformers之上的自监督学习的共享方法，但我们仍然缺乏在所有这些不同领域和模态中同时工作良好的基础模型[10]的重大进展。表1展示了关于我们FLAVA在多个方面上与流行和最新模型的广泛比较。最近的工作要么（i）专注于单一目标领域[54,115]；（ii）针对特定的单模态领域以及联合视觉和语言领域[50,82]；或者（iii）针对所有领域，但只针对特定领域中的一组任务。SimVLM [107]、ALIGN [50]和CLIP[82]通过在大型私有配对的图像和文本语料库上训练基于transformer的模型，展示了令人印象深刻的增益，而不是之前的视觉和语言最新技术，如VinVL [115]和ViLT[54]，它们是在较小的公共配对数据集[15, 57, 66, 77,90]上训练的。一般来说，视觉和语言空间中的模型可以分为两类：（i）双编码器，其中图像和文本分别进行编码，然后通过一个浅层交互层进行下游任务[50,82]；和（ii）融合编码器，其自注意力跨越模态[16, 34, 44,45, 62-65, 70, 71, 99, 100, 107, 115,117]。双编码器方法适用于单模态[105,106]和跨模态检索任务[66,80]，但它们缺乏融合通常导致它们在涉及视觉推理和问题回答的任务上表现不佳[39, 53, 91,94]，而基于融合编码器的模型则在这些任务上表现出色。在融合编码器类别中，还可以进一步区分模型是否使用单个transformer进行早期和无约束的模态融合（例如VisualBERT、UNITER、VLBERT、OSCAR）。0[16, 63, 65, 99,117]）或者仅在特定的共同注意力transformer层中允许交叉注意力，同时具有一些模态特定的层（例如LXMERT、ViLBERT、ERNIE-ViL [70, 71, 100,113]。不同模型之间的另一个区别在于所使用的图像特征，从区域特征[63, 70, 115]，到补丁嵌入[54, 62,107]，到卷积或网格特征[46,51]。双编码器模型使用对比预训练来预测N个配对组合中的正确组合。另一方面，融合编码器受到单模态预训练方案（如掩码语言建模[28,68]，掩码图像建模[5]和因果语言建模[83]）的启发，已经探索了许多预训练任务：（i）用于V&L的掩码语言建模（MLM），其中使用配对的图像来预测标题中的掩码词[63, 70,100]；（ii）pre�xLM，其中在图像的帮助下，模型试图完成一个标题[26,107]；（iii）图像-文本匹配，模型预测给定的图像和文本是否匹配；以及（iv）掩码区域建模，模型回归到图像特征或预测其对象类别。与之前的工作相比，我们的模型FLAVA在视觉、语言和视觉-语言领域的各种任务上工作。FLAVA使用一个共享的主干，该主干仅在公开可用的公共配对数据上进行了预训练。FLAVA将双编码器和融合编码器方法结合到一个整体模型中，可以使用我们的新颖的FLAVA预训练方案进行预训练，该方案利用了两个类别的预训练目标。FLAVA旨在能够利用非配对的单模态数据以及多模态配对数据，从而产生一个可以处理单模态和检索任务以及跨模态和多模态视觉-语言任务的模型。03. FLAVA：一种基础语言和视觉对齐模型0本工作的目标是学习一种基础的语言和视觉表示，使得单模态视觉和语言理解以及多模态推理都能在一个预训练模型中实现。我们展示了如何通过一个简单而优雅的架构来实现这一目标。hCLS,M...............hCLS,IhCLS,Tbased on transformers [103] (Sec. 3.1), which incorporatesmultimodal pretraining losses on image-text data (Sec. 3.2)as well as unimodal pretraining losses on unimodal data(Sec. 3.3). We discuss additional critical modeling insightsin Sec. 3.4.Finally, we demonstrate that our pretrainedmodels can be successfully applied to a wide range of im-age, text, and multimodal tasks through both zero-shot andﬁne-tuning evaluations.156400L MIM L MLM0L GC0令人讨厌的恶搞图片0多模态任务头0MNLI0自然语言处理任务头0ImageNet0视觉任务头0...多模态编码器0文本编码器图像编码器0输入文本输入图像0这只猫太棒了！它0正在古老的坟墓上进行日常清理，好像在说0“我在这里是老板！”0[CLS_I]0[CLS_T] ...0补丁10补丁P0单词10单词S0图2.我们FLAVA模型的概述，其中图像编码器transformer用于捕捉单模态图像表示，文本编码器transformer用于处理单模态文本信息，多模态编码器transformer以编码的单模态图像和文本作为输入，并整合它们的表示以进行多模态推理。在预训练期间，分别在图像和文本编码器上应用遮蔽图像建模（MIM）和遮蔽语言建模（MLM）损失，对单个图像或文本片段进行训练，而在配对的图像-文本数据上使用对比、遮蔽的多模态建模（MMM）和图像-文本匹配（ITM）损失。对于下游任务，分别在图像、文本和多模态编码器的输出上应用分类器头进行视觉识别、语言理解和多模态推理任务。03.1.模型架构0FLAVA模型的架构如图2所示。该模型包括一个图像编码器用于提取单模态图像表示，一个文本编码器用于获取单模态文本表示，以及一个多模态编码器用于融合和对齐图像和文本表示以进行多模态推理，所有这些都基于transformers。图像编码器。我们采用ViT架构[31]作为图像编码器。给定一个输入图像，我们将其调整为固定的图像大小，并将图像分割成补丁，然后将其线性嵌入并馈送到transformer模型中（连同位置嵌入和额外的图像分类标记[CLSI]）。图像编码器的输出是一个图像隐藏状态向量的列表{hI}，每个向量对应一个图像补丁，以及一个额外的hCLS，I对应于[CLSI]。我们使用ViT-B/16架构作为我们的图像编码器。文本编码器。给定一个输入的文本片段（例如一个句子或一对句子），我们首先对其进行分词和嵌入，得到一个单词向量列表，然后我们对单词向量应用transformer模型，将其编码为一个隐藏状态向量列表{h T}，其中包括用于文本分类的hCLS，T对应于[CLST]标记。重要的是，与之前的工作不同，我们的文本编码器具有完全相同的架构。0我们将FLAVA模型的视觉编码器和文本编码器都采用相同的ViT架构（但参数不同），即ViT-B/16。多模态编码器。我们使用一个单独的transformer来融合图像和文本的隐藏状态。具体而言，我们对{h I}和{hT}中的每个隐藏状态向量应用两个学习的线性投影，并将它们连接成一个单一的列表，其中添加了一个额外的[CLSM]标记，如图2所示。这个连接的列表被馈送到多模态编码器transformer（也基于ViT架构），允许在投影的单模态图像和文本表示之间进行交叉注意力，并融合这两种模态。多模态编码器的输出是一个隐藏状态的列表{hM}，每个隐藏状态对应于{h I}或{hT}中的一个单模态向量（以及一个向量hCLS，M对应于[CLSM]）。应用于下游任务。FLAVA模型可以直接应用于单模态和多模态任务。对于视觉识别任务（例如ImageNet分类），我们在图像编码器的hCLS，I之上应用一个分类器头（例如线性层或多层感知机）。类似地，对于语言理解和多模态推理任务，我们分别在文本编码器的h CLS，T或多模态编码器的hCLS，M之上应用一个分类器头。我们只对FLAVA模型进行一次预训练，并在每个下游任务上单独进行评估。有关微调、线性和零样本评估的更多细节，请参阅补充材料。03.2. 多模态预训练目标0我们的目标是通过对多模态数据（成对的图像和文本）进行预训练来获得强大的表示156410以及单模态数据（不成对的图像或文本）。FLAVA预训练包括以下多模态目标。全局对比（GC）损失。我们的图像-文本对比损失类似于CLIP[82]。给定一批图像和文本，我们最大化匹配的图像和文本对之间的余弦相似度，并最小化不匹配对之间的余弦相似度。这通过将每个hCLS，I和hCLS，T线性投影到嵌入空间中，然后进行L2归一化、点积和由温度缩放的softmax损失来实现。大型模型通常使用多个GPU数据并行训练，其中批次中的样本被分割到不同的GPU上。在收集图像和文本对比目标的嵌入时，开源的CLIP实现[48]仅将对比损失的梯度反向传播到执行点积的本地GPU上的嵌入。相比之下，通过补充材料中的实验证明，与仅在本地进行反向传播相比，通过多个GPU进行全局反向传播可以获得明显的性能提升。我们将我们的损失称为“全局对比”LGC，以区别于“局部对比”方法。掩蔽多模态建模（MMM）。虽然之前的一些视觉-语言预训练方法（例如[63]）专注于通过从多模态输入中重构掩蔽的标记来对文本模态进行掩蔽建模，但其中大多数不直接涉及在图像模态上以端到端的方式对图像像素级别进行掩蔽学习。在这里，我们引入了一种新颖的掩蔽多模态建模（MMM）预训练目标LMMM，它对图像块和文本标记进行掩蔽，并同时处理两种模态。具体而言，给定图像和文本输入，我们首先使用预训练的dVAE分词器[88]对输入图像块进行分词，该分词器将每个图像块映射到类似于单词字典的视觉码本中的索引（我们使用与[5]中相同的dVAE分词器）。然后，我们根据BEiT[5]的方法替换一部分图像块，根据BERT[28]的方法替换15%的文本标记，使用特殊的[MASK]标记。然后，我们从多模态编码器的输出{hM}中应用多层感知机来预测被掩蔽的图像块的视觉码本索引或被掩蔽的文本标记的词汇索引。这个目标可以看作是多模态掩蔽语言建模的扩展，它在图像方面加入了掩蔽。在我们的实验中，我们发现我们的MMM预训练在对比损失预训练之上以及之外都能带来改进，特别是对于VQA等多模态下游任务。请注意，我们在图像块和文本标记上应用全局对比损失，而不进行任何掩蔽，这些损失通过图像和文本编码器分别传递。0图像-文本匹配（ITM）。最后，我们根据先前的视觉-语言预训练文献[16，70，100]添加了图像-文本匹配损失LITM。在预训练过程中，我们输入包含匹配和不匹配的图像-文本对的一批样本。然后，在多模态编码器的hCLS，M之上，我们应用一个分类器来判断输入的图像和文本是否相匹配。03.3. 单模态预训练目标0尽管第3.2节中的目标允许在成对的图像和文本数据上对FLAVA模型进行预训练，但绝大多数数据集（例如图像的ImageNet和文本的CC-News）都是单模态的，没有来自其他模态的成对数据。为了高效地学习适用于各种下游任务的表示，我们还希望利用这些数据集并将单模态和不对齐的信息纳入我们的表示中。在这项工作中，我们通过以下方式引入来自这些单模态数据集的知识和信息：1）在单模态数据集上预训练图像编码器和文本编码器；2）在单模态和多模态数据集上联合预训练整个FLAVA模型；或者3）从预训练的编码器开始，然后进行联合训练的组合。当应用于独立的图像或文本数据时，我们采用掩蔽图像建模（MIM）和掩蔽语言建模（MLM）损失，分别在图像和文本编码器上进行，如下所述。0遮蔽图像建模（MIM）。在单模态图像数据集上，我们使用矩形块状遮蔽的方式对一组图像块进行遮蔽，并从其他图像块中重构它们。首先，使用预训练的dVAE分词器[88]（与第3.2节中的MMM目标中使用的分词器相同）对输入图像进行分词，然后在图像编码器输出{hI}上应用分类器，以预测被遮蔽块的dVAE标记。0遮蔽语言建模（MLM）。我们在文本编码器之上应用了遮蔽语言建模损失[28]，以在独立的文本数据集上进行预训练。输入中的一部分（15%）文本标记被遮蔽，并使用一个分类器在单模态文本隐藏状态输出{h T}上从其他标记中重构。0编码器从单模态预训练中初始化。我们使用三种数据来源进行预训练：单模态图像数据（ImageNet-1K[89]）、单模态文本数据（CCNews[68]和BookCorpus[118]）以及多模态图像-文本配对数据（第3.5节）。我们首先使用MLM目标在单模态文本数据集上对文本编码器进行预训练。对于图像编码器的预训练，我们尝试了不同的方式：在单模态图像数据集上使用MIM或DINO目标[13]对图像编码器进行预训练，然后在单模态和多模态数据集上进行联合训练。尽管如此，我们在实验中发现后者效果很好，尽管...156420近距离看一个放在桌子上的披萨，后面有一杯苏打水。0COCO0Typocerusbalteatus，亚科：花长角象属0SBU字幕0篮子13的前视图，从篮子前面的人行道上拍摄。0CC12M本地化叙述0这个女人正在烧烤架前面的一个器具上触摸。0一个联想笔记本正在重新启动0Visual Genome0RedCaps0印度的Deigdoh瀑布0在Muse Nissim deCamondo的厨房里0YFCC筛选后的数据0穿着绿色夏季连衣裙的跳舞女孩插图0图3. 我们预训练数据集的各个子集的代表性示例（详见第3.5节）。0在初始化后切换到图像的MIM目标（更多细节请参见补充材料）。然后，我们使用两个相应的单模态预训练编码器初始化整个FLAVA模型，或者在从头开始训练时随机初始化。对于预训练，我们始终随机初始化多模态编码器。0联合单模态和多模态训练。在对图像和文本编码器进行单模态预训练之后，我们使用轮询抽样的方式联合训练整个FLAVA模型，使用三种类型的数据集。在每个训练迭代中，我们根据经验确定的抽样比例选择其中一个数据集，并获取一批样本。然后，根据数据集类型，我们对图像数据应用单模态的MIM，对文本数据应用单模态的MLM，或者对图像-文本对应用第3.2节中的多模态损失（对比损失、MMM和ITM）。03.4. 实现细节0我们发现优化器的超参数在有效的预训练中起着关键作用。大批量大小、大权重衰减和长的预热对于防止在大学习率下发散都非常重要（我们在预训练任务中使用了8,192批量大小、1e-3学习率、0.1权重衰减和10,000次迭代的预热，以及AdamW优化器[55,69]）。此外，ViT变换器架构（在多头注意力之前而不是之后应用层归一化[3]）在大学习率下为文本编码器提供了更强大的学习能力，而BERT[28]变换器架构则没有。FLAVA使用开源的MMF[92]和fairseq[78]库进行实现。我们使用Fully-Sharded Data Parallel（FSDP）[85,86]以及完全FP16精度进行训练，除了层归一化[3]以减少GPU内存消耗。03.5. 数据：公共多模态数据集（PMD）0为了进行多模态预训练，我们构建了一个由公开可用的图像-文本数据源组成的语料库，如表2所示，并在图3中给出了示例。文本-图像对的总数为70M，包括68M个唯一图像，平均标题长度为12.1个词。对于YFCC100M数据集[101]，我们通过丢弃非英语标题并仅保留包含两个以上词的标题来过滤图像-文本数据。我们首先考虑0#图像-文本对平均文本长度0COCO [ 66 ] 0.9M 12.4 SBU Captions [ 77 ] 1.0M 12.1 LocalizedNarratives [ 81 ] 1.9M 13.8 Conceptual Captions [ 90 ] 3.1M10.3 Visual Genome [ 57 ] 5.4M 5.1 Wikipedia Image Text [ 97 ]4.8M 12.8 Conceptual Captions 12M [ 14 ] 11.0M 17.3 RedCaps [ 27 ] 11.6M 9.5 YFCC100M [ 101 ]，过滤后 30.3M 12.70总计 70M 12.10表2.FLAVA多模态预训练中使用的公共多模态数据集（PMD），包括公开可用的数据集，总共包含70M个图像和文本对。0如果图像的 description字段无法通过我们的过滤器，我们会考虑 title字段。除此之外，我们没有进行任何额外的过滤。重要的是，这个语料库完全由开放数据集组成，其他研究人员可以自由获取，促进了可重复性，并为社区的未来工作提供了可能。04. 实验0我们在视觉、语言和多模态任务上评估了FLAVA。对于视觉任务，我们评估了22个常见的视觉任务。对于NLP，我们评估了GLUE[106]基准测试中的8个任务。对于多模态任务，我们评估了VQAv2[39]、SNLI-VE[111]、HatefulMemes[53]以及Flickr30K[80]和COCO[66]的图像和文本检索。我们将我们的联合预训练方法（表3和4中的FLAVA）与其他设置进行比较，涵盖了35个不同的任务。我们报告了NLP、视觉和多模态任务的平均性能，以及表3中所有三种模态的宏平均值，还在表4中详细说明了每个任务的性能。0完整的FLAVA预训练取得了最佳结果。表3显示了FLAVA的基线和不同的消融设置，包括：使用单模态MIM和MLM损失训练的模型，仅使用图像-文本对比损失训练的FLAVAC，仅在多模态数据上训练的FLAVAMM，没有单模态初始化的模型，以及完整模型（每个设置在下面的段落中详细说明）。第6行的完整FLAVA模型在NLP、视觉和多模态任务的平均性能上优于所有其他设置。6 FLAVA78.1979.4469.9275.85156430视觉 NLP 多模态宏平均方法平均平均平均平均01 MIM 57.46 – – 19.15 2 MLM – 71.55 – 23.85 3 FLAVA C 64.8079.14 66.25 70.06 4 FLAVA MM 74.22 79.35 69.11 74.23 5 FLAVA无单模态初始化 75.55 78.29 67.32 73.720表3.我们的完整FLAVA预训练（第6行）在视觉、语言和多模态任务上取得了最佳平均分数，与消融实验相比。第1到第4行是在PMD上预训练，而第5和第6行还涉及单模态IN-1k、CCNews和BookCorpus数据集。0FLAVA中的有效全局对比损失。我们接下来逐步剖析我们的模型（表4）。我们首先使用仅全局对比损失LGC在第3.2节的多模态数据上训练了FLAVA的受限版本，称为FLAVAC（第3列）。这个受限设置在概念上类似于CLIP[82]模型，也涉及对比损失，我们将其与在相同PMD数据上使用相同的ViT-B/16图像编码器训练的CLIP模型进行比较（使用[48]中的开源实现），在第7列中表示为CLIP。通过比较第3列和第7列，我们发现FLAVAC在所有视觉、语言和多模态领域都优于CLIP。这可以归因于FLAVA的不同模型细节（例如，768个文本编码器隐藏大小而不是512）和在第3.2节中提到的在所有GPU工作器上进行全局反向传播。在更详细的分析中，我们发现后者仅在额外的计算开销很小的情况下，将我们在视觉、NLP和多模态任务上的宏平均值提高了+1.65%，这表明对比损失中的全局反向传播实现对于有效的预训练至关重要。0MMM和ITM目标有益于多模态任务。接下来，我们将第3.2节中的其他多模态目标（LMMM和LITM）与LGC一起应用于我们的预训练，结果在表4第4列中标记为FLAVAMM。与仅具有对比损失LGC的FLAVAC相比（第3列与第4列），这种设置将多模态平均分数提高了+2.86％，NLP平均分数提高了+9％，并且视觉平均分数略微提高了+0.3％。我们还将FLAVAMM与另外两个基准设置进行了比较-FLAVA模型分别在PMD的图像或文本上仅使用单模态MIM或MLM损失进行训练，这两个基准在表4的第1列和第2列中显示，它们在很大程度上被FLAVAMM超越。这些结果表明，组合的多模态目标（对比、MMM、ITM）使FLAVA能够学习到强大的单模态和多模态下游任务的表示。0我们通过在其图像和文本编码器的输出向量的连接上应用分类器（详见补充材料）来对VQAv2、SNLI-VE和HM等多模态下游任务进行CLIP的微调。0联合单模态和多模态预训练有助于自然语言处理。对于完整的FLAVA预训练，我们引入了来自ImageNet-1k（IN-1k）的单模态图像数据和来自CCNews和BookCorpus（BC）的文本数据。在这种设置下，我们在PMD数据批次上应用FLAVAMM损失，在IN-1k单模态图像数据上应用MIM损失，在CCNews文本数据上应用MLM损失，详见表4第5列。与仅进行多模态预训练的第4列的FLAVAMM相比，这种联合单模态和多模态预训练将NLP平均分数从74.22提高到75.55，这表明来自CCNews和BookCorpus的额外文本数据通过MLM目标有益于语言理解。然而，我们还观察到从第4列到第5列，所有任务的宏平均值略有下降。我们怀疑这是因为将不同的任务添加到混合中使得优化问题变得更加困难，特别是当整个模型随机初始化时。此外，循环采样任务不遵循任何特定的课程来对这些任务的学习顺序进行排序。自然地，在学习多模态任务之前，具有一定的视觉和语言理解是重要的，这激励我们在联合训练之前首先利用单模态预训练，如下所述。通过单模态预训练获得更好的图像和文本编码器。如第3.3节所述，为了在联合训练之前利用单模态学习，我们使用预训练的自监督权重来初始化视觉和语言编码器的模型。对于视觉编码器，我们使用在ImageNet-1k[89]上预训练的现成的DINO模型进行初始化。对于语言编码器，我们在CCNews和BookCorpus数据集上使用MLM损失进行预训练，并使用其模型权重。与第5列相比较第6列，我们观察到预训练的编码器提升了FLAVA在所有任务上的性能。我们经验性地发现，使用DINO自监督模型初始化视觉编码器比使用BEiT自监督模型获得更好的性能（详见补充材料）。04.1. 与最先进的模型进行比较0我们在多模态任务、语言任务和ImageNet线性评估中，将我们的完整FLAVA模型（表4第6列）与几种最先进的模型进行了比较，详见表5。FLAVA在语言任务和多模态任务上大大优于之前在公共数据上预训练的多模态方法（第4到11行），并在几个GLUE任务上接近了成熟的BERT模型。FLAVA结合了单模态和多模态的损失，并学习了更通用的表示，可迁移到视觉、语言和多模态任务。我们在我们的任务基准上评估了最好的发布的CLIP [82]ViT-B/16模型（在[82]中使用与FLAVA相同的图像编码器架构，预训练了400M个图像-文本对），如下所示。12345678156440MIM MLM FLAVA C FLAVA MM FLAVA 无初始化 FLAVA CLIP CLIP0数据集评估方法 PMD PMD PMD PMD (PMD+IN-1k+CCNews+BC) PMD 400M [82]0MNLI [109] 微调 – 73.23 70.99 76.82 78.06 80.33 32.85 33.52 CoLA [108] 微调 – 39.55 17.58 38.97 44.22 50.65 11.02 25.37 MRPC [29] 微调– 73.24 76.31 79.14 78.91 84.16 68.74 69.91 QQP [49] 微调 – 86.68 85.94 88.49 98.61 88.74 59.17 65.33 SST-2 [95] 微调 – 87.96 86.4789.33 90.14 90.94 83.49 88.19 QNLI [87] 微调 – 82.32 71.85 84.77 86.40 87.31 49.46 50.54 RTE [7, 25, 36, 40] 微调 – 50.54 51.99 51.9954.87 57.76 53.07 55.23 STS-B [1] 微调 – 78.89 57.28 84.29 83.21 85.67 13.70 15.980NLP 平均值 – 71.55 64.80 74.22 75.55 78.19 46.44 50.500ImageNet [89] 线性评估 41.79 – 74.09 74.34 73.49 75.54 72.95 80.200Food101 [11] 线性评估 53.30 – 87.77 87.53 87.39 88.51 85.49 91.560CIFAR10 [58] 线性评估 76.20 – 93.44 92.37 92.63 92.87 91.25 94.930CIFAR100 [58] 线性评估 55.57 – 78.37 78.01 76.49 77.68 74.40 81.100Cars [56] 线性评估 14.71 – 72.12 72.07 66.81 70.87 62.84 85.920Aircraft [74] 线性评估 13.83 – 49.74 48.90 44.73 47.31 40.02 51.400DTD [20] 线性评估 55.53 – 76.86 76.91 75.80 77.29 73.40 78.460Pets [79] 线性评估 34.48 – 84.98 84.93 82.77 84.82 79.61 91.660Caltech101 [32] 线性评估 67.36 – 94.91 95.32 94.95 95.74 93.76 95.51 Flowers102 [76] 线性评估 67.23 – 96.36 96.39 95.58 96.37 94.9497.120MNIST [60] 线性评估 96.40 – 98.39 98.58 98.70 98.42 97.38 99.010STL10 [21] 线性评估 80.12 – 98.06 98.31 98.32 98.89 97.29 99.090EuroSAT [41] 线性评估 95.48 – 97.00 96.98 97.04 97.26 95.70 95.38 GTSRB [98] 线性评估 63.14 – 78.92 77.93 77.71 79.46 76.34 88.610KITTI [35] 线性评估 86.03 – 87.83 88.84 88.70 89.04 84.89 86.56 PCAM [104] 线性评估 85.10 – 85.02 85.51 85.72 85.31 83.99 83.72 UCF101[96] 线性评估 46.34 – 82.69 82.90 81.42 83.32 77.85 85.170CLEVR [52] 线性评估 61.51 – 79.35 81.66 80.62 79.66 73.64 75.89 FER 2013 [38] 线性评估 50.98 – 59.96 60.87 58.99 61.12 57.04 68.360SUN397 [110] 线性评估 52.45 – 81.27 81.41 81.05 82.17 79.96 82.05 SST [82] 线性评估 57.77 – 56.67 59.25 56.40 57.11 56.84 74.680Country211 [82] 线性评估 8.87 – 27.27 26.75 27.01 28.92 25.12 30

下载后可阅读完整内容，剩余1页未读，立即下载