LiT：锁定图像调整实现零样本转移

44 浏览量更新于2023-10-25 收藏 12.12MB PDF 举报

图像模型

文本模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

00003040506002075808590181230LiT0：通过锁定图像文本调整进行零样本转移0Xiaohua Zhai � † Xiao Wang � Basil Mustafa � Andreas Steiner � Daniel Keysers AlexanderKolesnikov Lucas Beyer � † Google Research, Brain Team, Z¨urich0摘要0本文提出了对比调整，这是一种简单的方法，利用对比训练来对齐图像和文本模型，同时利用它们的预训练优势。在我们的实证研究中，我们发现锁定预训练的图像模型并解锁文本模型效果最好。我们将这种对比调整的实例称为“锁定图像调整”（LiT），它只是教导文本模型从预训练的图像模型中读取出适用于新任务的良好表示。LiT模型具备了对新视觉任务的零样本转移能力，例如图像分类或检索。所提出的LiT方法具有广泛的适用性；它可靠地适用于多种预训练方法（有监督和无监督），并跨越不同的架构（ResNet，VisionTransformers和MLP-Mixer），使用三个不同的图像-文本数据集。使用基于Transformer的预训练模型ViT-g/14，LiT模型在ImageNet测试集上实现了84.5%的零样本转移准确率，在具有挑战性的ObjectNet测试集上实现了81.1%的准确率。01. 引言0迁移学习[44]在计算机视觉[32, 33,42]中取得了成功。零样本学习[35, 36,65]是一种替代方法，旨在开发能够处理新任务的模型，而无需任务特定的数据或适应协议。最近的研究表明，可以使用网络获取的成对图像-文本数据来预训练强大的模型，用于零样本转移[30,45]。零样本转移与传统的零样本学习不同，因为转移设置在预训练期间可能会看到相关的监督信息；在转移协议期间不使用任何监督样本，因此可以称之为零样本。GPT-3[3]通过自然语言的模型提示探索了类似的零样本转移设置。在[30,45]中，作者提出了一种对比学习框架，其中图像模型（或图像塔）与文本模型（或文本塔）同时训练。两个塔都被训练以最小化对比损失，这鼓励0� 相等的技术贡献，† 相等的指导0已见的图像-文本对[M]0ImageNet零样本准确率0从头开始0微调0LiT0CLIP0设计选择比较（数据：yfcc100m子集）0已见的图像-文本对[B]0CLIP ALIGN0有监督微调0LiT0SOTA零样本比较0（数据：私有）0图1.与以前的SOTA方法的比较。左：在公共YFCC100m子集上的结果，从头开始，从预训练的图像模型微调和使用预训练的图像模型的LiT。所提出的LiT在YFCC100m子集上的ImageNet零样本转移准确率提高了30%以上。右：在私人收集的数据上的结果，LiT缩小了以前从头开始的方法CLIP [45]，ALIGN [30]和有监督微调[12,68]之间的差距。0将成对的图像和文本的表示相似，将非成对的图像和文本的表示不相似。在测试时，可以通过将图像嵌入与文本类别描述的嵌入进行比较，使用得到的模型进行零样本图像分类。在本文中，我们采用对比学习框架，并提出了一种更加数据和计算高效的策略，名为对比调整。关键思想是使用图像-文本数据来调整文本塔，同时使用预训练的强大图像模型作为图像塔。在训练过程中，两个塔的权重可以锁定或解锁，导致不同的设计选择，如图2所示。具体而言，我们发现锁定图像塔的效果最好，如图1所示。我们将这种特定的对比调整实例称为“锁定图像调整”（LiT），它只是教导文本模型从预训练的图像模型中读取合适的表示。与从头开始的CLIP [45]或ALIGN[30]模型相比，LiT取得了更好的结果。使用预训练模型ViT-g/14[68]，LiT在ImageNet上实现了84.5%的零样本转移准确率，缩小了以前最佳零样本转移结果之间的差距。181240与先前的有监督微调结果[12, 68]和无监督微调结果[30,45]相比，最佳的LiT模型在几个分布外（OOD）的ImageNet测试变体上也创造了新的最先进成果。例如，它在具有挑战性的ObjectNet测试集[1]上实现了81.1%的准确率，比之前的最先进方法[45]高出7.8%。我们相信LiT表现良好的原因在于它将数据源和学习图像描述符和视觉-语言对齐的技术解耦。图像-文本数据可以用于学习自然语言和视觉世界之间的对应关系，但同时可能不够精确和干净，无法产生最先进的图像描述符。在本文中，我们仔细研究了这个假设，并通过实证证据予以支持。所提出的LiT可以与有监督和自监督的预训练模型一起使用。我们验证了LiT在三个图像-文本数据集上的效果，使用了Vision Transformer[20]、ResNet [32]和MLP-Mixer[60]架构。我们还展示了使用自监督预训练模型（如DINO[4]或MoCo-v3[10]）时，LiT相比于从头开始的对比学习实现了更好的性能。本文的另一个贡献是提出了一种高性能零样本模型的配方，可以仅使用有限的计算资源和公共数据集进行训练。通过重复使用已经预训练的模型（例如在文献中公开发布的模型），可以分摊用于训练图像模型的计算资源。此外，我们还探索了诸如YFCC100m [59]和CC12M[5]等公开可用的数据集。结合计算效率，我们希望促进更广泛的研究人员对零样本迁移的贡献。02. 相关工作0这项工作与关于视觉中的迁移学习的大量文献密切相关[44,58]。迁移学习的主要思想是利用已经预训练的模型更好、更快地解决新任务，而不是从头开始进行低效的训练。这种范式通常被实现为两步过程：（1）在大规模图像数据集上（弱）标记或使用自监督损失进行（一次性）预训练初始模型；（2）使用有监督数据对预训练模型进行微调以解决感兴趣的任务。在现代深度学习的背景下，许多早期的工作[19, 32, 33,47]使用有监督预训练来学习可迁移的特征表示，而VisionTransformer则重新审视并改进了这种方法[20,68]。研究表明，同时扩大模型和数据集的规模可以显著提高迁移效果[20, 32,68]和鲁棒性[17]。关键是，大型预训练模型在低数据（少样本）情况下具有出色的学习能力[8, 20,32]。然而，收集任务特定的数据并对大型模型进行微调仍然是必要的。0在许多现实场景中，预训练模型仍然是一项耗时且潜在昂贵的工作。零样本迁移是一种替代范式，完全绕过微调阶段，仅基于目标类别的描述进行分类。早期的研究展示了如何基于属性[35]或数值描述符[36]训练零样本分类器。我们在这项工作中采用的另一种方法是学习图像和文本嵌入空间之间的对齐[6, 15, 21, 22, 31,70]。这种方法已经证明，借助现代架构、对比学习和大规模数据源，可以获得与经典的两步方法竞争的性能，后者涉及对下游数据进行微调[30,45]。在这个方向上的其他努力探索了图像-文本对齐或遮蔽语言（或图像区域）建模[11,37]。这些模型已经应用于各种下游任务，包括视觉问答[23]、视觉常识推理[67]和图像字幕生成[40, 41,55]。对比学习技术是另一个密切相关的研究方向。对比损失的高级思想是通过要求模型从一组精心设计的选项中选择正确答案来简化学习任务。直观地说，这种任务的简化可能会鼓励模型关注图像中的高级信息，而不是通用信息，从而得到高质量的学习表示。早期研究探索了这个思想的非常具体的实例，包括[18,43]。最近，对比学习在更一般的设置中得到了形式化和研究[7, 24, 61]，取得了非常有希望的结果。最后，[30,45]使用对比学习从图像-文本数据中学习，并得到了最先进的零样本图像分类器。03. 方法03.1. 对比预训练0图像与自由文本描述配对的图像集合（可能有噪声）已成为训练视觉模型的强大资源。其中的关键优势在于它不受有限的预定义类别集的限制，而是使用开放式的自然语言描述图像。因此，从这些数据中学习的模型可以作为广泛任务的零样本学习器，例如分类和图像/文本检索。对比预训练是一种特别有效的从图像-文本数据中训练模型的方法，最近已被证明在实践中效果良好[30,45]。我们仔细研究了这种方法，并提出了一种简单但非常有效的方法，可以显著增强从图像-文本数据中的对比预训练。对比预训练方法的关键思想是学习两个嵌入模型：一个图像模型TextImageTextImageTextImage181250u u U u0锁定预训练解锁从头开始0L u0解锁预训练0图2.对图像-文本数据进行对比调整的设计选择。引入了两个字母来表示图像塔和文本塔的设置。L代表锁定变量，并从预训练模型初始化，U代表解锁并从预训练模型初始化，u代表解锁并随机初始化。Lu被称为“锁定图像调整”（LiT）。0和一个文本模型，两者都产生相同维度的表示。这些模型使用对比损失进行训练。该损失鼓励相应的图像-文本对具有相似的嵌入，并相反地鼓励不相应的对具有不同的嵌入。有关对比损失函数的详细讨论，请参见[45,70]。该损失函数的一个重要细节是是否在每个加速器设备上独立计算损失，然后累积或在所有设备上联合计算。我们对这个设计选择进行了验证（附录F），并确认后者[30,45]始终表现更好。因此，在我们的所有实验和消融中都使用全局损失。在训练完图像和文本塔后，它们可以轻松用于零样本分类：使用文本模型嵌入类名或描述。然后，对于给定的图像，选择与图像嵌入最接近的嵌入的标签。这种方法也适用于图像-文本检索。03.2. 对比调整0对比预训练可以被看作是同时学习两个任务：（1）学习图像嵌入和（2）学习与图像嵌入空间对齐的文本嵌入。虽然对比预训练在图像-文本数据上同时解决这两个任务效果很好，但可能不是最优的方法。当不使用图像-文本数据上的对比预训练时，学习图像嵌入的标准方法是使用大型且相对干净的（半）手动标记的图像数据集。这种数据的大规模和高质量会产生最先进的图像嵌入。用于学习强大图像嵌入的一些数据集选择包括ImageNet-21k [14]、JFT-300M[56]。然而，这种常见方法存在明显的弱点：0它仅限于预定义的一组类别，因此生成的模型只能对这些类别进行推理。相比之下，图像-文本数据没有这个限制，因为它从潜在涵盖广泛的现实概念的自由文本中学习。另一方面，可用的图像-文本数据可能比精心策划的数据集（用于学习图像嵌入）质量较低。我们提出了对比调整来结合这两种数据源的优势。一种具体的做法是使用已经使用更干净（半）手动标记的数据预训练的图像模型初始化对比性预训练。这样，图像-文本对齐独立于图像嵌入进行学习，从而使两种数据源都受益。除了使用监督预训练的图像模型外，所提出的对比调整还足够灵活，可以整合任何能产生有意义表示的模型。我们在实验中使用自监督预训练的图像模型验证了这一点。对于文本塔，也可以应用类似的推理方式，因为有许多使用文本特定数据源和学习技术的强大预训练模型。03.3. 设计选择和锁定图像调整0将预训练的图像或文本模型引入对比学习设置涉及几个设计选择。首先，每个塔（图像和文本）可以独立地从随机初始化或预训练模型开始。对于预训练模型，至少有两种变体：我们可以锁定（冻结）它或允许微调。请注意，在这两个极端之间有许多选择（例如，选择性冻结某些层，或自定义学习率），但本文没有对其进行研究。预训练的图像-文本模型可能具有不同的表示大小，而对比损失期望具有相同大小的表示。为了补偿，我们为每个塔添加了一个可选的线性投影（头），将表示映射到一个公共的维度。尝试使用基于MLP的头部进行初步研究并没有带来显著的改进，与这样一个简单的线性头相比。我们引入了一个两个字符的符号来讨论上述潜在的设计选择（见图2）。每个字符编码了选择的图像模型和文本模型的设置（按此顺序）。我们定义了三种潜在的设置：L（锁定权重，从预训练模型初始化），U（解锁/可训练权重，从预训练模型初始化）和u（解锁/可训练权重，随机初始化）。例如，符号Lu表示锁定的预训练图像模型和解锁（可训练）的随机初始化文本模型。以前从头开始训练模型的工作[30,45]是uu。在我们的实验中，我们发现Lu设置特别有效，因此我们明确将其命名为Locked-image Tuning（LiT）。CLIP [45]76.2 70.1 88.9 77.2 72.3--ALIGN [30]76.4 70.1 92.2 75.8---LiT84.5 78.7 93.9 79.4 81.1 88.0 72.6CLIP [45]31.3------OpenCLIP [28] 34.8 30.0-----LiT75.7 66.6 60.4 37.8 54.5 82.1 63.1*ResNet50 [25] 75.8 63.8 36.1 0.5 26.5 82.5 72.61812604. 图像-文本数据集0CC12M. ConceptualCaptions数据集[51]从网页中提取、过滤和转换图像和替代文本对。我们使用最新的1200万图像-文本对版本，即CC12M[5]。由于URL过期，我们的实验只使用了1000万图像-文本对。YFCC100m.雅虎Flickr创意共享数据集[59]包含1亿个媒体对象。其中，9920万张照片附带有丰富的元数据，包括相机信息、时间戳、标题、描述、标签、地理位置等等。[45]定义并使用了1500万张经过高质量英文文本过滤的子集，我们称之为YFCC100m-CLIP。附录E详细介绍了该数据集以及如何最好地使用它，包括是否进行过滤。我们的数据集。我们按照ALIGN[30]的相同过程收集了40亿个图像和替代文本对，采用相同的基于图像的过滤和更简单的基于文本的过滤。附录L显示了减少文本过滤不会损害性能。为了避免误导性的评估结果，我们从我们评估的所有数据集的所有拆分中删除了近似重复的图像。我们不认为创建我们的数据集是本文的主要贡献；我们只是简化了ALIGN[30]中的数据收集过程，以展示我们的方法在规模上的有效性。05. 实验0与最先进的图像-文本模型进行比较。我们考虑两种情况：（1）仅使用公共数据集进行模型训练，（2）使用私人收集的数据。然后，我们介绍了对比调整设计选择的实验评估结果，包括各种训练设置和数据集。我们通常在0-shotImageNet分类（“0-shot”）和MSCOCO图像（“T →I”）和文本（“I → T”）检索上进行评估。05.1. 与先前的最先进方法进行比较0在本节中，我们介绍了我们数据集上的LiT结果。图像塔使用在JFT-3B[68]上预训练的ViT-g/14模型进行初始化，该模型已经根据下游任务进行了去重。我们使用32k批量大小，并进行了180亿个图像-文本对的调整（大约550k步）。详细信息请参见附录C。我们将LiT方法与先前的最先进方法进行了比较，包括CLIP[45]和ALIGN[30]。在表1中，我们报告了ImageNet数据集上的零样本分类结果，五个超出分布的测试变体和七个VTAB-natural任务[69]。我们的模型在ImageNet零样本分类上明显优于先前的最先进方法。与CLIP和ALIGN相比，分别提高了8.3%和8.1%，几乎减半了0数据集0INet0INet-v20INet-R0INet-A0ObjNet0ReaL0VTAB-N0方法0私人0公共0表1.在ImageNet、五个OOD测试变体和七个VTAB-natural任务上的零样本转移准确率（%）。结果报告了公共数据集和私人收集的数据。作为参考，我们包括在ImageNet上预训练的ResNet50模型，以及在下游数据集上进行监督微调。我们使用*表示在监督微调期间使用多个数据集。0零样本转移结果和监督微调结果之间的差距[ 12 , 68]。鲁棒性。我们在ImageNet-v2 [ 48 ]、-R [ 26 , 63 ]、-A[ 27 ]、-ReaL [ 2 ]和ObjectNet [ 1]上评估鲁棒性，遵循CLIP和ALIGN的方法。在所有OOD变体上，我们的模型始终优于先前的模型。值得注意的是，LiT模型在ObjectNet测试集上取得了新的最高准确率81.1%。预训练的ViT-g/14模型[ 68]在ImageNet上微调时，在ObjectNet测试集上达到70.5%的准确率。当该模型在我们的图像-文本数据集上进行锁定图像微调（LiT）时，几乎提高了10%。多样的下游任务。我们在VTAB上评估LiT模型，其中包含19个多样的任务。我们在表1中报告了七个VTAB-natural任务的平均结果。与监督微调的ResNet50基线相比，LiT模型取得了有希望的零样本结果。在附录I.2中，我们介绍了VTAB上的零样本转移细节，以及专门任务和结构化任务的更多结果和分析。数据和计算效率。图1显示了使用较少的已见图像-文本对进行调整时的更多结果。使用LiT模型，在只看到300M个图像-文本对的情况下，可以在0-shotImageNet转移上达到78.7%的top-1准确率。相比之下，从头开始的方法（即CLIP）需要看到128亿个图像-文本对，即数据对的40倍，才能达到76.2%的top-1准确率。使用预训练的图像模型，所提出的设置收敛速度明显快于文献中报告的从头开始的设置。LiT提供了一种重复使用文献中已经预训练的模型的方法，摊销了重新生成图像模型所使用的计算资源。公共数据集上的结果。考虑到高数据效率Lu70.161.770.988.1Uu57.250.262.174.8uu50.643.347.970.3360204060020k40k60k010203040020k40k60k01020181270方法 ImgNet ImgNet-v2 Cifar100 Pets0表2. 在我们的大型数据集上评估设计选择。09 验证损失0LULuUUUuuUuu0ULuLLL0ImageNet 0-shot0Img Txt 召回率@10Txt Img 召回率@10总训练持续时间[步数]0图3.对YFCC100m-CLIP数据集上LiT可能的锁定和初始化设置进行了深入研究。预训练的图像塔效果最好，而仅对文本塔进行预训练只有一点帮助。这些不是训练曲线；每个点都是训练运行在该持续时间内达到的最终值。0对于LiT，我们研究了仅使用较小的公开可用模型和数据集时其性能如何。具体而言，我们在YFCC100m-CLIP和CC12M数据集的并集上调整了预训练的ImageNet-21kViT-L/16模型[ 54]。在附录D中提供了更多的训练设置细节。结果是我们在ImageNet上实现了前所未有的75.7%的零样本转移准确率，相对于仅使用公共数据源的先前报告的最新结果[ 28]提高了30.9%。我们还在各种鲁棒性数据集和VTAB-natural任务上获得了强大的结果，见表1。05.2. 设计选择的评估0小规模彻底调查。我们首先对图像和文本塔使用预训练权重进行锁定（L）或解锁（U）或随机初始化并解锁（u）的各种组合进行深入研究。我们在数据集上多次训练每个设置。0YFCC100m-CLIP数据集，根据总步数从2,500到60,000进行变化，以了解设置的轨迹，并在学习率和权重衰减上进行扫描以避免被误导。详细信息请参见附录D。图3显示了每个持续时间的每个设置的最佳结果，即曲线上的每个点都是该持续时间的单独完整运行。显然，几乎总是锁定图像塔效果最好，并且使用预训练的图像塔在各个设置上都有显著帮助，而仅使用预训练的文本塔对性能的改进很小，并且锁定文本塔效果不好。即使在接近无限数据的情况下，这个结论仍然成立。可以假设，仅锁定预训练的图像塔有所帮助，是因为YFCC100m-CLIP数据集相对较小（1500万张图像，而不是400M [45]或1.8B[30]），而随机初始化的图像塔最终将在更大的图像-文本数据集上胜过锁定的图像塔。图3中Uu和UU设置的轨迹似乎支持这个期望。也许令人惊讶的是，实验结果表明这并非如此，即使在对包含数十亿个图像-文本对的非常大的数据集上进行对比调整，锁定图像塔仍然提供了好处。表2显示了在我们的40亿张图像数据集上进行对比调整的结果，有三个设置：Lu，Uu和uu。实现细节请参见附录C。从头开始的方法uu毫不意外地实现了比CC12M和YFCC100m-CLIP等较小数据集更好的性能。从预训练模型初始化图像塔可以提供更好的性能，这是CLIP/ALIGN的一个相对简单的扩展。也许令人惊讶的是，冻结设置Lu实现了更好的结果。虽然可能与直觉相悖，但另一个角度是LiT只是学习从强大的图像嵌入器中提取知识的文本塔。这种灵活且高性能的设置可以将现有的视觉主干转化为零样本学习器，通过连接一个文本嵌入塔。为什么锁定（L）比解锁（U）更好？锁定图像塔的效果比允许其在对比调整过程中进行调整更好，这有些令人惊讶和反直觉；图4给出了一些原因。第一行显示，锁定图像塔导致用于LiT的数据集上的（对比）损失明显更差，而锁定图像变体的损失在诸如COCO标题（中间行）之类的分布之外的数据集上明显更好。我们还通过在其预对数上进行少样本线性回归的性能来衡量图像模型的表示质量（底行），这在自监督表示学习文献中通常是常见的做法。综合起来，这些图表揭示了预训练图像模型的图像表示具有很好的泛化能力，但对其进行对比微调会使其泛化能力变差。4646LuUuuu6846020k40k0204060020k40k020406018128010个训练损失010个验证损失010个ImageNet类别的验证损失08个COCO标题的验证损失080个ImageNet线性10-shot准确率080个CIFAR100线性10-shot准确率0图4.将用于LiT的数据集的损失（顶行）与零样本数据集（中间行）上的损失以及通过对预对数进行线性少样本评估来衡量的“表示质量”进行比较（底行）。这揭示了不同设置的行为，详见文本中的详细信息。0图像表示的一般性，使其在对比数据集上表现更好，但在其他地方表现更差。这表明在调整期间锁定图像塔，即LiT，会导致文本模型与已经强大且通用的图像表示良好对齐，而不是良好对齐但专门用于用于对齐的数据集的图像-文本模型。附录H探讨了中间变体，例如首先锁定然后解锁图像塔或分离学习率。我们没有找到比LiT更好的设置，将其作为一个开放的研究问题。05.3. LiT对于更一般预训练模型效果更好0有人可能认为LiT之所以有效，是因为图像塔使用了经过监督预训练的骨干网络，因此仍然是一个有监督的分类器，而不是成为一个图像-文本模型。我们设计了一个对照实验来验证这是否正确。我们发现相反，更一般预训练的模型更适合LiT。我们选择了一组使用相同的ViT-B/16架构但以不同方式预训练的图像模型：在ImageNet（IN）上进行监督预训练（AugReg [54]），在大但狭窄的Places[38]数据集上预训练，在更广泛的ImageNet-21k（IN21k）上预训练，或者完全无监督（DINO和MoCo-v3）。除了Places模型外，其他模型在各自的论文中报告的ImageNettop-1准确率约为77％，因此可以被认为是类似好的模型。0模型：ViT-B/160预训练LiT0数据集0标签？0FullIN010-shot00-shot0I →T0T →I0MoCo-v3 [10] IN n 76.7 60.6 55.4 33.5 17.6 DINO [4]IN n 78.2 61.2 55.5 33.4 18.2 AugReg [54] IN21k y 77.463.9 55.9 30.3 17.20AugReg [54] IN y 77.7 77.1 64.3 25.4 13.8 AugReg [54]Places y - 22.5 28.5 25.1 12.90表3.图像模型的预训练方法的作用：只要它是通用的，就不重要。背景颜色表示该列中的值是否与其他值相似或相距较远。0表3显示了没有使用LiT的模型性能（ImageNet10-shot和在ImageNet上完全微调时的准确率），以及在YFCC100m-CLIP上使用LiT实现的性能（零-shotImageNet分类和MSCoco检索）。从这些结果可以得出结论，以通用方式（例如在大量数据上或无监督方式）预训练的模型，并且具有类似的表示质量，在锁定图像调整（LiT）后成为类似好的图像-文本模型。然而，这也表明，狭窄预训练模型（AugReg-IN和AugReg-Places）在其狭窄任务上表现出迷惑性的良好性能（AugReg-IN的0-shotIN），但在更一般的图像-文本任务（MSCOCO字幕）上明显落后。这些发现凸显了一种一般预训练模型和多样化的评估任务的重要性。这是否特定于ViT图像模型？不是的。在这里，我们固定了架构以避免混淆，但附录A探讨了其他架构。05.4. 使用哪种文本模型？0尽管相关工作迄今为止主要关注图像模型，但文本模型在对比图像-文本学习中起着重要但尚未充分探索的作用。我们考虑了四种可能的基于Transformer的文本模型[62]——来自ViT-B[20]的Transformer，它也类似于CLIP[45]中使用的Transformer，T5-base[46]，mT5-base[66]和经典的BERT-base[16]——以及它们是随机初始化还是从预训练的检查点初始化。BERT使用WordPiece（WP）分词器[49,64]，而其他所有模型都使用SentencePiece（SP）分词器[34]，我们还使用ViT模型对其进行了消融实验。表4显示了在YFCC100M-CLIP和我们的数据集上使用AugReg-ViT-B/32的LiT使用这些文本模型的基本大小变体的结果。我们分别对每个模型进行了不同的学习率和权重衰减的扫描。ViTSP57.229.716.9T5SP57.8 (+1.4)29.4 (+1.6)17.2 (+1.2)mT5SP58.1 (+1.2)28.3 (+0.4)16.4 (+1.0)BERTWP 58.8 (+0.7)35.2 (+1.1)20.0 (+0.7)ViTWP 56.428.217.3ViTSP68.843.628.5ViTWP 68.845.429.7BERTWP 65.843.828.6181290模型 Tok INet 0shot I → T T → I0YFCC-CLIP0我们的0表4.不同文本编码器对零样本性能的影响。主要数字显示了在文本塔随机初始化时实现的性能；括号中的数字是在文本塔使用预训练语言模型进行初始化时实现的进一步改进。Tok列指示是否使用SentencePiece或WordPiece分词器。0为了避免被误导，我们对不同的组合进行了观察。我们的观察结果在相对较小的YFCC100m-CLIP数据集和我们的更大数据集之间略有不同，我们首先讨论前者。首先，我们发现在文本模型使用预训练权重进行初始化时，有一些小但一致的改进。其次，令人意外的是，我们发现BERT模型的性能明显优于其他模型，特别是用于检索。为了区分体系结构和分词器的贡献，我们进一步使用ViT文本编码器与BERT的WordPiece分词器进行LiT，并没有看到改进。我们认为体系结构中的初始化和LayerNorm的放置等细微差别是我们观察到的BERT稍微更好的泛化的原因。然而，我们还发现BERT模型的训练不太稳定。对于我们的数据集上的大规模实验，我们不再观察到这种改进，而是更倾向于使用更稳定的ViTSentencePiece组合。模型容量如何？以前的研究使用了相对较低容量的文本模型。我们在附录B中展示了增加文本塔容量的一致性改进。对于图像塔来说，情况也是如此，而且更加明显。05.5. LiT中重复示例是否重要？0在大规模训练的背景下，一个相关的问题是上游数据集和下游数据集之间的重复示例的作用。我们通过在三种不同的上游去重设置上进行实验来回答这个问题：（1）不进行去重；（2）只对下游测试集进行去重；（3）对下游训练集和测试集进行去重。我们在我们的数据集上使用Lu设置进行实验。我们使用在JFT-3B数据集[68]上预训练的B/32图像模型，该数据集已经进行了去重。0去重 #tune #eval ImgNet I → T T → I0- 0 0 70.2 43.6 28.4 测试 2.6M 76K 70.2 43.3 28.3训练+测试 3.6M 220K 69.9 43.7 28.40表5.不同去重设置的结果。由于评估数据集中存在评估图像，因此从LiT数据集中删除了#tune图像。我们报告了三次运行的平均结果。0在去重过程中，下游图像可能有多个上游重复示例，例如由于网络上的图像副本。因此，上游数据集上的重复示例数量明显大于下游数据集上的数量。下游数字表示检测到重复的下游图像数量，而上游数字表示从图像-文本数据集中删除的图像数量。我们在三种设置上应用LiT，零样本转移结果变化很小。在附录K中可以找到使用更大骨干的更多结果，得出一致的结论。这表明这里的示例重复不会对结果产生很大影响。这一观察结果也与先前的结论[32,45]一致。一个可能的解释是，在大规模上游数据集的情况下，模型可能不会记忆那些重复的示例。在本文中，我们报告使用最严格的设置（3）进行的结果，即针对下游训练集和测试集进行适当的去重，以避免数据泄漏。05.6.锁定图像模型的技术优势0除了之前探索的潜在建模优势外，使用锁定的图像塔还有其他几个好处。首先，训练速度显著加快，内存使用减少，因为不需要计算图像塔的梯度。其次，如果不使用增强技术，例如在我们的大数据实验中，图像模型的嵌入可以预先计算一次，进一步减少计算时间和内存需求。附录G显示了具体的测量结果。综上所述，这些实现特性使得可以在非常大的批量下使用巨大的模型。05.7.初步的多语言实验0目前通常的做法[30,45]是仅筛选英语语言数据的图像-文本数据集。我们相信取消这一限制有潜力使世界上更多的人受益。同时进行的工作[29]依赖于额外的翻译文本对来训练文本。0%20%40%60%55%60%65%70%75%181300en ru tr es fa fr de ja vi zh ar0提示语言0ImageNet零样本0CLIP子集 Lu T5 LU T50Lu mT5LU mT50图5.包含非英语数据可以解锁多语言零样本模型，而不会损害英语性能。在这种情况下，多语言文本预训练对于低资源语言可能更有用。0编码器。相比之下，我们不需要任何翻译，完全依赖预训练的锁定图像模型来弥合语言障碍。在本节中，我们报告了初步实验结果，显示了LiT在多语言图像-文本模型中的潜力。我们在AugReg-i21k ViT-B/32上应用LiT，使用T5[46]和mT5[66]基础编码器，分别使用预训练的检查点和没有预训练的检查点。我们在完整的YFCC100m数据集和缩小的仅英文CLIP子集上进行实验，并使用所有可用的文本作为监督信号（见附录E）。我们通过两种方式评估生成模型的多语言性，两种方式都有附录J中讨论的局限性。首先，我们使用在线翻译服务将ImageNet提示翻译成最常见的语言，并在每种语言中进行零样本分类；该评估结果显示在图5中。其次，我们使用基于维基百科的图像文本（WIT）数据集[53]在100多种语言中进行T→I检索。图6总结了这个评估结果；附录J提供了更详细的变体。高层次的结论在两种评估中都是一致的：在完整数据集上训练可以显著提高非英语语言的性能，使用多语言分词器（如mT5）可以显著帮助不使用拉丁字母的语言，并从预训练的多语言文本模型开始可以进一步提高性能。这三种改进的组合在英语评估中几乎没有任何效果，但在长尾语言上显著提高了性能。这对于解锁低资源语言的多模态模型是一个有希望的结果。06.讨论0局限性。这项工作仅探讨了作为零样本迁移任务的分类和检索。我们将零样本迁移评估留给更广泛的任务集，如检测、分割、视觉问答和图像。0最好的语言，按模型最差的0相对平均图像排名0英语0中文0Lu T5LU T50Lu mT5LU mT50图6.在100多种语言中进行的图像检索性能显示，未经过滤的数据和经过多语言预训练的文本模型可以显著提高长尾性能。0作为未来工作，我们将字幕限制在我们的范围内。在跨模态检索任务中，我们观察到与 Uu 或 UU 相比，Lu设置并没有明显的好处（图3）。对于非常长的调优计划，Uu 或 UU 有时会在这些任务上超过Lu。我们的结果表明，所提出的 Lu设置仍然可以在固定预算内节省计算成本，但是在预算足够大的情况下，如果零样本分类不是主要目标，考虑 Uu设置也可能是有用的。社会影响。这项工作展示了如何将文本塔添加到预训练的图像模型中。虽然有许多有用的应用，但像大多数研究一样，这是一把双刃剑：该技术还使得创建恶意、冒犯或淫秽的文本塔配件到现有的图像模型变得更简单。需要进一步研究如何最好地为开放世界的图像-文本模型提供我们所期望的行为。07. 结论0我们提出了一种名为对比调整的简单方法，可以以零样本的方式转移任何预训练的视觉模型。具体而言，所提出的LiT设置在零样本转移任务上导致了显著的质量改进。它将从头开始的对比学习设置与每个任务的有监督微调设置之间的差距减半。LiT使得可以使用公开可用的数据将公开可用的模型转化为零样本分类器，并与依赖更多专有数据的先前工作的性能相媲美。我们希望这项工作能够激发对如何智能地重用和调整已经预训练模型以解决不同研究问题的未来研究。0参考文献0[1] Andrei Barbu, David Mayo, Julian Alverio, William Luo,Christopher Wang, Dan Gutfreund, Josh Tenenbaum, andBoris Katz. ObjectNet: 一个大规模的偏差控制数据集181310用于推动目标识别模型极限的工作。在NeurIPS, 2019. 2, 40[2] Lucas Beyer, Olivier J. H´enaff, Alexander Kolesnikov, Xi-aohua Zhai, and A¨aron van den Oord.我们是否已经完成了Imagenet？CoRR, abs/2006.07159, 2020. 40[3] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakan- tan,Pranav Shyam, Girish Sastry, Amanda Askell, Sand- hiniAgarwal, Ariel Herbert-Voss, Gretchen Krueger, TomHenighan等。语言模型是少样本学习器。在NeurIPS, 2020. 10[4] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´eJ´egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin.自监督视觉转换器中的新属性. 在ICCV, 2021. 2, 6, 260[5] Soravit Changpinyo, Piyush Sharma, Nan Ding, and RaduSoricut. Conceptual 12M:将网络规模的图像-文本预训练推向识别长尾视觉概念。在CVPR,2021. 2, 40[6] Jiacheng Chen, Hexiang Hu, Hao Wu, Yuning Jiang, andChanghu Wang. 学习最佳池化策略用于视觉语义嵌入. 在CVPR,2021. 20[7] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey E. Hinton. 对比学习视觉表示的简单框架。在ICML,2020. 20[8] Ting Chen, Simon Kornblith, Kevin Swersky, MohammadNorouzi, and

下载后可阅读完整内容，剩余1页未读，立即下载