视觉语言模型的条件提示学习

75 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16816----视觉语言模型的条件提示学习周靖康杨晨Change Loy Ziwei Liu新加坡南洋理工大学S-Lab{kaiyang.zhou，jingkang001，cccloy，ziwei.liu} @ ntu.edu.sg摘要随着CLIP等强大的预训练视觉语言模型的兴起，研究如何使这些模型适应下游数据集变得至关重要。最近提出的一种名为上下文优化（CoOp）的方法将提示学习的概念-NLP的最近趋势-引入视觉领域，以适应预训练的具体来说，CoOp将提示中的上下文单词转化为一组可学习的向量，并且只需要几个标记的图像进行学习，就可以在密集调整的手动提示上实现巨大的在我们的研究中，我们确定了CoOp的关键问题：所学习的上下文不能推广到同一数据集内更宽的看不见的类，这表明CoOp过度拟合在训练期间观察到的基类。为了解决这个问题，我们提出了条件上下文优化（CoCoOp），它通过进一步学习轻量级神经网络来扩展CoOp，为每个图像生成输入条件令牌（向量）。与CoOp的静态提示相比大量的实验表明，CoCoOp比CoOp更好地推广到看不见的类，甚至显示出超越单个数据集的有希望的可转移性;并且也产生更强的域泛化性能。代码可在 https://github.com/KaiyangZhou/CoOp获得。1. 介绍最近在大规模视觉语言预训练方面的研究在零拍摄图像识别方面取得了惊人的表现[13，24，33，40]，证明了学习开放世界视觉概念的潜力关键的设计在于视觉概念如何建模。在标签被离散化的传统监督学习中，每个类别与随机初始化的权重向量相关联这样的学习方法侧重于封闭的视觉概念集，将模型限制在预定义的类别列表中，并且当涉及到训练过程中看不到的新类别时是不可扩展的。相比之下，对于像CLIP [40]和ALIGN [24]这样的视觉语言模型1一个Transformer [48]）通过提示[34]。例如，为了区分包含不同品种的狗和猫的宠物图像，可以采用诸如“类的照片，宠物的类型”的提示模板与离散标签相比，视觉语言模型随着这种强大的视觉语言模型的兴起，社区最近开始研究潜在的解决方案，以有效地使这些模型适应下游数据集[14，53，56，62]。为了适应网络规模的数据，例如CLIP使用的4亿对图像和文本，视觉语言模型被有目的地设计为具有高容量，这意味着模型大小将是巨大的，通常具有数亿甚至数十亿个参数。因此，在深度学习研究中经常采用的对整个模型进行微调是不切实际的，甚至可能会破坏学习良好的表示空间。一种更安全的方法是通过添加对任务有意义的上下文来调整提示，例如然而，即时工程是非常耗时和低效的，因为它必须基于试错，并且也不能保证最佳的即时。为了使提示工程自动化，Zhou et al.[62]最近探索了快速学习的概念-NLP [15，25，30，32，44，60]的最近趋势-用于适应预先训练的视觉语言模型。他们的方法，上下文优化（CoOp），变成了一种...1我们遵循现有的研究[13，24，33，40]来参考CLIP类模型通讯作者为视觉语言模型。16817基类抵达门大教堂Zero-shot[a][照片] [的] [一] [入境大门]。[a][照片] [的] [一个][大教堂]。准确度：69.36CoOp[v 1] [v 2].. . [vM] [入境闸口]。[v 1] [v 2].. . [vM][cathedral].精度：80.60CoCoOp[v 1（x）] [v 2（x）].. . [vM（x）] [抵达闸机]。[v 1（x）] [v 2（x）].. . [vM（x）][cathedral].准确度：79.74(a) CoOp和CoCoOp在训练期间观察到的基类上都工作得很好，并且以显著的优势击败了手动提示新类Zero-shotCoOpCoCoOp[v 1（x）] [v 2（x）].. . [vM（x）] [风电场]。[v 1（x）] [v 2（x）].. . [vM（x）] [trainrailway].准确度：76.86风力发电场火车铁路[a][照片] [的] [一个] [风力发电场]。[a][照片][的][一个][火车铁路]。准确度：75.35[v 1] [v 2].. . [vM] [风力发电场]。[v 1] [v 2].. . [vM] [train railway].准确度：65.89(b) CoCoOp学习的实例条件提示比CoOp更能推广到看不见的类。图1. 我们的研究动机：来学习可概括的提示。这些图像是从SUN397 [55]中随机选择的，SUN397是一个广泛使用的场景识别数据集。利用神经网络的可微特性，将提示中的文本单词转化为一组可学习的向量由于只有几个标记图像用于学习，CoOp在广泛的图像识别数据集上实现了与密集调整的手动提示相比的巨大改进在我们的研究中，我们确定了一个关键的问题CoOp：学习的背景下是不可推广到更广泛的看不见的类在同一个任务。图1说明了这个问题：由CoOp学习的上下文在区分像“到达门”和“大教堂”这样的基类时工作良好，但是当它被转移到新的（看不见的）类（例如“风电场”和“火车铁路”）时，准确性显著下降-即使任务的性质保持相同，即，识别场景。结果表明，学习的上下文过拟合的基类，从而未能捕捉更多的generalizable元素，是至关重要的更广泛的场景recog-nation。我们认为这样的问题是由CoOp的静态设计引起的：一旦学习就固定的上下文仅针对（训练）类的特定集合被优化。相反，零拍法所采用的人工设计的提示，则相对具有通用性。为了解决弱泛化问题，我们引入了一个新的概念：条件提示学习。关键思想是使提示以每个输入实例（图像）为条件为了使模型参数有效，我们引入了一个简单而有效的条件提示学习的实现。具体来说，我们通过进一步学习轻量级神经网络来扩展CoOp，为每个图像生成一个输入条件to- ken（向量），该向量与可学习的上下文向量相结合。我们称之为条件上下文优化（CoCoOp）。2图2中显示了概述。有趣的是，CoCoOp的范例类似于图像字幕[49]，这解释了为什么实例-2读作/k@U ku：p/。条件提示更具有一般性：它们被优化以表征每个实例（对类别转换更鲁棒），而不是仅服务于某些特定类别。我们提出了全面的实验11个数据集，涵盖了不同的视觉识别任务。具体来说，我们设计了一个从基础到新的泛化设置，首先使用基类学习模型，然后在全新的类上进行测试。与零激发方法[40]和CoOp [62]相比，我们的方法实现了最佳的整体性能（表1）。重要的是，CoCoOp在看不见的类中比CoOp获得了显著的改进（图3（a）），使得手动提示和基于学习的提示之间的差距大大减小。在一个更具挑战性的场景中，为一个任务学习的上下文直接转移到具有显著不同类别的其他任务中，CoCoOp仍然以明显的优势击败CoOp（表2），这表明实例条件提示更具可转移性，并有可能在更大范围内获得成功。CoCoOp还获得了比CoOp更强的领域泛化性能（表3），进一步证明了动态提示的优势。总之，我们的研究提供了及时的见解，在迅速学习的概括性问题，并crucu-cially，证明了一个简单的想法在各种问题的情况下的有效性。我们希望我们的方法和研究结果可以为将来的研究铺平道路，在一般化和可转移的提示学习。2. 相关工作视觉语言模型我们主要回顾了关于对齐图像和文本以学习联合嵌入空间的研究[24，40，59]。跨通道对齐的想法当然不是新的，近十年前就开始研究了，尽管有着显著不同的16818比今天的技术。一个典型的视觉语言模型由三个关键元素组成在早期，用于处理图像和文本的模型通常是独立设计和学习的，其输出由额外的模块（损失）连接图像通常使用手工制作的描述符[10，45]或神经网络[12，29]进行编码，而文本则使用例如预训练的词向量[12，45]或基于频率的TF-IDF特征[10，29]进行编码。在跨模态对齐方面，常见的方法包括度量学习[12]，多标签分类[16，26]和n-gram语言学习[31]。最近，一项研究表明，在图像字幕丢失的情况下训练视觉部分可以使视觉表征更具可转移性[7]。最近的视觉语言模型[13，24，33，40]通过联合学习两个编码器来桥接这两种模态。此外，模型现在使用更大的神经网络构建如Zhou et al.[62]，最近视觉语言模型的成功主要归功于i）Transformers [48]，ii）对比表示学习[4，17，20]和iii）网络规模训练数据集[24，40]的发展。一种代表性的方法是CLIP [40]，它使用对比损失来训练两个基于神经网络的编码器，以匹配图像和文本对。在消耗了4亿个数据对之后，CLIP模型展示了一个值得注意的零拍摄图像识别能力。与CoOp [62]类似，我们的方法与CLIP类模型的研究正交[13，24，33，40]，旨在提供一种有效的解决方案，使预训练的视觉语言模型适应下游应用。提示学习本主题源自NLP领域。其动机是将预先训练的语言模型（如BERT [8]或GPT [41]）视为知识库，从中引出对下游任务有用的信息[39]。具体地说，给定一个预先训练的语言模型，任务通常被制定为“填空”完形填空测试，例如要求模型预测“没有理由观看”中的掩蔽标记。它是[MASK]”作为情绪分类的“积极”或“消极”。关键在于如何以模型熟悉的格式设计下划线部分，即提示（模板）。提示学习研究的目的不是手动设计提示，而是在负担得起的标记数据的帮助下自动化该过程。Jiang等人[25]使用文本挖掘和释义来生成一组候选提示，在其中选择最佳提示以具有最高的训练准确度。Shin等人。[44]提出了Au- toPrompt，这是一种基于梯度的方法，它根据标签可能性从一个词汇中选择我们的研究与持续快速学习方法最相关[30，32，60]，上下文令牌v1 v2+ +的VM+文本编码器Meta令牌图像编码器.[CLASS]元网络图2.我们的方法，条件上下文优化（Co-CoOp），由两个可学习的组件组成：一组上下文向量和一个轻量级神经网络（Meta-Net），为每个图像生成一个输入条件令牌。其中主要思想是将提示转换成一组连续向量，其可以相对于目标函数进行端到端优化。参见Liu等人[34]这是一个比较复杂的问题。在计算机视觉中，快速学习是一个新兴的研究方向，最近才被探索[27，42，56，58，62]。我们的研究是建立在CoOp [62]之上的，这是最早的工作，可以带来持续的即时学习视觉领域的预训练的视觉语言模型的适应。至关重要的是，我们的方法解决了CoOp[62]的弱泛化问题，基于条件提示学习的简单思想-据我们所知，这在NLP的背景下也是新颖的，因此也。Zero-Shot Learning（ZSL）是另一个相关的研究领域，其目标与我们的目标相似，即：通过只在基类上训练来识别新类[3，51，54，57]。此外，在基类上训练的模型在新类上经常失败的泛化问题也与在WML文献中提出的“可见类偏差”问题有关ZSL最常见的方法是基于辅助信息学习语义空间，如属性[23]或单词嵌入[12，52]。与现有的ZSL方法不同，我们的工作解决了适应大型视觉语言模型的新兴问题，并使用完全不同的技术的基础上的提示。3. 方法我们的方法概述如图2所示。因此，我们首先简要回顾CLIP [40]，这是本文使用的基础模型，以及CoOp[62]。然后，我们提出了我们的方法的技术细节，以及背后的设计原理。与CoOp相同，我们的方法适用于更广泛的CLIP类视觉语言模型。16819×i=1----···Σ·--Ki=1Σ因此，第i类以输入为条件，即，ti（x）={v1（x），v2（x），. - 是的- 是的，vM（x），ci}.预测概率exp（sim（x，wi）/τ）12M--3.1. 关于CLIP和Coop对比语言-图像预训练被称为CLIP [41]，已经很好地证明了学习开放集视觉概念的潜力。CLIP是使用两个编码器构建的，一个用于图像，另一个用于文本，如图2所示。图像编码器可以是ResNet [18]或ViT [9]，用于将图像转换为特征向量。文本编码器是一个Transformer [48]，它将单词标记序列作为输入，并再次产生矢量化表示。在训练期间，CLIP采用对比损失学习两种模态的联合嵌入空间。具体来说，对于一小批图像-文本对，CLIP最大化每个图像与匹配文本的余弦相似性，同时最小化与所有其他未匹配文本的余弦相似性，并且也以类似的方式计算每个文本的损失。经过训练，CLIP可以用于零拍图像识别.设x是由图像编码器生成的图像特征，WiK是由文本编码器生成的一组权重向量，每个权重向量表示一个类别（假设总共有 K个类别）。特别地，每个wi都是从一个提示中导出的，比如预测概率则为则可以一直向后传播内容以更新上下文向量。请注意，CLIP的基本模型在整个训练过程中都是冻结的（我们的也是）。3.2. CoCoOp：条件上下文优化CoOp是一种数据高效的方法，允许仅用下游数据集中的几个标记图像来训练上下文向量。然而，如所讨论的，CoOp不能推广到相同任务内的更广泛的看不见的类。我们认为，实例条件上下文可以更好地概括，因为它转移的焦点从一个特定的一组类减少过度拟合到每个输入实例，从而整个任务。实现CoCoOp的一种直接方法是构建M个神经网络以获得M个上下文令牌。然而，这样的设计将需要M个神经网络的大小，这比在CoOp中具有M个在这里，我们提出了一个参数有效的设计，在实践中工作得很好。具体来说，在M个上下文向量之上，我们进一步学习一个轻量级神经网络，称为Meta-Net，为每个输入生成一个条件令牌（向量），然后将其与上下文向量组合。有关该架构的草图，请参见图2令hθ（）表示由θ参数化的元网，每个上下文令牌现在通过vm（x）=vm+π获得，其中p（y|x）= exp（sim（x，wy）/τ）、（1）π=hθ（x）且m∈ {1，2，.，M}。的提示符其中sim（，）表示余弦相似性，τ是学习的温度参数。上下文优化（CoOp）旨在克服被计算为exp（sim（x，g（ty（x）/τ）p（y|x）=.（三）效率低下问题促使工程更好地适应-Ki=1 exp（sim（x，g（ti（x））/τ）将预先训练的视觉语言模型发送到下游AP，During training, we update the context vectors {vm}M[62]. CoOp的关键思想是使用可以端到端的连续向量对每个连同元网络m=1θ。在这项工作中，从数据中学习。具体地，代替使用“a的照片”作为上下文，CoOp引入M个可学习的上下文向量，{v，v，. - 是的- 是的，v}，每个具有相同的尺寸元网络采用两层瓶颈结构（Linear-ReLU-Linear），隐藏层将输入维度减少了16倍。元网络的输入是sim-嵌入这个词第i个类的提示符由ti表示，现在变为ti=v1，v2，. - 是的-是的其中ci是类名的单词嵌入。上下文向量在所有类之间共享。3令g（）去标注文本编码器，则预测概率为exp（sim（x，g（ty））/τ）p（y|x）=.（二）将探索更先进的设计留待今后工作。4. 实验我们的方法主要在以下三个问题设置中进行评估：1）从数据集中的基类到新类的泛化（第4.1节）; 2）跨数据集转移（第4.1节）;Ki=1 exp（sim（x，g（ti）/τ）3）领域泛化（Section4.3）。我们实验中使用的所有模型都是基于开源的使CLIP适应下游图像识别数据集，交叉熵损失可以用作学习对象。由于文本编码器g（·）是可区分的，因此梯度编码器g（·）是可区分的。3CoOp有一个替代版本，可以学习特定于类的上下文，CLIP [40]. 4在讨论结果之前，我们提供了下面实验装置的细节。数据集对于前两个设置，即，基于新的生成和跨数据集传输，我们使用11图像应用由图像编码器产生的输出特征。我们16820这里不考虑它，因为它不容易转移类特定的上下文到看不见的类。4https://github.com/openai/CLIP。16821表1.CLIP、CoOp和CoCoOp在基础到新的泛化设置中的比较。对于基于学习的方法（CoOp和CoCoOp），它们的提示是从基类（16个镜头）学习的结果有力地证明了条件提示学习的强泛化性H：调和平均值（强调泛化权衡[54]）。(a) 平均超过11个数据集。(b) ImageNet.(c) 加州理工101新基地H基地新H基地新H夹69.3474.2271.70夹72.4368.1470.22夹96.8494.0095.40CoOp82.6963.2271.66CoOp76.4767.8871.92CoOp98.0089.8193.73CoCoOp 80.47 71.6975.83CoCoOp 75.9870.4373.10CoCoOp 93.8195.84(d) 牛津宠物。(e) 斯坦福汽车。(f) 花102.基地新H新基地H基地新H夹91.1797.2694.12夹63.3774.8968.65夹72.0877.8074.83CoOp93.6795.2994.47CoOp78.1260.4068.13CoOp97.6059.6774.06CoCoOp95.2096.43CoCoOp 70.4972.01CoCoOp 94.87 71.7581.71(g) 食物101.(h) FGVCA飞机。(i) SUN397.新基地H新基地H新基地H夹90.10 91.2290.66夹36.2931.09夹69.36 75.3572.23(j) DTD。(k) EuroSAT。(l) UCF101新基地H基地新H新基地H夹53.2459.9056.37夹56.4864.0560.03夹70.5377.5073.85如Zhou et al.[62]，其中涵盖了一组不同的识别任务。具体而言，基准测试包括ImageNet [6]和Caltech 101[11] 用于对通用对象进行分类 ; OxfordPets [38] ，StanfordCars [28]，Flowers 102 [36]，Food 101 [2]和FGVCAircraft [35]用于细粒度分类; SUN 397 [55]用于场景识别; UCF 101 [46]用于动作识别; DTD [5]用于纹理分类;最后EuroSAT [19]用于卫星图像识别。对于域泛化实验，我们使用ImageNet作为源数据集，并使用ImageNet的其他四个包含不同类型域偏移的变体作为目标数据集，即ImageNet V2 [43]，ImageNet- Sketch[50]，ImageNet-A [22]和ImageNet-R [21]。继Zhou et al.[62]，我们为每个数据集随机抽样我们只评估周等人研究的最高射击数。[62]，即，16枪足以证明我们的方法。对于基于学习的模型，结果是三次运行的平均值。我们的方法的直接竞争对手是CoOp [62]，它本质上是学习静态提示（相比之下，提示值得一提的是，每个数据集的手动提示都使用测试数据中的所有类进行了集中调整[40]。培训详情我们的实施基于CoOp5在整个实验中，我们使用CLIP中最好的视觉骨干，即，ViT-B/16. Zhou等人。[62]已经提出，较短的上下文长度和良好的初始化可以导致更好的性能和对域移位的更强的鲁棒性。因此，我们将上下文长度固定为4，并使用CoOp和CoCoOp两者的“a photo of a”的预训练词嵌入来初始化上下文向量由于实例条件设计，我们的方法训练速度很慢，并且比CoOp消耗因此，为了确保模型可以适合GPU，同时减少训练时间，我们训练CoCoOp的批量大小为1，持续10个epoch。这种限制在第5节中更详细地讨论。4.1. 从基类到新类的解决CoOp的弱推广问题是本研究的主要重点。在这11个数据集中，我们的动态提示）。零发射方法，即，还比较了CLIP [40]，其基于手动5https://github.com/KaiyangZhou/CoOp。CoOp88.3382.2685.19CoCoOp90.7091.2990.99CoOp40.4422.3028.75CoCoOp33.4123.7127.74CoOp80.6065.8972.51CoCoOp79.7476.8678.27CoOp79.4441.1854.24CoCoOp77.0156.0064.85CoOp92.1954.7468.69CoCoOp87.4960.0471.21CoOp84.6956.0567.46CoCoOp82.3373.4577.6416822(a)（b）第（1）款图3. CoCoOp和CoOp在基础到新的泛化设置中的综合比较。(a)CoCoOp能够在所有数据集上的不可见类中获得对CoOp的一致改进（b）CoCoOp我们将类平均分为两组，一组作为基类，另一组作为新类。基于学习的模型，即，CoOp和CoCoOp仅使用基础类进行训练，同时分别对基础类和新类进行评估以测试泛化能力。详细结果见表1。在看不见的类中合作的失败分裂并不能保证两个类组同样困难，正如CLIP的颠簸结果所证明的那样：基数和新的准确度数字是显著不同的。尽管如此，CoOp的新准确率在尽管在平均性能方面与CLIP相比具有优势，但CoOpCoCoOp显著缩小泛化差距如表1（a）所示，CoCoOp将未发现类别的准确率从63. 22%提高到71. 69%，这大大缩小了与手动提示的差距。结果证实，实例条件提示更具有普遍性。图3（a）中显示了每个数据集改进的更详细的细分，其中我们观察到11个数据集中有5个数据集的准确性提高了10%以上。值得注意的是，在具有挑战性的ImageNet数据集上，CoCoOp6为了方便起见，我们将基本准确性称为基本类中的性能;并且对于新的精度也是类似的。与CoOp相比，CoCoOp这是合理的，因为CoOp专门针对基类进行优化，而Co-CoOp针对每个实例进行优化，以便在整个任务中获得更多的泛化。但值得注意的是，在CoCoOp的基本准确度低于CoOp的9个数据集上，大多数损失都在3%以下（确切地说，在9个数据集中有6个数据集），这远远超过了图3（a）中所示的不可见类的收益;即使对于CoCoOp遭受最大损失的那些数据集，一般化的StanfordCars的基础准确度下降最差，为-7.63%，但准确度增益第三高，在新的课程中增加了13.19%，这两个课程共同为CoCoOp带来了5.56%的积极改善。CoCoOp比CLIP更具吸引力当考虑到基础类和新类时，CoCoOp显示出超过CLIP 4%的收益（75.83% vs71.70），这表明实例条件提示在捕获与识别任务相关的更可概括的元素方面具有更好的潜力。从理论上讲，基于学习的提示比手动提示具有更高的过度拟合基类因此，CLIP是一个强大的竞争对手，在看不见的类击败。与CoOp不同，我们获得了CoCoOp的有希望的结果：新的准确性甚至比CLIP在11个数据集中的4个上的准确性更好（即，ImageNet 、OxfordPets 、Food101和SUN397），而在其余的地方离CLIP不远，在上下文长度的消融研究中，16823表2. 跨数据集传输设置中的提示学习方法比较。应用于10个目标数据集的提示是从ImageNet学习的（每个类16张图像）。显然，CoCoOp表现出比CoOp更好的可转移性。Δ表示CoCoOp源靶[62]第六十二话71.5193.70 89.14 64.51 68.71 85.30 18.47 64.15 41.9246.3966.55CoCoOp71.0294.43 90.14 65.32 71.88 86.06 22.94 67.3645.73 45.3768.21 65.74∆-0.49+0.73+1+0.81+3.17+0.76+4.47 +3.21 +3.81-1.02+1.66 +1.86表3. 领域综合中手动提示和基于学习的提示的比较。CoOp和CoCoOp使用ImageNet上1,000个类中的每一个类的16张图像作为训练数据。一般来说，CoCoOp比CoOp更具域通用性。源目标学得来？ImageNetImageNetV2ImageNet-草图ImageNet-AImageNet-R剪辑[40]66.7360.8346.1547.7773.96[62]第六十二话✓71.5164.2047.9949.7175.21CoCoOp✓71.0264.0748.7550.6376.18我们发现FGVCAircraft受益于更长的上下文，这与Zhou等人的研究结果一致。[62]。要关闭甚至推翻手动和基于学习的提示在看不见的类之间的差距，需要更多的努力，我们希望在这项研究中提出的见解可以帮助社区解决迅速学习的普遍性问题。4.2. 跨数据集传输在证明了CoCoOp在数据集内的可推广性之后从对象识别到纹理分类）。在这种情况下，我们只考虑快速学习方法。我们将CoCoOp与CoOp进行了比较，方法是将从ImageNet中学习到的上下文（使用了所有1,000个类）转移到其他10个数据集中。结果详见表2。在源数据集上，这两个模型的表现相似。而在目标数据集上，CoCoOp的表现明显优于CoOp。由于ImageNet类主要包含对象，以及相当数量的狗品种，因此在包括Caltech101和OxfordPets在内的相关目标数据集相比之下，在其他具有较远距离（更细粒度或更专业化）类别的更低，例如FGVCAircraft和DTD（包含各种纹理），其准确率远低于50%。尽管如此，CoCoOp在上述两个数据集以及大多数其他细粒度或专业数据集上表现出比CoOp更强的可转移性。4.3. 领域泛化泛化到分布外数据是机器学习模型在实际应用中取得成功的关键能力[47，61]。Zhou等人[62]已经揭示了他们的可学习提示比手动提示更强大。我们也有兴趣知道实例条件提示是否仍然保持在以前的实验中的优势。继Zhou et al.[62]，我们通过将从ImageNet学习的上下文转移到四个专门设计的基准测试来评估CoCoOp的主要泛化性能。我们还包括与CLIP的比较。表3显示了结果。这两种快速学习方法在所有目标数据集上都明显优于CLIP与CoOp相比结果证实，实例条件提示更具有领域泛化能力。4.4. 进一步分析类增量测试我们考虑了一个实际的问题- lem的情况下，识别目标最初组成的基类扩展到包括完全ImageNet加州理工牛津宠物斯坦福汽车花102食品101FGVCA飞机SUN397DTDEuroSATUCF101平均16824表4.识别精度（平均超过11个数据集）的基础和新的类的组合。可学习模型只能访问基类的训练数据。学得来？精度剪辑[40]65.22[62]第六十二话✓65.55CoCoOp✓69.13(a) 初始化时消融（b）上下文长度的消融。图4.消融研究。表5.CoCoOp（最后一行）与ImageNet上更大的CoOpCoOp（ctx=60）30,72076.16 65.3470.34CoOp（ctx=4）+元网络34,81675.9870.4373.10新课程这个问题与现有的持续学习文献[37]有关，但不同之处在于这里的模型无法访问来自新类的任何训练数据，并且需要对它们进行零射击识别。我们使用11个数据集比较CLIP，CoOp和CoCoOp。平均结果报告于表4中。显然，CoOp失去了与CLIP的竞争力，因为它们的性能相似，但前者需要训练数据。再次，CoCoOp以显著的优势击败了两个竞争对手。我们比较了基于词嵌入的初始化与随机初始化，随机初始化从具有0.02标准偏差的零均值高斯分布中采样图4（a）表明，正确的初始化对基类和新类都更有利。上下文长度继Zhou et al.[62]，我们研究了4，8和16个上下文标记。为了公平的比较，我们对所有上下文令牌使用随机初始化。图4（b）总结了11个数据集的结果基类中的差异相当小，而在新类中，具有较长上下文长度的模型显然表现得更好。CoCoOp与更大的CoOp由于CoCoOp引入了比CoOp更多的参数，即元网络，可能会质疑这些改善是否仅仅来自于学习能力的提高。为了消除疑问，我们删除了元网络部分，并将CoOp中的上下文令牌的数量表5中的结果表明，增加参数大小并不是关键。5. 限制第一个限制是关于训练效率：CoCoOp的训练速度很慢，如果批处理大小设置为大于1，则会消耗大量的GPU内存。原因是CoCoOp基于实例条件设计，该设计要求每个图像通过文本编码器独立地向前传递特定于实例的提示。这比CoOp的效率低得多，CoOp只需要通过文本编码器对任何大小的整个小批量进行单个前向提示。第二个限制是，在11个数据集中的7个数据集上（见表1），CoCoOp6. 讨论和结论我们的研究解决了一个重要的问题，这个问题是由大型预训练AI模型的可用性引起的，即：如何使它们适应下游应用。这些模型，也称为基础模型[1]，在视觉和NLP社区中受到学术界和工业界越来越多的关注，因为它们在不同的下游任务方面的能力非常强大。然而，基础模型在数据规模和计算资源方面的预训练成本很高;并且典型地包含大量的参数以便开发足够的容量。例如，在我们的实验中使用的基于ViT-B/16的CLIP模型[40]具有高达150 M的参数大小。这些因素共同强调了研究有效的适应方法，使基础模型的必要性。我们的研究遵循参数高效提示学习[62]的路线，及时洞察了静态提示的泛化问题，更重要的是，证明了基于条件提示学习的简单设计在各种问题场景中表现出色，包括从基类到新类的鸣谢这项工作得到了NTU NAP的支持，并在RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助倡议下，以及来自行业合作伙伴的模型CoOp（ctx=4）# params Base New H2,04876.47 67.88 71.9216825引用[1] Rishi Bommasani，Drew A Hudson，Ehsan Adelli，RussAlt- man，Simran Arora，Sydney von Arx，Michael SBernstein ， Jeannette Bohg ， Antoine Bosselut ， EmmaBrunskill，et al.论基金会模式的机遇与风险。2021年12月28日，香港中文大学出版社。8[2] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101- 用随机森林挖掘判别成分。 2014 年，在ECCV。5[3] Wei-Lun Chao，Soravit Changpinyo，Boqing Gong，andFei Sha.广义零拍学习在野外物体识别中的实证研究与分析。在ECCV，2016年。3[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。3[5] Mircea Cimpoi ， Subhransu Maji ， Iasonas Kokkinos ，Sammy Mohamed，and Andrea Vedaldi.描述野外的纹理。CVPR，2014。5[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。5[7] Karan Desai和Justin Johnson Virtex：从文本注释中学习视觉表示。在CVPR，2021年。3[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。3[9] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。4[10] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写一个分类器：使用纯文本描述的零镜头学习。InICCV，2013. 3[11] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。从几个训练示例中学习生成视觉模型：一个递增贝叶斯方法测试101对象类别。见CVPR-W，2004年。5[12] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov 。 Devise ：一个深度视觉语义嵌入模型。NeurIPS，2013. 3[13] AndreasF ürst ， ElisabethRumetshofe r ， VietTran ，Hubert Ramsauer，Fei Tang，Johannes Lehner，DavidKreil ， Michael Kopp ， GunterKampaue r ， AngelaBitto-Nemling，etal. Cloob：现代Hopfield网络与infoloob优于剪辑。arXiv预印本arXiv：2110.11316，2021。第1、3条[14] Peng Gao ， Shijie Geng ， Renrui Zhang ， Teli Ma ，Rongyao Fang，Yongfeng Zhang，Hongsheng Li，andYu Qiao.夹子适配器：更好的视觉语言模型与功能适配器。arXiv预印本arXiv：2110.04544，2021。1[15] 高天宇、亚当·费希和陈丹琪。使预先训练的语言模型更好地用于少数学习者。 arXiv 预印本 arXiv ：2012.15723，2020。1[16] LluisGomez，YashPatel，MarcalRusinol，DimosthenisKaratzas，and CV Jawahar.自监督学习16826通过将图像嵌入到文本主题空间中来实现视觉特征。在CVPR，2017年。3[17] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR，2020年。3[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。1、4[19] Patrick Helber，Benjamin Bischke，Andreas Dengel，Damian Borth.欧洲卫星组织：土地利用和土地覆盖分类的新型数据集和深度学习基准。IEEE Journal ofSelected Topics in Applied Earth Observations andRemote Sensing，2019。5[20] Ol i v i erJ.H e'na f f ， Ar a vindSrin iv as ， Je f fr eyDeFau w，Ali Raz a vi，CarlDoersch，S. M. AliEslam i和AaéronvandenOord。具有对比预测编码的数据高效图像识别。在ICML，2020。3[21] Dan Hendrycks、Steven Basart、Norman Mu、SauravKada-vath

下载后可阅读完整内容，剩余1页未读，立即下载