没有合适的资源?快使用搜索试试~ 我知道了~
5206线性探头CLIPCoOpProDA(我们的)Zero-ShotCLIP----即时分布学习刘宇宁1*,李建庄2,张永刚1,刘雅静1,田新梅1<$1中国科学技术大学2华为诺亚{lyn 0,yonggang,lyj 123} @ mail.ustc.edu.cn,刘建庄@ huawei.com,xinmei@ustc.edu.cn摘要我们提出了快速分布学习,以有效地适应预训练的视觉语言模型,以解决下游识别任务。我们的方法不仅从少数样本中学习低偏差提示,而且还捕获不同提示的分布以处理不同的视觉表示。通过这种方式,我们提供高质量的任务相关内容,以促进识别。这种提示的距离学习是通过一种有效的方法来实现的,该方法学习提示的输出嵌入而不是输入嵌入。因此,我们可以采用高斯分布来有效地对它们进行建模,并推导出有效训练的替代损失。在12个数据集上进行的大量实验表明,我们的方法一致且显着优于现有方法。例如,每个类别有1个样本,它相对地将平均结果提高了9。与人工制作的提示相比,只有1%1. 介绍视觉语言模型(VLM)的最新进展,例如,CLIP[30]和ALIGN [16]提供了一个有希望的机会来明确地利用人类语言来有效地进行广告下游识别任务。VLM通过对比学习学习图像和文本的对齐嵌入[4,13,39],鼓励图像的表示及其语言描述相似。 在 下游任务,提供任务相关内容,即,类别描述可以通过预先训练的VLM显著地有益于识别,甚至在没有训练样本的情况下执行零触发推理[30]。利用这种语言,VLMs将人类先前的这种方法的识别性能对所提供内容的形式高度敏感然而,这仍然是一个具有挑战性的问题,以阻止-*本工作是在华为诺亚方舟实验室实习期间完成的†通讯作者75706560550 1 2 4 8 16每个类的训练样本数图1.与现有的利用VLM(即,手工制作的提示(zero-shotCLIP [30])和提示调谐(CoOp [48])以及线性探测。我们报告了12个下游数据集的平均结果,这些数据集具有各种训练样本。我们的方法ProDA一致,大大优于以前的提示学习方法。挖掘最佳文本描述。VLM [16,30]使用手工制作的提示模板构建类别描述。默认提示是“一张班级的照片。“,这对于通用对象识别(例如,在ImageNet [7]和STL-10 [6]上)。然而,很难处理细粒度的对象识别。在花卉数据集(Oxford Flowers 102 [27])上,更好的提示选择是“一个类的照片,一种花。” [在这种情况下,提示词从这个角度来看,所提供的文本应适应任务定义的上下文,即,对目标任务的视觉表征的低偏差。然而,手动设计不可避免地引入了人为偏差,并且对于目标任务来说可能是次优的。因此,为不同的识别任务定制合适的提示依赖于专家的重复和耗时的尝试,并且还需要用于提示选择的大型验证集[30]。评分(%)5207----(a) 输入嵌入(b)输出嵌入图2. t-SNE [40]在ImageNet上对50个随机类别的描述进行可视化。每个类别的描述都是由CLIP提供的80个手工提示生成的[30]。为了清晰起见,我们随机选择了10个类别,并用不同的颜色突出显示。其他类别为灰色。(a)文本编码器的输入嵌入,其通过将原始文本馈送到嵌入层中而获得一个类别中的各种描述分散在空间中,导致难以表示它们的分布。(b) 文本编码器关于类别描述的输出嵌入。依靠文本编码器的能力,类别内描述的输出嵌入彼此接近,允许它们以简单的分布进行建模。(Best以颜色查看)。另一个挑战来自视觉内容的多样性。由于姿势、变形和照明条件等固有因素,类别内的各种示例之间存在显著差异[43]。这种类内变化阻止提示充分描述视觉变化。提示是可取的是多样化和信息,允许处理视觉表示的变化。现有的工作[30]集成了80个手工制作的提示来预测ImageNet上的类别[7],包括“一个小班的照片”。“,“一个大班级的照片。”, 然而,它仍然具有手工设计的局限性,需要进行一些努力来选择适当的但可能是次优的提示集合。我们提出了PROmpt分布学习(ProDA)作为一种自动学习不同的提示从数据,它可以有效地适应预先训练的VLM下游识别任务的方式。作为一种数据驱动的方法,ProDA从一些下游样本中学习软提示*,发现与任务相关的内容,其偏差小于人工设计。此外,我们的ProDA不是学习一个软提示[48],而是估计各种信息提示的分布,以捕获视觉表现的变化 通过这种方式,我们的方法可以更好地推广到各种未知样本(图1)。1)。此外,我们明确区分结构和语义的提示,以进一步提高其多样性。鉴于即时分布学习的目的,如何有效地进行学习是一个挑战。考虑到软提示符是一个令牌序列(每个令牌由一个向量表示),精确建模依赖于*软提示,也称为连续提示,表示原始(离散)提示的(单词)嵌入。一个复杂的序列生成模型[3,38],需要大量的目标样本进行训练。此外,提示的随机性质导致目标任务的分类模型的权重是随机变量,导致分类损失的精确计算是棘手的(在第2节中讨论)。3.2)。为了解决这个问题,我们采用了一种有效的解决方案,它学习了提示符(带有类名)的输出嵌入的分布,即,目标分类器的权重,而不是学习提示的输入嵌入的分布。潜在的直觉是,尽管一个类别中的各种描述在原始文本(或低层次嵌入)中有显著的不同(图1)。2a),他们的高层次嵌入通常是相邻的(图。2b),其可以使用简单分布来建模,例如本文中的多变量高斯分布。此外,基于高斯分布假设,我们提出了一个替代目标,一个上界的原始优化目标,有效的训练,避免了棘手的计算。我们在12个数据集上进行了大规模的实验,以证明我们的方法的有效性,它具有一致的和显着的改善,现有的基线。例如,每个类别1个样本的ProDA相对地将平均结果提高了9。与人工制作的提示相比,只有1%2. 相关工作视觉语言预训练模型。建立可转移和可用的识别模型的一种有前途的方法是视觉语言预训练,它学习图像内容和语言之间的联系。很多方法试图通过预测字幕来学习表示5208··||||·||||·c=1--Σ∈∈∈i=1Lx1EC各种下游视觉识别任务。 没有--c=1ei∈i,yi图像[8,18,22,34,46]。它们的主要障碍是训练数据的大小。模型在相对小的数据集上训练(例如,Flickr [18]和COCO Captions [8]),限制了它们的性能。最近,基于对比学习的VLMs这些方法CLIP [30]和ALIGN [16]通过对比度损失来学习图像和文本的对齐表示,该对比度损失将匹配的图像-文本对的表示拉近并将不匹配的图像-文本对的表示推远。基于自然语言的监督,这些VLM不仅学习强大的视觉表示,而且很容易转移到各种下游任务。快速学习。快速学习/工程源于自然语言处理(NLP)的最新进展一种用于利用预训练语言模型的新型基于迁移的范式[3,17,21,23,29,35,36]已经逐渐取代了NLP中传统的微调转移方法[10,31提示学习的主要思想是通过采用不同的提示模板,将各种NLP任务形式化为掩蔽的语言建模问题,类似于语言模型的预训练[9,30,32]。CLIP [30]作为我们的预训练模型。3.1. 预赛VLM由图像编码器f()和文本编码器g()组成。我们表示z=f(x)/f(x)2和w=g(t)/g(t)2,它们分别是图像x和文本t的归一化输出嵌入。注意t是输入嵌入(文本编码器的),通过将原始文本馈送到嵌入层而获得。在预训练阶段,CLIP利用对比度损失对大量的图像-文本对进行训练,将匹配的图像-文本对看作正的,不匹配的图像-文本对看作负的。提示设计。给定预先训练的模型f()和g(),CLIP[30]通过手动设计提示模板对下游识别任务执行零触发推理 给定下游任务的类名称,类别描述tcC将使用预定义的提示符生成,例如“类的照片”。”, where 然后,我们可以预测测试样本x的类别,预测概率为:zT w/τ发现适当的提示是这一行工作的核心前期工作[3,29,32]精心设计ep(y|x)=Cc=1y、(1)ezTwc/τ人工制作的提示,这被称为提示工程。由于手动设计是敏感和困难的,一系列方法[17,36]专注于在自然语言空间中自动生成所需的(离散的)提示。最近,一些作品[12,21,23,47],也被称为提示调整,试图直接学习软(连续)提示,而不是搜索离散提示。虽然快速学习在NLP中受到了相当大的关注预先训练的VLM [16,30]引入手工制作的提示,以对下游任务执行零触发推理。并发工作(CoOp [48])采用NLP的提示调整方法,通过最小化目标任务的分类损失来学习软提示。CoOp与我们的方法相似,因为两种作品都以数据驱动的方式学习提示。然而,学习单一提示[48]忽略了视觉表征的多样性,这对捕捉视觉内容的各种变化具有挑战性相比之下,我们的方法学习不同提示的分布,从而获得更好的泛化。我们其中z研发和WCRd是归一化嵌入-d是输出嵌入的维数,τ是温度τ。 w1:C=[wT,...,可以认为是线性分类器的权重,其用于对图像x进行分类。提示调整。生成目标分类器的权重w1:C的替代方式是提示调优,其从目标任务上的几个样本中学习合适的提示。提示调优最初是为了探索预训练语言模型[21]。最近,一个并发工作[48]使用它来学习VLM的适当提示,而不是手动设计它。给定一个可学习的连续提示PRp× e,随机初始化,其中p是标记数,e是输入(单词)嵌入的维数,通过连接每个类名和提示符的嵌入来获得每个类的描述tc(PP. 然后,利用所生成的权重向量w1:[wT(P),.,wT(P)]T,其中wc(P)=g( tc(P)),我们可以1C平均成绩相对提高8. 在12个数据集上,与单次激发设置中的CoOp相比,为5%用几个训练样本学习提示Ptr={(xi,yi)}M通过最小化以下目标:3. 方法在本节中,我们介绍了快速分布学习-(P)=Ei,yi[− logp(yi|xi,wl:C(P))](2)ezTwy(P)/τing(ProDA),它有效地适应了预先训练的VLM我=x−logC我zTwc(P)/τ、(3)为免失一般性,我们采用公开实施†CLIP在预训练中学习τ。我们在下游任务中固定τ。5209……可学习. . . . . - 是的- 是的提示类Nk=1k=1Pk=1|PPKE中国PP我 我 1:Ci,yi1:Ccei--我我类名狗鸟猫类类图3. ProDA体系结构概述。类名称和各种可学习的提示被集成以在下游识别任务上生成不同的类别描述这些描述的输出嵌入作为线性分类器的权重给定权重分布,我们可以最小化经验分类误差并预测测试样本的类别。其中zi是xi的归一化嵌入。请注意,在学习过程中,预训练模型的所有参数都被冻结。在学习之后,提示调整利用学习到的提示P来生成目标分类器并对测试样本进行分类。bution is effective to model the representations learned byneural networks.具体来说,我们假设(µ1:C,1:C)是权重w1:C的“真实”分布。 我们维护一个可学习的连续提示符集合PK<${Pk}K。平均3.2. 学习Prompt分布为了处理不同的视觉变化,我们的方法ProDA的目的是学习各种提示的分布。直觉上,我们应该学习一个最优的即时分布,p(P),其最小化经验分类损失。在这种情况下,分类器权重w1:C(P)遵循由p(P)和下一个编码器g(·)确定的分布,结果是:并且“真实”权重分布的协方差图3展示了我们模型的架构。接下来,我们提出一个有效训练的替代损失。优化. 学习权重分布依赖于学习最优提示集合PK。给定在预测概率p(y|x)成为边际K个分类器的权重{w1:C(Pk)}K,我们似然EP[p(yx,w1:C(P))].不幸的是,显式计算这种边际可能性是棘手的,这重新求P上的积分。在P是离散随机变量的特殊情况下,计算是可能的。然而,它限制了对整体提示的学习。更多-此外,学习提示的准确分布是困难的,可以估计均值µ1:C(K)和协方差矩阵µ1:C(K)。通过最小化经验分类损失来训练提示收集:L(P)=的E双对数Ep(y|(x,w)需要复杂的序列生成模型[3,38]。在这项工作中,我们提出了一种有效的方法来indi-通过学习分布,正确学习即时分布i i1:C=x−logwEezTwy/τzTwc/τ(五)分类器权重的分配,即,输出嵌入的类别描述。 虽然提示P的原始分布是复杂的,但在类别内生成的权重wc(P)是相邻的,如图所示。2b,其可以用多元高斯分布建模。最近的工作[24,25,41,45]表明,高斯分布-其中w1:C(1998)K),K1:C(K))。然而,即使是高斯分布,然而,边际似然的精确计算在多类情况下仍然是棘手的[33,42]。为了解决这个问题,我们推导出一个有效的优化损失的上限。预先训练的视觉语言模型估计权重分布文本编码器图像编码器生成类别描述x为ohW类5210我我LDP6:对小批量{(x,y)}ii进行采样|b=1Pb=1×b=1--k=11k=1C我J我K(K−1)i=1j=i+1ceiC c=1L--LL--命题1假设w1:C=[wT,.,wT]T∈RdC[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][19 设k(PK)为1K KKw和w的协方差矩阵,μ(PK)是以下各项的平均值Ls o(P)=0||、(8)wi,且Ai,j= ii+ jj− ij−ji。 那么它认为其中<,·,·>表示余弦相似度y。那么总ezTµy(PK)/τKi,yi我我我训练损失是:L(P)≤xE-logΣzTµc(PK)/τ+zTAc,yz/2τ2(六)L=Lupper+λLso,(9)上半部分(PK)。(七)证据在我们的补充材料中提供。通过最小化upper,我们的方法有效地训练提示集合,用于估计权重分布,用于预测测试图像样本的类别。推理。给定学习到的提示PK,分类器权重w1:C遵循N(μ1:C(PK),μ1:C(PK))。类其中λ是超参数。 我们设置λ = 0。1对于所有实验-暗示。ProDA训练的算法11:要求:图像帧的预三角化VLM编码器文本G2:Require:目标任务的训练集tr第三章: Require:类名的输入词嵌入{e}C一个测试样本的预测概率- ity EW1:C[p(y|x,w1:C)]。虽然显式计算-4:随机初始化提示集合K5:对于t=0到T,问题是棘手的,一些数值近似可以用于推理。一个简单的方法是MonteBxi=17: 计算zi= f(xi),i=1,...,B x从D树Carlo [33,42],需要对多个分类器进行8: 对小批次进行取样{Pb}BP 关于PK权重,但它会导致增加的推理计算。9:组合Pb=1b和类名ec生成类在我们的实验中,我们发现简单地使用权重分布的平均值进行分类效果很好,即,通过p(yx,E(w1:C))进行预测。它还允许我们的方法没有额外的计算开销进行推理。描述t c(Pb),c=1,., C; b=1,.., B P第10章:计算wc(Pb)=g(tc(Pb)),c=1,.., C;b=1,..,BP11: 令w1:C(Pb)=[wT(Pb),.,wT(Pb)]T1C3.3. 改善即时多样性由于权重分布的参数是从提示集合估计的,所以提示的质量影响所获得的分布。多样的提示语可以更充分地描述视觉内容,提高测试样本的泛化能力.这项工作[44]表明,不同的分类器能够增强泛化。为了进一步提高提示的多样性我们明确区分了PK的提示。位置多样性。组合提示和类别名称的常用方法是将类别名称放在提示的末尾然而,生成的文本描述是有偏见的。为了提高生成的文本描述的多样性,我们在不同提示的前、中、尾位置插入类别名称。在我们的实验中,这三种类型在K上的比例分别为1/4、1/4和1/2。语义相似性。不同的提示应代表不同的内容。一种自然的方法是鼓励它们具有不同的语义。我们输入提示图12: 计算BP的均值μ和协方差矩阵μ向量w1:C(Pb)BP第13章:计算根据Eq.(七)第14章:计算根据Eq。(八)15:根据等式计算总损失(九)第16章:你是我的女人 通过梯度下降17:结束3.4. 执行除非另有说明,否则我们采用具有ResNet-50 [14]视觉骨干的公开可用的CLIP模型作为我们的预训练模型(d=1024)。为了减少内存消耗,我们在每次训练迭代中从提示集合中随机抽取一批提示PbB,而不是使用所有提示。这些B提示和C类别名称耦合产生B C类别描述,其用于形成用于估计分类器权重的分布的B然后我们可以最小化Eq。9在这些B提示。在推理中,收集的所有提示都用于估计分类器权重的分布。此外,为了进一步减少内存,{Pk}K,而不将类别名称并入消费。通过这种方式,我们使用1个GPU来训练模型预训练的文本编码器,以获得它们的语义嵌入-在大多数数据集上。 在ImageNet上,我们采用4个GPU来加速,dings {g(Pk)}K. 以下语义正交性验证了训练。算法1提供以下伪代码:损失是用来鼓励提示是不同的:培训程序。5211×ImageNetCIFAR100CIFAR106560555045403530252001 2 4 816每个类的标记训练样本数5550454035302520150 1 2 4 816每个类的标记训练样本数8075706560555045400 1 2 4 8 16每个类的标记训练样本数STL10加州理工学院101斯坦福汽车9590858001 2 4 816每个类的标记训练样本数90858075706560550 1 2 4 816每个类的标记训练样本数7060504030200 1 2 4 8 16每个类的标记训练样本数EuroSATFGVC飞机食品10180757065605550454001 2 4 816每个类的标记训练样本数3530252015100 1 2 4 816每个类的标记训练样本数8070605040300 1 2 4 8 16每个类的标记训练样本数DTD7065605550454035302501 2 4 816每个类的标记训练样本数花1029590858075706560550 1 2 4 816每个类的标记训练样本数牛津宠物908070605040300 1 2 4 8 16每个类的标记训练样本数图4.与两种基于线性探针的方法和线性探针在各种下游任务上的比较。我们的方法始终和显着优于这些方法。4. 实验数据集。我们在12个下游分类数据集上评估了我们的ProDA , 包 括 一 般 对 象 识 别 ( ImageNet-1 k [7] ,CIFAR-10 [20],CIFAR-100 [20],STL-100)。10 [6]和Caltech-101 [11]),细粒度对象识别(Oxford-IIIT Pets [28] , Food-101 [2] , Stanford Cars [19] ,Oxford Flowers 102 [27]和FGVC Aircraft [26]),遥感识别(EuroSAT [15])和纹理识别(DTD [5])。补充材料中提供了每个数据集的详细信息和评价指标每个提示中的令牌数和集合中的提示数分别设置为16和32。提示的批量大小为4。我们使用SGD优化器训练100个epoch的提示。SGD的动量为 0 。 9 . 第 九 条 。 我 们 使 用 线 性 缩 放 规 则 lrImageBatchSize / 5来设置学习率,基数lr=0。001。在大 多 数 数 据 集 上 , 图 像 的 批 量 大 小 为 20 我 们 在ImageNet上使用更大的批量100学习率有一个余弦衰减时间表。我们使用最后一个训练时期的模型进行评估。基线。我们比较我们的方法与现有的两个基于小波变换的方法(零拍CLIP和提示调谐)和线性探头CLIP。零触发CLIP[30]使用手工制作的提示在下游任务上生成目标分类器,如第2节所述。第3.1条每个数据集中应用的提示模板与CLIP [30]相同。我们注意到CLIP使用完整的验证集线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-ShotCLIP线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot线性探头CLIPCoOpProDA(我们的)Zero-Shot评分(%)线性探头CLIPCoOpProDA(我们的)Zero-ShotCLIP评分(%)评分(%)评分(%)评分(%)评分(%)评分(%)评分(%)评分(%)评分(%)评分(%)评分(%)5212EuroSAT+42.5DTD+6.5花102+30.0EuroSAT+6.5DTD+28.8斯坦福汽车+6.2斯坦福汽车+21.1ImageNet+5.5FGVC飞机+19.6CIFAR100+5.5CIFAR100+16.4花102+5.3CIFAR10+9.3FGVC飞机+5.2加州理工学院101+6.8食品101+3.6ImageNet+5.4CIFAR10+2.9牛津宠物+4.5加州理工学院101+2.7STL10+1.9牛津宠物+1.7食品101+1.8STL10+0.80 5 10 15 20 25 30 35 40评分(%)(a) ProDA与手工制作的提示0 1 2 3 4 5 6评分(%)(b) ProDA与CoOp图5. 与基于数据库的方法进行比较。We show the absolute improvement of our approach compared to hand-crafted prompts [30] andprompt tuning (CoOp [48]) on each downstream task.(a)我们将手工制作的提示与我们的ProDA进行比较,每个类别有16个样本(b)将我们的方法与快速调谐方法进行比较,通过它们对各种炮(1,2,4,8和16)的平均结果每个数据集通常有数千个样本,手动设计这些提示[30]。此外,我们遵循CLIP的指导思想,集成多个分类 器 , 以 提 高 零 触 发 CLIP 的 性 能 。 提 示 调 整(CoOp[48])通过最小化分类损失来学习软提示,这将在第2节第3.1条我们的实现获得了比CoOp [48]中报告的结果稍好的结果。对于线性探针CLIP,我们根据训练图像的特征训练逻辑回归分类器。现有的工作表明,在预训练模型的嵌入上训练线性分类器是少数学习的强基线[37]。补充材料中提供了基准方法的细节。评估方案。我们遵循CLIP [30]上的几次传输设置,在每个下游任务中,每个类学习1,2,4,8和16个训练示例从每个数据集的训练集中采样。在训练之后,每个方法都在下游任务的完整测试集上使用相应的度量进行评估。我们报告3次运行的平均结果。4.1. 主要结果图4显示了在12个下游任务上与基线方法的比较。补充材料中提供了更详细的结果所有数据集的平均结果见图。1.一、我们还提供了一个总结,我们的方法相比,图中的两个基于神经网络的方法五、所有方法都采用相同的预训练CLIP模型。与手工制作的提示(零镜头)相比CLIP),我们的方法大大提高了性能。我们的ProDA将平均结果相对提高了9。1%,每类1个训练样本,25%,每类16个训练样本。在EuroSAT和DTD等不常见的数据集中,相对改善更为显著(在1次激发设置中为40%和25%我们认为,对于这些特殊的图像(遥感或纹理图像),选择基于人类经验的提示这些结果支持了我们学习低偏差即时分布的动机.此外,我们的方法始终显著优于CoOp。我们有8个。5%的相对平均性能改善,1杆和4。3%在16次拍摄中与之配合。这些结果表明,学习不同提示的分布对处理视觉内容的多样性是必要的。与线性探针CLIP的比较表明了在少数情况下使用类别名称进行识别的好处。 在单次拍摄中,我们的方法比线性探针CLIP(67. 0%对37。8%)。自然语言提供密集的任务相关信息,而不是图像。我们的研究结果表明,快速学习是一种有效的方式来解决视觉任务。总体而言,我们的方法ProDA大大优于其快速学习/工程师同行。这些结果证明了我们的方法的有效性,该方法可以学习低偏差和多样化的即时分布。他们还指出,利用自然语言来提供任务相关的内容可以是一个有前途的范例,以有效地解决下游识别任务。5213L每个类别的训练样本数1 2 48 16555351表1.我们的ProDA方法的消融研究我们显示了各种训练样本的12个w/oupper:通过将分类器权重的平均值视为整体权重来计算标准分类损失,而不学习权重分布;无位置分区:所有提示都在最后与类别名称相结合;不含SEM。北:不使用语义正交损失Lso。49474543412 4 8 16 32提示次数(对数标尺)文本bsz每个类的训练样本数1 2 4 8 16小批量提示所有提示1×8×74.674.476.476.378.378.379.679.780.981.0表2. 采样小批量提示。我们将采样策略与使用CIFAR-10上的所有提示进行了比较[20]。4.2. 消融研究在本节中,我们消融了我们提出的ProDA中的不同组件重量分布。学习多样性提示的另一种方式是聚合由多个提示生成的分类器,并使用标准分类损失来优化提示表1显示了我们的方法和该策略的比较。Our methodconsistentlyoutperformsit,demonstratingtheeffectiveness of learning the weight dis- tribution. 我们发现,这种策略也明显优于提示调整[48],这支持了我们学习不同提示以捕获视觉内容的动机。多样性限制。表1显示了提示多样性约束对识别性能的影响。鼓励不同位置的提示提高了平均分数。此外,正交约束提示语义也略微提高了性能。可学习的提示数。图6显示了提示数量对CIFAR-100[20]识别结果的影响。更多的提示可以提高下游任务的性能。提示数量的增加带来了更多样化的描述,能够充分表现视觉变化。采样小批量提示。我们在每次训练迭代中对小批量提示进行采样,以减少内存开销,而不是使用所有提示。如表2所示,与使用所有提示相比,采样策略具有类似的结果。但是,使用所有提示符需要八个图6.提示次数。 我们展示了ProDA在CIFAR-100 [20]上使用不同镜头的结果。更大的即时收集导致改进。更多的提示可以更精确地估计提示分布。是输入文本大小的两倍,受GPU内存大小限制。5. 讨论和结论本文提出了一种新的提示学习方法,学习不同的提示分布,以解决下游的视觉识别任务与预先训练的VLM。自然语言的快速学习是自然语言学习的一个很好的切入点,近年来引起了人们的广泛关注.我们相信它对计算机视觉也至关重要,一种有效解决视觉任务的有前途的方法。图像的信息不像语言那样抽象,这加剧了在有限的视觉监督下学习概念的难度而人类生成的语言具有信息密集、语义丰富的特点.通过这种方式,一些文本描述能够提供相当多的与任务相关的内容。我们的方法证明了对线性探测器的实质性改进,线性探测器是少量学习的强基线。我们希望我们的方法将激励未来的工作。限制. 本文提出的即时分布学习主要针对对象/图像识别。计算机视觉还有许多其他的任务,如目标检测、语义分割、图像风格转换等。我们目前的方法无法适用于这些任务。我们相信,通过专门的修改,我们的方法可以帮助其中一些,这将在未来的工作中进行研究。确认本研究得到了国家自然科学基金项目No. 61872329和MindSpore [1],这是一种新的深度学习计算框架。ProDA,1次注射ProDA,2次注射ProDA,ProDA,8次注射ProDA,16发评分(%)57[第48话]61.864.767.971.073.9Oursw/oLupperOursw/o pos. div.65.866.668.869.471.671.874.274.376.676.6我们的没有扫描仪。奥斯特66.869.672.274.576.85214引用[1] 心灵孢子https://www.mindspore.cn/网站。8[2] Lukas Bossard,Matthieu Guillaumin,and Luc J.范古尔Food-1012014年,在ECCV。6[3] 汤姆湾Brown,Benjamin Mann,Nick Ryder,MelanieSub biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan-tan , Pranav Shyam , Girish Sastry , AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh , Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、AlecRadford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在NeurIPS,2020年。二、三、四[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。1[5] Mircea Cimpoi , Subhransu Maji , Iasonas Kokkinos ,Sammy Mohamed,and Andrea Vedaldi.描述野外的纹理。CVPR,2014。6[6] 放大图片作者:Andrew Y.Ng和Honglak Lee。无监督特征学习中单层网络的分析载于AISTATS,2011年。1、6[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。一、二、六[8] Karan Desai和Justin Johnson Virtex:从文本注释中学习视觉表示。在CVPR,2021年。3[9] Jacob Devlin , Ming-Wei Chang , Kenton Lee , andKristina N.图坦诺娃Bert:用于语言理解的深度双向变换器的预训练。在NAACL,2018年。3[10] Li Dong , Nan Yang , Wenhui Wang , Furu Wei ,Xiaodong Liu,Yu Wang,Jianfeng Gao,Ming Zhou,and Hsiao-Wuen Hon. Unified language model pre-trainingfor natural language understanding and generation.神经信息处理系统,第32卷,第13042-13054页,2019年3[11] 李飞飞,罗伯·费格斯,皮埃特罗·裴罗纳。从几个训练示例中学习生成视觉模型:一个递增贝叶斯方法测试101对象类别。CVIU,2007年。6[12] Xu Han,Weilin Zhao,Ning Ding,Zhiyuan Liu,andMaosong Sun. Ptr:提示调整与文本分类规则. arXiv:2105.11259,2021。3[13] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。1[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。5[15] Patrick Helber , Benjamin Bischke , Andreas Dengel ,Damian Borth. Eurosat:土地利用和土地覆盖分类的新型数据集和深度学习基准。J-星星,2019年。6[16] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaParekh,Hieu Pham,Quoc Le,Yun-Hsuan Sung,ZhenLi,and Tom5215杜里格通过噪声文本监督扩展视觉和视觉语言在ICML,2021。第1、3条[17] 作者:Frank F. Xu,Jun Araki,和Graham Neu- big.我们如何知道语言模型知道什么。在EMNLP,2020。3[18] Armand Joulin,Laurens van der Maaten,Allan Jabri,and Nicolas Vasilache.从大型弱监督数据中学习视觉特征。在ECCV,2016年。3[19] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。载于ICCVW,2013年。6[20] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告,2009年。六、八[21] Brian Lester,Rami Al-Rfou,and Noah Constant.规模的力量参数高效的即时调整。arXiv:2104.08691,2021。3[22] Ang Li,Allan Jabri,Armand Joulin,and Laurens vander Maaten.从Web数据中学习视觉n-gram。InICCV,2017. 3[23] 李香丽莎和梁佩西。前缀调谐:优化生成的连续提示。在ACL,2021年。3[24] Yajing Liu , Zhiwei Xiang , Ya Li , Yunning Lu ,Zheng-Jun Zha.并域泛化的类别缝合学习。汤姆,2022年。4[25] 刘雅静,熊志伟,李亚,田新梅,查正军.通过统一潜在空间中的编码和重新采样进行领域泛化。TMM,2021年。4[26] S. Maji,J. Kannala,E. Rahtu,M. Blaschko和A.维达尔迪飞机的细粒度视觉分类。arXiv:1306.5151,2013年。6[27] M.- E. Nilsback和A.齐瑟曼。在大量类别上的自动花载于ICVGIP,2008年。1、6[28] Omkar M Parkhi、Andrea Vedaldi、Andrew Zisserman和C.贾瓦哈尔猫和狗。CVPR,2012。6[29] FabioPetroni,TimRockt aüschel ,PatrickS. H. 作者:Le wis,AntonBakhtin,Yuxiang Wu,Alexander H.米勒和塞巴斯蒂安·里德尔。语言模型作为知识库。在EMNLP中-IJCNLP,2019年。3[30] Alec Radford、Jong Wook Kim、Chris Hallacy、AdityaRamesh 、 Gabri
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功