没有合适的资源?快使用搜索试试~ 我知道了~
14084基于视觉语言模型于杜1方云伟2<$张子和1施妙静3<$高跃2李 国奇11清华大学2微软亚洲研究院3伦敦国王{duyu20,zh-zhang17} @ mails.tsinghua.edu.cnliguoqi@mail.tsinghua.edu.cn{fawe,yuegao} @ microsoft.commiaojing. kcl.ac.uk摘要最近,视觉语言预训练在开放词汇表对象检测中显示出巨大的潜力,其中设计了在基类上训练的检测器来检测新的类。类文本嵌入首先通过向预先训练的视觉语言模型的文本编码器馈送提示来生成。然后将其用作区域分类器来监督检测器的训练。这种模式成功的关键在于恰当的提示语,这需要精心的语言调整和巧妙的设计。为了避免费力的提示工程,有一些提示表示学习方法被提出用于图像分类任务,然而,当应用于检测任务时,这些方法只能是次优的解决方案。在本文中,我们介绍了一种新的方法,检测提示(DetPro),学习连续提示表示开放词汇的对象检测的基础上预先训练的视觉语言模型。与以往面向分类的方法不同,DetPro有两个亮点:1)背景解释方案,将图像背景中的建议纳入提示训练; 2)上下文分级方案,分离图像前景中的建议,以实现定制的提示训练。我们将DetPro与最近最先进的开放世界对象检测器ViLD组装在一起,并在LVIS上进行实验,实验结果表明,我们的DetPro在所有设置中都优于基线ViLD[7],例如,在LVIS的新类别上改进了+3.4 AP框和+3.0AP掩码。代码和型号可在https://github.com/dyabel/detpro上获得。1. 介绍目标检测的目的是在图像中定位目标的边界框,并为它们分配标签近†通讯作者。几年来,目标检测[19,20]在解决闭集问题方面取得了巨大成功,即,检测器可以检测训练集中存在的类。为了增加检测词汇,通常的做法是通过收集更多的数据与所需的类。除了这个过程中昂贵的标签成本外,它通常会导致对象类的长尾分布[8,13]:检测器需要精心设计,以避免在数据集中频繁出现的类别上过度拟合。相比之下,用于增加检测词汇表的替代方式是开放词汇表对象检测(OVOD),其中检测器在基类上训练并且配备有检测新类的能力。最近,ViLD [7]引入了一个用于开放词汇对象检测的框架,该框架将知识从预训练的视觉语言模型中提取到检测器中。它受到视觉语言预训练的最新进展的启发,例如CLIP [18]和ALIGN [10],其中两个单独的编码器,即图像编码器和文本编码器,用于最大化图像和相应文本之间的对齐。在ViLD的实现中然后利用嵌入对对象建议进行分类并监督检测器训练。为了执行开集对象检测,基类文本嵌入被替换为基类和新类的嵌入。提示设计,也称为提示工程,在这个过程中是至关重要的,因为我们观察到它的轻微文字变化将最终对检测性能产生明显的积极或消极影响。设计适当的提示需要领域专业知识和仔细的人类词汇调整,如[7]。为了避免这种高端和相当费力的需求,从人类,另一种方法是自动学习提示在本文中,我们提出了一种新的方法命名为检测提示(DetPro)学习提示表示,在开放词汇的对象检测设置与预训练14085视觉语言模型(OVOD-VLM)。最近有一些专注于即时表示学习的作品,如CoOp [38],其目标是基于预训练的视觉语言模型提高图像分类准确性。直接将CoOP应用到OVOD-VLM中是不现实的:图像分类只需要识别输入图像的正确标签,而对象检测需要检测器区分前景和背景,并将前景中的区域提案分类到不同的对象类中。因此,我们引入了一个新的Detec- tion提示(DetPro),以自动学习提示代表在OVOD-LVM的基础上积极和消极的建议w.r.t.图像中的地面真相提示学习在目标检测中面临两个关键问题:1)消极的建议,尽管对目标检测非常重要,但不对应于特定的目标类别,因此不能容易地包括在提示学习过程中。2)与图像分类中的对象在图像中居中且较大不同,正属性中的对象通常与不同级别的上下文相关联为了解决这些问题,我们介绍,• 一种用于否定建议包含的背景解释方案,该方案优化了否定建议的嵌入,使其远离所有其他类嵌入;• 具有定制的正建议的上下文分级方案,其利用对应于不同上下文水平的不同正建议集合来定制我们将DetPro与ViLD组装在一起[7],并在LVIS上进行了一系列实验,并将LVIS训练的模型转移到其他数据集,包括Pascal VOC,COCO和Objects365。在所有设置中,我们的DetPro都优于ViLD,例如,在LVIS的新类别上改进了+3.4 AP框和+3.0 AP掩码2. 相关工作快速学习。近年来,大型视觉语言模型(VLM)的发展,CLIP [18]和ALIGN [10],出现并发现其在少数或零拍摄学习任务中的应用[5,28]。VLM是在从Web收集的大量图像-文本对上训练的,并采用对比学习[11预训练的VLM可以通过微调[16,26]或即时工程[38]转移到其下游任务。特定于任务的提示可以显着提高性能[18],但需要费力的提示工程。受语言任务中提示学习的启发,CoOp [38]提出了上下文优化,以自动化提示工程,用于少数分类。它将提示的上下文建模为从一小组数据中端到端学习的本文通过设计特殊的策略来处理图像中的前景和背景建议,将CoOP扩展到OVOD。当CoOP学习所有类别的样本时,我们的DetPro只在基类上训练,并期望推广到新的类。开放词汇表对象检测。尽管DNN [2,9,12,24]在计算机视觉领域取得了显著的成功,但它们通常需要大量的注释数据才能获得令人满意的目标检测结果[3,14,20,32]。为了减轻DNN在大数据和精细注释上的可靠性,不同的范例,如半监督学习[34],少次学习[25,27,36],zero-shot learning [21,30,33],self-supervised learning[31],开放式学习[6,22,29]和高级培训课程-[17,35]介绍。特别是,对于零炮检测任务,它旨在从可见的类(具有边界框注释)推广到不可见的类。尽管它们已经取得了一些进展,但它们的整体性能仍然远远落后于全监督方法[1,39],因此对其的研究还不蓬勃发展。最近,开放词汇对象检测作为一种比零触发检测更通用和实用的范例出现在舞台上:首先通过对图像-文本对的训练获得概念的无界词汇表,然后要求检测器利用多个基本类的边界框注释的可用性来检测新类。代表性的解决方案包括OVR-CNN[37][38][39][39] OVR-CNN [37]使用图像-标题对的语料库预训练骨干,并仅使用少数对象类别的注释微调检测器,而ViLD [7]直接从预训练的开放词汇分类模型中提取知识我们把我们的工作在OVOD设置和建立我们在ViLD上的解决方案[7]。ViLD使用手工制作的提示来生成类嵌入,而我们设计了细粒度的自动提示学习和特殊的背景解释来找到所需的提示。3. 问题设置DetPro的目标是学习OVOD-VLM的连续提示表示。图1显示了我们的DetPro的概述他们致力于积极和消极的损失图。之后,我们在图2中的最新OVOD管道ViLD [7]上设计DetPro,其中DetPro作为ViLD中建议分类器的替代品,以实现其自动提示工程。数据拆分。我们将检测数据集中的类别分为两个不相交的集合,分别为基类CB和新类CN。14086i=1×CCI·X CCXCT IT·I·不··可学习 固定单词嵌入……RPN[人][沙发][猫]在基类基类嵌入正集合POS.图像嵌入文本编码器……图像编码器[猫][沙发][人]+…GT Box POS. 建议α IoU(GT,P位置)β负集合共享提示表示Neg.图像嵌入Neg. 建议GT Box负损失正损失训练图像(基类)图1. DetPro概述。正损失定义在图像中的正建议的视觉嵌入与其对应的类嵌入之间;而负损失定义在负建议的视觉嵌入与所有类嵌入之间。采用不同的定制正建议集(αIoU(GT,Pos P)<β)学习不同的提示表示,并最终进行集成。我们使用|CB|和|CN|分别表示基类和新类的数量。相应地,我们分别为训练数据集和推理数据集设置了XT和XI[v1,v2. - 是的- 是的vL]可以类似于人类定义的提示的上下文,例如,{vi}L随机初始化为T只包含带有用于训练的注释的基类B,而I包含B和N,用于训练模型从B和N中识别对象。预先训练的Vison语言模型。我们使用CLIP [18]作为我们的视觉语言模型,它由文本编码器组成和图像编码器()中选择。()以一个类的提示表示为输入,输出相应的文本嵌入,在我们的工作中也称为类嵌入;()以一个大小为224 224并输出相应的图像嵌入。检测框架。我们采用Faster-RCNN,ResNet-50和FPN作为我们的检测器。具有与单词embeddingwc相同的维数(在本作品中为512)。学习到的提示上下文[v1,v2. - 是的- 是的 vL]是跨类共享的,这样当一个新类出现时,它的提示表示可以很容易地通过(1)获得。类c的类嵌入tc是通过将Vc馈送到CLIP文本编码器T(·)中来生成的:tc=T(V c).(二)在图像分类任务中,给定图像x,我们可以首先将其送入CLIP图像编码器()以提取其图像嵌入f。 假设该图像属于类别c,则计算f被分类为类别c的概率4. 方法如:exp(cos(f,tc)/τ)(三)我们首先回顾了图像pc=Σi∈CB、exp(cos(f,ti)/τ)分类,然后我们提出了我们的DetPro在对象检测,最后,组装到ViLD的OVOD。4.1. 标签:Prompt原始CLIP [18]提供了人类定义的提示,例如: 在特定情况下,[CLASS]被替换为类名,如识别适当的提示是一项重要的任务,这通常会花费大量的时间进行单词调整。为了绕过它,CoOp [38]提出自动学习提示表示。给定类c∈CB的可学习提示表示Vc定义如下:Vc=[v1,v2. - 是的- 是的 vL,wc],(1)其中vi表示第i个可学习上下文向量,wc是基类c的固定类标记,L是上下文长度。其中τ是温度参数,cos(,)表示余弦相似性。 交叉熵损失被应用于优化[v1,v2。- 是的- 是的 当I(·)和T(·)都固定时:Lp= −log p c。(四)4.2. 检测提示简单的解决方案。 对象检测不同于图像分类,因为对于每个训练图像,我们在对象的真实边界框上提供了类标签,对于每个测试图像,我们需要定位对象的边界框并预测它们的类标签。为了使提示表示学习策略CoOP [38]适应检测任务,直接的方法是模拟其工作的分类场景:给定图像x,我们将其裁剪的地面实况边界14087框送入CLIP14088I·ΣI·ΣCNI·N N BP|C|P P FBFGGB12升−图像编码器()以分别获得框嵌入f。每个地面实况框只属于一个对象类c;我们用G表示所有地面实况边界框任何对象类。因此,损失函数被公式化为,|1|1而不是图像。然后,我们可以遵循相同的等式(3,4)来学习G上的区域级分类器。该分类器可以Ln=−c=1wlogpnc,w=|C B.(五)|可以进一步与已建立的对象检测流水线(例如,更快的R-CNN),在第4.3节中指定。这种天真的适应可以在一定程度上工作,但只是一个次优的解决方案:除了地面实况边界框之外,图像中的丰富信息已经被丢弃,包括前景和背景建议,然而,这对于学习鲁棒的区域级(亲)分类器进行检测至关重要细粒度解决方案。为了利用图像处理,我们首先在基类CB上训练一个RPN来提取背景解释的另一种方法是学习独立的背景提示表示Vbg,它类似于类c的Vc,但没有类to- ken:Vbg=[vbg,vbg,. - 是的- 是的 ,vbg]。(六)同样,我们使用Eq。2以生成背景嵌入tbg,并将否定建议n馈送到()中以生成f n。概率pnbg计算为:exp(cos(fn,tbg)/τ)p =.从XT。前景提案F是那些其IoU w.r.t.G中的一个地面真值大于阈值,NBGBc=1 exp(cos(fn,tc)/τ)+exp(cos(fn,tbg)/τ)(七)I.E. 0.5,而背景提案是负面提案,其IoU w.r.t.所有的地面实况都小于阈值。我们称之为和正命题的结合,即=和消极建议设置,即=. 对于一项提案,,除非是其内部目标对象是紧密绑定的地面实况,它通常包括对象的一大部分,具有相当大的周围环境。因此,积极的建议在上下文中有很大的不同,这取决于它们的IoU w.r.t.。地面真相这将导致在将它们送入()时出现不同的视觉嵌入。因此,不同的提示表示也应该学习专用于不同的提示上下文。为了解决这个问题,我们引入了一个上下文分级方案与定制的积极的生产率(稍后指定)。另一方面,对于一项提案,它主要包含背景,可能包含一小部分目标对象。背景没有特定的类名,因此不能直接获得其提示表示(在等式中没有wc1),也没有它的类嵌入。在目标检测中,否定建议起着非常为了利用它们在我们的检测提示,我们引入了一个背景解释计划,为负的建议列入。下面我们详细介绍一下。用于否定提议包含的背景解释。背景可能包含一些对象类,但它们通常不能被识别为太小、太不完整或太模糊的结果换句话说,给定一个否定的建议n,它通过I(·)的图像嵌入fn应该不同于通过T(·)的其他类的任何文本嵌入tc。fn被分类为c类的概率pnc通过等式计算。3 .第三章。我们希望任何pnc都很小;实际上,因为B是大的,我们可以简单地优化任何pnc,1.一、这就迫使否定的建议同样不同|C B|负损失定义为:Ln= −log pnbg。(八)这种替代方式不如第一种方式。背景内容可能变化很大,第二种方法学习一个显式的背景嵌入,让所有的负面建议都接近它,这是不够的。相比之下,在第一种方式中,它被隐式地解释为让每个否定提议远离所有其他类嵌入,这可以更鲁棒。背景评分与量身定制的积极建议。一个积极的建议可以结合不同的上下文。目标对象。这种差异在提示上下文中可以是类似的:给定对象类的地面真值边界框,我们可以说“a photo of”和“a photo of partial”的学习提示上下文表示它们应分别根据不同层次的语境提出积极的建议。为此,我们引入了一个前景上下文分级计划与量身定制的积极建议具体地说,我们将IoU范围[a,b]的积极建议划分为K个不相交的组,IoU间隔为t,使得K=(ab)/t。 前台上下文将在不同的群体中进行分级,这样,积极的提议-每个组内的AL具有类似的上下文级别w.r. t。各自的真相因此,我们独立地学习K组中的即时表示。在第k个组内,我们遵循相同的等式(3,4)来提取视觉嵌入fp,计算概率ppc,并针对内部类别c的任何正提议p优化正损失Lp相同的否定建议集N被包括到每个组中14089培训图像编码器RPNRPN建议通过DetPro的提示表示类嵌入文本基类编码器…新类基类类嵌入相似性相似性RPN预测推理文本标题合奏成像头交叉熵文本标题蒸馏成像头ΣL LΣLCLT·LLT·C……图2.使用ViLD组装DetPro。DetPro以天蓝色背景突出显示。我们省略了训练和测试管道中的类不可知的边界框回归分支和掩码预测分支。使得每个组内的最终损失函数是,用于后续损失计算。有两种损失:对于文字头,余弦相似度之间的ROI=1|N|n∈N1n+ |P K|Lp.(九)p∈Pk计算特征和基类嵌入以用于分类,并采用标准交叉熵损失文本。至于图像头分支,我们裁剪和调整建议在每个组中学习提示表示Vk由RPN生成,并将它们输入I(·)以生成-对于C类。 最后,学习的表示是按平均值在K组上集合,使得Vc=ate图像嵌入。L1损失(即,图像)被应用于最小化图像嵌入和1ΣKVK。通过图像头部提取相应的RoI特征的4.3. 将DetPro组装到ViLD上ViLD [7]是OVOD的最新框架它将CLIP [18]中的知识提取到两级检测器中,即,更快的R-CNN [20].图2显示了使用ViLD组装使 用DetPro 训 练ViLD 。A learned DetPro gener- atesprompt representation based on Eq.1表示基类,我们可以将其输入到()中以生成基类嵌入。嵌入被用作检测器的建议分类器。在ViLD之后,我们聘请了两名R-CNN负责人(子分支),即图像头和文本头。图像头从CLIP图像编码器中提取知识,而文本头通过我们的基类嵌入(固定)加上可学习的背景嵌入(参见图2)来替换原始的R-CNN分类器。我们简要描述了训练过程,如[7]:对于RPN生成的每个区域建议,我们分别将其通过文本头和图像头,以提取两个RoI图像嵌入的生成可以通过使用预先训练的RPN离线执行。整体分类损失是文本和图像的加权和。此外,我们将第二阶段的类特定边界框回归和掩码预测层替换为类不可知的模块。在训练期间还使用标准回归损失和掩码预测损失。使用DetPro推断ViLD。在推理阶段,我们使用Eq。6来生成基类和新类的提示表示,通过将提示表示馈送到()中来提取类嵌入。由于共享的上下文向量,DetPro优化的提示表示可以很好地推广到新的类,尽管只在基类上训练。给定一个测试图像x,RPN首先生成一组建议。我们通过文本头和图像头传递每个建议,以提取两个RoI特征(见图2)。对于每一个,我们计算它与所有类嵌入的余弦相似度,以获得置信度得分。x的最终概率是两个置信度的几何平均值Kk=114090∼方法时代检测APrAPcAP f实例分割APrAPcAP f监督(基地)200.026.134.024.70.024.729.822.4监督(基础+小说)2015.525.533.627.016.424.630.625.5ViLD(基础)[7]46016.726.534.227.816.624.630.325.5ViLD*(基础)[7]2017.427.531.927.516.825.628.525.2DetPro(底座)2020.827.832.428.419.825.628.925.9表1.在LVIS v1数据集上与ViLD进行比较* 表示我们的重新实现版本,有关详细信息,请参见第5.2 频繁和常见的类被用作基类,而罕见的类被作为新类。 APr是开放世界对象检测的主要评价指标。方法Pascal VOCAP50AP75APAP50CocoAP75APmAPlAPAP50学生寮365AP75APmAPl监督78.549.046.567.650.927.167.677.725.638.628.016.028.136.7ViLD*[7]73.957.934.152.336.521.638.946.111.517.812.34.211.117.8DetPro74.657.934.953.837.422.539.646.312.118.812.94.511.518.6成绩.表2.我们在Pascal VOC测试集,COCO验证集和Object365验证集上评估LVIS训练的模型cator,我们也报告了APf和APc的结果而5. 实验5.1. 数据集和评估指标我 们 在 LVIS v1 [8]数 据 集 上进 行 了 主 要 实 验。DetPro及其开放词汇对象检测器是在LVIS基类上训练的。我们在LVIS小说课上评估我们的方法。同时,我们进行了转移实验来证明我们的方法的泛化能力,并在Pascal VOC [4]测试集,COCO [15]验证集和Ob-jects365 [23]验证集上评估了我们的LVIS训练模型。LVIS V1数据集。LVIS v1是一个具有长尾数据分布的大规模对象检测数据集。它根据类别在训练集中出现的频率将其分为“频繁”,“常见”,“罕见”。在ViLD [7]之后,频繁和常见的类被用作基类(866个类),而罕见的类被用作新类(337个类)。Pascal VOC数据集。Pascal VOC是一个用于对象检测的数据集(包括VOC 2007和VOC 2012),包含20个对象类别。可可COCO是一个标准的数据集,包括80类自然环境中的常见对象。它包含118k图像,带有边界框和实例分割注释。遵循ViLD [7],实例掩码没有计算。Objects365数据集。Objects365是一个全新的大规模目标检测数据集,包含365个类别和高质量的边界框注释。评估指标。我们使用平均精度(AP)来评估目标检测和实例分割的性能。对于LVIS实验,APr是主要指标,对于PascalVOC、COCO和Ob-jects 365上的转移实验,我们使用AP、AP50、AP75、APs、APm和APl作为评估指标。5.2. 实现细节DetPro。除非另有说明,否则我们使用DetPro的以下设置:上下文长度为8;最后的类令牌; 10%的背景提案;通过Eq. 五、通过从标准偏差为0.02的零均值高斯分布绘制我们选择初始学习率为0.002的SGD优化器,该初始学习率我们训练我们的DetPro为6 epochs。ViLD和物体探测器。 我们使用带有ResNet-50和FPN的Mask R-CNN作为检测器。该模型在8个GPU上训练,每个GPU有2个图像。使用同步批处理归一化。我们使用SGD作为优化器,动量和权重衰减分别设置为0.9和为了与最先进的方法进行比较学习率初始化为0.02,分别在第16个时期和第8个时期除以10,用于20个时期和12个时期的时间表。对于前500次迭代执行具有0.001的学习率的预热步骤。我们重新实现了ViLD[7],命名为ViLD*,用自我监督的预训练SoCo [31]取代预训练的ResNet-50,在ViLD的原始实现中,整个训练过程需要多达180,000次迭代,批量大小为256,大约460个epoch,这是负担不起的。在我们的重新实现中,训练时间从460减少到20,同时实现了相当的性能。14091战略APrAPcAPfAPDetPro w/o BG 16.9 25.1 27.724.7DetPro-LearnableBG 15.325.427.9 24.6DetPro-SoftBG19.1 25.4 28.2 25.4背景提案表3.关于将消极建议纳入我们的DetPro的不同策略的消融研究。视觉语言模型我们使用公开可用的CLIP1作为预训练的视觉语言模型。我们采用ViT-B/32作为图像编码器。5.3. 主要结果在LVIS v1数据集上进行实验。表1显示了与LVIS v1数据集上ViLD的比较。我们的ViLD重新实现版本(表示为ViLD *)与原始实现相比实现了相当的AP,同时将训练时期从460减少到20.请注意,我们在APr上的性能甚至略高,而原始ViLD 的 高 APc 和 APf 是 由 于 长 训 练 计 划 ( 约 460 个epoch)的大规模抖动增强。我们的DetPro在对象检测上将基线ViLD* 提高了+3.4 APr,在实例分割上提高了+3.0 APr。转移到其他数据集。 在ViLD [7]之后,我们进行了将LVIS训练的DetPro转移到其他数据集的实验,即PascalVOC 2007测试集,COCO验证集和Objects365 v1验证集,通过直接替换类令牌。如表2所示,我们的DetPro改进了Pascal VOC,COCO和Objects365上所有三个数据集的基线ViLD*,证明了我们DetPro的有效性和通用性。5.4. 消融研究我们使用LVIS设置,其中我们的模型在LVIS基础类上进行训练,并在LVIS罕见类上进行评估,用于所有消融研究。我们报告实例分割的结果。以APr作为评价DetPro泛化能力的主要指标。不同的背景解释。如第4.2节所述,我们引入了两种策略来包含阴性(背景)提案,即DetPro-SoftBG(公式10)。5)和DetPro-LeanableBG(等式第7、8段)。表3比较了两种变体,基线名为Det- Pro w/o BG,其中既不使用负集也不使用负损失。DetPro-SoftBG通过以下方式+2.2APr,说明了适当地引入背景的重要性。我们观察到DetPro-LearnableBG比基线差-1.6APr。我们推测背景内容可能变化很大,学习一个显式的背景嵌入,让所有的负pro-bands接近它,这可能是不够的。1https://github.com/openai/CLIP表4.删除DetPro培训中涉及的背景提案数量GT FG BG APrAPcAPfAP✓✓ ✓✓✓ ✓表5.不同训练数据参与的消融研究。’GT’: ground-truth; ‘FG’:foreground; ‘BG’:负面建议的数量。我们已经展示了在我们的Det- Pro中引入否定建议的重要性表4显示了该研究。随着阴性样本数的增加,APr由于负样本明显多于正样本,减少负样本可以避免对背景的偏见,并加快训练速度。我们的默认值是10。涉及不同的训练数据。我们在表5中研究了训练数据的各种组合。我们的缺陷设置,包括地面实况(ground-truth)、前景方案和背景方案,其中产生最佳性能。从训练数据中消除前台pro-probability或后台probability会导致性能下降。仅使用地面实况进行训练会退化为CoOp [38]。上下文分级和提示表征系统。在这里,我们研究了提示表征增强的效果,如表6所示。如第4.2节所述,我们将IoU范围[a,b]的正建议划分为K个不相交的群,IoU间隔为t。然后从K学习DetPro的类嵌入集成。从表中我们观察到,我们的DetPro与合奏策略一致提高性能 超 过 他 们 的 非 合 奏 同 行 , 例 如 。 ‘Ensemble(0.5:1.0:0.1)’ out- performs ‘IoU range = [0.5-1.0]’ by+3.0 AP主要的改进来自新的类。上下文长度。我们研究了使用不同的上下文长度L的效果。我们将长度从4到8再到16不等,表7显示了研究结果。CoOp [38]已经表明,使用更长的提示可以在接近词汇的图像分类任务中获得更好的性能。我们从基类(APc和APf)的性能得到相同的结论。然而,这并不适用于新的类,这表明更长的提示可能会导致过度拟合基本类别。默认情况下,我们将上下文长度设置为8类令牌的位置 表8插入类的研究15.316.925.425.127.927.724.624.7✓✓17.719.125.325.428.228.225.1二十五点百分之十百分之三十19.118.325.425.628.228.425.425.41409220 2015 1510 105 50 05 510152020 10 0 1020(a) 快速工程(基地)。2015105010152020 10 0 10 20(b) DetPro(底座)。20151050表6.提示表征的整体效应。‘Ensem- ble0.1.然后,我们使用每个组来训练一个单独的DetPro,并在5个学习模型上执行表单集成。510152020 10 0 10 20(c) 快速工程(小说)。510152020 10 0 10 20(d) DetPro(小说)。长度APrAPcAPfAP418.7 24.928.225.1819.1 25.628.325.21617.725.628.325.3表7.上下文长度的消融研究。位置APrAPcAPfAP前16.4 24.528.324.6中间18.0 25.128.325.1端19.1 25.428.225.4表8.在提示表征的不同位置插入类标记的消融研究。标记到提示表示的不同位置,即前面、中间和一般来说,最佳位置取决于数据集[38]。在我们的实验中,定位类标记在最后取得了最好的性能。5.5. 可视化进一步证明在面向检测的提示表征学习中涉及前景和背景建议的重要性我们从LVIS数据集中随机选择200个基类和200个新类,并使用t-SNE来可视化DetPro生成的类嵌入并提示工程,如图3所示。我们观察到DetPro生成的类嵌入在嵌入空间中更具区分性,这种优越的属性表明它们更有能力成为开放词汇对象检测器的区域分类器。6. 结论在本文中,我们提出了一种新的方法命名为检测提示(DetPro),旨在学习连续图3.我们从LVIS数据集中随机选择200个基类和200个新类,并使用t-SNE来可视化由DetPro和经典提示引擎生成的类嵌入。(a)由提示工程生成的基类嵌入;(b)由DetPro生成的基类嵌入;(c)由提示工程生成的新类嵌入;(d)由DetPro生成的新每一个点代表一个类别。通过我们的方法生成的类嵌入在嵌入空间中更具鉴别力,这归因于训练过程中背景建议的参与。基于预先训练的视觉语言模型的开放词汇对象检测的提示表示。与以往的分类导向的提示学习方法不同,DetPro提出了一种背景解释方案,将图像中的负面建议包含到训练中,并提出了一种上下文分级方案,将图像前景中的正面建议分离出来,以进行量身定制的提示训练。我们组装DetPro与ViLD,并进行了一系列的研究,以证明在开放词汇对象检测的快速表征学习中,在前景和背景中涉及这两个建议的重要性。在LVIS上的实验和在Pas- cal VOC、COCO、Objects 365上的迁移学习实验证明了该方法的有效性和泛化能力。确认本工作得到了国家自然科学基金(No.61836004,61828602)、国家重点研发计划(批准号:2021ZD0200300)、国家重点研发计划(2018AAA 0102600)和北京人工智能研究院(BAAI)的部分资助。IoU范围APRAPCAPfAP0.5-0.617.325.328.225.00.6-0.718.025.428.125.40.7-0.817.225.428.325.10.8-0.917.324.928.224.90.9-1.017.225.228.325.00.5-1.016.125.728.325.10.6-1.017.225.428.925.30.7-1.016.825.028.325.10.8-1.017.225.228.425.1包围(0.5:1.0:0.1)19.125.428.225.4包围(0.6:1.0:0.1)18.425.228.225.2包围(0.7:1.0:0.1)18.725.828.325.514093引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第384-400页,2018年。2[2] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。全球背景网络。IEEE Transactions on Pattern Analysis and MachineIntelligence,2020。2[3] 程驰,魏方云,韩虎。通过trans-former解码器为对象检测搭建视觉表示的神经信息处理系统的进展,33:13564-13574,2020。2[4] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。6[5] 韩芳,熊鹏飞,徐鲁辉,陈宇。Clip2video:通过图像剪 辑 掌 握 视 频 文 本 检 索 。 arXiv 预 印 本 arXiv :2106.11097,2021。2[6] Chuanxing Geng,Sheng-jun Huang,and Songcan Chen.开集识别的最新进展:综述。IEEE Trans-actions onpattern analysis and machine intelligence,2020。2[7] Xiuye Gu,Tsung-Yi Lin,Weicheng Kuo,and Yin Cui.基于视觉和语言知识的零炮检测. arXiv预印本arXiv:2104.13921,2021。一、二、五、六、七[8] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。Lvis:用于大词汇实例分割的数据集。在IEEE/CVF计算机视觉和模式识别会议的论文集中,第5356-5364页,2019年。1、6[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。2[10] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaParekh , Hieu Pham , Quoc V Le , Yunhsuan Sung ,Zhen Li,and Tom Duerig.通过噪声文本监督扩大视觉和视觉语言表征学习。arXiv预印本arXiv:2102.05918,2021。一、二[11] Prannay Khosla , Piotr Teterwak , Chen Wang , AaronSarna , YonglongTian , PhillipIsola , AaronMaschinot,Ce Liu,and Dilip Krishnan.监督对比学习。arXiv预印本arXiv:2004.11362,2020。2[12] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展,25:1097-1105,2012。2[13] Yu Li , Tao Wang , Bingyi Kang , Sheng Tang ,Chunfeng Wang,Jintao Li,and Jiashi Feng. 使用平衡组softmax克服分类器不平衡,进行长尾对象检测。在IEEE/CVF计算机视觉和模式识别会议集,第10991-11000页,2020年。1[14] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年2[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的公共对象。欧洲计算机视觉会议,第740Springer,2014. 6[16] Jiasen Lu,Dhruv Batra,Devi Parikh,and Stefan Lee.Vilbert:针对视觉和语言任务的预训练任务不可知的视觉语言表示。arXiv预印本arXiv:1908.02265,2019。2[17] Xiang Ming,Fangyun Wei,Ting Zhang,Dong Chen,and Fang Wen.基于组采样的尺度不变人脸检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第3446-3456页,2019年。2[18] Alec Radford,Jong Wook Kim,Chris Hallacy,AdityaRamesh , Gabriel Goh , Sandhini Agarwal , GirishSastry,Amanda Askell,Pamela Mishkin,Jack Clark,et al. Learn- ing transferable visual models from naturallanguage super- vision. arXiv预印本arXiv:2103.00020,2021。一、二、三、五[19] Joseph Redmon,Santosh Divvala,Ross Girshic
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功