没有合适的资源?快使用搜索试试~ 我知道了~
14074视觉对视觉IEIE剪切和重新大小化罗亚利尼两级一期(a)实例级知识蒸馏目视检查骨料字幕TE(b)全球级知识蒸馏基本类别的GT盒新类别的GT盒一阶段方法的阳性样本点两阶段方法的基于分层视觉语言知识提取的马宗阳1,2,罗冠1,2,高进1,2,<$,李亮3,<$,陈宇新1,2,王少如1,2,张聪轩4,胡伟明1,2,51中国科学2中国科学院大学人工智能学院3北京基础医学研究所脑科学中心4南昌航空大学5中国科学院脑科学与智能技术示范中心mazongyang2020@ia.ac.cn,{gluo,jin.gao}@ nlpr.ia.ac.cn,liang.li.brain@ aliyun.com摘要开放词汇对象检测旨在检测训练集之外的新对象类别。高级开放词汇两阶段检测器采用实例级视觉到视觉知识蒸馏,以将检测器的视觉空间与预训练视觉语言模型(PVLM)的语义空间对齐。然而,在更有效的一级检测器中,类不可知的对象建议的缺乏阻碍了对看不见的对象的知识扩展,导致严重的性能下降。在本文中,我们提出了一个层次化的视觉语言知识提炼方法,即,Hi-erKD,用于开放词汇单阶段检测。具体而言,探讨了全球层面的知识蒸馏,PVLM图像编码器PVLM的文本编码器将未知类别的知识从PVLM转移到检测器。此外,我们结合所提出的全球级知识蒸馏和常见的实例级知识蒸馏,同时学习可见和不可见类别的知识。在MS-COCO上的大量实验表明,我们的方法明显优于以前最好的一级检测器,分别为11.9%和6.7%AP50在零炮检测和广义零炮检测设置下获得增益,并将AP50性能差距从14%降至7.3%(与最佳两种设置相比)阶段检测器代码将在此URL1发布。1. 介绍先进探测器的新兴趋势[2,18,19,26-1https://github.com/mengqiDyangge/HierKD†通讯作者。图1. 实例级和全局级知识蒸馏的比较:(a)说明了实例级知识蒸馏的两阶段方法和一阶段方法的流程。(b)说明了我们提出的全局级知识蒸馏,它直接从PVLM提取标题表示,从检测器的全局图像表示。他们所能认识的历史是有限的。一旦传统的检测器被期望在现实世界的场景中检测到更多的对象类别,通常的解决方案就落在标记训练集中的更多类别的对象上。然而,根据齐普夫定律[ 31 ],成本可能无法承受,并且长尾分布将通过线性增加不可见的类别而加剧为了克服这些限制,提出了零拍摄[1]和开放词汇[36]对象检测任务,以识别来自未看到类别(新类别)的对象,而检测器仅使用来自已看到类别(基本类别)的注释进行训练。这两个任务之间的主要区别在于开放词汇检测器可能在训练期间通过其实例级注释IETE14075不可用.因此,开放词汇检测器[8,35,36]近年来发展较快,其性能也大幅领先于前者。已经有一些工作试图重新设计传统的检测器来完成上述两个检测任务。这些工作也可以分为两阶段[1,8,17,36,39,40]方法和一阶段[25,35,38,42]方法在传统的检测。与传统的两级检测器相比,目前最先进的一级检测器具有相当的性能和更简洁的流水线然而,在开放词汇的目标检测中,目前最好的两阶段方法ViLD[8] 这是一个非常好的方法[35]。因此,分析造成这种现象的原因,寻找缩小这种性能差距的方法,进而构建一个高性能的开放词汇单阶段检测器,是一个令人鼓舞的研究方向。我们在图1(a)中展示了最近的两阶段和一阶段开放词汇检测方法的流程。可以看出,它们都对图像中可能感兴趣的实例执行实例级视觉到视觉知识蒸馏(IKD)。关键的区别在于实例的选择,即,两阶段方法的目标建议和一阶段方法的正样本点。与目标方案相比,正样本点存在严重的内在局限性。我们认为,这些限制造成两阶段和一阶段的方法之间的性能差距。具体地,如图1(a)所示,正样本点(红点)仅覆盖来自基本类别(绿框)的对象的区域相反,两阶段方法中的类不可知建议(红框)通常覆盖来自新类别的对象的区域(紫框),这使得两阶段方法能够从PVLM隐式地学习新类别的语义知识(更清楚的分析参见第4.3这一优势可以有效地扩展语义范畴空间,进一步提高性能.更重要的是,在大多数图像中,正样本点的数量远远少于对象提案,并且每个正样本点仅覆盖特征图上比提案更小的区域。在提取期间对特征映射区域的这种稀疏采样也使得来自PVLM的语义监督在一阶段方法中收缩了很多。为了弥补这些固有的局限性,一个直接的方法是使用更多的样本点。的特征图进行知识蒸馏。因此,在这项工作中,我们提出了一个弱监督的全局级语言到视觉知识蒸馏方法(GKD)来实现这种方法。如图1(b)所示,GKD利用可能包含语义的视觉标题,tic知识的新的类别,并执行语言到视觉知识的蒸馏之间的字幕表示和全球级的图像表示。通过这种方式,GKD隐式地将图像中的所有样本点与字幕语义对齐,使得属于新类别的样本点也可以从PVLM学习它们的相关语义知识。最后,我们提出的GKD与常用的IKD相结合,以端到端的方式执行开放词汇单阶段我们将我们的贡献总结如下:• 本文提出了一种弱监督的全局级语言-视觉知识提取方法,用于学习训练标签之外的新类别知识,以进行一级检测。• 提出了一种端到端的层次化视觉语言知识提取机制来实现高性能的开放词汇单级检测器。• 在MS-COCO数据集上,所提出的HierKD检测器在零激发检测和广义零激发检测设置下分别以11.9%和6.7%的AP502. 相关工作Zero-Shot Learning:随着监督学习的图像识别能力达到了一个高水平,研究人员开始探索分类模型在训练集之外识别新类别对象的能力,这通常被称为Zero-Shot Learning(Zero-Shot Learning,简称ZRL)。最早的工作开始于通过使用二元属性向量对标签空间进行编码来识别对象[5,13,22],从而对对象的属性进行建模,而后来的工作则更多地关注视觉空间的语义表示[7,21,34]。最近,PVLM,例如,CLIP [23],学习像人类一样基于自然语言建模视觉概念,并获得强大的零射击识别能力。与这些图像级零触发识别工作不同的是,本文旨在探索开放词汇表的实例级检测器。然而,PVLM也与我们的工作密切相关,因为我们希望通过知识蒸馏将其零触发识别能力转移到开放词汇检测中。Zero-shot和Open-vocabulary检测:Zero-shot和Open-vocabulary检测都专注于设计一个检测器,可以识别和定位训练集之外的新类别的对象。一些工作探索了两级检测器[1,17,35,36,39,40]并实现了最先进的性能。Zareian等人[36]设计了一个投影层,14076不不TV文本输入标题:女人是在滑雪坡上滑冰夹GKD−+−������������������������V到LMLCA…人狗…猫提示:[CLS]的照片TEIKD分类➚���作物V对VIE���--…(Pos点层压类子网Conv×4Conv× 1正和负点特征图长方体转换子网×4Conv× 1训练阶段骨干飞机蛋糕…水槽提示:[CLS]的照片TE推理阶段������➚���…余弦所有锚钉类别转换 转换子网×4× 1长方体转换转换子网×4× 1层压图2. 概述我们的开放词汇单阶段检测器与分层视觉语言知识蒸馏:在训练阶段,分类分支初始化与基本类别的CLIP文本嵌入对于IKD,目标是最小化特征图上稀疏正样本点的特征与裁剪区域的CLIP视觉嵌入之间的距离GKD聚合所有多层特征图,通过交叉注意直接与字幕对齐在推理过程中,知识蒸馏模块被删除,CLIP文本嵌入初始化的新类别。值得注意的是,由于一级检测器中解纠缠的固有特性,蒸馏对回归分支的影响较小。基于PixelBERT的文本语义空间[12]。受益于知识蒸馏[11,20,30]和预训练的视觉语言模型[23]的发展,Gu等人。[8]提出从CLIP中提取区域级视觉特征。另一个方向侧重于通过修改损失函数[25],引入转导学习[24]和合成未见过对象的特征[42]来设计更有效的一级检测器。Xie等人[35]还从CLIP中提取了知识,并使用基线单级检测器YOLO-v5 [2]。虽然它大大超过了以前的单阶段方法,但与先进的两阶段方法相比,仍然存在很大的性能差距。我们已经分析了在实例级知识提取过程中表现不佳的一阶段方法背后的原因,并集中精力补偿其固有的局限性。3. 方法图 2 说 明 了 我 们 提 出 的 开 放 词 汇 单 阶 段 检 测 器HierKD的总体框架。它由教师预先训练的视觉语言模型和训练阶段的学生检测器组成。在这里,我们采用了一个名为CLIP2的预训练视觉语言模型,以获得其卓越的性能。学生模型的目标是通过我们提出的分层视觉语言知识蒸馏机制来学习教师模型的零射击识别能力。特别是,正样本点学习2选择CLIP ViT-B/32与其他方法进行公平比较通过实例级的视觉到视觉的知识提取从教师模型的图像编码器(IE)中提取知识,通过全局级的语言到视觉的知识提取从教师模型的文本编码器(TE)中直接提取符号:训练集中的类别,即,基本类别记为CB,测试集中的新类别记为CN。此外,CLIP的TE和IE分别表示为和。在训练中使用的文本嵌入B是通过给CB中的每个类别提供一个提示来离线初始化的,即。”一张照片a [CLS].",输入文本编码器。在推理过程中,唯一的修改是在不同的设置下用CN或联合CB<$CN代替CB3.1. 选择和修改基础检测器第一个挑战是如何通过必要的结构修改使现成的一级基础检测器适应开放词汇对象检测任务。选择基础一级检测器:我们首先将ATSS [37]作为基础一级检测器,原因有两个:(1)自适应训练样本选择机制使其在传统的对象检测任务中表现最佳;(2)特征图上的每个位置只有一个锚点,这很重要,因为修改分类层(见下文)将随着锚点数量的增加而大大增加内存消耗。修改基础探测器:然后我们做两个修改。14077不不不ΣLVV×--RV{V ∈ R}×不不i、j{|×}N阳性我我(1)原始的基于卷积的分类层被修改为CLIP的分类形式,其中数据集还需要背景嵌入bg,bg3通过输入“背景照片”来初始化into,它允许在训练阶段学习背景。sigmoid函数也被替换为softmax函数,并且最终的分类损失基于softmax焦点损失。pi= SoftMax([τc·(TBfT),τc·(TbgfT)]),1N(1)多层交叉注意交叉注意点积2001N×N关键查询Max池,……夹TE➚���2005年,标题:女人是在滑雪坡上滑冰。文本输入图片说明,视觉输入多层1…5图3. 全局级知识提取:该GKD模块将标题作为文本输入,将来自多个层的特征图作为视觉输入,并通过模仿CLIP中的对比学习来学习匹配图像-标题对Lcls=Nfocalloss(pi,yi),位置i=0多层次的交叉关注。其中fi、pi和yi分别表示锚点的特征、τ c是训练过程中可学习的温度系数,N pos是正样本点的数量,N表示正样本点和负样本点的总数;(2)ATSS中的中心度分支被IOU分支取代[14],以在一定程度上缓解分类任务和回归任务之间的不对齐。3.2. 实例级知识蒸馏然后,我们介绍了实例级的知识表示,其目的是从图像编码器传输知识。按照通常的做法,只提取阳性样品的特征进行蒸馏。由于ATSS中的正样本点相对于地面实况框可能具有相对较小的IOU值,因此我们设置固定的IOU阈值以进一步过滤掉具有较小IOU的正样本,并获取剩余正样本点f1,f2,.,f N位置与ZSD-YOLO [35]不同,我们使用回归分支的预测框而不是地面实况框来从图像I中裁剪区域,以进行数据增强。然后将这些裁剪区域的大小调整为224224,以适应输入图像的大小。我们采用了一种能保留更多图像信息的嵌入式方法, 接下来,可以通过将这些调整大小的区域馈送到图像编码器中来获得要被模仿的特征(I,ri),ri。最后,知识从CLIP图像编码器转移到检测器,并进行如下蒸馏:我们还尝试了用L2范数进行模拟,在调整适当的损失权重后,不同的措施之间没有明显的差异。3.3. 全球级知识蒸馏为了克服仅从基本类别学习的局限性,提出了一种弱监督GKD模块,该模块利用图像标题学习训练标签之外的新类别的语义知识.GKD模仿CLIP中的对比学习来匹配图像-字幕对,旨在将CLIP的大规模语义知识传递图3说明了GKD的整个过程。具体地,由I表示的任意图像和由C表示的其配对字幕通过多层交叉注意(MLCA)进行匹配。对于视觉输入,来自不同FPN层的特征图被均匀地划分成N N块,并且在不同特征图的所有块内执行Max Pooling操作以获得块级表示。汇集块特征的集合由Pi i=1,2,3,4,5,j=1,.,其中i表示FPN层,j是每层特征图上的补丁位置。接着,对于文本输入,整个字幕C直接由文本编码器编码以表示文本特征C。由于CLIP模型在一些简单的视觉基础实验中擅长提取整体高级文本特征,而不是单词级表示,因此我们选择提取整个标题而不是每个单词的特征在获得文本特征和多层补丁特征集后,交叉注意力将这些多层补丁特征集1个?fiV(I,ri)<$模态输入以聚合补丁特征。具体地说,Lins=NPOSi=1 如果是2-V(I,ri) 2¨1 .(二)标题被视为查询,所有补丁被视为键,并且查询和每个键之间的响应可以3我们还尝试随机初始化它[35]并设置一个固定的零向量有偏差[36],但我们最终得到了类似的性能。通过余弦相似度计算。 因此,聚集的所有补丁功能,获得与归一化的simi-14078i、j我我Σ我我我我Glo−IGlo−C4.1.数据集和评价方案详细说明如下:i、j3.5. CLIP的直接推理替代方案e=TC·PI,作为零炮识别能力的建议,i、jC型 ∥∥PI∥方法是从CLIP转移的,因此我们可以测量PC=5,k2005年,kexp(ei,j)exp(ePi,j,)(三)通过比较我们的模型和CLIP直接推断之间的性能差距恩塞设计了一种简单的CLIP直接推理方法,i=j=1i′=j′=1i′,j′算法1.从本质上讲,它比较了其中,PC表示字幕感知视觉特征聚集,并且ei,j是字幕与视觉特征聚集之间的响应检测器和CLIP之间相同样本点的分类结果第i层的第j块最后,匹配得分为:图像-字幕对(I,C)之间的关系是:PC·TC算法1:CLIP直接推理输入:CLIP图像编码器V和文本编码器T,I,C=我PC.(四)新类别CN,训练模型M,检验图像DT由于我们的全局级知识蒸馏的目的是将CLIP的大规模语义知识转移将成对的图像和字幕视为一批中的正对,而将其他图像和字幕视为负对。我们输出:检测盒B1 TN← T(Prompt(CN))并归一化;2,对于I∈DTdo3AI← M锚(I);4A前←arg maxk(Mcls(AI)× MIOU(AI));5V前← V(I,Mloc(A前))并归一化;引入对称对比损失函数,6S前←Softmax(τ· TNV前);在语义空间中的正对和负对我7B←BNMS(SforeI我,boxfore);L=−logΣexp(τm·I,C),exp(τM ·I,Ci)端8(五)L=−logΣexp(τm·I,C),exp(τM ·Ii,C)4. 实验和结果其中τm是可训练的温度系数,b表示批量大小。最后,我们的一级检测器的分层知识蒸馏可以用公式表示为:结合实例级知识蒸馏和全局级知识蒸馏:我们在MS-COCO 2017基准上验证了我们的方法,包括零炮检测(ZSD)和广义零炮检测(GZSD)设置。在之前的ZSD文献中,有两种不同类型的碱基/新碱基拆分设置:Bansal等人[1]和Rahman等人[25]分别采用的48/17和65/15碱基/新碱基拆分。我们L=λcls Lcls+λloc Lloc+λins Lins+λGlo(LGlo−I+LGlo−C)。3.4.阴性样本(六)在本文中评估这两种分割设置。我们的数据预处理与Rahman等人[36]相同。遵循大多数以前的ZSD方法,我们使用mAP和Recall@100在IOU=0.5下评估我们的方法,并且主要关注先进的单级探测器通常结合了聚焦损失[19]或其变体[6,15,16]与所有负样本,以解决正样本和负样本之间的不平衡问题。然而,这种设置在开放词汇检测中是麻烦的,因为检测器在实验中推广到新类别时会将更多的前景区域识别为背景。另一方面,在两阶段方法中,负样本与正样本以1:1的比例抽样将提高新类别的性能,但它严重影响了基本类别。为了在上述选择之间做出权衡,我们采用了抽样策略,即抽样10%的阴性样本以提高新类别的召回性能,同时保持基本类别的性能。BCi=1BIi=114079×新类别的表现。4.2. 实现细节我们的实现和超参数设置基于MM检测[3]。采用标准的ResNet-50 [10]作为主干,除非另有说明,否则所有超参数都保持默认设置。我们将NMS和分类得分的阈值分别设置为0.4和0.0。温度系数τc和τm分别初始化为100和10。我们还在训练阶段添加了一个10.0的在知识提取方面,冻结教师模型CLIP,将不同FPN层的特征图分成3 ~ 3块。我们在4个Tesla V100GPU上训练模型,14080××××IOU基础/新型AR@100AR@300AR@10000.548/1761.976.987.50.7548/1737.448.157.4表1. RPN的泛化能力表2. IKD中不同子模块选项之间的比较。pred和GT分别表示来自预测框和地面实况框的1×和1.5×分别表示裁剪原始框及其1.5×中心扩展IKD为16,GKD和HierKD为32学习时间表遵循传统的对象检测设置。4.3. RPN泛化能力的检验为了更清楚地说明RPN的泛化能力如表1所示,两阶段方法的RPN中的类别不可知建议通常覆盖新对象的区域,并且当生成100个建议时,AR仍高达37.4,IOU=0.75,这有助于在知识蒸馏期间对新类别进行特征学习。4.4. 消融研究我们在MS-COCO ZSD基准上进行消融研究,以验证设计选择的有效性除非另有说明,否则所有结果均报告在48/17基础/新型分离设置下的新型类别中。实例级知识蒸馏:我们在表2中比较了实例级知识蒸馏中不同子模块选项的影响。与采用L1范数的蒸馏相比,用L2损失范数代替L1范数将导致AP50下降1.8%,这一差距可以通过增加损失量来缩小。这主要是因为通过L2范数测量的特征之间的距离知识提取中使用的裁剪区域因子对使用预测框或地面实况框不敏感但是,它可以通过裁剪1.5扩展框区域以提供更多上下文信息来提高性能。全局级知识蒸馏:如表3所示,子模块的不同选择对性能有很大影响。首先,我们观察到通过使用平均池化实现的AP50仅为最大池化的一半左右。这是因为失去了阿吉莎,通过平均池化获得的斑块特征的能力。 此外,与将特征图划分为表3. GKD中不同子模块选项之间的比较。Ave和Max分别表示使用Average Pooling和Max Pooling来获得斑块特征。CL表示在对比学习损失的情况下进行训练,而PL仅考虑正对之间的余弦相似性。bs/gpu是训练期间每个GPU上的批处理大小。IKD GKD 借条bAR50 AP50 APS APM APL---52.410.28.812.512.8√62.461.170.171.314.620.720.721.610.110.111.511.613.228.530.230.719.127.527.028.1√√√√√√表4.验证每个模块的有效性和兼容性第一行是基线,这是只训练分类损失和定位损失的基础检测器。将其划分为更多块(例如8 × 8)的少量块(例如3 × 3或4 × 4)带来显著的AP50下降。这可以归因于需要更多的训练迭代来收敛更多的补丁的原因。另外,8bs/gpu和4bs/gpu之间没有明显的差别。我们推断,这两个我们可以负担得起的都太小了,对比学习无法产生影响。最后,用仅推动积极对来取代对比学习带来了2.8%的AP50下降。这表明对比学习可以更好地传递PVLM的零炮识别能力。蒸馏模块分析:我们定量验证每个蒸馏模块的有效性和不同模块的兼容性。此外,我们还报告了对小物体APS、中等物体APM和大物体APL的检测性能,以进行更详细的分析。如表4所示,通过将IKD和GKD添加到与基线相比,我们可以分别获得4.4%和10.5%的AP50增益以及10.0%和8.7%的AR50增益。这验证了每个蒸馏模块的有效性。 在ad-此外,与单独应用IKD和GKD相比,IKD和GKD的组合,即,HierKD进一步分别带来7.7%和9.0%的AR50这说明IKD和GKD的兼容性很强。HierKD的APS和APM分别比GKD提高了1.4%和1.7%,表明HierKD在检测中小目标方面具有优势。最后,使用IOU分支导致对中型和大型对象的改进多于小型对象这可能是因为具有低分类分数和高IOU的对象通常不会出现在小对象上。贴片池损失BS/GPUAR50 AP504AveCL859.2 124MaxCL864.2 20.13MaxCL861.120.78MaxCL860.8 13.73MaxPL860.9 17.93MaxCL465.620.5规范重量区域区域AR50 AP50L11pred1×62.465.163.662.864.514.612.814.614.515.3L21pred1×L210pred1×L11GT1×L11pred1.5倍14081× ××图像IKD HierKDIKDGKD HierKD图4.分类得分的空间分布。图像中的红框是小说类别的基础事实。IKD和HierKD中的热图显示了红框中类别的每个位置处的锚的分类得分。阴性样本IKDGKD基地AR50AP50小说AR50AP501:1的比例√√√√71.037.063.016.8百分之十75.944.362.414.6百分百74.544.460.39.01:1的比例百分之十百分百√√69.274.072.434.942.742.660.261.156.419.320.718.7表5.阴性样本不同采样策略的比较。1:1、10%、100%是指阴性样本的采样数与阳性样本的采样数相同,阴性样本的采样数为10%,并使用所有阴性样本。我们还可视化了一些分类分数分布和检测结果,以进行定性分析。图4分别显示了IKD和HierKD中分类评分的空间分布。我们可以看到,IKD往往不能识别新类别的对象,例如,第一排的“um- brella”此外,IKD在识别新类别的对象(诸如第二排中的“杯子”和第三排中的“猫”)方面也可能具有低置信度。通过引入GKD,所提出的Hi-erKD可以识别第一排的这表明我们的HierKD可以更好地从CLIP中转移新的类别知识,并在增加检测置信度的同时减少漏检测。我们还在图5中显示了一些新类别的检测结果。首先,可以看出,与IKD相比,GKD和HierKD可以识别更多的新颖类别的对象此外,GKD和HierKD还具有更高的分类准确率,例如正确地将第一行中的“大象”分类,图5.新类别的一些检测的可视化。模型夹AR50 AP50APSAPMAPLIKD√√√62.466.614.624.910.118.313.228.319.132.3GKD√√61.164.520.723.310.118.228.527.927.530.3HierKD√70.165.820.722.811.518.830.227.427.029.9表6.与CLIP直接推理的比较。模型和CLIP分别代表蒸馏检测器的推理和CLIP的直接推理。与GKD相比,HierKD可以抑制更多无意义的检测结果,例如第三行中的多个局部阴性样本采样:阴性样本采样策略的影响见表5。以100%抽样为基准,我们可以看到,与1:1抽样相比,10%抽样不会导致基础类别的AP50大幅度下降当推广到新的类别时,10%抽样获得的AP50在IKD中并不比1:1抽样差多少,而在GKD中达到最好。这验证了10%抽样策略的有效性。与使用CLIP的直接推断相比:所提出的方法与使用CLIP的直接推断之间的性能差距如表6所示。IKD基线只有大约一半的AP50相比,直接推理与CLIP对所有大小的对象,而我们提出的GKD实现了类似的性能,中型和大型对象。最终HierKD具有比CLIP直接推断更高的AR50然而,HierKD中的APS落后于CLIP的直接推理很多,这表明我们的方法对小对象的学习能力不足。不同的训练设置:如表8所示,将训练计划的周期从1延长到2,3,引入尺度抖动(480-800),并将主干更改为更大的ResNet-101,可以提高两者14082骨干附表比例抖动基地AR50AP50小说AR50AP50ResNet-50ResNet-50ResNet-50ResNet-1011×2×3×3×√√74.844.771.321.677.549.069.823.180.051.870.025.380.853.571.427.3表8.验证与一般检测性能改进技术的兼容性。基础/新型 AR50 AP50 APS APMAPLHierKD48/1771.427.311.439.537.3上界48/1770.768.036.374.587.4表7. 与其他最先进方法的比较:* 表示各种情况下的最先进方法。“TS”和“OS”是两级和一级检测器的缩写,re-stage。请注意,我们将基于Cascade R-CNN的检测器分类为广义两阶段方法。“ZS” and “OV” indicate that the基础和新的类别。这验证了所提出的HierKD与一般的检测性能改进技术是兼容的4.5. 与最新技术的我们在表7中的MS-COCO基准上将我们的HierKD与其他两阶段方法和一阶段方法进行比较,表7中报告的所有指标均为AP50。 局限性:由于批量大小、尺度抖动等因素,我们不能像传统的物体检测那样进行完全公正的比较, 在某些作品(如ViLD [8])中使用的设置与一般设置不同。我们可以观察到,在48/17基础/新颖的分裂设置下,HierKD在ZSD设置下在新颖类别上实现了25.3%的AP50HierKD显著优于之前最好的一阶段方法ZSD-YOLO,获得11.9%的AP50增益,并且还超过了最新的两阶段方法OVD(在没有外部概念标题数据集的情况下训练[32])8.6%的AP50。在GZSD设置下,Hi-erKD在新品类上的表现优于ZSD-YOLO,涨幅为6.7%。与最佳两阶段方法ViLD相比,HierKD还将AP50在GZSD设置下,HierKD在小说类别上的AP50这是由于新类别的检测置信度低于基本类别的检测置信度,因此在NMS过程中,一些新类别的检测结果被抑制。在另一个65/15的基础/新的分裂设置下,HierKD超过了之前最好的方法ZSD-YOLO,在ZSD和GZSD设置下,新类别的AP50分别增加了10.1%和2.5%表9.与理想上界的比较。所有报告的指标均为新类别的结果。4.6. 上限分析通过直接使用CLIP对地面真值框中的实例进行分类,然后对检测结果进行评价,可以得到这种分类方法的理想上界,即地面实况箱的分类结果。如表9所示,我们的方法实现了相对较高的召回率,而各种大小的对象上的总AP50和AP,即。APS、APM、APM离上界还很远。这表明,仍有很大的空间来提高所提出的HierKD的模仿能力。此外,这也提醒我们利用提示学习[41]等技术来提高CLIP本身的零拍识别能力,从而进一步提高模型性能的上限。5. 结论在这项工作中,我们已经开发了一个层次化的视觉语言知识提取方法,即HierKD,以获得一个性能最好的一级开放词汇检测器。HierKD使用图像标题以语言到视觉的方式提取知识。Captions中丰富的词汇使HierKD能够在训练期间从CLIP中转移新类别的语义知识实验结果表明,HierKD方法能够更准确、更可靠地识别新目标,明显优于以往的方法。在未来,我们将继续探索更高效、更先进的蒸馏方法来转移教师模型的零射击识别能力。鸣谢本工作得到国家重点研发计划项目(批准号:2018AAA0102803、2018AAA0102800)、自然科学基金资助。中 国 环 境 科 学 基 金 会 ( 批 准 号 : U2033210 ,62172413 , 61972394 , 62036011 , 62192782 ,61721004),中国科学院前沿科学重点研究项目(批准号:QYZDJ-SSW-JSC 040),国家博士后科学基金(批准号:2021 M693402)。高劲还得到了中科院青年创新促进会的部分支持方法基础/新型ZSDGZSD小说 基地 小说所有S-B [1]48/170.7029.20.3124.9实验室[1]48/170.2720.80.2218.0TSZSDESE [1]BLC [39]ZSI*[40]48/1748/1748/170.549.911.426.742.146.50.274.504.8322.132.335.6OVOVR-CNN [36]48/1716.7--34.3ViLD*[8]48/17-59.527.651.3ZS波兰 *[25]48/1710.035.94.1227.9OS[42]第四十二话48/177.613.83.4113.0OV[35]第三十五话48/1713.431.713.627.0HierKD(我们的)48/1725.351.320.343.2TSZSBLC [39]65/1513.136.013.131.7ZSI*[40]65/1513.638.713.634.0OSZS波兰 *[25]65/1512.434.112.430.0OV[35]第三十五话HierKD(我们65/1565/1518.327.431.748.917.920.429.243.614083引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa和Ajay Divakaran。零镜头物体检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第384-400页,2018年。一、二、五、八[2] Alexey Bochkovskiy,Chien-Yao Wang,and Hong-YuanMark Liao. Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934,2020。第1、3条[3] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu,Jiarui Xu,et al. Mmdetection:Open mmlabdetection tool- box and benchmark.arXiv 预 印 本 arXiv:1906.07155,2019。5[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。5[5] Ali Farhadi , Ian Endres , Derek Hoiem , and DavidForsyth.按属性描述对象。在2009年IEEE计算机视觉和模式识别会议上,第1778-1785页。IEEE,2009年。2[6] Chengjian Feng , Yujie Zhong , Yu Gao , Matthew R.Scott和Weilin Huang。Tood:任务对齐的一阶段对象检测。在IEEE/CVF计算机视觉国际论文集,第3510-3519页5[7] Andrea Frome、Greg Corrado、Jonathon Shlens、SamyBengio 、 Jeffrey Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise:一个深度视觉语义嵌入模型。2013.2[8] Xiuye Gu,Tsung-Yi Lin,Weicheng Kuo,and Yin Cui.通过视觉和语言知识蒸馏的开放词汇对象检测。2022年,在国际学术会议上发表。二、三、八[9] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页5[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。5[11] Geoffrey Hinton , Oriol Vinyals , Jeff Dean , et al.Distilling the knowledge in a neural network. arXiv预印本arXiv:1503.02531,2(7),2015。3[12] Zhicheng Huang,Zhaoyang Zeng,Bei Liu ,DongmeiFu,and Jianlong Fu. Pixel-bert:通过深度多模态转换器将 图 像 像 素 与 文 本 对 齐 。 arXiv 预 印 本 arXiv :2004.00849,2020。3[13] Dinesh Jayaraman和Kristen Grauman具有不可靠属性的零射击识别。arXiv预印本arXiv:1409.4327,2014年。2[14] Kang Kim和Hee Seok Lee用于对象检测的具有IOU预测的概率锚点分配。在ECCV,2020年。4[15] 李翔、王文海、胡晓林、李俊、唐金辉、杨健。广义焦点损失v2:学习用于密集对象检测的可靠定位质量估计。在IEEE/CVF计算机视觉和模式识别会议论文集,第11632-11641页,2021年。5[16] Xiang Li , Wenhai Wang , Lijun Wu , Shuo Chen ,Xiaolin Hu,Jun Li,Jinhui Tang,and Jian Yang.广义焦点损失:学习用于密集对象检测的合格和分布式边界框神经信息处理系统的进展,33:21002-21012,2020。5[17] Zhihui Li,Lina Yao,Xiaoqin Zhang,Xianzhi Wang,Salil Kanhere,and Huaxiang Zhang.具有文本描述的零拍摄对象检测。在AAAI人工智能会议论文集,第33卷,第8690- 8697页,2019年。2[18] Tsung-Yi Lin , Piotr Dollar , Ross Girshick , KaimingHe,Bharath Hariharan,and Serge Belongie.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年7月。1[19] Tsung-Yi Lin , Priya Goyal , Ross Girshick , KaimingHe,and Piotr Dollar.用于密集对象检测的焦点损失。在IEEE国际计算机视觉会议(ICCV)的会议记录中,2017年10月。一、五[20] Yufan Liu ,Jiajiong Cao,Bing Li,Chunfeng Yuan,Weiming Hu,Yangxi Li,and Yunqiang Duan.基于实例关系图的知识蒸馏。在IEEE/CVF计算机视觉和模式识别会议论文集,第7096-7104页,2019年。3[21] Mohammad Norouzi、Tomas Mikolov、Samy Bengio、Yoram Singer、Jonathon Shlens、Andrea Frome、Gr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功