没有合适的资源?快使用搜索试试~ 我知道了~
7601基于语义对齐的融合Transformer的单次目标检测赵一舟*1郭迅2陆燕21卡内基梅隆大学2微软亚洲研究院yizhouz@andrew.cmu.edu{xunguo,yanlu}@ microsoft.com摘要单次目标检测的目的是仅根据一个给定的实例来检测新的目标。在极端的数据稀缺的情况下,目前的方法探索各种特征融合,以获得直接可转移的元知识。然而,他们的表现往往不能令人满意。在本文中,我们将此归因于不适当的相关方法,不一致的查询支持语义忽略空间结构和规模的变化。在分析的基础上,我们提出了一种简单而有效的语义对齐融合转换器(Semantic-aligned Fusion具体来说,我们配备了一个垂直融合模块(VFM)的跨尺度语义增强和水平融合模块(HFM)的跨样本特征融合的SaFT。总之,它们将每个特征点的视野从支持扩展到查询的整个增强特征金字塔,促进语义对齐的关联。在多个基准上的大量实验证明了我们框架的优越性。无需对新类进行微调,它就能为单级基线带来显著的性能提升,将最先进的结果提升到更高的水平。1. 介绍近年来,像[3,23]这样的大规模感知系统蓬勃发展。然而,来实现真正的类人智能。作为潜在的问题之一,从语言[1,17,46,58]到视觉,小镜头学习越来越受到关注[15,24,37,47,49,52,54]相关任务。这个场景的目的是学习一个很好的泛化模型,几乎没有标记的数据,这挑战了传统的学习范式。为了弥合上述在少数拍摄对象检测(FSD)中的差距,现有文献建议从迁移学习[7,16,48,54,55,65]或Meta学习[7,16,48,54,55,65 ]中学习[15,24,27,28,56,57,61]。虽然前者是简单的进行预训练的大量基类和微调很少的新类,它遭受两阶段冗余的过程。 网络应该*这项工作是在提交人作为实习生在MSRA工作时完成的。语义对齐融合常规融合图1. 语义对齐融合与传统融合的比较。这两个的热图和检测结果基于我们的SaFT和具有原始交叉样本注意力的基线比较这两种方案,语义对齐融合激活更集中的热图在各种特征级别,并产生更好的OSD结果。在能够很好地识别这些新类别之前,总是利用新到来的少量数据来优化参数,从而限制了其应用。相反,后一种趋势考虑从采样的元任务中提取元知识。这一系列框架预计将直接适应类似组织的任务,即使没有在线微调,尽管它通常有助于性能。目前,这种离线元学习范例是单次对象检测(OSD)特定流水线的首选在这样的设置中,模型应该被很好地构造以学习给定场景之间的相关性,即,查询,以及示例补丁,即,支持。 为了促进这一点,一系列的作品[15,21,24,28,38,40,57,61]研究了跨样本特征融合,通过样本或ROI级别的相关性用支持表示来增强查询然而,忽略空间和尺度上的语义不匹配限制了它们在一次性场景中的表现。具体地说,传统的范例建议从支持中生成原型[15,24]或内核[61随着空间信息的压缩,之间的长期结构依赖关系仍然很难挖掘。虽然图1中的混合原型类型。2(b)和图中的学习内核。2(c)有效-查询支持7602(a) 样本(b)重新加权(c)相关性(d)注意力 (e)语义一致注意(我们的)图2. 不同融合方法的可视化。我们在(b),(c),(d)中提出了以前的融合方案,以及我们在(e)中提出的语义对齐的注意力作为一种语义对齐的融合。图像被分割成小块用于说明,每个小块代表一个特征点的感受野。唯一的绿色补丁指示期望响应的查询,蓝色补丁是有助于融合结果的一个特征点的值,黄色补丁是与这些值交互的键。(e)中的绿线表示两对理想匹配,其中使用了不同粒度的查询特征。支持样本的缩放在重新加权和相关方案,以可视化其压缩的空间信息。它们在区分一个类别与另一个类别时,包含较少的定位先验,从而阻碍了它们的定位能力。此外,这些计划匹配全球支持端口表示与本地查询上下文,不管语义错位。一个新兴的趋势[6,22]寻求自适应特征融合的注意力机制的帮助。 虽然在一定程度上缓解了所讨论的问题,但它们通常集中在单个尺度上的特征对上,如图1所示。2(d),将多尺度检测任务留给稍后的基于锚的检测器头。因此,当目标分散在不同尺度上时,这是没有意义的。例如,在图。图2(e)中,公共汽车车轮和后轮的理想匹配存在于两个不同的查询特征水平中,使得任何单尺度尝试都是次优的。简单的多尺度实现也不能解决这个问题,因为它一次融合查询和支持一个尺度。在没有跨尺度的长距离交互的情况下,这种严格的方式可能在语义缺失的情况下失败,例如形状和大小上的遮挡或查询支持不一致。为了鼓励OSD中更适当和充分的特征交互,我们建议自适应地融合来自支持的每个特征点与来自查询特征金字塔的每个因此,原始的注意力机制被扩展到语义对齐的注意力,如图所示第2段(e)分段。来自每一方的特征首先被解构成语义单元,即,特征点然后,这些单元以全局方式相互作用,不仅在查询支持样本对之间(水平),而且在不同尺度之间(垂直)。由于对象和对象的部分可能存在于不同的尺度和位置,关联过程加权搭配多个语义单元以进行适当的匹配。通过这种方式,语义对齐的注意力丰富了每个特征点可以利用的语义空间,从而促进了查询和支持。我们的语义对齐的融合Transformer(SaFT)实现了这种融合方案,图。3、展示其整体结构。它遵循一级无提案设计,可以通过级联基于提案的头轻松扩展到两级管道。与采用重加权或相关的同类框架相比,SaFT交替地包含垂直融合模块(VFM)和水平融合模块(HFM)。前者被放置在特征提取器之后,以一起形成随后是后者的VFM通过图中的垂直注意力(VA)准备尺度关注特征。5,HFM利用他们从查询和支持与水平注意力(HA)在图。4.第一章请注意,单个支持级别功能与另一方的多个支持级别功能交互,以获得全面的视图。由于注意力机制建模的跨尺度和跨样本相关性,SaFT在PASCAL-VOC和MS-COCO数据集上都实现了显着的性能提升我们的贡献包括三个方面。1. 据 我 们 所 知 , 我 们 的 语 义 对 齐 的 Fusion- sionTransformer是第一个使用无建议的一阶段检测器执行离线一次性对象检测任务的,比最先进的两阶段模型产生更好的性能。2. 我们讨论了支持查询的特征融合问题,并提出了一个统一的注意力机制来解决空间和尺度上的我们的实施,这可以用作一般的融合颈部。3. 通过定性和定量的实验,证明了新的语义对齐的融合方法在涉及跨尺度的长距离关系和收集更全面的元知识方面优于传统的关联方法.支持查询7603DDDDDDC∩ CC D CD2. 相关工作2.1. 通用目标检测一般的目标检测是在一幅平面图像中对目标进行定位和分类.现代检测器可以大致分为两类,即两阶段基于命题的方法和一阶段无命题的方法。两阶段流水线[4,8,18,19,31,44]在第一阶段生成一组类别不可知的区域提案,并在第二阶段将其细化并分类为最终结果相比之下,一阶段方法使用类感知定位器来省略第二阶段,主要基于密集放置的锚框[32,36,43]或锚点[12,26,50,62]。与这些不同的是,最近兴起的另一个领域引领了无启发式设计的新趋势。通过引入注意机制,DETR系列[5,9,66]在完全端到端的同时实现了更好的性能。我们的模型建立在一级探测器FCOS [50]上,以实现简单性,而作为融合颈则是即插即用的。2.2. 一次/几次目标检测在基本类数据充足而新类样本有限的情况下,少镜头场景给目标检测带来了更大的挑战。最近的工作导致两个主流在解决这个问题,使用迁移学习或元学习技术。基于迁移学习的方法[7,16,42,48,54,55,60,63,65]遵循两阶段训练模式,即预训练和微调,以将知识从基类迁移到新类。通过比较,后一种趋势[15,22,24,27-OSD是FSD的极端情况,每个类别只有一个标签可用于检测。更少的数据需要更多的泛化,产生了一系列离线模型[6,21]进一步探索相似性度量并放弃微调阶段。虽然具有不同的任务设置,但这些方法与大多数采用度量学习的FSD网络共享共同的区域相似性比较策略[25,27,48,56,57]。换句与上述不同的是,我们的方法以无提议的方式学习度量,促进更高的效率和灵活性。2.3. 多尺度特征融合与人类天生具有连续缩放的视野不同,现代卷积特征提取器通常以离散的方式对图像进行下采样。为了解决这一问题,多尺度特征融合技术在检测网络中得到了发展,带来了显著的性能提升。特征金字塔中的三条路径被开发,即,[31][35][36][37][38][39]规模[5,53]。最近的工作进一步丰富了多层次的信息相互作用,通过密集以及各种聚集[30]和注意力机制[59,64]。尽管跨样本特征融合在一次/几次问题中得到了广泛的研究[6,10,21,34,38,41,49,52,56],但其跨尺度对应物相对较少。因此,我们考虑聚集这两个维度,并提出了一个统一的注意力机制,样本之间和尺度之间的与其对应物相比,这种设计在实验上有助于语义对齐。3. 方法3.1. 问题定义与以前的文献[6,21]一样,单次目标检测任务由两组实例组成:小说,其中base表示一个大的基集,可用注释和小说代表每个类别仅包括一个实例注意,base中的基类base和novel中的novel类是互斥的,即,基础小说=我们认为这个问题在一个元学习的方式类似到[15,24,28],同时省略微调阶段以将设置约束为完全离线,如[6,21]。给定查询图像Q和支持块S,任务是找到与S相同类别的所有实例,其边界框在Q中。在训练中提供基本集合库以生成查询Q库和支持S库,而新集合Dnovel仅用于试验Snovel支架。3.2. 框架我们提出了一个简洁的框架,称为语义对齐的融合Transformer(SaFT),以解决我们的动机. 总体架构如图1D所示3 .第三章。它采用Siamese骨干对齐查询支持功能提取,共享垂直融合模块(VFM),以丰富每个 样 本 的 语 义 层 次 , 和 随 后 的 水 平 融 合 模 块(HFM),从两个样本聚合信息,为以后的分类和回归。3.3. 基于密集注意力的最初在自然语言处理中引入[51],然后借用到视觉任务[5,11,53],注意力机制因其在建模长距离信息时的归纳偏差而闻名更具体地说,在位置感知任务(如检测)中,在多头注意力(MHA)上采用位置编码[2,5,39],以促进置换变体架构,PMA(Q,K,V)= MHA(Q+ P(Q),K+ P(K),V)(1)其中PMA表示位置编码的多头注意力,P表示位置编码。7604∈∈我我QS查询支持图3. 单次目标检测的语义对齐融合Transformer的体系结构。较深的颜色指示来自主链中较深层的特征,与图1B中相同五、VFM和HFM分别是垂直融合模块和水平融合模块基于等式(1),我们表达我们的密集注意力(DA)如下DA(FQ,FK)= LN(FQ+ PMA(FQ,FK,FK))(2)其中FQRhQwQ× dQ、FKRhKwK× dK和LN 表示层归一化。类似于[5]中的解码器,其捕获编码特征和要解码的对象查询之间的密集关系,DA被期望对FQ和FK之间的点对点相关性进行建模,因此被命名。我们进一步扩展DA的形式自我注意(SA)SA(FQ)= DA(FQ,FQ)(3)交叉注意(cross-attention)CA(FQ,FK)= DA(FQ,FK)=FK→Q (4)然后通过通道乘法获得类特定的增强特征,如图11所示。2(b)或卷积图。2(c)F<$Q=FQ<$zS(7)其中,F表示增强的查询特征。该模式突出了来自支持样本的类相关信息,同时丢弃了大部分空间语义。此外,由于类相关的zS表示整个支持补丁,而其目标是来自查询的局部区域,因此这种全局到局部相关过程可能导致空间和尺度上的不对准。相比之下,如图2(d)所示,HA与FQ和FS的图1中示出了HA的单个块。4由一对SA和CAF构成CAF(FQ,FK)= LN(FK→Q+ FFN(FK→Q))(5)其中CAF表示具有连续前馈的CAQFi+1SFi+1=SA(FQ)(8)=SA(FS)(9)网络(FFN)和加法和范数。在此基础上,我们提出了两种注意块,水平注意和垂直注意。两者的基本程序是一致的,~Q一期+1~S一期+1=CAF(Fi+1=CAF(Fi+1S,Fi+1Q,Fi+1)(10))(十一)一约这种设计有助于自适应性,因为SA选择性地表达来自查询端的信息,CA加权平衡双方。其中上划线和波浪线表示自关注要素以及相应的交叉参与特征为了实现更充分的功能交互,这些操作迭代地其中初始F<$Q=FQ,F<$S=FS且i=0,. -是的-是的,N-1。3.4. 交叉样本水平注意00基于DA的交叉样本水平注意(HA)被设计用于融合来自Q和Ssam的特征之间结束注意力图层聚合来自两侧的要素FQ=HA(FQ,FS)= CAF( SA(FQ), SA(FS))(12)例。 为了比较,我们首先简要地回顾conven-N N跨尺度VFM交叉样本HFMCls/Reg负责人共享骨干VFM垂直注意力水平注意力FF7605在FSD/OSD任务中,基于卷积的方法,然后介绍我们的方法。从提取的一对特征FQ和FS开始从查询和支持中,传统的成对操作要么提取原型,要么学习S的内核,S(FS)=zS(6)我们将这些HA的链式块称为水平融合模块(HFM)。直观地,HFM进行全局到全局的相似性匹配和表达。一个接一个地,它将来自查询的每个特征点和来自支撑的一个特征点关联起来,而不考虑它们的位置。这种模式以可变形和可重组的方式从两侧对齐特征,从而使它们更具可比性。76063×3FJ~Conv{|关于我们|}~2×SAFj+1向上K VQCA图5. 垂直注意力(VA)阻滞。VA将SA和CA对插入FPN的侧回旋和输出回旋之间。Fj=VA(Fj,Fj+1)=Con v3×3(CA(Fj,Up2×(Fj+1)(十六)其中Fj 是来自级别j的增强特征,图4. 水平注意力(horizontal attention,HA)。 HA包括两个顺序过程。(a)具有SA和CAF对的迭代双向融合过程。(b)使用SA和CAF完成单向聚合3.5. 跨尺度垂直注意力除了Q和S在单个尺度上的相互作用外,我们还通过跨尺度垂直注意(VA)增强了每个样本的多尺度语义整个过程如图所示图3中的特写图示五、为了显示其语义 对 齐 的 能 力 , 我 们 首 先 回 顾 特 征 金 字 塔 网 络(FPN)。FPN被广泛用于物体检测,是一个有效的插件,以解决尺度变化。它的构建块可以写成在与下一级融合之前进行上采样以进行对准。这个金字塔形的过程,称为垂直融合模块(VFM),旨在聚合多尺度的全球语义。与方程式中的FPN相比(13),VFM在横向和输出卷积之间插入吸收层。VFM不是在同一位置线性组合特征,而是促进更灵活的跨尺度特征交互和查询支持表示之间的更好匹配。查询收集并丰富了分布在不同位置和尺度上的潜在目标语义,而支持突出了跨尺度一致的主要目标,并使不相关的背景变暗。此外,VFM与HFM合作,将支持特征点的关注范围从单层扩展到多尺度,如图所示。第2段(e)分段。有了这种点到金字塔的联系,更丰富的语义和跨尺度的长程相关性是有用的。能够匹配,从而帮助查询支持对齐。Fj=Con v3×3 (Con v1×1 ( Fj ) + Up2×(Fj+1))(十三)其中,Fj和Fj分别是骨干所表现出的level-j特征e和相邻尺度之间融合后的相应结果。我们注意到,FPN从较高的层次收集语义,以补充本地较低的层次。尽管它丰富了上下文,但这种就地方案在捕获跨尺度长距离信息方面存在不足长队列中的人属于同一类别,但具有不同的外观特征。为此,我们引入了VA。 给定特征金字塔Fj,j =3,. - 是的- 是的.,M具有步幅2j,j = 3,. - 是的-是的 ,M以主干表示,VA从顶层M的自我增强开始,FM=Con v3×3( SA( Con v1×1(FM) (14)在自顶向下的层次结构中,VA自适应地从上层全局查询相关Fj=SA( Conv1×1(Fj))(15)4. 实验4.1. 实验环境基准。我们遵循之前的工作[6,21],使用相同的数据分割在PASCAL-VOC [13,14]和MS-COCO [33]上训练和评估我们的模型对于VOC,20个类的拆分将整个数据集划分为16个基本类和4个新类。对于COCO,我们将80个类的整个数据集分成四组,每组有20个类。从四个班中依次选出三个班作为基础班进行训练,其余20个班作为评价班。原始设置随机采样查询支持图像对,在训练和测试中,每次给出查询图像时都会生成不同的支持补丁。当然,我们保留前者,但用固定的种子代替后者,如[24,54,56]。该策略为COCO17val中的每个支持类生成一个随机补丁,从而限制模型在测试中仅看到一个快照,而不是整个集合。与以前的评估,这是在风险的并行查询和支持相同的图像,我们提出的设置更接近实际场景和事实上的一次性目标检测。SAFS~CA(一)~我QFSNFFNK V×NSAFi~QK VQFN~QFFNCASAFN~S(b)第(1)款SAFN~QQK V东凤~FFNCAFJ1×1Conv7607F−××∼∼4565方法/集植物沙发电视车瓶船椅子人基地总线 火车马自行车狗鸟姆比凯表Avg.牛羊小说猫AeroAvg.[48]第四十八话55.069.681.983.971.965.945.245.983.685.486.485.179.279.583.973.173.572.367.053.948.060.3[42]第四十二话51.774.478.387.170.867.652.461.685.085.887.683.182.083.882.864.074.970.759.158.843.057.9CoAE [21]AIT [6]30.047.754.962.764.171.966.776.140.151.854.163.514.731.560.970.377.584.078.387.277.981.273.280.880.584.570.872.272.478.746.262.860.169.283.986.667.174.375.683.746.247.768.273.1SaFT(我们的)59.781.382.486.973.072.062.383.785.988.186.787.787.783.586.175.180.188.177.084.348.574.5表1.VOC 2007测试集的实验结果,以AP50(%)表示我们评估我们的SaFT在多个随机运行的性能红色/蓝色表示SOTA/第二好,下同。上标“”表示OSD设置下再现的结果方法/拆分12基地34Avg.12小说34Avg.跨尺度交叉抽样基础小说CoAE [21]AIT [6]42.250.140.247.239.945.841.346.940.947.523.426.023.626.420.522.320.422.622.024.3SaFT(我们的)49.247.247.949.048.327.827.621.023.024.9表2. COCO 2017 val的实验结果以AP50(%)表示。我们的结果是多次运行的平均值。实施详情。 我们的方法采用FCOS[50]作为我们的基础检测器,ResNet-101 [20]在ImageNet [45]上预先训练作为骨干。VFM输出{FQ,FQ,FQ},步长为{16,32,64},来自查询而只有中间层支持语义对齐的融合。HFM迭代N=6个双向HA块。为了优化我们的网络,我们在PASCAL-VOC和MS-COCO数据集上使用SGD,小批量大小为8,动量为0.9,权重衰减为1e4,无需在线微调。4.2. 比较结果PASCAL-VOC。 我们在Tab中提供了与当前最先进VOC的性能比较。1.一、前两行显示了我们在OSD设置下使用FSD方法重现的结果。我们的SaFT始终优于现有的方法,这证明了其有效性。我们实现了约5.2%和1.4%的最佳方法的基础和新的类分别提高具体来说,我们观察到某些类别的大幅上升,例如,主席占9.9%,人占13.4%。一个可能的原因可能是这些类别中的物体在形状和大小上有较大的差异。我们的方法更有效地对齐查询支持语义单元,从而有利于这些情况。值得注意的是,在所有列出的方法中,我们的模型是唯一一个采用一阶段框架的模型。MS-COCO。同样,我们在Tab中报告了COCO对四种不同分割二、尽管COCO的我们进一步注意到,基类上的性能和新类上的性能不一定是正相关的。例如,虽然SaFT在基类的第一次分裂上产生相对较低的结果,但它在新类上比当前SOTA增加了1.8%,这表明我们的方法具有很强的泛化能力。表3. SaFT不同模块对VOC的消融研究。跨尺度和跨样本是尺度间和样本间相互作用的特征融合技术。4.3. 消融研究我们调查的有效性,我们提出的SaFT的各个组成部分。以Tabs呈现。如图3和图4所示,所有相对消融均在VOC 07测试集上进行,其中一半批量作为我们的主要实验,较少迭代HA块(N=4)。表1第1-3行中的单标度实施3种方法默认使用Res-4特征,其余多尺度方法默认使用4、5、6级特征作为SaFT特征。不同模块的影响。在选项卡中。3,重新加权[24]和相关[61]被借用用于HFM替代作为我们的基线交叉样本融合操作。我们采用55内核进行相关,并简单地将其池化,11生产一个重新称重的原型。 至于十字架--规模融合,我们实现流水线没有VFM行1-3作为我们的基线,并在第4-6行添加FPN进行比较。在此基础上,我们通过三个阶段完成了对SaFT的探索。(1)采用HFM进行跨样本融合。比较第1 - 3行的结果,我们发现HFM在基本类和新类上分别提高了10.5%、12.8%和11.6%、12.1%。对于第4-6行可以得出类似的结论在注意力机制的帮助下,HFM解构支持特征,使它们可以变形地与查询匹配,这样,双方的语义更加一致。(2)使用FPN进行跨尺度融合。在研究VFM之前,我们首先使用FPN提取多尺度特征,从而缓解问题W/O[24]第二十四话61.853.7W/O相关性[61]64.154.2W/OHFM74.665.8FPN [31]重新加权72.362.9FPN相关性76.661.6FPNHFM79.669.2VFMVFM重新加权相关性72.8 64.277.7 64.3VFMHFM79.5 71.77608∼∼∼××VFM对应尺度✓ ✓ ✓✓ ✓ ✓77.5六十九点九VFM一比全量表✓ ✓ ✓✓79.5七十一点七表4.询问支持融合量表对VOC的消融研究。一对一尺度意味着将单个级别的支持特征与所有可用的查询特征相关联,而对应尺度限于对应级别。所有实验均采用HFM进行跨样本融合,但相应的融合规则不同。的规模变化。除了使用FPN的新类的3.4%-9.2%的性能提升外,我们还注意到一个有趣的现象。在查询中具有较大感受野的交叉样本融合方法在单尺度性能上获得更多,而附加在它们上的FPN相对较少。这不仅来自于它们所处的较高基线,而且来自于从细到粗的特征的聚合,这些特征可能会增加较低水平的感受野。(3)采用VFM进行语义对齐的融合。通过用VFM替换FPN,第6行和第9行之间的比较显示出2.5%的提升,这是由于VFM中更具自适应性的VA在全局而不是局部收集和补充语义。基线结果从第4-5行到第7-8行也增长最后,VFM和HFM在语义一致的注意中合作,并获得了17.5%至18.0%的飙升,证明了它们的有效性。查询支持融合量表的影响。我们研究如何利用不同层次的功能融合在标签。4.第一章首先,我们提出了一个简单的对应规模的策略,融合每个级别的支持功能与相同级别的查询功能。其结果显示在第一行和第三行。当有更多级别的支持特性参与查询支持融合时,其结果相对较低。这种违反直觉的结果可能是由于多级支持功能缺乏通用性。相应尺度的融合迫使单级融合和检测,可能导致多级连接通过过度拟合到每个级别而降级。事实上,每个相应级别的查询支持特性的共同下采样率意味着总是搜索相同大小的目标这不仅破坏了语义对齐,而且混淆了多尺度检测。相应地,由于一对多尺度融合在多个尺度上匹配具有不同大小的目标的支持,因此它学习更一般化的元知识。这导致0.5%增长1.8%在从相应规模的战略转移后,在小说类。此外,行2和3之间的比较表明,VFM与相应的规模查询支持融合优于FPN与一个到所有的规模之一。我们将此归因于VFM建模的跨尺度长距离相关性,这减轻了跨尺度语义不一致。图6. 不同融合方法的特征图响应。垂直方向上,四列是VOC07测试集中的四个不同类别。横向上,顶部两行是用于融合的查询和支持样本,而其余的是基于四种融合范例的特征图响应。图3、图4、图5显示了三种单尺度实现的可视化。最后三行展示了我们的SaFT与VFM和HFM的特征级别4、5和6的结果这四种配置分别对应表1-3行和表9行。3 .第三章。4.4. 定性分析不同融合方法的特征图响应。探讨图1中介绍的四种融合范式的行为。2,我们在图中可视化他们的特征映射响应。六、这些热图是通过对所有通道中的融合特征求平均值而产生的。比较第3行和第4行,我们可以看到基于卷积的方法倾向于关注符合其内核大小的对象。用1 1内核重新加权识别第一列中的小飞机,而用5 5内核的相关性几乎不能识别。在更大的物体中,比如第三列的猫,相关性热图的激活比重权重的激活更强烈。此外,由于查询支持不匹配,大多数相关对象都是部分聚焦的。相反,基于注意力的HFM将其注意力分配到更多关注相关性重新加权支持语义一致的注意力(我们的)查询跨尺度交叉抽样查询45 6支持45 6基础小说FPN [31]FPN对应尺度一比全量表✓✓✓✓✓✓✓✓✓✓77.479.668.769.27609完整的对象区域。然而,它也激活了一些不相关的区域,特别是在第一列和第三列这样的情况下,其中查询与支持共享类似的背景我们将前者归因于规模问题,后者归因于注意力机制的适应本能,有时会产生误导。通常,这些传统技术在处理外观和尺度变化方面受到限制如下面三行所示,不同尺度的对象在多尺度热图中被不同地激活。随着目标尺寸的增大,感兴趣的聚变水平从低向高转变。 如图所示,小型飞机、中型绵羊和大型猫分别在4级、5级和6级热图中突出显示因此,注意力机制与语义对齐的方式协同工作,以解决特征不对齐以及尺度差异。不同融合方法的检测结果。我们在图中展示了检测结果。7、比较直观。具体来说,我们是逐列研究的.第一列清楚地显示了基于卷积的技术和基于注意力的技术之间匹配查询的局部区域中的支持块,重新加权和相关性只能捕获覆盖对象的一部分的边界框。相比之下,注意力和语义对齐的注意力产生更准确的结果,因为它们获得了查询的更全局的视图。此外,我们可以发现更多的假阳性的结果中的传统方案。这是因为他们在规模上的错位错误地将他们集中在不相关性上。在最后一列中可以看到类似的现象,其中在第3-5行中,人类被识别为奶牛。从上到下,网络依次给予牛更高的这也证明了空间和比例对齐有助于查询支持关联。在第二列中,我们将研究不同方法在解决多尺度问题方面的能力。值得注意的是,第3-5行显示了在处理尺度方差方面的下降趋势。不难理解,重新加权和相关性之间的使用较小的内核大小,重新加权更适合检测较小的对象。在注意力方面,它不能解决尺度变化仅仅依赖于单尺度匹配。因此,HFM结合VFM形成语义对齐的注意力,提出了更好的预测。接下来,我们在第三列中发现一个有趣的异常。尽管其他人取得了成功,但reweighting将所有人类视为猫,而忽略了真正的猫。我们将此归因于支持中的潜在语义冲突。在这个例子中,有一个人类婴儿和一只猫在支持补丁。然后,空间结构的压缩可能会将检测器从从未见过的猫转移到位于基类中的更熟悉的人。通过con-图7. 不同融合方法的检测结果。四列显示了VOC 07测试集中每个新类别的原始样本和检测结果。第3-6行中的结果是表1中第1-3行(以前的方案)和第9行(我们的新方案)的配置。3 .第三章。相反,用较大的卷积核来保存结构信息或用注意力机制可变形地匹配来补救这一点。5. 限制讨论作为一个特定于OSD的管道,我们的方法不能轻易地扩展到更多镜头的情况。连体设计将其输入限制为配对形式,需要为多个支持实例构建专用的特征提取器和聚合器。此外,我们注意到,我们的模型需要一个小的学习速率和一个很长的时间表来收敛。因此,我们采用0.001的学习率,而不是通常的0.02。更大的学习率可能导致训练的不稳定性。今后的工作可以在这些方面有所改进。6. 结论本文从空间和尺度的角度对单次目标检测任务进行了研究。所提出的语义对齐的融合Transformer基本上消除了现有方案采用的传统特征融合技术中的底层查询支持不对齐。尽管它的直观性,我们的模型实现了国家的最先进的性能在各种基准。相关性重新加权语义对齐注意力支持查询注意(我们的)7610引用[1] Yujia Bao , Menghua Wu , Shiyu Chang , and ReginaBarzilay.基于分布式签名的少样本文本分类在ICLR,2020年。1[2] Irwan Bello ,Barret Zoph,Ashish Vaswani,JonathonShlens , and Quoc V Le. 注 意 力 增 强 卷 积 网 络 。 在ICCV,第3286-3295页,2019年。3[3] Tom B Brown,Benjamin Mann,Nick Ryder,MelanieSub- biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakantan , Pranav Shyam , Girish Sastry , AmandaAskell , et al. 语 言 模 型 是 很 少 机 会 的 学 习 者 。 在NeurIPS,第33卷,第1877-1901页1[4] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。在CVPR中,第6154- 6162页,2018年。3[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV,第213-229页,2020中。三、四[6] Ding-Jie Chen,He-Yen Hsieh,and Tyng-Luh Liu. 用于单次目标检测的自适应图像Transformer。在CVPR中,第12247-12256页,2021年。二三五六[7] Hao Chen,Yali Wang,Guoyou Wang,and Yu Qiao.Lstd:用于物体检测的低拍摄传输检测器。在AAAI,第32卷,2018年。第1、3条[8] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在ICCV,第764-773页,2017年。3[9] Zhigang Dai , Bolun Cai , Yugeng Lin , and JunyingChen. Up-detr:使用变压器进行对象检测的无监督预训练在CVPR中,第1601-1610页,2021年。3[10] Carl Doersch、Ankush Gupta和Andrew齐塞-曼。交叉变压器:空间感知少拍传输。NeurIPS,33:21981-21993,2020。3[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。3[12] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:用于对象检测的关键点三元组。在ICCV,第6569-6578页,2019年。3[13] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge : ARetrospective.IJCV,111(1):98-136,2015. 5[14] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,88(2):303-338,2010. 5[15] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在CVPR中,第4013-4022页,2020年。第1、3条[16] Zhibo Fan,Yuchen Ma,Zeming Li,and Jian Sun.一般化的几个镜头的目标检测没有忘记。在CVPR中,第4527-4536页,2021年。第1、3条7611[17] Ruiying Geng,Binhua Li,Yongbin Li,Xiaodan Zhu,Ping Jian,and Jian Sun.用于少量文本分类的归纳网络在EMNLP/IJCNLP,2019。1[18] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在ICCV,第2961-2969页,2017年。3[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。PAMI,37(9):1904-1916,2015. 3[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年6月。6[21] Ting-I Hsieh,Yi-Chen Lo,Hwann-Tzong Chen,andTyng- Luh Liu.具有共同注意和共同激励的单次目标检测。NeurIPS,32,2019。一二三五六[22] 胡汉哲,白帅,李傲雪,崔进士,王立伟。密集关系蒸馏与上下文感知的聚合为少数拍摄对象检测。在CVPR中,第10185二、三[23] John Jumper , Richard Evans , Alexander Pritzel ,TimGreen , Michael Figurnov , Olaf Ronneberger ,KathrynTunyasuvu-nakool,RussBates,AugustinZ'ıdek,AnnaPotapen k o,etal. 使用Alphafold进行高精度蛋白质结构预测。Nature,596(7873):583-589,2021. 1[24] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在ICCV,第8420-8429页,2019年。一二三五六[25] Leonid Karlinsky 、 Joseph Shtok 、 Sivan Harary 、 EliSchwartz、Amit Aides、Rogerio Feris、Raja Giryes和Alex M Bronstein。Repmet:基于代表性的度量学习,用于分类和少量目标检测。在CVPR中,第5197-5206页3[26] 黑律和贾登。Cornernet
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功