没有合适的资源?快使用搜索试试~ 我知道了~
PnP-DETR:利用变压器王涛1,3*李媛4陈云鹏2冯佳石4闫水成41新加坡国立大学数据科学研究所2依图科技3新加坡国立大学研究生院综合科学与工程专业4新加坡国立大学电子与计算机工程系twangnh@gmail.comylustcnus@gmail.comyunpeng.chen@ yitu-inc.comjshfeng@gmail.comshuicheng. gmail.com摘要最近,DETR [3]率先使用transformers解决视觉任务,它直接将图像特征映射转换为目标检测结果。虽然有效,但由于在一些区域(如背景)上的冗余计算,翻译完整特征图可能是昂贵的。在这项工作中,我们封装的想法,减少空间冗余到一个新的轮询和池(PnP)采样模块,我们建立了一个端到端的PnP-DETR架构,自适应地分配其计算空间更有效。具体地,PnP模块将图像特征图抽象成精细前景对象特征向量和少量粗略背景上下文特征向量。该Transformer在细-粗特征空间内对信息交互进行建模,并将特征转换为检测结果。此外,PnP增强模型可以通过改变采样特征长度来立即实现单个模型的性能和计算之间的各种期望的权衡,而不需要像现有方法那样训练多个模型。因此,它提供了更大的灵活性部署在不同的场景与不同的计算约束。我们进一步验证了PnP模块在全景分割和最近的基于变换器的图像识别模型ViT[7]上的通用性,并显示出一致的效率增益。我们相信,我们的方法使一个有效的视觉分析与变压器,其中空间冗余是常见的步骤。代码和模型将可用。1. 介绍目标检测是一项基本的计算机视觉任务,旨在识别图像中的目标实例,并使用精确的边界框将它们现代检测器主要通过代理学习来*在依图科技实习期间完成的工作图1.左:检测结果。右:Transformer计算密度图。所提出的方法允许模型自适应地分配计算空间,并避免在信息较少的背景区域的计算目标,即从预定义的锚框[23,18]或从网格位置[27,34,9]回归边界的偏移。这些启发式设计不仅使模型设计复杂化,而且还需要手工制作的后处理以去除重复。最近的方法DETR [3]消除了那些手工设计,并实现了端到端的对象检测。它在具有transformers的卷积特征映射之上构建了一个有效的集合预测框架[28],并显示出与两阶段Faster R-CNN [23]检测器竞争的性能图像特征图在空间维度上被展平为一维特征向量。然后,Transformer用其强注意力机制处理它们,以生成最终的检测列表。尽管简单有效,但将Transformer网络应用于图像特征映射可能计算成本很高,主要是由于长扁平特征向量上的注意力操作[28] 这些特征可能是冗余的:自然图像中除了感兴趣的目标外,往往包含大量的背景区域,这些背景区域在相应的特征表示中可能占据很大的比例;一些区别性特征向量也可能已经足以检测对象。现有的提高转换效率的工作主要集中在加速注意操作[16,15,29,5],很少考虑上述空间冗余为了解决上述限制,我们开发了一个可学习的466124662轮询和池(PnP)采样模块。它旨在将图像特征图压缩成由精细特征向量和少量粗特征向量组成的抽象特征集。从输入特征图中确定性地采样精细特征向量以捕获精细前景信息,这因此对于检测对象是至关重要的。粗特征向量从背景位置聚集信息,并且产生的上下文信息有助于更好地识别和本地化对象。然后,一个Transformer器模型的信息和灰内的细-粗特征空间的相互作用,并获得最终的结果。由于提取的集合比直接展平的图像特征图短得多,因此变换器的计算量显著减少,并且主要分布在前景位置上。我们的方法与提高Transformer效率的方法[16,15,29,5]正交,并且可以进一步与它们结合以获得更有效的模型。具体地,即插即用模块由两个核心子模块组成:轮询采样器和随后的池采样器。轮询采样器结合了内容感知Meta评分网络,该网络学习预测每个空间位置处的特征向量的信息性得分。然后,利用信息性得分对特征向量进行空间排名,并且选择信息量最大的特征向量的子集随后的池采样器动态地预测未采样的特征向量上的注意力权重,并将它们聚集成总结背景信息的少量特征向量。与区域建议网络[23]类似,PnP模块也旨在提取对象相关信息,但在没有明确目标(如对象边界框回归)的情况下进行端到端学习。我们建立了一个PnP-DETR与PnP模块,它操作的精细-粗糙的特征空间,并自适应地分配其Transformer计算空间域。图1是具有计算密度图的示例检测(参考第2节)。4.2有关地图构建的详细信息)。现有的提高模型效率的方法仍然需要训练不同复杂度的多个模型,与它们相比,建议的PnP采样允许Transformer与可变数量的输入特征向量一起工作,并实现即时计算和性能折衷。实验结果表明,PnP-DETR算法有效地降低了系统开销,实现了动态计算和性能的折衷。例如,在没有铃 铛 和 铃 铛 的 情 况 下 , 单 个 PnP-DETR-DC 5 获 得42.7AP , 与 43.3AP 基 线 和 竞 争 性 43.1AP 相 比 ,Transformer计算减少了72%,减少了56%。我们进一步验证了泛光分割和最近的视觉Transformer模型(ViT[7])的效率增益为例如,PnP-ViT仅以0.3的精度下降实现了接近一半的FLOP减少。总而言之,贡献如下:• 我们确定的空间冗余问题的图像特征映射,这导致过度计算的Transformer网络中的DETR模型。因此,我们提出了抽象的特征图,从而显着减少模型的计算。• 为了实现特征提取,我们设计了一个新的两步轮询和池采样模块。该方法首先采用轮询采样器提取前景细特征向量,然后采用池采样器提取背景粗特征向量。• 然后,我们建立PnP-DETR,其中的Transformer器上的抽象的细-粗特征空间和自适应分布在空间域中的计算。PnP-DETR更有效,并且通过改变精细特征集的长度,利用单个模型• PnP采样模块是通用的,并且是端到端学习的,没有像区域建议网络那样的明确监督[23]。我们进一步在全景分割和最近的ViT模型[7]上验证了它,并显示出一致的效率增益。我们相信我们的方法为未来研究变压器视觉任务的有效解决方案提供了有用的见解。2. 相关工作目标检测近年来,目标检测的性能已经得到了实质性的改进[14,13,23,20,21]。18,27]优于传统方法[26,10]。这些现代方法主要解决具有宽松学习目标的任务,即。在一组匹配的正锚框样本上学习,并利用后处理(NMS)进行预测以抑制重复。手工设计最近,[3]提出了一个端到端的DETR框架,该框架使用变压器学习基于外显集的目标[28],与以前的两阶段方法[23]相比,表现出不错的性能。我们的工作旨在通过减少空间冗余来提高端到端对象与提高注意力效率的最新可变形DETR [35]相比,我们的目标是直接压缩来自不同视角的特征图,并且可以潜在地组合在一起。例如,通过在不规则采样空间[24,25]中实现双线性插值内核,以实现可变形偏移预测的学习。稀疏执行和采样大量的工作探索了卷积层中的稀疏执行[12,22,2,30,11,24663C6,11],通过避免在一些信息量较少的空间位置上进行卷积操作来节省计算。在这项工作中,我们部分受到稀疏卷积的启发,并通过开发一种用于有效后续处理的动态图像特征采样方法来探索变换器[28]的稀疏执行。我们的工作也与学习点云理解任务的采样策略的文献有关[8,17,21]。不同于这些作品中的采样是通过新的数据点生成,我们直接解决离散采样,使用一种新的采样作为排名策略。3. 方法我们首先回顾DETR [3]。然后,我们详细阐述了所提出的特征抽象方案,其次是详细设计的PnP采样实现的抽象。最后,我们说明了PNP-增广模型及其优点。我们将常数、标量、向量、张量和集合分别表示为大写、小写、粗体小写、粗体大写和黑板粗体大写字母,例如:,N,i,f,F,F.3.1. 预赛不失一般性,DETR [3]首先利用具有参数θc的骨干卷积网络来提取图像特征图F:F=C(I,θc)(1)F可以被视为网格结构特征向量集合F:F={fij∈ RC|i = 1,. . . ,H,j = 1,. . . ,W}(2)这里是位置(i,j)处的特征向量,C是特征通道的数量,H、W是所提取的图像特征图的高度和宽度。然后,网格结构特征集F被视为具有强语义信息的高级视觉标记的集合,并且利用以θt参数化的Transformer器T将其转换为检测结果:{(cls k,box k)|k = 1,. . . ,D}= T(F,θ t)(3)(clsk,boxk)表示具有类别和边界框的一个检测到的对象,检测的数量固定为D。网格结构化视觉令牌表示F的固有限制是它均匀地跨越空间位置并且覆盖大量背景。尽管Transformer可以以其强的注意力能力关注不同的区域,但是计算并不受益于该优点并且均匀地分布在空间域上。这偏离了我们的期望,即处理能力可以被动态地分配给更相关的区域,如前景位置,同时较少地聚焦在视觉场景的区域,如背景。3.2. 特征提取我们提出了一个功能抽象方案,以解决上述限制。它获得用于紧凑特征表示的两组特征向量:Ff={fn∈ RC|n = 1,. . . ,N}(4)Fc={fm∈ RC|m = 1,. . . ,M}(5)精细特征集Ff是从完整集F离散地采样的,包含对于识别和检测对象必不可少的精细信息通过聚合来自多个空间位置的信息来获得粗特征集F。,并且对背景上下文信息进行它们一起构成了一个抽象集合F:F=Ff <$Fc(6)F编码所有必要的高层次信息,用于检测图像内的对象,并被传递到一个变压器,用于生成对象检测结果。有关计算节省的理论分析,请参阅补充资料特征抽象方案也可以被看作是一种标记化公式,适合用变压器解决视觉任务。3.3. 轮询和池(PnP)采样上述抽象方案需要解决两个挑战。1)精细集合需要不可微的确定性二进制采样。手工制作的采样器可以通过一些中间目标来学习,例如:、区域提议网络[23]或点提议网络[34,9],然而这与端到端学习不兼容,并且手工采样规则可能不是最佳的。2)仅关注背景上下文信息难以提取紧凑、粗糙的特征集。我们将抽象方案分为两步,并分别设计了轮询采样器和池采样器来实现。轮询采样器首先对来自全集合F的一些特征向量进行采样;池采样器然后将剩余的未采样特征向量动态地聚合成少量的粗略特征向量。图2是所提出的方法的概述。采样器是确定性的,端到端学习,计算成本可以忽略不计。轮询采样器轮询采样器的目的是获得一个良好的特征集Ff。由于显式学习二进制采样器是不可行的,我们开发了一个样本作为排名策略。我们使用一个小的元评分网络来预测每个空间特征位置(i,j)的信息性得分:sij= ScoringNet(fij,θs)(7)分数越大,特征向量fij的信息越多然后我们将所有的分数{sij}排序为24664[s 1,|l = l,. . . ,L],= Sort({s ij})(8)24665:串联:编码器自关注:解码器交叉关注CNN轮询采样器采样精细特征向量C网格结构化图像特征映射合并液取样抽象特征集图像输入离散采样图 非采样特征向量聚集粗粒特征向量编码层ℵℵRr’=1RmC...对象查询图2.所提出的PnP-DETR的图示。首先对网格结构的图像特征图进行离散采样,以获得由轮询采样器设置的精细特征向量,然后将剩余的未采样的特征向量聚合成总结上下文背景信息的少量粗特征向量。Transformer编码器和解码器然后在细-粗特征空间上操作以对信息交互进行建模并获得检测结果。其中是排序顺序,L=HW。然后,我们采用前N个评分向量来形成精细特征集:Ff=[fl,|l = l,. . . ,N](9)为了能够使用反向传播来学习ScoringNet,我们将预测的信息性得分作为采样的精细特征集的调制因子:并以可学习的权重Wv∈RC×C以获得投影功能:f’=frWv(14)然后,我们使用softmax对所有剩余非采样位置的聚合权重进行归一化:earmFf=[fl *s l,|l =l,. . . ,N](十)arm= ΣN−Lea'(十五)我们发现,在调制之前对特征向量进行归一化可以稳定ScoringNet的学习:Ff=[LayerNorm(fl)* s l,|l = l,. . . ,N](11)我们使用层归一化[1]并关闭仿射参数。理想情况下,N可以随图像内容而变化,但我们观察到固定量采样已经产生了良好的性能,即,N=αL,其中α是一个常数分数值,我们称之为轮询比。该设计还实现了对第2节中讨论的单模型计算和性能权衡的扩展。三点四分。Pool Sampler上述轮询采样器提取精细特征集。其余特征向量主要对应于背景区域。为了将它们压缩成总结上下文信息的小特征集,我们设计了一个池采样器,该池采样器执行剩余特征向量的加权池化,以获得固定数量的M个背景上下文特征向量。这部分受到双线性池化[19]和双重注意[4]操作的启发,其中生成全局描述符以捕获特征图的二阶统计量。形式上,剩余的特征向量集是Fr= F\Ff={fr,|r = 1,. . . ,L-N}(12)我们用可学习的权重Wa∈RC×M以获得聚合权重ar∈RM:ar=frWa(13)检测结果解码器层…24666Σ'f=f*a(16)mrm利用归一化的聚合权重,对投影的特征向量进行聚合以获得汇总非采样位置的信息的新特征向量:L−NRr=1通过与所有M个聚合权重聚合,我们获得概括的粗略背景上下文特征集:Fc={fm,|r = 1,. . . ,M}(17)在[32]中已经表明,上下文信息对于识别对象至关重要,并且通过不同尺度的金字塔特征我们的池采样器是能够自由地获得不同尺度的上下文信息,通过动态生成的聚合权重。也就是说,一些特征向量可以捕获局部上下文,而其他特征向量可以编码全局上下文。我们凭经验显示这样的能力池采样器通过可视化的聚合权重。与来自轮询采样器的精细集合Ff一起,获得期望的抽象集合F*注意,代替卷积特征图,PnP模块也可以在Transformer层之后应用。用于密集预测任务的反向投影PnP模块将图像特征图从2D坐标空间减少到抽象空间,其不能用于密集预测任务,如图像分割。解决24667Σ限制,我们提出将编码器输出特征向量投影具体地,精细特征向量被散射回采样位置;首先将粗特征向量扩散回具有聚合权重的原始2D空间:Mfr=fm=1然后将轮询样本R的非采样位置散射回来。 表示来自编码器的输出粗特征向量,并且表示投影特征向量。的然后将获得的2D特征图用于密集预测。3.4. PnP增广模型PnP模块是通用和直接的。它可以插入到现有的模型,使他们能够在精细-粗糙特征空间上操作,以提高效率。我们在这里描述了我们建立的模型来评估的PADER模块和我们提出的随机轮询比计划,使即时计算和性能权衡与一个单一的模型。PnP-DETR和PnP-ViT最近[7]引入了一种基于变换的图像识别模型,称为Vision Transformer(ViT)。我们评估我们的方法的ViT模型的推广。我们通过在变压器网络之前插入PnP模块来构建PnP-DETR和PnP-ViT。所得到的模型是端到端学习的,并且其他设置与原始模型相同。我们使用混合ViT架构[7]。与原始DETR和ViT(其中Transformer直接在整个图像特征空间上操作)不同,PnP增强变换器对精细-粗略特征空间上的信息交互进行建模,并且自适应地在空间域中分配其计算以实现更好的效率。为了实现不同的计算和性能折衷,提高Transformer效率的现有方法通常训练具有不同复杂度的多个模型,控制超参数,例如,,Reformer中的散列数[16]和Lin-former中的投影特征尺寸[29]。与它们不同的是,配备了PADER模块的模型可以实现即时的单模型计算和性能权衡。这通过控制轮询比率α来确定所保留的精细信息的量来实现。α越大,获得的特征向量越精细,总体性能越高;α越小,性能可能越低,但节省了更多的计算量。然而,我们发现使用不同的α来训练的推理严重降低了性能。我们建议在训练期间生成随机轮询比率α=均匀(α低,α高)(19)图3.通过以不同的长度执行,实现即时计算性能折衷蓝色:编码器层灰色:解码器层。其中,αlow和αhigh定义了数值范围。α在每次迭代中更新。以这种方式,Transformer学习以可变长度的输入特征向量工作,并且因此通过推断不同的轮询样本比来实现期望的单模型计算和性能折衷(图1B)。(3)第三章。模型只需要训练一次。4. 实验4.1. 实现细节为了训练PnP-DETR,我们在8 GPU机器上每个GPU使用4个图像,总批次大小为32。为了训练PnP-ViT,我们每个GPU使用32个图像,总批次大小为256。元评分网络用2层MLP实例化。除非另有说明,否则R50和R50-DC 5型号的池样品编号M分别设置为60和240。包括超参数、网络架构和损失函数在内的其他设置遵循基线以进行公平比较。由于篇幅所限,我们将更多的细节,如位置嵌入,推迟到补充。4.2. 目标检测固定轮询比率训练选项卡。图1示出了在COCO基准上的固定轮询比率训练的结果。对于DETR-R50模型,α= 0.33,PnP-DETR达到41.1 AP和60%的Transformer计算成本降低。进一步将α增加到0.5,性能达到与DETR基线相似的水平(AP为41.8与42.0),计算量减少了45%。对于DETR-R50-DC 5模型,观察到类似的趋势,但节省了更多的计算。我们还评估了不匹配的训练和测试投票率的设置。使用α= 0.33训练的模型在使用α= 0.5进行评估时获得近5个AP下降。这一观察结果表明,应用随机轮询比训练的模型与可变轮询比工作的必要性我们还与可变形DETR [35]进行了比较,因为我们没有结合多尺度特征,这不是这项工作的重点,我们与单尺度可变形DETR进行了比较我们的方法比可变形DETR更好地执行更少的FLOP,特别是对于大对象,例如。,APl为60.0与ResNet-50主干为57.8动态轮询比训练如图所示。4,通过用随机轮询比率进行训练,该随机轮询比率的值范围为(0. 15,0。8),所得到的模型可以通过可变轮询比进行评估,实现动态计算和性能折衷某些民调比率的AP类似于24668- 基线0.65 0.50 0.33 0.25 0.20 0.17AP43.543.4 43.2 42.7 42.2 41.8FLOPs(G)11.5第 八条第一款6.44.63.83.32.7- 基线0.65 0.50 0.33 0.25 0.20 0.17AP44.945.0 44.7 44.3 43.9 43.5 43.0FLOPs(G)74.045.0 32.9 20.7 15.1 12.4模型APAP50AP75APsAPmAPlF编码器F译码器F采样器F-总计DETR-R50 [3]42.062.444.220.545.861.19.6G1.9G-11.5G可变形-DETR [35]40.460.543.421.344.657.8---5.5G(-52%)PnP-DETR-R50-α-0.3341.161.543.720.844.660.03.2G1.3G0.1G4.6G(-60%)推断-α-0.536.159.836.113.938.757.7----PnP-DETR-R50-α-0.541.862.144.421.245.360.84.8G1.5G0.1G6.4G(-45%)DETR-R50-DC5 [3]43.363.145.922.547.361.169.2G4.8G-74.0GACT+MTKD(L=32)[33]43.1--22.247.161.4---58.2(-21%)ACT+MTKD(L=24)[33]42.3--21.346.461.0---53.1(-28%)可变形-DETR-DC 5 [35]42.162.345.624.345.657.3---26.4G(-64%)PnP-DETR-R50-DC5-α-0.3342.762.845.122.446.260.017.8G2.5G0.4G20.7G(-72%)PnP-DETR-R50-DC5-α-0.543.163.445.322.746.561.129.1G3.1G0.7G32.9G(-56%)表1.在COCOval集上进行固定轮询比率训练的结果F-编码器、F-解码器、F-采样器、F-总分别表示编码器、解码器、PnP采样器和全Transformer的FLOPFLOP是通过对valset的前100个图像求平均值而获得的骨干FLOP被省略,因为我们关注Transformer效率。推断-α-0.5意味着推断的不匹配轮询比率为0.5对于PnP-DETR-R50-α-0.33模型。 注意,我们报告了单尺度可变形DETR [35],其中500个epoch训练用于公平比较。该结果是通过正式实施而获得的参见第二节。2之间的关系,我们的方法和变形DETR。图4.使用我们的方法训练的单个模型的动态AP和FLOPs权衡曲线。该曲线是通过用曲线上所示的不同轮询比率(α)进行评估而获得的。所选的α值大致等于1、1、1、1、1和1的分数。65四三二一。5固定轮询比率训练的对应物。例如,PAD-DETR-R50模型在固定轮询比0.33训练的情况下得到41.1 AP,在随机轮询比训练的情况下得到41.2 AP。性能与基线相同,轮询比率为0.65.我们观察投票比率大的时候,例如,0.5,增加轮询比带来AP的增益减小。这可能是因为精细特征集已经覆盖了用于检测对象的基本空间位置,因此更精细的信息仅带来有限的增益。使用ResNet-101主干进行类似的选项卡. 2显示了与基线模型相比的推断时间,推断时间显著减少。图5示出了一些示例检测结果和相关联的计算密度图,轮询比为0.33。对象被很好地检测,同时计算以内容感知的方式被动态地分配到空间域为了计算密度图,我们为每个空间位置分配权重。对于轮询抽样位置,权重为1。对于其他位置中的每一个,权重是在该位置处的所有池样品聚合权重的累积值。然后用归一化的权值对Transformer成本进行分配,得到计算密度图。- 基线0.65 0.50 0.33 0.25 0.20 0.17AP42.042.0 41.8 41.1 40.7FLOPs(G)11.5第 八条第一款6.44.63.83.32.7- 基线0.65 0.50 0.33 0.25 0.20 0.17AP43.343.3 43.1 42.7 42.3 42.0FLOPs(G)74.045.0 32.9 20.7 15.1 12.424669民池方法编码器解码器PnP采样器DETRα-0.65α-0.5α-0.33α-0.25α-0.2表2.在TITAN RTX GPU上使用ResNet-50-DC 5主干测量的推理时间(ms)4.3. 其他任务在[3]之后,我们在全景分割任务上评估我们的方法。为了执行密集的每像素分割作为DETR,我们将编码器输出特征投影回原始2D坐标空间。如Tab.所示。3,该模型节省了计算,并通过改变轮询比α来实现即时性能和计算折衷,例如。,与基线DETR模型的43.4相比,实现了43.2的全景质量(PQ),具有5G更少的FLOP(即,,6.6G与11.6G)。图像识别我们还将PnP采样应用于最近的ViT [7]的基于变换的图像分类模型。我们使用ResNet 50-stage 4特征 映 射 ( 14 x14 ) 的 混 合 架 构 , 并 从 头 开 始 在ImageNet-1 k数据集上训练模型。我们将样本池编号设置为10。我们用在[0. 2,0。[8]。如Tab.所示4,PnP-ViT实现了动态计算和性能权衡,如用DETR模型观察到的。结果表明,该抽样设计具有普遍性。图5.在轮询比0.33下使用PnP-DETR-R50模型的示例检测结果和计算密度4.4. 模型分析然后,我们提供了几个实验分析,以更好地理解所提出的方法。为了节省实验时间,我们对COCO基准测试进行了采样,以获得较小FLOPs(G)11.6 8.3 6.6 4.8 4.0 3.5表3.全景分割的结果。使用ResNet-50主干。α-* 表示使用可变轮询比进行推断。- ViT α-0.7 α-0.5 α-0.33 α-0.25α-0.2Top1-访问82.2 82.1 81.981.681.481.2浮点数(G)10.0 7.3 5.53.93.22.8表4.基于ResNet-50的混合架构ViT模型的结果。α-* 表示具有用于推断的可变轮询比的单个PnP-ViT模型。图6.使用ResNet-50主干,以相同的计算量改变轮询比(α)和池样本数(M数据集,并在采样的COCO数据集上进行所有实验。我们设计了一个类增量采样,有助于保持数据分布。由于篇幅所限,我们将采样细节和更多的实验推迟到补充。轮询和池采样器之间的平衡如图所示。6,我们改变轮询样本比率和池样本数以获得具有相同计算量的性能曲线。我们观察到1)仅使用轮询采样(α-0.4),性能是亚最佳的;结合池特征向量样本可以显著改善AP与来自非采样位置的互补背景信息,例如:α-0.39-M-10模型比α-0.4模型获得约0.7AP2)仅使用池采样,性能下降较大幅度。我们假设池采样难以保留准确的精细信息,因为它被设计为在空间上从不同位置聚集特征向量3)最佳设置为1/3轮询比,具有60个池样本,这表明紧凑的特征集应该主要由精细特征向量组成以用于准确的目标检测。我们进一步单独检验了混合样本数M和轮询样本比α的影响:1)我们通过固定α来改变M。2)我们通过固定M来改变α。由于篇幅所限,实验结果和分析只能在后面的附录中进行。DETR(基线)72.411.1-PQ43.443.5 43.242.4 41.8PnP-DETR-α-0.528.410.52.1平方79.379.2 79.1 78.978.7 78.4PnP-DETR-α-0.3317.410.32.0RQ53.853.8 53.4 53.052.4 51.724670输入图像投票抽样器得分图投票抽样地点合并液样品:全球背景合并液样品:当地情况图7.使用PnP-DETR-R50可视化来自池采样器的轮询样本位置和示例聚合权重图第一列:输入图像;第二/第三列:民意测验抽样者得分图及其对应的样本图;最后两列:示例聚集权重映射来自池采样器,其中前者聚集全局上下文,而后者聚集局部上下文。这些物体和周围的区域。图8.使用PnP-DETR-R50的轮询采样器的学习动态。该模型训练了150个epoch,学习率在100 epoch时衰减。 左图显示了位于GT边界框区域内的采样位置的比例。右图描绘了具有先前时期的采样位置的像素IOU。在val集合上获得统计信息。可视化轮询和池采样如图所示。7,我们可视化轮询采样器的评分图,其采样位置,以及池采样器的示例聚合权重图。总而言之,1)轮询采样器学习对对象内和周围的位置进行采样;2)池采样器获得不同尺度的上下文。例如,在第一行上,第一池样本关注大范围的空间位置并编码全局上下文信息;第二个样本关注天空周围的一个小区域,从而捕获局部环境。我们还有一些关于民意调查采样器的其他有趣的观察结果:1)它学习对用于训练的对象类别之外的类似对象区域进行采样。例如,对于图1中的最后一行。7.对交通标志和树状对象周围的位置进行采样。该行为类似于学习区域提议网络(RPN)[23],但在没有显式监督的情况下学习。2)它倾向于对一些大的和例如,对第一排的女性和第二排的床采样较少的点;第二幅图像中的书和最后一幅图像中的汽车较小且更难以检测,因此轮询采样器对特征向量进行精细采样以用于为了更好地理解轮询采样器的学习过程和动态,我们在训练期间记录两个统计数据:(1)在GT边界框内的采样位置的比例;(2)连续时期之间的采样位置的像素IOU如图8、我们做以下观察。1)轮询采样器逐渐学习对位于地面实况区域内的更多特征向量进行采样,但最终保持稳定在约60%,这表明它还涉及对于识别和检测对象至关重要的一些背景和上下文位置2)轮询采样器初始时在其采样位置上具有较大的变化,因此连续时期的采样区域具有较小的IOU(即,约0.2)。在训练期间,IOU在大约30个时期内快速收敛到大约0.7,并保持稳定在大约0.75,这表明采样器快速学习对关键特征向量进行采样,并且采样位置没有太大变化。在100个时期的学习率衰减之后,连续时期的IOU接近1.0,这意味着轮询采样器收敛。5. 结论在本文中,我们封装到一个可学习的PnP模块减少空间冗余的想法它是由一个基于排名的轮询采样器,离散采样的精细特征信息和随后的自适应池采样器,总结了背景上下文信息。PnP模块是通用的,可以被纳入到现有的模型进行有效的处理,同时保持- ING的性能,这是验证对象检测,全景分割和图像识别。我们相信,所提出的方法提供了深入的了解,为未来的研究,有效的可视化分析与变压器。24671引用[1] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。4[2] Shijie Cao , Lingxiao Ma , Wencong Xiao , ChenZhang,Yunxin Liu,Lintao Zhang,Lanshun Nie,andZhi Yang.Seer-net:通过低比特量化预测卷积神经网络特征图稀疏性。在IEEE计算机视觉和模式识别会议集,第11216-11225页,2019年。3[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv:2005.12872,2020。一二三六七[4] Yunpeng Chen,Yannis Kalatidis,Jianshu Li,ShichengYan,and Jianshi Feng. A 2-nets:双重注意网络。在神经信息处理系统的进展,第352-361页4[5] Krzysztof Choromanski , Valerii Likhosherstov , DavidDo- han , Xingyou Song , Andreea Gane , TamasSarlos , PeterHawkins , JaredDavis , AfrozMohiuddin,Lukasz Kaiser,et al.重新思考表演者的注意力。arXiv预印本arXiv:2009.14794,2020。一、二[6] 董宣义、黄俊石、杨毅、严水城。多即少:一个更复杂的网络,具有更低的推理复杂性。在IEEE计算机视觉和模式识别会议论文集,第5840- 5848页,2017年。3[7] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。一、二、五、七[8] Oren Dovrat,Itai Lang和Shai Avidan。学习采样。在IEEE计算机视觉和模式识别会议论文集,第2760-2769页,2019年。3[9] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:用于对象检测的关键点三元组。在IEEE计算机视觉集,第6569第1、3条[10] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence , 32 ( 9 ) : 1627-1645,2009. 2[11] Michael Figurnov,Maxwell D Collins,Yukun Zhu,LiZhang , Jonathan Huang , Dmitry Vetrov , and RuslanSalakhutdinov.残差网络的空间自适应计算时间。在IEEE计算机视觉和模式识别会议论文集,第1039- 1048页,2017年。3[12] Mikhail Figurnov,Aizhan Ibraimova,Dmitry P Vetrov,and Pushmeet Kohli.穿孔:通过消除冗余卷积的加速神经信息处理系统进展,第947-955页,2016年。3[13] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。2[14] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 5802[15] AngelosKatharopoulos , ApoorvVyas , NikolaosPappas,andFran coisFleuret. T变压器是rnns:Fastautore-gressive 变 压 器 与 线 性 关 注 。 arXiv 预 印 本 arXiv :2006.16236,2020。一、二[16] Nikita Kitaev,Łukasz Kaiser,and Anselm Levskaya.转化 器 : 高 效 的 Transformer 。 arXiv 预 印 本 arXiv :2001.04451,2020。一、二、五[17] 伊泰·朗、阿萨夫·马诺和沙伊·阿维丹。Samplenet:可区分点云采样。在IEEE/CVF计算机视觉和模式识别会议论文集,第7578-7588页,2020年。3[18] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年一、二[19] 林宗宇,Aruni RoyChowdhury,Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。在Proceedings of theIEEE international conference on computer vision,pages1449-1457,2015中。4[20] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。2[21] Ehsan Nezhadarya 、 Ehsan Taghavi 、 Ryan Razani 、Bingbing Liu和Jun Luo。用于点云分类的自适应分层下采样。在IEEE/CVF计算机视觉和模式识别会议论文集,第12956-12964页,2020年。3[22] 任梦叶,安德烈·波克罗夫斯基,杨斌,拉奎尔·乌尔塔-孙.Sbnet:用于快速推理的稀疏块网络在IEEE计算机视觉和模式识别会议的论文集,第8711-8720页3[23] 任少卿、何开明、罗斯·格尔希克、孙健。更快的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功