没有合适的资源?快使用搜索试试~ 我知道了~
13668××QueryDet:用于加速高分辨率小目标检测Chenhongyi Yang*爱丁堡大学chenhongyi. ed.ac.uk泽豪黄土Simplezehaohuang18@gmail.comNaiyan WangTuSimplewinsty@gmail.com摘要虽然在过去的几年里,深度学习的一般对象检测取得了巨大的成功,但检测小对象的性能和效率远远不能令人满意。提高小目标检测的最常见和最有效的方法是使用高分辨率图像或特征图。然而,这两种方法都引入了昂贵的计算,因为计算成本随着图像和特征的大小的增加而增加。为了实现这两个方面的最佳结合,我们提出了QueryDet,它使用了一种新颖的查询机制来加快基于特征金字塔的目标检测器的推理速度。该流水线包括两个步骤:它首先预测小对象在低分辨率特征上的粗略位置,然后使用由那些粗略位置稀疏引导的高分辨率特征来计算精确检测结果。通过这种方式,我们不仅可以收获高分辨率特征图的好处,而且还可以避免对背景区域的无用计算。在流行的COCO数据集上,该方法的检测mAP提高了1.0,mAP- small提高了2.0,高分辨率推理速度平均提高到3.0。在包含更多小对象的VisDrone数据集上,我们创建了一个新的最先进的模型,同时平均获得了2.3的高分辨率加速。代码可在https://github.com/网址获得:。1. 介绍随着深度学习的最新进展[15,53],视觉对象检测在性能和速度方面都取得了巨大的进步[3,12,26,27,29,37,39,49]。它已成为自动驾驶和遥感等广泛应用的基础。然而,检测小物体仍然是一个具有挑战性的问题。小比例对象和普通比例对象之间存在很大的性能差距。 [27]第二十七章:一个人的世界*在TuSimple担任全职研究实习生时所做的工作检测检测检测查询查询稀疏计算稀疏计算大介质小图1. QueryDet在高分辨率特征中实现了高效的小对象检测。小对象可能存在的位置(查询键)首先在低分辨率的特征中预测,并使用这些位置中的高分辨率特征构造稀疏特征图(查询值)。最后,稀疏检测头用于输出检测到的盒子。该范例以级联方式应用,实现快速准确的小对象检测。作为对象检测器,它在中等和大尺寸的对象上实现了44.1和51.2 mAP,但在COCO [28]测试开发集上仅获得了24.1 mAP。这种退化主要由三个因素引起:1)由于卷积神经网络(CNN)的主干中的下采样操作,突出小对象的特征被熄灭;因此,小物体的特征经常被背景中的噪声污染; 2)如[ 25 ]中指出的,低分辨率特征上的感受野可能与小物体的尺寸不匹配; 3)定位小物体比定位大物体更困难,因为边界框的小扰动可能导致交集大于并集(IoU)度量的显著扰动。可以通过缩放输入图像的大小或降低CNN的下采样率来改善小对象检测,以保持高分辨率特征,因为它们在13669×在所得到的特征图中增加有效分辨率。然而,仅仅增加特征图的分辨率可能招致相当大的计算成本。一些作品[1,26,29]提出通过重用来自CNN的不同层的多尺度特征图来构建特征金字塔以解决这个问题。不同尺度的物体在不同的层面上处理:倾向于在高级别特征上检测大对象,而通常在低级别上检测小对象。特征金字塔范例节省了在主干中从浅到深维护高分辨率特征图的计算成本。尽管如此,检测头在低层特征上的计算复杂度仍然是巨大的。例如,在RetinaNet中添加额外的金字塔级别P2将使检测头的计算(FLOPs)和内存成本增加约300%;因此在NVIDIA 2080 Ti GPU上将推理速度从13.6 FPS严重降低到4.85 FPS在本文中,我们提出了一个简单有效的方法,QueryDet,以节省检测头的计算量,同时促进小对象的性能。动机来自两个关键观察结果:1)对低层特征的计算是高度冗余的。在大多数情况下,小物体的空间分布非常稀疏:它们仅占据高分辨率特征图的几个部分;因此浪费了大量的计算。2)特征金字塔是高度结构化的。虽然我们无法在低分辨率的特征图中准确地检测出小目标,但我们仍然可以推断出它们的存在和粗糙度。地点具有高度的信心。利用这两个观察结果的自然想法是,我们只能将检测头应用于小物体该策略需要以低成本定位小对象的粗略位置,并且在所需的特征图上进行稀疏计算 在这项工作中,我们提出了QueryDet是基于一种新的查询机制级联稀疏查询(CSQ),如图所示。1.一、我们递归地预测小对象(查询)在低分辨率特征图上的粗略位置,并使用它们来指导高分辨率特征图中的计算在稀疏卷积[13,55]的帮助请注意,我们的方法旨在在空间上节省计算,因此它与其他加速方法兼容,如轻量级骨干[44],模型修剪[16],模型量化[51]和知识蒸馏[5]。我们在COCO检测基准[28]和一个具有挑战性的数据集VisDrone [59]上评估了我们的QueryDet,该数据集包含大量小对象。我们表明,我们的方法可以显着加快推理,同时提高检测性能。总之,我们做出了两个主要贡献:• 我们提出QueryDet,其中简单有效的设计了级联稀疏查询机制。它可以减少所有基于特征金字塔的目标检测器的计算成本我们的方法可以有效地利用高分辨率的功能,同时保持快速的推理速度,提高小目标的检测性能。• 在 COCO 上 , QueryDet 利 用 高 分 辨 率 特 征 将RetinaNet基线提高了1.1 AP和2.0 APS,高分辨率检测速度提高了3.0平均而言,采用CSQ时。在VisDrone上,我们在检测mAP方面推进了最先进的结果,并增强了高性能分辨率平均提高2.3倍2. 相关作品物体检测。基于深度学习的对象检测主要可以分为两个流:两级检测器[2,11,12,26,39]和一级检测器,[17,29,35一般来说,两阶段方法往往比一阶段方法更准确,因为它们使用RoIAlign操作[14]来显式对齐对象的特征。然而,这两个流之间的性能差距最近缩小。RetinaNet [27]是第一个与两级检测器性能相匹配的单级基于锚点的检测器。它使用特征金字塔网络(FPN)[26]进行多尺度检测,并提出Fo- calLoss来处理密集训练中的前景-背景不平衡问题。最近,单级无锚探测器[7,7,21,23,45,56]由于其简单性而引起了学术界的关注。在本文中,我们基于RetinaNet和FCOS [45]实现了我们的QueryDet,以展示其有效性和泛化能力。小物体识别由于小目标的低分辨率特征,小目标识别与检测、分割一样,是一项具有挑战性的计算机视觉任务。为了解决这个问题,已经提出了大量的工程。这些方法主要可以分为四种类型:1)增加输入特征的分辨率[1,10,22,24,26,29,41,48]; 2)过采样和强数据扩充[20,29,60]; 3)结合上下文信息[4,6,57],以及4)尺度感知训练-ing [25,26,42,43].空间冗余。几种方法已经使用稀疏计算来以不同方式利用CNN的空间冗余来节省计算成本。Perforated-CNN [9]使用不同的确定性采样方法生成掩码。动态卷积[47]使用小型门控网络来预测像素掩模,并且[54]提出了随机采样和插值网络。两13670∈××L骨干FPNRetinaNetRetinaNet+HR骨干P3查询网骨干P2FPNLRP2P3_保存P2_saved3.1. 再访RetinaNetRetinaNet有两个部分:具有FPN的骨干网络,其输出多尺度特征图和用于分类和回归的两个检测头。当大小P3输入图像为H×W,FPN特征的大小为37.46 AP13.6 FPS38.53 AP4.8 FPS38.36 AP14.0 FPSP={P1∈RH'×W'×C}. 这里l表示金字塔水平和(H′,W′)通常等于(<$H<$,<$W <$)在一个图2.当使用ResNet-50骨干网时,不同模块的FLOP分布。在RetinaNet中,高分辨率P3上的计算成本占总成本的43%;当加上更高分辨率的P2时,它们总共占总成本的74%。我们的QueryDet可以有效地减少这些特征的计算量99%,从而导致快速的推理速度和保持较高的检测精度。LR代表低分辨率的P4到P7。他们采用Gumbel-Softmax [18]和稀疏损失来训练稀疏掩码。另一方面,空间自适应计算时间(SACT)[8]预测每个空间位置的停止分数,该空间位置由提议的思考成本和特定于任务的损失函数监督。SB- Net [38]采用离线路线图或掩码来过滤掉被忽略的区域。与这些方法不同,我们的QueryDet专注于对象另一个流程采用两阶段框架:用于适应性推理的扫视和聚焦。[50]通过强化学习从原始输入图像中选择小区域,并利用动态决策过程处理这些区域。[46]在目标检测任务上采 用 类 似 的 思 想 。 与 QueryDet 类 似 的 一 个 工 作 是AutoFocus [33]。AutoFocus首先以粗略的尺度预测和裁剪感兴趣的区域,然后缩放到更大的分辨率以进行最终预测。与AutoFocus相比,我们的QueryDet是更有效的,因为3. 方法在本节中,我们将介绍用于准确和快速小对象检测的QueryDet。我们基于RetinaNet [27]说明了我们的方法,RetinaNet是一种流行的基于锚的密集检测器。请注意,我们的方法不限于RetinaNet,因为它可以应用于任何一级检测器和带有FPN的两级检测器中的区域建议网络(RPN)。我们将首先回顾RetinaNet并分析不同组件的计算成本分布。然后,我们将介绍我们如何使用所提出的级联稀疏查询,以节省计算成本在推理。最后,将介绍培训细节。2升2升典型的FPN实现。探测头包括四个3 3卷积层,然后是一个额外的3 3卷积层,用于最终预测。为了参数效率,不同的特征水平共享相同的检测头(参数)。然而,计算成本在不同层之间是高度不平衡的:从P7到P3的检测头的FLOP通过特征分辨率的缩放如图2所示,P3头占近一半FLOP而低分辨率特性P4至P7的成本仅占15%。因此,如果我们想将FPN扩展到P2以获得更好的小对象性能,那么成本是无法承受的:高分辨率的P2和P3将占整体成本的75%。在下文中,我们将描述我们的QueryDet如何减少高分辨率特征的计算,并提高RetinaNet的推理速度,即使使用额外的高分辨率P2。3.2. 利用稀疏查询在现代基于FPN的检测器的设计中,小物体往往从高分辨率的低水平特征图中检测。然而,由于小对象通常在空间中稀疏分布,因此高分辨率特征图上的密集计算范例是非常低效的。受此观察的启发,我们提出了一种从粗到细的方法来降低低级金字塔的计算成本:首先,在粗特征图上预测小目标的粗略位置,然后在细特征图上集中计算相应的位置。此过程可视为查询过程:粗略位置为查询关键字,用于检测小物体的高分辨率特征为查询值;因此,我们称我们的方法为QueryDet。我们的方法的整个管道如图3所示。为了预测小对象的粗略位置,我们添加了一个与分类和回归头并行的查询头查询头接收特征图P1,其中步幅2l作为输入,并输出热图VlRH′×W′,Vi,j表示网格(i,j)包含小对象的概率。在训练过程中,我们将每个级别上的小对象定义为规模小于预定义阈值SL。这里,为了简单起见,我们将sl设置为Pl上的最小锚标度,并且对于无锚检测器,将其设置为Pl上的最小回归范围。对于小对象o,我们通过计算其中心位置(xo,yo)与特征图上的每个位置之间的距离来编码查询头的目标图FPNLRP3LR13671Ll−1Ooo--−LLO--LL只能由kl−1生成。我们将这种范式命名为级联稀疏查询(CSQ),如图1所示。所有Ll−1L.分类高x宽x高查询键spconv x4回归高x宽x 4查询spconv x4输入要素查询值特征小对象查询高x宽x 1spconv x4P7,1/128头P6,1/64头P5,1/32头P4,1/16头P3,1/8高分辨率头P2,1/4较高分辨率头特征稀疏头(分类+回归+查询)特征金字塔骨干图3.建议的QueryDet的整个管道。图像被输入到主干和特征金字塔网络(FPN)中,以产生一系列不同分辨率的特征图。从查询起始层(图中的P5)开始,每一层从前一层接收一组关键位置,并应用查询操作来生成稀疏值特征图。然后,稀疏检测头和稀疏查询头预测检测到的框的对应尺度和关键位置的下一层。距离小于sl到1,否则为0。然后查询中心 {(xo,yo)}:L l头部使用FocalLoss训练[27]。在推理过程中,我们选择预测得分大于阈值σ作为查询。那么qo将被映射到它的四个Dl[x][y]=min{.(x-xo)2+(y-yo)2},(2)Pl−1上的最近邻作为关键位置{ko}:{kl−1}={(2xl + i,2yl + j),i,j ∈ {0,1}}。(1)Pl−1上的所有{k o}被收集以形成关键位置然后,地面实况查询映射V1被定义为:V[x][y]=1如果Dl[x][y]<为l.(三)0如果Dl[x][y] ≥sl对于每个水平P,损失函数定义如下:设置 kl−1。 那么三个头只会处理那些位置来检测对象和计算下一级具体来说,我们使用{kl−1}从Pl−1中提取特征,索引来构造一个稀疏张量,我们称之为值Ling:L1(U1,R1,V1)=LFL(U1,U1)+LR(R1,R1)+LFL(V1,V1)(4)其中,U1、R1、V1是分类输出,回归量输出。l−∗ ∗ ∗功能.然后稀疏卷积(spconv)[13]内核使用4-Conv密集头的权重来构建,以计算层L1上的结果。为了最大限度地提高推理速度,我们将查询应用于put和查询得分输出,Ul、Rl和Vl是它们对应的地面实况图;FL是焦点损失,r是边界框回归损失,其是平滑的l1[11]在最初的RetinaNet中总损失为:级联方式。特别是,对P--l−2 将L=βL*L.(五)我们的CSQ的好处是,我们可以避免从单个Pl生成查询ql,这导致在查询映射期间随着l减小而指数地增加对应的关键位置kl的大小。3.3. 培训我们保持分类和回归头的训练与原始RetinaNet中的相同[27]。对于查询头,我们使用FocalLoss [27]和生成的二进制目标映射来训练它:设Pl上的小对象o的地面实况边界框为bo=(x o,y o,w o,h o)。 我们L13672这里,我们通过β1重新平衡每层的损失。原因是,当我们添加像P2这样的更高分辨率的特征时,训练样本的分布发生了显着变化。P2上的训练样本总数甚至大于P3到P7上的训练样本总数。如果我们不减轻它的重量,训练将被小物体所主宰。因此,我们需要重新平衡不同层的损失,使模型同时从所有层学习。3.4. 与相关工作的lllll首先计算P1上的每个特征位置(x,y)与所有小的地面实况之间的最小距离图D1请注意,尽管我们的方法与使用RPN的两阶段对象检测器有一些相似之处,但它们在以下方面有所不同:13673××以下几个方面:1),我们只计算粗预测中的分类结果,而RPN计算分类和回归。2),RPN是在所有级别的全特征图上计算的,而我们的QueryDet的计算是稀疏和选择性的。3),两阶段方法依赖于像RoIAlign[14]或RoIPooling [11]这样的操作来将特征与第一阶段提案对齐。然而,它们没有在我们的方法中使用,因为我们在粗略预测中没有框输出。值得注意的是,我们提出的方法与基于FPN的RPN兼容,因此可以将QueryDet纳入两阶段检测器以加速提案生成。另一个密切相关的工作是PointRend [19],它使用非常少的自适应选择点来计算高分辨率分割图。我们的QueryDet和PointRend之间的主要区别是:1)如何生成查询以及2)如何应用稀疏计算。对于第一个差异,PointRend根据每个位置的预测得分选择最不确定的区域,而我们直接添加辅助损失作为监督。实验结果表明,这种简单的方法可以产生较高的查全率预测,提高最终的性能.至于第二,PointRend使用多层感知器进行逐像素分类。它只需要高分辨率特征图中单个位置的特征,因此可以很容易地进行批量处理,以提高效率。另一方面,由于对象检测需要更多的上下文信息来进行准确的预测,我们使用3×3核的稀疏卷积4. 实验我们在两个对象检测数据集上进行定量实验:[28]和VisDrone [59]。 COCO是用于一般对象检测的最广泛使用的数据集; VisDrone是专门用于无人机拍摄图像检测的数据集,其中小对象占主导地位。4.1. 实现细节我们基于PyTorch [34]和Detectron2工具包[52]实现了我们的方法。所有模型都在8个NVIDIA 2080Ti GPU上训练。对于COCO,我们遵循常见的培训实践:我们采用标准1 sched- ule和Detectron 2中的默认数据增强。批量大小设置为16,初始学习率为0.01。用于重新平衡不同层之间的损耗的权重β1被设置为跨P2到P7从1线性增长到3。对于VisDrone,遵循[30],我们将一个图像平均分为四个不重叠的补丁,并在训练期间独立处理它们。我们以0.01的初始学习率训练网络50k次迭代,并在30k和40k次迭代时将学习率衰减10再平衡权重β 1被设置为从1线性增长到2。六、对于这两个数据集,我们在训练期间冻结了骨干网络中的所有批归一化(BN)层,我们做到了方法CSQAPAP50AP75APSAPMAPLFPSRetinaNet-37.4656.9039.9422.6441.4848.0413.60RetinaNet(3x)-38.7658.2741.2422.8942.5350.0213.83QueryDetQueryDet✓×38.5338.3659.1158.7841.1240.9924.6424.3341.9741.9749.5349.534.8514.88QueryDet (3x)QueryDet(3x)✓×39.4739.3459.9359.6942.1141.9825.2424.9142.3742.3851.1251.124.8915.94表1.我们的QueryDet和基线RetinaNet在COCOmini-val集上的准确度(AP)和速度(FPS)的比较。方法CSQAPAP50AP75AR1AR10AR100AR500FPSRetinaNet-26.2144.9027.100.525.3534.6337.212.63QueryDetQueryDet✓×28.3528.3248.2148.1428.7828.750.510.515.965.9636.4836.4539.4239.351.162.75表 2. 在 VisDrone 验 证 集 上 比 较 我 们 的 QueryDet 和 基 线RetinaNet的检测精度(AP)和速度(FPS)。在探测头中不添加BN层。混合精度训练[32]在所有实验中使用,以节省GPU计算。查询阈值σ被设置为0.15,并且我们从P4开始查询。在没有具体描述的情况下,我们的方法是在具有ResNet-50主干的RetinaNet上构造的。4.2. 我们方法在表1中,我们比较了我们的方法与COCO上的基线RetinaNet之间的平均精度(mAP)和平均每秒帧数(FPS)。基线运行在13.6 FPS,并获得37.46整体AP和22.64 APS的小对象,这略高于原始论文[27]中的结果。在高分辨率特征的帮助下,我们的方法实现了38.53 AP和24.64 APS,AP和APS分别提高1.1和2.0。 结果揭示了在检测小物体时使用高分辨率特征的重要性。然而,合并这样一个高分辨率的特征图显着降低推理速度为4.85 FPS。当采用我们的级联稀疏查询(CSQ)时,推理速度提高到14.88 FPS,甚至比不使用更高分辨率P2的基线RetinaNet更快,而性能损失可以忽略不计。此外,图2显示了我们的CSQ如何节省计算成本。与具有更高分辨率P2的RetinaNet相比,其中P3和P2占总FLOP的74%,我们的CSQ成功地将这些成本降低到1%左右其原因是,在QueryDetall计算高分辨率的P3和P2的位置周围的稀疏分布的小对象进行。这些结果充分证明了我们方法的有效性。我们还在表1中显示了3个训练计划的结果。更强的基线不会削弱我们的改进,而是带来更显著的加速。我们将其归功于更强大的查询头,因为小对象估计变得更加准确。在VisDrone中,如表2所示,发现是13674HRRBQHCSQAPAP50AP75APSAPMAPLFPS37.4656.9039.9422.6441.4848.0413.60✓36.1056.3938.1721.9439.9145.254.8337.6657.5740.3722.0341.8649.1013.60✓38.1158.4840.8523.0641.5349.364.83✓✓38.5359.1141.1224.6441.9749.534.85✓✓✓38.3658.7840.9924.3341.9749.5314.88✓✓✓✓表3. COCOmini-val套件的消融研究。HR代表使用高分辨率特征;RB代表FPN层之间的损耗再平衡;QH代表是否添加QueryHead,以提供额外的客观性监督。COCO AP-FPS3837363534335 10 15 2025速度(FPS)VisDrone2018 AP-FPS28262422201 2 3 4 5 6速度(FPS)COCO配置总成-FPS5856545250485 10 15 20 25速度(FPS)VisDrone2018 AR-FPS403836343230281 2 3 4 5 6速度(FPS)实际上下降了1.34。正如我们在3.3节中讨论的,这个问题是由添加P2后训练样本中的分布偏移引起的。然后我们重新平衡这些层的损失。结果改进为38.11,主要解决了这一问题.有趣的是,当采用原始基线时,重新平衡策略仅为我们提供了较小的AP增强(0.2),这表明损耗重新平衡在高分辨率场景中更为关键。然后,我们将查询头添加到网络中,通过它,我们获得了0.42 AP的进一步性能增益,1.58 APS,将总AP和APS推高至38.53和24.64,验证了额外客观性监督的有效性最后,使用CSQ,检测速度从4.85FPS大大提高到14.88FPS,并且检测AP中的0.17损失可以忽略不计。图4.在COCO和VisDrone上使用不同大小的输入图像进行速度和准确性(AP和AR)权衡。该权衡由查询阈值〇控制。每条曲线最左边的标记(▲标记)代表未应用级联稀疏查询QD代表QueryDet,RN代表RetinaNet。起始图层APAP50AP75APSAPMAPLFPS没有查询38.5359.1141.1224.6441.9749.534.86P637.9157.9840.5123.1842.0249.5313.42P538.2258.5540.8623.6542.0049.5313.92P438.3658.7840.9924.3341.9749.5314.88P338.4558.9441.0724.5041.9349.5211.51表4.在MS-COCO极小集上研究CSQ的最佳起始层。类似的,但结果更重要。在这个小的面向对象的数据集上,我们改进了2.1的整体AP和3.2的AP50推理速度从1.16 FPS提高到2.3倍,从2.75 FPS。4.3. 消融研究我们对COCOminival套件进行了消融研究,以分析每个组件如何影响表3中的检测精度和速度。我们重新训练的RetinaNet实现了37.46 AP.当我们加上高分辨率的P2,AP的阻力,4.4. 讨论查询阈值的影响。在这里,我们调查的准确性和速度的权衡在我们的级联稀疏查询。我们在不同的查询阈值σ下测量检测精度(AP)和检测速度(FPS),其作用是确定输入图像中的网格(低分辨率特征位置)是否包含小对象。直观地,增加该阈值将减少小对象的召回,但加速推理,因为考虑的位置更少。不同输入大小的精度-速度权衡如图4所示。对于一条曲线中的相邻数据标记,我们按顺序将σ增加我们观察到,即使是非常低的阈值(0.05)也可以带来巨大的速度提升。这一观察结果验证了我们的方法的有效性。另一个观察是关于不同输入分辨率的AP上限和下限之间的差距这个差距对于大尺寸的图像来说很小,但是对于小尺寸的图像来说很大,这表明对于更高分辨率的输入,即使查询阈值设置得很高,我们的CSQ也可以保证良好的AP下限。从哪个图层开始查询? 在我们的级联稀疏查询中,我们需要决定起始层,在该起始层之上,我们运行常规卷积以获得检测结果。QD-s640QD-s800QD-s960RN-640RN-800RN-960QD-1600QD-2000QD-2400RN-1600QD-s640QD-s800QD-s960RN-640RN-800RN-960平均精密度(AP)QD-1600QD-2000QD-2400RN-1600平均精密度(AP)平均召回率(AR)平均召回率(AR)13675××查询方法APAP50AP75APSAPMAPLFPS没有查询38.5359.1141.1224.6441.9749.534.86CQ38.3158.7340.9824.2541.9849.5310.49CCQ38.3258.7540.9824.2641.9849.538.73CSQ(我们的)38.3658.7840.9924.3341.9749.5314.88CSQAPAP50AP75APsAPmAPlFPS✓×38.4759.4441.7322.9841.9049.5517.5738.2058.8841.5022.2341.9149.5519.03表5. COCO极小集上不同查询方法的比较。我们比较了我们的CSQ和作物查询(CQ)和完全卷积查询(CCQ)。上下文APAP50AP75APSAPMAPLFPS没有查询38.5359.1141.1224.6441.9749.534.861x138.2558.6040.8723.8841.9749.5314.093x338.3058.6640.9424.1441.9749.5314.065x538.3658.7240.9824.1841.9749.5314.007x738.3758.7340.9824.3041.9749.5313.779x938.3758.7340.9824.3041.9749.5313.4211x1138.3858.75540.9924.3341.9749.5313.11表6.比较在MS-COCOminival集上使用不同上下文信息量时的检测AP和速度上下文被定义为在查询位置周围具有各种大小的补丁。骨干模型CSQAPAP50AP75APSAPMAPLFPSRN-26.7243.1728.1715.2729.2834.5117.75MobileNet V2QDQD✓×29.1628.9446.2045.7930.9530.7116.1415.7431.2631.2638.6638.665.3121.66RN-23.0438.3223.7512.0125.5035.1617.45ShuffleNet V2QDQD✓×26.0725.8542.3441.9627.3027.0813.2012.8128.0328.0536.2336.235.2620.02表7. 不同骨干网络的结果。 RN和QD分别代表RetinaNet和QueryDetCSQAPAP50AP75APsAPmAPlFPSFCOS-38.3757.6341.0322.3441.9548.9617.06QueryDet(FCOS)QueryDet(FCOS)✓×40.0539.4958.6957.9743.4642.8225.5224.8143.4343.4550.6950.697.9214.40表8.我们的QueryDet(FCOS)及其在COCOmini-val集上的基线模型的性能和速度。大型物体。我们不从最低分辨率层开始CSQ的原因有两个:1)对于低分辨率特征,常规卷积运算非常快,因此CSQ节省的时间不能补偿构造稀疏特征图所需的时间; 2)在分辨率很低的特征图上很难区分小物体。结果示于表4中。我们发现获得最高推理速度的层是P4,这验证了从非常高级别的层(如P5和P6)查询会导致速度损失。我们观察到,随着起始层变得更高,AP损耗逐渐增加,这表明网络很难在非常低分辨率的层中找到小物体使用查询的最佳方式是什么?我们证明了我们的级联稀疏查询的高效率。 我们提出表9.在COCOminival set上使用我们的CSQ在Faster R-CNN中的性能和速度。用 于 比 较 的 两 个 备 选 查 询 操 作 。 第 一 裁 剪 查 询(CQ),其中从高分辨率特征中裁剪由查询指示的对应区域以用于后续计算。注意,这种类型的查询类似于 自 动 对 焦 [33] 方 法 。 另 一 个 是 完 全 卷 积 查 询(CCQ),我们使用常规卷积来计算每个层的完整特征图,但只从查询位置提取结果进行后处理。对于CQ,我们从特征图中裁剪11 - 11补丁,选择该补丁以适合检测头中的5个3 - 3连续卷积的感受野。我们将结果呈现在表5中。一般来说,所有三种方法都可以成功地加速推断,而AP损失可以忽略不计。其中,我们的CSQ可以达到最快的推理速度。我们需要多少背景? 要应用我们的CSQ, 我们需要构造稀疏特征图,其中仅激活小对象的位置。我们还需要激活小对象周围的上下文区域,以避免降低准确性。但在实际应用中,我们发现过多的上下文并不能提高检测AP,反而会降低检测速度;另一方面,太少的上下文将严重降低检测AP。在本节中,我们将探讨我们需要多少上下文来平衡速度-准确性权衡。在这里,上下文被定义为在查询位置周围具有各种大小的补丁,其中我们的稀疏检测头也将处理补丁内的特征。结果报告于表6中。从它我们得出结论,一个5x5补丁可以给我们带来足够的上下文来检测一个小对象。虽然更多的上下文带来了一个小的AP的改善,我们的CSQ的加速效果受到负面影响,而更少的上下文不能grantee一个高检测AP。轻质骨架的结果。正如我们在第1节中所声称的,我们的方法可以与轻量级骨干结合,以获得更多的速度提高。此外,由于我们的CSQ旨在加速检测头中的计算,因此当使用这种骨干时,整体加速更加明显,因为骨干网络的推理时间变得更少。我们在表7中报告了具有不同轻质主链的结果。对于MobileNet V2 [40]的高分辨率检测,速度平均提高到4.1倍,而 Shuf的速度平均提高到3.8倍13676×(a) COCO检测(b)COCO查询热图(c) VisDrone检测(d) VisDrone查询热图图5.在MS-COCO和VisDrone 2018数据集上对QueryDet的小对象的检测结果和查询热图进行可视化我们删除了VisDrone2018的类标签,以更好地区分小边界框。fleNet V2 [31],这验证了我们的方法可以部署在边缘设备上,用于实时应用,例如自动驾驶车辆,以实现有效的小物体检测。无锚探测器的结果。QueryDet可以应用于任何基于FPN的检测器,以加速高分辨率检测。因此,我们将QueryDet应用于FCOS,一种最先进的无锚检测器,并在表8中报告COCO结果。实验结果表明,QueryDet利用高分辨率特征对AP进行改进,采用级联稀疏查询(Cascade Sparse Query,CSQ)后,高分辨率特征的速度平均提高了1.8倍,验证了该方法的普适性。我们的CSQ也可以应用于基于FPN的两级探测器,以降低RPN中高分辨率层的计算成本。为了验证这一说法,我们将CSQ应用于更快的R-CNN检测器[39]。在我们的实现中,RPN的输入是从P2到P6,我们从P4开始查询。 我们修改RPN结构使其具有3个卷积层而不是正常实现中的1层,其后是3个分支,用于客观分类,边界框回归和查询关键字计算。前两个分支是按照常规训练的[39],而查询分支是通过γ = 1的焦点损失训练的。α=0。二十五在推理过程中,我们将查询线程长度设置为0.15。 如表9所示,我们的Faster R-CNN实现了38.47整体AP和22.98 APS,17.57 FPS。当使用CSQ时,推理速度提高到19.03 FPS,而APs的损失较小。结果验证了该方法在加速两级探测器方面的有效性。注意,在两阶段检测中,我们的CSQ不仅可以节省RPN中密集计算的时间,还可以减少馈送到第二阶段的ROI的数量。4.5. 可视化和故障案例在图5中,我们可视化了COCO和VisDrone上小物体的检测结果和查询热图。从热图中可以看出,我们的查询头可以成功地找到小对象的粗略位置,使我们的CSQ能够有效地检测它们。此外,通过结合高分辨率特征,我们的方法可以非常准确地检测小物体。我们还展示了我们方法的两个典型失败案例:1)即使查询头正确提取了小物体的corase位置,检测头也可能无法定位它们(VisDrone的第二张图像); 2)大物体的位置被错误地激活,导致检测头处理无用的位置并且因此减慢速度(COCO的第一个图像)。5. 结论我们提出了QueryDet,它使用一种新的查询机制级联稀疏查询(CSQ),以加速基于特征的密集对象检测器的推理。QueryDet使物体检测器能够以低成本检测小物体,并易于部署,使其在自动驾驶等实时应用中部署成为现实。对于未来的工作,我们计划将QueryDet扩展到更具挑战性的3D对象检测任务,该任务将LiDAR点云作为输入,其中3D空间通常比2D图像更稀疏,并且计算资源对于昂贵的3D卷积运算来说更加密集。13677引用[1] Zhaowei Cai,Quanfu Fan,Rogerio S Feris,and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV。施普林格,2016年。2[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。在CVPR,2018年。2[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。端对端使用Transformers进行目标检测。ECCV,2020年。1[4] Chenyi Chen , Ming-Yu Liu , Oncel Tuzel , andJianxiong Xiao.用于小对象检测的R-CNN在ACCV中。施普林格,2016年。2[5] 陈国斌,崔元根,项羽,韩东,和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。NeurIPS,2017。2[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEEtransactionsonpatternanalysisandmachineintelligence,40(4),2017。2[7] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:用于对象检测的关键点三元组。在ICCV,2019年。2[8] Michael Figurnov,Maxwell D Collins,Yukun Zhu,LiZhang , Jonathan Huang , Dmitry Vetrov , and RuslanSalakhutdinov.残差网络的空间自适应计算时间。在CVPR,2017年。3[9] Mikhail Figurnov,Aizhan Ibraimova,Dmitry P Vetrov,and Pushmeet Kohli.穿孔:通过消除冗余卷积的加速InNeurIPS,2016. 2[10] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C Berg. DSSD:Deco
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功