航空图像中的簇状目标检测

91 浏览量更新于2023-10-12 收藏 2.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8311航空图像中的簇状目标检测范阳1范恒1朱鹏1埃里克·布拉什2林海斌3，1张1美国费城天普大学计算机与信息科学系2美国空军研究实验室3Stony Brook University，Stony Brook，NY，USA.{fyang，hengfan，pchu}@ temple.edu，erik. us.af.mil，hling@cs.stonybrook.edu摘要检测航拍图像中的对象具有挑战性，原因至少有两个：（1）像行人这样的目标对象在像素上非常小，使得它们很难与周围背景区分开;以及（2）目标通常是稀疏和非均匀分布的，使得检测非常低效。在本文中，我们解决这两个问题的启发，观察这些目标往往是集群。特别是，我们提出了一个聚类检测（ClusDet）网络，统一的对象聚类和检测在一个端到端的框架。CMDet中的关键组件包括集群建议子网络（CPNet）、规模估计子网络（ScaleNet）和专用检测网络（DetecNet）。给定一个输入图像，CPNet产生对象聚类区域，ScaleNet估计这些区域的对象尺度。然后，每个尺度归一化的聚类区域被送入DetecNet进行对象检测。与以前的解决方案相比，WARDET具有以下几个优点：（1）极大地减少了用于最终目标检测的芯片数量，因此实现了高运行时间效率，（2）基于聚类的尺度估计比以前使用的基于单个对象的尺度估计更准确，因此有效地提高了对小对象的检测，并且（3）最终的DetecNet专用于聚类区域，并且隐式地对先前的上下文信息进行建模，以提高检测精度。在VisDrone、UAVDT和DOTA三种流行的航空图像数据集上对该方法进行了测试.在所有的实验中，与最先进的检测器相比，DET实现了令人鼓舞的性能。1. 介绍随着深度神经网络的发展，对象检测（例如，更快的R-CNN [27]，YOLO [25]，SSD [23]）已经见证了自然图像的巨大进步（例如， MS COCO [ 22 ] 中的600×400图像）。尽管*通讯作者。每个芯片的对象覆盖率（芯片中的对象与整个图像的比率）图1：基于网格的均匀分区和建议的基于集群的分区的比较。出于叙述的目的，我们有意将芯片分为三种类型：稀疏、常见和群集。我们观察到，基于网格的均匀划分，超过73%的芯片是稀疏的（包括23%的芯片与零对象），约25%的芯片是共同的，约2%的芯片是集群的。相比之下，对于基于集群的划分，大约50%的芯片是稀疏的，35%是常见的，并且大约15%属于集群芯片，这是基于网格划分的7倍对于一般的目标检测来说，这些检测器在空间图像上的性能（例如，VisDrone中的2，000 × 1，500像素[37]）在精度和效率方面都远远不能令人满意，这是由于两个挑战：（1）目标通常具有相对于图像的小尺度;（2）目标在整个图像中通常是稀疏且非均匀分布的。与自然图像中的对象相比，尺度变化空间图像均匀分簇稀疏共同群集芯片总数8312规模估计子网基线探测网集群芯片上的检测特征子网集群提案子网ICMPP集群芯片融合检测子网最终检测全局图像上的检测图2：隐藏对象检测（WSDet）网络。该网络由三个关键组成部分组成：（1）集群建议子网（CPNet）;（2）规模估计子网（ScaleNet）;以及（3）专用检测网络（DetecNet）。CPNet用于预测聚类区域。 ScaleNet用于估计聚类中的对象规模。 DetecNet执行检测在集群芯片上。最后将聚类芯片的检测结果与全局图像融合生成最终的检测结果。ICM（迭代聚类合并）和PP（分区和填充）的细节在第3节中给出。长时间导致针对航空图像中的对象的深度网络的较不有效的特征表示。因此，现代检测器难以有效地利用外观信息来区分对象与周围背景或类似对象。为了处理尺度问题，一个自然的解决方案是将航空图像划分为几个均匀的小芯片，然后对每个芯片进行检测[10，24]。虽然这些方法在一定程度上缓解了分辨率挑战，但由于忽略了目标稀疏性，它们在执行检测时效率低下。因此，大量计算资源被低效地应用于具有稀疏对象或甚至没有对象的区域（参见图1B）。①的人。我们观察图。1，在航空图像对象不仅是稀疏和不均匀的，而且往往是高度聚集在某些区域。例如，行人通常集中在广场和高速公路上的车辆。因此，提高检测效率的直观方法是将检测器聚焦在这些存在大量对象的聚类区域上。受此动机的启发，本文提出了一种新的集群检测（CNODET）网络，通过将对象和集群检测集成在一个统一的框架中来解决上述挑战。如示于图2、CSDet由三个关键部分组成，包括一个聚类建议子网络（CPNet）、一个尺度估计子网络（ScaleNet）和一个基线检测网络（DetecNet）。CPNet根据对航拍图像的初始检测，生成一组目标聚类区域。在获得聚类区域之后，它们被裁剪出来用于随后的精细检测。为此，必须首先调整这些区域的大小以适合检测器，这可能导致聚类区域中的物体非常大或非常小，从而降低检测性能[30]。为了解决这个问题，我们提出了ScaleNet来估计每个集群芯片中对象的适当规模，然后重新缩放在将其馈送到检测器之前相应地对芯片进行处理，这不同于[10，24，18]中的直接切割的芯片。之后，每个集群芯片被馈送到dedicated检测器，DetecNet，精细检测。最后，通过融合集群芯片和全局图像上的检测结果来实现检测。与以前的方法相比，所提出的Clus-Det显示出几个优点：（i）由于采用了CPNet，我们只需要处理具有大量对象的聚类区域，这大大降低了计算成本，提高了检测效率;（ii）在ScaleNet的帮助下，每个聚类的芯片被细化，以便更好地进行后续精细检测，从而提高准确性;以及（iii）DetecNet被专门指定用于聚类区域检测，并且隐式地对先前的上下文信息进行建模以进一步提高检测精度。在三个航空影像数据集上进行的大量实验表明，该算法在使用单一模式的情况下，以较小的计算代价获得了最佳的性能。综上所述，本文有以下贡献：1) 提出了一种新的DET网络，同时解决规模和稀疏性的航空图像中的目标检测的挑战。2) 提出了一种有效的ScaleNet来缓解聚类芯片中的非均匀尺度问题，以获得更好的精细检测。3) 在三个代表性的航空图像数据集上实现最先进的性能，包括VisDrone [37]，UAVDT [8]，DOTA [33]，计算量更少。本文的其余部分组织如下。第二节简要回顾了相关的工作。在第3节中，我们详细描述了所提出的方法。实验结果见第4节，结论见第5节。83132. 相关工作近几十年来，目标检测技术得到了广泛的研究，并产生了大量的文献。在下文中，我们首先回顾了与我们最相关的三条工作线通用对象检测。受图像识别成功的启发[17]，深度卷积神经网络（CNN）已在对象检测中占主导地位协议-对于检测流水线，现有的检测器可以大致分为两种类型：基于区域的检测器和无区域的检测器。基于区域的检测器将检测分为两个步骤，包括建议提取和对象检测。在第一阶段中，通过提取候选区域（即，提案）。在第二阶段，这些建议被进一步分为具体类别。基于区域的检测器的表示包括R-CNN [12]，Fast/er R-CNN[11，27]，Mask R-CNN [14]和Cascade R-CNN [3]。相反，无区域检测器，如SSD [23] YOLO [25]，YOLO9000 [26]，RetinaNet [21]和Refinedet [36]，在没有区域建议的情况下执行检测，这导致了以牺牲准确性为代价的高效率。尽管在自然图像（例如，PASCAL VOC中的500×400图像[9]和MS COCO中的600×400图像[22]），这些通用检测器是退化的。当应用于高分辨率空间图像时被验证（例如，VisDrone中的2，000 × 1，500张图像[37]，无人机捕获的图像甚至更大[19]）。请注意，高分辨率图像中的检测最近已经获得了越来越多的研究注意力[32]。航空图像检测与自然图像中的检测相比，航空图像中的检测更加困难，因为（1）目标相对于高分辨率航空图像具有较小的尺度;（2）目标稀疏且不均匀，集中在一定的区域内。由于这项工作的重点是深度学习，我们只回顾了一些使用深度神经网络进行航空图像检测的相关工作。在[28]中，提出了一种简单的基于CNN的方法，用于航空图像中的自动检测。[2]中的方法将航空图像中的检测与语义分割相结合，以提高性能。在[31]中，作者直接扩展了Fast/er R-CNN [11，27]，用于航空图像中的车辆检测。[6]的工作提出了一种用于飞行器检测的基于耦合区域的CNN。[7]的方法研究了航空图像检测中感兴趣区域（ROI）和对象之间的未对准问题，并引入了ROI Transformer来解决该问题。[35]中的算法提出了一种用于航空图像中目标检测的尺度自适应建议网络。检测中的区域搜索。针对小目标的检测问题，通常采用[24]的方法提出自适应地直接计算，将资源分配到对象稀疏且小的子区域。[1]的工作引入了上下文驱动的搜索方法来有效地定位包含特定类别对象的区域。在[4]中，作者提出通过学习上下文关系来动态探索基于提议的对象检测中的搜索空间。[10]中的方法提出利用强化学习来顺序地选择用于在更高分辨率尺度下进行检测的区域。在一个更具体的领域，宽空中运动图像（WAMI）中的车辆检测，[18]的工作提出了一个两阶段的时空卷积神经网络来从WAMI序列中检测车辆。我们的方法。在本文中，我们的目标是解决上述两个挑战的航空图像检测。我们的方法与以前的基于区域搜索的检测器（例如，[24，10]），其将高分辨率图像分割成用于检测的小的均匀芯片。相比之下，我们的解决方案首先预测图像中的聚类区域，然后提取这些聚类区域进行精细检测，从而显着降低了计算成本。虽然[ 18 ]中的方法也对可能包含物体的芯片进行检测，但我们的方法与之有很大不同。在[18]中，直接调整获得的芯片的大小以适合检测器用于后续检测。相反，受[30]中观察到的具有极端尺度的对象可能会降低检测性能的启发，我们提出了ScaleNet来缓解这个问题，从而改善每个芯片上的精细检测。3. 分布式检测网络3.1. 概述如图2、航空图像的检测包括三个阶段：聚类区域的提取、聚类芯片的精细检测和检测结果的融合。具体地说，在对航空图像进行特征提取之后，CPNet将特征图作为输入，并输出聚类区域。为了避免处理过多的簇芯片，我们提出了一个迭代的簇合并（ICM）模块，以减少噪声簇芯片。然后，将聚类芯片以及全局图像上的初始检测结果送入ScaleNet，以估计聚类芯片中对象的适当尺度。利用尺度信息，集群芯片被重新尺度化，以便使用DetecNet进行精细检测。采用标准的非最大值抑制（NMS）算法，将各簇芯片的检测结果与全局图像进行融合，得到最终的检测结果。3.2. 聚类区域提取聚类区域提取包括两个步骤：使用聚类建议子网络（ CP-Net ）的初始聚类生成和使用迭代聚类合并（ICM）的聚类缩减。8314i=1BB我BB算法1：迭代聚类合并（ICM）输入：初始集群边界框B={Bi}NB，N初始聚类得分R={Ri}i=1，阈值，最大合并聚类数Nmax;0 0NB0(a) 集群检测（b）集群检测+ICM图3：合并集群检测的图示。的输出：合并的类集B开始B0 ← B;而|b0的|>Nmaxdoi=1;红框是CPNet的聚类检测。蓝色框表示迭代聚类合并（ICM）后的聚类。3.2.1集群建议子网（CPNet）聚类区域提取的核心是聚类生成子网络（CPNet）。CPNet在航空图像的高级特征图上工作，旨在预测聚类的位置和规模1。受区域建议网络（RPN）[27]的启发，我们将CPNet公式化为一个完全卷积的网络块。具体地说，CPNet将来自特征提取主干的高级特征图作为输入，并分别使用两个神经网络进行回归和分类。虽然我们的CPNet与RPN有相似的想法，但它们是不同的。RPN用于提出对象的候选区域，而CPNet则旨在B0，R0←NMM（B，R，NMMp）如果|n0的|为|NB|然后折断;其他B←B0;R←R0;结束结束B00← {};f或i≤min（Nmax，|b0的|）做B00<$B00<${B0};端B0 ← B00;端簇集B0={B0}NB0 与N0聚类的Alg. 1.一、i i=1B提出聚类的候选区域。相比在目标方案中，簇的大小要大得多，因此CPNet需要比RPN更大的感受野。出于这个原因，我们将CPNet附加在特征提取主干的顶部。值得注意的是，CPNet的学习是一个监督过程。然而，现有的公共数据集都没有为集群提供地面实况。在这项工作中，我们采用了一种简单的策略来生成训练CPNet所需的聚类器的地面实况。我们建议读者参考文献资料，了解生成集群地面实况的详细信息。3.2.2迭代聚类合并如图3（a），我们观察到CPNet产生的初始集群是密集和混乱的。这些密集杂乱的聚类区域由于其高重叠和大尺寸而难以直接用于精细检测，导致实际中的计算负担极其沉重。为了解决这个问题，我们提出了一个简单而有效的迭代聚类合并（ICM）模块来清理N集群设B={Bi}i=1表示N个B类的集合。N由CPNet检测到的边界框，并且R={Ri}i=1表示对应的聚类分类得分。通过预先定义的重叠阈值和合并后的最大聚类数Nmax，我们可以得到合并后的1在这项工作中，一个集群在航空图像定义为一个矩形区域，其中至少包含三个对象。简单地说，我们首先找到具有最高得分的B i，然后选择与B i的重叠大于与B i的阈值重叠的聚类来与Bi进行融合。所有合并的群集都将被删除。然后，我们重复上述过程，直到B为空。上述所有过程对应于Alg中的非最大合并（NMM）。1.一、我们进行NMM多次，直到达到预设的Nmax。关于新的市场机制的细节，读者可参考补充材料。图3（b）演示了最终的合并集群，表明所提出的ICM模块能够有效地合并密集和杂乱的集群。3.3. 集群芯片在获得集群芯片后，用于对这些芯片进行精细检测。不像现有的方法[24，18，10]，直接重新-为了确定检测芯片的大小，本文提出了一个尺度估计子网络（ScaleNet）来估计芯片中目标的尺度，避免了目标尺度过大而影响检测性能。基于估计的尺度，Clus-Det在每个码片上执行分区和填充（PP）操作以用于检测。3.3.1规模估计子网络（ScaleNet）我们将规模估计视为回归问题，并使用一组完全连接的网络来计算ScaleNet。8315填充我1NMS生薯片输入聚类分区精制木片图4：规模估计网络（ScaleNet）的架构。将聚类检测投影到特征映射空间。每个聚类被合并到一个固定大小的特征图中，并通过全连接层（FC）映射到一个特征向量中。网络具有每个簇的输出，即，规模回归补偿。如图4、ScaleNet接收从网络主干提取的特征图、聚类边界框和全局图像上的初始检测结果三个输入，输出聚类芯片中对象的相对尺度偏移量。这里，从检测子网获得初始检测结果。设t=（pi− s）/pi为俱乐部的fset的相对规模图5：分区和填充（PP）过程的图示。原料切片和精制切片分别是不使用PP和使用PP的检测器的输入。图6：整幅图像和集群芯片的融合检测示意图。当应用融合时，整幅图像中橙色区域的物体检测被消除我我其中pi和si分别表示检测到的对象的参考尺度和聚类i中的地面实况框的平均尺度。故失之，失之。ScaleNet可以在数学上定义为手术。标准骨干网，例如，[29]，ResNet [15]，ResNeXt [34].XML（ {ti}）=`i（一）3.4. 局部-全局融合的最终检测reg（t，ti）我其中ti=（pi-si）/pi是估计的相对尺度偏移，si是估计的尺度，M是聚类框的数量。reg是一个平滑的1损失函数[11]。3.3.2分区和填充（PP）分割和填充（PP）操作用于确保对象的尺度在合理的范围内。给定聚类包围盒Bi、相应的估计对象尺度Si和检测器的输入尺寸Sin，我们可以估计在检测器的输入空间中的对象尺度。tectorSin=Si×Sin。如果S的尺度小于1，通过标准NMS后处理融合集群芯片的局部检测结果和整幅图像的全局检测结果，得到航拍图像的最终检测结果（见图1）。（六）。通过上述方法获得局部检测结果，并且从检测子网导出全局检测结果（图1）。2）的情况。值得注意的是，任何现有的现代探测器都可以用于全局探测。4. 实验4.1. 实现细节我们基于公共可用性来实现MPDet我是我是tain范围，则按比例填充群集，否则被分割成两个相等的码片。注意，在最终检测中忽略填充区域中的检测。该过程的可视化见图1。五、第4节讨论了具体的标度范围设置。重新调整集群芯片后，一个专用的基线检测网络（DetecNet）执行精细的对象检测。DetecNet的架构可以是任何最先进的检测器。检测器的主干可以是任何可检测器[13]和咖啡因2。更快的R-CNN（FR-CNN）[27]与特征金字塔网络（FPN）[20]被用作基线检测网络（DetecNet）。CPNet的体系结构是用一个5×5控制器实现的。卷积层后接两个兄弟1×1卷积层层（分别用于回归和分类）。在ScaleNet，用于将特征图转换为特征向量的FC层的大小为1024;尺度偏移回归量中FC层的大小分别为1024和1。借据输入特征图RoI池化比例偏移层回归因子集束箱FCROI特征向量对象框估计参考标度M8316表1：VisDrone数据集上的消融研究。“c”表示EIP裁剪的图像。“ca”表示群集感知的裁剪图像。 “o”表示原始验证数据。 #img是转发到检测器的图像数量。 "在GTX 1080 Ti上测量推理时间方法骨干测试数据#imgAPAP50AP75APsAPmAPls/img（GPU）[20]第20话：我的世界ResNet50O54821.440.719.911.733.954.70.055[20]第20话：我的世界ResNet101O54821.440.720.311.633.954.90.074[20]第20话：我的世界ResNeXt101O54821.841.820.111.934.855.50.156[20]第20话：你是谁？ResNet50C3,28821.144.018.114.430.930.00.330[20]第20话：你是谁？ResNet101C3,28823.546.121.117.133.929.10.444[20]第20话：你是谁？ResNeXt101C3,28824.447.821.817.834.834.30.936DetecNet+CPNetResNet50o+ca1,94525.647.924.316.238.453.70.195DetecNet+CPNetResNet101o+ca1,94525.347.423.815.638.154.60.262DetecNet+CPNetResNeXt101o+ca1,94527.651.226.217.541.054.20.554DetecNet+CPNet+ScaleNetResNet50o+ca2,71626.750.624.717.638.951.40.273DetecNet+CPNet+ScaleNetResNet101o+ca2,71626.750.425.217.239.354.90.366DetecNet+CPNet+ScaleNetResNeXt101o+ca2,71628.453.226.419.140.854.40.773NMM过程中合并聚类的阈值设置为0.7。根据COCO[22]数据集中的定义，集群芯片分区和填充中的对象比例范围设置为[70，280]像素。训练阶段。在 VisDrone上，探测器的输入尺寸设置为600×1000像素[37]，UAVDT [8]数据集和1，000×1，000像素，DOTA [33]数据集。在这三个数据集上，训练数据通过将图像分割成芯片来增强。在Vis-Drone [37]和UAVDT [8]数据集上，每个图像均匀地分为6个和4个芯片，没有重叠。设置特定数量的芯片的原因是，28272625241 2 3 4 5 6 7 8 9 10TopN40003000200010000裁剪的芯片可以与COCO [22]数据集中的芯片相似。在DOTA [33]数据集上，我们使用作者提供的工具来划分图像。当使用2个GPU在VisDrone [37]和UAVDT [8]数据集上训练模型时，我们将基本学习率设置为0.005，总迭代次数设置为140k。在前120k次迭代之后，学习率下降到0.0005。然后，我们训练模型10万次，然后将学习率降低到0.00005。使用0.9的动量和0.0005的参数衰减（关于权重和偏差）。在DOTA [33]数据集上，基础学习和总迭代被设置为0.005和40k。在30k和35k次迭代后，学习率下降了0.1倍。测试阶段。当未指定时，检测器的输入大小与训练阶段相同。集群芯片生成中的集群最大数量（TopN）在VisDrone上根据经验设置为3 [37]，在UAVDT上设置为2 [8]，在DOTA上设置为5 [33]。在融合检测中，标准非最大抑制（NMS）的阈值在所有数据集中被设置为0.5。最终检测数量设置为500。4.2. 数据集为了验证所提出的方法的有效性，我们进行了广泛的实验上三个公开访问图7：在不同TopN设置下的AP和转发的图像数量。数据集：VisDrone [37]，UAVDT [8]和DOTA [33]。无人机该数据集由10，209张图像组成（6，471张用于训练，548张用于验证，3，190张用于测试），并对10类对象进行了丰富的注释。图像比例尺数据集大约是2000×1500像素。由于评估服务器现在已关闭，我们无法在测试数据集。因此，验证数据集被用作测试数据集来评估我们的方法。无人机UAVDT [8]数据集包含23，258张训练数据图像和15，069张测试数据图像。图像的分辨率约为1，080×540像素。该数据集是用无人机平台在多个在城市地区的位置。注释对象的类别是汽车、公共汽车和卡车。DOTA 数据集是从多个传感器和平台（例如，GoogleEarth），在多个城市提供多种分辨率（800×800到4，000 × 4，000像素）。选择并注释了15个类别。考虑虽然空间数据集是基于航空影像中目标的聚类特征，但数据集中的某些类别并不AP#imgAP#img8317表2：VisDrone验证数据集上的检测性能。在测试阶段采用了多尺度推理和定界盒投票的方法。方法骨干APAP50AP75[20]第二十一话ResNet5013.923.014.9[20]第二十一话ResNet10114.123.414.9[20]第二十一话ResNeXt10114.424.115.5[20]第20话：我的世界ResNet5021.440.719.9[20]第20话：我的世界ResNet10121.440.720.3[20]第20话：我的世界ResNeXt10121.841.820.1FRCNN[27]+FPN[20]yResNeXt10128.751.827.7[20]第20话：你是谁？ResNet5021.144.018.1[20]第20话：你是谁？ResNet10123.546.121.1[20]第20话：你是谁？ResNeXt10124.447.821.8FRCNN[27]+FPN[20]+EIPResNeXt10125.748.424.1DetResNet5026.750.624.7DetResNet10126.750.425.2DetResNeXt10128.453.226.4DetyResNeXt10132.456.231.6适用于移动设备，例如，环岛桥因此，我们只选择数据集中具有可移动对象的图像来评估我们的方法，即，因此，训练和验证数据分别包含920幅图像和285幅图像。4.3. 比较方法我们比较了我们的ESDet与均匀图像分区（EIP）方法在所有数据集上。在一些没有提供EIP的数据集上，我们根据数据集的属性实现EIP。此外，我们还将我们的方法与所有数据集上的代表性最先进的方法进行了比较。4.4. 评估指标根据COCO [22]数据集的评估方案，我们使用AP、AP50和AP75作为衡量精度的指标具体来说，AP是通过对所有类别进行平均来计算的AP50和AP75在所有类别上以单个IoU阈值0.5和0.75计算效率通过检测器需要处理的图像数量和在推理阶段处理全局图像及其芯片的平均时间来衡量具体地，图像的数量是指全局图像和裁剪的芯片的总和在随后的实验中，图像的数量表示为#img。4.5. 消融研究为了验证聚类检测和规模估计对检测改进的贡献，我们在VisDrone上进行了广泛的实验[37]。在下面的实验中，检测器在测试阶段的输入尺寸被设置为600×1，000像素。验证如果所提出的方法可以获得一致的改善，针对不同骨干网下的性能，我们在三个骨干网上进行了实验：ResNet- 50 [15]、ResNet-101 [15]和ResNeXt-101[34]。EIP的影响。实验结果列于表1中。我们注意到，FRCNN [27]的可比性低于COCO [22]（AP=36.7）。这是因为VisDrone [37]中对象与图像的相对比例远小于COCO [22]。通过将EIP应用于图像，检测器的性能显著提高，特别是对小目标（AP）。然而，需要处理的图像数量增加了6倍（3，288对548）。此外，我们注意到，虽然通过应用EIP提高了AP的整体性能，但大规模对象（AP1）的性能却有所下降。这这是因为EIP将大对象截断成碎片，这会导致许多误报。集群检测的效果。从表 1 中，我们注意到DetecNet+CPNet处理的图像数量少得多（1，945 vs 3，288），但比FRCNN [27]加上EIP实现了更好的性能。这表明CPNet不仅选择聚类区域以节省计算资源，而且隐式编码先验上下文信息以提高性能。此外，我们还注意到，与EIP相比，CPNet并没有降低大目标的概率，这可以归因于CPNet将目标的空间分布信息引入到CMDet网络中，以避免截断大目标。规模估计的影响。在将 ScaleNet 集成到 CPNet 和DetecNet之后，我们注意到处理的图像数量增加到2，716，这是因为PP模块将一些集群芯片分割成碎片。这减轻了执行检测时的小规模问题，使得性能（AP）得到改善，26.7在ResNet50 [15]骨干网络上。此外，我们看到ScaleNet提高了所有类型骨干网络的检测性能。特别地，计量AP50被提升2-3个点。此外，即使在非常强大的主干ResNeXt101上，APs也增加了1.6个点[15]。这表明ScaleNet确实在一定程度上缓解了规模问题。超参数TopN的影响。为了更好地考察TopN的效果，我们只在测试阶段改变TopN的设置，避免了训练数据量的影响。从图7，我们看到在T opN=4之后，处理的图像的数量逐渐增加，但AP没有太大变化，只是在AP=27附近波动。这意味着，当TopN被设置为高值时，重复地计算许多聚类区域。这一观察结果还表明，聚类合并操作对于降低计算成本至关重要8318表3：基线和建议方法在UAVDT数据集上的检测性能[8]。方法骨干#imgAPAP50AP75APsAPmAPlR-FCN[5]ResNet5015,0697.017.53.94.414.712.1SSD[23]N/A15,0699.321.46.77.117.112.0[第16话]N/A15,0695.015.91.72.912.711.2[27]第二十七话VGG15,0695.817.42.53.812.39.4[20]第20话：我的世界ResNet5015,06911.023.48.48.120.226.5[20]第20话：你是谁？ResNet5060,2766.616.83.45.213.017.2DetResNet5025,42713.726.512.59.125.131.2表4：DOTA [33]数据集上基线和拟议方法的检测性能。方法骨干#imgAPAP50AP75APsAPmAPl[20]第21话：我的世界ResNet502,83824.941.527.49.932.730.1[20]第21话：我的世界ResNet1012,83827.144.430.110.634.833.7[20]第21话：我的世界ResNeXt1012,83827.444.729.810.535.832.8[20]第20话：你是谁？ResNet502,83831.050.732.916.237.937.2[20]第20话：你是谁？ResNet1012,83831.550.436.616.038.538.1DetResNet501,05532.247.639.216.632.050.0DetResNet1011,05531.647.838.215.931.749.3DetResNeXt1011,05531.447.137.417.332.045.44.6. 定量结果所提出的方法和代表性检测器的检测性能，即，更快的RCNN [27]和RetinaNet [21]，如表2所示。我们注意到，我们的方法优于国家的最先进的方法在各种骨干设置的大幅度。此外，我们观察到，当使用多尺度设置（用S表示）测试模型时，除了使用EIP的方法之外，性能显著提高。这是因为在多尺度测试中，裁剪的芯片被调整大小到非常大的尺度，使得检测器在对象的背景或局部区域上输出许多误报。UAVDT[8]数据集上的实验结果如表3所示。除了FRCNN [27]+FPN [20]之外，比较方法的性能使用[8]中提供的实验结果进行计算。从表3中，我们观察到对测试数据应用EIP并不能提高性能。相反，它会显著降低性能（11.0 vs 6.1）。这一现象的原因是，对象，即。在UAVDT中，车辆总是出现在图像的中心，而EIP操作将对象分割成多个部分，使得检测器不能正确地估计对象比例。与FRCNN [27]+FPN [20]（FFPN）相比，我们的ESDet优于FFPN和FFPN+EIP。性能的提高主要得益于不同的图像裁剪操作。在我们的方法中，图像裁剪的基础上的聚类信息，这是不太可能截断大量的对象。UAVDT [8]上的探测器性能远低于VisDrone [38]，这是由极不平衡的数据造成的。DOTA在DOTA[33]数据集上，我们的WARDet使用最先进的方法实现了类似的性能，但处理的图像芯片数量显著减少。这是因为CPNet显著减少了用于精细检测的芯片数量。虽然我们的方法在低IoU（AP50）下的整体性能方面并不优于最先进的方法，但它获得了更高的AP75值，这表明我们的方法可以更精确地估计对象规模。此外，我们观察到，当采用更复杂的骨干网络时，性能没有太大变化。这可以归因于有限的训练图像。没有大量的数据，复杂模型无法发挥其优越性。5. 结论我们提出了一个目标检测（WIDET）网络，统一的对象聚类和检测在一个端到端的框架。我们表明，WEBDet可以成功地预测图像中的聚类区域，以显着减少检测芯片的数量，从而提高效率。此外，我们提出了一个基于聚类的目标尺度估计网络，以有效地检测小目标。此外，我们通过实验证明，所提出的CSDet网络隐式地对先验上下文信息进行建模，以提高检测精度。通过大量的实验，我们证明了我们的方法在三个公共数据集上获得了最先进的性能。谢谢。我们衷心感谢匿名审稿人对改进草案的有益意见。这项工作得到了美国NSF资助1814745、1407156和1350521的部分支持。8319引用[1] 放大图片创作者：Michael W.德，还有维托里奥·费拉里。搜索由上下文驱动的对象在NIPS。2012年。3[2] Nicolas Audebert 、 Bertrand Le Saux 和 Se' bastien Lefe'vre。Segment-before-detect：通过航空图像的语义分割进行车辆检测和遥感，9（4）：368，2017。3[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。3[4] Xi Stephen Chen，He He，and Larry S Davis. 20个问题中的物体InWACV，2016. 3[5] 戴纪峰，易力，何开明，孙建R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。8[6] Zhipeng Deng ， Hao Sun ， Shilin Zhou ， JuanpingZhao，and Huanxin Zou.使用基于区域的卷积神经网络在航空图像中进行快速准确的车辆检测。IEEE Journalof Selected Topics in Applied Earth Observations andRemote Sensing，10（8）：36523[7] 丁健，薛南，杨龙，夏桂松，陆启凯。学习感兴趣区Transformer在航空影像中检测有向目标。在CVPR，2019年。3[8] Dawei Du，Yuankai Qi，Hongyang Yu，Yifan Yang，Kaiwen Duan ， GuorongLi ， WeigangZhang ，Qingming Huang，and Qi Tian.无人机基准：目标检测和跟踪。在ECCV，2018。二、六、八[9] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman。Pascal Visual Object Classes Challenge：ARetrospective.IJCV，111（1）：98-136，2015. 3[10] Mingfei Gao，Ruichi Yu ，Ang Li，Vlad I Morariu ，and Larry S Davis.动态放大网络，用于大图像中的快速对象检测。在CVPR，2018年。二、三、四[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。三、五[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。3[13] Ross Girshick 、Ilija Radosavovic 、Georgia Gkioxari、PiotrDoll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。5[14] Kai m ing He，Geo r gia Gkioxari，Piotr Doll a'r ，andRoss Gi r-shick.面具R-CNN。InICCV，2017. 3[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。五、七[16] Tao Kong，Fuchun Sun，Anbang Yao，Huaping Liu，Ming Lu，and Yurong Chen.Ron：反向连接对象先验网络进行对象检测。在IEEE计算机视觉和模式识别会议集，第5936-5944页，2017年。8[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类NIPS，2012年。3[18] Rodney LaLonde ， Dong Zhang ， and Mubarak Shah.Clus- ternet：利用时空信息检测大场景中的小目标。在CVPR，2018年。二、三、四[19] P. Liang，G. Teodoro，H. Ling、黄毛菊E.布

下载后可阅读完整内容，剩余1页未读，立即下载