基于深度学习的目标检测综述

187 浏览量更新于2023-11-04 收藏 2.35MB PDF 举报

目标检测综述

应用程序分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1O基于深度学习的目标检测综述焦立成，IEEE研究员，张凡，刘芳，IEEE高级会员，杨淑媛，IEEE高级会员李玲玲，IEEE会员冯志喜，IEEE会员，瞿荣，IEEE高级会员摘要-目标检测是计算机视觉中最重要和最具挑战性的分支之一，已广泛应用于人们的生活中，如监控安全，自动驾驶等，其目的是定位某一类别的语义对象的实例。随着用于检测任务的深度学习网络的快速发展，物体检测器的性能得到了极大的提高。为了全面、深入地了解对象检测流水线的主要发展现状，在本次调研中，我们首先分析了现有的典型检测模型的方法，基准数据集。之后，主要是，我们提供了一个全面的概述了各种对象检测方法的系统方式，涵盖一阶段和两阶段的检测器。此外，我们列出了传统和新的应用程序。分析了目标检测的一些代表性分支。最后，我们讨论了利用这些对象检测方法来构建有效和高效系统的架构，并指出了一组发展趋势，以更好地遵循最先进的算法和进一步的研究。索引术语-分类、深度学习、定位、对象检测、典型管道。I. 产品介绍近年来，由于其广泛的应用和最新的技术突破，生物检测已经吸引了越来越多的关注。这项任务在学术界和现实世界的应用中都得到了广泛的研究，例如监控安全、自动驾驶、交通监控、无人机场景分析和机器人视觉。在导致目标检测技术快速发展的许多因素和努力中，值得注意的贡献应归功于深度卷积神经网络和GPU计算能力的发展。目前，深度学习模型已被广泛应用于整个计算机视觉领域，包括通用目标检测和特定领域目标检测。大多数最先进的目标检测器都利用深度学习网络作为其骨干和检测网络，分别从输入图像（或视频）中提取特征，分类和定位。对象检测是与计算机视觉和图像处理相关的计算机技术，其处理在数字图像和视频中检测特定类别的语义对象（例如人类，建筑物或汽车）的实例。目标检测的研究领域包括多类别检测、边缘检测、显著目标检测、姿态检测、场景文本检测、人脸检测、行人检测等。作为场景的重要组成部分西安电子科技大学人工智能学院智能感知与计算国际联合研究实验室，智能感知与计算国际研究中心，智能感知与图像理解教育部重点实验室，陕西西安710071，电子邮箱：（lchjiao@mail.xidian.edu.cn）.目标检测已经广泛应用于现代生活的许多领域，例如安全领域、军事领域、交通领域、医疗领域和生活领域。此外，到目前为止，许多基准测试在目标检测领域发挥了重要作用，例如 Caltech[1] ， KITTI[2] ， ImageNet[3] ，PASCAL VOC[4]， MS COCO[5]和Open Images V5[6]。在ECCV VisDrone 2018竞赛中，组织者发布了一个新颖的基于无人机平台的数据集[7]，其中包含大量图像和视频。• 两种物体探测器现有的特定领域图像对象检测器通常可以分为两类，一类是两阶段检测器，最具代表性的一种是Faster R-CNN[8]。另一种是单级检测器，如YOLO [9]、SSD [10]。两阶段检测器具有高定位和目标识别精度，而一阶段检测器实现高推理速度。两级检测器的两个阶段可以通过RoI（感兴趣区域）池化层来划分。例如，在Faster R-CNN中，第一阶段称为RPN，一个区域建议网络，提出候选对象边界框。第二阶段，通过RoIPool（RoI Pooling）操作从每个候选框中提取特征，用于以下分类和边界框回归任务[11]。图1（a）示出了两级检测器的基本架构。此外，一级检测器直接从输入图像中提出预测框，而无需区域建议步骤，因此它们是时间有效的，并且可以用于实时设备。图1（b）展示了一级检测器的基本架构。• 贡献本调查的重点是描述和分析基于深度学习的对象检测任务。由于计算机视觉研究的快速发展，(1) 本文列出了最近提出的非常新颖的解决方案，但忽略了讨论基础知识，以便读者可以更容易地看到该领域的前沿(2) 此外，与以往的目标检测综述不同，本文系统、全面地综述了基于深度学习的目标检测方法和最新的目标检测解决方案，以及一系列重要的研究趋势。(3) 这次调查的特点是对多方面的问题进行了深入的分析和讨论，其中许多问题据我们所知在这一领域还是第一次最重要的是，我们的目的是提供如何使用不同深度学习方法的概述，而不是所有相关论文的完整摘要。为了进入这个领域，我们arXiv：1907.09408v2[cs.CV] 2019年10月2××建议读者参考[12][13][14]以了解更多详细信息早期的方法。本文的其余部分组织如下。目标检测器需要一个强大的骨干网络来提取丰富的特征。本文分三节讨论主干网下面2个。众所周知，特定领域图像检测器的典型流水线是整个任务的基础和里程碑在第3节中，本文阐述了2019年6月之前提出的最具代表性和开创性的基于深度学习的方法。第4节描述了常用的数据集和指标。第五节系统地分析了常用的目标检测方法。第6节详细介绍了目标检测的五个典型领域和几个热门分支。第7节总结了发展趋势II. B ACKBONE 网络骨干网络作为目标检测任务的基本特征提取器大多数用于检测的骨干网络都是用于分类任务的网络，它去掉了最后一个全连接层。基本分类网络的改进版本也是可用的。例如，Lin等人[15]增加或减少层或用特殊设计的层替换某些层。为了更好地满足特定的要求，一些作品[9][16]利用新设计的主干进行特征提取。对于准确性和效率的不同要求，人们可以选择更深和密集连接的骨干网，如 ResNet [11] ， ResNeXt [17] ，AmoebaNet [18] 或轻量级骨干网，如 MobileNet [19] ，ShuffleNet [20] ， SqueezeNet [21] ， Xception [22] ，MobileNetV2 [23]。当应用于移动设备时，轻量级骨干网可以满足要求。Wang等人。[24]通过将PeleeNet与SSD[10]相结合并优化架构以实现快速处理速度，提出了一种新的实时对象检测系统。为了满足高精度和更精确应用的需要，需要复杂的骨干。另一方面，像视频或网络摄像头这样的实时采集不仅需要高处理速度，而且需要高精度[9]，这需要精心设计的主干来适应检测架构，并在速度和精度之间进行权衡为了探索更具竞争力的检测精度，更深和密集连接的骨干，以取代浅和稀疏连接的副本。他等人。[11]利用ResNet[25]而不是VGG[26]来捕获更快的R-CNN[8]中采用的丰富特征，以进一步提高准确性，因为它的容量很大新的高性能分类网络可以提高目标检测的精度，降低目标检测任务的复杂性。这是进一步提高网络性能的有效方法，因为骨干网充当特征提取器。众所周知，特征的质量决定了网络性能的上界，因此它是一个需要进一步探索的重要步骤。详情请参阅[27]III.典型基线随着深度学习的发展和计算能力的不断提高，通用目标检测领域取得了长足的进步。当第一个基于CNN的对象检测器R-CNN被提出时，已经做出了一系列重大贡献，大大促进了通用对象检测的发展。我们介绍了一些有代表性的对象检测架构，让初学者开始在这个领域。A. 两级探测器1) R-CNN：R-CNN是一个基于区域的CNN检测器。正如Girshick等人。[28]提出可用于对象检测任务的R-CNN，他们的工作首次表明，CNN可以在PASCALVOC数据集上产生比基于更简单的HOG特征的系统更高的对象检测性能[4]深度学习方法在目标检测领域被证明是有效和高效的。R-CNN检测器由四个模块组成。第一个模块生成独立于类别的区域建议。第二模块从每个区域建议中提取固定长度的特征向量。第三个模块是一组特定于类的线性支持向量机，用于对一幅图像中的对象进行最后一个模块是一个边界框回归器，用于精确的边界框预测。具体而言，首先，采用选择性搜索的方法生成区域建议。然后，使用CNN从每个区域提案中提取4096维特征向量。因为全连接层需要固定长度的输入向量，所以区域建议特征应该具有相同的大小。作者采用固定的227227像素作为CNN的输入大小正如我们所知，各种各样的物体图像具有不同的大小和纵横比，这使得由第一模块提取的区域提议在大小上不同。无论候选区域的大小或纵横比如何，作者都将其周围的紧密边界框中的所有像素扭曲到所需的大小227 227。特征提取网络由五个卷积层和两个全连接层组成。所有CNN参数在所有类别中共享。每个类别训练类别独立的SVM，不同SVM之间不共享参数在较大数据集上进行预训练，然后在指定数据集上进行微调，是深度卷积神经网络实现快速收敛的良好训练方法。首先，Girshick等人。[28]在大规模数据集（ImageNet分类数据集[3]）上预训练CNN。最后一个全连接层被CNN ImageNet特定的1000路分类层取代。下一步是使用SGD（随机梯度下降）来微调扭曲建议窗口上的CNN参数。最后一个全连接层是随机初始化的（N+1）路分类层（N：对象类，1：背景）。在举正面例子和反面例子时，作者分为两种情况。首先是在微调过程中将IoU（交集）重叠阈值定义为0.5。在阈值以下，区域提议被定义为否定，而在阈值以上，对象提议被定义为肯定。此外，3×CLSlocRoI池（a）CLSloc（b）Fig. 1. (a)展示了两级检测器的基本架构，它包括区域建议网络，以将区域建议馈送到分类器和回归器。(b)显示了一级检测器的基本架构，它直接从输入图像预测边界框。黄色立方体是骨干网络中具有相同分辨率的一系列卷积层（称为块），由于一个块之后的下采样操作，后续立方体的大小逐渐变小。粗蓝色立方体是一系列包含一个或多个卷积层的卷积层。扁平的蓝色立方体演示了RoI池层，它为相同大小的对象生成特征图与地面实况类别的最大IoU重叠被分配给地面实况框。另一种情况是在训练SVM时设置参数。相比之下，只有地面实况框被视为其各自类别的正例，并且建议与一个类别的所有地面实况实例具有小于0.3 IoU的重叠，作为该类别的负建议。这些建议与0.5和1之间的重叠，不是地面真理，这将正面例子的数量扩大了大约30个。因此，这样一个大的集合可以有效地避免在微调过程中的过拟合。2) Fast R-CNN：R-CNN提出一年后，Ross Gir- shick[29]提出了R-CNN的更快版本，称为Fast R-CNN [29]。由于R-CNN为每个区域建议执行ConvNet前向传递，而不共享计算，因此R-CNN在SVM分类上需要很长时间。FastR-CNN从整个输入图像中提取特征，然后通过感兴趣区域（RoI）池化层获得固定大小的特征，作为以下分类和边界框回归全连接层的输入。这些特征从整个图像中提取一次，并发送到CNN进行分类和定位。相比下采样ConvConvRoI池骨干输入CLSloc提案生成提案ConvConv骨干输入特征图4××××对于将每个区域建议输入到CNN的R-CNN，可以节省大量的时间用于CNN处理，并且可以在Fast R-CNN中节省用于存储大量特征的大型磁盘存储。如上所述，训练R-CNN是一个多阶段的过程，包括预训练阶段、微调阶段、SVM分类阶段和边界框回归阶段。Fast R-CNN是一个单阶段的端到端训练过程，在每个标记的RoI上使用多任务损失共同训练网络。另一个改进是Fast R-CNN使用RoI池化层从不同大小的区域提案中提取固定大小的特征图。这种操作不需要对区域进行翘曲，并且保留了区域建议的特征空间信息。为了快速检测，作者使用截断SVD来加速计算全连接层的前向传递。实验结果表明，Fast R-CNN在PASCAL VOC 2007数据集上的mAP为66.9%，而R-CNN为66.0%[4]。训练时间降至9.5小时，比R-CNN的84小时快9倍。对于测试速率（s/图像），具有截断SVD（0.32 s）的Fast R-CNN比R-CNN（47 s）快213。这些实验是在Nvidia K40 GPU上进行的，这表明Fast R-CNN确实加速了对象检测过程。3) Faster R-CNN：在Fast R-CNN提出三个月后，FasterR-CNN [8]进一步改进了基于区域的CNN基线。Fast R-CNN使用选择性搜索来提出RoI，这是缓慢的，需要与检测网络相同的运行时间。更快的R-CNN用一种新的RPN（区域建议网络）取代了它，RPN是一种完全卷积的网络，可以有效地预测具有广泛尺度和长宽比的区域建议。RPN加快了区域建议的生成速度，因为它与检测网络共享完整的图像图3（b）简化了程序。此外，一种新的方法，用于不同大小的目标检测是多尺度锚作为参考。锚可以大大简化生成各种大小的区域建议的过程，而不需要输入图像或特征的多个尺度。在最后一个共享卷积层的输出（特征图）上，滑动固定大小的窗口（33）每个特征窗口的中心点是相对的到原始输入图像的中心点k（33）锚箱点。作者定义锚盒有3种不同的尺度和3种长宽比。区域建议相对于参考锚框被参数化。然后，它们测量预测框与其对应的地面实况框之间的距离，以优化预测框的位置。实验表明，Faster R-CNN在检测精度和检测效率上都有很大的提高。在PASCAL VOC 2007测试集上，Faster R-CNN实现了69.9%的mAP，而Fast R-CNN为66.9%，具有共享卷积计算。此外，Faster R-CNN的总运行时间（198ms）比具有相同VGG[26]主干的Fast R-CNN（1830 ms）低近10倍0.5fps.4) Mask R-CNN：Mask R-CNN[11]是对Faster R-CNN的扩展工作，主要用于分割任务。在不增加并行掩码分支的情况下，可以看出Mask R-CNN是一种更精确的目标检测器。He等人使用Faster R-CNN与ResNet[25]-FPN[15]（特征金字塔网络，一个主干根据其规模从特征金字塔的不同级别提取RoI特征）主干提取特征，实现了出色的准确性和处理速度。FPN包括一个自下而上的途径和一个自上而下的途径，并有横向联系。自下而上的路径是一个主干ConvNet，它计算一个由多个尺度的特征图组成的特征层次结构，缩放步长为2。自上而下的路径通过从更高的金字塔级别上采样空间上更粗糙但语义上更强的特征图来产生更高分辨率的特征。在开始时，顶部金字塔特征图由自底向上路径的最后一个卷积层的输出捕获。每个横向连接合并来自自下而上路径和自上而下路径的相同空间大小的特征图。虽然特征图的维度不同，但11卷积层可以改变维度。一旦进行横向连接操作，将形成新的金字塔级别，并在每个级别上独立进行预测。由于高分辨率的特征图对于检测小物体很重要，而低分辨率的特征图具有丰富的语义信息，因此特征金字塔网络提取重要特征。另一种提高准确性的方法是用RoIAlign代替RoI池，从每个RoI中提取一个小的特征图，如图2所示。传统的RoI池通过两步量化浮点数来获得每个bin中的近似特征值。首先，应用量化来计算特征图上的每个RoI的坐标，给定输入图像中的RoI的坐标和下采样步幅。然后将RoI特征图划分为bin以生成相同大小的特征图，该特征图这两个量化操作导致RoI和提取的特征之间的不对准。为了解决这个问题，在这两个步骤中，RoIAlign避免了RoI边界或bin的任何量化。首先，它计算每个RoI特征图的坐标的浮点数，然后进行双线性插值运算，以计算每个RoI bin中四个定期采样位置然后，它使用最大或平均池化来聚合结果，以获得每个bin的值。图2是RoIAlign操作的示例实验表明，经过以上两方面的改进，精度得到了提高。使用ResNet-FPN骨干改进了1.7点箱式AP和RoIAlign操作MS COCO检测数据集上的1.1分框APB. 单级探测器1) YOLO：YOLO [9]（你只看一次）是Redmon等人在Faster R-CNN [8]之后提出的一个单阶段对象检测器。主要贡献是实时检测的完整图像和网络摄像头。首先，这是由于该管道只能预测每个图像不到100个边界框，而使用选择性搜索的快速R-CNN预测2000个区域提案5××××{}图2. RoIAlign操作。第一步计算特征图中对象的浮点数坐标。下一步骤利用双线性插值来计算在分离的箱中的四个规则采样位置处的特征的精确值。每个图像。其次，YOLO帧检测是一个回归问题，因此一个统一的架构可以直接从输入图像中提取特征来预测边界框和类别概率。YOLO网络以每秒45帧的速度运行，在Titan X GPU上没有批处理，相比之下，Fast R-CNN为0.5fps，Faster R-CNN为7 fps。YOLO流水线首先将输入图像划分为S S网格，其中网格单元负责检测中心落入其中的对象。置信度得分是通过相乘两个部分获得的，其中P（对象）表示包含对象的框的概率，IOU（交集大于并集）显示包含该对象的框的准确性。每个网格单元预测B边界框（x，y，w，h）和它们的置信度得分以及C类别的C维条件类概率。特征提取网络包含24个卷积层，然后是2个完全连接的层。在ImageNet数据集上进行预训练时，作者使用前20个卷积层和一个平均池化层，然后是一个完全连接层。对于检测，使用整个网络以获得更好的性能。为了得到更细粒度的视觉信息以提高检测精度，在检测阶段将预训练阶段的输入分辨率提高一倍。实验结果表明，YOLO算法定位精度不高，定位误差是预测误差的主要组成部分。Fast R-CNN会产生许多背景误报错误，而YOLO比它少3倍。在PASCAL VOC数据集上进行训练和测试，YOLO以45 fps的速度实现了63.4%的mAP，而Fast R-CNN（70.0% mAP，0.5fps）和Faster R-CNN（73.2% mAP，7fps）。2) YOLOv2：YOLOv2[30]是YOLO [9]的第二个版本，它采用了过去作品中的一系列设计决策，并采用了新颖的概念来提高YOLO的速度和精度。批量标准化。将输入固定分布到ConvNet层将对层产生积极影响。将整个训练集归一化是不切实际的，因为优化步骤使用随机梯度下降。由于SGD在训练过程中使用小批处理，因此每个小批处理都是一个小批处理。批处理产生每个激活的均值和方差的估计值。计算大小为m的小批量的均值和方差值，然后将数量为m的激活归一化为均值为零，方差为1。最后，要素每个小批次的样本来自相同的分布。该操作可以被视为BN层[31]，其输出具有相同分布的激活。YOLOv2在每个卷积层之前添加了一个BN层，这可以加速网络收敛并帮助正则化模型。批量归一化在mAP中获得了超过2%的改进。高分辨率分类器。在YOLO主干中，分类器采用224 224的输入分辨率，然后增加分辨率为448。这个过程需要网络在切换到目标检测任务时调整到新的分辨率输入。为了解决这个问题，YOLOv2在448处向分类网络添加微调过程448为ImageNet数据集上的10个epoch将mAP提高了4%。使用锚框进行卷积。在原始的YOLO网络中，预测框的坐标直接由完全连接的层生成。更快的R-CNN使用锚框作为参考来生成具有预测框的偏移。YOLOv2采用这种预测机制，首先删除全连接层。然后，它为每个锚框预测类和对象。这种操作增加了7%的召回率，而mAP 降低了0.3%。使用尺寸聚类预测锚盒的尺寸和长宽比。在Faster R-CNN中，锚框的大小和纵横比是根据经验确定的为了更容易地学习预测良好的检测，YOLOv2在训练集边界框上使用K均值聚类来自动获得良好的先验。使用维度聚类以及直接预测边界框中心位置，与上述使用锚框的版本相比，将YOLO提高了近5%细粒度特性。对于定位较小的对象，高分辨率特征图可以提供有用的信息。与 ResNet 中的身份映射类似，YOLOv2通过将相邻特征堆叠到不同通道中来将较高分辨率特征与低分辨率特征相关联，从而提供适度的1%性能提升。多尺度训练。为了使网络能够稳健运行，在不同尺寸的图像上，每10批网络从320，352，...，608.这意味着同一个网络可以预测不同分辨率的在高分辨率检测下，YOLOv2达到78.6% mAP和40fps，而YOLO在VOC 2007上的mAP和45fps为63.4%此外，YOLOv 2提出了一个新的分类骨干，即Darknet-19，具有19个卷积层和5个最大池化层，处理图像所需的操作较少，但精度较高。更具竞争力的YOLOv2版本具有78.6%的mAP和40fps，相比之下，到更快的R-CNN，ResNet骨干为76.4% mAP和5 fps，SSD 500为76.8% mAP和19 fps。如上所述，YOLOv2可以实现高检测精度和高处理速率，这得益于7个主要改进和一个新的骨干。6×××表IMS Coco数据集上的AP评分（%），APS：AP小美联社，美联社M：美联社，介质 APL：APOF大型物体模型APSAPMAPLDSSD51313.035.451.1RetinaNet24.144.251.23) YOLOv3：YOLOv3[32]是YOLOv2的改进版本。首先，YOLOv3使用多标签分类（独立的逻辑分类器）来适应包含许多重叠标签的更复杂的数据集。其次，YOLOv3利用三种不同尺度的特征映射来预测边界框。最后一个卷积层预测一个三维张量编码类预测，对象和边界框。第三，YOLOv 3提出了一个更深入和强大的特征提取器，称为Darknet-53，灵感来自ResNet。根据MS COCO数据集上的实验结果，YOLOv3（AP：33%）在MS COCO指标下与SSD变体（DSSD513：AP：33.2% ）表现相当，但比 DSSD 快 3 倍，同时落后于RetinaNet[33]（AP：40.8%）。但是使用IOU= 0.5（或AP50）的旧检测度量mAP，YOLOv3可以实现57.9%的mAP，而DSSD 513为53.3%，RetinaNet为61.1%。由于多尺度预测的优势，YOLOv3可以检测到更小的物体，但对中等和较大尺寸的物体的性能4) SSD：SSD[10]，一个单次检测器，用于一个阶段内的多个类别，直接预测类别分数和框偏移，用于在具有不同尺度的几个特征图中的每个位置处的不同尺度的一组固定的默认边界框，如图4（a）所示。默认边界框在每个特征图中具有不同的长宽比和比例。在不同的特征图中，默认边界框的比例是用最高层和最低层之间的规则空间计算的，其中每个特定的特征图学习响应于对象的特定比例。对于每个默认框，它预测所有对象类别的偏移量和置信度。图3（c）示出了该方法。在训练时，将这些默认边界框匹配到地面实况框，其中匹配的默认框作为正面示例，其余作为负面示例。由于大量的默认框是否定的，作者采用硬否定挖掘，使用每个默认框的最高置信度损失，然后选择顶部框，使否定和肯定之间的比例最多为3：1。此外，作者实现了数据增强，这被证明是一种有效的方法，以提高精度的大幅度。实验表明，SSD 512在mAP和速度上与VGG-16[26]骨干网具有竞争力。SSD 512（输入图像大小：512 512）在PASCAL VOC 2007 测试集上实现了81.6%的 mAP ，在PASCAL VOC上实现了80.0%的mAP与Faster R-CNN（78.8%，75.9%）和YOLO（VOC 2012：57.9%）相比，2012年测试集。在MS COCO DET数据集上，SSD 512在所有评估标准下都优于Faster R-CNN。5) DSSD ： DSSD[34] （ Deconvolutional Single ShotDetector）是SSD（Single Shot Detector）的修改版本该方法增加了预测模块和反卷积模块，并采用ResNet-101作为主干。DSSD的体系结构如图4（b）所示。对于预测模块，Fu等人将残差块添加到每个预测层，然后对预测层和残差块的输出进行逐元素相加。反卷积模块增加特征图的分辨率每个反卷积层后面跟着一个预测模块，用于预测具有不同大小的各种对象。在训练过程中，作者首先在ILSVRC CLS-SVM数据集上预训练基于ResNet-101的骨干网络，然后使用321 321个输入或513 513个输入在检测数据集上训练原始SSD模型。最后，他们训练反卷积模块冻结SSD模块的所有权重。在PASCAL VOC数据集和MS COCO数据集上的实验表明了DSSD 513模型的有效性，而增加的预测模块和反卷积模块在PASCAL VOC 2007测试数据集上带来了2.2%的增强6) RetinaNet：RetinaNet[33]是一种单阶段对象检测器，由Lin等人[33]于2018年2月提出，其中焦点损失作为分类损失函数。RetinaNet的架构如图4（c）所示。R-CNN是一个典型的两阶段对象检测器。第一阶段生成一个稀疏的一组区域pro-bands和第二阶段分类每个候选位置。由于第一阶段过滤掉了大部分负位置，两阶段对象检测器可以实现比提出密集候选位置集合的一阶段检测器更高的精度。其主要原因是单阶段检测器训练网络以获得收敛时前景-背景类的极端不平衡因此，作者提出了一个损失函数，称为焦点损失，它可以降低分配给分类良好或简单示例的损失的权重。焦点丢失集中在难训练的例子上，避免了大量容易的否定例子在训练过程中压倒检测器。RetinaNet继承了以往单阶段检测器的快速性，同时极大地克服了单阶段检测器难以训练不平衡的正负样本的缺点。实验表明，在MS COCO测试开发数据集上，ResNet-101-FPN主干的RetinaNet获得了39.1%的AP，而DSSD 513获得了33.2%的AP。使用ResNeXt-101-FPN，它使40.8%的AP远远超过DSSD 513。RetinaNet大幅提高了对中小型物体的检测精度。7) M2Det：为了满足对象实例之间的各种尺度变化，Zhao 等人。 [35] 提出了一种多层特征金字塔网络（MLFPN），构建更有效的特征金字塔。作者采用三个步骤来获得最终增强的特征金字塔。首先，像FPN一样，从骨干中的多个层提取的多层次特征被融合为基本特征。其次，将基本特征送入一个块，由交替联合的细化U形模块和特征融合模块组成，并获得TUM的解码器层作为下一步的特征。最后，一个包含多级特征的特征金字塔是通过集成的解码器层的等效规模。到目前为止，具有多尺度和多层次的功能准备。剩下的部分就是按照SSD架构来获得7头头特征图头头头特征图头头头头(a) 特征化图像金字塔（b）单个特征图(c)金字塔特征层次（d）特征金字塔网络图3.四种方法利用不同大小的对象预测的功能。(a)使用图像金字塔构建特征金字塔。在每个图像尺度上独立地计算特征，这是缓慢的。(b)检测系统[8][29]只使用单尺度特征（最后一个卷积层的输出）来实现更快的检测。(c)从ConvNet预测每个金字塔特征层次，就好像它是像SSD一样的图像金字塔[10]。（d）特征金字塔网络（FPN）[15]与（b）和（c）一样快，但更准确。在该图中，特征图由灰色填充的四边形表示。充电头网用一个蓝色的矩形表示边界框定位和分类以端到端的方式产生。由于M2 Det是一个单阶段检测器，在COCO测试开发集上，使用VGG-16，单尺度推理策略在11.8 FPS的速度下实现了41.0的AP，使用多尺度推理策略实现了44.2的AP。它比RetinaNet 800（Res 101- FPN作为骨干）的单尺度推理策略高出0.9%，但比RetinaNet 800慢两倍8) Refinedet：Refinedet[36]的整个网络包含两个相互连接的模块，锚点细化模块和对象检测模块。这两个模块通过传输连接块连接，以传输和增强来自前一个模块的特征，从而更好地预测后一个模块中的对象。训练过程采用端到端的方式，分为预处理、检测（两个相互连接的模块）和NMS三个阶段。经典的一步检测器如SSD、YOLO、Reti- naNet等都是采用一步回归的方法来获得最终结果。作者发现，使用两步级联回归方法可以更好地预测难以检测的目标，特别是小目标，并提供更准确的目标位置C. 最新探测器1) 用于对象检测的关系网络：Hu等人。[37]提出了一种用于对象检测的自适应注意力模块，称为对象关系模块，其考虑图像中不同目标之间的相互作用，包括它们的外观特征和几何信息。该目标关系模块被添加在检测器的头部，在两个完全连接的层之前，以获得增强的特征，用于准确分类和定位目标。关系模块不仅将增强的特征输入到分类器和回归器中，而且取代了NMS后处理步骤，获得了比NMS更高的准确性。通过使用Faster R-CNN、FPN和DCN作为COCO test-dev数据集上的骨干网络，添加关系模块将准确度分别提高了0.2、0.6和0.2。2) DCNv2：为了学习适应目标的有效空间支持区域中反映的几何变化， Dai 等人提出了可变形卷积网络（DCN）[38]。常规ConvNets只能关注固定正方形大小的特征（根据内核），因此感受野不能正确覆盖目标的整个像素8头conv4_xconv5_x头头头2xP4头他ad他ad头头头头conv1池1conv2_x（a）conv1池1conv2_xconv3_x（b）双线性插值2x2x2x⊕ ⊕ ⊕ ⊕conv2conv3conv4conv5（c）conv6conv7P7 P6P5 P3图4. SSD、DSSD和RetinaNet在剩余网络上的网络。(a)蓝色模块是SSD框架中添加的层，其分辨率因下采样而逐渐下降。在SSD中，预测层作用于不同级别的融合特征。头部模块由一系列卷积层组成，后面是几个分类层和定位层。(b)红色模块是在DSSD框架中添加的层，表示反卷积操作。在DSSD中，预测层跟随每个反卷积模块。(c)RetinaNet使用ResNet-FPN作为其骨干网络，生成对应于C3-C7的5级特征金字塔（P3-P7）（分别为conv3-conv 7的特征图）来预测不同大小的对象。可变形的ConvNets可以产生可变形的核，并且从网络中学习初始卷积核（固定大小）的偏移。可变形RoI Pooling还可以适应不同形状对象的零件位置。在COCO测试开发集上， DCNv1 实现了显着的准确性提高，比三个普通ConvNet高出近4%。严格COCO评价标准（mAP @[0.5：0.95]）下的最佳平均精密度结果为37.5%。Deformable ConvNets v2[39]使用比DCNv1更多的可变形卷积层（从conv5阶段的conv 3-conv 5阶段）来代替常规卷积层次。所有的可变形层由一个可学习的标量调制，这明显提高了变形效果和精度。作者采用特征模仿来进一步提高检测精度，方法是在DCN的每个RoI特征上引入特征模仿根据COCO 2017测试开发集的COCO评估标准，DCNv 2达到45.3%的mAP，而DCNv 1达到41.7%，常规的FasterR-CNN在ResNext-101主干上达到40.1%。在其他强大的骨干上，DCNv 2超过DCNv 13%-5% mAP，常规的Faster R-CNN超过5%-8%。3) NAS-FPN：最近几天，来自Google Brain的作者采用神经架构搜索来发现一些新的头conv4_xconv5_xconv3_x9ΣΣΣ≥≥特征金字塔架构，称为NAS-FPN[18]，由自上而下和自下而上的连接组成，以融合具有各种不同尺度的特征。通过重复FPN架构N次，然后在搜索期间将它们连接成一个大架构，高级特征层选择任意级别的特征供它们模仿。所有的高精度架构都有高分辨率输入特征图和输出特征层之间的联系，这表明有必要生成高分辨率的小目标检测特征。叠加更多的金字塔网络，增加特征维数，采用大容量的体系结构，都可以大幅度提高检测精度。实验表明，采用ResNet-50作为256个特征维度的主干，在COCO test-dev数据集上，NAS-FPN的mAP超过原始FPN2.9%。NAS-FPN的最佳配置是以AmoebaNet为骨干网络，堆叠了7个384特征的FPN在COCO test-dev.总之，典型基线通过提取更丰富的目标特征，并采用多层次和多尺度特征来检测不同大小的目标，从而提高了准确性。为了达到更高的速度和精度，一级检测器利用新设计的损失函数来过滤掉容易的样本，从而大幅减少了建议目标的数量。采用可变形卷积层是解决几何变化的有效方法。对图像中不同对象之间的关系进行建模对于提高性能也是必要的。上述典型基线在MS COCO测试-开发数据集上的检测结果列于表2。IV. 数据集和度量检测一个对象必须声明该对象属于指定的类，并在图像中定位它。对象的定位通常由如图5所示的边界框表示。使用具有挑战性的数据集作为基准在许多研究领域都很重要，因为它们能够在不同算法之间进行标准比较，并为解决方案设定目标。早期的算法主要集中在使用各种ad hoc数据集进行人脸检测。后来，创建了更逼真和更具挑战性的人脸检测数据集。另一个受欢迎的挑战是行人的检测，为此已经创建了几个数据集。加州理工学院行人数据集[1]包含350，000个带有边界框的标记实例。PASCALVOC[4]， MS COCO[5]， ImageNet-loc[3]等通用对象检测数据集是对象检测任务的主流基准。官方度量主要用于测量检测器在相应数据集上的性能。A. PASCAL VOC数据集1) 数据集：用于检测基本对象类别，2005年至2012年的多年期努力致力于创建和维护一系列被广泛采用的基准数据集。PASCAL VOC数据集[4]包含20个对象类别（在 VOC 2007 中，例如人，自行车，鸟，瓶子，狗等）。超过11,000张图片的20类可以被认为是4个主要分支-车辆，动物，家居用品和人。其中一些增加了输出的语义特异性，如汽车和摩托车，不同类型的车辆，但看起来不相似。此外，视觉上相似的类别增加了检测的难度，例如狗与猫。超过27，000个对象实例边界框被标记，其中近7，000个具有详细的分割。VOC2007数据集中存在不平衡的数据集，而类人绝对是最大的一个，是训练集中最小类羊的近20倍。这个问题在周围场景中普遍存在，探测器如何很好地解决这个问题？另一个问题是视点，例如，前，后，左，右和未指定的，检测器需要单独处理不同的视点图的最后两行显示了一些注释的例子5.2) 度量：对于 VOC 2007 标准，使用内插平均精度（Salton和McGill 1986）评价分类和检测。它的目的是惩罚算法丢失的对象实例，重复检测的一个实例，并为假阳性检测。回忆（t）= ij1[sij≥t]zijN精度（t）=ij1[sij≥t]zijij1[sij≥t]其中t是判断预测框和地面实况框之间的IoU的阈值。在VOC度量中，t设置为0.5。i是第i个图像的索引，而j是第j个对象的索引。N是预测框的数量。指示器功能1[s ijt]=1ifs ijt为true，否则为0。如果根据阈值标准，一个检测与地面实况框匹配，则将被视为真阳性结果。对于给定的任务和类，精确率/召回率曲线是从方法排名的输出计算的。召回率被定义为排名高于给定排名的所有正面示例的比例。精确度是所有高于该等级的样本中来自正类的比例。所有类别的平均精度是最终结果。B. MS COCO基准1) 数据集：Microsoft Common Objects in Context（MSCOCO）数据集[5]用于检测和分割自然环境中日常生活中发现的对象，包含91个常见对象类别，其中82个类别具有超过5，000个标记实例。这些类别涵盖PASCAL VOC数据集中的20个类别。该数据集总共有328，000张图像中的2，500，000个标记实例。MS COCO数据集也注意到了不同的观点，它的所有对象都在自然环境中，这给了我们丰富的上下文信息。与流行的ImageNet数据集[3]相比，COCO的类别更少，但每个类别的实例更多。该数据集在每个类别的实例数量（平均27k）方面也明显大于PASCAL VOC数据集[4]（比MS COCO数据集少10

下载后可阅读完整内容，剩余1页未读，立即下载