深度学习驱动的目标检测技术现状与趋势

136 浏览量更新于2024-06-19 收藏 2.35MB PDF 举报

"这篇综述文章深入探讨了基于深度学习的目标检测技术，涵盖了从经典到最新的一阶段和两阶段检测器，以及它们在各种应用场景中的应用。" 深度学习在目标检测领域的崛起，尤其是在深度卷积神经网络（CNNs）的发展和GPU计算能力提升的推动下，使得目标检测技术取得了显著的进步。这项技术不仅在学术界受到广泛关注，也在实际应用中，如监控安全、自动驾驶、交通管理、无人机分析和机器人视觉等方面发挥着关键作用。目标检测的基本任务是对图像或视频中的特定类别对象进行实例识别和定位。它涵盖了多种子领域，如多类别检测、边缘检测、显著性目标检测、姿态检测、场景文本检测、人脸检测和行人检测等。这些子领域各有侧重，但共同目标都是提高对复杂环境的理解和解析能力。一阶段和两阶段检测器是当前主流的深度学习检测模型。一阶段检测器，如YOLO（You Only Look Once）和SSD（Single Shot Multibox Detector），直接从输入图像中预测边界框和类别，速度快但可能精度稍低。而两阶段检测器，如Faster R-CNN和Mask R-CNN，先生成候选区域再进行分类和精确定位，虽然速度较慢，但通常提供更高的准确性。在应用场景上，目标检测技术已经广泛渗透到安全监控中，用于异常行为检测和事件识别；在自动驾驶中，它用于识别道路障碍物和交通标志；在交通监控中，帮助统计车流和分析交通状况；在医疗领域，辅助医生识别疾病标志物；在军事领域，用于侦察和目标识别；甚至在零售业，实现商品识别和库存管理等。未来的趋势包括但不限于：1) 提高检测速度与精度的平衡，2) 多模态融合，结合视觉、声音和其他传感器信息，增强检测能力，3) 强化鲁棒性和泛化能力，适应更多环境变化，4) 利用元学习和自监督学习方法减少依赖大量标注数据，5) 针对小目标和密集目标检测的优化，6) 融入更多上下文信息和语义理解，提升场景理解深度。深度学习驱动的目标检测是计算机视觉的关键技术，不断推动着各个行业的创新和发展。随着技术的持续进步，我们可以期待未来在目标检测领域会有更多的突破和广泛应用。

表I

MS Coco

数据集上的

评分（

），

：

小

美联社

，

美联社

：美联社

，介质

：

大型物体

模型

DSSD513

13.0

35.4

51.1

RetinaNet

24.1

44.2

51.2

YOLOv3

：

YOLOv3[32]是YOLOv2的改进版本。首

先，YOLOv3使用多标签分类（独立的逻辑分类器）来适

应包含许多重叠标签的更复杂的数据集。其次，YOLOv3

利用三种不同尺度的特征映射来预测边界框。最后一个卷

积层预测一个三维张量编码类预测，对象和边界框。第

三，YOLOv 3提出了一个更深入和强大的特征提取器，称

为Darknet-53，灵感来自ResNet。

根据MS COCO数据集上的实验结果，YOLOv3（AP：

33%）在MS COCO指标下与SSD变体（DSSD513：AP：

33.2% ）表现相当，但比 DSSD 快 3 倍，同时落后于

RetinaNet[33] （AP ： 40.8% ）。但是使用 IOU= 0.5 （或

）的旧检测度量mAP ，YOLOv3 可以实现57.9% 的

mAP，而DSSD 513为53.3%，RetinaNet为61.1%。由于多

尺度预测的优势，YOLOv3可以检测到更小的物体，但对

中等和较大尺寸的物体的性能

SSD

：

SSD[10]，一个单次检测器，用于一个阶段内

的多个类别，直接预测类别分数和框偏移，用于在具有不

同尺度的几个特征图中的每个位置处的不同尺度的一组固

定的默认边界框，如图4（a）所示。默认边界框在每个特

征图中具有不同的长宽比和比例。在不同的特征图中，默

认边界框的比例是用最高层和最低层之间的规则空间计算

的，其中每个特定的特征图学习响应于对象的特定比例。

对于每个默认框，它预测所有对象类别的偏移量和置信

度。图3（c）示出了该方法。在训练时，将这些默认边界

框匹配到地面实况框，其中匹配的默认框作为正面示例，

其余作为负面示例。由于大量的默认框是否定的，作者采

用硬否定挖掘，使用每个默认框的最高置信度损失，然后

选择顶部框，使否定和肯定之间的比例最多为3：1。此

外，作者实现了数据增强，这被证明是一种有效的方法，

以提高精度的大幅度。

实验表明，SSD 512在mAP和速度上与VGG-16[26]骨干

网具有竞争力。SSD 512（输入图像大小：512 512）在

PASCAL VOC 2007 测试集上实现了 81.6% 的 mAP ，在

PASCAL VOC上实现了80.0%的mAP

与Faster R-CNN（78.8%，75.9%）和YOLO（VOC 2012：

57.9%）相比，2012年测试集。在MS COCO DET数据集

上，

SSD 512在所有评估标准下都优于Faster R-CNN。

DSSD

：

DSSD[34] （ Deconvolutional Single Shot

Detector）是SSD（Single Shot Detector）的修改版本

该方法增加了预测模块和反卷积模块，并采用ResNet-101

作为主干。DSSD的体系结构如图4（b）所示。对于预测

模块，Fu等人将残差块添加到每个预测层，然后对预测层

和残差块的输出进行逐元素相加。反卷积模块增加特征图

的分辨率每个反卷积层后面跟着一个预测模块，用于预测

具有不同大小的各种对象。在训练过程中，作者首先在

ILSVRC CLS-SVM数据集上预训练基于ResNet-101的骨干

网络，然后使用321 321个输入或513 513个输入在检测数

据集上训练原始SSD模型。最后，他们训练反卷积模块冻

结SSD模块的所有权重。

在PASCAL VOC数据集和MS COCO数据集上的实验表

明了DSSD 513模型的有效性，而增加的预测模块和反卷

积模块在PASCAL VOC 2007测试数据集上带来了2.2%的

增强

RetinaNet

：

RetinaNet[33]是一种单阶段对象检测器，

由Lin等人[33]于2018年2月提出，其中焦点损失作为分类

损失函数。RetinaNet的架构如图4（c）所示。R-CNN

是一个典型的两阶段对象检测器。第一阶段生成一个稀疏

的一组区域pro-bands和第二阶段分类每个候选位置。由于

第一阶段过滤掉了大部分负位置，两阶段对象检测器可以

实现比提出密集候选位置集合的一阶段检测器更高的精

度。其主要原因是单阶段检测器训练网络以获得收敛时前

景-背景类的极端不平衡因此，作者提出了一个损失函

数，称为焦点损失，它可以降低分配给分类良好或简单示

例的损失的权重。焦点丢失集中在难训练的例子上，避免

了大量容易的否定例子在训练过程中压倒检测器。

RetinaNet继承了以往单阶段检测器的快速性，同时极大地

克服了单阶段检测器难以训练不平衡的正负样本的缺点。

实验表明，在MS COCO测试开发数据集上，ResNet-

101-FPN主干的RetinaNet获得了39.1%的AP，而DSSD 513

获得了33.2%的AP。使用ResNeXt-101-FPN，它使40.8%的

AP远远超过DSSD 513。RetinaNet大幅提高了对中小型物

体的检测精度。

M2Det

：

为了满足对象实例之间的各种尺度变化，

Zhao 等人。 [35] 提出了一种多层特征金字塔网络

（MLFPN），构建更有效的特征金字塔。作者采用三个

步骤来获得最终增强的特征金字塔。首先，像FPN一样，

从骨干中的多个层提取的多层次特征被融合为基本特征。

其次，将基本特征送入一个块，由交替联合的细化U形模

块和特征融合模块组成，并获得TUM的解码器层作为下

一步的特征。最后，一个包含多级特征的特征金字塔是通

过集成的解码器层的等效规模。到目前为止，具有多尺度

和多层次的功能准备。剩下的部分就是按照SSD架构来获

得

剩余29页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的目标检测技术现状与趋势

深度学习目标检测算法综述：NMS过滤与多阶段技术详解

"基于锚框的深度学习目标检测算法综述及进展

"基于深度学习的目标检测算法优化研究综述

基于深度学习目标检测算法综述

基于深度学习的目标检测综述.pdf

基于深度学习的目标检测综述20190711.pdf

深度学习目标检测综述.docx

深度学习目标检测综述.zip

基于深度学习的目标检测综述_李丹.pdf

基于深度学习的目标检测综述 (1).pdf

最新资源