一阶段目标检测模型演进：从YOLO到现代技术

版权申诉

5星 · 超过95%的资源 115 浏览量更新于2024-09-13 3 收藏 453KB PDF 举报

"本文主要探讨了目标检测领域中one-stage模型的发展历程，强调了深度学习和GPU算力在其中的关键作用。one-stage模型与two-stage模型的主要区别在于是否需要预先生成区域提案，前者如YOLO和SSD以速度见长，而后者如faster R-CNN则在准确性上更胜一筹。随着技术的进步，one-stage模型的精度已经能够与two-stage模型相媲美。文章着重回顾了YOLO这一里程碑式的one-stage模型，它的出现极大地提高了目标检测的实时性，通过将检测视为回归问题，简化了检测流程，减少了计算量。" 目标检测是计算机视觉领域的重要任务，涉及多种应用场景，如多类别检测、边缘检测、显著性目标检测、姿态检测、场景文本检测、人脸识别和行人检测等。随着深度学习的崛起，特别是深度卷积神经网络（CNN）的广泛应用，目标检测的性能得到了显著提升。GPU的并行计算能力为训练大规模神经网络提供了硬件支持，使得实时处理复杂图像成为可能。在目标检测模型中，one-stage和two-stage模型是两种主要架构。two-stage模型如faster R-CNN，先通过区域提案网络生成候选框，再进行分类和精修，因此其精度通常较高，但速度较慢。相反，one-stage模型如YOLO（You Only Look Once）和SSD（Single Shot MultiBox Detector）跳过了区域提案阶段，直接预测物体边界框和类别，速度更快，但在早期版本中，精度相对较低。 YOLO在2015年首次提出，它将目标检测视为回归问题，减少了计算步骤，实现了快速检测。YOLO的一大创新是将图像划分为网格，每个网格负责预测几个边界框和对应的类别概率，这种设计使得YOLO能同时处理多个尺度和位置的目标。尽管最初的YOLO在小目标检测和重叠物体处理上存在挑战，但后续的改进版如YOLOv2和YOLOv3通过引入锚框（anchor boxes）和更复杂的网络结构，显著提升了精度，同时保持了实时性。随着YOLO系列和其他one-stage模型如SSD的持续优化，one-stage模型不仅在实时性上保持优势，而且在准确性上逐步接近甚至超过了two-stage模型。这些进展为实时应用，如自动驾驶、视频监控和无人机导航等，提供了强大的技术支持，推动了目标检测领域的快速发展。

目标检测之目标检测之one-stage模型发展总结模型发展总结

由于广泛的应用和技术上的突破，目标检测（

object detection

）在近些年吸引了越来越多的注意力，以飞快的速度发展

着。在导致目标检测领域飞速发展的众多因素中，深度卷积神经网络和深度卷积神经网络和

GPU

算力算力无疑占据着重要的地位。大多数顶尖的目标

检测网络都充分利用了深度学习网络作为骨干网络用来提取图像特征进行分类和定位。如今，目标检测越来越多的应用在了多

分类检测

(multi-categories)

、边缘检测

(edge detection)

、显著性目标检测

(salient object detection)

、姿态检测

(pose

detection)

、场景文本检测

(scene text detection)

、人脸检测

(face detection)

和行人检测

(pedestrian detection)

等领域。

检测器通常能够被分为两类，一类是two-stage检测器，最具代表的为faster R-CNN；另一类是one-stage检测器，包括

YOLO，SSD等。一般来说，two-stage检测器具有高定位和识别准确性，而one-stage则有速度上的优势。其在结构上的区别

就是two-stage检测器有一个生成region proposal的步骤，然后对其进行预测和分类；而one-stage则是直接对预测框进行回归

和分类预测，示意图如下所示：

这次我们回顾总结的是one-stage目标检测器的发展历程，由于其先天结构的问题，其准确率一直逊色于two-stage检测器，但

是随着不断的发展和研究人员的努力，目前的one-stage检测器在保证速度的同时，其准确率也可以媲美于two-stage检测器，

下面我们就来回顾总结one-stage检测器发展历程中的具有代表意义的网络模型。

YOLO(you only look once) 2015

YOLO是第一个被提出的one-stage目标检测器，其主要贡献是对整幅图像和摄像头输入的实时检测实时检测，也就是说YOLO的最大优

势是速度。首先，相对于Fast R-CNN使用selective research的方法对每张图片提取出2000个region proposals，YOLO仅仅对

每张图片预测100多个bounding boxes。其次，YOLO将检测看作是一个回归（regression）问题，所以可以用一个统一的

（unified）网络直接去预测边界框（bounding boxes）和分类类别。在Tian X GPU上，YOLO可以实现每秒45张图片的检测

速度，作为对比，Fast R-CNN和Faster R-CNN分别为0.5和7。

YOLO的网络结构如下：

YOLO首先把输入图像划分成S×S个网格（grid），每个网格负责检测中心落在此网格内负责检测中心落在此网格内的物体，每一个网格（grid）预测B个

边界框（x,y,w,h）和他们的置信度分数，还有一个C维的类别分数（总共有C个分类）。最后生成S×S×（B×（5+C））维的

特征图。按照上图来说S=7，B=2，C=20。每一个格点是一个30维的向量，如上图所示。其中，置信度分数（confidence

score）由两部分组成：confidence= P(object)* IOU 。P(object)表示的是方框内包含物体的可能性；IOU（intersection over

union）表示的是边界框包含物体的准确性。

为了得到细粒度（finegrained）可视化信息来提升检测精度，在检测阶段，将预训练时的224×224的分辨率加倍。YOLO直接

使用整幅图来进行检测，因此可以encode全局信息，所以可以减少将背景检测为物体的错误。Fast R-CNN会犯许多背景误报

的错误，YOLO在这方面少了接近3倍。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38537777

粉丝: 4
资源: 966

一阶段目标检测模型演进：从YOLO到现代技术

耶鲁大学开源机械手项目模型文件 1/3

One-stage目标检测最强算法 ExtremeNet源码

rcnn、fast rcnn、faster rcnn和yolo的算法原理和流程

目标检测中two-stage的优缺点和one-stage的优缺点，以及两者的比较

one-stage目标检测算法

one-stage检测方法

深度学习two-stage和one-stage的区别

cnn里one-stage和two-stage的区别

基于One-stage框架模型历史

one-stage结构

最新资源