20年目标检测历程：深度学习驱动的重大进展

32 浏览量更新于2024-06-16 收藏 3.26MB PDF 举报

目标检测作为计算机视觉领域的重要基石，历经20年的演变和发展，可以被视为整个计算机视觉历史的一个缩影。自20世纪90年代以来，这项技术从早期的传统方法逐渐过渡到深度学习主导的时代，实现了革命性的进步。本文回顾了400多篇关于目标检测的论文，涵盖了关键里程碑检测器、常用数据集、评估指标、基础构建模块、加速技术，以及针对行人、人脸和文本等特定应用的深入探讨。早期的目标检测依赖于特征工程和机器学习算法，如Haar特征和Adaboost，这些方法在当时已经能够实现一定程度的物体识别。然而，精度和效率的提升受限于特征选择和复杂模型的训练。随着深度学习的兴起，特别是卷积神经网络（CNN）的引入，如AlexNet和VGG，目标检测性能得到了显著飞跃。这些深度学习模型能够自动学习图像特征，使得物体检测的准确性大大提高，并推动了诸如YOLO（You Only Look Once）、R-CNN（Region-based Convolutional Neural Networks）和Fast R-CNN等经典方法的诞生。同时，大规模标注的数据集，如PASCAL VOC和Microsoft COCO，对于模型的训练和评估至关重要。这些数据集不仅提供了丰富的样本，而且定义了标准化的评估标准，如精确度、召回率和F1分数，帮助衡量不同方法的性能。此外，为了应对实时性和计算资源的需求，研究人员探索了各种加速策略，如轻量化模型设计、硬件优化和多尺度处理。行人检测、人脸检测和文本检测作为典型的应用场景，面临着识别多样性和复杂性的挑战。例如，行人检测需要在动态场景中区分行人与背景，而人脸检测则需处理光照、表情和遮挡等问题。近年来的技术进步，如Mask R-CNN和关键点检测，不仅提高了整体性能，还在这些特定任务上实现了显著改进。目标检测的20年历程见证了计算机视觉技术从浅层学习向深度学习的转变，以及在实际应用中的广泛应用。未来，随着更先进的算法、更大规模的数据集和更加智能的硬件结合，目标检测将继续朝着更高的准确性和实时性迈进，为人工智能的多个领域带来深远影响。

∼∼

测试图像（基于LabelMe数据库构建）。网址：http://cbcl.mit.edu/

是Pascal-VOC @ 0. 5 IoU。url：http://www.vision.caltech.edu/Image Datasets/

http://www.cvlibs.net/datasets/kitti/index.php

测试集为11，000与加州理工学院的指标相同url：https：//bitbucket.

欧洲国家由47，000张图像中的238，000个实例组成与加州理工学院的指标相同。

表2

一些流行的行人检测数据集的概述。

更改、失焦等。url：http://vis-www.cs.umass.edu/fddb/index.html注释。网

址：https://www.tugraz.at/institute/icg/research/team-bischof/

具有丰富注释的面部，即，比例、遮挡、姿势等。网址：http://mmlab.ie。

退化、运动模糊、聚焦模糊等。网址：http://www.ufdd.info/

[70] 紧张的场景。数据集

表3

一些流行的人脸检测数据集的概述。

机器人手臂试图抓住一只手）。

最近，Open Images数据集中的评估有了一些进一步的发

展，例如，通过考虑盒子组和非穷举的图像级类别层次结

构。一些研究人员还提出了一些替代指标，例如，“定位查全

率”[94]。尽管最近发生了变化，但基于VOC/COCO的mAP

仍然是最常用的目标检测评估指标。

2.3

目标检测

在本节中，我们将介绍探测系统的一些重要组成部分及其在

过去20年的技术发展。

2.3.1

早期

早期的目标检测（2000年以前）并没有像滑动窗口检测那样

遵循统一的当时的探测器通常是基于低级和中级视觉设计

的，如下所示。

•

组件、形状和边缘

“成分识别”作为一种重要的认知理论[98]，一直是图像识

别和目标检测的核心思想[13，99，100]。一些早期的研究人

员将对象检测框定为对象组件，形状和轮廓之间的相似性的

测量，包括距离变换[101]，形状上下文[35]和边缘波[102]

等。尽管有希望的初步结果，但在更复杂的检测中效果不

佳。

数据集

年

描述

引用次数

MITPed. [30]

2000

第一个行人检测数据集之一。包括500英镑培训和200英镑

software-datasets/PedestrianData.html

1515

INRIA[12]

2005

早期最著名和最重要的行人检测数据集之一由HOG论文介绍[12]。网址：

http://pascal.inrialpes.fr/data/human/

24705

加州理

工学院

[59，

60]

2009

最著名的行人检测数据集和基准之一。在训练集和测试集分别包含190，000和

160，000名行人度量

Caltech行人/

2026

KITTI[61]

2012

最著名的交通场景分析数据集之一。在德国的卡尔斯鲁厄被捕。由100，000名行人

（16，000人）组成网址：

2620

[62]第六十

二话

2017

基于CityScapes数据集构建[63]。由19，000名正在接受培训的行人组成

org/shanshanzhang/citypersons

欧洲城市[64]

2018

迄今为止最大的行人检测数据集从12个城市的31个城市捕获

数据集

年

描述

引用次数

FDDB[65]

2010

由来自雅虎的2,800张图片和25000张面孔组成有遮挡，摆姿势

531

美国劳工联合

会[66]

2011

由来自Flickr的26，000张面孔和22，000张图像组成，具有丰富的面部标志

lrs/downloads/aflw/

414

IJB[67]

2015

IJB-A/B/C由超过50，000个图像和视频帧组成，用于识别和检测任务。网址：

https://www.nist.gov/programs-projects/

279

[68]第六十

八话

2016

最大的人脸检测数据集。由132，000张图片和394，000张

cuhk.edu.hk/projects/WIDERFace/

193

民主力量联盟

[69]

2018

包含16，000张图片和11，000张面孔。变化包括基于天气的

WildestFaces

2018

有68,000个视频帧和2,200个镜头的64个战斗名人在uncon-

网址：http://tc11.cvc.uab.es/datasets/SVT 1

http://www.iapr-tc11.org/mediawiki/index.php/MSRA文本检测

图像.网址：http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html

cocotext/.

和9,200个交通灯实例。网址：http://www.lara.prd.fr/benchmarks/frames，47

个美国标志的7,800个实例。网址：http://cvrr.ucsd.edu/LISA/，在不同的天气

条件下捕获1，200个交通标志，

共269种类型。每个标志的3D位置已被注释。网址：

2048）和128个类的130，000个交通标志实例。每个实例都有注释

视频帧和24000个交通灯实例。 https://hci.iwr.uni-heidelberg。

概述了一些流行的交通灯检测和交通标志检测数据集。

问题。因此，基于机器学习的检测方法开始蓬勃发展。

基于机器学习的检测技术经历了多个发展阶段，包括外观

统计模型（1998年以前）、小波特征表示（1998-2005）和基

于梯度的表示（2005-2012）。

建立对象的统计模型，如图5（a）所示的Eigenfaces[95，

106]，是对象检测历史上基于学习的方法的第一波浪潮。

1991年，M. Turk

等人

在实验室环境中使用特征脸分解实现

了实时人脸检测[95]。与当时基于规则或基于模板的方法相

比[107，108]，统计模型通过学习任务更好地提供了对象外

观的整体描述

从数据中获取具体知识。

自2000年以来，小波特征变换开始主导视觉识别和目标检

测。这组方法的本质是通过将图像从像素变换为一组小波系

数来学习。在这些方法中，Haar小波由于其高计算效率，主

要用于许多对象检测任务，例如一般对象检测[29]，人脸检

测[10，11，109]，行人检测[30，31]等。图5（d）显示了VJ

检测器[10，11]针对人脸学习的一组Haar小波基。

•

早期

使用CNN检测物体的历史可以是

数据集

年

描述

引用次数

ICDAR[71]

2003

ICDAR 2003是第一个公开的文本检测数据集之一ICDAR 2015

530

和2017年是ICDAR挑战的其他流行迭代[72，73]。网址：http：

//rrc.cvc.uab.es/

STV[74]

2010

包含从Google StreetView获取的10350张图像和10720个文本实例

339

MSRA-TD

500[75]

2012

由500张室内/室外图片组成，配有中文和英文文本。网址：

数据库（MSRA-TD 500）

413

[76]第七十六话

2012

由来自街道和数字媒体的101，100张图片和105，000个单词组成

165

[77]第二十七话

2014

一个包含900万张图像的合成数据集，这些图像是从90，000个多种字体的词汇表中

生成的。网址：http://www.robots.ox.ac.uk/

246

COCOText

2016

迄今为止最大的文本检测数据集。基于MS-COCO构建，

[78个国家]

163，000张图片和173，000条文本注释。https://bgshih.github.io/

表4

一些流行的场景文本检测数据集的概述。

数据集

年

描述

引用次数

[第79话]

2009

在巴黎被一辆行驶中的汽车捕获包含11，000个视频帧

交通灯识别

164

LISA[80]

2012

一的的第一交通签署检测数据集。组成的 6,600视频

lisa-traffic-sign-dataset.html

325

GTSDB[81]

2013

最流行的交通标志检测数据集之一包含10900张图片

一天的开始时间。网址：http://benchmark.ini.rub.de/? section=gtsdb&

subsection=news

259

[第82话]

2012

由17，300张静态图像、120，000张视频帧和11，000张交通标志组成

https://btsd.ethz.ch/shareddata/

224

TT100K[83]

2016

迄今为止最大的交通标志检测数据集，包含100，000张图像（2048 x

带有类标签、边界框和像素掩码。网址：

http://cg.cs.tsinghua.edu.cn/traffic%2Dsign/

111

BSTL[84]

2017

最大的交通灯检测数据集。包含5000张静态图像，8300张de/node/6132

表5

剩余38页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

20年目标检测历程：深度学习驱动的重大进展

深度学习驱动的目标检测：20年的演进与综述

深度学习驱动的目标检测：20年演进与关键点分析

深度学习前后的目标检测：20年演进与关键进展

20年目标检测综述.pptx

近20年目标检测的发展综述.pdf

近20年目标检测的发展综述.docx

目标检测二十年综述Object Detection in 20 Years: A Survey中英对照翻译、重点及关键词标注

深度学习与传统方法：20年物体检测技术综述

视觉Transformer：2021年综述

20年目标检测演进：传统与深度学习里程碑回顾

最新资源