没有合适的资源?快使用搜索试试~ 我知道了~
目标检测:20年综述
1O目标检测20年综述邹正霞,施振伟,IEEE会员,郭玉红,叶杰平,IEEE高级会员摘要-目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来它在过去二十年的发展可以看作是计算机视觉历史的一个缩影如果把今天的物体检测看作本文根据其技术发展,广泛回顾了400多篇关于对象检测的论文,跨越了四分之一个世纪的时间(从20世纪90年代到2019年)。本文涵盖了许多主题,包括历史上的里程碑检测器,检测数据集,度量,检测系统的基本构建模块,加速技术,以及最新的最先进的检测方法。本文还回顾了行人检测、人脸检测、文本检测等重要的检测应用,深入分析了它们面临的挑战以及近年来的技术进步。索引术语-目标检测,计算机视觉,深度学习,卷积神经网络,技术发展。✦1一、生产目标检测是一项重要的计算机视觉任务,它涉及检测视觉对象的实例数字图像中的某类(如人类、动物或汽车)。目标检测的目标是开发计算模型和技术,提供计算机视觉应用所需的最基本信息之一:什么物体在哪里?作为计算机视觉的基本问题之一,目标检测形成了许多其他计算机视觉任务的基础,例如实例分割[1-一个是模拟人类视觉和认知的统一框架,一个是特定应用场景下的检测,如行人检测、人脸检测、文本检测等。近年来,深度学习技术的快速发展[9]为目标检测注入了新的血液,取得了显著的突破,使其成为前所未有的研究对象检测现在已经广泛用于许多现实世界的应用中,例如如自动驾驶、机器人视觉、视频监控等。图1显示了过去两年中与“物体检测”相关的出版物数量的增长。通讯作者:邹正霞(zzhengxi@umich.edu)和叶杰平(jpye@umich.edu).Zhengxia Zou是密歇根大学计算医学与生物信息学系的研究员,AnnArbor,MI 48109,U.S.A.。Zhenwei Shi是北京航空航天大学航天学院图像处理中心的研究员,北京100191,中国,北京100191,北京航空航天大学航天学院虚拟现实技术与系统国家重点Yuhong Guo就职于加拿大渥太华卡尔顿大学计算机科学学院和加拿大多伦多迪迪实验室。Jieping Ye就职于密歇根大学计算医学和生物信息学系以及电气工程和计算机科学系,美国密歇根州安娜堡,MI 48109,和滴滴人工智能实验室,滴滴出行,北京,100085。Fig. 1. 从1998年到2018年,物体检测方面的出版物数量不断增加。(Data从谷歌学者高级搜索:标题:几十年•与其他相关审查的近年来发表了许多关于一般对象检测的综述[24-28]。本文与上述评论的主要区别总结如下:1. 根据技术演变进行全面审查:本文广泛审查了400多篇论文,目标检测的发展历史,跨越了四分之一个世纪以往的综述大多只关注一个较短的历史时期或某些特定的探测任务,而没有考虑整个生命周期的技术演变。站在历史的高速公路上,不仅有助于读者建立一个完整的知识体系,而且有助于寻找这个快速发展的领域的未来方向。2. 深入探讨关键技术和最新技术水平:经过多年的发展,现有技术的对象检测系统已经与大量的技术集成,例如arXiv:1905.05055v2 [cs.CV] 2019年5月2图二. 目标检测的路线图。图中的里程碑探测器:VJ Det。[10,11],HOG Det. [12],RCNN [13 - 15],SPPNet [17],Fast RCNN [18],Faster RCNN[19],YOLO [20],SSD [21],Pyramid Networks [22],Retina-Net [23]。回归然而,以前的评论缺乏基本的分析,以帮助读者理解这些复杂技术的本质,例如,“它们从哪里来,又是如何进化的?”“有什么利弊每一组方法?”本文就上述问题进行了深入的分析,以飨读者。3. 全面分析检测加速技术:物体检测的加速有很长的时间这是一项重要但具有挑战性的任务。本文对近20年来的加速技术作了全面的回顾多个级别的对象检测历史,包括“检测流水线”(例如,级联检测,特征图共享计算),“检测主干”(例如,网络压缩、轻量级网络设计),以及“数值计算”(例如,积分图像、矢量量化)。这一主题在以前的评论中很少涉及。•目标检测尽管人们总是问“物体检测的困难和挑战是什么?",其实,这个问题并不容易回答,甚至可能过于笼统。 由于不同的检测任务有着完全不同的目标和约束条件,其难度也会有所不同。除了其他计算机视觉任务中的一些常见挑战(诸如不同视点下的对象、照明和类内变化)之外,对象检测中的挑战包括但不限于以下方面:对象旋转和尺度变化(例如,小目标),准确的目标定位,密集和遮挡目标检测,检测速度等,在第4节和第5节,我们将对这些主题进行更详细的分析。本文的其余部分组织如下。在第二节中,我们回顾了目标检测20年的发展历史。在第3节中将介绍一些加速目标检测的技术。 一些最先进的探测技术第三节总结了近三年来的方法4. 一些重要的检测应用将在第5节中进行审查。第六部分对本文进行了总结,并对进一步的研究方向进行了分析.2奥贝什检测在 20 Y耳在本节中,我们将从多个方面回顾对象检测的历史,包括里程碑检测器、对象检测数据集、指标以及关键技术的演变。2.1目标检测路线图在过去的二十年里,人们普遍认为,物体检测的进展大致经历了两个历史时期:“传统物体检测时期(2014年之前)”和“基于深度学习的检测时期(2014年之后)”,如图所示。二、2.1.1Military:传统探测器如果把今天的物体检测看作是深度学习赋能下的技术美学,那么时光倒流20年,我们将见证“智慧冷兵器时代”。大多数早期的对象检测算法都是基于手工特征构建的。由于当时缺乏有效的图像表示方法,人们不得不设计复杂的特征表示方法,并使用各种加速技巧来耗尽有限的计算资源。•Viola Jones探测器18年前,P.Viola和M.琼斯首次实现了人脸的实时检测,没有任何限制(例如,肤色分割)[10,11]。 运行3在700MHz的Pentium III CPU上,在同等检测精度下,该检测器的速度是其他算法的几十倍甚至几百倍。检测算法,后来被称为“Viola-Jones(VJ)检测器”,在本文中以作者的名字给出,VJ检测器遵循最直接的检测方式,即,滑动窗口:遍历图像中所有可能的位置和比例,以查看是否有任何窗口包含人脸。虽然这看起来是一个非常简单的过程,但其背后的计算远远超出了当时的计算机能力。VJ检测器通过结合三种重要技术显著提高了检测速度:1) 积分图像:积分图像是一种计算方法,用于加速盒滤波或卷积过程。与当时的其他目标检测算法一样[29积分图像使得VJ检测器中每个窗口的计算复杂度与其窗口大小无关。2) 特征选择:作者没有使用一组手动选择的Haar基过滤器,而是使用Adaboost al-出租m[32]从一组巨大的随机特征池(约180 k维)中选择一小组对人脸检测3) 检测级联:一种多阶段检测范式(也称为在VJ检测器中引入了“检测级联”),以通过在背景窗口上花费更少的计算而在面部目标上花费更多的计算来减少其计算开销。•HOG检测器HOG(Histogram of Oriented Concentrants)特征描述符最初由N.Dalal和B. [12]第十二话HOG可以被认为是其时代的尺度不变特征变换[33,34]和形状上下文[35]的重要改进。为了平衡特征不变性(包括平移、尺度、照明等)和非线性(关于区分不同对象类别),HOG描述符被设计为在均匀间隔的单元的密集网格上计算,并且使用重叠的局部对比度归一化(在“块”上虽然HOG可用于检测各种对象类别,但它主要是由行人检测问题引起的。为了检测不同大小的物体,HOG检测器多次重新缩放输入图像,同时保持检测窗口的大小不变。多年来,HOG检测器一直是许多物体检测器[13,14,36]•基于可变形零件的模型作为VOC-07、-08、-09检测挑战赛的优胜者,Vectors是传统目标检测方法的巅峰之作。最早由P. Felzenszwalb[13]在2008年作为 HOG探测器 的扩展,然后 R. Girshick[14,15,37,38].该方法遵循“分而治之”的检测思想,训练可以简单地看作是学习分解对象的正确方法,推理可以看作是对不同对象部分的检测的集合。例如,检测“汽车”的问题可以被认为是对其车窗、车身和车轮的检测。这部分工作,也就是。“星型模型”由P. Felzenszwalb等人完成[13]。后来,R。Girshick进一步将星模型扩展到一个典型的滤波器由一个根滤波器和若干部分滤波器组成。代替手动指定部件过滤器的配置(例如,大小和位置),在此基础上提出了一种弱监督学习方法,该方法可以将 部 分 滤 波 器 的 所 有 配 置 作 为 潜 在 变 量 自 动 学 习 。 R.Girshick进一步将此过程公式化为多实例学习的特殊情况[39],并且还应用了其他一些重要技术,如“硬否定挖掘”,“边界框回归”和“上下文启动”,以提高检测精度(将在第2.3节中介绍)。为了加快检测速度,Girshick开发了一种技术,用于将 检 测 模 型 “ 编 译 ” 为 更 快 的 检 测 模 型 , 该 检测模 型实 现了 级联 架构, 在不 牺牲 任何准 确性 的情 况下实现了超过10倍的加速[14,38]。虽然今天的物体检测器在检测精度方面已经远远超过了100%,但其中许多仍然深受其宝贵见解的影响,例如,2010年,P.Felzenszwalb和R. Girshick被PASCAL VOC授予2.1.2Military:基于CNN的两阶段检测器随着手工制作的功能的性能变得饱和,对象检测在2010年之后达到了一个平台。R. Girshick说:“.在2010-2012年期间,进展缓慢,通过建立整体系统和采用成功方法的微小变体,取得了很小的进展”[38]。2012年,世界见证了卷积神经网络的重生[40]。由于深度卷积网络能够学习图像的鲁棒和高级特征表示,一个自然的问题是我们是否可以将其用于对象检测?R. Girshick等人在2014年率先打破了僵局,提出了用于对象检测的具有CNN特征的区域(RCNN)[16,41]。从那时起,目标检测开始以前所未有的速度发展。在深度学习时代,对象检测可以分为两种类型:•RCNNRCNN背后的想法很简单:它首先通过选择性搜索提取一组对象建议(对象候选框)[42]。然后,每个建议都被重新调整为一个固定大小的图像,并输入到在ImageNet上训练的CNN模型(比如AlexNet[40])中提取特征。最后,使用线性SVM分类器来预测每个区域内对象的存在并识别对象类别。4RCNN 在 VOC 07 上 产 生了 显 著 的 性 能提 升 , 平 均精 度(mAP)从33.7%(DPM-v5[43])大幅提高到58.5%。虽然RCNN取得了很大的进步,但其弊端也很明显:对大量重叠建议(来自一个图像的超过2000个框)的冗余特征计算导致极慢的检测速度(使用GPU的每个图像14秒)。同年晚些时候,SPPNet[17]被提出并克服了这个问题。•SPPNet2014年,K. He等人提出了空间金字塔池网络(SPPNet)[17] 。 以 前 的 CNN 模 型 需 要 固 定 大 小 的 输 入 , 例 如 ,AlexNet的224x224图像[40]。SPPNet的主要贡献是引入了空间金字塔池(SPP)层,这使得CNN能够生成固定长度的表示,而不管图像/感兴趣区域的大小,而无需重新缩放。当使用SPPNet进行对象检测时,可以从整个图像中计算特征图,然后可以生成任意区域的固定长度表示用于训练检测器,这避免了重复计算卷积特征。SPPNet比R-CNN快20倍以上,而不会牺牲任何检测精度(VOC 07 mAP=59.2%)。虽然SPPNet有效地提高了检测速度,但仍然存在一些缺点:首先,训练仍然是多阶段的,其次,SPPNet只微调其完全连接的层,而简单地忽略所有先前的层。次年晚些时候,Fast RCNN[18]被提出并解决了这些问题。•Fast RCNN2015年,R. Girshick提出了快速RCNN检测器[18],这是R-CNN和SPPNet的进一步改进[16,17]。快速RCNN使我们能够在相同的网络配置下同时训练检测器和边界框回归器。在VOC 07数据集上,Fast RCNN将mAP从58.5%(RCNN)提高到70.0%,同时检测速度比R-CNN快200倍以上。尽管Fast-RCNN成功地集成了R-CNN和SPPNet的优点,但其检测速度仍然受到建议检测的限制(更多详细信息请参见第2.3.2节)。然后,一个问题自然出现了:“我们可以用CNN模型生成对象提案吗?”更快的R-CNN[19] 已经回答了这个问题。•Faster RCNN2015年,S. Ren等人在Fast RCNN之后不久提出了FasterRCNN检测器[19,44]更快的RCNN是第一个端到端,也是第 一 个 接 近 实 时 的 深 度 学 习 检 测 器 ( COCO mAP@.5=42.7% , COCO mAP@[.5 , .95]= 21.9% , VOC 07 mAP=73.2%,VOC 12 mAP= 70.4%,17 fps,ZF-Net [45])。Faster-RCNN的主要贡献是引入了区域提案网络(RPN),该网络可以实现几乎免费的区域提案。从R-CNN到Faster RCNN,对象检测系统的大多数单独块,例如,建议检测、特征提取、边界框回归等已经逐渐集成到统一的端到端学习框架中。Faster RCNN虽然突破了Fast RCNN的速度瓶颈,但在后续检测阶段仍存在计算冗余。后来,提出了各种改进,包括RFCN [46]和Light head RCNN [47]。(详见第3节)•特征金字塔网络2017年,T. Y. Lin等人在Faster RCNN的基础上提出了特征金字塔网络(FPN)[22]。在FPN之前,大多数基于深度学习的检测器只在网络的顶层运行检测虽然CNN深层的特征有利于类别识别,但它并不能帮助定位物体。为此,在FPN中开发了一种具有横向连接的自顶向下架构,用于在所有尺度上构建高级语义。由于CNN通过其前向传播自然地形成特征金字塔,因此FPN在检测具有各种尺度的目标方面显示出巨大的在基本的Faster R-CNN系统中使用FPN,它在MSCOCO数据集上实现了最先进的单模型检测结果,而没有花里胡哨(COCO mAP@.5= 59.1%,COCO mAP@[.5,.95]=36.2%)。FPN现已成为许多最新探测器的基本构件。2.1.3Military:基于CNN的单阶段检测器•You Only Look Once(YOLO)YOLO是由R.约瑟夫等人,2015年。它是深度学习时代的第一个单阶段检测器[20]。YOLO非常快:YOLO的快速版本在VOC07 mAP= 52.7%的情况下以155fps运行,而其增强版本在VOC07 mAP=63.4%和VOC12 mAP= 57.9%的情况下以45fps运行。YOLO是“You Only Look Once”的缩写。从它的名字就可以看出,作者们已经完全摒弃了以往“提案检测+验证”的检测范式。相反,它遵循完全不同的理念:将单个神经网络应用于完整图像。该网络将图像划分为区域,并同时预测每个区域的边界框和概率。再见,R。Joseph在YOLO的基础上进行了一系列改进,并提出了其v2和v3版本[48,49],进一步提高了检测精度,同时保持了很高的检测速度。尽管YOLO的检测速度有了很大的提高,但与两级检测器相比,YOLO的定位精度有所下降,特别是对于一些小目标。YOLO•单发多盒探测器(SSD)SSD[21]是由W. Liu等人2015年它是深度学习时代的第二个单阶段检测器。SSD的主要贡献是引入了多参考和多分辨率检测技术(将在第2.3.2节中介绍),这显著提高了单级检测器的检测精度,特别是对于一些小物体。SSD在检测速度和准确性方面都有优势SSD与以前任何探测器的主要区别在于,前者探测的是5在网络的不同层上有不同的规模,而后者只在其顶层上运行检测。•RetinaNet尽管单级探测器具有高速和简单的特点,但多年来其精度一直落后于两级探测器T.- Y. Lin等人 已经发现了背后的原因,并在2017年提出了RetinaNet [23]。他们声称,在密集探测器的训练过程中遇到的极端前景-背景类不平衡是核心原因。为此,RetinaNet中引入了一个名为“焦点损失”的新损失函数,通过重塑标准交叉熵损失,使检测器在训练过程中将更多的注意力集中在困难的、错误分类的示例上。聚焦损失使单级探测器能够达到与两级探测器相当的精度,同时保持非 常 高 的 探 测 速 度 。 (COCO mAP@.5= 59.1% ,mAP@[.5,.95]=39.1%)。2.2对象检测数据集和数据库构建具有较少偏差的较大数据集对于消除高级计算机视觉算法至关重要。在对象检测中,在过去10年中已经发布了许多众所周知的数据集和基准,包括PASCAL VOC挑战[50,51]的数据集(例如,VOC2007,VOC2012),ImageNet大规模视觉识别挑战(例如,ILSVRC 2014)[52]、MS-COCO检测挑战[53]等。这些数据集的统计数据见表1。图4显示了这些数据集的一些图像示例。图3显示了从2008年到2018年VOC 07,VOC 12和MS-COCO数据集的检测精度的提高。•Pascal VOCPASCAL Visual Object Classes ( VOC ) Challenges1(2005年至2012年)[50,51]是早期计算机视觉社区最重要的竞赛之一。在PASCAL VOC中有多个任务,包括图像分类,目标检测,语义分割和动作检测。Pascal-VOC的两个版本主要用于对象检测:VOC 07和VOC 12,前者由5 k tr组成。images + 12k注释对象,后者由11k tr组成。图像+ 27k注释对象。在这两个数据集中标注了生活中常见的20类对象(人:人;动物:鸟、猫、牛、狗、马、羊;交通工具:飞机、自行车、船、公共汽车、汽车、摩托车、火车;室内:瓶子、椅子、餐桌、盆栽植物、沙发、电视/监视器)。近年来,随着ILSVRC和MS-COCO(即将推出)等大型数据集的发布,VOC逐渐过时,现在已成为大多数新检测器的测试平台。•ILSVRCImageNet大规模视觉识别挑战赛(ILSVRC)2[52]推动了通用对象检测的发展。ILSVRC从2010年到2017年每年举办一次。它包含一个使用ImageNet图像的检测挑战[57]。ILSVRC检测数据集包含200类视觉对象。的数量1. http://host.robots.ox.ac.uk/pascal/VOC/2. http://image-net.org/challenges/LSVRC/图三. VOC 07、VOC 12和MS-COCO数据集上目标检测的准确性提高。此 图 中 的 检 测 器 : DPM-v1[13] ,DPM-v5[54] , RCNN[1 6] ,SPPNet[17],Fast RCNN[18], Faster RCNN[19] , SSD [21] , FPN [22] , Retina-Net [23] , Refinedet [55] , TridentNet[56]。图像/对象实例比VOC大两个数量级。例如,ILSVRC-14包含517 k图像和534 k注释对象。•MS-CocoMS-COCO3[53]是当今最具挑战性的目标检测数据集。基于MS-COCO数据集的年度竞赛自2015年以来一直在举行。它的对象类别比ILSVRC少,但对象实例更多。例如,MS-COCO-17包含来自80个类别的164 k图像和897 k注释对象。与VOC和ILSVRC相比,MS-COCO最大的进步是除了边界框注释外,每个对象都使用逐实例分割进一步标记,以帮助精确定位。此外,MS-COCO比VOC和ILSVRC包含更多的小对象(其面积小于图像的1%)和更密集的对象。所有这些特性使得MS- COCO中的对象分布更接近于真实世界的对象分布.就像当时的ImageNet一样,MS-COCO已经成为对象检测社区事实上的标准。•Open Images2018年,继MS-COCO之后,以前所未有的规模推出了开放图像检测(Open Images Detection)挑战4[58]中有两个任务,3. http://cocodataset.org/4. https://storage.googleapis.com/openimages/web/index.html6数据集train validation trainval test images objects images objects imagesobjects图四、(a)PASCAL-VOC 07、(b)ILSVRC、(c)MS-COCO和(d)Open Images中的一些示例图像和注释VOC-20072,5016,3012,5106,3075,01112,6084,95214,976VOC-20125,71713,6095,82313,84111,54027,45010,991-ILSVRC-2014456,567478,80720,12155,502476,688534,30940,152-ILSVRC-2017456,567478,80720,12155,502476,688534,30965,500-MS-COCO-201582,783604,90740,504291,875123,287896,78281,434-MS-COCO-2018118,287860,0015,00036,781123,287896,78240,670-2018 - 06 - 211,743,04214,610,22941,620204,6211,784,66214,814,850125,436625,282表1一些著名的对象检测数据集及其统计数据。Open Images:1)标准对象检测,2)视觉关系检测,检测特定关系中的配对对象。对于对象检测任务,数据集由1, 910k张图像组成,其中包含600个对象类别的15, 440 k个注释边界框。•其他检测任务在过去的20年里,除了一般的目标检测外,行人检测、人脸检测、文本检测、交通标志/灯检测、遥感目标检测等领域的检测应用也得到了蓬勃发展。表2-6列出了这些检测任务的一些流行数据集5。有关这些任务的检测方法的详细介绍,请参阅5.2.2.1度量我们如何评估物体探测器的有效性这个问题在不同的时间甚至可能有不同的答案。在早期的检测界,没有一个被广泛接受的检测性能评价标准。例如,在行人检测的早期研究中[12],“每窗口的错过率与假阳性(FPPW)”通常被用作度量。然而,每窗口测量(FPPW)可能有缺陷并且失败5. #Cites显示截至2月的统计数据。2019年。在某些情况下预测完整图像性能[59]。2009年,加州理工学院的行人检测基准被创建[59,60],从那时起,评估指标已经从每窗口(FPPW)变为每图像假阳性(FPPI)。近年来,最常用的目标检测评估是“平均精度(AP)”,最初在VOC 2007中引入。AP被定义为不同召回率下的平均检测精度,通常以特定类别的方式进行评估为了比较所有对象类别的性能,通常使用所有对象类别的平均AP(mAP)作为性能的最终度量。为了测量对象局部化准确度,使用交集对并集(IoU)来检查预测框与地面实况框之间的IoU是否大于预定义阈值,例如0.5。如果是,则该对象将被标识为“成功检测到”,否则将被标识为“未检测到”。基于0.5- IoU的mAP已经成为多年来对象检测问题的事实上的度量标准。2014年后,由于MS-COCO数据集的普及,研究人员开始更加关注准确性边界框的位置。MS-COCO AP不是使用固定的IoU阈值,而是在0.5(粗略定位)和0.95(完美定位)之间的度量的这种变化鼓励了更准确的对象定位,并且对于一些现实世界的应用(例如,想象有一个7∼∼测试图像(基于LabelMe数据库构建)。网址:http://cbcl.mit.edu/是Pascal-VOC @ 0. 5 IoU。url:http://www.vision.caltech.edu/Image Datasets/http://www.cvlibs.net/datasets/kitti/index.php测试集为11,000与加州理工学院的指标相同url:https://bitbucket.欧洲国家由47,000张图像中的238,000个实例组成与加州理工学院的指标相同。表2一些流行的行人检测数据集的概述。更改、失焦等。url:http://vis-www.cs.umass.edu/fddb/index.html注释。 网址:https://www.tugraz.at/institute/icg/research/team-bischof/具有丰富注释的面部,即,比例、遮挡、姿势等。网址:http://mmlab.ie。退化、运动模糊、聚焦模糊等。网址:http://www.ufdd.info/[70]紧张的场景。数据集表3一些流行的人脸检测数据集的概述。机器人手臂试图抓住一只手)。最近,Open Images数据集中的评估有了一些进一步的发展,例如,通过考虑盒子组和非穷举的图像级类别层次结构。一些研究人员还提出了一些替代指标,例如,“定位查全率”[94]。尽管最近发生了变化,但基于VOC/COCO的mAP仍然是最常用的目标检测评估指标。2.3目标检测在本节中,我们将介绍探测系统的一些重要组成部分及其在过去20年的技术发展。2.3.1早期早期的目标检测(2000年以前)并没有像滑动窗口检测那样遵循统一的当时的探测器通常是基于低级和中级视觉设计的,如下所示。•组件、形状和边缘“成分识别”作为一种重要的认知理论[98],一直是图像识别和目标检测的核心思想[13,99,100]。一些早期的研究人员将对象检测框定为对象组件,形状和轮廓之间的相似性的测量,包括距离变换[101],形状上下文[35]和边缘波[102]等。尽管有希望的初步结果,但在更复杂的检测中效果不佳。数据集年描述引用次数MITPed. [30]2000第一个行人检测数据集之一。包括500英镑培训和200英镑software-datasets/PedestrianData.html1515INRIA[12]2005早期最著名和最重要的行人检测数据集之一由HOG论文介绍[12]。网址:http://pascal.inrialpes.fr/data/human/24705加州理工学院[59,60]2009最著名的行人检测数据集和基准之一。在训练集和测试集分别包含190,000和160,000名行人度量Caltech行人/2026KITTI[61]2012最著名的交通场景分析数据集之一。在德国的卡尔斯鲁厄被捕。由100,000名行人(16,000人)组成网址:2620[62]第六十二话2017基于CityScapes数据集构建[63]。 由19,000名正在接受培训的行人组成org/shanshanzhang/citypersons50欧洲城市[64]2018迄今为止最大的行人检测数据集从12个城市的31个城市捕获1数据集年描述引用次数FDDB[65]2010由来自雅虎的2,800张图片和25000张面孔组成有遮挡,摆姿势531美国劳工联合会[66]2011由来自Flickr的26,000张面孔和22,000张图像组成,具有丰富的面部标志lrs/downloads/aflw/414IJB[67]2015IJB-A/B/C由超过50,000个图像和视频帧组成,用于识别和检测任务。网址:https://www.nist.gov/programs-projects/279[68]第六十八话2016最大的人脸检测数据集。由132,000张图片和394,000张cuhk.edu.hk/projects/WIDERFace/193民主力量联盟[69]2018包含16,000张图片和11,000张面孔。变化包括基于天气的1WildestFaces2018有68,000个视频帧和2,200个镜头的64个战斗名人在uncon-28网址:http://tc11.cvc.uab.es/datasets/SVT 1http://www.iapr-tc11.org/mediawiki/index.php/MSRA文本检测图像.网址:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.htmlcocotext/.和9,200个交通灯实例。网址:http://www.lara.prd.fr/benchmarks/frames,47个美国标志的7,800个实例。 网址:http://cvrr.ucsd.edu/LISA/,在不同的天气条件下捕获1,200个交通标志,共269种类型。每个标志的3D位置已被注释。网址:2048)和128个类的130,000个交通标志实例。每个实例都有注释视频帧和24000个交通灯实例。 https://hci.iwr.uni-heidelberg。概述了一些流行的交通灯检测和交通标志检测数据集。问题。因此,基于机器学习的检测方法开始蓬勃发展。基于机器学习的检测技术经历了多个发展阶段,包括外观统计模型(1998年以前)、小波特征表示(1998-2005)和基于梯度的表示(2005-2012)。建立对象的统计模型,如图5(a)所示的Eigenfaces[95,106],是对象检测历史上基于学习的方法的第一波浪潮。1991年,M. Turk等人在实验室环境中使用特征脸分解实现了实时人脸检测[95]。与当时基于规则或基于模板的方法相比[107,108],统计模型通过学习任务更好地提供了对象外观的整体描述从数据中获取具体知识。自2000年以来,小波特征变换开始主导视觉识别和目标检测。这组方法的本质是通过将图像从像素变换为一组小波系数来学习。在这些方法中,Haar小波由于其高计算效率,主要用于许多对象检测任务,例如一般对象检测[29],人脸检测[10,11,109],行人检测[30,31]等。图5(d)显示了VJ检测器[10,11]针对人脸学习的一组Haar小波基。•早期使用CNN检测物体的历史可以是数据集年描述引用次数ICDAR[71]2003ICDAR 2003是第一个公开的文本检测数据集之一ICDAR 2015530和2017年是ICDAR挑战的其他流行迭代[72,73]。网址:http://rrc.cvc.uab.es/STV[74]2010包含从Google StreetView获取的10350张图像和10720个文本实例339MSRA-TD500[75]2012由500张室内/室外图片组成,配有中文和英文文本。网址:数据库(MSRA-TD 500)413[76]第七十六话2012由来自街道和数字媒体的101,100张图片和105,000个单词组成165[77]第二十七话2014一个包含900万张图像的合成数据集,这些图像是从90,000个多种字体的词汇表中生成的。网址:http://www.robots.ox.ac.uk/246COCOText2016迄今为止最大的文本检测数据集。 基于MS-COCO构建,69[78个国家]163,000张图片和173,000条文本注释。https://bgshih.github.io/表4一些流行的场景文本检测数据集的概述。数据集年描述引用次数[第79话]2009在巴黎被一辆行驶中的汽车捕获包含11,000个视频帧交通灯识别164LISA[80]2012一 的 的 第一 交通 签署 检测 数据集。 组成 的 6,600视频lisa-traffic-sign-dataset.html325GTSDB[81]2013最流行的交通标志检测数据集之一包含10900张图片一天的开始时间。网址:http://benchmark.ini.rub.de/? section=gtsdb&subsection=news259[第82话]2012由17,300张静态图像、120,000张视频帧和11,000张交通标志组成https://btsd.ethz.ch/shareddata/224TT100K[83]2016迄今为止最大的交通标志检测数据集,包含100,000张图像(2048 x带有类标签、边界框和像素掩码。网址:http://cg.cs.tsinghua.edu.cn/traffic%2Dsign/111BSTL[84]2017最大的交通灯检测数据集。包含5000张静态图像,8300张de/node/6132表5219url:http://ai.stanford.edu/搜索/TAS/http://www.ucassdl.cn/resource.asp用于遥感图像中小目标的检测。 url:https://downloads.十个类(例如,飞机、轮船、棒球场、网球场等)。网址:目标(飞机、轮船、油罐)。网址:https://pan.baidu.com/s/1geTwAVDhttps://captain-whu.github.io/DOTA/dataset.html遥感目标60类(0.3m/pixel),覆盖面积1,415km2。网址:http://xviewdataset.org表6一些遥感目标检测数据集的概述。追溯到20世纪90年代[96],Y. LeCun等人在当时做出了巨大贡献。由于计算资源的限制,当时的CNN模型比今天的更小更浅。尽管如此,计算效率仍然被认为是早期基于CNN的检测模型中的难题之一。Y. LeCun等人进行了一系列改进,如通过这种方式,整个图像的任何位置的特征都可以通过只进行一次网络的前向传播来提取。这可以被认为是今天的全卷积网络(FCN)的原型CNN也被应用于其他任务,如人脸检测[112,113]和手部跟踪[114]。2.3.2多尺度检测“不同尺寸”和“不同长宽比”目标的多尺度检测是目标检测的主要技术挑战之一。在过去的20年里,多尺度检测经历了多个历史时期:六、•功能金字塔+滑动窗口(2014年之前)随着VJ检测器之后计算能力的提升,研究者们开始更加关注通过构建“特征金字塔+滑动窗口”的直观检测方式。从2004年到2014年,基于这种检测范式构建了许多里程碑式的检测器,包括HOG检测器,ESTA,甚至深度学习时代的Overfeat检测器[103](ILSVRC- 13本地化任务的获胜者)。像VJ检测器和HOG检测器这样的早期检测模型被专门设计用于检测具有“固定长宽比”的对象(例如,人脸和直立的行人),只是简单地建立特征金字塔,并在其上滑动固定大小的检测窗口。当时没有考虑“各种宽高比”的检测。为了检测具有更复杂外观的对象,如PASCAL VOC中的对象,R。Girshick等人 开始在功能金字塔之外寻求更好的解决方案。“混合模型”[15]是当时最好的解决方案之一,通过训练多个模型来检测具有不同长宽比的除此之外,基于样本的检测[36,115]通过为训练集的每个对象实例(样本)训练单独的模型提供了另一种解决方案。作为现代数据集中的对象(例如,MS-COCO)的应用越来越多样化,混合模型或基于范例的方法不可避免地导致了更繁杂的检测模型。那么一个问题自然出现了:是否有一个统一的多尺度方法来检测不同长宽比的对象?“目标提案”(待提交)的提出数据集年描述引用次数[第85话]2008由来自Google Earth的30张729x636像素的图像和1,300辆汽车组成419OIRDS[86]2009由900幅由机载摄像机拍摄的图像(0.08- 0.3米/像素)和1,800个注释的车辆目标组成。网址:https://sourceforge.net/projects/oirds/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功