H. Xu,X.Lv、X。Wang,Z.Ren,N.Bodla和R.Chellappa
–
我们提出了对象检测基准数据集上的实证结果,证明了优于最先
进的性能。
2
相关工作
已经提出了许多用于对象检测的方法,包括传统方法[13,45,42]和基于
深度学习的方法[17,37,28,35,8,16,19,19,19,19,19,19,19,
19,19,19,19,19,19,19,19,19,19,19,19,19,19,19,19,
19,19,19,19,19,19,19,19,19,19,19,19,19,19,19,19,
19,19,19,19,19,19,19,19,19,19,19,19,19,19,19,19,
19,19,19,19,19,19,19,19,19,19,19,19,19
9、32、6、21、51、52、50、48、43、41]。传统的方法主要使用手工
制作的功能来训练使用滑动窗口范例的对象检测器最早的作品之一[42]
使用增强级联检测器进行人脸检测,这导致了其广泛采用。基于可变
形零件模型的检测(DPM)[12]提出了可变形零件模型的概念来处理
对象变形。由于深度学习技术的快速发展[24,20,40,5,49,34,
47,2,46],基于深度学习的检测器已成为主要的对象检测器。基于
深度学习的检测器可以进一步分类为单阶段检测器和两阶段检测器,
基于检测器是否具有提议驱动机制。单级检测器[38,35,28,14,
25,26,48,50]在对象位置、尺度和纵横比上应用规则的密集采样窗
口。通过直接利用深度CNN网络中的多个层,单级检测器实现了高
速,但其准确性通常较低
与两级检测器相比。
两级检测器[17,37,8]涉及两个步骤。他们首先通过区域建议网
络(RPN)生成一在通过RPN过滤掉大部分负背景框之后,第二阶段
对检测边界框的建议进行分类,并执行边界框回归以预测对象类别及
其对应位置。两级检测器始终实现比单级检测器更高的精度,并且已
经提出了许多扩展[9,32,18,6,41,21,7]。我们的方法遵循两阶
段的检测器架构,利用RPN,而不需要密集的采样对象的位置,尺度
和纵横比。
3
我们的方法
在本节中,我们首先回顾了传统的基于区域的检测方法,然后介绍了
端到端可训练深度区域方法的总体设计。最后,我们详细讨论了所提
出的端到端的深度regionlet方法中的每个模块。
3.1
传统的基于区域的方法
regionlet
是以任意分辨率(即,窗口)与窗口(即,滑动窗口或检测
边界框)
成比例地定义的基本特征提取区域。
尺寸和纵横比)。
Wang
等人
[
45]第一次 提出了