基于尺度不变多模态多分辨率滤波特征的快速对象检测解决方案

28 浏览量更新于2023-10-16 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于尺度不变多模态多分辨率滤波特征的罗马尼亚克卢日-纳波卡技术大学图像处理和模式识别研究中心{arthur.costea，robert.varga，sergiu.nedevschi}@cs.utcluj.ro摘要在本文中，我们提出了一种新的基于提升的滑动窗口对象检测解决方案，它可以跟上最先进的深度学习方法的精度，同时速度快10到100倍。该解决方案利用了多感官感知和exploits信息的颜色，运动和深度。我们引入了信号强度、梯度幅度和方向通道的多模态多分辨率滤波为了获得尺度不变的分类特征，我们分析了尺度变化对不同滤波器类型特征的影响为了提高识别率，我们通过生成空间，几何和对称通道来结合2D和3D上下文。最后，我们评估所提出的解决方案的多个基准检测行人，汽车和骑自行车的人。我们实现了竞争力的结果超过每秒25帧。1. 介绍由于智能车辆的快速发展，迫切需要鲁棒且实时的环境感知解决方案，以便实现高级驾驶员辅助或自动驾驶。交通参与者的检测是感知系统的主要任务之一最先进的解决方案的性能越来越接近人类水平的识别[46];然而，结果远未饱和，仍有改进的空间。目前的基准测试主要由深度学习解决方案主导，这些解决方案能够从原始图像数据中自动学习多个抽象级别的图像不幸的是，这些强大的方法带来了很高的计算成本。即使使用高端GPU，最快的顶级深度学习解决方案也难以实现2-3 FPS的处理速度我们的主要目标是提供一个快速的解决方案，可以跟上当前最好的深度学习解决方案。我们还专注于有效的方法来利用额外的信息，如运动和深度。有一些现有的解决方案使用运动[33]，立体声深度[26]或LIDAR数据[21]来改善单声道的检测结果。然而，当前的基准测试主要是使用仅单个单眼图像作为输入的解决方案，并且似乎优于当前的多模态解决方案，或者仅报告了微小的改进[47]。如[3]所述，尚未探讨如何有效利用其他模式在这项工作中，我们将[10]中提出的解决方案视为基线，该解决方案依赖于多分辨率滤波通道特征。它是一种滑动窗口类型的方法，并在LUV+HOG通道上应用快速滤波方案来生成分类特征。我们专注于改进分类功能和探索有效的方法，incor- porate多模态功能。本文的主要贡献是：• 多模式多分辨率通道;• 用于实现尺度不变分类特征的特征校正方案;• 利用2D和3D上下文信息;• 用于检测行人、汽车和骑自行车者的通用框架。2. 相关工作行人检测算法的进步是由于大量和广泛的基准的存在为了在这些数据集上获得更好的结果，每年都在推动边界，这导致了检测方法的快速发展一些最相关的基准是：[18]第二十二章：一个人的世界对于最佳检测方法的全面审查，请读者查阅最近的评论和调查。[3]的综述表明，由于新提出的功能，改进将继续进行。66746675图1. 系统概述。它还建议和评估引入光流，上下文信息和其他补充信息源，以提高检测精度。在[46]中，作者研究了当前方法距离理想的单帧检测器有多远在2015年，最好的方法比人类注释者的错误多十倍，这表明还有改进的空间。特征-方向一致性直方图[12]是为行人检测的特定任务提出的原始特征。Haar型特征[41]与积分图像计算[40]的引入实现了实时检测。利用不同图像通道的Haar特征的推广是下一步，如[17]所示从那时起，大多数方法都依赖于这些类型的功能，但已经提出了创新性的改进：局部去相关滤波器[31];不同棋盘滤波特征模式[47];旋转滤波器[46]。[24，29]等深度学习方法已经达到了最先进的性能。底层图像特征由网络的卷积层自动学习。多尺度-有几种方法可以解决在多个尺度上检测行人的问题。在Dalal和Triggs [12]的原始工作中，分类器模型具有固定的维度，并且输入图像被多次调整大小以检测较小尺度的行人。这有一个明显的计算负担，在几个尺度上重新计算的功能。另一种选择是考虑每个尺度的单独模型，例如[2]的工作。[16]提出的一种混合方法仅在每个倍频程重新计算特征，并在倍频程之间执行近似，以实现更快的特征提取阶段。多模式-[3]的综述建议采用来自互补来源的信息，如颜色、光流、深度和背景，以提高检测性能。曼斯。一些工作集中在利用这些模态和基于运动的建议特征[43] [13] [20];红外图像[27];激光雷达的深度[38][28][19][20] [25][ 27 ][28][29] [29] [29][23]中的工作介绍了在从RGB和深度图融合的多模态信息上训练的多视图分类器密集的深度图是通过从稀疏的3D激光点云插值获得的。作者在[8]中描述了一种方法，该方法通过利用应用于LIDAR鸟瞰图、LIDAR前视图和RGB图像的CNN来利用图像和3D信息多模态信息也可以用于对象pro-bandwidth生成。在[7]中，依靠立体重建获得高质量的3D对象建议。3. 提出的解决方案我们提出了一种新的多模态多分辨率的目标检测方法，引入了多个关键概念，以实现低计算成本的鲁棒检测。该解决方案利用了多感官知觉，并利用颜色，运动和深度的信息。我们引入了信号强度、梯度幅度和方向通道的多模态多分辨率滤波使用多尺度滑动窗口与基于提升的分类器检测对象。我们提出了一种校正方案，以确保即使在低通和高通滤波器的多次迭代后，分类特征的尺度不变性。为了提高鲁棒性，我们通过生成空间、几何和对称通道来引入2D和3D上下文。解决方案概述如图1所示。6676图2. 多模式通道-从上到下：彩色图像及其梯度大小;时间差;三维点云深度;立体深度图;上述通道的梯度大小3.1. 多模态检测多模态数据可以作为上下文和局部结构的来源来进行对象检测。我们为每个模态创建一个密集的强度图像，并使用它们来生成强度，梯度幅度和方向通道。在图2中，我们展示了不同模态的梯度幅度，可以看出，每种模态突出显示不同的边缘类型。提升分类器可以学习从不同模态中选择和组合相关特征。我们考虑用于多模态检测的三种类型的输入：色彩、运动和深度。颜色-我们依赖于LUV颜色变换，在[17]中被证明是最有效的行人检测方法运动-捕捉运动的一种简单方法是计算两个连续帧之间的差异。通过使用粗光流对齐前一帧，实现了基于运动的检测的显著改进[33]。通过这种方式，时间差异能够捕获相对运动，并且可以是强大的，特别是对于有关节的对象类型。深度-深度可以使用快速立体重建解决方案（如rSGM [37]）从立体图像对实时恢复，或直接从可用的3D LIDAR点云恢复。在这两种情况下，我们使用插值的区域没有3D测量，以实现密集的representation。在立体图像的情况下，我们有更密集的重建，但精度随着距离相机。在3D点云的情况下，使用来自非常低数量的测量（0.01密度）的倒数距离加权来内插深度，并且最大高度被限制在约2米。与立体重建相比，测量的精度更高，并且不随距离而降低它也独立于图像质量和照明条件。3.2. 多模态多分辨率滤波通道对于每个先前描述的强度输入，我们计算归一化的梯度幅度和6个方向的幅度，导致总共10个颜色通道和8个运动和深度通道为了在多个尺度和多个方向上捕获多模态边缘，我们应用快速多分辨率滤波方案[10]。多次迭代使用3×3箱形滤波器来生成平滑图像在多个尺度上。垂直和水平的差异是applied在每个规模额外的高通滤波。由于功能的简单性，在GPU上每个VGA分辨率图像的计算时间不到3 ms我们选择从[10]中删除聚合步骤，以提高滤波通道的分辨率。3.3. 实现多尺度检测的尺度不变性多尺度检测的一种快速解决方案是使用单个图像尺度，从而导致非常快速的特征计算，并在多个尺度上应用滑动窗口这是在[10]中使用单个灵活的分类模型实现的，该模型可用于多个滑动窗口的分类。鳞片使用来自过滤通道的20×10个样本的网格对检测窗口的分类特征进行采样，并使网格适应窗口大小。由于使用单一的图像特征尺度和单一的分类，分类特征的尺度不变性丧失了适用于所有行人比例的Fier模型。为分类特征提供尺度不变性应进一步增加检测鲁棒性。我们定义比率函数（或校正因子），分类特征f为：在尺度s处提取的特征值除以在原始尺度处的特征值。重要的是要注意，由于重新缩放，同一分类特征的位置会随着尺度的变化而变化，导致：6677rf（s）=f（s，x，y）/f（1，x/s，y/s）（1）我们的目标是在任何尺度下提取分类特征，只使用原始尺度下计算的原始图像特征。为此，我们需要一个函数rf（s）的模型，使我们能够写出：1.021.0151.011.0051Lorigorig-fits1s1-拟合s2s2-fits3s3-fits4s4-fits5s5-fit1.61.51.41.31.21.11origorig-fit s1s1-拟合s2s2-fits3s3-fits4s4-fits5s5-fitL dxf（s，x，y）=rf（s）·f（1，x/s，y/s）（2）我们将确定不同特征类型的比率函数的形式。作为基线特征类型，我们有颜色，梯度幅度和梯度方向箱。基线特征可以使用平滑低通滤波器或一阶差分滤波器（水平或垂直）来滤波，从而产生附加特征类型。在第一部分中，我们忽略了离散化误差和伪影，将图像看作是一个连续信号，从理论上确定了比值函数的在第二部分中，我们从加州理工学院的数据集收集数据，并进行线性拟合，以经验地找到比率函数的形式。理论估计-在下文中，我们估计来自s倍大/小边界框的分类特征与来自原始边界框的分类特征之间的理论比率。边界框请注意，边界框表示不同大小的同一对象。颜色特征不1.51.41.31.21.111.61.51.41.31.21.110 0.2 0.4 0.6 0.81规模格拉德马格origorig-fit s1s1-拟合s2s2-fits3s3-fits4s4-fits5s5-fit0 0.2 0.4 0.6 0.81规模ori2origorig-fit s1s1-拟合s2s2-fits3s3-fits4s4-fits5s5-fit0 0.2 0.4 0.6 0.81规模1.71.61.51.41.31.21.111.71.61.51.41.31.21.110 0.2 0.4 0.6 0.81规模GradmagDXorigorig-fit s1s1-拟合s2s2-fits3s3-fits4s4-fits5s5-fit0 0.2 0.4 0.6 0.81规模ori2 dxorigorig-fit s1s1-拟合s2s2-fits3s3-fits4s4-fits5s5-fit0 0.2 0.4 0.6 0.81规模由于标度不变性而随标度变化：Is（x，y）=I（x/s，y/s）（3）其中Is表示比例为s的图像，I表示原始比例的图像。这表明对于颜色特征，rI（s）=1对于梯度幅值，我们有rM（s）=s−1，因为：1Ms（x，y）=sM（x/s，y/s）（4）该因子还被传输到梯度方向箱特征，因为这些特征与梯度幅度成比例在平滑操作的情况下，校正因子不改变。应用对颜色的导数表明rIdx（s）=s−1，因为：图3. 不同要素类型的比例校正因子。的因子表示尺度S处的特征值与原始尺度处的特征值之间的比率。这些图在x轴上示出了尺度−log2（s）（0-原始尺度; 1-通过因子2），y轴上为比率函数r（-log2（s）），不同的特征类型。左：L通道、梯度幅度和第二梯度方向仓通道。右：与水平导数滤波器相同的通道。图中的不同线绘制了原始通道和5个迭代平滑通道的行为，即Sx表示平滑滤波器的数量x其中f（s）是在2s的下采样之后的特征，并且f（0）是原始尺度下的特征。根据先前的模型，log（f（s）/f（0））的线性拟合确定a和λ。注意，我们近似了逐点特征的比率函数，而在[16]中，∂1Is（x，y）=∂ I（x/s，y/s）（5）各地区都在考虑。要获得与以下项兼容的图形，请执行以下操作：在他们的工作中，我们需要将f（s）绘制为s的函数，x22sf（0）的衍生物超过梯度幅度导致因为矩形区域上的和引入了rMdx（s）=s−2。（2s）2个任期。比比比比比比6678经验估计-为了根据经验估计校正因子，我们从Cal-tech数据集中提取多个尺度的特征。我们遵循[16]中描述的协议，使用比率函数近似每个特征类型：f（s）=ae−λsf（0）=exp（log（a）−λs）f（0）（6）图3显示了表示平均值的数据点比率和6个代表性特征类型的线性拟合对于值s ∈ [0]，我们用−log2（s）来绘制比率函数。5，1]（一个八度）。这用于线性拟合，r（s）可通过变量变化获得。图表显示：对于颜色通道，在调整大小操作之后，特征保留其值，正如理论模型预测的那样：r I（s）= 1;偏导数操作，6679.不符合理论模型：r Idx（s）=s−0。585（在收缩因子为2时，它约为1.5而不是2）;平滑操作进一步降低指数;方向特征的第一次平滑操作表现不同（参见orig到s1和s1到s2之间的变化）。在理论上和经验上确定了校正因子之后，我们可以将它们用于尺度校正。由于随着尺度的变化，近似的准确性降低，我们重新计算每个倍频程的图像特征，并仅将近似用于中间尺度，如[16]所示。3.4. 上下文通道行人和车辆受到空间和几何约束的限制。在下文中，我们定义这样的约束，并将它们作为多分辨率过滤通道旁边的上下文通道通过这种方式，我们可以使提升分类器能够学习行人或其他对象类型的上下文3.4.1二维上下文从车载摄像机捕获的交通场景图像往往具有稳定的空间布局。行人在二维图像中的位置和布局受摄像机参数的约束，并受三维尺寸和三维位置的约束。物体可以出现在任何地方，但我们只关注那些站在地平面上的物体。一些方法学习了2D图像中不同对象类型的空间分布，并将其作为语义分割的空间优先级[14，36]。我们使用空间通道（最初用于分割[9]）而不是使用恒定的先验，这使得提升分类器能够学习垂直和水平位置的约束作为分类特征。过滤后的通道被扩展为3个额外的通道，包括垂直，水平和垂直-水平通道。这些通道的值从0到1，代表2D图像每个位置的标准化垂直和水平位置（见图4）。所采用的提升分类器可以通过简单地学习来自这些2D空间通道的通道特征上的阈值来学习滑动窗口我们还介绍了对称通道，捕捉垂直边缘对称在多个范围。例如，较短的范围捕获腿或头部，而较长的范围捕获整个躯干。我们以对称成本的形式为每个范围定义一个单独的通道：图4. 2D上下文通道-从左上角开始：输入;水平;垂直; S6对称;S12对称; S6+S12对称通道。其中Dx是沿x轴的偏导数，r是对称范围。在我们的实验中，我们使用像素范围r∈ {6，12，18，24}。我们还生成一个通道，该通道是所有这些对称通道的总和，以获得范围独立通道（图4）在倍频程水平。这些通道的计算需要不到1毫秒的GPU上。3.4.23D场境使用来自立体声或LIDAR的3D信息，可以了解交通参与者的3D背景。我们将图像分割成16000个超像素，平均大小约为100个像素，并为远处的行人捕获身体部位。我们在GPU上实现了一个近似的SLIC [1]分割，对于0.5 MP图像，运行时间小于2 ms。我们使用混合中值滤波来计算每个超像素的3D位置，并为X、Y和Z坐标生成归一化的3D空间上下文通道。例如，Y通道代表每个像素位置的地面以上高度。为了更好的鲁棒性，我们使用基于快速RANSAC的方法来估计道路平面我们还通过标记在地面以上最多20 cm的高度处的所有图像点来生成地面的二进制通道对于几何上下文通道，我们建议使用一个简单但非常快速的3D聚类方法。对于分组，我们使用超像素级区域生长，并且作为分组标准，我们在来自LIDAR的深度的情况下使用0.5米的绝对阈值，并且在来自立体的深度的情况下使用2.5%的相对阈值我们忽略了属于地面的超像素。最后，我们确定每个组的高度、宽度和面积，并保存为每个组的每个像素的归一化值，从而得到几何上下文通道。这些渠道，阿尔布费拉D（x−i，y）−D（x+i，y）2能够分类器学习对象的几何约束，Sr（x，y）=i=r/2X xDx（x−i，y）+Dx（x+i，y）（七）学习通道值上的数值阈值。这些通道如图5所示。6680图5.3D上下文通道-从左上角开始：颜色;投影3D点云; X; Y; Z;地平面;对象高度和宽度4. 检测多种对象类型在行人的情况下，我们选择一个固定的长宽比的单一检测器。为了处理具有高度可变的长宽比的对象类型，我们对不同的长宽比范围使用不同的一种简单的解决方案是将正样本集分成相等的部分，并使用具有固定纵横比的检测窗口，该固定纵横比最大化子集的交集与并集重叠标准。在汽车的情况下，85%的最小重叠（70%要求在评估）可以实现所有的长宽比使用只有5个固定的长宽比。基于外观和方向划分数据集[25，32]可以提供更好的结果，但是它会增加分类检测时的计算成本，并且最好使用最少数量的检测器。训练协议-对于滑动窗口分类，我们使用5级决策树作为弱学习器来训练Adaboost分类器我们使用NrP（阳性样本数）和NrP随机阴性样本训练初始分类器然后，我们使用多个自举循环，以便迭代地生成NrP个额外的硬否定，直到硬否定计数低于NrP。对于前4个分类器，我们分别使用了256、512、1024和2048个弱学习器，而对于其余的轮次，我们使用了4096个弱学习器。为了更好地推广，如[25]中所建议的，通过收缩因子来调整增强算法的学习速率。为了加速训练并进一步减少过拟合，我们为每个特征选择考虑仅1%的分类特征的随机子集为了加速预测，我们使用软cas-cading，其中可变拒绝阈值从1开始下降，在训练时每个弱学习者[15]之后的步长为0.01，在测试时为0.02。这与在训练期间将拒绝阈值固定在-1的trans-mitting方法形成对比。我们应用它以生成更多的硬负样本。5. 实验结果为了评估所提出的解决方案的性能，并将其与当前的最新技术水平进行比较，我们在交通环境的背景下对多个检测基准进行了评估。我们考虑加州理工学院-美国数据集[18]用于行人检测，KITTI对象[22]用于行人和汽车，Tsinghua-Daimler数据集[30]用于自行车。在下文中，我们将当前的方法描述为MM-MRFC，其代表多模式多分辨率滤波通道。5.1. 加州理工步行者我们提供了加州理工学院数据集上的结果，使用标准训练集和10倍大的扩展训练集。我们使用标准数据集分析解决方案的每个组件提供的改进，并使用扩展集与其他解决方案进行比较。在这两种情况下，我们评估了合理测试设置的[10- 2，100]在表1中，我们展示了所提出的解决方案的增量改进理论上和经验上近似的尺度校正方案都提供了显著的性能增益。在所有进一步的实验中，我们使用理论尺度校正因子，因为它们简单并且与经验尺度校正因子相比具有相似的性能在添加尺度校正和2D上下文通道之后，实现了18.26%的MR，这是目前报告的使用标准训练集和仅使用颜色信息进行训练的最低未命中率。通过SDt [33]运动通道特征和在SDt运动通道上应用多分辨率滤波来获得进一步的改进。在图6中，我们使用合理的设置与加州理工学院基准测试的最新技术水平进行了比较。所提出的解决方案实现了12.31%的MR，6681通道类型Caltech MR- 合理─彩色MRFC no SC 24.46MRFC E-SC 22.69MRFC T-SC 22.84+ 2D空间20.80+ 2D对称18.26运动+SDt 17.29+ MM-MRFC 16.11.40.30.20.10.05表1.使用不同尺度校正方案和多模态特征通道类型的加州理工学院测试集的结果比例尺校正：无SC-无比例校正; E-SC-有经验校正因子;具有理论校正因子的T-SC。−3 −2 −1 0 110 10 10 10 10每个图像的图6. 与加州理工学院-美国行人基准的最新技术水平进行比较（合理的测试设置）。图7. 加州理工学院的测试结果。平均未命中率（MR）与多种方法的执行时间（FPS）的关系。FPS上限为50，以便更好地可视化（FastCF [11]为105 FPS，Multiresolution [10]为60 FPS）。比以前最好的基于增强的解决方案（纸板+ [47]）提高了5%。它还可以与性能最好的基于深度学习的解决方案（所有方法的MR都低于17%）进行重要的是要强调，我们的检测器能够在GPU上以30 FPS运行，在具有 Intel i7 3.0 GHzCPU 和 Nvidia GeForce GTX 980 TiGPU的系统上，单个图像的平均执行时间为32 ms。在图7中，我们提供了一个基于MR和帧速率（FPS）的比较，所有解决方案都报告了它们的执行时间。5.2. KITTI对象为了在KITTI基准[22]上评估行人和汽车的检测通过计算召回率的平均精度（AP）来衡量对象检测性能表2. 使用不同特征通道类型的KITTI验证集的结果。性能以AP（%）为单位进行测量，适用于简单、中等和困难的测试设置。除MRFC无SC外，所有特征设置均采用特征比例校正。最好的结果是使用颜色，LIDAR的深度和运动来实现的。范围为[0，1]。为了验证所提出的特征，我们使用[7]中的验证/训练分割来评估验证集的性能。在表2中，我们显示了所提出的功能的增量改进。每项建议都增加了AP值，证明了新功能通道的有用性。与其他方法相比，测试集的结果见表3。我们提出的结果为pedes- trians和汽车。因为自行车类的训练样本数量很少，我们在另一个数据集上评估这个对象类（见下一小节）。可以看出，以显著更低的计算成本为两个对象类实现了竞争性性能行人检测运行在25FPS和汽车检测在20 FPS。所提出的解决方案在多模态或基于增强的解决方案中实现了最高的AP，并且与性能最好的基于深度学习的解决方案相当22%空间池+22% SCCPriors21% TA−CNN19% CCF18%纸板17%国家合作框架+现金框架17%纸板+12%我们的−MM−MRFC12% DeepParts12%紧凑-深10% MS−CNN10% RPN+BF未命中率上下文类型容易KITTI AP中等硬度颜色MRFC no SC62.8459.9851.10MRFC67.1461.4552.76+ 2D空间69.5863.8354.83+ 二维对称70.2864.7555.663D立体+ 3D空间77.8870.3060.63+ 3D几何77.9770.6161.47+ MRFC82.5374.8265.953D激光雷达+ 3D空间77.8870.9361.91+ 3D几何79.9272.4863.13+ MRFC84.2676.3467.18运动+MRFC85.2577.7268.286682方法输入时间容易汽车中度硬容易行人中度硬[34]第三十四话C DL30sCPU---59.5146.6742.05ACF [15]C1sCPU---60.1147.2942.90[19]第十九话C DL1.5sCPU76.7968.2463.2368.3955.3752.59MV-RGBD-RF [23]C DL4sGPU---73.3056.5949.63[47]第四十七话C2sCPU---67.6556.7551.12DeepParts [39]C1sGPU---70.4958.6752.78CompACT-Deep [5]C1sGPU---70.6958.7452.71Regionlets [42]C1sCPU84.7576.4559.7073.1461.1555.21[35]第三十五话C2sGPU86.7181.8471.1278.8665.9061.18Mono 3D [6]C4.2sGPU92.3388.6678.9680.3566.6863.443DOP [7]C DS3sGPU93.0488.6479.1081.7867.4764.70SDP+RPN [44]C0.4sGPU90.1488.8578.3880.0970.1664.82美国有线电视新闻网[4]C0.4sGPU90.0389.0276.1183.9273.7068.31MM-MRFCC DL F0.05sGPU90.6388.4578.3282.1870.0264.74表3.与KITTI对象基准（测试集）上的最新技术进行比较。对于每种方法，我们报告输入模态（C -颜色; DS -立体声深度; DL -来自LIDAR的深度，F -流），执行时间（CPU或GPU）和平均精度（%）的汽车和行人在容易，中等和困难的测试设置。5.3. 清华戴姆勒自行车Tsinghua-Daimler基准[30]是评估骑自行车者检测的理想基准，考虑到它在超过30000个图像中包含22161个注释的骑自行车者实例。这些都记录在北京的城市交通中。该数据集还为每个图像帧提供3D立体数据。评估方案与KITTI检测基准相同。目前，只有高度至少为60像素的骑自行车者在训练数据集中被注释，即使测试集完全标记有高度大于20像素的骑自行车者。因此，我们选择仅针对身高为2048×1024像素图像中至少60个像素（易于测试设置）。在[30]中评估了多种方法，例如：基于增强的解决方案（ACF，LDCF）;具有不同对象建议（选择性搜索，边缘框，立体声建议）和架构（VGG，ZF）的深度学习方法;可变形零件模型（EMT）。我们训练三个检测器用于窄，中间和宽骑自行车的人，类似于[30]中的其他滑动窗口方法。表4提供了Easy Ignore和EasyDiscard测试设置的AP比较。在第一种情况下，忽略其他类似类别（例如行人或其他骑手）的错误检测。之前的最佳性能是通过DPM-bboxpred [30]实现的，依赖于可变形零件模型和来自立体的对象建议。我们提出的解决方案在忽略情况下实现了AP的轻微改善，在丢弃情况下实现了5%的显著改善，在25 FPS的基准上实现了最高的报告AP方法容易忽略轻松丢弃SS-FRCN-VGG76.763.8EB-FRCN-VGG83.872.6SP-FRCN-VGG87.278.6DPM89.481.6国家基金89.876.2ACF89.877.8DPM-bboxpred90.582.3MM-MRFC90.787.1表4.基于清华-戴姆勒自行车基准的平均精度（%）与最新技术水平进行比较。6. 结论在本文中，我们介绍了一个对象检测系统，依赖于几个创新的建议。首先，它利用来自多个复杂模态的信息：颜色、深度和运动。其次，它依赖于多分辨率滤波通道来构建用于检测的鉴别特征。第三，它采用了基于理论和实验考虑的尺度校正方案。第四，提出了几种情境特征通道，如：2D上下文、对称通道、3D上下文、3D几何通道。多个基准测试的实验结果表明，该方法实现了最佳性能，同时比竞争对手快10到100倍它还表明，尽管深度学习方法可能在该领域占据主导地位，但传统的滑动窗口方法可以提供低成本的替代方案，同时具有竞争力。谢谢。这项工作得到了欧盟H2020项目UP-Drive的支持。688652。6683引用[1] R. Achanta、A.Shaji，K.史密斯，A.Lucchi，P.Fua，和S. 很好切片超像素与最先进的超像素方法的比较在PAMI，2012年。5[2] R. Benenson，M.马蒂亚斯河Timofte和L.范古尔每秒100帧的行人检测。CVPR，2012。2[3] R. Benenson，M. Omran，J. Hosang，and B.席勒行人检测十年，我们学到了什么？2014年，在ECCV。一、二[4] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV，2016年。8[5] Z.蔡，M. Saberian和N.瓦斯康塞洛斯学习复杂性感知级联用于深度行人检测。在ICCV，2015年。8[6] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在CVPR，2016年。8[7] X. Chen ， K.Kundu ， Y.Zhu ，中国茶青冈 A.G.Berneshawi，H.马，S.Fi-dler和R.乌塔松用于精确对象类别检测的3D对象建议。2015年，在NIPS中。二七八[8] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。2[9] A. D. Costea和S.内德维奇使用多分辨率滤波和空间上下文通道的多范围特征的快速交通场景分割InIV，2016. 5[10] A. D. Costea和S.内德维奇用于快速行人检测的语义通道。在CVPR，2016年。一、三、七[11] A. D. Costea，A. V. Vesa和S.内德维奇移动设备的快速行人ITSC，2015年。7[12] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。一、二[13] N.达拉尔湾Triggs和C.施密特使用流量和外观的定向直方图进行在ECCV，2006年。2[14] S. Di，H.Zhang，X.Mei，D.Prokhorov和H.凌非参数道路场景解析的空间先验。ITSC，2015年。5[15] P. 多尔河Appel，S. Belongie和P. 佩洛娜用于对象检测的最后特征金字塔。InPAMI，2014. 六、八[16] P. 多尔，S。 Belongie和P. 佩洛娜西部最快的行人在BMVC，2010年。二、四、五[17] P. 多拉尔，Z。 Tu，P. Perona和S. 贝隆吉集成通道功能。在BMVC，2009年。二、三[18] P.Dollar角沃杰克湾Schiele和P.佩洛娜行人检测：对最新技术水平的评价。在PAMI，2012年。1、6[19] M. Engelcke，D.拉奥，D.Z. Wang，C.H. 唐和我。波斯纳Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测在arXiv：1609.06666，2016。二、八[20] M. Enzweiler和D. M.加夫里拉行人分类的多级专家混合框架。在TIP，2011年。2[21] A.埃斯湾Leibe，K. Schindler和L.范古尔从移动平台进行强大的多人跟踪在PAMI，2009年。1[22] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012。一、六、七[23] A. Gon za'lez，D. V a'zquez，A. M. Lo'pez和J. 爱情机载物体检测：多通道、多模式、多视角的随机森林本地专家.在IEEE transactions on Cy-bernetics，2016年。二、八[24] J. Hosang，M.奥姆兰河Benenson和B.席勒仔细观察行人。CVPR，2015。2[25] Q. Hu，S.派西特克良格赖角Shen，中国古猿A. van denHengel，以及F. 波里克利使用通用检测框架快速检测交通场景中的多个目标在山雀，2016年。6[26] C. G. 凯勒，M。恩茨韦勒，M.Rohrbach，D.F. 洛卡，C. Schnorr和D. M.加夫里拉密集立体声对行人检测的好处。《山雀》，2011年。1[27] S. Krotosky和M. M.特里维迪彩色，红外线和多模态立体声行人检测方法。《山雀》，2007年。2[28] B. Li，T. Zhang和T.夏使用全卷积网络的3d激光雷达车辆检测。在RSS，2016. 2[29] J. Li，X.Liang，S.沈，T.Xu和S.燕. 用于行人检测的尺度感知快速r-cnn载于arXiv：1510.08160，2015。2[30] X. Li，F.Flohr，Y.Yang，H.Xiong，M.Braun，S.潘，K.Li和D. M.加夫里拉基于视觉的循环检测的新基准。InIV，2016. 六、八[31] W. Nam，P. Dol la'r和J. H. 韩改进行人检测的局部去相关在NIPS，2014。2[32] E. On-Bar和M. M.特里维迪学习通过聚类外观模式来检测车辆。在山雀，2015年。6[33] D. 帕克角L. Zitnick，D. Ramanan和P. 多尔拉。运动特征提取的弱稳定性研究。CVPR，2013。一、三、六[34] C. Premebida，J. Carreira，J.巴蒂斯塔和U.努内斯结合rgb和密集激光雷达数据的pedes-trian检测。InIROS，2014.二、八[35] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年，在NIPS中。8[36] T. Scharw aüchter和U. 弗兰·凯。颜色、纹理和深度的低水平融合，用于鲁棒的道路场景理解。2015年第四5[37] R. Spangenberg，T.兰纳，S。Adfeldt和R.罗哈斯基于cpu的大规模半全局匹配。2014年第四期。3[38] L.斯皮内洛河Triebel和R.西格沃特城市环境中的多类多模态检测与跟踪。载于《国际司法审查报告》，2010年。2[39] Y. 田，P.Luo，X.Wang和X.唐用于行人检测的深度学习强在ICCV，2015年。8[40] P. Viola和M.琼斯使用简单特征的增强级联快速目标检测载于CVPR，2001年。2[41] P.Viola和M. J·琼斯鲁棒的实时人脸检测。在IJCV，2004年。26684[42] X. Wang，M.Yang，S.Zhu和Y.是林书用于通用对象检测的区域小块InICCV，2013. 86685[43] C. Wojek，S.步行，B。席勒多线索机载pedes-trian检测。CVPR，2009。2[44] F. 杨，W.Choi和Y.是林书利用所有层：快速准确的cnn对象检测器，具有尺度相关池和级联拒绝分类器。在CVPR，2016年。8[45] 耶贝斯湖M. Bergasa和M.加里多城市场景中具有3d感知特征的视觉目标识别。在传感器，2015年。2[46] S. 张先生， R. 本纳森， M. 奥姆兰， J. Hosang，B.席勒我们离解决行人检测问题还有多远？在CVPR，2016年。一、二[47] S.张河，巴西-地Benenson和B.席勒用于行人检测的过滤通道特征。CVPR，2015。一、二、七、八

下载后可阅读完整内容，剩余1页未读，立即下载