基于位置感知可变形卷积和后向注意滤波的多尺度目标检测方法

35 浏览量更新于2023-10-18 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9452基于位置感知可变形卷积和后向注意滤波的陈章伊利诺伊理工学院美国芝加哥czhang57@hawk.iit.edu金珠熙伊利诺伊理工学院美国芝加哥joohee@ece.iit.edu摘要在复杂的街道场景中，由于目标尺度变化大，背景杂乱，背景信息和高分辨率特征是多尺度目标检测取得良好性能的关键。然而，上下文信息通常是不均匀分布的，并且高分辨率特征图还包含分散注意力的低级特征。在本文中，我们提出了一个位置感知的变形卷积和向后注意滤波，以提高检测性能。位置感知的可变形卷积通过从信息上下文存在的地方采样输入来提取不均匀分布的上下文特征。与原始的可变形卷积不同，所提出的方法在每个输入采样网格位置上应用单独的卷积层，以获得宽且唯一的感受野，从而获得更好的偏移估计。同时，后向注意力过滤模块利用深层语义特征，突出信息特征，抑制干扰特征，对高分辨率特征图进行过滤。在KITTI目标检测和PASCALVOC 2007数据集上进行了广泛的实验。所提出的方法比Faster R-CNN基线平均提高了6%的性能，并且在KITTI排行榜上具有最快的处理速度。1. 介绍基于视觉的目标检测一直是计算机视觉领域最活跃的研究领域之一。对于诸如自动驾驶的应用，需要准确的实时多类别对象检测来了解驾驶情况并避免碰撞其他交通参与者。传统的目标检测系统依赖于手工特征提取和基于机器学习的分类，图1.（a）更快的R-CNN和（b）我们在KITTI对象检测数据集上提出的方法之间的比较不同的框颜色表示不同的对象类别。我们的方法成功地完全检测到行人后面的骑自行车的人，以及两辆小型汽车，这是Faster R-CNN无法检测到的。第最近，基于深度卷积神经网络（CNN）[1]的对象检测器在专注于驾驶场景的KITTI [2]等基准测试中表现出巨大的一个典型的驾驶场景如图1所示，它是由车载摄像头拍摄的。在驾驶场景中应该准确检测的三个主要对象是行人、骑自行车的人和汽车。这些交通参与者一直与自动驾驶汽车互动，必须实时检测这些交通参与者的多类目标检测是具有挑战性的，因为他们有不同的距离相机，这导致高尺度变化。此外，行人、骑自行车的人和汽车相互频繁地相互作用，因此，相当多的情况下会发生遮挡。此外，现代城市中的街道场景包含具有各种视觉属性的杂乱背景，这使得对象检测更加困难。根据以前的研究[3] [4] [5]，上下文信息-9453信息和高分辨率特征对于在复杂场景下检测多尺度目标是至关重要的。提取上下文特征的最常见解决方案是增加感受野，以便卷积层可以看到更大的区域[6]。然而，据观察，上下文信息的分布是不均匀的和不固定的。为了捕获上下文信息，不仅需要大的接收场，而且期望输入的自适应几何标准卷积具有固定的输入采样网格，其不灵活以处理上下文分布的高度变化。变形卷积[7]通过引入一组偏移来移动每个输入样本的位置，打破了标准卷积的固定几何结构，这使得它成为自适应提取上下文特征的良好方法成功检测的另一个重要方面然而，在浅层CNN层中发现的高分辨率特征在街道场景中是混乱和分散注意力的。为了保持检测器聚焦在目标上，期望突出信息特征，同时抑制分散注意力的特征。一个很好的解决方案是使用具有高级别语义特征的深度卷积层作为注意力图，以过滤从浅卷积层生成的高分辨率特征图。在本文中，我们提出了一个位置感知的可变形卷积和向后注意滤波，以提高检测性能。贡献可描述如下：（1）我们提出了一种位置感知的可变形卷积来提取不具有固定几何分布的上下文特征。所提出的可变形卷积所表现出的上下文特征(2)我们提出了一个后向注意过滤模块，利用更深层的特征来过滤更浅层的特征图。过滤后的特征图使信息特征在分类和边界框回归中脱颖而出，也使区域建议网络（RPN）更容易生成合理的ROI。从而减少了所需的感兴趣区域的数量，提高了检测速度（3）将位置感知的变形卷积和后向注意过滤模块结合起来，构建了一个前后向目标检测网络。所提出的检测网络在KITTI和PASCAL VOC数据集上以最短的运行时间实现了多类对象检测的最佳性能。2. 相关作品2.1. 用于目标检测的卷积神经网络近年来，基于深度学习的对象检测器已经显示出比传统方法显著提高的性能传统手工制作的模型[8] [9]。基于区域的卷积神经网络（R-CNN）在[10]中提出用于对象检测任务，Fast R-CNN [11]以更快的速度对其进行了改进。更快的R-CNN [12]用RPN取代了传统的基于非CNN的ROI生成方案，构建了一个两阶段的对象检测器，它首先使用RPN生成 ROI，然后对每个ROI执行2.2. 上下文信息在多路径网络[3]中，每个ROI使用四个视场来捕获对象周围不同级别的通过增加ROI的填充率，使得实际池化区域大于对象提案本身，MS-CNN [13]可以利用上下文信息进行对象检测。使用递归神经网络（RNN）是提取上下文信息的另一种方法。在[5]中，应用四方向IRNN [14]从四个方向收集上下文信息。滚动递归网络（RRN）[4]以滚动的方式探索来自不同卷积层的上下文信息。2.3. 可变形模型可变形零件模型（Deformable Part Model，缩写为DEEP）[15]是一种广泛使用的基于零件的方法，用于高度可变的物体检测。后来，它在[16]中被公式化为CNN空间变换网络（Spatial transform networks，缩写为STN）[17]引入了空间Transformer来扭曲特征图。在[18]中提出了主动卷积单元（ACU），通过反向传播来学习卷积的形状，从而实现卷积的泛化。文[7]提出了可变形卷积，以突破标准卷积中固定几何结构的限制可变形卷积的特征在于卷积层，其估计到规则网格采样位置的2D偏移，并且基于偏移来调整采样位置以实现空间自适应卷积操作。2.4. 多尺度目标检测在MS-CNN [13]中，RPN有多个分支用于检测不同尺度的对象。在内外网[5]和多路径网络[3]中，在多个卷积层上执行跳过池化，以获得用于小对象检测的高分辨率特征，如[19]中的多级特征。在SSD [20]中，通过在具有不同分辨率级别的特征图上分配不同的检测卷积层来实现在尺度相关池化（SDP）网络[21]中，针对特定对象尺度的ROI池化、分类和边界框回归在具有最适合检测的分辨率和抽象水平的卷积特征图上执行9454图2.建议网络的总体架构。在前向传递期间，输入图像被馈送到基于VGG-16的前馈网络中以生成特征图。使用位置感知的可变形CNN嵌入上下文特征在获得Conv6层之后，向后通过应用所提出的向后注意力过滤来从深层到浅层过滤特征映射。ROI由区域建议网络生成，并在三个过滤后的特征图上为每个ROI进行ROI池化。将合并的特征送入分类和边界框回归子网络以获得检测结果。2.5. 注意机制注意机制已被应用于许多计算机视觉任务中。在[22]中提出了多样化视觉注意力网络（DVAN），以搜索具有高注意力值的区域并放大图像以进行细粒度的对象分类。在[23]中，弱语义分割被用作注意力图，以正则化行人检测的特征图。在RON [24]中，生成对象图并将其用作注意力图以抑制属于背景区域的特征。[25]中提出了纵横比注意力银行和子区域注意力银行，以细化每个ROI的合并特征。残差注意力网络在[26]中被提出用于图像分类。[26]中产生的注意力图是空间和通道方面的，这意味着不同位置和通道上的特征被不同地过滤。3. 该方法3.1. 概述所提出的方法可以应用于不同的骨干网络，例如VGG [27]，ResNet [28]，Mo- bileNet [29]，GoogleNet[30]和Inception ResNet [31]。在这里，我们使用VGG-16作为示例来描述如图2所示的总体架构。该网络由三个主要部分组成：前向传递、后向传递和对象检测子网络。在向前传递期间，输入图像被馈送到包括14个卷积层的骨干网络中。三个上下文嵌入模块被插入到Conv3 3、Conv4 3和Conv5 3之前。在这些模块中，由所提出的位置感知可变形卷积生成的上下文特征与来自标准卷积的特征嵌入，以获得增强的Conv3 3、Conv4 3和Conv5 3层。在后向通过期间，从深层到浅层执行所提出的后向张力滤波。在反向传递中有三个反向注意过滤每个模块使用来自前一个模块的输出来过滤输入特征图。在后向传递之后，获得三个过滤的特征图（Conv3它们被送入RPN以生成ROI。对于每个ROI，在所有三个过滤的特征图上执行ROI池化。这些合并的特征由附加层处理，并在全连接层融合。最后，每个ROI的融合特征被发送到分类和边界框回归子网络。分类子网络预测类别（行人、骑自行车的人、汽车或背景），而边界框回归子网络预测ROI3.2. 位置感知可变形卷积标准卷积单元[1]在固定位置对输入特征图进行采样，并通过计算样本的加权和来生成输出。近年来，人们提出了可变形卷积来克服标准卷积的局限性.在可变形卷积[7]中，标准卷积中规则网格采样位置的2D偏移使用附加的9455我们提出的用于上下文特征提取的位置感知可变形卷积模块如图3所示。注意，偏移估计和偏移增强采样发生在2D空间域中。假设对于输出上的每个2D位置pc=（xc，yc），输入特征图为I，输出特征图为特征图 3×3可变形卷积是cen-在pc上的tered定义为：Σ8O（pc）=W（pn）·I（pc+D·pn+n），（1）n=0图3.3×3位置感知可变形卷积的示例，扩张大小D= 2。H、W和Z分别是输入特征图的高度、宽度和通道数。更好用彩色看。计算卷积层中的偏移量，并且计算偏移量增大位置处的样本的加权和以获得输出特征。在可变形卷积模块中，只有一个卷积层用于估计所有偏移，其基于与标准卷积中相同的感受野。使用相同的感受野和卷积层来估计每个输入样本的偏移没有充分利用每个输入的独特特性，这可能导致次优偏移估计。此外，接收场太小，使得在偏移估计期间看不到周围特征，这使得难以捕获有用的上下文信息。在本文中，我们提出了一个位置感知的变形卷积模块来捕获不均匀分布的上下文特征。该方法根据每个输入样本的位置和表面自适应地调整偏移估计中的感受野其中W是权重矩阵。pn∈G是3×3规则采样网格G中的一个位置，D是伸缩大小.没有偏移增加的规则采样网格上的输入样本位于pc+D·pn。在估计每个输入样本的偏移量之后，偏移量增强的输入样本位于pc+D·pn+pn处，其具有不规则和自适应的几何结构，以捕获不具有固定分布的上下文信息。采样网格G具有九个元素并且被定义为：G={（−1，−1），（−1，0），…，（0，0），...，（1，1）}。（二）在估计每个输入样本的偏移量之前，对输入特征图应用1×1卷积，以将通道大小减少到64。减小信道大小对于保持计算成本低廉是必要的，因为偏移估计是针对每个输入样本单独进行的。在1×1卷积之后，9个3×3卷积层Cn，n∈ {0，1，，8}被应用于估计偏移，每个输入样本。与[7]不同，由于偏移估计始终以pc为中心，因此该方法中3×3卷积层Cn的中心位于pc+D·pn。因此，每个输入样本的集合对于每个输入样本pc+D·pn，Cn输出偏移n=（offset，并且是offset的y坐标。注意，九个偏移估计卷积层不共享参数，并且它们被单独训练。通过使3×3卷积层以每个输入样本为中心，用于偏移估计的感受野被扩展到覆盖原始3×3采样网格G之外的区域。在获得所有九个偏移量<$n，n∈ {0，1，，8}之后，偏移量增大的输入样本位于pc+D·pn+n处。由于估计的偏移量ωn通常是分数，因此进行插值以获得特征分数采样输入的值。基于等式（1）计算所有偏移增强的输入样本上的加权和，以获得输出特征值O（p。通过估计偏移并使用等式（1）计算来自输入特征图I的所有输入的卷积来获得输出特征图O。9456图4.上下文嵌入模块。3.3. 上下文特征嵌入所提出的上下文特征嵌入模块如图4所示从输入特征图到输出特征图有两个链接最上面的链接是标准卷积，它使用常规采样网格生成标准特征图。底部链接应用所提出的位置感知可变形卷积，其使用等式（1）生成上下文特征图。后生成标准特征图和上下文特征图，将这两个特征图连接起来，并在连接的图上应用1×1卷积以生成输出特征图。在前向传递期间，在多个卷积层上执行上下文特征嵌入，以利用不同分辨率的上下文信息。具体地，执行上下文特征嵌入以分别通过使用Conv3 2、Conv4 2和Conv5 2作为输入来生成Conv3 3、Conv4 3和Conv53层。位置感知可变形卷积中的扩张大小D被设置为2以具有大的和自适应的感受野，用于更好的上下文特征提取。第4.3节包括有关扩张设置的更多详细信息。3.4. 后向注意过滤多尺度目标检测，特别是小目标检测，严重依赖于来自浅卷积层的高分辨率特征。虽然高分辨率特征为小物体提供了信息线索，但它们也包含对RPN、分类和边界框回归子网无益的分散注意力的特征。为了在突出信息丰富的高分辨率特征的同时抑制分心，我们用富含语义上有意义的信息的低分辨率特征图过滤高分辨率特征图。图5.后向注意力过滤模块。所提出的后向注意力过滤模块的架构如图5所示。注意力过滤模块有两个输入：一个是待过滤的目标特征图T，另一个是来自更深卷积层的语义特征图S，用于生成注意力图。首先，语义特征图S由3×3卷积层处理。输出A具有相同的通道大小与目标特征图相同，从而可以执行元素操作sigmoid函数用于非线性激活。通过将A上采样到与目标特征图T相同的空间大小来获得注意力图A上。在注意力图Aup和目标特征图T之间执行逐元素乘法。滤波后的特征图F通过T和T·Aup之间的元素求和来获得。假设空间位置（x，y）处的特征和目标特征图是T（x，y，c）。输出特征图F上的过滤特征可以公式化为：F（x，y，c）=（1 +Aup（x，y，c））·T（x，y，c）（3）等式（3）在精神上类似于残差连接[28]，其用于防止滤波后的特征值退化。过滤后的特征图F被用作下一个过滤模块的语义特征图以及对象检测子网络的特征图。在所提出的网络中，有三个这样的注意力过滤模块来过滤反向连接中的Conv 5 3、Conv 4 3和Conv 33层，如图2所示。在后向滤波完成之后，获得三个滤波后的特征图并将其发送到对象检测子网络。94573.5. 目标检测子网对象检测子网络基于Faster R-CNN [12]架构，这是一个两级检测器。第一阶段是使用RPN生成对象建议或ROI。RPN的设置与[12]中提出的原始设置相似。第二阶段是从后向注意力过滤获得的三个特征图中为每个ROI执行ROI池化。我们使用不同分辨率的多个特征图的ROI池来提高多尺度目标检测的性能。如图2所示，对于每个ROI，我们使用跳过池[5]从过滤的Conv33，Conv4 3，Conv5 3特征图中提取固定长度的特征描述符。如[3]和[32]中所述，我们应用后期特征融合，在完全连接的层上执行特征拼接。具体来说，我们为池化的Conv3 3，Conv4 3，Conv5 3的特点每个卷积层和全连接层都是单独训练的，以利用每个池化特征的唯一性。全连接层的输出大小为1024，这在性能和速度之间提供了良好的平衡。在获得所有全连接特征之后，它们被连接成一个向量，最终特征大小为3072。在获得连接的特征之后，分类和包围盒回归子网络将特征作为输入，并对ROI的类及其包围盒偏移量进行最终预测。分类子网络输出类得分C类。边界框回归子网络输出边界框偏移t= [tx，ty，tw，th]，其中tx，ty，tw，th分别是相对于ROI它们使用[33]中总损失函数L是多任务损失，定义为：L=Lcls（Cclass，CGT）+α×Lbbox（t，tGT），（4）其中CGT是多类分类的基础事实，tGT是边界框回归的基础事实。分类损失Lcls是交叉熵损失，边界框回归损失Lbbox是平滑L1损失。当CGT为非背景类别时，α等于1。否则，α等于0。4. 实验4.1. 数据集KITTI基准数据集[2]是用于自动驾驶的真实计算机视觉数据集。2D物体检测基准由7481张训练图像和7518张测试图像组成。对象类别是汽车、行人和骑自行车的人。评估指标基于平均精度（AP）。由于KITTI数据集仅为训练图像提供地面实况注释，因此为了评估设计或优化网络设置，可以从训练图像创建验证集。在我们的例子中，我们将训练集分为两部分。一半包含3741张图像，用作训练集。另一半包含3740张图像，用作验证集。此外，我们还在PAS- CAL VOC 2007数据集[34]上评估了我们提出的用于一般对象检测的方法。该数据集包含9963幅图像，有20个对象类。4.2. 实现细节VGG-16和ResNet。该方法可与不同的骨干网集成。我们在VGG-16和ResNet-18的基础上对KITTI数据集实现了所提出的方法。之所以选择ResNet-18，是因为它是一种计算成本低廉的网络，因此适合自动驾驶等实时应用。对于 PASCAL VOC 数据集的实验，使用VGG-16和ResNet-101。要将主干从VGG- 16切换到ResNet，只需相应地连接在ROI池化过程中，合并特征的空间大小被设置为3×3。在检测分数和边界框偏移之后，ROI，以IoU为0.5的阈值进行非最大抑制，以生成最终的检测结果。培训详情。在训练阶段，正样本被定义为具有高于0.5的IoU和地面实况注释的采样区域。同时，以IoU低于0.3的样本区域作为反面例子。网络的优化是通过随机梯度下降（SGD）来完成的。VGG-16版本的学习率设置为 0.0005 ， ResNet-18 版本的学习率设置为0.00025。动量为0.9。RPN的最大迭代次数设置为20000，分类和边界框回归子网络的最大迭代次数设置为40000软件和硬件。使用具有MATLAB接口的Caffe深度学习工具箱[35]作为软件。硬件是基于英特尔酷睿i7-6700 CPU和NVIDIA泰坦X GPU与12 GB内存。4.3. 设计评价在本节中，我们评估了每个提议组件的有效性，并将其性能与KITTI验证集上的参考方法进行了比较。与Faster R-CNN的比较我们将所提出的方法与VGG-16和ResNet-18骨干网络的Faster R-CNN [12]进行了比较。比较结果在表1中给出。为了评估所提出的上下文嵌入和向后注意力过滤器的有效性，9458方法主干AP（%）汽车AP（%）骑自行车者AP（%）行人PASCALR-CNN [12]R-CNN [12]表1.与VGG-16 [27]和ResNet [28]骨干网络上的基线Faster R-CNN [12]进行比较。请注意，ResNet-18用于KITTI数据集，ResNet-101用于PASCAL VOC 2007数据集。方法D1D2AP（%）中等难度方法1汽车骑自行车行人方法B1187.8275.2474.93SubCNN [39]2秒88.8670.7771.34（位置感知1287.3575.1974.25[13]第十三话0.4秒88.8374.4573.62可变形2190.6681.8378.09[40]第四十话1.5秒88.8673.48n/a卷积）2290.6280.4777.35[41]第四十一话3.4秒88.7565.7267.32方法C我们的/VGG-160.22秒88.9974.6573.96（标准n/an/a87.0974.0673.08我们的/ResNet-180.14秒86.6172.2271.85卷积）表2.与KITTI验证集上不同膨胀设置的原始可变形卷积的比较。D1表示可变形卷积的膨胀大小。D2指示用于偏移估计的卷积的膨胀大小。中等难度的方法表4.与KITTI上其他最先进方法的比较测试设置在中等难度。方法主干mAP（%）更快的R-CNN [12] VGG-16/ResNet-10173.2/76.4ICON [5] VGG-16 75.6可变形CNN [7] ResNet-101 78.7表3.与KITTI验证集上的参考注意机制的比较。ing模块，我们在三个设置上进行实验。设置Ours（a）的特征在于仅使用位置感知可变形卷积的设置Ours（b）仅具有向后注意力过滤模块。设置Ours（c）包含这两个模块。Faster R-CNN的对象检测子网络具有与第3.5节所述相同的架构。从表1中的结果可以看出，上下文嵌入和后向注意力过滤都提高了KITTI和PASCAL VOC数据集的性能。在KITTI验证集上，上下文嵌入在VGG-16和ResNet-18上分别具有平均4.8%和5.1%的AP改进。后向注意过滤达到2.8%我们的VGG-16/ResNet-101 76.1/79.8表5.在PAS-CAL VOC 2007测试集上与其他最先进的方法进行比较。VGG-16和ResNet-18的AP分别改善3.6%。在PASCALVOC测试集上，上下文嵌入对VGG-16和ResNet-101分别有2.5%和2.6%的AP改进后向注意力过滤在VGG-16和ResNet-101上分别实现了1.0%和1.5%的AP改善。通过组合这两个模块，我们的设置（c）具有最佳性能。位置感知可变形卷积。这里我们评估位置感知可变形卷积模块，将其与不同膨胀设置下的原始可变形卷积[7]进行容易Mod硬容易Mod硬容易Mod硬VOC 2007更快的VGG-1687.3587.0972.5089.0574.0670.5777.1073.0865.1973.2我国的（a）VGG-1691.3990.6680.1791.7181.8377.2782.0478.0968.8375.7我国的（b）VGG-1690.7090.3275.9590.0378.4472.3880.7777.8068.1874.2我国的（c）VGG-1692.2291.7481.5191.6483.0378.7783.2979.1870.6876.1ResNet-18/10185.5683.5669.1285.5172.5968.2276.3772.0763.7476.4（a）ResNet-18/10190.4989.4579.6586.7179.7673.2779.6875.6668.1679.0（b）ResNet-18/10190.1289.5078.9686.3478.5970.2277.7573.2565.5177.9（c）ResNet-18/10191.7390.2480.0887.7580.2375.2780.0676.9368.4779.8车骑车人行人[12]第十二话2秒79.1162.8165.91方法A1186.7074.8973.96RRC [4]3.6秒90.1976.4775.33（可变形）convolution2289.2680.8477.25[第38话]SDP+RPN [21]4.5秒0.4秒90.0089.4272.5073.0867.2870.20车骑车人行人SSD [20]VGG-1674.3[24]第二十三话86.8374.5973.55[第42话]暗网-1973.7剩余注意力[26]88.9277.2876.76[24]第二十四话VGG-1675.4我们90.3278.4477.80FPN [43]ResNet-10180.5R-FCN [44]ResNet-10176.69459图6.更改ROI数量对KITTI验证集的影响。汽车检测的评估，因为汽车出现的频率比骑自行车的人和行人。平均AP是根据所有困难计算的。网络设置与表1中我们的（a）的VGG-16版本相同，只是方法B使用了提议的位置感知可变形卷积，方法A使用了原始的可变形卷积来提取上下文特征。我们测试了不同的扩张组合。请注意，原始可变形卷积使用相同的膨胀设置进行偏移估计和卷积。比较结果示于表2中。我们可以观察到，当可变形卷积的膨胀大小D1被设置为2时，获得了相当好的性能改善这一观察结果表明，通过增加卷积的感受野，上下文信息是有用的在所有膨胀设置中，当膨胀大小对于可变形卷积为2并且对于偏移估计卷积层为1时，获得最佳结果。反向注意力过滤。我们比较了所提出的注意力过滤模块的性能，可以用于物体检测的两种流行的注意力机制：基于弱语义分割的注意力模块[23] [24]和剩余注意力模块[26]。由于[23][24][26]中的原始方法没有在KITTI数据集上进行测试，因此我们根据相应出版物中给出的描述实现它们弱语义分割子网络是基于FCN [36]构建的，它通过将正边界框内的所有像素标记为1，背景标记为0来训练对于剩余注意力方法，我们用前馈剩余注意力模块代替了所提出的后向注意力模块。所有其他组件与表1中我们的VGG-16版本（b）相同。表3示出了比较结果。据观察，向后注意过滤具有最好的性能。减少ROI。我们研究如何向后注意力过滤模块有助于加快检测。中更快的基于R-CNN的方法，大量的ROI大大降低了处理速度[37]。通过使用注意力过滤模块突出显示目标对象的特征，达到良好目标所性能可能会降低。图6比较了在有和没有后向注意力过滤模块的情况下基于ROI数量的汽车检测可以观察到，在应用注意力过滤模块之后，实现良好性能所需的ROI的数量由于处理每个帧的更少数量的ROI，所以减少了运行时间对于验证和测试集的评估，将每帧的ROI数量设置为150。4.4. 与现有技术方法的在KITTI和PASCAL VOC 2007测试集上，我们将其性能与其他最先进的基于视觉的多类检测方法进行了比较。所提出的网络使用来自训练集的所有图像进行训练。所有超参数与第4.2节中描述的训练设置相同。表4和表5显示了mAP方面的性能比较结果在KITTI数据集上，我们的方法在行人和骑自行车者类别上具有第二好的性能。在汽车检测任务中，我们的方法具有第四好的性能。由于应用后向注意滤波后需要少量的ROI，因此所提出的方法在性能最好的方法中具有最快的速度。特别是，我们的方法实现了每帧0.14秒的运行时间，具有基于ResNet-18的可比平均精度。在PASACL VOC测试集上，我们的方法优于除FPN之外的所有其他方法。5. 结论在本文中，我们提出了一个位置感知的可变形卷积和向后注意力过滤模块，以提高自动驾驶的多类，多尺度目标检测的性能。位置感知的可变形卷积自适应地提取不均匀分布的上下文特征，这些特征与标准卷积特征一起嵌入，以构建用于检测复杂场景中的对象的强大和为了进一步提高性能并减少所需ROI的数量，后向注意力过滤模块利用来自深卷积层的高级语义特征来突出信息丰富的高分辨率特征并抑制分散注意力的特征。通过将这两种方法结合到一个前向-后向网络中，所提出的检测网络在KITTI和PASCAL VOC数据集上取得了良好的性能，并且在性能最好的方法中速度较快。谢谢。这项工作得到了工业核心技术发展计划的支持，MOTIE/KEIT，韩国。[#10083639，基于摄像头的实时人工智能系统的开发，用于同时检测驾驶环境和识别道路上的物体]9460引用[1] A. 克里热夫斯基岛Sutskever和G.E.辛顿使用深度卷积神经网络进行ImageNet神经信息处理系统的程序，2012年。[2] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI视觉基准测试套件。IEEE计算机视觉与模式识别会议论文集，2012年。[3] S. Zagoruyko，A.Lerer，T.Y. Lin，P.O. Pinheiro，S.真恶心S. Chintala，和P.娃娃一个多路径网络的对象检测。英国机器视觉会议论文集，2016年。[4] J.Ren，X. Chen，J. Liu，W. Sun，J. Pang，Q. Yan，Y.泰以及L.徐使用循环滚动卷积的精确单级检测器。IEEE计算机视觉和模式识别会议论文集，2017年。[5] S.贝尔角L. Zitnick，K. Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。inarXiv：1512.04143，2015.[6] F. Yu，and V. Koltun.通过扩张卷积的多尺度上下文聚合。在 Proceedings of International Conference onLearning Representations，2016年。[7] J. Dai，H. Qi，Y. Xiong，Y. Li，G. Zhang，H. Hu和Y.伟.可变形卷积网络。IEEE International Conference onComputer Vision，2017。[8] N. Dalal和B. Triggs用于人体检测的定向梯度直方图。IEEE计算机视觉结构识别会议论文集，2005年。[9] P. Dollr，Z. Tu，P. Perona，and S.贝隆吉集成通道功能。英国机器视觉会议论文集，2009年。[10] R.格希克，J。多纳休，T. Darrell和J.马利克基于区域的卷积网络用于精确的对象检测和分割。IEEETransactionson Pattern Analysis and Machine Intelligence，2016年。[11] R.娘娘腔。快速R-CNN。IEEE International Conferenceon Computer Vision，2015。[12] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络实现实时目标检测。IEEETransactions onPattern Analysis and Machine Intelligence，2017年。[13] Z.蔡角，澳-地Fan，R.S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议论文集，2016年。[14] Q.V. Le，N. Jaitly和G.E.辛顿初始化整流线性单元递归网络的一种简单方法。inarXiv：1504.00941，2015.[15] 费尔岑斯瓦尔布河Girshick，D. McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEETransactionsonPatternAnalysisandMachineIntelligence，2010。[16] R. 格尔希克F.Iandola，T.Darrell和J.马利克可变形零件模型是卷积神经网络。arXiv预印本arXiv：1409.5403，2014。[17] M.贾德伯格K.西蒙尼扬A.齐瑟曼和K. Kavukcuoglu空间Transformer网络。神经信息处理系统学报，2015年。[18] Y. Jeon和J.Kim. 主动卷积：学习卷积的形状以进行图像分类。IEEE计算机视觉与模式识别会议论文集，2017年。[19] P. Sermanet，K. Kavukcuoglu，S. Chintala和Y.乐存。基于无监督多阶段特征学习的行人检测。IEEE计算机视觉与模式识别会议论文集，2013年。[20] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角Fu和A.伯格。SSD：单次触发多盒探测器。2016年欧洲计算机视觉会议论文集[21] F.杨，W. Choi和Y.是林书利用所有层：快速准确的CNN对象检测器，具有尺度相关池和级联拒绝分类器。IEEE计算机视觉与模式识别会议论文集，2016年。[22] B. Zhao，X.Wu，J.丰角，澳-地Peng和S.燕. 用于细粒度对象分类的多样化 IEEETransactions on Multimedia ，2017。[23] G.巴西，X. Yin和X。刘某通过同时检测分割照亮行人。IEEE International Conference on Computer Vision ，2017。[24] T. 孔氏F.Sun，A.Yao，H.Liu，M.Lu和Y.尘RON：反向连接对象先验网络进行对象检测。IEEE计算机视觉与模式识别会议论文集，2017年。[25] Y. Zhai，J. Fu，Y. Lu和H.李用于目标检测的特征选择网络。IEEE计算机视觉与模式识别会议论文集，2018年。[26] F. Wang，M.江角，澳-地Qian，S.杨角，澳-地Li，H.张先生，X. Wang和X.唐用于图像分类的剩余注意力网络。IEEE计算机视觉和模式识别会议论文集，2017年。[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。inarXiv：1409.1556，2014.[28] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议论文集，2016年。9461[29] A.Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. MobileNets：用于移动视觉应用的高效卷积神经网络。 inarXiv ：1704.04861，2017.[30] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。IEEE计算机视觉与模式识别会议论文集，2015年。[31] C. 塞格迪，S。Ioffe，V.Vanhoucke和A.阿莱米Inception-v4，Inception-Resnet和剩余连接对学习的影响。在arXiv预印本arXiv：1602.07261，2016中。[32] S. Gidaris和N.小木经由多区域语义分割感知CNN模型的对象检测。IEEEInternational Conference on Computer Vi-sion，2015。[33] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。IEEE计算机视觉与模式识别会议论文集，2014年。[34] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A. Zisserman，PASCAL Visual Object ClassesChallenge：回顾展。国际计算机视觉杂志，2015年。[35] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.德雷尔Caffe：用于快速特征嵌入的卷积架构。inarXiv：1408.5093，2014.[36] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。IEEE计算机视觉与模式识别会议论文集，2015年。[37] J. Huang，V.拉托德角孙，M。 Zhu，中国茶青冈A. 科拉提卡拉A.法特希岛Fischer，Z. Wojna，Y.宋，S. Guadarrama和K.墨菲现代卷积对象检测器的速度/精度权衡。IEEE计算机视觉与模式识别会议论文集，2016年。[38] B. 杨，J.Yan，Z.Lei和S.李从图像制作对象IEEE计算机视觉与模式识别会议论文集，2016年。[39] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese用于对象建议和检测的子类感知卷积神经网络IEEEWinterConference on Applications of Computer Vision，2017。[40] A. Mousavian，D. Anguelov，J. Flynn和J。科塞卡使用深度学习和几何的3D边界框估计。IEEE计算机视觉与模式识别会议论文集，2017年。[41] C. Pham和J.全使用卷积神经网络对自动驾驶中的对象检测进行鲁棒的对象建议重新排序信号处理：图像传播，2017年。[42] J. Redmon和A.法哈迪。Yolo9000：更好、更快、更强。IEEE International Conference on Computer Vision ，

下载后可阅读完整内容，剩余1页未读，立即下载