递归滚动卷积：精确单级检测器

46 浏览量更新于2023-10-16 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5420使用递归滚动卷积的精确单级检测器任小浩陈建波刘文秀孙家豪庞琼严玉-徐永泰李森时代集团有限公司{任思杰，陈晓豪，刘建波，孙文秀，庞家豪，燕琼，于颖，徐丽}@ sensetime.com摘要最近在精确目标检测和定位中的大多数成功方法使用R-CNN风格的两阶段卷积神经网络（CNN）的一些变体，其中在第一阶段中提出合理区域，然后是用于决策细化的第二阶段尽管训练简单且部署效率高，但在基准测试中评估时，单阶段检测方法在考虑高IoU阈值的mAP时并不具有竞争力。在本文中，我们提出了一种新的单级端到端可训练对象检测网络，以克服这一限制。我们通过在多尺度特征映射上引入递归滚动卷积（RRC）架构来构建“深度上下文”的对象我们在具有挑战性的KITTI数据集上评估了我们的方法，该数据集在IoU阈值为0.7的情况下测量方法。我们发现，在RRC中，一个基于VGG-16的简化模型已经显著优于所有先前发表的在撰写本文时，我们的模型在KITTI汽车检测（硬水平）中排名第一，在骑自行车者检测中排名第一，在行人检测中排名第二。这些结果是以前的单阶段方法所达不到的。该代码可公开获取。11. 介绍在许多实际应用中，鲁棒地检测具有高定位精度的目标，即预测具有高交并比（IoU）的边界框位置，对服务质量至关重要。例如，在基于视觉的机器人臂应用中，在拾取物体时生成鲁棒且准确的操作的过程高度依赖于物体定位准确度。在高级驾驶员辅助系统（ADAS）中，准确定位汽车和行人也1https://github.com/xiaohaoChen/rrc_detection图1. 左列：先前的单级检测器未能将高IoU的边界框生成为小的和被遮挡的对象的地面实况边界框（绿色）;右栏：使用建议的RRC，我们可以得到高质量的边界框。与自主行动的安全性密切相关。物体检测的最新进展在很大程度上是由前馈深度卷积神经网络（CNN）的成功应用推动的。在基于CNN的方法的许多变体中，它们可以大致分为两个流。第一种是R-CNN风格[9]的两阶段方法。在这些方法中，在第一阶段提出合理区域，然后进行第二阶段的决策细化。另一类方法旨在消除区域建议阶段，直接训练单阶段端到端检测器。单级检测器通常更容易训练，在生产中计算效率更高[12]。然而，当在基准测试中评估模型时，这种优势在很大程度上被覆盖了，考虑高IoU阈值的mAP（例如，KITTI汽车[6]），因为两阶段方法通常在性能上是有利的。稍后我们将证明单阶段方法的这种弱点并不归因于在复杂场景中无法识别对象，而是未能生成高质量的边界框。在图1的左栏中示出了两个示例。5421实验结果表明，大多数低质量的包围盒来自小对象或重叠对象的故障定位。在任一情况下，常规边界框回归变得高度不可靠，因为正确边界框的确切位置必须用上下文（例如，被遮挡区域周围的多尺度信息或特征）。这就是为什么诉诸某种形式的上下文感知的细化过程来去除这样的错误是有效的。Faster R-CNN的RoI池和分类阶段可以被认为是一种简单的方法，通过重新采样特征图来利用这种上下文在本文中，我们表明，它是可以无缝集成的上下文感知的细化过程中的一个单级网络。洞察是这样的过程可以通过使用新颖的递归滚动卷积（RRC）架构来换句话说，当需要时，上下文信息可以逐渐地并且选择性地被引入到绑定框回归器。整个过程完全由数据驱动，可以进行端到端的培训。我们在具有挑战性的KITTI数据集中评估了我们的方法，该数据集考虑了高IoU阈值的mAP。在我们的实验中，我们使用简化的VGG-16网络而不是完整的VGG网络或更新的ResNet作为我们预先训练的基础网络，以便我们能够充分说明新添加的RRC的有效性。这保证了这种改进不是简单地由更强大的骨干网引入的。结果表明，我们的方法显着优于所有以前发表的结果由一个单一的模型。在提交给基准测试的所有方法中，我们的模型的集合排名第一。我们工作的贡献可以概括如下。• 首先，我们证明了可以以端到端的方式训练单级检测器，以产生非常准确的检测结果，用于需要高性能的任务本地化质量。• 其次，我们发现改进单阶段检测器的关键是在边界框回归中递归地引入上下文本程序可有效地实现了所提出的递归滚动卷积架构。2. 相关工作具有区域建议阶段的卷积神经网络方法最近在对象检测领域非常成功。在R-CNN论文[9]中，选择性搜索[20]用于生成对象建议，CNN用于提取特征并将其提供给分类器。后来提出了两种R-CNN的加速方法。在[8]中，RoI池用于有效地生成对象提案的特征。在[16]中，作者使用CNN代替选择性搜索来执行区域建议。许多作者采用了[16]中的框架，并提出了许多变体，这些变体在基准测试中表现良好，考虑到高IoU阈值的mAP。例如，在[23]中，作者提出使用尺度相关池和分层级联拒绝分类器来提高精度，并获得了良好的结果。[21]中使用子类别信息来增强区域建议阶段，并在KITTI中取得了有希望的结果。R-CNN风格方法的一个问题是，为了处理大量的建议，第二阶段的计算通常很繁重。提出了各种不依赖于区域建议的单级方法来加速检测流水线。SSD [12]是一种单阶段模型，其中前馈过程中具有不同分辨率的特征图直接用于检测具有指定范围大小的对象。这种巧妙的设计节省了大量的计算量，并且比[16]执行得更快。在IoU阈值为0.5的数据集中取得了良好的结果。然而，我们将在实验中表明，当我们增加边界框质量的标准时，性能会显著下降。YOLO [14]是另一种快速的单阶段方法，产生了有希望的结果，然而，尽管定制版本更快，但它我们注意到，已经提出了完全卷积两阶段方法[5]来降低第二阶段的计算复杂度然而，它严重依赖于更大更深的骨干网络。[7]的动机与我们的类似，但它没有通过使用再流架构来考虑上下文信息虽然递归神经网络（RNN）已被广泛应用于许多领域，如图像字幕[11，22]，机器翻译[19，1]和多媒体[15]，但只有少数作者探索了使用序列建模来提高目标检测准确性的想法。一个鼓舞人心的工作是[18]，作者将检测问题形式化为边界框生成过程，并使用长短期记忆（LSTM）[10]通过使用匈牙利损失来学习深度CNN特征的过程。结果表明，该方法能够更鲁棒地检测重叠对象然而，在该公式中，序列中的第一边界框基本上由“在上下文中浅”的网络确定，如果流水线中的第一个对象已经具有挑战性（例如，小对象、被遮挡、失焦、运动模糊等）以检测在许多实际应用中并不少见的情况。此外，仅使用0.5的IoU阈值评价该方法与[18]不同的是，我们提出的RRC架构通过网络有效地检测每个对象，该网络5422更高的门槛。3. 分析和我们的方法3.1. 当前方法的缺失部分一个强大的目标检测系统必须能够同时检测具有截然不同的尺度和长宽比的目标。在Faster R-CNN [16]中，它依赖于最后一个卷积层的每个重叠3x 3区域的大接收场由于使用了多个池化层，最后一层特征图的结果分辨率远小于输入图像。这对于检测小对象可能是有问题的，因为在低分辨率特征图中，表示小对象的精细细节的特征可能很弱。在多尺度输入图像上运行网络是缓解这个问题的一种方法，但它的计算效率较低。SSD论文[12]中提出了一个有见地的替代方案该模型利用了这样一个事实，即在大多数用于检测的CNN模型中，由于池化，不同层中的内部特征图已经具有不同的尺度。因此，利用较高分辨率的特征图检测相对较小的目标和利用较低分辨率的特征图检测相对较大的目标是合理的。这种方法的优点是，它不仅提供了一个机会，以定位小对象更准确地通过重新定位这些对象的分类和边界框回归到更高的分辨率层，作为一个单一的阶段方法，它也比前两个快得多根据等式（2），我们可以发现它严重依赖于一个强有力的假设来表现良好。因为每个层中的特征图单独负责其尺度的输出，所以假设每个Φ本身必须足够复杂以支持感兴趣对象的检测和复杂性意味着1）特征图应该具有足够的分辨率来表示对象的精细细节; 2）将输入图像变换为特征图的功能应该足够深，使得对象的适当的高级抽象被内置到特征图中; 3）特征图包含适当的上下文信息，基于该上下文信息，可以鲁棒地推断重叠对象、被遮挡对象、小对象、模糊或饱和对象的确切位置[16，12，18]。从等式（1）和（2），我们观察到，当k为large时，Φn比Φn-k深得多，因此上述上述第二个条件对Φn−k不成立。结果是，将第（n-k）层中的特征映射转换为检测输出的函数τ n-k（·）可能比τ n（·）弱得多，也更难训练。FasterR-CNN没有这个深度问题，因为它的区域建议是从上一个层特征图，即区域建议= R（τ n（Φn）），n> 0。（三）然而，eq.（3）也有自己的问题，因为它确实打破了第一个条件。因此，我们认为，在单级检测器中学习的更合理的函数可以定义如下分级方法，因为这种多尺度处理不会给原始骨干网络增加额外的计算Detection=D（τn（Φ）n（H）），τn−1（Φ）n−1（H）），然而，SSD无法超越最先进的...，τn−k（Φn−k（H），两阶段方法。实际上，差距变得更大了-H={Φn ，Φn−1、...、Φn−k}，n>k>0，（四）当在评估中使用高IoU阈值时，我们现在分析并讨论为什么这是SSD的局限性。我们还将展示我们如何在我们的尺寸（Φn−k）=size（Φn−k（H）），提出了单级模型，并在后面的章节中获得了最先进的结果。SSD中多尺度特征图的利用可以数学地定义如下，Φn=fn（Φn−1）=fn（fn−1（. f1（I）、⑴Detetion=D（τn （Φn ），.，τn-k （ Φn-k ）），n>k>0，（二）其中Φn是第n层中的特征图，fn（·）是将第（n-1）层中的特征图变换到第n层的非线性块。 fn（·）可以是卷积层、池化层、ReLU层等的组合f1（I）是将输入图像I转换为第一层特征图的第一非线性块。τn（·）是将第n层特征映射变换为一定尺度范围内的检测结果的函数D是最终操作，用于聚合所有中间结果并生成最终侦测。其中H是包含所有特征映射的集合，在等式（ 1）中，（二）、在EQ中的Un l i k e。（2），Φ_ n（·）是一个新的函数，其中所有的控制特征映射都被考虑，并输出一个新的特征与Φn的维数相同。定义在等式中的函数D（·）（4）满足特征图复杂性的前两个条件，因为由Φn−k（H）输出的特征图不仅与Φn−k共享相同的分辨率，而且还包含更深层的特征e。值得注意的是，尽管对方程进行了修改，但D_（？）（二）、换句话说，如果我们也能使EQ。（4）满足上述第三个条件并设计一个有效的体系结构来训练它，我们将能够全面克服以前单阶段方法的局限性，并且有机会超越两阶段方法，即使对于高IoU阈值。5423pn图2.递归滚动卷积架构。该图示出了用于两个连续迭代的RRC在第一阶段中的所有特征图（实心框）包括conv4 3、FC6、conv8 2、conv9 2和conv10 2先前由骨干缩减的VGG 16网络计算。在每个阶段中，箭头说明了自上而下/自下而上的特征聚合。这种特征聚合的所有权重由箭头选择的特征被连接到相邻的特征图，并由虚线框示出。在这些阶段之间，有额外的1x1卷积运算符将聚合的特征映射转换为原始大小，以便为下一个RRC做好准备。这些权重也在迭代中共享。每个RRC迭代都有自己的输出，并且在训练期间也连接到自己的损失函数。3.2. 递归滚动卷积RNN用于条件特征聚合我们现在在Φ（H）中定义细节，以便此函数生成的特征映射包含有用的上下文信息用于检测。Φφ （·）中的客观信息表示不同的信息。针对不同的感兴趣的对象。例如，当检测到小对象时，这意味着Φ（·）应返回包含该对象的更高分辨率特征的特征图来代表缺失的细节当检测被遮挡物体时，Φn（·）应该返回包含该物体的鲁棒的遮挡的特征图，使得特征相对被遮挡。然而，Φm（H）的学习可能是麻烦的，因为H是一个包含不同层和不同尺度的多个特征图的集合，我们不知道哪个特征图应该涉及一个，以及应该对当前交互对象的特征图施加est. 因此，从H到一个有用的Φ（H）的直接映射不得不求助于一个相当大规模的深度网络，三层非线性。这将不会使计算高效且易于训练单级网络。另一种方法是设计一个迭代过程，其中每一步都是一个小但有意义和一致的进展。该过程可以数学地描述如下，变异为闭塞。当检测重叠对象时，Φt+1=F（Φt，Φ t，Φt;W），t >0，Φ（·）应该返回包含以下两个细节的特征图：边界和高层次的抽象来区分不同的物体。然而，对于中等水平的p p p−1p+1当t=1时，（五）例如Φp，其中p是正整数，所有上述上下文信息可以从其较低水平对应物Φp-q或其较高水平对应物Φp+r 中检索，其中q和r也是正整数。困难在于，很难手动定义函数Φφ p（H）的固定规则来检索应用。从H中的Φp−q和Φp+r的适当特征，它也是非常很难手动选择q和r。因此，我们必须系统-从数据中自动地学习这种特征检索和聚合过程。其中F是仅映射Φt的函数，其直接较高以及在步骤t处的较低电平对应物到在步骤t + 1处的新wΦ p。函数F由一些可训练权重W参数化。该方程如图3所示。我们从图中可以看出，I是输入图像，其被馈送到网络并输出特征图Φ1。当将函数τ应用于它进行分类和定界盒回归时，输出仅以Φ1为条件。然后，函数F将执行特征聚合转换：1x1x19转换：1x1x19最大合并conv8_2转换：1x1x194747conv9_2cocnovn4v_43_3151 9592412转换：1x1x19FCFC666conv10_2804032025619Conv：1x1x19Deconv Conv：2x2x19-p019256 19192561919256191019256转换：1x1x19转换：1x1x19转换：1x1x19转换：转换：转换：转换：转换：转换：1x1x19conv8_2_2转换：1x1x194747转换：1x1x19conv9_2_2conv4_3_22412转换：1x1x19conv4_3FC6_2FC66115599804032025619Conv：1x1x19Deconv Conv：2x2x19-p019256 1919256 1919256191019转换：1x1x19转换：1x1x19转换：1x1x19256conv10_2_2检测Φ检测5424ppp−1p−1p+1p图3. 循环特性聚合的说明。以带来必要的上下文信息并在步骤2给出新的Φ2。然后，函数τ能够输出以更新的特征图Φ2为条件的细化结果。请注意，我们可以对每个步骤施加一个监督信号以便系统在特征聚集中找到有用的上下文信息以在检测中取得实际一个重要的见解是，如果F和τ中的权重分别在步骤上共享，则这是一个递归网络。这里不能忽视复发，因为它确保跨步骤的一致的功能聚合。这使得每一步的特征聚合都是平滑的，并且具有很好的泛化能力。否则，它将更容易过拟合，并导致意外的偏差。RRC模型细节如果我们同时应用等式（5）对于每一个Φ，这是我们提出的递归滚动转化模型。值得注意的是，即使Φ≤ t+1，层向下聚合要素。例如，对于层conv8 2，使用具有1x1内核的卷积层来生成大小为40x12x19的特征图。它们在经过ReLU和去卷积层后被连接到FC7。同样，图中所有指向左的箭头指示这种向下操作。我们使用一个卷积层和一个最大池化层来执行向上的特征聚合。同样以层conv8 2为例，1x1卷积之后是ReLU和最大池化，得到的20x6x19特征映射连接到conv9 2。类似地，图中所有向右的箭头指示这样的向上操作。我们称这个特征聚合过程为一旦第一次完成滚动，则分别对每个层执行1x1卷积，以将通道数量减少到原始设置。在此通道缩减之后，针对第一次迭代完成整个特征聚合。这种通道减少是重要的，因为它确保了两个连续特征聚合之间的每个特征图的统一形状它也使再流轧制成为可能.在训练期间，对应于每个箭头的卷积核以及通道缩减都在迭代中共享。我们称这个迭代过程为递归滚动卷积。RRC讨论RRC是一个循环过程，其中每次迭代收集和聚合相关特征以进行检测。正如我们之前所讨论的，这些reverevant特征包含上下文信息，这对于检测具有挑战性的对象至关重要对于每个RRC，存在单独的损失函数来指导其学习。这确保了相关功能将逐步导入，是Φt的函数和它的直接对应物Φt和我们在每次迭代中期望的真正进展因为RRCˆtp+1，如果Φ t有单独的F和Φt相应可以多次执行，所得到的特征图然而，对于它们自己的直接对应物，在足够的迭代之后，Φt+1中的值最终将受到H所提出的RRC模型在图2中详细示出。该图显示了我们如何使用简化的VGG-16骨干模型将RRC应用于KITTI数据集[12，13]。输入图像的大小为1272x375，具有3个通道，因此原始conv4 3层和FC7层的大小分别为159x47x512和80x24x1024，其中512和1024是通道号。我们使用了额外的3x3卷积层，在特征聚合之前将它们的通道进一步减少到256个。在SSD之后，我们还使用了层conv8 2，conv9 2和conv10 2进行多尺度检测，区别在于我们的conv8 2层有256个通道而不是512个通道。我们发现多尺度特征映射之间的统一通道数促进了更一致的特征聚合。我们使用一个卷积层和一个反卷积因此是“深层次的”。[18]因为RRC不是针对任何特定的边界框定制的，因此可以利用上下文信息中的深度来检测场景中的每个对象。在训练过程中，每次迭代都有自己的损失函数。在SSD之后，用于对象类别分类的损失函数平滑L1损失用于边界框回归。边界框回归空间离散化在我们的设置中，一个层中的一组特征图（例如，Conv4 3）负责一定大小范围的边界框的回归。由于边界框回归本质上是线性过程，因此如果该范围太大或特征太复杂，则边界框回归的鲁棒性将受到显著影响。因为RRC过程为要素带来了更多的上下文信息Φ5425图4. SSD和RRC的比较左栏：SSD的结果，无法生成IoU大于0.7的边界框;中间列：RRC，NMS超过输出2到输出6;右栏：RRC，NMS通过输出3到输出5。地图，这将不可避免地使特征地图更丰富，基于此，边界框回归可能更难对原始对象范围进行。为了克服这个问题并使边界框回归更鲁棒，我们通过为其分配多个回归量来进一步离散特定特征图内的边界框回归空间，使得每个回归量负责更容易的任务。4. 实验我们的模型的评估是在KITTI基准[6]上进行的，该基准不仅包含许多挑战对象，如小型和严重闭塞的汽车和行人，还采用了0.7的IoU阈值进行汽车基准的评估。KITTI数据集包含7481张用于训练和验证的图像，以及7518张用于测试的图像。我们在实验中没有使用任何其他数据集来增强结果。测试集的地面实况并不公开。需要将结果提交给专用服务器，以便对测试集进行在本文中，我们进行了三个实验。第一个实验检查了每次循环滚动卷积后预测的质量。第二个评估了我们的方法在一个较小的验证集的性能。最后一个评估我们的方法在官方测试集，并与其他国家的最先进的方法进行比较。实施细节在整个实验中使用以下设置。对于网络体系结构，我们在培训中进行了5次RRC。我们为每个对应的特征图分配了5个独立的回归变量。由于RRC是通过1x1卷积执行的，因此得到的模型是有效的。对于数据增强，除了SSD论文中采用的数据增强方法外，我们还在HSV颜色空间中随机调整了图像的曝光和饱和度1.3倍此外，由于KITTI数据集中对象的最小比例远小于原始配置，我们将conv4 3的相应比例从0.1调整为0.066.我们还删除了原始SSD模型的最后一个全局池化层，并将conv10 2的规模设置为0.85. 对于学习，随机梯度下降（SGD），使用0.9的动量进行优化。权重衰减设置为0.0005。我们将初始学习率设置为0.0005。每40，000次迭代，学习率将除以10。我们还采用了一个简单的图像相似性度量的训练集和验证集分离。目标是使训练集尽可能不同于验证集。我们得到的验证集有2741张图像。4.1. 检查每个RRC之后的输出由于RRC在训练中使用了5次，原则上我们的模型有6个输出，即模型进行6次连续预测。根据RRC的设计，我们应该能够在每次RRC之后观察到改进这个实验的目的是检验情况是否确实如此。为了查看结果，我们在训练集和验证集上运行RRC模型，以计算两个集的平均损失结果总结在表1中。第一个输出是任何RRC发生之前的输出。第二预测发生在第一RRC迭代之后，以此类推。我们可以看到，验证损失通常大于训练损失。这表明存在一定程度的过度拟合。这是正常的，因为我们为验证集保留了很我们在表中观察到了一致的趋势。第二输出的损耗明显低于第一输出。最低的损耗来自第三或第四输出。然而，随后的损失值停止下降。表1.不同预测的平均损失产出指数训练集验证集10.6621.46120.6221.37430.6091.35740.6071.36150.6091.36660.6171.3755426表2. 不同IoU阈值的KITTI验证集结果方法0.60.650.70.750.8SSD九十百分之四十三九十百分之十五89岁。百分之十六87岁百分之二十二七十六。百分之十二RRC*94 百分之三十三九十百分之七十八九十百分之三十二89岁。01%82岁百分之十九RRC94 百分之五十二九十百分之八十一九十百分之六十五89岁。百分之二十七82岁百分之八十二表3.KITTI Car测试装置的结果（中等）方法车中度SubCNN [21]89岁。04%美国有线电视新闻网[2]89岁。02%SDP+RPN [23] 88岁百分之八十五Mono3D [3]88岁百分之六十六3DOP [4]88岁百分之六十四RRC（单）89岁。百分之八十五RRC（集合）九十百分之十九表4.KITTI Car测试套件的结果（硬）方法车硬DuEye（匿名）86岁。百分之十八基因组（匿名）八十五百分之八十二鹰（匿名）八十五百分之六十六RV-CNN（匿名）八十五百分之四十三RRC（我们的）86岁。百分之九十七结果表明，RRC算法在几次连续迭代中能够显著提高预测精度，但最终会出现发散。对这一现象的认识是双重的。首先，可以确认RRC的有效性在后面的实验中，我们将证明这种改进是我们提出的方法实现最先进性能的关键。另一方面，RRC最终退化预测的原因主要是因为缺乏有效的记忆机制[10]，这是一种以长期序列对模式进行建模的方法。虽然记忆机制是有帮助的，但它也会给模型带来可观的额外计算和记忆成本我们把设计一个有效的记忆机制检测到我们未来的工作。该实验提供了为我们选择最终结果的预测提供了指导。对于其余实验，通过在第三、第四和第五预测上运行非最大抑制（NMS）来生成最终检测结果。4.2. 验证集的性能评价在本节中，我们将量化我们的方法给检测任务带来的改进该实验是使用汽车数据集进行的，因为由于数据稀缺，很难分离行人的训练集和验证集。采用具有不同IoU阈值的mAP，5427表5.KITTI行人测试套件的结果（中等）方法行人中度SubCNN [21]七十三。百分之七十美国有线电视新闻网[2]七十一百分之三十三SDP+RPN [23]七十百分之十六RRC（我们的）75. 百分之三十三表6.KITTI Cyclist测试集的结果（中等）方法骑车人中度SubCNN [21]七十一06%美国有线电视新闻网[2]75. 百分之四十六SDP+RPN [23]七十三。百分之七十四RRC（我们的）七十六。百分之四十七评价我们仔细训练了一个SSD汽车检测器作为基线。在实验中测试了RRC的两种设置第一个在输出2到输出6上执行NMS，并表示为RRC*。第二个采用标准方法，仅对输出3至输出5执行NMS如表2所示，两个RRC检测器的性能都比原始SSD实现好得多。由于SSD和我们的方法共享相同的简化VGG-16网络作为骨干网络，因此改进是新添加的RRC架构的直接结果。我们还可以观察到RRC的性能始终优于RRC*。这再次证实了我们从第一个实验中得出的结论的可靠性。值得注意的是，如果我们将IoU阈值的条增加到0.8，RRC的性能比原来的SSD高出6%以上。这有力地证实了RRC在预测高质量边界框方面的有效性。图4举例说明了这三种模型之间的差异。实际上，SSD的问题并不少见，边界框的质量是阻碍以前的单阶段方法取得良好效果的瓶颈RRC可以很好地解决这个问题4.3. 测试集的性能评价在这个实验中，我们在KITTI官方测试集中评估了我们的模型，包括汽车、行人和骑自行车的对于汽车基准测试，我们将我们的方法与最近发表的五种最先进的方法进行了比较。结果示于表3中。与以前的实验的唯一区别是，我们采用了与[2]中相同的输入分辨率，我们可以看到，一个单一的RRC模型能够显着优于所有以前公布的结果。RRC模型的整体性能比以前的方法好得多。我们还比较了RRC与其他匿名未发表的submis-5428图5. 我们的方法在KITTI测试集上的检测结果。表4中的KITTI。在撰写本文时，我们对最难类别的结果在所有提交给基准的方法中排名第一，据我们所知，RRC是第一个单级检测器实现这样的结果。这一结果不仅证实了RRC的有效性，也为提高单级检测器的精度开辟了一条新的途径。RRC还在行人和骑自行车者基准上取得了最先进的结果见表5和表6。与以前发表的方法相比，我们观察到明显的改进。当包括所有匿名未发布的提交，RRC排名第一的骑自行车的检测和第二的行人检测。这充分证明了所提出的RRC模型的有效性和鲁棒性。图5显示了更多的定性结果。5. 总结发言本文提出了一种新的递归滚动卷积结构来改进单级检测器。我们发现RRC能够逐步和一致地聚合特征图之间的相关上下文信息，并生成非常准确的检测结果。RRC在KITTI检测的所有三个基准中都取得了最先进的结果据我们所知，这是第一个获得如此令人信服的结果的单级检测器。该代码是publicly可用.在未来的工作中，我们计划在对象检测的背景下研究支持递归架构的算法，并量化其对检测性能的影响。我们也有兴趣将RRC推广到3D对象检测和相关应用的任务中。5429引用[1] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年，国际会议。2[2] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV，2016年。7[3] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在CVPR，2016年。7[4] X.Chen ， K.Kundu ， Y.Zhu ，中国茶青冈A.Berneshawi，H.马，S.Fidler和R.乌塔松用于精确对象类别检测的3D对象建议2015年，在NIPS中。7[5] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。2[6] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012。1、6[7] S. Gidaris和N.小木Locnet：提高物体检测的定位精度。在CVPR，2016年。2[8] R.娘娘腔。快速R-CNN。在ICCV，2015年。2[9] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。一、二[10] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation，9（8）：1735-1780，1997. 二、七[11] A. Karpathy和F. F.李用于生成图像描述的深度视觉语义对齐。CVPR，2015。2[12] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。SSD：单次触发多盒探测器。在ECCV，2016年。一、二、三、五[13] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet ：看得更宽，看得更好。在 arxiv 。1506.04579，2015年。5[14] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在CVPR，2016年。2[15] J. Ren，Y.胡，Y.- W.泰角，澳-地王湖，加-地Xu，W.太阳和Q.燕.看，听，学--一种用于说话人识别的多模态lstm。在AAAI，2016。2[16] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域建议网络进行实时目标检测。TPAMI，38（1）：142-158，2016年。二、三[17] P.Sermanet，D. Eigen，X. Zhang，M.马蒂厄河Fergus和Y.乐存。Overfeat：使用卷积网络集成识别、见ICLR，2014年。3[18] R. Stewart，M. Andriluka和A. Y. Ng.拥挤场景中的端到端人员检测。在CVPR，2016年。二三五[19] I. Sutskever，O. Vinyals和Q.乐用神经网络进行序列到序列学习。在NIPS，2014。2[20] J. R. R. Uijlings，K.E. A. van de Sande，T.Gevers和A. W. M. 史默德斯对象识别的选择性搜索IJCV，104（2）：154-171，2013年。2[21] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese用于对象建议和检测的子类感知卷积神经网络。在ECCV，2016年。二、七5430[22] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡特迪诺夫河Zemel和Y.本吉奥。Show，attend and tell：Neuralimagecaptiongenerationwithvisualattention.ICML，2015。2[23] F. 杨，W.Choi和Y.是林书利用所有层：快速准确的cnn对象检测器，具有尺度相关池和级联拒绝分类器。在CVPR，2016年。二、七

下载后可阅读完整内容，剩余1页未读，立即下载