基于CNN的对象检测器的模仿网络方法

49 浏览量更新于2023-10-16 收藏 743KB PDF 举报

目标检测器

CNN模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6356模仿非常有效的网络进行目标检测李全全1，金胜英2，严俊杰11商汤科技2北京航空航天大学网址：liquanquan@sensetime.com，jsychffy@gmail.com，网址：www.example.com，yanjunjie@outlook.com摘要目前基于CNN 的对象检测器需要从预先训练的ImageNet分类模型中进行初始化，这通常很耗时。在本文中，我们提出了一个完全卷积特征模拟框架来训练非常有效的基于CNN的检测器，它不需要ImageNet预训练，并且与大型和慢速模型相比具有竞争力的性能。我们在训练中从大型网络的高级特征中添加监督更具体地说，我们对从整个特征图中采样的特征进行了模拟，并使用转换层将小网络的特征映射到大网络的相同维度上。在训练小网络时，我们优化了两个网络特征图上同一区域采样特征之间的相似性。使用VGG、Inception和ResNet对行人和常见物体检测任务进行了广泛的实验在Caltech和Pascal VOC上，我们证明了改进的2.5倍加速Inception网络与完整的Inception网络一样具有竞争力。我们更快的模型在1000× 1500的大输入下以80 FPS运行，在加州理工学院的性能只有轻微的下降。1. 介绍目标检测是图像理解中的一个基本问题。它旨在确定物体在图像中的已经提出了许多流行的基于深度卷积神经网络的对象检测方法，例如 Faster R-CNN[28] ， R-FCN [6] 和 SSD [25] 。与传统方法（如CNN[12]）相比，这些基于CNN的框架在具有挑战性的数据集上实现了良好的性能。自开创性工作R-CNN[14]以来，基于CNN的对象检测器需要一个预先训练的ImageNet分类模型进行初始化，以获得所需的性能。根据[22]中的实验，Fast R-CNN[13]通过从头开始训练AlexNet，AP在Pascal VOC2007上，同时使用ImageNet进行预训练表1：大、小模型的参数和试验时间。在TITANX上测试，输入为1000×1500通过模仿训练的1/2-Inception模型优于从Im-ageNet预训练模型。此外，它获得了与大型Inception模型相似的性能，只有1/4的参数，并实现了2.5倍的加速。AlexNet获得56.8%的AP。由于这种现象，几乎所有的现代检测方法都只能训练之前在ImageNet上训练过的网络，而不能从头开始训练网络以获得类似的结果。结果是，我们只能使用为分类任务设计的网络，如AlexNet[23] ，ZFNet[35] ，VG-GNet[30] 和ResNet[17]，这些网络不一定是检测的最佳选择。由于限制，如果我们想要扫描不同的网络配置并找到更有效的网络，我们将需要在ImageNet分类任务中预训练这些模型，然后在检测任务中对其进行微调这个过程非常昂贵，因为即使在多个GPU上训练ImageNet分类模型也需要几周时间。此外，在实验中，我们发现较小的网络总是在ImageNet分类上表现不佳，因此在检测上对其进行微调也会导致检测性能不佳。在本文中，我们希望在没有ImageNet预训练的情况下训练更有效的检测网络。更重要的是，我们仍然需要像大型ImageNet预训练模型那样实现有竞争力的性能。其基本思想是，如果我们已经有一个网络达到了令人满意的检测性能，该网络可以用来监督其他网络的检测训练。问题是如何使用检测网络来监督更有效的网络并保持其检测的准确性。类似的想法也被用于标准分类方法MR−2参数测试时间（ms）初始R-FCN7.152.5M53.51/2-初始模拟R-FCN7.31625K22.81/2-Inception微调来自ImageNet8.88625K22.86357例如：[18]。然而，我们发现，他们不工作，以及为这个更复杂的检测任务。主要问题是如何以及在何处添加来自探测地面实况的监督和来自不同网络的监督我们在对象检测中模仿的解决方案来自于对现代CNN 检测器的观察，包括 Faster R-CNN[28] ， R-FCN[6]， SSD[25]和YOLO[27]第10段。它们都计算特征图，然后使用不同的方法从特征图解码检测结果。这样，检测器实际上可以分为联合训练的大型网络和高效网络的区别在于特征提取器。为此，我们的哲学是，在特征提取器生成的特征图中加入模仿监督;应该在最终的特征解码器上添加地面实况监控。对于模仿监督，我们在由小网络生成的特征映射上定义了一个转换，以生成新的特征。我们希望最小化这个新特征与大型网络生成的特征之间的欧氏距离对于地面实况监督，它与起源检测器相同，例如Fast R-CNN中的联合分类和在训练中，我们首先提取大网络生成的每个训练图像的特征图，然后使用特征图和检测注释与从头开始初始化的小网络联合训练检测器。一个问题是，特征图是非常高的维度，我们发现，直接模仿的特征图不会收敛到预期的。由于特征提取器是基于区域或建议的，我们从区域中提取特征进行优化，这导致了令人满意的结果。本文提出的特征图模仿技术自然可以扩展。第一个扩展是我们可以跨尺度模仿。在基于CNN的检测中，如果我们可以将输入图像的宽度和高度减少一半，我们只需要1/4的然而，这通常会导致性能显著下降。我们表明，我们可以定义一个简单的变换，对特征图进行大规模上采样，然后模仿变换后的特征图。另一个扩展是我们可以将模仿技术扩展到两阶段过程，从而进一步提高性能。我们使用R-FCN和Faster R-CNN对Caltech行人检测和Pascal VOC对象检测进行了实验。在Caltech和PascalVOC上，我们证明了模仿的模型比从ImageNet预训练模型微调的模型表现出更好的性能。如表1所示，具有1/4参数的模型实现了与完整Incep- tion Network相似的性能，更快的模型实现了4.5倍的加速和16倍的压缩，仅略微降低了在加州理工学院探测任务2. 相关工作相关的工作包括最近的基于CNN的对象检测，网络模仿和网络训练，以及网络加速。一种开创性的基于CNN的对象检测方法是R-CNN[14]，它使用微调的CNN从对象建议中提取特征，并使用SVM对其进行分类。空间金字塔池化[16]和快速R-CNN[13]在共享特征映射的顶部提取特征，以加快R-CNN的速度。更快的R-CNN[28]通过预测区域建议和对共享特征映射中的建议进行最近的一项工作R-FCN[6]提出位置敏感的分数图以共享更多的计算。R-CNN系列将对象检测视为两次问题，包括区域建议生成和区域分类。最近，已经提出了一次性方法，例如YOLO和SSD。所有这些方法都需要计算特征图，而特征图占用了大部分计算量。我们提出的模仿技术在Faster R-CNN和R-FCN上得到了验证，但它可以自然地扩展到SSD，YOLO和其他基于CNN特征图的方法。网络模仿或提取是最近引入的模型加速和压缩方法[18，2]，旨在训练一个更紧凑的模型，可以从大型模型的输出中学习。[29]通过实现更深层次的学生模型和来自教师网络学习的中间表示的提示，进一步改进了该方法。然而，据我们所知，所有这些模仿工作仅在简单的分类任务中得到验证[18，2，29，33]。在本文中，我们展示了如何将模仿技术扩展到更具挑战性的目标检测任务，以及如何使用它来训练更高效的物体探测器已经提出了一些工作来提供更好的初始化或取代ImageNet预训练。[22]设置网络的权重，使网络中的所有单元以大致相同的速率训练，以避免梯度消失或爆炸。[1]和[8]从视频中学习无监督表示，[8]使用空间上下文作为源来提供用于训练的监督信号。这些方法的性能比从头开始随机训练要好得多，但它们与ImageNet的预训练方法之间仍然存在很大的性能差距最近的工作[19]详细分析了ImageNet的功能我们的工作也涉及到网络加速的工作。[7，20，24]通过线性分解加速CNN的单层，而[38]考虑了非线性近似。[34]使用量化来加速卷积。[15]结合修剪、量化和Huff- man编码来压缩参数。[31，10，5，26]建议通过二进制权重来近似网络这些方法635822加速或压缩给定的网络，但不改变网络结构本身。本文提出的模拟技术与这些方法是正交的，可以结合起来进一步加速。3. 用于目标检测的模仿3.1. Logits模拟学习模仿的主要思想是从大型模型或大型模型集合的软目标或logit（softmax之前的预测）训练一个小型神经网络。通过大型复杂模型学习的软目标携带有用信息，允许小型网络逼近大型网络的复杂功能。如[2]中所述，我们希望小型网络优化的目标损失函数是给定训练数据{（x（1），z（1）），.，（x（T），z（T））}我们提出了一种特征图模拟方法，旨在训练小模型，以在统一的全卷积网络对象检测管道中模拟大模型的特征图激活来自神经网络最后一个卷积层的特征不仅涉及响应强度的信息，还涉及它们的空间位置的信息[16]。但与分类网络中softmax之前的logits不同，其维度与类别数量有关，全卷积网络的特征取决于输入大小和网络架构是高维的对于通过VGG16模型转发的典型600 × 1000 Pascal VOC图像，网络的输出是具有百万量级维度的特征。很难直接在这种高维的两个输出特征图之间执行回归。我们的实验结果表明，该模型在训练期间很难收敛。此外，特征图包含整个图像的响应信息的情况下L（W）=12TΣg（x不（吨）;W）−z （吨）第二章（1）对于仅包含少量对象或其中对象的尺度都很小的图像，特征图上的大部分区域将仅具有弱响应。该对象的核心-其中W是神经网络的权重，g（x（t）;W）是第t个训练数据的模型预测。通过模拟大型模型的logits，可以将大型复杂模型学习到的知识转移到小型快速模型中，以便它可以实现与大型模型一样准确的结果据我们所知，模拟方法作为一种模型加速和压缩技术，仅应用于分类任务[2，18]。我们希望将这个想法扩展到对象检测任务，以训练更小更快的对象检测器。与分类任务中的单类得分预测不同，目标检测网络通常对整幅图像的目标得分和目标位置都进行预测。一个直观的想法是训练匹配大型网络的两个输出的小型网络。实验表明，在目标检测框架中，这种朴素的对数匹配方法很难将知识传递到小模型模拟模型的性能比仅由地面实况监督3.2. 特征映射模仿学习如果我们直接对整个特征图进行全局模仿学习，对于全卷积网络对象检测器，代替全局上下文特征，对象所在的局部区域的特征包含用于对象检测的更具代表性的信息。因此，我们提出了一种新的全卷积网络特征模仿方法，通过模仿从提案区域中采样的特征来解决全卷积特征映射的高维回归问题。基于建议采样的特征模仿方法也可以使小网络更专注于从大模型中学习感兴趣区域特征，而不是全局上下文特征。局部区域特征可以通过使用空间金字塔池化的小网络和大网络的特征图中不同比例和大小的边界框进行采样[16]。然后，通过以下转换层将来自小网络特征图的采样特征回归到与大模型相同的维度[29]。小网络打算最小化的损失函数定义为L（W）=λ1Lm（W）+Lgt（W），（2）最新的目标检测算法[28，25，27]是完全卷积网络，其中整个图像通过深度卷积网络Lm（W）=12NΣ u（i）我-r（v （一））2002年，（3）然后，在特征图上提取来自候选窗口的特征。特征在对象检测中很重要，因为对象分数和位置都是基于特征图预测的。因此，在两个检测网络之间模仿输出特征图是更合理的。Lgt（W）=Lcls（W）+λ2Lreg（W），（4）其中Lm是特征模拟的L2损失，Lgt是文献[13]中描述的区域建议网络的分类和回归损失函数，λ1和λ2是损失权重平衡参数。N是我们采样的提案总数，u（i）是通过空间金字塔63592基于第i个提议从大模型的特征图进行池化v（i）是小网络的采样输出特征，r是将v（i）变换为与u（i）相同维度的回归函数。通过优化这个损失函数，可以在地面实况和来自大型模型的额外监督下训练小型网络关于模拟损失的一个潜在问题是，其值在训练时间期间可能很大，使得必须在特征的监督和地面实况之间仔细设置平衡权重参数，以更好地此外，空间金字塔池化在执行池化过程时可能导致信息丢失。因此，我们通过实现从区域建议中提取的特征的L2损失并在计算损失时执行归一化来进一步改进模拟客观损失函数。之后，训练过程变得更加稳定，我们可以简单地将平衡权重设置为1。新的模拟损失函数定义如下softmax小CNNbbox区域建议网络3x3转换L2损失大型CNN特征图对于每个RoI图1：通过建议抽样进行功能模拟的总体架构。区域建议网络生成候选ROI，然后用于从特征图中提取特征。将在大网络和小网络的特征图上的建议区域处提取特征。整个框架由等式（5）中设置所有损失权重（λ1和λ2）Lm（W）=1Σ12Nmi我u（i）−r（v（i））<$2，（5）1、在我们的训练中在第二阶段，我们从区域建议网络中微调更快的R-CNN或R-FCN检测网络其中mi是由第i个区域建议提取的特征的维度与在等式（3）中提取并合并到相同维度的特征不同，这里的特征直接从特征图中提取，并且对于每个区域提议在维度上不同3.3. 网络体系结构和实施细节我们在Faster-RCNN上集成了特征图模拟[28]和R-FCN[6]，它们是最先进的对象检测框架。培训过程可以分为两个阶段。第一阶段是通过特征模拟方法训练区域建议网络[28]。RPN本身可以被看作是一个有效的建议生成器，以及一个单一的类别对象检测器。对于一般的目标检测任务，我们可以简单地首先训练RPN，然后在第二阶段联合微调Faster-RCNN网络或R-FCN网络。模拟训练的框架如图1所示.大型Faster-RCNN或R-FCN网络以通常的方式进行训练，通过监督训练数据上的地面实况来特征模拟体系结构包含两个网络。大型网络由训练良好的检测网络的权值初始化，并且在训练过程中层是固定的。小网络是随机初始化的。在小网络的末尾添加区域建议网络以生成对象建议。最初，整个图像通过两个网络转发，以产生两个不同的特征图。给定RPN在小网络上生成的建议区域，在训练数据集上，我们随机初始化所有新添加的层。推理过程与原始Faster-RCNN或R-FCN相同，没有任何增加的参数。我们的实现使用Caffe[21]。3.4. 两阶段模拟仅在第二阶段中通过地面实况监督进行微调可能会降低在第一阶段通过模仿学习的特征。Faster-RCNN或R-FCN检测器中检测器的预测可以被视为分类任务。因此，我们可以在检测流水线的第二阶段添加Logits匹配监督，以进一步将大检测模型的知识转移到小模型。此外，通过两阶段的模仿，不仅建议相关的信息，而且类别分类信息的学习，由大模型可以传递到小网络。来自大型模型的更丰富的信息可以进一步帮助小型网络模仿大型模型。我们可以简单地从模拟区域建议网络微调检测网络，并添加预测分类logits和边界框回归值的L2实验结果表明，两阶段模拟比在第二阶段微调模拟的RPN模型3.5. 模拟音阶我们进一步扩展了特征映射模仿，以提高检测性能时，输入大小减小。除了网络的复杂性外，输入图像的规模也是影响目标检测框架速度的另一个关键因素6360softmaxbboxdeconv+3x3转换区域建议网络半尺寸图像L2损失对于每个RoI原始图像特征图图2：通过在不同输入尺度上进行建议采样的功能模拟的整体架构。区域建议网络生成候选ROI，然后用于从上采样的特征图和具有大输入的网络的特征图中提取特征目标检测器在小尺度的目标上表现较差[9]。在Caltech上的实验表明，在480×640像素上训练和测试的检测器比在1000×1500像素上训练和测试的检测器多尺度测试[13]、分层特征融合[3]和洞算法[4]提出了改进小目标检测性能的方法，但同时也带来了推理时间开销的大幅度增加。小尺度检测性能下降的主要原因是卷积网络下采样后的最终特征图中小目标的特征非常小。特征模拟本质上被设计为通过特征回归进行训练，以实现两个特征图之间的激活相似性。我们可以简单地在最终特征图的顶部添加一个反卷积层来放大特征图，然后模仿大输入网络的特征图来提高性能。由4024帧组成的标准测试集用于在合理的评估设置下对新注释进行评估。在[37]之后，我们使用的评估指标是[10- 2，100]中的每幅图像假阳性（FPPI）的对数平均未命中率（表示为MR-2）和[10- 4，100]中的FPPI的对数平均未命中率（表示为MR-4）。在模拟学习流水线中，小网络的性能直接依赖于大模型。因此，在实验中训练一个高性能的大型模型是非常重要的我们实现了区域建议网络和R-FCN检测框架，并基于GoogLeNetInceptionNetworkArchitecture[32]在Caltech上实现了有竞争力的检测结果。在原始图像大小为640×480像素的加州理工学院数据集上联合训练区域建议网络和R-FCN检测网络很难达到与当前最先进技术[36]相当的性能。该方法的MR−2仅为14.64%。考虑到加州理工学院数据集中大多数行人的身高都在80像素以下，这对检测器来说是相当具有挑战性的，我们重新缩放图像，使其短边为1000像素。我们在单尺度图像上训练和测试RPN和R-FCN网络。对于RPN锚，我们使用2：1、3：1和3个比例的2个纵横比，盒面积为42、82，162. RPN和R-FCN网络在ImageNet分类的预训练模型上进行联合训练，这与标准实践一样。我们微调了Inception网络的所有层，所有新层都是随机初始化的，如[28]所述。我们对30k个小批量使用0.001的学习率，对接下来的10k个小批量使用0.0001的学习率。动量设置为0.9，权重衰减为0.0005。最终检测结果为MR−2= 7.15%，如表2所示。区域建议网络可以看作是一个单一的类别检测器，因此我们也报告了性能如图2所示通过具有步幅16的网络并产生特征图;将尺寸减半的相同图像以步幅8通过网络转发，并产生类似尺寸的特征图。然后在训练过程中对两个特征图进行特征图模仿。实验结果表明，在小尺度输入下，该方法可以显著提高检测器的性能。4. 实验我们在Cal- tech行人检测基准[9]和PASCAL VOC2007对象检测基准[11]上全面评估了我们的方法。4.1. 加州理工学院的实验在加州理工学院，我们在[37]提供的新注释的10×训练数据上训练我们的模型，并仅选择训练数据集中包含地面实况边界框的图像，该数据集总共约有9k张图像斯坦-在实验中的RPN独立。方法MR−2 MR−4独立初始RPN8.6821.74初始RPN+ R-FCN7.1519.18表2：Inception RPN和R-FCN的检测结果。考虑到我们不是要研究哪种网络架构在对象检测任务上表现更好，而是要研究特征模仿方法可以提高小型网络的性能。我们对小型网络结构使用简单的设计。我们在实验中使用的小网络是修改后的Inception网络。1/n-Inception网络表示与Inception网络具有相同深度的网络，但它的每个卷积层仅包含Inception网络的1/n个滤波器我们在实验中模仿的特征图是网络的Inception-4d层的输出。不同R-FCN网络的测试时间为6361列在表3中。首先，我们评估了第3.1节和第3.2节中提到的朴素logits模拟和整个特征图回归模拟的方法。目标检测的朴素logits模拟全特征图回归是将小网络训练成两个高维特征的回归问题。logits模拟和整个特征图回归模拟的结果如表4所示。与大模型相比，模拟模型的性能有很大的下降。小网络很难通过简单的logits匹配或全局特征回归来模仿大模型。方法测试时间（ms）成立53.45VGG232.571/2-初始22.761/4-初始12.391/8-初始9.48表3 ：不同网络下 R-FCN的测试时间在 TITANX 上测试1000×1500像素的输入比例。方法MR−2 MR−4独立初始RPN8.6821.741/2-初始logits模拟68.7581.321/2-初始特征图回归64.2276.99表4：朴素模拟和全特征回归模拟的检测结果。接下来，我们遵循与第3.3节所述相同的基于建议采样的特征映射模拟方法架构，在Caltech端到端训练1/2-Inception Network。在第一阶段，我们使用 1/2-Inception Net- work来模仿从预训练的Inception RPN特征图中提取的特征，这些特征是通过 1/2- InceptionNetwork在训练期间生成的区域建议来实现的我们使用128个ROI对两个网络的特征图上的特征进行采样，ROI的正负样本比例为1：1。表5显示了初始RPN和模拟1/2初始RPN的结果比较。只有1/4参数的模拟模型与大型模型相比具有竞争力的性能，但速度快2.5倍。在第2阶段，我们从第1阶段训练的区域建议网络由于RPN层在阶段1中已经训练得足够好，因此RPN层的学习速率被设置为新添加层的1/10R-FCN中的RoI输出大小设置为7× 7。第2阶段微调结果见表6。述模仿方法MR−2 MR−4初始RPN8.6821.741/2-初始模拟RPN9.1621.82表5：在训练数据上训练的Incepion-RPN和通过模拟方法训练的1/2-Inception RPN的检测结果。图3：在新注释（MR-2（MR-4））上评估的检测结果比较。+微调网络在MR−2上实现与大型网络相似的性能，甚至在MR−4上获得更好的性能。方法MR−2 MR−4初始RPN + R-FCN7.1519.181/2-从头开始24.6340.831/2-Inception-finetune-ImageNet8.8819.811/2-初始模拟+微调R-FCN7.5517.59表6：通过地面实况监督和通过模拟方法训练的1 / 2 -Inception R-FCN模型的检测结果。为了将特征模拟方法与传统的直接在训练数据集上训练模型的方法进行比较，我们从头开始训练了一个1/2- Inception R-FCN。如[14]所述，从ImageNet分类任务的预训练模型中微调的模型比从头开始训练的模型表现得更好。因此，我们还在ImageNet数据集上预训练了一个1/2-Inception网络，并从预训练的模型中微调了R-FCN检测网络。结果比较见表6和图3。结果表明，通过特征模仿学习训练的模型表现出优于从头开始训练的模型和从MR-2和MR-4上的ImageNet预训练模型进行微调的模型。我们进一步在不同的小网上进行实验6362工程.表7中的实验结果证明，模仿学习方法通常可以提高不同小型网络的性能。模仿模型和从头开始训练的模型之间存在很大的性能差距。像1/4- Inception和1/8-Inception这样的较小网络很难在ImageNet数据集上训练。通过特征模仿训练较小的网络，更有利于实现。 1/4- Inception网络的参数大约是Inception网络的1/16，但仍然可以达到与大型网络相当的性能。我们还训练了另一个基于VGG网络的大型R-FCN检测和基于ResNet网络的Faster R-CNN模型，以评估模仿学习方法的泛化能力。表8和表14中所示的结果表明，特征模拟方法可以帮助训练小型网络来模拟具有完全不同网络架构的大型模型。模拟的1/2-Inception模型实现了与大型模型相似的性能，但在推理过程中快了10倍同样，对于同一个小网络，大模型的性能对于模仿学习也很重要。从Inception模仿的相同模型优于从VGG模型模仿的模型，因为Inception模型优于VGG模型。方法MR−2 MR−41/4-从头开始30.3645.731/4-Inception-mimic + finetune 10.0221.841/8-从头开始42.6458.211/8-Inception-mimic + finetune 16.8632.46表7：不同较小网络结构上的模仿学习的检测结果。方法MR−2 MR−4测试时间（ms）VGG RPN + R-FCN7.6818.59232.571/2-初始模拟-from-VGG + finetune8.4718.5722.76表8：从VGG模型模拟的1 / 2 -Inception R-FCN的检测结果和测试时间。我们没有从第一阶段得到的模拟模型中微调R-FCN，而是在训练过程中同时在地面实况和大型网络实验表明，两级模拟进一步提高了表9中的小模型的性能。输入的大小对目标检测器的性能至关重要。如表10所示，给定480 × 640的输入图像，加州理工学院的Inception R-FCN模型的MR −2仅为14.64%。简单地在最终特征图的顶部添加反卷积层不能带来任何性能改进。我们实现了特征映射模仿方法MR−2 MR−41/2-Inception-mimic + finetune1/2-起始-两阶段-模拟7.557.3117.5917.131/4-Inception-mimic + finetune1/4-起始-两阶段-模拟10.029.7521.8420.231/8-Inception-mimic + finetune1/8-初始-两阶段-模拟16.8615.3232.4631.461/2-Inception-mimic-VGG + finetune1/2-起始-两阶段-模拟-VGG8.478.3318.5718.46表9：在阶段2中微调的R-FCN模型和通过两阶段模拟训练的模型的检测结果。该方法对具有大输入的网络和具有减少的输入但在特征图的顶部添加了用于上采样的去卷积层的网络实验结果显示MR-2显著降低，时间成本仅增加少许（3.5ms）。方法MR−2 MR−4测试时间（ms）初始R-FCN14.6427.8115.63初始上采样R-FCN初始模拟+微调15.2811.1429.0623.3519.18表10：480×640像素输入的检测结果和测试时间。Inception-upsample是修改后的网络，stride 8在训练数据集上训练。Inception mimic是与Inception-upsample相同的网络，但通过模仿学习进行训练。4.2. PASCAL VOC为了在不同的检测框架和更复杂的常见对象检测任务上评估我们的特征模仿学习方法，在本节中，我们介绍了基于Faster R-CNN框架的PASCAL VOC[11]常见对象检测基准的模仿学习方法实验结果表明，我们的特征模仿方法可以很好地推广到不同的检测框架和目标检测任务。在[28]之后，对于PASCAL VOC 2007测试集，我们使用VOC 2007中的5k训练值图像和VOC 2012中的16k训练值图像进行训练（07+12）。用于训练Faster-RCNN的超参数与[28]相同。我们在训练数据集上联合训练区域建议网络和快速R-CNN模型，作为我们想要模仿的大型模型。限于篇幅，本文仅报道实验的mAP。更多详细结果见附录。基于Inception网络架构训练的大模型在VOC 2007测试集上达到了75.7%的mAP在模拟训练过程中，首先我们在第1阶段从大型模型中模拟一个小的RPN，然后在第2阶段从这个预先训练的模型中微调Faster R-CNN，或者使用两阶段模拟技术来训练模型进行常见对象检测。6363方法mAPInception Faster R-CNN 75.701/2-从头开始RPN 49.211/2-Inception-finetune-ImageNet RPN 72.371/2-初始-模拟+微调RPN 72.79PASCAL VOC的模拟实验与Caltech相似，不同之处在于PASCAL VOC是一个常见的目标检测任务。我们在第一阶段模拟的区域建议网络只能预测类别不可知的建议，因此我们通过每幅图像给出多达300个建议的召回率来评估使用模拟方法为了更完整的评估，我们还报告了当IoU阈值设置为0.7时的召回率。我们希望更严格的评估可以用于更好的性能比较不同的建议模型。并且mAP用于评估用于阶段2训练的对象检测器。第一阶段的模拟RPN模型实现了与大型模型相似的召回率，并且优于从头开始训练或从ImageNet预训练模型微调的模型（表11）。方法召回@.5召回@.7初始RPN97.26%85.36%1/2-从头开始91.18%70.66%1/2-Inception-finetune-ImageNet 百分之九十六点八百分之八十三1/2-起始-模拟百分之九十七点一三85.58%表11：PASCAL VOC 2007的RPN结果，每个图像给出多达300个建议。召回@.7意味着确定真阳性的IoU阈值设置为0.7。在第2阶段，我们根据第1阶段训练的RPN模型对Faster R-CNN进行微调。1/2-Inception Faster- RCNN比从ImageNet预训练模型微调的模型实现了更好的性能，并且远远优于从头开始训练的模型。结果见表12。表12：PASCAL VOC Faster-RCNN结果的检测结果。我们进一步试验更小的模型。在ImageNet分类任务中训练小模型是很困难的。因此，我们将我们的模拟模型与在训练数据集上从头开始训练的通过模拟方法训练的模型比从头开始训练的模型表现更好，如表13所示。实验结果表明，两阶段模拟可以进一步提高模拟方法的性能。我们还在萃取器的不同位置进行了模拟实验，如表15所示。结果表明，模仿最后一个共享的特征地图是最好的选择方法mAP1/4-从头开始42.081/4-Inception-mimic + finetune 65.761/4-Inception-two-stage-mimic 67.661/8-从头开始34.771/8-Inception-mimic + finetune 53.801/8-Inception-two-stage-mimic 56.14表13：通过模拟学习训练和仅通过地面实况监督训练的更快R-CNN模型的检测结果比较。方法0.50.60.70.80.9地图1/4-vgg16-scratch89.082.563.927.42.943.51/4-vgg 16-模拟93.588.774.634.33.348.7表14：1/2-VGG 16模拟ResNet-50结果。通过召回率（关于不同IoU）和Faster-RCNN检测mAP对VOC 07测试集进行RPN模拟层0.50.60.70.80.9地图非模拟87.480.864.728.42.842.08Inception-3b87.481.165.629.73.242.46初始-4b92.988.475.036.53.958.57Inception-4d95.191.680.842.24.565.76表 15 ： 1/4-Inception RPN 和 Faster-RCNN 模拟不同层的Inception模型。根据不同IoU（每个图像300个建议）的召回率和VOC 07测试集上的检测mAP进行评估。5. 结论在本文中，我们提出了一个特征模仿的方法，进一步扩展模仿方法的目标检测任务。通过监督来自大型网络的特征，我们可以从头开始训练网络，以实现比ImageNet预训练模型更好的性能。此外，我们的方法可以训练更快，更紧凑的检测模型，与大型模型一样准确。在我们对Caltech和PASCAL VOC的实验中，通过模仿训练的具有1/4参数的2.5倍更快的模型实现了与大型Inception模型相似的性能基于特征图的模拟可能会扩展到其他完全基于卷积网络的任务，如语义分割，这将作为未来的工作。引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页[2] J. Ba和R.卡鲁阿纳深网真的需要深吗？神经信息处理系统的进展，第2654-2662页，2014年。6364[3] S.贝尔角L. Zitnick，K. Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。arXiv预印本arXiv：1512.04143，2015年。[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。基于深度卷积网和全连接crfs的语义图像分割。arXiv预印本arXiv：1412.7062，2014。[5] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统进展，第3123- 3131页，2015年[6] J.戴，Y. Li，K. 他，和J. Sun。R-fcn：通过基于区域的全卷积网络进行目标检测。arXiv预印本arXiv：1605.06409，2016.[7] E. L. Denton，W. Zaremba，J. Bruna，Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。神经信息处理系统的进展，第1269-1277页，2014年[8] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在IEEE计算机视觉国际会议论文集，第1422-1430页[9] P. 多拉尔角沃杰克湾Schiele和P.佩洛娜行人检测：对最先进技术的评估。PAMI，34，2012.[10] S. K.埃塞尔河Appuswamy，P. Merolla，J. V. Arthur和D. S.莫达能量有效的神经形态计算的反向传播神经信息处理系统进展，第1117-1125页，2015年[11] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. 威廉斯，J.Winn和A.齐塞-曼。pascal视觉对象类（voc）的挑战。InternationalJournal of Computer Vision，88（2）：303[12] P. Felzenszwalb，D.McAllester和D.Ramanan 一个有区别的训练，多尺度，可变形零件模型。计算机视觉和模式识别，2008年。CVPR 2008。 IEEE会议，第1-8页。IEEE，2008年。[13] R.娘娘腔。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440-1448页[14] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。在计算机视觉和模式识别，2014年。[15] S.汉，H. Mao和W. J·达利深度压缩：利用剪枝、训练量化和霍夫曼编码压缩深度神经网络。CoRR，abs/1510.00149，2，2015。[16] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔池在欧洲计算机视觉会议上，第346-361页。Springer，2014.[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385，2015。[18] G. Hinton，O. Vinyals和J. Dean.在神经网络中提取知识。arXiv预印本arXiv：1503.02531，2015。[19] M. P. Agrawal和A A.埃夫罗斯是什么让imagenet适合迁移学习？arXiv预印本arXiv：1608.08614，2016。[20] M. Jaderberg，A. Vedaldi和A.齐瑟曼。用低秩扩展加速卷积神经网络。arXiv预印本arXiv：1405.3866，2014。[21] Y. Jia、E. Shelhamer，J.多纳休S. J. Long，R. Karayev 女孩S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构在第22届ACM多媒体国际会议的会议记录中，第675-678页。ACM，2014年。[22] P. Krähenbühl，C. Doersch，J. Donahue，and T.达雷尔。卷积神经网络的数据相关初始化。arXiv

下载后可阅读完整内容，剩余1页未读，立即下载