"SPP-NET：解决深度卷积神经网络图像尺寸限制的空间金字塔池化方法"

下载需积分: 0 | PDF格式 | 789KB | 更新于2024-01-18 | 141 浏览量 | 举报

SPP-Net翻译1：空间金字塔池化在深度卷积神经网络中的应用深度卷积神经网络（CNNs）在图像识别任务中取得了显著的成果，然而其对输入图像尺寸的限制却成为了一个瓶颈。传统的CNNs都需要将输入图像尺寸调整为固定大小（如224×224），这种人为的限制导致了在处理任意尺寸和比例的图像或子图像时识别精度的下降。为了解决这个问题，本文引入了一种被称为"空间金字塔池化"的池化策略，通过给网络配上这个池化策略，我们的网络（SPP-Net）能够生成任意大小的表示，而不受输入图像尺寸或比例的影响。空间金字塔池化通过将图像在多个尺度上进行分割，并对每个分割区域进行池化操作，最终通过连接这些池化结果来生成固定大小的表示。在这个过程中，图像的不同尺度和比例都能够被有效地捕捉到，从而提高了网络对于图像的适应性和泛化能力。值得注意的是，金字塔池化对于物体的形变具有很强的鲁棒性，即使在存在形变的情况下，网络仍然能够准确地捕捉到物体的特征。 SPP-Net的引入带来了许多优点和改进。首先，SPP-Net不再关心输入图像的尺寸和比例，可以处理任意大小和比例的图像或子图像。这使得网络在处理实际应用中的图像时更加灵活和适应性强。其次，SPP-Net通过金字塔池化的方式，能够对图像的全局和局部特征进行有效地捕捉，从而提高了图像识别的准确性。此外，SPP-Net还能够在不增加网络参数和计算量的情况下提高网络的性能。本文通过在多个经典的数据集上进行实验证明了SPP-Net的有效性和优越性。实验结果表明，相比于传统的CNNs，SPP-Net在图像识别任务中取得了更好的性能，尤其是在处理具有不同尺寸和比例的图像时。此外，SPP-Net还在行人检测和图像分类等任务上展现出了出色的表现。综上所述，本文提出了一种新的深度卷积神经网络结构SPP-Net，通过引入空间金字塔池化的池化策略，使网络能够生成固定大小的表示，从而解决了传统CNNs对于输入尺寸的限制问题。SPP-Net在图像识别任务中表现出了更好的性能，在实际应用中具有更广泛的适应性和灵活性。该方法对于深度学习和图像处理领域具有重要的研究和应用价值。

棒[15]；3）由于其对输入的灵活性，SPP 可以池化从各种尺度抽取出来的特征。通过实验，

我们将展示影响深度网络最终识别精度的所有这些因素。

SPP-net 不仅仅让测试阶段允许任意尺寸的输入能够产生表示(representations)，也允许训

练阶段的图像可以有各种尺寸和缩放尺度。使用各种尺寸的图像进行训练可以提高缩放不变

性，以及减少过拟合。我们开发了一个简单的多尺度训练方法。为了实现一个单一的能够接

受各种输入尺寸的网络，我们先使用分别训练固定输入尺寸的多个网络，这些网络之间共享

权重（Parameters），然后再一起来代表这个单一网络（译者注：具体代表方式没有说清楚，

看后面怎么说吧）。每个 epoch，我们针对一个给定的输入尺寸进行网络训练，然后在下一

个 epoch 再切换到另一个尺寸。实验表明，这种多尺度训练和传统的单一尺度训练一样可

以瘦脸，并且能达到更好的测试精度。

SPP 的优点是与各类 CNN 设计是正交的。通过在 ImageNet2012 数据集上进行一系列可控

的实验，我们发现 SPP 对[3][4][5]这些不同的 CNN 架构都有提升。这些架构有不同的特征

数量、尺寸、滑动距离（strides）、深度或其他的设计。所以我们有理由推测 SPP 可以帮助

提升更多复杂的（更大、更深）的卷积架构。SPP-net 也做到了 Caltech101 [21]和 Pascal

VOC 2007 [22]上的最好结果，而只使用了一个全图像表示，且没有调优。

在图像检测方面，SPP-net 也表现优异。目前领先的方法是 R-CNN[7]，候选窗口的特征是

借助深度神经网络进行抽取的。此方法在 VOC 和 ImageNet 数据集上都表现出了出色的检

测精度。但 R-CNN 的特征计算十分耗时，因为他对每张图片中的上千个变形后的区域的像

素反复调用 CNN。本文中，我们展示了我们只需要在整张图片上运行一次卷积网络层（不

关心窗口的数量），然后再使用 SPP-net 在特征图上抽取特征。这个方法缩减了上百倍的耗

时。在特征图（而不是图像区域）上训练和运行检测器是一个很受欢迎的想法[23][24][20][5]。

但 SPP-net 延续了深度 CNN 特征图的优势，也结合了 SPP 兼容任意窗口大小的灵活性，

所以做到了出色的精度和效率。我们的实验中，基于 SPP-net 的系统（建立在 R-CNN 流水

线上）比 R-CNN 计算特征要快 24-120 倍，而精度却更高。结合最新的推荐方法

EdgeBoxes[25]，我们的系统达到了每张图片处理 0.5s 的速度（全部步骤）。这使得我们的

方法变得更加实用。

本论文的一个早先版本发布在 ECCV2014 上。基于这个工作，我们参加了 ILSVRC 2014 [26]，

在 38 个团队中，取得了物体检测第 2 名和图像分类第 3 名的成绩。针对 ILSVRC 2014 我

们也做了很多修改。我们将展示 SPP-nets 可以将更深、更大的网络的性能显著提升。进一

步，受检测框架驱动，我们发现借助灵活尺寸窗口对特征图进行多视角测试可以显著提高分

类精度。本文对这些改动做了更加详细的说明。另外，我们将代码放在了以方便大家研究

（http://research.microsoft.com/en-us/um/people/kahe/，译者注：已失效）

2. 基于空间金字塔池化的深度网络

2.1 卷积层和特征图

在颇受欢迎的七层架构中[3][4]中，前五层是卷积层，其中一些后面跟着吃常委曾。从他们

也使用滑窗的角度来看，这些池化层也可以认为是“卷积的”。最后两层是全连接的，跟着一

个 N 路 softmax 输出，其中 N 是类别的数量。上述的深度网络需要一个固定大小的图像尺

寸。然后，我们注意到，固定尺寸的要求仅仅是因为全连接层的存在导致的。另一方面，卷

积层使用滑动的特征过滤器，它们的输出基本保持了原始输入的比例关系。它们的输出就是

特征图[1]-它们不仅涉及响应的强度，还包括空间位置。图 2 中，我们可视化了一些特征图。

这些特征图来自于 conv5 层的一些过滤器。图 2（c）显示了 ImageNet 数据集中激活最强

的若干图像。可以看到一个过滤器能够被一些语义内容激活。例如，第 55 个过滤器（图 2，

剩余14页未读，继续阅读

方2郭

粉丝: 32

"SPP-NET：解决深度卷积神经网络图像尺寸限制的空间金字塔池化方法"

SPP-Net演示文档

SPP-Net论文详解1

SPP-Net网络 Pytroch

spp-net论文阅读笔记

SPP-Template.rar_SPP-Templa_spp_spp模板

10.SPP-net.zip

SPP-Template.rar_SPP-Template_spp_软件开发过程

蓝牙SPP-CA_SPP-CA_蓝牙模块驱动_

采用多层次特征融合SPP-net的暂态稳定多任务预测.pdf

SPP-Net深度学习目标检测技术解析

最新资源