ImageNet Classication with Deep Convolutional Neural Networks
摘要
我们训练了一个大型的、深卷积的神经网络,将 ImageNet LSVRC-2010 比
赛中的一百二十万幅高分辨率图像分类为 1000 个不同的类别。在测试数据上
我们实现了前 1 和前 5 位的错误率分别为 37.5%和 17.0%,这比以前的先进
水平要好得多。该神经网络有六千万个参数和 650000 个神经元,由五个卷积
层组成,其中一些是最大池层,三个完全连接层,最后一个是 1000 路软件。
为了使训练更快,我们使用了非饱和神经元和一个非常有效的 GPU 实现卷积运
算。为了减少完全连接层中的过度拟合,我们采用了一种最近开发的称为“退
出”的正则化方法,它被证明是非常有效的。我们还在 2012 年的 ILSVRC-
2012 比赛中加入了该模型的一个变体,获得了 15.3%的前 5 名的测试错误率,
而第二名的参赛成绩为 26.2%。
1.介绍
当前的目标识别方法主要是利用机器学习方法。为了提高它们的性能,我们可
以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。
直 到 最 近 , 标 记 图 像 的 数 据 集 还 相 对 较 小 -- 按 数 万 幅 图 像 ( 例 如
Norb[16]、Caltech 101/256[8,9]和 CIFAR-10/100[12]的顺序排列)。简
单的识别任务可以很好地解决这种规模的数据集,特别是如果它们是通过标签
保持转换。例如,MNIST 数字识别任务(<0.3%)上的当前最佳错误率接近人类
性能[4],但现实环境中的对象具有很大的变异性,因此要学会识别它们,就必
须使用更大的训练集。事实上,小图像数据集的缺点已得到广泛承认(例如,
Pinto 等人)。[21],但直到最近才有可能收集数百万幅图像的标记数据集。新
的更大的数据集包括 LabelMe[23]和 ImageNet[6],分别由数十万幅完整分
割的图像和一千五百万多幅标有 22000 多个类别的高分辨率图像组成
要从数百万张图像中学习大约数千个物体,我们需要一个具有较大学习能
力的模型。然而,目标识别任务的复杂性意味着,即使是象 ImageNet 这样大
的数据集也不能指定这个问题,因此我们的模型还应该有大量的先验知识来补
偿 所 有 我 们 没 有 的 数 据 。 卷 积 神 经 网 络 (CNNs) 构 成 这 类 模 型
[16,11,13,18,15,22,26]。它们的容量可以通过改变它们的深度和
宽度来控制,它们还对图像的性质(即统计数据的平稳性和像素依赖的局部性)
作出了强有力的、大多数是正确的假设。因此,与具有相似尺寸层的标准前馈
神经网络相比,CNN 的连接和参数要少得多,因此它们更容易训练,而理论上
最好的性能可能只是稍微差一些。
尽管 CNN 具有吸引人的特性,尽管它们的本地结构相对高效,但大规模应
用于高分辨率图像的成本仍然非常昂贵。幸运的是,当前的 GPU,加上 2D 卷
积的高度优化实现,足够强大,可以方便对有趣的大型 CNN 进行培训,而且最
近的数据集(如 ImageNet)包含了足够多的标记示例,可以在不严重过度拟合
的情况下训练这样的模型。
本文的具体贡献如下:我们对 ILSVRC-2010 和 ILSVRC-2012 竞赛[2]中
使用的 ImageNet 子集进行了迄今为止最大的卷积神经网络的训练,取得了迄
今为止在这些数据集上取得的最好的结果。我们编写了一个高度优化的 GPU 实
现二维卷积和所有其他操作固有的训练卷积神经网络,我们公开提供 1。我们
的网络包含了一些新的和不寻常的功能,它们提高了性能并缩短了培训时间,
第三节将对此进行详细介绍。我们的网络规模使得过度拟合成为一个重要的问
评论1