深度学习大突破：AlexNet在ImageNet竞赛中的37.5% top-1误差率

需积分: 0 40 浏览量更新于2024-08-05 收藏 1.05MB PDF 举报

AlexNet是深度学习领域的一个里程碑，它是2012年ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 的一个重要突破。该论文主要介绍了作者们设计并训练的一种大规模深度卷积神经网络，用于在ImageNet LSVRC-2010竞赛中对120万张高分辨率图像进行1000个类别的分类任务。AlexNet的关键特征在于其深度结构，包含650,000个神经元和约60 million个参数，由5个卷积层（其中一些之后还有最大池化层）和3个全连接层组成，最后的输出层是一个1000维的softmax层。在技术实现上，AlexNet引入了一些创新方法来优化训练过程。首先，它使用了非饱和神经元，这有助于网络更好地学习和表达复杂特征。其次，为了处理大量的数据和加速计算，论文提出了GPU上的高效卷积运算算法，这对于当时的计算机硬件来说是一个重要的进步。此外，为了对抗全连接层的过拟合问题，作者引入了Dropout技术，这是一种随机失活神经元的正则化策略，有效减少了模型的复杂度，提高了泛化能力。在竞赛结果上，AlexNet取得了显著的优势，它的top-1错误率仅为37.5%，远低于当时最佳成绩，而top-5错误率更是低至17.0%。这一成就使得深度学习在视觉识别任务上取得了重大突破，开启了深度卷积神经网络在计算机视觉领域的广泛应用。随后，AlexNet的变种还在ILSVRC-2012比赛中以15.3%的top-5错误率打败了第二名，展示了深度学习的强大潜力。 AlexNet的成功展示了大数据和深度学习的结合对于提升目标识别性能的重要性，同时也推动了后续研究者们继续探索更大规模、更深的神经网络结构，以及更为有效的训练和优化方法。这项工作不仅提升了人工智能的水平，也为深度学习在实际应用中扮演核心角色奠定了基础。

深度卷积神经网络对IMAGENET的分类

A PREPRINT

Alex Krizhevsky

多伦多大学

kriz@cs.utoronto.ca

Ilya Sutskever

多伦多大学

ilya@cs.utoronto.ca

Geoffrey E. Hinton

多伦多大学

hinton@cs.utoronto.ca

June 21, 2019

摘摘摘要要要

我们训练了一个大规模的深度卷积神经网络，将

ImageNet LSVRC-2010

比赛中的

120

万个高分辨率图像

分为

1000

种不同类别。在测试数据上，我们得到的

top-1

和

top-5

的误差率分别为

37.5%

和

17.0%

，这个

结果远远优于当前的最佳水平。这个神经网络包含

千万个参数和

万个神经元，还包含了

个卷积层

（某些卷积层的后面有最大池化层）以及

个全连接层，最后一个层是

1000

维的

softmax

。为了加快训

练速度，我们使用了非饱和神经元以及一种基于

GPU

的高效的卷积运算方法。为了减少全连接层的过

拟合，我们运用了最新的正则化方法

“dropout”

，结果证明它是非常有效的。我们也使用这个模型的变

种参加了ILSVRC-2012比赛，相比第二名在top-5上26.2%的误差率，我们以15.3%的误差率取胜。

1 介介介绍绍绍

当前的目标识别方法基本上都使用了机器学习的方法。为了提高这些方法的性能，我们可以收集更多的数

据，学习得到更加强大的模型，用更好的方法来防止过拟合。直到现在，有标签的数据集都是比较小的，

一般只有万张的数量级（如

NORB[16]

，

Caltech-101/256[8,9]

，以及

CIFAR-10/100[12]

）。在这个大小的数据

集上，可以很好的解决简单的识别任务，尤其是在通过标签保留变换进行数据增强的情况下。例如，目前

在

MNIST

数据集上面数字识别最小的误差率

(<0.3%)

已经接近了人类的水平

[4]

。但是现实世界中的目标呈现

出很大的可变性，所以要去学习识别他们就需要使用更大的训练数据集。实际上，人们也已广泛地认识到

小的图像数据集的缺点（如

Pinto

等

[21]

），但直到最近，才能够收集到包含数百万图像的带标签数据集。这

些新的大型数据集包括

LabelMe[23]

（包含数十万张被完全分割的图片），

ImageNet[6]

（由

1500

万张被标记

的高清图片组成，覆盖了2.2万个类别）

为了从数百万张图片中学习到数千种目标，我们需要一个学习能力极强的模型。然而，物体识

别任务极高的复杂度意味着即使拥有

ImageNet

这么大的数据集，这个问题也很难被具体化。所以我

们也需要大量关于模型的先验知识去弥补我们缺失的数据。卷积神经网络（

CNNs

）是一种这样的模

型

[16,11,13,18,15,22,26]

。他们的学习能力可以通过控制网络的深度和宽度来调整，他们也可以对图像的本

质做出强大且基本准确的假设

(

也就是说，统计上的稳定性，以及像素依赖的局部性

)

。因此，与相似大小的

标准前馈神经网络相比，

CNNs

的连接和参数更少，所以更易训练，而他们理论上的最佳性能仅比标准前馈

神经网络稍差一点。

尽管

CNNs

有很好的质量，和更有效率的局部结构，但将他们大规模的应用到高分辨率的图像中仍然

需要付出高昂的代价。幸运的是，当前的

GPU

搭配上高度优化的

卷积实现，已经足够强大到去加速大

型

CNNs

的训练过程，并且最近的数据集例如

ImageNet

已经包含足够的有标签样本，能够训练出不会严重过

拟合的模型。

本文的具体贡献如下：我们在

ImageNet

的子集

ILSVRC-2010

与

ILSVRC-2012[2]

上训练了到目前为止最

大的卷积神经网络之一，并且在这个数据集上达到了迄今为止最好的结果。我们编写了高度优化的

卷

积

GPU

实现，以及其他所有训练卷积神经网络的固有操作，这些都已经公开。我们的神经网络包含一系列

新的与众不同的特征，这提高了它的性能，也减少了训练时间，具体情况会在第三节介绍。即使我们拥

下载后可阅读完整内容，剩余9页未读，立即下载

晕过前方

粉丝: 428
资源: 328

深度学习大突破：AlexNet在ImageNet竞赛中的37.5% top-1误差率

清华大学精品AI人工智能课程深度学习全套课程PPT课件含习题（24页） 第1章 深度学习的来源与应用.rar

基于pytouch使用alexnet完成猫种类识别算法

matlab alexnet数据包安装

alexnet特征提取python

AlexNet网络结构特点

用Pytorch实现AlexNet模型

alexnet模型改进方法

alexnet预训练模型pytorch

AlexNet模型的缺点

AlexNet网络save函数怎么用Matlab

最新资源

清华大学精品AI人工智能课程深度学习全套课程PPT课件含习题（24页）第1章深度学习的来源与应用.rar