利用深度卷积神经网络对ImageNet分类的正则化方法比较

67 浏览量更新于2023-08-23 收藏 12.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0AASRI Procedia 6 (2014) 89-9402212-6716 © 2014 The Authors. Published by Elsevier B. V. 根据 CC BY-NC-ND许可证进行开放访问。由美国应用科学研究学会的科学委员会负责同行评审。doi:10.1016/j.aasri.2014.05.0130ScienceDirect02013年第二届AASRI计算智能和生物信息学会议0ImageNet的正则化方法比较0使用深度卷积神经网络进行分类0Evgeny A. Smirnov*，Denis M. Timoshenko，Serge N. Andrianov0圣彼得堡国立大学计算机建模和多处理器系统系，Universitetskii prospekt 35, Petergof0俄罗斯联邦圣彼得堡1985040摘要0大而深的卷积神经网络在图像分类任务中取得了良好的结果，但它们需要一些方法来防止过拟合。本文比较了不同正则化技术在ImageNet Large Scale Visual Recognition Challenge2013上的性能。我们通过经验证明，Dropout在ImageNet数据集上的表现优于DropConnect。0关键词：深度神经网络；卷积神经网络；Dropout；DropConnect；ImageNet01. 引言0直到最近，神经网络在大规模和现实设置中，包括高分辨率图像和数千个物体类别的视觉对象识别任务中并不常用。这是因为它们需要大量的标记数据和计算能力来训练。现在，随着快速GPU和大型标记图像数据集的进步，它们可以高效地使用，并且可以击败其他方法。神经网络潜在地具有相当大的学习能力，可以通过层数和大小来控制，因此它们可以适应非常大的问题。0* 通讯作者。电话：+7-960-238-19-58电子邮件地址：Evgeny.Versus.Smirnov@gmail.com。0在 www.sciencedirect.com 上在线提供0© 2014 The Authors. Published by Elsevier B. V. 根据 CC BY-NC-ND许可证进行开放访问。由美国应用科学研究学会的科学委员会负责同行评审。090 Evgeny A. Smirnov等人 / AASRI Procedia 6 (2014) 89-940容量可以通过层数和大小来控制，因此它们可以适应非常大的问题。深度神经网络可以获得最好的结果，因为深度对于学习良好的输入数据内部表示是至关重要的。大型神经网络容易过拟合，因此需要一些强大的正则化技术，如数据扩充（Krizhevsky等，2012），Dropout（Hinton等，2012）或最近引入的DropConnect（Wan等，2013）。另一种提高神经网络性能的方法是插入一些先验知识，例如对输入数据的2D结构的认识。卷积神经网络就是这种神经网络的一种类型。由于它们的结构，它们的可学习参数比标准的全连接神经网络少，因此更容易训练，而且更不容易过拟合。本文的特定贡献是比较在大规模设置（ImageNet Large Scale Visual RecognitionChallenge2013）上DropConnect（据我们所知，仅在小数据集上进行了评估）和Dropout以及改进的数据扩充的性能。我们开始使用了与ILSVRC2012的获胜模型（Krizhevsky等）类似的架构，并研究了它在使用Dropout之外的其他正则化方法时的效果。同时，我们也提出了几种改进结果的方法。02. 相关工作0近年来，卷积神经网络（CNN）在图像分类（Krizhevsky等，2012，Zeiler和Fergus，2013a，Donahue等，2013）对象（Toshev等，2013）和面部（Timoshenko和Grishkin，2013）检测，语音识别（Sainath等，2013），生物声学（Smirnov，2013）等领域取得了令人难以置信的流行度。基于CNN的模型改进了许多重要数据集的最新技术，并且对于其中一些数据集，它们的性能也超过了估计的人类性能（Wan等，2013）。最值得注意的成功之一是它们在ImageNet数据集上的表现（Krizhevsky等，2012），在这个数据集上它们没有合适的竞争对手并连续两年获胜。大型CNN表现最佳，因此深度神经网络的最新工作重点是避免过拟合以便能够训练更大的模型（Hinton等，2012，Wan等，2013，Tomczak，2013，Ba和Frey，2013，Goodfellow等，2013，Zeiler和Fergus，2013b，Gulcehre等，2013，Wang和Jaja，2013）。训练通常在快速的GPU上进行。我们在我们的工作中使用了其中几个改进。03. 挑战0ImageNet数据集有超过1500万张带有22000个类别标签的高分辨率图片。ImageNet大规模视觉识别挑战赛（ILSVRC）每年会用ImageNet的子集作为数据集，该子集包含120万张含有1000个类别标签的可变分辨率图片。还有50000张用于验证和100000张未标记的用于测试。报告了两个错误率：top-1和top-5，其中top-5错误率是模型认为最有可能的五个标签中没有包含正确标签的测试图片的比例。ILSVRC2012的获胜者通过5个平均CNN获得了16.4%的top-5错误率（单个CNN为18.2%的top-5错误率）。ILSVRC2013的获胜者为11.7%的top-5错误率。04. 方法04.1. 数据预处理0在预处理阶段，我们将输入图像缩放，使其较短的一边长度为256，然后裁剪尺寸为256x256x3的中心补丁，并从每个像素中减去训练集上的平均活动。091 Evgeny A. Smirnov等人 / AASRI Procedia 6 (2014) 89-940随后，作为数据扩充方法的一部分，我们从这个中心补丁中裁剪尺寸为224x224x3的随机补丁。数据预处理是在CPU上完成的，同时在GPU上并行进行训练，因此不需要太多计算时间。与（Krizhevsky等，2012）相比，我们没有使用PCA。04.2. 架构0我们使用了类似于（Krizhevsky等，2012）的深度卷积神经网络架构，但训练在一块GPU上进行。它有8个可训练层，前五层是卷积层，其余三层是全连接层（见图1）。第一、第二和第五个卷积层后面是最大池化层。第一和第二个最大池化层后面是局部响应归一化层。我们使用修正线性单元（ReLU）作为神经元。第一层卷积层有96个大小为11x11x3的核，步幅为4个像素。第二层以第一层的最大池化和响应归一化输出作为输入，并用大小为5x5x48的256个核对其进行滤波。第三个卷积层以第二层的最大池化和响应归一化输出作为输入，并用大小为3x3x256的384个核对其进行滤波。第四层有384个大小为3x3x192的核，第五层有256个大小为3x3x192的核。全连接层每个有4096个神经元。最大池化层的大小为3x3，步幅为2。最后一层是1000路的Softmax。0图1. 深度卷积神经网络架构04.3. 训练0对于训练，我们使用批量大小为128的随机梯度下降，动量为0.9，权重衰减为0.0005。我们从所有层使用学习率为0.01开始训练，然后在验证错误率停止改善时手动降低学习率。最终的学习率为0.0001。我们训练我们的网络约30个epochs。这比（Krizhevsky等，2012）中的90个epochs少3倍，但我们没有足够的时间等待所有90个epochs。最后，我们得到了第一层中尺寸为11x11x3的96个学习卷积核，如图2所示。0图2. 第一层学习的尺寸为11x11x3的卷积核092 Evgeny A. Smirnov等/ AASRI Procedia 6（2014）89-9405. 减少过拟合0我们的网络有很多参数，所以没有好的正则化会导致过拟合。为了避免这种情况，我们使用了几种方法。首先，我们使用了标准的数据增强：从尺寸为256x256x3的输入图像中随机剪裁出大小为224x224x3的随机补丁，然后随机水平翻转其中的一些。这种方法由（Krizhevsky等，2012）描述。它有助于增加训练数据集的大小。我们在所有的网络中都使用了这种方法。其他的方法包括Dropout（Hinton等，2012），DropConnect（Wan等，2013）和改进的数据增强。为了比较这些方法的正则化能力，我们并行训练了三个神经网络。首先，我们分别用Dropout和DropConnect正则化训练了两个网络，每个网络都在自己的GPU上进行训练了25个epochs。然后我们选择了训练效果最好的网络（Dropout训练的网络），添加了改进的数据增强，并在第三个GPU上再训练了5个epochs，同时继续在前两个网络上进行训练，但没有使用改进的数据增强。05.1. Dropout0这种方法由（Hinton等，2012）引入，现在非常流行。它包括将所选择层中每个隐藏神经元的输出以一定的概率（通常为50%）设为零，并被证明在减少过拟合方面非常有效。我们使用Dropout在6和7的全连接层上以50%的概率训练了其中一个网络。0每个选择的隐藏层神经元的输出都以一定的概率（通常为50%）设为零，已被证明在减少过拟合方面非常有效。我们使用Dropout在6和7的全连接层上以50%的概率训练了其中一个网络。05.2. DropConnect0这种方法由（Wan等，2013）于最近引入，非常新颖。据我们所知，它仅在小数据集上使用过，并且表现良好，但并不总是比Dropout更好。它包括以一定的概率（通常为50%）将所选择层中的权重（见图3）设为零。我们决定在像ILSVRC2013这样的大数据集上比较它的性能，并使用DropConnect在6和7的全连接层上以50%的概率训练了第二个网络。0图3. 正则化方法：（a）Dropout，（b）DropConnect05.3. 改进的数据增强0我们决定尝试更复杂的数据增强技术-随机缩放和旋转，而不仅仅是切割和随机水平翻转补丁。可惜的是，我们并没有通过这种技术获得改进-错误率只增加了。我们认为这是因为我们的网络太小，我们需要更大的神经网络才能有效地使用这种技术。093 Evgeny A. Smirnov等/ AASRI Procedia 6（2014）89-9406. 结果0在我们训练了三个神经网络后，我们使用它们来对数据集的验证部分和测试部分进行分类。为了获得更好的结果，我们使用了多视角测试技术，由（Krizhevsky等，2012）提出，该技术包括对每个分类图像的10个补丁的预测进行平均：4个角补丁，中心补丁和它们的水平翻转。我们还对两个最佳网络的预测结果进行了平均。我们的结果如表1所示。0表1. ILSVRC2013验证集和测试集上的错误率比较0模型 Top-1（val） Top-5（val） Top-5（test）0CNN + Dropout 45.2% 21.6% 21.5%0CNN + DropConnect 47.6% 23.9% 23.7%0两个模型合并 44.2% 21.0% 20.9%0使用Dropout和DropConnect正则化的网络在训练集上的结果大致相同（35％的Top-1），它们的训练过程非常相似（除了正则化方法），所以我们认为验证集和测试集性能的差异在经验上表明对于ImageNet数据集，Dropout是比DropConnect更好的正则化技术。ILSVRC2013竞赛的结果如表2所示。0表2. ILSVRC2013的结果0团队 Top-5（test）0Clarifai（获胜者） 11.7%0NUS 12.9%0ZF 13.5%0Andrew Howard 13.5%0OverFeat - 纽约大学 14.1%0UvA-Euvision 14.2%0Adobe 15.1%0VGG 15.2%0CognitiveVision 16.0%0decaf 19.2%0IBM多媒体团队 20.7%0Deep Punx（我们的团队） 20.9%0Minerva-MSRA 21.6%0MIL 24.4%0Orange 25.1%0BUPT-Orange 25.1%0Trimps-Soushen1 26.2%094 Evgeny A. Smirnov等/ AASRI Procedia 6（2014）89-9407. 讨论0我们的结果表明，Dropout正则化对于ImageNet分类任务比DropConnect效果更好。另外，我们发现我们的网络太小，为了获得更好的结果，我们需要使用更大的网络和更好的正则化技术。我们认为，通过使用DropPart（Tomczak，2013），standout（Ba和Frey，2013），maxout（Goodfellow等，2013），随机池化（Zeiler和Fergus，2013b），DLSVM（Tang，2013），LpUnits（Gulcehre等，2013）或channel-out（Wang和Jaja，2013）以及一些数据增强技术可以改善结果。0参考文献0[1] A. Krizhevsky，I. Sutskever，G.E. Hinton.使用深度卷积神经网络的ImageNet分类。在第25届神经信息处理系统（NIPS’2012）上的进展，2012年 [2]G.E. Hinton，N. Srivastava，A. Krizhevsky，I. Sutskever和R.R.Salakhutdinov。通过防止特征检测器的共适应来改进神经网络。arXiv预印本arXiv：1207.0580，2012年。[3] L.Wan，M. Zeiler，S. Zhang，Y. Le Cun和R.Fergus。使用DropConnect正则化的神经网络。在第30届国际机器学习大会论文集中，2013年。 [4] M.D.Zeiler，R. Fergus。可视化和理解卷积神经网络。arXiv预印本arXiv：1311.2901，2013a。 [5] J.Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. Zhang，E. Tzeng和T.Darrell。DeCAF：用于通用视觉识别的深度卷积激活特征。arXiv e-prints，arXiv：1310.1531，2013年。[6] A. Toshev，C. Szegedy，D.Erhan。用于目标检测的深度神经网络。在神经信息处理系统的进展中，2013年。 [7] D. Timoshenko，V.Grishkin。用于自动修改用户头像的组合人脸检测方法。计算机科学与信息技术（CSIT'13），2013年。 [8] T.Sainath，B. Kingsbury，A. Mohamed，G. E. Dahl，G. Saon，H. Soltau，T. Beran，A. Y. Aravkin和B.Ramabhadran。改进语音识别的深度卷积神经网络。arXiv预印本arXiv：1309.1501，2013年。 [9] E.Smirnov，使用卷积神经网络进行北大西洋露脊鲸叫声检测。在2013年ICML机器学习生物声学第一次研讨会论文集中，亚特兰大，美国，2013年。 [10] A. Frome，G. S. Corrado，J. Shlens，S. Bengio，J. Dean和T.Mikolov。DeViSE：一种深度视觉-语义嵌入模型。在神经信息处理系统的进展中（pp.2121-2129），2013年。 [11] J. M. Tomczak。使用Classification Restricted Boltzmann Machine withDropping预测乳腺癌复发。arXiv预印本arXiv：1308.6324，2013年。 [12] J. Ba和B.Frey。用于训练深度神经网络的自适应Dropout。神经信息处理系统的进展。2013年。 [13] I. J.Goodfellow，D. Warde-Farley，M. Mirza，A. Courville和Y. Bengio。最大输出网络。在ICML'2013中。[14] M. D. Zeiler和R. Fergus。用于正则化深度卷积神经网络的随机池化。在ICLR，2013b。 [15] C.Gulcehre，K. Cho，R. Pascanu和Y.Bengio。学习的规范池化用于深度神经网络。arXiv预印本arXiv：1311.1780. ，2013年。 [16] Q. Wang，J.JaJa。从Maxout到Channel-Out：在稀疏通道上编码信息。arXiv预印本arXiv：1312.1909.，2013年。 [17]Y. Tang。使用线性支持向量机进行深度学习。2013年ICML表示学习研讨会，2013年。

下载后可阅读完整内容，剩余1页未读，立即下载