ImageNet分类中的正则化方法与深度卷积神经网络

108 浏览量更新于2023-12-05 收藏 540KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2013由Elsevier B.V.发布。由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 6（2014）89 - 942013第二届AASRI计算智能与生物信息学用于ImageNet分类的正则化方法与深度卷积神经网络叶夫根尼作者声明：*塞尔日·季莫申科Andrianov圣彼得堡国立大学计算机建模和多处理器系统系，俄罗斯联邦摘要大型和深度卷积神经网络在图像分类任务中取得了良好的效果，但它们需要防止过拟合的方法。在本文中，我们比较了不同正则化技术在ImageNet大规模视觉识别挑战赛2013上的性能。我们的经验表明，Dropout在ImageNet数据集上的效果比DropConnect更好。© 2014作者。出版社：Elsevier B. V.CC BY-NC-ND许可下的开放访问。美国应用科学研究所关键词：深度神经网络;卷积神经网络; Dropout; DropConnect; ImageNet1. 介绍视觉目标识别是计算机视觉中最具挑战性的问题之一，特别是在大规模和现实环境中，具有高分辨率图像和数千种目标类别。直到最近，神经网络还没有被广泛用于这项任务，因为它们需要大量的标记数据和计算能力来训练。现在，随着快速GPU和大标记图像数据集的发展，它们可以有效地使用，而且，它们可以击败其他方法。神经网络具有相当大的学习潜力* 通讯作者。联系电话：电话：+7960 -238-19-58电子邮件地址：Evgeny.Versus. Smirnov@gmail.com。2212-6716 © 2014作者出版社：Elsevier B.诉在CC BY-NC-ND许可下开放访问。美国应用科学研究所科学委员会负责的同行评审doi：10.1016/j.aasri.2014.05.01390叶夫根尼Smirnov等人/ AASRI Procedia 6（2014）89容量，可以通过层数和大小来控制，因此它们可以适应非常大的问题。深度神经网络可以获得最佳结果，因为深度对于学习输入数据的良好内部表示至关重要。大型神经网络遭受过拟合的问题，因此需要强大的正则化技术，如数据增强（Krizhevsky et al.，2012）、Dropout（Hinton等人，2012）或最近引入的DropConnect（Wan等人，2013年）。提高神经网络性能的另一种方法是插入一些先验知识，如对输入数据的2D结构的感知。这种网络的一种类型是卷积神经网络。由于它们的结构，它们比标准的全连接神经网络具有更少的可学习参数，因此它们更容易训练，并且更少受到过拟合的影响本文的具体贡献是比较了DropConnect（据我们所知，仅在小数据集上进行了评估）和Dropout的性能，并在ImageNet大规模视觉识别挑战赛2013（ILSVRC 2013）中改进了大规模设置中的数据增强。我们从接近Krizhevsky等人提出的架构开始，2012），它是ILSVRC 2012的获奖者，并探索了它如何与其他正则化方法而不是Dropout一起工作。并提出了几种改进方法。2. 相关工作近年来，卷积神经网络（CNN）在许多不同的领域（如图像分类）中获得了令人难以置信的普及（Krizhevsky等人，2012., Zeiler和Fergus，2013 a.，Donahue等人，2013年）对象（Toshev等人，2013）和面部（Kazhenko和Grishkin，2013）检测、语音识别（Sainath等人，2013）、生物声学（Smirnov，2013）和其他（Frome等人，2013年）。基于CNN的模型改善了许多重要数据集的最新技术水平，并且对于其中一些数据集，还克服了估计的人类表现（Wan等人，2013年）。最显著的成功之一是他们在ImageNet数据集上的表现（Krizhevsky等人，2012年），他们没有适当的竞争对手，并赢得了连续第二年。大的CNN表现最好，因此最近深度神经网络的大部分工作都集中在避免过拟合的方法上，以便能够训练更大的模型（Hinton等人，2012., Wan等人，2013., Tomczak，2013年，Ba和Frey，2013年，Goodfellow等人，2013., Zeiler和Fergus，2013 b.，Gulcehre等人，2013., Wang和Jaja，2013年）。训练通常在快速GPU上完成。我们在工作中使用了其中的一些改进。3. 挑战ImageNet数据集拥有超过1500万张标记的高分辨率图像，涉及22，000个类别。一年一度的ImageNet大规模视觉识别挑战赛（ILSVRC）使用ImageNet的一个子集，包含120万张1000个类别的可变分辨率标记图像。还有50，000个标记图像用于验证，100，000个未标记图像用于测试。报告了两个错误率：top-1和top-5，其中top-5错误率是正确标签不在模型认为最可能的五个标签中的测试图像的分数。ILSVRC 2012的获胜者结果是5个平均CNN的前5名误差为16.4%（单个CNN的前5名误差为18.2%）。ILSVRC 2013的优胜者4. 方法4.1. 数据预处理在预处理阶段，我们重新缩放输入图像，使得较短的边的长度为256，然后裁剪大小为256x256x3的中心块，从每个像素中减去训练集上的平均活性叶夫根尼Smirnov等人/ AASRI Procedia 6（2014）8991后来，作为数据增强方法的一部分，我们从这个中心补丁中裁剪了大小为224x224x3的随机补丁。数据预处理在CPU上完成，而训练在GPU上并行进行，因此不需要太多的计算时间。与Krizhevsky等人相比，我们没有使用PCA，2012年）。4.2. 架构我们使用深度卷积神经网络架构，类似于（Krizhevsky等人，2012年），但在一个GPU上训练。它有8个可训练层，其中前五个是卷积层，其他三个是全连接层（见图1）。第一、第二和第五卷积层之后是最大池化层。第一和第二最大池化层之后是局部响应归一化层。我们使用整流线性单元（ReLU）作为神经元。第一个卷积层有96个大小为11x11x3的内核，步幅为4个像素。第二层将第一层的最大池化和响应归一化输出作为输入，并使用大小为5x5x48的256个内核对其进行过滤。第三卷积层将第二层的最大池化和响应归一化输出作为输入，并用384个大小为3x3x256的内核对其进行滤波。第四层有384个大小为3x3x192的内核，第五层有256个大小为3x3x192的内核。每个完全连接的层有4096个神经元。最大池化层的大小为3x3，步幅为2。最后一层是1000路Softmax。Fig. 1.深度卷积神经网络架构4.3. 培训对于训练，我们使用随机梯度下降，批量大小为128，动量为0.9，权重衰减为0.0005。我们开始训练时，所有层的学习率都是0.01，然后每当验证错误率停止改善时，我们就手动降低学习率。最终学习率为0.0001。我们训练了我们的网络大约30个时期。它比Krizhevsky等人，2012年），但我们没有足够的时间等待所有90个时代。最后，我们在第一层中得到了96个大小为11x11x3的学习内核，如图所示二、图二.由第一个卷积层92叶夫根尼Smirnov等人/ AASRI Procedia 6（2014）895. 减少过拟合我们的网络有很多参数，所以如果没有很好的正则化，它就会受到过拟合的影响。为了避免这种情况，我们使用了几种方法。首先，我们使用标准的数据增强：我们从大小为256x256x3的输入图像中裁剪大小为224x224x3的随机补丁，然后随机水平翻转其中的一些。该方法描述于（Krizhevsky等人，2012年）。它有助于增加训练数据集的大小。我们在所有网络中都使用它。其他方法是Dropout（Hinton等人，2012）、DropConnect（Wan等人，2013年）和改进的数据增强。为了比较这些方法的正则化能力，我们并行训练了三个神经网络。首先，我们训练了25个epoch的两个网络：一个使用Dropout正则化，另一个使用DropConnect正则化（每个都在自己的GPU上）。然后，我们充分利用训练好的网络（丢弃训练的网络），添加改进的数据增强，并在第三个GPU上再训练5个epoch，同时继续训练前两个没有改进的数据增强的网络。5.1. 辍学由（Hinton等人，2012年，这种方法非常流行。它包括以一定的概率（通常为50%）将选定层中每个隐藏神经元的输出设置为零，并且被证明在减少过拟合方面非常有效。我们用Dropout在6和7的全连接层上训练了一个网络5.2. DropConnect最近由（Wan et al.，2013年，这是一个新的方法。据我们所知，它只用于小数据集，表现良好，但并不总是比Dropout更好。它包括设置为零，而不是神经元的输出，但权重（见图3）在选定的层有一定的概率（通常为50%）。我们决定在ILSVRC 2013这样的大型数据集上比较它的性能，并在6和7的全连接层上使用DropConnect训练我们的第二个网络图三.正则化方法：（a）Dropout，（b）DropConnect5.3. 改进的数据扩充我们决定尝试更复杂的数据增强技术-随机缩放和旋转，而不仅仅是裁剪和随机水平翻转补丁。可悲的是，我们没有从这种技术中得到改进-错误率只会增加。我们认为这是因为我们的网络太小，我们需要更大的神经网络来有效地使用这项技术。叶夫根尼Smirnov等人/ AASRI Procedia 6（2014）89936. 结果在我们训练了三个神经网络之后，我们使用它们对数据集的验证和测试部分进行分类。为了获得更好的结果，我们使用了多视图测试技术，由Krizhevsky等人提出，2012），其包括对每个分类图像的10个块的平均预测：4个角块、中心块和它们的水平反射。此外，我们还对两个最佳网络的预测进行了平均。我们的结果列于表1中。表1. ILSVRC 2013验证集和测试集的错误率比较。模型顶部-1（val）前5名（val）前5名（测试）CNN +辍学45.2%21.6%百分之二十一点五CNN + DropConnect47.6%百分之二十三点九百分之二十三点七两种型号组合44.2%21.0%百分之二十点九使用Dropout和DropConnect正则化的网络的训练集结果大致相同（35% Top-1），并且它们的训练非常相同（除了正则化方法），因此我们认为验证和测试集性能的差异表明，对于ImageNet数据集，Dropout是比DropConnect更好的正则化技术。ILSVRC 2013竞赛结果见表2。表2. ILSVRC 2013的结果团队前5名（测试）Clarifai（获奖者）百分之十一点七NUS百分之十二点九ZF百分之十三点五安德鲁·霍华德百分之十三点五OverFeat -纽约大学百分之十四点一UVA-Euvision百分之十四点二Adobe百分之十五点一VGG百分之十五点二认知视觉16.0%无咖啡百分之十九点二IBM多媒体团队百分之二十点七Deep Punx（我们的团队）百分之二十点九Minerva-MSRA21.6%密耳百分之二十四点四橙色百分之二十五点一BUPT-橙色百分之二十五点一Trimps-Soushen 1百分之二十六点二94叶夫根尼Smirnov等人/ AASRI Procedia 6（2014）897. 讨论我们的结果表明，对于ImageNet分类任务，Dropout正则化比DropConnect更好。我们还发现我们的网络太小了，为了得到更好的结果，我们需要使用更大的网络和更好的正则化技术。我们认为可以通过使用新方法来改进结果，如DropPart（Tomczak，2013），standout（Ba和Frey，2013），maxout（Goodfellow等人，2013）、随机池（Zeiler和Fergus，2013 b）、DLSVM（Tang，2013）、Lp单位（Gulcehre等人，2013）或通道输出（Wang和Jaja，2013）和一些数据增强技术。引用[1] A.克里热夫斯基岛Sutskever，G.E.辛顿使用深度卷积神经网络进行ImageNet分类。神经信息处理系统进展25（NIPS[2] G.E.辛顿，N.斯里瓦斯塔瓦A.克里热夫斯基岛Sutskever和R.R.萨拉胡迪诺夫通过防止特征检测器的共同适应来改进神经网络。arXiv预印本arXiv：1207.0580，2012年。[3] L.Wan，M. Zeiler，S. Zhang， Y. Le Cun和R.费格斯使用DropConnect正则化神经网络。2013年第30届机器学习国际会议论文集[4] M.D.泽勒河费格斯可视化和理解卷积神经网络。arXiv预印本arXiv：1311.2901，2013 a。[5] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. Zhang，E. tzeng和T.达雷尔DeCAF：一种用于通用视觉识别的深度卷积激活特征arXiv电子印刷品，arXiv：1310.1531，2013年。[6] A.托舍夫角Szegedy，D.二汉用于物体检测的深度神经网络。在神经信息处理系统的进展，2013年。[7] D.格里什金·科列申科用于用户头像自动调整的复合人脸检测方法。计算机科学与信息技术（CSIT'13），2013年。[8] T.塞纳特湾Kingsbury，A.穆罕默德湾E. Dahl，G. Saon，H. Soltau，T.贝兰A. Y. Aravkin和B.拉玛巴德兰用于LVCSR的深度卷积神经网络的改进。arXiv预印本arXiv：1309.1501，2013年。[9] E. Smirnov，North Atlantic Right Whale Call Detection with Convolutional Neural Networks。在第一届生物声学机器学习研讨会论文集，ICML 2013，亚特兰大，美国，2013年。[10] A. Frome，G. S. Corrado，J. Shlens，S. Bengio，J. Dean，and T.米科洛夫DeViSE：一种深度视觉语义嵌入模型。在神经信息处理系统的进展（pp。2121-2129），2013年。[11] J. M.托姆恰克使用分类限制Boltzmann机预测乳腺癌复发。arXiv预印本arXiv：1308.6324，2013。[12] J. Ba和B.佛雷用于训练深度神经网络的自适应丢弃。神经信息处理系统进展。2013年。[13] I. J. Goodfellow，D. Warde-Farley，M. Mirza，A. Courville和Y.本吉奥。Maxout网络。在ICML'2013中。[14] M. D. Zeiler和R.费格斯深度卷积神经网络的随机池化。载于ICLR，2013年b。[15] C.古尔切雷湾乔河Pascanu和Y.本吉奥。深度神经网络的学习范数池。arXiv预印本arXiv：1311.1780。，2013年。[16] Q. Wang，J. JaJa.从Maxout到Maxel-Out：稀疏路径上的编码信息。arXiv预印本arXiv：1312.1909.，2013年。[17] Y.唐使用线性支持向量机进行深度学习。ICML 2013年表征学习研讨会，2013年。

下载后可阅读完整内容，剩余1页未读，立即下载