没有合适的资源?快使用搜索试试~ 我知道了~
⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6(2020)312www.elsevier.com/locate/icte批量大小对卷积神经网络在组织病理学数据集上的泛化能力的影响Mauro Castelli, KandelSundayNova Information Management School(NOVA IMS),Universidade Nova de Lisboa,Campus de Campolide,1070-312,Lisbon,Portugal接收日期:2019年9月30日;接收日期:2020年3月28日;接受日期:2020年4月28日2020年5月5日网上发售摘要许多超参数必须进行调整,以拥有一个强大的卷积神经网络,能够准确地对图像进行分类。最重要的超参数之一是批量大小,这是用于训练单个向前和向后传递的图像数量。在这项研究中,将研究批量大小对卷积神经网络性能的影响以及学习率对图像分类的影响,特别是对医学图像的影响。为了更快地训练网络,本实验中使用了具有ImageNet权重的VGG16网络。我们的研究结果得出结论,更高的批量大小通常不会实现高精度,并且学习率和优化器也将产生重大影响。降低学习率和减少批量大小将使网络能够更好地训练,特别是在微调的情况c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:卷积神经网络;深度学习;图像分类;医学图像;批量1. 介绍自近二十年前引入以来,卷积神经网络(CNN)[1]一直 被 用 作 主 要的 图 像 分 类 算 法 。CNN 的 真 正 力 量 在ImageNet竞赛中被重新发现,AlexNet架构成功地对数百万张图像进行了分类,其中包含数千个标签,准确率为85%,而传统算法为74%,CNN再次成为图像分类中最重要的算法之一。使用CNN的主要好处之一是它不需要任何手动特征提取,这使得它对新数据集具有鲁棒性。CNN不仅在图像分类领域取得了成功,而且还成功地应用于文本分类[4]、气候变化检测[5]和语音识别[6]等领域。由于复杂性和严重性,医学图像可以被认为是非常复杂的数据集,并且它们需要具有多年经验的有经验的医生能够对图像进行分类医学图像示例∗ 通讯作者。电子邮件地址: D20181143@novaims.unl.pt(I. Kandel)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.04.010CNN可以应用于组织病理学图像,这些图像是由病理学家评估的图像,以评估组织是否是癌性的。即使对于有经验的病理学家来说,组织学图像的分类也非常具有挑战性,这就是CNN可以应用的地方,无论是在提供第二意见还是在分类这些图像时为病理学家提供帮助为了正确地训练CNN能够对图像进行分类,需要调整许多超参数;这些超参数将影响网络在收敛过程中的性能。需要调整的主要超参数之一是批量大小[7],这是每个时期用于训练网络的图像数量。将这个超参数设置得太高会使网络需要太长时间才能实现收敛(精度没有更多的提高);但是,如果它太低,它会使网络来回反弹,而不会达到可接受的性能。此外,数据集的性质也会对批大小产生影响,尤其是因为它的复杂性,在这项研究中,我们研究了批量大小对CNN性能的影响以及学习率的影响用于图像分类。使用两种不同的优化器来评估批量的影响。本实验中使用的CNN架构是VGG 16 [8];网络经过微调以适应此数据集,并避免从2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。M∈ˆθ∈RˆMi=1不2 t−12∂wt∂wtW不∂wt∂wt√I. Kandel和M. Castelli/ICT Express 6(2020)312-315313抓痒.你知道这项实验研究旨在通过CNN解决给定问题之前,更好地了解要考虑的批量值。事实上,尽管批量大小值对于CNN的学习过程很重要,但科学文献只提供了关于这个主题的一些研究。此外,如第2节所述,文献中报告的结果未报告一致的结论,一些作者表示倾向于大批量值,其他研究建议使用小批量值。本文的其余部分组织如下。在第2节中,介绍了先前对批量大小所做的研究。在第3节中,介绍了我们的方法。在第4节和第5节中,我们给出了我们的结果,然后得出结论。2. 文献综述在训练CNN对图像进行分类之前,需要调整许多超参数。在开始训练过程之前需要调整的主要超参数之一是批量大小,其中批量大小是在三个数据集上:CIFAR10,CIFAR100和ImageNet。作者指出,批量在2 - 32之间时获得了最佳结果,作者指出小批量比大批量更耐用一般来说,关于批量大小的主要问题是训练CNN的最佳批量大小,这将有助于网络在最短的时间内实现最高的准确性,特别是对于复杂的数据集,如医学图像数据集。3. 方法训练CNN对图像进行分类可以定义为 通过使用随机梯度下降或Adam优化器等优化器来最小化非凸损失函数L(θ),其中L(θ)是数据集上训练图像的平均成本Li(θ),M是图像数据集的大小。arg minL(θ);L(θ)=1∑Li(θ)将在梯度估计过程中使用的图像。许多研究人员研究了批量大小对网络性能的影响-无论是网络的准确性还是收敛所需的时间-以确定哪一个更好:小批量还是大批量。一方面,小批量可以比大批量更快地收敛,但是大批量可以达到小批量无法达到的最优最小值。此外,由于其高方差,小批量可以具有显着的正则化效果[9],但它需要较小的学习率以防止它超过最小值[10]。下面是一些研究,调查使用小批量和大批量的利弊。在2017年,Radiuk [11]研究了批量大小对CNN图像分类性能的影响,作者使用梯度更新有三种计算选项:使用整个图像数据集M、使用单个图像或使用1到M之间的数字。以前的方法分别被命名为批量梯度下降,随机梯度下降和小批量梯度下降。批量大小超参数B是每次用于更新梯度的图像数量。通过使用SGD优化器,网络权重将使用以下等式更新wt+1=wt−η<$L;<$L=<$WC(wt;x(B);y(B))其中η是学习率,x是使用的样本图像,y是图像标签,w是正在更新的权重。对于Adam优化器,将使用以下内容更新权重:实验中的两个数据集,即MNIST和CIFAR-10i iη姆贝特数据集。Radiuk以2的幂测试批量,从从16到1024,以及50,100,150,200和250。Radiuk为MNIST数据集选择了LeNet架构wt=wt −1−v+。其中m=mtt,vt=vtt,mt=β1mt−1+(1−β1)<$L,1−β11−β2∂wt和一个定制的网络,有五个卷积层,CIFAR-10数据集。用于两个网络的优化器v= β v+(1 −β)[L]2且L= C(w;x(B);y(B))是随机梯度下降优化器,MNIST的比率为0.001,CIFAR-10数据集为0.0001。对于这两个数据集,1024批量获得了最佳准确度,16批量获得了最差结果。作者表示,根据他们的结果,批量大小越高,网络准确性越高,这意味着批量大小对CNN性能有巨大的影响Bengio [12]表示,批量大小为32是一个很好的默认值,他还表示,较大的批量大小将加快网络的计算速度,但会减少网络达到收敛所需的更新。作者指出,批量大小可能会影响收敛时间,而不是网络性能。与此同时,Masters和Luschi [13]在AlexNet [3]和ResNet [14]架构上测试了批量大小在21和211之间的影响,SGD作为优化器,没有动量来排除动量对训练的影响。作者研究了批量大小的影响其中βi[0,1]用于确定mt是第一个动量,它是梯度经偏差校正的第一动量和第二动量分别为mt和m t。vt.从前面的等式可以看出,批量大小和学习率相互影响,它们对网络性能有巨大的影响为了加快网络训练速度并提高其鲁棒性,对VGG16网络进行了微调。微调网络被认为是一种迁移学习的方法,其中在不同数据集上训练的网络之间进行知识转移。由于从头开始训练CNN权重需要数百万张图像和数天的训练,而医学图像无法使用这些图像,因此迁移学习的使用在医学领域非常有用[15]。不×==+314I. Kandel和M.Castelli/ICT Express 6(2020)312表1Adam优化器的测试AUC的结果检测AUC批量亚当LR= 0.0001亚当LR= 0.001160.96770.9144320.96360.9332640.96160.93811280.95670.94322560.95850.9652Fig. 1. VGG16网络架构。表2SGD优化器的测试AUC的结果检测AUC批量新加坡元LR= 0.0001新加坡元LR=0.001160.95550.9461320.95700.9521640.95120.95451280.93020.9567图二、 PatchCamelyon数据集的示例。2560.90770.9579VGG 16 [8]网络被认为是图像分类中最重要的CNN之一,因为它的架构既深又简单,这使它在提供良好性能的同时具有抗过拟合的鲁棒性; VGG 16如图所示。1 .一、本实验中使用的数据集是PatchCame- lyon [16],[17]这是一个公共数据集,包含220,000个二进制标记图像来训练CNN。数据集是平衡的,这意味着它包含60%的阳性图像和40%的阴性图像。Kaggle平台上提供了另外57,458张图像来测试该算法。所有图像均为9696像素。数据集的样本如图所示。 二、图像增强通常用于增加图像数据集,并使网络对平移不变性更具鲁棒性。图像增强的定义是通过翻转、旋转、缩放和调整亮度来创建原始图像数据集的副本。在这项工作中,图像被水平和垂直翻转,图像旋转180度;一些图像被放大;一些图像被移动。为了评估CNN分类器性能(即确定分类器将阳性图像分类为阳性和将阴性图像分类为阴性的能力),使用ROC曲线下面积(AUC),其可以正式定义为[18]:AUC1(T PT N)的方式2T N+F N T N+F P其中T P是真阳性度量,其是被分类为阳性的阳性图像;TN是真阴性度量,其是被分类为阴性的阴性图像;F P是假阳性度量,其是被分类为阳性的阴性图像;F N是假阴性度量,其是被分类为阴性的阳性图像。最小值 AUC度量的最大值为0.5,这表示该模型没有预测能力,最大值为1,表明该模型在图像分类方面具有完美的能力。4. 结果VGG16网络的最后两个块使用80%的数据集进行了微调,并在剩余的20%的数据集上进行了验证,之后保存了最佳模型并用于对Kaggle在线测试集进行分类。本实验中使用的批量大小为B[16, 32, 64, 128, 256];使用了两个优化器,即SGD和Adam优化器,每个优化器使用两个学习率,分别为0.001和0.0001。为了结果的一致性,并且由于数据集的大小,epoch的数量固定为50 epoch。为了克服过拟合,只保存最好的模型,这意味着在训练阶段,如果epoch的验证精度高于最高精度,则保存模型。Kaggle在线测试集的结果如表1和表2所示。表1显示了学习率为0.001和学习率为0.0001的Adam优化器的结果。对于0.001的学习率,实现的最小批量大小(16)最低的AUC最高性能来自使用最大批量(256);可以证明批量越大,性能越高。对于0.0001的学习率,差异轻微;然而,最小批量(16)达到最高AUC,而最大批量(256)达到表2显示了学习率为0.001和学习率为0.0001的SGD优化器的结果。对于0.001的学习率,我们可以看到大批量获得了最高的AUC,而最低的是使用最小批量(16)。对于0.0001的学习率,则相反;最大批量(256)达到最低AUC,而32批量达到最高,其次是最低批量。I. Kandel和M. Castelli/ICT Express 6(2020)312-315315实验期间达到的最高总体AUC是Adam的,学习率为0.0001,批量为16。我们的结果与Masters和Luschi [13]获得的结果一致,其中作者指出应使用较小的批量。根据Radiuk [11]的说法,当使用大的学习率时,批量越大,CNN的性能就越好。虽然在我们的研究中不建议使用大批量值,但Radiuk的结果与我们关于批量大小和学习率之间关系的研究结果相匹配。特别是,我们强调了更高的学习率需要更大的批量。最后,Bengio [12]建议32是批量大小的一个很好的默认值。虽然这被我们的实验所证实(其中32个批量提供了良好的结果),但最佳性能是在16个批量时实现的5. 结论卷积神经网络在图像分类方面表现出了卓越的准确性,但为了准确地训练CNN,需要根据所使用的数据集调整许多超参数。医学领域可以通过在图像分类中使用CNN来提高准确性而受益匪浅。在本文中,我们比较了使用不同批量大小和不同学习率的CNN的性能。根据 根据我们的结果,我们可以得出结论,学习率和批量大小对性能有显着影响,网络。学习率和批量大小之间存在高度相关性,当学习率较高时,大批量的性能优于小学习率。我们建议选择小批量和低学习率。实际上,为了确定最佳的批量大小,我们建议先尝试较小的批量大小(通常为32或64),同时要记住,较小的批量大小需要较小的学习率。批量大小的数量应该是2的幂,以充分利用GPU处理。随后,可以增加批量值,直到获得满意的结果。CRediT作者贡献声明Kandel:调查,可视化,方法学,软件,写作-原始草稿。Mauro Castelli:概念化,监督,验证,写作-评论编辑。竞合利益作者声明,他们没有已知的可能影响本文所报告工作致谢这项工作得到了国家基金的支持,通过FCT(FundacaoparaaCie nciaeaTecnologia),Portug al通过项目GADgET(DSAIPA/DS/0022/2018)和AICE(DSAIPA/DS/0113/2019)。Mauro Castelli感谢斯洛文尼亚 研 究 机 构 的 财 政 支 持 ( 研 究 核 心 资 金 编 号 : \P5-0410)。引用[1] Y.勒昆湖,加-地博图湾,巴西-地陈文辉,基于学习理论的文本识别方法,北京大学出版社,2000。[2] O. Russakovsky等人,Imagenet大规模视觉识别挑战赛,Int. J.Comput. 目视115(2014)。[3] A.克里热夫斯基岛萨茨克弗,G. E. Hinton,ImageNet ClassificationwithDeepConvolutional Neural Networks,Vol. 2012年25日[4] M.休斯岛Li,S. Kotoulas,T.林文生,基于卷积神经网络的医学文本分类,北京大学出版社,2001。 235(2017)。[5] Y. Liu等人,深度卷积神经网络在气候数据集中检测极端天气的 应用,2016年。[6] O. Abdel-Hamid,A. Mohamed,H. 江湖,澳-地 Deng,G. 佩恩,D.余,卷积神经网络在语音识别中的应用,IEEE/ACM,语音处理。22(10)(2014)1533-1545。[7] S. 约 费 角 Szegedy , Batch Normalization : Accelerating DeepNetworkTrainingby Reducing Internal Covariable Shift,2015。[8] K.西蒙尼扬A. Zisserman,Very deep convolutional networks forlarge-scale image recognition,2014。[9] D.R. 威 尔 逊 , T.R. Martinez , The general efficiency of batchtrainingforgradient descent learning,Neural Netw. 16(10)(2003)1429[10] I. 古 德 费 洛 , 澳 - 地 Bengio , A. Courville , Deep Learning ,MITPress,2016。[11] P. Radiuk,训练集批量大小对不同数据集卷积神经网络性能的影响,Inf.Technol. 经理。Sci. 20(2017)。[12] Y. Bengio,基于梯度的深度架构培训的实用建议,2012年,Arxiv。[13] D. 马 斯 特 斯 角 Luschi , Revisiting small batch training for deepneuralnetworks,2018。[14] K. 他,X。Zhang ,S. Ren ,J. Sun ,Deep Residual Learning forImageRecognition,Vol. 7,2015。[15] N. Tajbakhsh等人,用于医学图像分析的卷积神经网络:完全训练还是微调?IEEE Trans. Med. Imaging 35(5)(2016)1299-1312。[16] B.S. Veeling,J. Linmans,J. Winkens,T.科恩,M。Welling,用于数字病理学BT的旋转等变CNN-医学图像计算和计算机辅助干预-MICCAI 2018,2018,第210 -218[17] B. Ehteshami Bejnordi等人, 深度学习算法检测乳腺癌女性淋巴结转移的诊断评估乳腺癌淋巴结转移的机器学习检测机器学习 检测 乳腺癌淋巴结转移,JAMA 318(22)(2017)2199-2210。[18] F.Idrees , M.Rajarajan , M.Conti , T.M.Chen , Y.Rahulamathavan,Pindroid:一种使用集成学习方法的新型Android恶意软件检测系统,Comput。安全性68(2017)36
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功