
收稿日期:20180418;修回日期:20180614 基金项目:国家自然科学基金资助项目(41671431);上海市科委地方高校能力建设项目
(15590501900)
作者简介:郑宗生(1979),男,副教授,博士,主要研究方向为海洋信息化、深度学习;侯倩(1992),女,硕士研究生,主要研究方向为图像处
理、深度学习;邹国良(1961),男(通信作者),教授,博士,主要研究方向为海洋信息处理及应用(glzou@shou.edu.cn);卢奇(1990),女,硕士研究
生,主要研究方向为图像处理.
基于改进最小分类误差准则算法的深度学习研究
———以台风卫星云图为例
郑宗生,侯 倩,邹国良
,卢 奇
(上海海洋大学 信息学院,上海 201306)
摘 要:针对传统基于最小分类误差准则(MCE)建立的目标函数存在样本错分类时网络出现的梯度反向问题,
引入最小分类误差准则,定义带修正项的 FMCE目标函数。以较高精度的交叉熵作为基函数,将 FMCE作为修
正函数,提出改进交叉熵目标函数 CEFMCE,使得网络在反向传播过程中提升标签类输出的概率。CEFMCE不
仅克服了传统 MCE目标函数的梯度反向问题,还弥补了交叉熵函数对非标签集梯度不作区分处理的不足。分
别在自建台风云图数据集和通用数据集 MNIST上对 CEFMCE和 MSE、交叉熵、MCE、M
3
CE进行对比实验,实验
结果表明 CEFMCE优于其他目标函数。
关键词:深度学习;卷积神经网络;交叉熵;最小分类误差准则;台风等级
中图分类号:TP305 文献标志码:A 文章编号:10013695(2019)10063316004
doi:10.19734/j.issn.10013695.2018.04.0335
Researchondeeplearningbasedonimprovedminimalclassificationerrorcriterion
algorithm:taketyphoonsatelliteimageasexample
ZhengZongsheng,HouQian,ZouGuoliang
,LuQi
(CollegeofInformationTechnology,ShanghaiOceanUniversity,Shanghai201306,China)
Abstract:Forthetraditionalobjectivefunctionbasedontheminimumclassificationerrorcriterion(MCE),thereexiststhe
problem ofgradientinversioninthenetworkwhenthesampleismisclassified.Thispaperintroducedtheminimumclassification
errorcriterionanddefinedtheFMCEobjectivefunctionwithcorrectionterm.Thispaperusedthehigherprecisioncrossentropy
asabasisfunctionandFMCEasacorrectionfunction,andproposedanimprovedcrossentropyobjectivefunctionCEFMCE,
whichmadethenetworkincreasetheprobabilityoflabelclassoutputinthereversepropagationprocess.CEFMCEnotonly
overcamethegradientinversionproblemofthetraditionalMCEobjectivefunction,butalsocompensatedforthelackofdiffer
entiationofthecrossentropyfunctionfornonlabelsetgradients.ThispapercomparedCEFMCEwithMSE
,crossentropy,
MCE,andM
3
CEonselfbuilttyphoonimagedatasetandgeneraldatasetMNIST.TheexperimentalresultsshowthatCEFMCE
issuperiortootherobjectivefunctions.
Keywords:deeplearning;convolutionalneuralnetwork;crossentropy;minimum classificationerrorcriterion;typhoon
rating
0 引言
深度学习是当前流行的机器学习算法
[1]
,针对浅层神经
网络对复杂分类问题泛化能力弱的缺点,其通过模拟人脑进行
逐层学习,提取自然信息的深层抽象特征来提高泛化能力
[2]
。
目前,深度学习在模式识别、智能视频、机器视觉等研究领域取
得了一系列成果
[3~6]
。卷积神经网络(convolutionalneuralnet
work,CNN)作为深度学习算法成功应用的模型之一,由 Pfeifer
等人
[7]
在 1989年提出。直到 2012年在 ImageNet评测问题中
将错误率降低了 9%,CNN才在图像识别应用方面获得重大进
展
[8]
。目前国内外研究人员对 CNN的权值优化方法主要集中
在选择合适的网络参数 (如变尺寸卷积核
[9]
、参数 池 化
[10]
、
dropout置零率
[11]
等);使用具有更好稀疏特性的激活函数(如
ReLU、LeakyReLU、PReLU等)。其中权值优化方法中,目标函
数至关重要,目标函数作为
CNN模型中重要的组成部分,其值
越小表示模型的鲁棒性越好
[12]
。在网络的训练过程中它不仅
能表示当前网络的状态,还在反向传播的梯度下降算法中提供
参数的梯度。如果输出层的梯度太小,梯度经过深层网络衰减
后,低层基本接受不到有效的训练信号。如何使网络权值达到
最优,从而提高泛化能力,其中构建目标函数成为研究的热点。
在卷积神经网络算法中,通常使用的目标函数有最小均方
误差(
meansquareerror,MSE)、交叉熵(crossentropy)等,其中
MSE更适用于解决回归问题。Papoulis等人
[13]
认为在分类问
题中
MSE估计的是后验概率,当网络的输出函数为 sigmoid时
网络存在梯度消失的问题。随着 CNN的发展,研究证明交叉
熵损失函数较 MSE平坦区域更少,使得网络更容易跳出局部
最佳值
[14,15]
,对于多分类问题使用交叉熵作为目标函数能够
取得更好的效果。因此,目前对于目标函数的研究,大多是针
对特定的问题,在交叉熵函数的基础上引入与之相关的参数
项。例如归?
[12]
针对人脸识别问题,增加个体内差异的损失
函数作为正则项,使得网络学习到属于同一个人的特征向量在
空间内尽可能相似。但是交叉熵函数在梯度下降算法中并不
第 36卷第 10期
2019年 10月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol36No10
Oct.2019