混合maxout单元优化深度卷积神经网络性能

1 下载量 123 浏览量 更新于2024-08-29 收藏 1.18MB PDF 举报
"这篇论文是2017年7月发表在《通信学报》上的,作者赵慧珍、刘付显、李龙跃和罗畅来自空军工程大学防空反导学院,研究主要关注深度卷积神经网络(CNN)中的性能优化问题。他们针对maxout单元在深度学习中的局限性,提出了一种新的混合maxout(mixout)单元,旨在解决非最大特征传递和特征图像子空间池化表达能力不足的问题。通过计算指数概率分布、求取特征图像子空间的期望以及利用伯努利分布加权最大值和期望值,他们设计了一个均衡的单元模型。实验结果表明,基于mixout单元的模型在性能上表现优越。" 本文讨论了深度学习中的关键组件——卷积神经网络(CNN),CNN因其在图像识别、语音处理等领域表现出色而被广泛应用。然而,传统的maxout单元存在一些缺陷,比如非最大特征不能被有效地传递,以及在特征图像子空间池化过程中表达能力有限。为了解决这些问题,研究者提出了混合maxout单元。 maxout单元是一种特殊的激活函数,它由多个线性映射组成,并选取其中的最大值作为输出,这种设计可以避免饱和问题,提高模型的表达能力。但在深度网络中,非最大值的特征可能会丢失,限制了模型的学习能力。为解决这个问题,混合maxout单元引入了指数概率分布的概念,来计算不同卷积变换下特征图像子空间的分布情况。然后,通过计算这些子空间的期望值,结合伯努利分布对最大值和期望值进行加权,以达到更好的特征提取和信息传递效果。 实验部分,研究人员构建了基于mixout单元的简单模型和更复杂的网中网模型(即Network in Network,NiN)。网中网结构是CNN的一种变体,其内部的小型多层感知机增强了特征学习的能力。结果显示,无论是在简单的模型还是在NiN模型中,mixout单元都表现出优于传统maxout单元的性能。 这项工作为深度学习模型的优化提供了一个新视角,混合maxout单元的提出有助于增强CNN的表示能力和泛化能力,对于提升深度学习系统的整体性能具有重要意义。此外,这种方法也可以启发其他领域的研究,如自然语言处理和强化学习,来改进其模型中的激活函数设计。