混合maxout单元优化深度卷积神经网络性能

123 浏览量更新于2024-08-29 收藏 1.18MB PDF 举报

"这篇论文是2017年7月发表在《通信学报》上的，作者赵慧珍、刘付显、李龙跃和罗畅来自空军工程大学防空反导学院，研究主要关注深度卷积神经网络(CNN)中的性能优化问题。他们针对maxout单元在深度学习中的局限性，提出了一种新的混合maxout(mixout)单元，旨在解决非最大特征传递和特征图像子空间池化表达能力不足的问题。通过计算指数概率分布、求取特征图像子空间的期望以及利用伯努利分布加权最大值和期望值，他们设计了一个均衡的单元模型。实验结果表明，基于mixout单元的模型在性能上表现优越。" 本文讨论了深度学习中的关键组件——卷积神经网络(CNN)，CNN因其在图像识别、语音处理等领域表现出色而被广泛应用。然而，传统的maxout单元存在一些缺陷，比如非最大特征不能被有效地传递，以及在特征图像子空间池化过程中表达能力有限。为了解决这些问题，研究者提出了混合maxout单元。 maxout单元是一种特殊的激活函数，它由多个线性映射组成，并选取其中的最大值作为输出，这种设计可以避免饱和问题，提高模型的表达能力。但在深度网络中，非最大值的特征可能会丢失，限制了模型的学习能力。为解决这个问题，混合maxout单元引入了指数概率分布的概念，来计算不同卷积变换下特征图像子空间的分布情况。然后，通过计算这些子空间的期望值，结合伯努利分布对最大值和期望值进行加权，以达到更好的特征提取和信息传递效果。实验部分，研究人员构建了基于mixout单元的简单模型和更复杂的网中网模型（即Network in Network，NiN）。网中网结构是CNN的一种变体，其内部的小型多层感知机增强了特征学习的能力。结果显示，无论是在简单的模型还是在NiN模型中，mixout单元都表现出优于传统maxout单元的性能。这项工作为深度学习模型的优化提供了一个新视角，混合maxout单元的提出有助于增强CNN的表示能力和泛化能力，对于提升深度学习系统的整体性能具有重要意义。此外，这种方法也可以启发其他领域的研究，如自然语言处理和强化学习，来改进其模型中的激活函数设计。

2017 年 7 月 Journal on Communications July 2017

2017145-1

第 38 卷第 7 期通信学报 Vol.38

No.7

基于混合 maxout 单元的卷积神经网络性能优化

赵慧珍，刘付显，李龙跃，罗畅

（空军工程大学防空反导学院，陕西西安 710051）

摘要：针对深度卷积神经网络中 maxout 单元非最大特征无法传递、特征图像子空间池化表达能力不足的局限

性，提出混合 maxout (mixout, mixed maxout)单元。首先，计算相同输入在不同卷积变换下所形成的特征图像子空

间的指数概率分布；其次，根据概率分布计算特征图像子空间的期望；最后，利用伯努利分布对子空间的最大值

与期望值加权，均衡单元模型。分别构建基于 mixout 单元的简单模型和网中网模型进行实验，结果表明 mixout

单元模型性能较好。

关键词：深度学习；卷积神经网络；maxout 单元；激活函数

中图分类号：TP391.3 文献标识码：A

Improving deep convolutional neural networks

with mixed maxout units

ZHAO Hui-zhen, LIU Fu-xian, LI Long-yue, LUO Chang

(School of Air and Missile Defense, Air Force Engineering University, Xi’an 710051, China)

Abstract: The maxout units have the problem of not delivering non-max features， resulting in the insufficient of pooling

operation over a subspace that is composed of several linear feature mappings, when they are applied in deep convolu-

tional neural networks. The mixed maxout (mixout) units were proposed to deal with this constrain. Firstly, the exponen-

tial probability of the feature mappings getting from different linear transformations was computed. Then, the averaging

of a subspace of different feature mappings by the exponential probability was computed. Finally, the output was ran-

domly sampled from the max feature and the mean value by the Bernoulli distribution, leading to the better utilizing of

model averaging ability of dropout. The simple models and network in network models was built to evaluate the perfor-

mance of mixout units. The results show that mixout units based models have better performance.

Key words: deep learning, convolutional neural network, maxout units, activation function

1 引言

近年来，均衡随机单元进而规则化深度卷积神

经网络（CNN, convolutional neural network）

[1,2]

成

为改善深度学习过拟合问题的有效手段

[3]

。2012 年，

Hinton 等

[4]

提出的 dropout 是首个通过均衡随机单

元以达到 CNN 模型规则化的方法，通过在全连接

层利用伯努利分布对连接加权，减少分类对任意单

元的过度依赖，从而改善过拟合现象；Krizhevsky

等

[5]

验证了 dropout 在不同规模数据集上的适用性；

Wang 等

[6]

利用高斯近似法进行快速 dropout 训练；

Ba 等

[7]

利用与深度模型共享参数的二置信网络计

算每个隐含层的 dropout 概率，改进模型学习效果；

Tompson 等

[8]

将 dropout 拓展应用到整个特征空间，

形成空间 dropout 方法；Wan 等

[9]

在 dropout 的基础

上提出 dropconnect 方法，与 dropout 随机将神经元

输出置零不同，dropconnect 随机将权重矩阵元素置

零。Dropout 能够训练大量共享参数的单元模型，

且均衡这些单元模型对整个模型输出的影响，有效

改善过拟合现象，提高模型特征学习能力。然而，

dropout 在后向传播中的更新针对的是不同训练子

集上的不同模型，因此，能够在参数共享条件下将

收稿日期：2016-09-27；修回日期：2017-03-02

基金项目：国家自然科学基金资助项目（No.61601499）

Foundation Item: The National Natural Science Foundation of China (No.61601499)

doi:10.11959/j.issn.1000-436x.2017145

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38744207

粉丝: 344
资源: 2万+

混合maxout单元优化深度卷积神经网络性能

基于混合maxout单元的卷积神经网络性能优化.pdf

基于ReLU稀疏性的MAXOUT卷积神经网络的数据分类算法.pdf

基于深度优化残差卷积神经网络的端到端语音识别.pdf

基于优化卷积神经网络结构的人体行为识别.pdf

基于深度卷积神经网络的道路场景理解.pdf

基于卷积神经网络的煤炭运载车辆识别.pdf

基于卷积神经网络的维吾尔语语音识别.pdf

卷积神经网络与迁移学习

卷积神经网络的研究.pdf

分离多路卷积神经网络研究.pdf

最新资源