幂线性单元PoLU：一种新型CNN激活函数

需积分: 12 69 浏览量更新于2024-08-13 收藏 987KB PDF 举报

"该文提出了一种新的参数化激活函数——幂线性单元（Power Linear Unit，PoLU），旨在解决修正线性单元（ReLU）在处理负激活值时可能丢失有用信息的问题。PoLU引入了有符号的幂非线性变换来处理负激活部分，而正激活部分则保持不变，其幂函数的参数可在卷积神经网络（CNN）的训练过程中自适应学习。PoLU在设计上兼顾了高效性和灵活性，适用于不同结构的CNN模型。实验在CIFAR-10/100数据集上进行，结果显示PoLU在性能上优于ReLU和其他相关激活函数。" 正文：在深度学习领域，激活函数在神经网络中起着至关重要的作用，它们引入非线性特性，使得网络能够学习更复杂的模式。传统的Sigmoid和Tanh函数虽然能提供连续的梯度，但在训练大型网络时往往面临梯度消失的问题。修正线性单元(ReLU)因其简单且高效的特性，逐渐成为主流的激活函数。然而，ReLU的一个主要缺点是会丢弃所有负输入，这可能导致网络失去部分重要信息，特别是在训练初期。为了克服ReLU的这一局限性，研究人员提出了一系列变体，如参数化修正线性单元(PReLU)和指数线性单元(ELU)。PReLU通过引入可学习的参数，允许负区间的线性变换，从而保留了部分负激活值的信息。ELU则通过指数形式的激活函数，不仅解决了梯度消失问题，还在一定程度上解决了ReLU的死亡问题。然而，这些激活函数仍有待进一步优化。在这样的背景下，本文提出了幂线性单元(PoLU)，这是一种新颖的参数化激活函数。PoLU对负激活部分应用有符号的幂非线性变换，其幂的参数是可学习的，这允许网络根据数据自我调整其非线性程度。在正激活部分，PoLU保持与ReLU相同的线性行为，以保持计算效率。由于其自适应性和灵活性，PoLU能够适应不同的CNN架构，并有望提高网络的整体性能。在实验部分，PoLU被应用于CIFAR-10和CIFAR-100数据集的图像分类任务。这两个数据集包含了广泛的颜色和形状变化，是对激活函数性能的有效测试平台。实验结果表明，PoLU在准确性上优于ReLU以及与之相关的PReLU和ELU，验证了其在保留和利用负激活值信息方面的有效性。此外，论文还指出，PoLU的实现较为高效，这使得它能够在实际应用中得到广泛采用。随着深度学习技术的不断发展，优化激活函数以提高模型的表达能力和泛化能力仍然是一个关键的研究方向。PoLU的提出为这一方向提供了新的思路，有望推动未来神经网络设计的进步。 PoLU作为对现有激活函数的改进，展示了其在深度学习中的潜力。其独特的幂非线性处理方式，使得负激活值也能为网络学习贡献信息，从而提高了模型的性能。未来的研究可能会进一步探索PoLU与其他深度学习技术的结合，以发掘更多的优势。

收稿日期：２０１８０４０８；修回日期：２０１８０５２４　　基金项目：国家自然科学基金资助项目（６１４７１０８２）

作者简介：骆训浩（１９９３），男，湖北黄石人，硕士研究生，主要研究方向为图像分类、深度学习（ｌｕｏｘｕｎｈａｏ＠ｍａｉｌ．ｄｌｕｔ．ｅｄｕ．ｃｎ）；李培华（１９７３），

男，黑龙江人，教授，主要研究方向为计算机视觉、模式识别、统计机器学习．

一种改进的基于幂线性单元的激活函数



骆训浩，李培华

（大连理工大学电子信息与电气工程学部，辽宁大连１１６０２４）

摘　要：针对修正线性单元（ＲｅＬＵ）完全丢弃网络中包含有用信息的负激活值问题，基于参数化修正线性单元

（ＰＲｅＬＵ）和指数线性单元（ＥＬＵ）的研究，提出一种新颖的参数化激活函数幂线性单元（ＰｏＬＵ）。ＰｏＬＵ对输入的

负激活部分实施有符号的幂非线性变化，幂函数的参数是可以在ＣＮＮ训练过程中自适应学习的，同时像ＲｅＬＵ

那样保持正激活部分不变。ＰｏＬＵ可以高效地实现并且灵活地运用到不同的卷积神经网络架构中。在广泛使用

的ＣＩＦＡＲ１０／１００数据库上的实验结果表明，ＰｏＬＵ要优于ＲｅＬＵ和它相对应的激活函数。

关键词：幂线性单元；参数化激活函数；卷积神经网络

中图分类号：ＴＰ１８３　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１９）１００５９３１４５０３

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０４．０３３１

Ｉｍｐｒｏｖｅｄａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｂａｓｅｄｏｎｐｏｗｅｒｌｉｎｅａｒｕｎｉｔ

ＬｕｏＸｕｎｈａｏ，ＬｉＰｅｉｈｕａ

（ＦａｃｕｌｔｙｏｆＥｌｅｃｔｒｏｎｉｃＩｎｆｏｒｍａｔｉｏｎ＆ＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，ＤａｌｉａｎＬｉａｏｎｉｎｇ１１６０２４，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＡｉｍｉｎｇａｔｔｈｅｐｒｏｂｌｅｍｔｈａｔＲｅＬＵｃｏｍｐｌｅｔｅｌｙｄｉｓｃａｒｄｓｎｅｇａｔｉｖｅａｃｔｉｖａｔｉｏｎｓｗｈｉｃｈｏｆｔｅｎｃｏｎｔａｉｎｍｕｃｈｉｎｆｏｒｍａｔｉｏｎ．

Ｂａｓｅｄｏｎｔｈｅｒｅｓｅａｒｃｈｏｆｐａｒａｍｅｔｒｉｃｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ

（ＰＲｅＬＵ）ａｎｄｅｘｐｏｎｅｎｔｉａｌｌｉｎｅａｒｕｎｉｔ（ＥＬＵ），ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｏ

ｖｅｌｐａｒａｍｅｔｒｉｃａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｃａｌｌｅｄｐｏｗｅｒｌｉｎｅａｒｕｎｉｔ（ＰｏＬＵ）．ＴｈｅｐｒｏｐｏｓｅｄＰｏＬＵｐｅｒｆｏｒｍｅｄｔｈｅｓｉｇｎｅｄｐｏｗｅｒｎｏｎｌｉｎｅａｒ

ｔｒａｎｓｆｏｒｍａｔｉｏｎｏｎｎｅｇａｔｉｖｅａｃｔｉｖａｔｉｏｎｓ．Ｉｔａｄａｐｔｉｖｅｌｙｌｅａｒｎｅｄｔｈｅｐａｒａｍｅｔｅｒｓｏｆｐｏｗｅｒｆｕｎｃｔｉｏｎｄｕｒｉｎｇｔｈｅｔｒａｉｎｉｎｇｐｒｏｃｅｓｓｏｆ

ＣＮＮ．Ｍｅａｎｗｈｉｌｅ

，ＰｏＬＵｒｅｍａｉｎｅｄｔｈｅｐｏｓｉｔｉｖｅａｃｔｉｖａｔｉｏｎｓｕｎｃｈａｎｇｅｄ．ＩｔｅｆｆｉｃｉｅｎｔｌｙｉｍｐｌｅｍｅｎｔｅｄＰｏＬＵａｎｄｂｅｆｌｅｘｉｂｌｙａｄｏｐｔｅｄ

ｔｏｖａｒｉｏｕｓＣＮＮ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｗｉｄｅｌｙｕｓｅｄＣＩＦＡＲ１０／１００ｂｅｎｃｈｍａｒｋｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔＰｏＬＵｉｓｍｕｃｈｂｅｔｔｅｒ

ｔｈａｎＲｅＬＵａｎｄｏｕｔｐｅｒｆｏｒｍｓｉｔｓｃｏｕｎｔｅｒｐａｒｔｓ．

Ｋｅｙｗｏｒｄｓ：ｐｏｗｅｒｌｉｎｅａｒｕｎｉｔ；ｐａｒａｍｅｔｒｉｃａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ；ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ（ＣＮＮ）

０　引言

近年来，深度卷积神经网络（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ，

ＣＮＮ）备受关注并且在许多计算机视觉任务中获得了引人注目

的性能

［１～３］

。激活函数是ＣＮＮ中的基础单元，最近的研究表

明，将修正线性单元（ｒｅｃｔｉｅｄｌｉｎｅａｒｕｎｉｔ，ＲｅＬＵ）作为激活函数是

深度

ＣＮＮ成功的关键

［１，４～６］

。ＲｅＬＵ首次提出是用于限制玻尔

兹曼机

［７］

，然后成功地用于神经网络

［８］

。ＲｅＬＵ的定义是

ｆ（ｘ）＝ｍａｘ｛０，ｘ｝。相比于传统的ｓｉｇｍｏｉｄ函数，ＲｅＬＵ有两大

优势

［９］

：ａ）ＲｅＬＵ可以缓解梯度消失问题

［１０］

，同时可以加速收

敛，避免网络收敛到一个局部最优解中；ｂ）ＲｅＬＵ更趋向于得

到稀疏的编码，这种编码通常会带来更好的分类器性能

［１］

。

尽管ＲｅＬＵ可以为深度ＣＮＮ带来许多良好的性质，但是ＲｅＬＵ

依然存在一些缺点。例如，ＲｅＬＵ会忽略负激活，这些负激活通

常会包含许多对表达目标有用的信息，尤其对于深度ＣＮＮ网

络的浅层而言

［１１］

。为了克服这个限制，许多改进ＲｅＬＵ的方

法被提出来。表１对已有的方法作了总结。

泄漏的修正线性单元（ｌｅａｋｙＲｅＬＵ，ＬＲｅＬＵ）

［９］

对ＲｅＬＵ作

了修改，ＬＲｅＬＵ对负激活建模成一个线性函数，定义为ｆ（ｘ）＝

ｍａｘ｛０，ｘ｝＋ａｍｉｎ｛０，ｘ｝，其中ａ＝０．０１。ＬＲｅＬＵ通过将负激活

乘以一个数值小的标量，如０．０１，使得负激活可以在整个深度

ＣＮＮ中传播。由于ＬＲｅＬＵ对于负激活有非零的导数，所以具

有负激活值的参数也可以在端到端的学习中被更新。实验结

果表明ＬＲｅＬＵ相比ＲｅＬＵ有更好的分类准确率。然而ＬＲｅＬＵ

在整个网络中被人为地设置成相同的参数，这是不合理的，因

为负激活在深度ＣＮＮ的不同层中有不同的作用。为解决这个

问题，Ｈｅ等人

［１１］

提出一种参数化的修正线性单元（ｐａｒａｍｅｔｒｉｃ

ＲｅＬＵ

，ＰＲｅＬＵ）。这种激活函数在负激活部分引入一个带参数

的线性变化，并且其参数可以与原始深度网络参数同时通过反

向传播算法更新。ＰＲｅＬＵ定义为ｆ（ｘ）＝ｍａｘ｛０，ｘ｝＋ａｍｉｎ（０，

ｘ），其中ａ是一个可以学习的参数。Ｈｅ等人已经证实自动学

习参数ａ要优于手工微调参数，如ＬＲｅＬＵ。不同于ＬＲｅＬＵ和

ＰＲｅＬＵ，另外一种最近提出来的激活函数是指数线性单元（ｅｘｐｏ

ｎｅｎｔｉａｌｌｉｎｅａｒｕｎｉｔ，ＥＬＵ）

［１２］

，它在负激活值中的表现为一种非线

性变换。

ＥＬＵ定义为ｆ（ｘ）＝ｍａｘ｛０，ｘ｝＋ｍｉｎ｛０，

（ｅｘｐ（ｘ）－１），

０｝，其中

＞０。ＥＬＵ中的参数

通过手工来设定，通常设置为

１。在ＥＬＵ负激活处定义的非线性变换可以减小偏置变换，这

使得标准梯度接近自然梯度，达到加速训练的目的。实验结果

表明ＥＬＵ在多种视觉任务上都优于其他激活函数。ＥＬＵ表明

在负激活处作非线性变换会优于线性变换。然而与ＬＲｅＬＵ相

似，ＥＬＵ在深度ＣＮＮ所有层中，对负激活使用相同的非线性变

换，这在实际场景中是不恰当。

基于以上讨论并受到ＰＲｅＬＵ和ＥＬＵ的启发，本文提出一

种新颖的参数化的激活函数———幂线性单元（ｐｏｗｅｒｌｉｎｅａｒｕ

ｎｉｔ，ＰｏＬＵ）。如表１和图１所示，不同于现有激活函数，通过引

入一个可学习的参数，本文提出的ＰｏＬＵ激活函数可以在深度

ＣＮＮ的不同层呈现出不同的形式。另外，ＰｏＬＵ可以有效地实

现并被灵活地运用到现有的深度ＣＮＮ网络中。本文实验在广

泛使用的ＣＩＦＡＲ１０和ＣＩＦＡＲ１００数据库上进行。实验结果表

第３６卷第１０期

２０１９年１０月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３６Ｎｏ１０

Ｏｃｔ．２０１９

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38576811

粉丝: 6
资源: 890

幂线性单元PoLU：一种新型CNN激活函数

基于LReLU-Softplus激活函数的深度卷积神经网络.pdf

基于混合激活函数的改进卷积神经网络算法.pdf

卷积神经网络中激活函数的一种改进.pdf

基于改进sigmoid激活函数的深度神经网络训练算法研究.pdf

基于Softplus激活函数和改进Fisher判别的ELM算法

基于改进激活函数的单层神经网络毕业设计报告.doc

神经网络基础：线性与非线性激活函数解析

激活函数与损失函数解析：克服线性限制

线性激活函数和非线性激活函数

线性的激活函数Linear

最新资源