激活函数在深度学习中的重要性

需积分: 11 174 浏览量更新于2024-09-09 收藏 372KB PDF 举报

"小谈激活函数" 在神经网络中，激活函数扮演着至关重要的角色，它们赋予了网络处理非线性问题的能力。激活函数通常是一个定义在实数域到实数域的函数，且几乎处处可导，这使得神经网络在训练过程中可以通过反向传播算法有效地调整权重。如果没有激活函数，多层神经网络将退化为单层线性模型，无法处理复杂的非线性关系。非线性是激活函数的核心特性之一。非线性意味着通过多层神经网络的组合，可以近似任何复杂的函数。例如，如果使用恒等激活函数f(x)=x，网络将不具备这种能力，因为多层的恒等函数仍然只是线性变换。可微性是另一个关键属性，特别是在优化过程中采用基于梯度的方法时。激活函数的可导性使得我们能够计算损失函数关于权重的梯度，进而更新权重以最小化损失。单调性有助于保持网络层的单调性，使得单层网络的输出具有良好的性质，有利于训练过程。此外，对于随机初始化的小权重，若激活函数接近线性（例如，当输入很小，f(x)≈x），训练过程可能会更有效率。激活函数的输出范围对优化稳定性也有影响。有限的输出范围可以增加特征表示的稳定性，而无限输出的激活函数可能导致更快的训练速度，但可能需要更精细的 learning rate 调整。理想的激活函数还应具有单侧抑制和稀疏激活性。ReLU（Rectified Linear Unit）就是一种常用的、具有这些特性的激活函数，它能使得部分神经元输出为0，从而引入网络的稀疏性，减少参数间的依赖，有助于防止过拟合。除了ReLU，Sigmoid和Tanh也是常见的激活函数。Sigmoid函数在0附近有较大的导数值，这在反向传播中有助于避免梯度消失问题。然而，它的输出范围在(0,1)之间，可能导致饱和区的梯度消失。Tanh函数则在(-1,1)范围内，相比Sigmoid，它在整个区间内都有非零梯度，因此在某些情况下可能表现更好。选择合适的激活函数对于深度学习模型的性能至关重要，不同的任务和网络结构可能需要不同类型的激活函数。激活函数的选择和设计是神经网络研究领域的一个持续热点，不断有新的激活函数被提出以适应各种需求和挑战。

QQ 交流群:342942219

小谈激活函数

Davidliang

定义

一个函数

h : R

→

，且几乎处处可导

( differentiable almost everywhere)

有什么用？

激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够

表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也

可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。

应该具有什么样的性质呢？

非线性：当激活函数是非线性的时候，一个两层的神经网络就可以逼近基本上所有的函数

了。但是，如果激活函数是恒等激活函数的时候

(

即

f(x)=x)

，就不满足这个性质了，而且如

果

MLP

使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。

可微性：当优化方法是基于梯度的时候，这个性质是必须的。

单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。

f(x)

≈

：当激活函数满足这个性质的时候，如果参数的初始化是

random

的很小的值，那么

神经网络的训练将会很高效

;

如果不满足这个性质，那么就需要很用心的去设置初始值。

输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因

为特征的表示受有限权值的影响更显著

;

当激活函数的输出是无限的时候，模型的训练

会更加高效，不过在这种情况小，一般需要更小的

learning rate.

这些性质，也正是我们使用激活函数的原因

什么是好的激活函数？

单侧抑制，宽兴奋边界，稀疏激活性。

备注：什么是稀疏激活性？

------- Relu

会使一部分神经元的输出为

，这样就造成了网络的

稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

其他因素

导数值的最大值不能太小（最好是

），避免梯度弥散和爆炸

便于求导

下载后可阅读完整内容，剩余3页未读，立即下载

Ferrebo

粉丝: 1

激活函数在深度学习中的重要性

Python神经网络搭建实践教程

神经网络算法解析：从线性分类到深度学习

MATLAB实现BP神经网络预测程序详解

ReLU激活函数杂谈

yolov5激活函数

浅谈C语言函数.pdf

浅谈pytorch中torch.max和F.softmax函数的维度解释

再谈IE中Flash控件的自动激活 ObjectWrap

激活课堂气氛,提升学习情趣——谈C语言课堂教学方法.pdf

《YOLOv5改进 - 添加CA注意力机制 + 增加预测层 + 更换损失函数之GIoU》完整代码

最新资源