激活函数与损失函数解析：克服线性限制

需积分: 0 50 浏览量更新于2024-08-04 收藏 949KB DOCX 举报

"激活函数与损失函数在神经网络中的作用及挑战" 在神经网络中，激活函数扮演着至关重要的角色，因为它们是引入非线性的关键。线性分类器在处理线性可分数据时表现良好，但现实世界的复杂数据通常需要非线性模型来捕捉其内在结构。有两种主要的方法来应对非线性数据：引入非线性函数和进行线性变换。线性变换，如主成分分析（PCA）或奇异值分解（SVD），能够将数据映射到一个新的空间，使分类更加容易。然而，这种方法仍然局限于线性操作，对于高度复杂的非线性关系可能力不从心。这就是激活函数的用武之地。激活函数是非线性函数，它们被插入神经网络的每个隐藏层，确保输出不仅仅是输入的线性组合。常见的激活函数包括sigmoid、tanh、以及更现代的ReLU（Rectified Linear Unit）家族。 sigmoid函数，以其S型曲线而闻名，其输出范围在0到1之间，常用于二分类问题，因为它可以解释为概率。然而，sigmoid存在两个主要问题：软饱和性和偏置现象。软饱和性指的是随着输入远离零点，sigmoid的导数趋近于零，导致梯度消失问题，影响深度网络的学习效率。偏置现象意味着其输出不是零均值，对后续层的训练造成影响。 tanh函数类似于sigmoid，但它具有中心对称的输出（-1到1），解决了sigmoid的偏置问题，使得收敛速度更快。尽管如此，tanh也受制于软饱和性，同样可能导致梯度消失。为了解决这些挑战，ReLU及其变种（如Leaky ReLU、PReLU等）被提出。ReLU在正区间内是线性的，避免了sigmoid和tanh的饱和问题，极大地改善了深度网络的训练。然而，ReLU的一个问题是，当输入为负时，导数为零，可能导致所谓的“死亡ReLU”问题，即部分神经元永远不会被激活。损失函数是另一个核心概念，它衡量模型预测结果与实际值之间的差异。在分类问题中，常用的损失函数有交叉熵损失（Cross-Entropy Loss），适用于多类别分类；而在回归问题中，可能会使用均方误差（Mean Squared Error, MSE）或均方对数误差（Mean Absolute Log Error, MAE）等。梯度消失和梯度爆炸是深度学习中常见的问题。梯度消失指深层网络中梯度变得非常小，几乎无法更新权重；而梯度爆炸则相反，梯度值过大，导致权重更新剧烈，可能破坏模型的稳定性。为缓解这些问题，研究者提出了各种策略，如批量归一化（Batch Normalization）、权重初始化技术（如Xavier初始化或He初始化）以及使用残差连接（Residual Connections）。激活函数和损失函数的选择对神经网络的性能至关重要。理解它们的工作原理、优缺点以及如何解决相关问题，是优化模型并提升预测能力的基础。

激活函数的饱和问题

当一个激活函数 h(x)满足：时，我们称之为右饱和。

当一个激活函数 h(x)满足：时，我们称之为左饱和。

当一个激活函数，既满足左饱和又满足又饱和时，我们称之为饱和。

硬饱和与软饱和

对任意的 x，如果存在常数 c，

当 x>c 时恒有 h′(x)=0 则称其为右硬饱和，

当 x<c 时恒有 h′(x)=0 则称其为左硬饱和。

若既满足左硬饱和，又满足右硬饱和，则称这种激活函数为硬饱和。

但如果只有在极限状态下偏导数等于 0 的激活函数称为软饱和。

sigmoid 函数

它是使用范围最广的一类激活函数，具有指数函数形状，在物理上最接近神经元。

它的输出范围在（0,1）之间，可以被表示成概率，或者用于数据的归一化。

但是它有两个严重的缺陷：

1. 软饱和性——导数 f'(x)=f(x)(1-f(x))，当 x 趋于无穷时，f(x)的两侧导数逐渐趋于

剩余13页未读，继续阅读

禁忌的爱

粉丝: 21
资源: 334

激活函数与损失函数解析：克服线性限制

Lecture2---Feed-Forward Neural Networks 台湾虞台的神经网络ppt

CS231n课程知识点汇总（lecture1-5）.docx

lecture4-CNN综述1

lecture1-线性模型、非线性模型、神经网络1

code - lecture 7 - policy gradient源码.zip

斯坦福CS231n Convolutional Neural Networks for Visual Recognition lecture 1-5

斯坦福大学机器学习教程ppt（lecture10-lecture18），人工智能，机器学习必读经典课程。

【0】ppt lecture-10--20171206.pdf

Lecture.径向基函数(RBF).pdf

lecture5_1-word2vec原理1

最新资源