神经网络训练入门：激活函数与解决策略

需积分: 0 173 浏览量更新于2024-08-05 收藏 1.23MB PDF 举报

本篇内容主要讲解了第六章《训练神经网络（上）》的第一课时，重点讨论了激活函数在神经网络中的关键作用。神经网络由多个线性层构成，非线性函数如激活函数（sigmoid、tanh和ReLU）在层间连接中起着至关重要的作用，它们决定了网络的非线性表示能力。首先，激活函数的选择至关重要，因为它们决定网络的输出范围和动态特性。sigmoid函数将输入压缩到[0,1]区间，但存在梯度消失问题，特别是在输入值极端时。其非零中心性质导致梯度更新效率低下。tanh函数类似sigmoid，但范围扩展到[-1,1]，解决了sigmoid的第二个问题，但也同样面临梯度消失。ReLU函数（Rectified Linear Unit）避免了这些问题，当输入为正时保持不变，为0时输出为0，具有很好的非饱和特性，计算成本低，且梯度更新更有效。课程还涉及其他训练神经网络的关键环节，例如： 1. **神经网络建立**：介绍如何设计和构建网络结构，包括全连接层和卷积层的配置。 2. **数据预处理**：包括数据清洗、归一化等步骤，以提升模型性能。 3. **权重初始化**：恰当的权重初始化有助于网络更快收敛和避免梯度消失/爆炸。 4. **正则化**：防止过拟合，如L1、L2正则化，以及Dropout技术。 5. **梯度检查**：确保优化过程中的梯度计算准确无误。 6. **动态变化和训练监控**：理解训练过程中模型参数的变化趋势，如学习率调整、验证集监测等。 7. **超参数优化**：通过网格搜索、随机搜索等方法调整模型参数以优化性能。 8. **模型评估**：使用指标如准确率、损失函数等来衡量模型的性能。 9. **模型集成**：通过集成多个模型来提高预测的稳定性和准确性。整体来看，本节内容深入浅出地阐述了神经网络训练中的核心概念和技术细节，对于理解和实践神经网络的训练至关重要。

原

2017CS231n李飞飞深度视觉识别笔记（六）——训练神经网络（上）

2018年07月16日 22:38:13 献世online 阅读数：289 更多

第六章训练神经网络（上）

课时1 激活函数

我们已经讨论过如何使用计算图来表达一个函数，并且明确的探讨了神经网络，它包含若干个线性层，而层与层之间通过非线性函数进行连接实现堆叠；也介绍

了卷积神经网络，它使用卷积层贯穿整个网络结构；这一章中将讨论训练神经网络的一些细节问题，包括：

（1）刚开始要如何建立起神经网络；

（2）要选择什么样的激活函数；

（3）如何做数据的预处理，权重初始化、正则化和梯度检查；

（4）讨论训练中的动态变化、训练监控过程、超参数优化；

（5）讨论模型评估和模型集成。

任意特定层产生的输出是输入数据在全连接层或者卷积层乘上权重值，然后将结果输入一个激活函数或者非线性单元，下面给出了一些激活函数：

（1）sigmoid函数

函数表达式为：，每个元素输入到这个函数中，会被压缩在[0,1]范围内，如果有非常大的输入值，那么输出将会接近1；如果有绝对值很大的负的输

入值，那么输出将会接近0。

存在的问题：

1）首先是饱和神经元将使梯度消失

当X的输入是一个很大的正值和很小的负值时，它们会位于sigmoid函数的平滑区域（从图像上看），这些区域会使梯度消失，从而无法得到梯度流的反馈。

2）sigmoid函数是一个非零中心的函数

意味着所有关于X的梯度，因为它们全是正数或负数，在更新的时候只能往一个方向移动，这种情况下梯度更新的效率会非常低，如下图中的例子：

假设最佳的W实际上是蓝色的向量，但是我们的梯度更新只能沿着红色的曲线走，目标也是得到最佳的W，但是这样的更新效率非常低。

3）使用指数函数的计算代价有点高。

（2）tanh函数

它与sigmoid函数很相似，只不过它的值被压缩在[-1,1]的范围内，所以主要的不同就是tanh函数是以0为中心，它就不会出现sigmoid函数的第二个问题，但是

它仍会存在饱和使梯度消失的问题。

下载后可阅读完整内容，剩余5页未读，立即下载

禁忌的爱

粉丝: 21
资源: 334

神经网络训练入门：激活函数与解决策略

利用GA-BP神经网络算法的应用实例之MATLAB程序

神经网络案例-训练神经网络完成分类任务视频教程.wmv

基于python利用DCGAN-生成对抗网络和CNN-卷积神经网络对图像进行训练和分类

ADP小程序实现actor-critic神经网络

MATLAB实现GA-BP神经网络代码教程

PCA-GA-BP神经网络在黄金价格预测中的应用

PSO-BP神经网络预测程序：数据分析与应用

MATLAB实现GA-BP神经网络实例与参数调整教程

GA-BP神经网络在变压器故障诊断中的应用

LeNet-5神经网络模型深度解析与MNIST识别应用

最新资源