山东大学2020深度学习复习关键点：超参、正则化与激活函数

深度学习

5星 · 超过95%的资源需积分: 48 165 浏览量更新于2024-08-05 6 收藏 313KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这是山东大学2020年深度学习复习提纲，主要涵盖了深度学习的基础概念，包括超参数、正则化、激活函数、权重初始化等核心知识点，旨在帮助学生有效复习和理解深度学习的基本原理和技术。" 1. 超参数：在深度学习模型中，超参数是那些在训练前设定，且对模型性能有直接影响但不通过训练过程学习的参数。例如，学习率、正则化参数λ、神经网络层数等。通过交叉验证的方式，我们可以尝试不同的超参数组合，找到最优的设置。 2. 正则化：正则化是一种防止过拟合的策略，其中L1和L2正则化是最常见的形式。L1正则化使权重向量变得稀疏，即许多权重趋于0，从而实现特征选择。L2正则化则鼓励模型产生较小的权重，避免权重过大引起的过拟合。正则化参数λ的大小对模型的拟合程度有很大影响，需谨慎调整。 3. 激活函数：在神经网络中，激活函数用于引入非线性，使网络能够学习复杂的关系。Sigmoid函数在0附近梯度消失，导致训练困难；Tanh函数以0为中心，但同样存在梯度消失问题；ReLU函数因其简单的计算和非饱和性而受到欢迎，但负值区域梯度为0可能导致“死亡神经元”；LeakyReLU解决了ReLU的问题，ELU在负值区域的处理更优，但计算稍复杂；Maxout函数可以看作ReLU和LeakyReLU的扩展，但需要更多的参数。 4. 数据预处理：数据零中心化是一个重要的预处理步骤，它将数据映射到以0为中心的范围内，有助于加速模型的收敛。此外，数据归一化可以进一步提高模型的收敛速度，减少过拟合，并可能提高模型的精度。 5. 权重初始化：权重初始化对神经网络的训练至关重要。如果所有权重初始化为0，会导致所有神经元更新步调一致，模型可能退化为线性模型。随机初始化权重，如采用Xavier或He初始化，可以确保每个神经元的激活分布均匀，有助于网络的初始学习。 6. 损失函数与梯度下降：损失函数衡量模型预测与真实值的差距，梯度下降法用于更新权重以最小化损失。权重初始化为较小的随机值可以避免因初始权重过大导致的梯度爆炸或梯度消失问题。深度学习是一个广泛的领域，涵盖的不仅仅是这些基础概念。还包括卷积神经网络（CNN）、循环神经网络（RNN）、长短时记忆（LSTM）、自编码器（Autoencoder）、生成对抗网络（GAN）等复杂的模型结构。这些模型在图像识别、自然语言处理、推荐系统等多个领域有着广泛的应用。理解并掌握这些基本概念是深入学习深度学习的关键。

资源详情

资源推荐

山东大学计算机学习人工智能实验班 2018 级深度学习与神经网络

序号为上课划重点的顺序

1.2.不重要

3. 超参：人为设定的，不需要训练的参数。通过交叉验证的方式，尝试若干可能的，找出最好的。

正则化的作用：L1 权重向量在最优化的过程中变得稀疏（即非常接近 0）.L2 鼓励产生小而分散的权重，会使每个

值的数量级变小。

正则化参数 λ 越大，约束越严格，太大容易产生欠拟合。正则化参数 λ 越小，约束宽松，太小起不到约束作用，容

易产生过拟合。

Softmax：将所有输出的分类得分转为概率。和为 1.公式。

4.激活函数：sigmoid：好处：0 到 1 模拟了神经中信息传导发射率. 坏处：左下和右上导致梯度消失、不是以 0 为

中心对称的、exp 计算费时。看博客

Tanh：好处：映射到-1 到 1，以 0 为中心，因此模型收敛速度快。光滑易于求导。坏处：同样梯度消失，exp 计算

问题。

RELU：好处：不饱和性、计算简单、比 sigmoid 和 tanh 收敛速度更快、比 sigmoid 更符合神经传导的生物特性坏

处：不是以 0 为中心、x 小于 0 时无法计算梯度。

LeakyRELU：好处：和 relu 几乎相同、不会导致神经元“死亡“

ELU：好处：与 relu 几乎相同、输出的分布是零均值的，可以加快训练速度与 leaky 相比，x 小于 0 部分的处理增加

了噪声处理的鲁棒性坏处：需要计算 exp

Maxout：好处：是 relu 和 leaky relu 的概括、线性、不饱和性、不会导致神经元“死亡“ 坏处：需要两倍的参数数量。

5.zero-centered：数据的输入可能全为正或者全为负，迭代更新时轮数多，速度慢。通过中心化，将数据映射为以

0 为中心，使得输入的分布有正有负。可加速收敛。各个参数 wi 更新方向的差异，完全由对应的输入值 xi 的符号决

定，因此，当希望 w0 增大 w1 减小时，x0x1 符号应相反。但如果同时为正或负，则收敛方向可能沿着“折线”进行。

补充，归一化：加快收敛速度、可能提高精度、避免过拟合

6.权重初始化：如果将权重初始化为零，那么损失函数对每个 w 的梯度都会是一样的，这样在接下来的迭代中，同

一层内所有神经元的梯度相同，梯度更新也相同，所有的权重也都会具有相同的值，这样的神经网络和一个线性模

型的效果差不多

随机初始化：0.01 是因为要把 W 随机初始化到一个相对较小的值，因为如果 X 很大的话，W 又相对较大，会导致

Z 非常大，这样如果激活函数是 sigmoid，就会导致 sigmoid 的输出值 1 或者 0，然后会导致一系列问题

7.batch normalization：对于每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强

制拉回到均值为 0 方差为 1 的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，

以此避免梯度消失问题。

但是如果数据都通过 BN 层来处理，相当于通过 BN 层把数据强制拉回到了近似线性的分布上，这样会导致模型

的表达能力下降，因此，每个神经元增加了 γ 和 β 参数，来对变换后的激活进行反变换，使的网络的表达能力增强。

步骤为：计算均值、计算方差、利用均值和方差标准化、再进行反标准化。看一下公式

8.参数更新：SGD：由于梯度下降每次需要所有的训练样本，因此计算速度会非常慢，而在随机梯度下降中，在更

新梯度之前只使用一个训练样本。当训练集很大时，SGD 可以更快。但这些参数将“振荡”到最小值，而不是平稳

收敛。动量：由于小批量梯度下降只看到一个子集的样本就进行参数更新，所以更新的方向有一些偏差，所以小批

量梯度下降所走的路径将“振荡”走向收敛。利用动量可以减少这些振荡。

9.学习率：使用大学习率开始，然后逐渐缩小。以线性衰减、cos 衰减、平方根倒数的形式衰减

10.11 早停法：将原始的训练数据集划分成训练集和验证集。只在训练集上进行训练，并每个一个周期计算模型在

验证集上的误差。当模型在验证集上的误差比上一次训练结果差的时候停止训练。使用上一次迭代结果中的参数作

下载后可阅读完整内容，剩余4页未读，立即下载

公侯腹心

粉丝: 0
资源: 3

山东大学2020深度学习复习关键点：超参、正则化与激活函数

山东大学2019级智能班神经网络与深度学习复习

深度学习+期末复习题+总结

地理信息系统数据库（张新长）复习提纲

基于深度学习的共享单车使用情况分析预测提纲

帮我写一份，初中化学复习的提纲

帮我列一下《工业设计史（第五版）》考研复习提纲

嵌入式岗位的学习提纲

准备一个2023年工作计划提纲

给我一个快速学习数据结构的提纲

请更详细地将它构建一个论文提纲吗

数据库系统概论期末复习

linux 第五版 期末复习题2021

project提纲式 wbs、组织结构图式 wbs

试论述如何设计一份有效的访谈提纲?

写一个自动化综述的提纲

园区生态环境化系统调研提纲

大数据技术导论期末复习

帮我写一份网站设计的毕业论文提纲

写关于数字文旅的论文提纲

最新资源

linux 第五版期末复习题2021