深度学习精要：从基础到优化与RNN

需积分: 5 13 浏览量更新于2024-06-20 9 收藏 3.86MB PDF 举报

该资源是一份深度学习期末复习资料，涵盖了从基础知识到核心模型的全面内容，包括人工智能的概述、机器学习基础、前馈神经网络、深度模型优化、正则化、卷积神经网络和循环神经网络等多个主题。这份资料旨在帮助学习者深入理解和掌握深度学习的关键概念和算法。 1. 人工智能与机器学习简介 - 人工智能起源于1956年的达特茅斯会议，旨在创造类似人类智能的机器。它包含了计算智能、感知智能和认知智能三个层面。 - 从人工智能到机器学习再到深度学习的发展，知识工程逐渐被数据驱动的机器学习所取代，后者通过数据自动学习，提高了信息处理的效率和准确性。 2. 机器学习基础 - 机器学习定义为系统利用经验提升自身性能的过程，可视为从数据中寻找最佳函数的过程。 - 机器学习的三要素包括模型（问题的假设空间）、策略（选择最优模型的准则）和算法（求解模型参数的方法）。 - 梯度下降算法是机器学习中的基本优化方法，用于找到损失函数的最小值。 3. 神经网络 - 前馈神经网络（FFN）采用反向传播（BP）算法进行训练，是一种基础的多层网络结构。 - 深度模型优化涉及非凸优化问题，学习率的选择和数据预处理对于模型的训练至关重要，以避免过拟合。 4. 正则化 - 正则化是防止过拟合的重要手段，通过添加惩罚项限制模型复杂度，如L1和L2正则化。 5. 卷积神经网络（CNN） - CNN是处理图像和视觉任务的首选模型，核心是卷积运算，实现参数共享，降低模型复杂度。 - 感受野、稀疏交互和权值共享是CNN的特点，确保模型的平移不变性。 - 池化操作用于下采样，减小数据尺寸，同时保持关键信息。 - 转置卷积和空洞卷积分别用于上采样和扩大感受野。 6. 循环神经网络（RNN） - RNN具有记忆能力，适合处理序列数据，如自然语言。 - 长短期记忆网络（LSTM）和门控循环单元（GRU）解决了RNN的长程依赖问题，增强了模型的记忆效果。 - 双向RNN可以同时利用前后文信息，深层RNN则增加了模型的表达能力。 7. 应用场景 - 这些模型广泛应用于K12教育、人工智能和各个领域的机器学习问题中。这份复习资料不仅提供了理论知识，也深入解析了各种模型的工作原理，是深度学习初学者和进阶者的宝贵参考资料。通过学习，读者可以系统地了解并掌握深度学习的核心概念和技术，为进一步研究和实践奠定坚实基础。

2.机器学习基础

梯度下降法

(批量)梯度下降法在每次迭代都需计算每个样本上损失函数的梯度并加和，计算复杂度较

大;为了降低迭代的计算复杂度，可以每次迭代只采集一个样本，计算该样本的损失函数

的梯度并更新参数，即随机梯度下降法。

小批量梯度下降法(Mini-Batch Gradient Descent)是批量梯度下降和随机梯度下降的折

中。每次迭代时，随机选取一小部分训练样本来计算梯度并更新参数，这样既可以兼顾

随机梯度下降法的优点，也可以提高训练效率。

提前停止法：验证集上错误率不再下降，就停止迭代。

过拟合和欠拟合

欠拟合：模型不能很好地拟合训练数据，在训练集上的错误率比较高。一般是由于模型

能力不足造成的，说明其对训练样本的一般性质尚未学好。

过拟合：学习器把训练样本学习得“太好”，将训练样本本身的特点当做所有样本的一

般性质，导致泛化性能下降。往往是由于训练数据少和噪声以及模型能力强等原因造成。

正则化

限制模型能力，使其不要过度地最小化经验风险，所有损害优化的方法都是正则化。

1 增加优化约束（L1/L2 约束、数据增强）/ 2 干扰优化过程（权重衰减、随机梯度下

降、提前停止）

--最小化期望错误等价于最小化偏差和方差之和

--Logistic

回归（熵、交叉熵）

熵：在信息论中，熵用来衡量一个随机事件的不确定性。熵越高，则随机变量的信息越

多;熵越低，则随机变量的信息越少。

交叉熵：交叉熵是按照概率分布 q 的最优编码对真实分布为 p 的信息进行编码的长度。

给定

的情况下，p 和

越接近，交叉熵越小。p 和

越远，交叉熵就越大。

KL 散度：用概率分布

来近似

时所造成的信息损失量。

参数学习：Logistic 回归采用交叉熵作为损失函数，并用梯度下降法来对参数进行优化。

多分类问题

1“一对其余”方式:把多分类问题转换为 C 个“一对其余”的二分类问题。这种方式共需

要 C 个判别函数，其中第 c 个判别函数将类别 c 的样本和不属于类别 c 的样本分开。

2“一对一”方式:把多分类问题转换为 C(C-1)/2 个“一对一”的二分类问题。这种方式

共需要 C(C-1)/2 个判别函数，其中第(i,j)个判别函数是把类别 i 和类别 j 的样本分开。

“一对其余”和“一对一”都有一个缺陷:特征空间中会存在一些难以确定类别的区域。

3“argmax”方式:一种改进的“一对其余”方式，共需 C 个判别函数。对于样本

，若存

在一个类别

，相对于所有其他类别

1≠

)有

;

(

c1(

(

)，则

属于类别

。

从多类线性可分的定义可知，如果数据集是多类线性可分的，那么一定存在一个

“argmax”方式的线性分类器可以将它们正确分开。

Softmax 回归

Softmax 回归，也称为多项 (Multinomial) 或多类(Multi-Class)的 Logistic 回归。

剩余22页未读，继续阅读

沐风—云端行者

粉丝: 8175
资源: 12

深度学习精要：从基础到优化与RNN

重新整理深度学习相关知识。里面包含线性神经网络、多层感知机、卷积神经网络、现代神经网络、循环神经网络等。包含：算法、代码、项目等

深度学习相关知识。包含线性神经网络、多层感知机、卷积神经网络、现代神经网络、循环神经网络等。包含：算法、代码、项目、电子书等。

机器学习详细教程|深度学习|神经网络算法等

卷积神经网络解析

东北大学机器学习上课课件PPT

chap-绪论.pptx

邱锡鹏《神经网络与深度学习》数学基础与机器学习概览

深度学习基础：神经网络讲义

深度学习入门：邱锡鹏《神经网络与深度学习》讲义解析

深度学习入门：神经网络解析

最新资源