深度学习 DAY2：SVM原理与正则化，RNN进阶分析

机器学习

82 浏览量更新于2024-08-30 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

深度学习DAY2主要涵盖了支持向量机（SVM）的相关概念和技术，以及深度学习中的几个关键问题，包括过拟合、梯度问题、循环神经网络（RNN）的进阶模型以及正则化方法。一、SVM 1. **几何间隔和函数间隔**： SVM的核心是找到最优的决策边界，即最大化样本间的间隔。几何间隔指的是数据点到决策边界的最短距离，而函数间隔则是决策函数f(x) = w·x + b的值。虽然函数间隔可以调整，但其绝对值大小并不能直接反映分类的确定性，因为它可以被无限放大。 2. **求解策略**： SVM通过将问题转化为最小化权重向量w的范数（||w||），这使得问题简化为二次规划问题。通过拉格朗日乘子法，引入α作为松弛变量，转换成对偶问题，利用SMO（Sequential Minimal Optimization）算法求解α，进而得到w。尽管w有唯一解，但b的值有一个连续区间，不是唯一的。 3. **核函数**：非线性关系通过核函数来处理，它将数据从原始空间映射到高维特征空间，使得原本线性不可分的数据在新空间中变得线性可分。核函数不必显式知道特征映射的具体形式，只需关注数据点之间的内积，通过核函数计算得到，如径向基函数(RBF)、多项式核等，这些函数能度量相似度。 4. **正则化方法**： SVM中的过拟合问题通过L1和L2正则化技术来缓解，L2正则化通过惩罚大权重，防止模型复杂度过高；L1正则化则可能导致稀疏性，减少某些特征的使用。二、梯度问题 - **梯度消失和梯度爆炸**：在深度神经网络中，这两个问题可能阻碍模型训练。梯度消失发生在反向传播时，低层网络的梯度逐渐减小至接近0；梯度爆炸则相反，梯度过大导致权重更新过大。LSTM和GRU等门控循环神经网络设计就是为了应对这些问题。三、RNN进阶 - **LSTM和GRU**：这两种结构引入了门控机制，如遗忘门、输入门、重置门和更新门，帮助管理信息流动，有效地解决了长序列学习中的梯度消失和爆炸问题。它们能够处理长期依赖性，并允许模型在有限的参数空间中保留重要信息。总结，深度学习DAY2深入探讨了SVM的基本原理、优化策略以及在深度学习中的应用，同时涵盖了正则化和梯度问题的解决方案，以及RNN特别是LSTM和GRU的结构及其在解决循环网络挑战方面的贡献。这些知识点对于理解和实践深度学习和机器学习至关重要。

资源推荐