深度学习DAY2主要涵盖了支持向量机(SVM)的相关概念和技术,以及深度学习中的几个关键问题,包括过拟合、梯度问题、循环神经网络(RNN)的进阶模型以及正则化方法。
一、SVM
1. **几何间隔和函数间隔**:
SVM的核心是找到最优的决策边界,即最大化样本间的间隔。几何间隔指的是数据点到决策边界的最短距离,而函数间隔则是决策函数f(x) = w·x + b的值。虽然函数间隔可以调整,但其绝对值大小并不能直接反映分类的确定性,因为它可以被无限放大。
2. **求解策略**:
SVM通过将问题转化为最小化权重向量w的范数(||w||),这使得问题简化为二次规划问题。通过拉格朗日乘子法,引入α作为松弛变量,转换成对偶问题,利用SMO(Sequential Minimal Optimization)算法求解α,进而得到w。尽管w有唯一解,但b的值有一个连续区间,不是唯一的。
3. **核函数**:
非线性关系通过核函数来处理,它将数据从原始空间映射到高维特征空间,使得原本线性不可分的数据在新空间中变得线性可分。核函数不必显式知道特征映射的具体形式,只需关注数据点之间的内积,通过核函数计算得到,如径向基函数(RBF)、多项式核等,这些函数能度量相似度。
4. **正则化方法**:
SVM中的过拟合问题通过L1和L2正则化技术来缓解,L2正则化通过惩罚大权重,防止模型复杂度过高;L1正则化则可能导致稀疏性,减少某些特征的使用。
二、梯度问题
- **梯度消失和梯度爆炸**:在深度神经网络中,这两个问题可能阻碍模型训练。梯度消失发生在反向传播时,低层网络的梯度逐渐减小至接近0;梯度爆炸则相反,梯度过大导致权重更新过大。LSTM和GRU等门控循环神经网络设计就是为了应对这些问题。
三、RNN进阶
- **LSTM和GRU**:这两种结构引入了门控机制,如遗忘门、输入门、重置门和更新门,帮助管理信息流动,有效地解决了长序列学习中的梯度消失和爆炸问题。它们能够处理长期依赖性,并允许模型在有限的参数空间中保留重要信息。
总结,深度学习DAY2深入探讨了SVM的基本原理、优化策略以及在深度学习中的应用,同时涵盖了正则化和梯度问题的解决方案,以及RNN特别是LSTM和GRU的结构及其在解决循环网络挑战方面的贡献。这些知识点对于理解和实践深度学习和机器学习至关重要。