斯坦福大学机器学习课程：支持向量机与核方法

版权申诉

173 浏览量更新于2024-06-26 收藏 5.39MB PPTX 举报

"2014斯坦福大学机器学习mkv视频 Lecture12.pptx" 本讲座主要探讨了支持向量机（Support Vector Machines, SVM）这一机器学习中的重要算法，以及它与逻辑回归（Logistic Regression）的关系。支持向量机是一种监督学习模型，特别适用于分类问题，尤其是当数据非线性可分时。以下是关于SVM的关键知识点的详细说明： 1. **支持向量机优化目标**： SVM的主要目标是找到一个能够最大化边距（margin）的决策边界。这个边距是指在训练数据集中的最近样本点到决策超平面的距离。SVM试图找到一个最优的分类超平面，使得这个超平面与最接近它的训练样本点（支持向量）的距离最大。 2. **逻辑回归的替代视角**： SVM可以被看作是逻辑回归的一个替代，尤其是在处理二分类问题时。逻辑回归通过线性函数预测概率，而SVM则寻找能够最大化分类间隔的决策边界。 3. **支持向量**：支持向量是那些离决策超平面最近的样本点，它们在确定超平面时起着关键作用。SVM的名称来源于这些样本点，因为它们“支持”了决策边界的位置。 4. **线性可分情况下的SVM**：当数据集是线性可分的，SVM可以找到一个直线作为决策边界，使得两类样本点被有效地分开，并且保持最大的边距。这样的分类器被称为大边缘分类器。 5. **应对噪声和异常值**：在存在噪声或异常值的情况下，SVM仍然能够找到一个大的边缘分类器，因为它不是基于所有样本点，而是仅依赖于支持向量来定义决策边界。 6. **内积和向量空间**： SVM利用向量的内积来计算样本点与超平面之间的距离，这在构建决策边界时起到关键作用。 7. **核函数（Kernels）**：非线性决策边界是SVM的一大优势。当数据不是线性可分时，通过引入核函数，SVM可以将数据映射到高维空间，在这个空间中可能找到一个线性可分的决策边界。常见的核函数包括线性核、多项式核、高斯核（RBF）等。 8. **相似度度量**：核函数实际上是一种度量样本间相似性的方法。例如，高斯核（RBF）通过计算两个样本点之间的欧氏距离的指数函数来衡量它们的相似性。 9. **选择合适的核函数**：选择适当的核函数是使用SVM时的重要步骤。选择哪种核函数取决于数据的特性，通常需要通过交叉验证和调整参数来确定。 10. **训练与预测**： SVM的训练过程涉及找到最佳的支持向量和相应的决策边界。一旦模型训练完成，对于新的未标记数据，可以通过将其投影到同样的高维空间并应用决策函数来进行预测。 SVM是一种强大的机器学习工具，尤其在处理小样本和非线性问题时表现出色。通过使用核函数，它可以处理复杂的决策边界，而其优化目标——最大化边距，确保了模型的泛化能力。在实际应用中，理解和熟练掌握SVM对于解决各种分类问题至关重要。