机器学习入门：一步步解析SVM算法

172 浏览量更新于2024-08-28 收藏 142KB PDF 举报

"这篇文章除了介绍SVM的基础概念，还从实践角度展示了如何用SVM进行图像分类，特别是猫狗分类的例子。作者强调，SVM是一种有效的二分类模型，旨在找到一个最佳的超平面将不同类别的数据点分离。文章通过CIFAR数据集的实例，解释了训练与预测的流程，并探讨了SVM的核心思想——最大化间隔。" 在机器学习领域，支持向量机（SVM）是一种广泛使用的监督学习模型，尤其适用于分类问题。SVM的核心目标是寻找一个能够将不同类别数据点最大程度分开的决策边界，也就是所谓的超平面。这个超平面是由权重向量w和偏置项b定义的直线或高维超平面，其方程为wTx + b = 0。在实际应用中，比如猫狗图像分类，我们需要先获取训练数据集，如CIFAR数据集中提取出猫和狗两类样本。接着，构建训练样本集D，其中每个样本由特征向量x和对应的类别标签y组成。在SVM中，标签y通常取+1或-1，分别代表两个不同的类别。为了找到最优超平面，SVM引入了最大间隔的概念。间隔是指样本点到超平面的距离，计算公式为r = |wTx + b| / ||w||，其中||w||表示w的L2范式，即向量w的欧几里得长度。SVM的目标是找到一个超平面，使得各类别样本到它的距离最大，这样可以提高模型对新样本的泛化能力，因为它能更好地应对数据的噪声和小的偏差。在实践中，我们通常利用优化算法（如拉格朗日乘子法）来解决这个问题，寻找满足间隔最大化的w和b。优化过程会涉及构造拉格朗日函数，其中包含惩罚项以确保样本点不会落在错误的一侧。这里的1常量在拉格朗日乘子中是为了简化计算，但其实可以是任意非零值，选择1主要是因为方便和直观。 SVM还有其他重要的概念，例如软间隔和核技巧。软间隔允许一部分样本点落在超平面的错误一侧，通过惩罚这些违反间隔的点来平衡分类准确性和模型复杂度。而核技巧则能将数据映射到高维空间，使得原本线性不可分的数据在新的空间中变得线性可分，比如使用著名的径向基函数（RBF）核。总结来说，SVM是一种强大的二分类工具，通过找到最优超平面实现样本的高效分类。从零开始学习SVM，不仅需要理解其基本原理，还要掌握如何运用到实际问题中，如数据预处理、模型训练、参数调优等。通过不断实践和理论学习，可以逐渐掌握这个复杂的机器学习算法。

从零开始学习从零开始学习SVM

SVM是最经典的分类算法之一，笔者觉得难度却是机器学习算法中最难的，对于没有数学基础的同学来说更是一头雾水。笔

者作为一个初入机器学习的小白，希望能从最简单的视角分享我的学习过程，从零开始一点一滴学习SVM算法。

一、首先,什么是svm,它能够做什么？

它是一种二分类模型，解决是非的问题。

以对图像猫狗分类为例：

1.下载CIFAR数据集，数据集中有10类，我只取两类：猫、狗

2.获取猫狗混合的训练样本集，D={(x1,y1),(x2,y2),?,(xn,yn) },yiε {?1,+1 }

3.训练样本获取分割超平面

4.正确分开不同类别样本，保存模型

5.输入测试数据，进行预测

如果是应用，只想把这个算法当作工具那么以上就足够了，可以应用tensorflow、sklearn以及最近很流行，也是令我非常好奇

的框架pytorch，输入相关的参数就可以进行训练

如何是对svm有强烈的好奇心，那就继续阅读笔者这个小白学习svm的过程

二、深入研究svm原理

svm最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同的类别样本分开，在样本空间中可以通过线性

方程来描述：

wTx+b=0

样本空间中的任意点到超平面的距离为：由点到面的距离公式可知

r=|wTx+b|||w||

补充一下||w|| 的含义，对于初学者来说这种公式确实会很头疼，这个专业一点被称作L2 范式，用来衡量一个向量的长度，

我们需要找到划分超平面对训练样本“正中间”的划分超平面，这样的超平面对样本的局部扰动的容忍性最好，也就是说我们不

满足仅仅是划分开两个样本数据，我们要尽可能的使得两个分的最开。

如下图所示：

我们令 :

[Math Processing Error]

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38663415

粉丝: 3
资源: 891

机器学习入门：一步步解析SVM算法

SVM训练数据集

SVM算法对MNIST数据集分类

支持向量机SVM所使用的数据集

从零开始的机器学习——支持向量机（SVM） （2018-8-10）.zip

从零开始掌握SVM的分类与回归技巧

libsvm初学者指南：从零开始的SVM实战

libsvm SVM入门教程：从零开始学习

零起点学习SVM：从线性分类到非线性处理详解

从零开始构建支持向量机：SVM全面解析

从零开始构建SVM分类器：一步步带你代码实现与性能优化

最新资源

从零开始的机器学习——支持向量机（SVM）（2018-8-10）.zip