SVM通俗理解与Python实现

5星 · 超过95%的资源 73 浏览量更新于2024-08-04 2 收藏 189KB PDF 举报

现，原来这些公式都是为了实现某个具体的功能，比如求解最大间隔、优化损失函数等。在Python中，我们可以使用sklearn库的SVM模块来实现这些功能。支持向量机（Support Vector Machine，简称SVM）是一种监督学习模型，特别适用于小样本、非线性及高维模式识别。其核心思想是找到一个超平面，使得数据点在这个超平面上的投影距离最远，从而达到最优分类效果。这个超平面就是所谓的决策边界，它将不同类别的数据点分开。 SVM的关键概念包括： 1. 支持向量：离决策边界最近的数据点，它们对确定决策边界起着关键作用。 2. 最大间隔：SVM的目标是找到最大间隔的超平面，即使得两类数据点到超平面的间隔最大化。间隔可以用公式2/w表示，其中w是分类超平面的法向量。 3. 软间隔：在实际问题中，数据可能并非完全线性可分，SVM引入了软间隔，允许一部分数据点可以越界，通过惩罚项控制越界的程度。 4. 核函数：SVM通过核函数将原始数据映射到高维空间，使得原本线性不可分的数据在高维空间变得线性可分。常用的核函数有线性核、多项式核、高斯核（RBF）等。在Python中实现SVM，通常会用到sklearn库的svm模块。以下是一般步骤： 1. 导入所需库：`from sklearn import svm, datasets` 2. 加载数据集，例如鸢尾花数据集：`iris = datasets.load_iris()` 3. 划分训练集和测试集：`X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)` 4. 创建SVM分类器，如线性SVM：`clf = svm.SVC(kernel='linear')` 5. 使用训练数据拟合模型：`clf.fit(X_train, y_train)` 6. 预测测试集：`y_pred = clf.predict(X_test)` 7. 评估模型性能：`print("Accuracy:", accuracy_score(y_test, y_pred))` 对于非线性核函数，如RBF，还需要调整核参数γ和C。γ控制核函数的影响范围，C是正则化参数，控制误分类的惩罚力度。在理解SVM的过程中，理论与实践相结合非常重要。通过阅读李航的《统计学习方法》等书籍，可以深入理解SVM的数学原理。同时，通过编写Python代码实现SVM，能够直观感受算法的工作过程，加深对SVM的理解。对于初学者来说，从简单的线性SVM开始，逐步过渡到非线性核函数，是掌握SVM的较好路径。 SVM是一种强大的机器学习算法，尤其在小样本和非线性问题上表现出色。通过理论学习和代码实践，我们可以逐步掌握这一技术，并将其应用到实际问题中。

labelMat.append(float(lineArr[2]))

return dataMat,labelMat #返回数据特征和数据类别

def selectJrand(i,m): #在0-m中随机选择一个不是i的整数

j=i

while (j==i):

j=int(random.uniform(0,m))

return j

def clipAlpha(aj,H,L): #保证a在L和H范围内（L <= a <= H）

if aj>H:

aj=H

if L>aj:

aj=L

return aj

def kernelTrans(X, A, kTup): #核函数，输入参数,X:支持向量的特征树；A：某一行特征数据；kTup：('lin',k1)核函数的类型和参数

m,n = shape(X)

K = mat(zeros((m,1)))

if kTup[0]=='lin': #线性函数

K = X * A.T

elif kTup[0]=='rbf': # 径向基函数(radial bias function)

for j in range(m):

deltaRow = X[j,:] - A

K[j] = deltaRow*deltaRow.T

K = exp(K/(-1*kTup[1]**2)) #返回生成的结果

else:

raise NameError('Houston We Have a Problem -- That Kernel is not recognized')

return K

#定义类，方便存储数据

class optStruct:

def __init__(self,dataMatIn, classLabels, C, toler, kTup): # 存储各类参数

self.X = dataMatIn #数据特征

self.labelMat = classLabels #数据类别

self.C = C #软间隔参数C，参数越大，非线性拟合能力越强

self.tol = toler #停止阀值

self.m = shape(dataMatIn)[0] #数据行数

self.alphas = mat(zeros((self.m,1)))

self.b = 0 #初始设为0

self.eCache = mat(zeros((self.m,2))) #缓存

self.K = mat(zeros((self.m,self.m))) #核函数的计算结果

for i in range(self.m):

self.K[:,i] = kernelTrans(self.X, self.X[i,:], kTup)

def calcEk(oS, k): #计算Ek（参考《统计学习方法》p127公式7.105）

fXk = float(multiply(oS.alphas,oS.labelMat).T*oS.K[:,k] + oS.b)

Ek = fXk - float(oS.labelMat[k])

return Ek

#随机选取aj，并返回其E值

剩余10页未读，继续阅读

快乐无限出发

粉丝: 1209
资源: 7395

SVM通俗理解与Python实现

Python实现支持向量机SVM算法及其应用

通俗易懂的支持向量机(SVM)导论与Python实现

支持向量机SVM实战：MATLAB代码实现与解析

支持向量机通俗导论（理解SVM的三层境界）Latex版.zip_SVM_python_支持向量机

Python机器学习之SVM支持向量机

SVM_SoftMargin.py

尽力用最通俗的语言和代码讲解机器学习.zip

集训营先导课：SVM与XGBoost精讲

python实践项目之监控当前联网状态详情

支持向量机(SVM)入门详解：三层理解境界

最新资源