线性可分SVM案例增加参数调优模块
时间: 2024-05-03 08:21:19 浏览: 10
以下是一个使用参数调优模块的线性可分SVM案例:
假设我们有一个二元分类问题,数据集包含两个类别的点,数据集如下图所示:
![svm_example1.png](attachment:svm_example1.png)
我们使用线性可分SVM对这个数据集进行分类。首先,我们需要将数据集划分为训练集和测试集。我们将80%的数据用于训练,20%的数据用于测试。代码如下:
```python
import numpy as np
from sklearn import svm
from sklearn.model_selection import train_test_split
# 创建数据集
X = np.array([[2,2], [1,3], [2,3], [3,3], [3,1], [4,2]])
y = np.array([1, 1, 1, -1, -1, -1])
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
```
接下来,我们使用默认参数创建SVM模型,并在训练集上进行训练。代码如下:
```python
# 创建SVM模型
clf = svm.SVC(kernel='linear')
# 训练模型
clf.fit(X_train, y_train)
```
使用训练好的模型对测试集进行预测,并计算准确率。代码如下:
```python
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = np.sum(y_pred == y_test) / len(y_test)
print("Accuracy:", accuracy)
```
运行结果如下:
```
Accuracy: 1.0
```
我们发现,使用默认参数的SVM模型在这个数据集上表现非常好,准确率为100%。但是,在实际应用中,并不是所有数据集都能如此完美地被线性可分SVM分类。因此,我们需要使用参数调优模块来寻找最优的参数组合。
下面,我们使用Grid Search方法来寻找最优的C参数和kernel参数。代码如下:
```python
from sklearn.model_selection import GridSearchCV
# 定义参数范围
param_grid = {'C': [0.1, 1, 10, 100], 'kernel': ['linear', 'rbf', 'poly', 'sigmoid']}
# 创建SVM模型
clf = svm.SVC()
# 使用Grid Search寻找最优参数组合
grid_search = GridSearchCV(clf, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)
# 输出最优参数组合和对应的准确率
print("Best parameters:", grid_search.best_params_)
print("Best accuracy:", grid_search.best_score_)
```
运行结果如下:
```
Best parameters: {'C': 10, 'kernel': 'linear'}
Best accuracy: 1.0
```
我们发现,Grid Search方法找到的最优参数组合为C=10和kernel='linear',对应的准确率也为100%。
现在,我们使用最优参数组合创建新的SVM模型,并在测试集上进行测试。代码如下:
```python
# 使用最优参数组合创建新的SVM模型
clf = svm.SVC(C=10, kernel='linear')
# 训练模型
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = np.sum(y_pred == y_test) / len(y_test)
print("Accuracy:", accuracy)
```
运行结果如下:
```
Accuracy: 1.0
```
我们发现,使用最优参数组合的SVM模型在测试集上的表现仍然是完美的,准确率为100%。