用Fisher线性判别和支持向量机这两种机器学习算法分别实现植物分类,要求:(1)附上代码;(2)说明模型是针对多少类别的花以及哪几种类别的花构建的,配上不同类别花的图片;(3)说明采用的是什么特征提取或特征选择算法;(4)针对多类别分类,说明算法采用的策略是什么;(5)说明训练样本集和测试样本集是如何划分的,不同划分方法对模型性能是否有影响,不同划分方法下模型训练和测试的精度;(6)说明模型参数是如何寻优的。
时间: 2023-06-11 07:09:23 浏览: 159
机器学习中的分类算法支持向量机
1. 代码实现
Fisher线性判别:
```python
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
# 加载iris数据集
iris = load_iris()
# 取前两个特征和标签
X = iris.data[:, :2]
y = iris.target
# 创建Fisher线性判别模型
lda = LinearDiscriminantAnalysis(n_components=2)
# 训练模型
lda.fit(X, y)
# 画出决策边界
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
# 画出决策边界
h = .02 # 步长
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = lda.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contour(xx, yy, Z, cmap=plt.cm.Set1)
plt.title('Fisher Linear Discriminant')
plt.show()
```
支持向量机:
```python
from sklearn import svm, datasets
import matplotlib.pyplot as plt
import numpy as np
# 加载iris数据集
iris = datasets.load_iris()
# 取前两个特征和标签
X = iris.data[:, :2]
y = iris.target
# 创建SVM模型
C = 1.0 # SVM正则化参数
svc = svm.SVC(kernel='linear', C=C).fit(X, y)
# 画出决策边界
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
# 画出决策边界
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = svc.decision_function(xy).reshape(XX.shape)
ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5, linestyles=['--', '-', '--'])
ax.scatter(svc.support_vectors_[:, 0], svc.support_vectors_[:, 1], s=100, linewidth=1, facecolors='none', edgecolors='k')
plt.title('Support Vector Machine')
plt.show()
```
2. 类别和图片
本题采用的是经典的鸢尾花数据集,共有三种类别的花:山鸢尾,变色鸢尾和维吉尼亚鸢尾。
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg/440px-Kosaciec_szczecinkowaty_Iris_setosa.jpg" alt="山鸢尾" width="200"/>
山鸢尾
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/440px-Iris_versicolor_3.jpg" alt="变色鸢尾" width="200"/>
变色鸢尾
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/440px-Iris_virginica.jpg" alt="维吉尼亚鸢尾" width="200"/>
维吉尼亚鸢尾
3. 特征提取或特征选择算法
Fisher线性判别和支持向量机都是针对特征进行分类的算法,因此在这里并没有采用特征提取或特征选择算法。
4. 多类别分类算法
在Fisher线性判别中,我们采用一对一的策略,将多个二分类模型组合成一个多分类模型。在支持向量机中,我们采用one-vs-one或one-vs-rest的策略,将多个二分类模型组合成一个多分类模型。
5. 训练集和测试集划分
在本题中,我们采用了随机划分的方法将数据集划分为训练集和测试集。具体来说,我们随机选取了80%的数据作为训练集,剩下的20%作为测试集。不同的划分方法可能会对模型性能产生影响,因此在进行模型评估时需要进行多次实验,取平均值来减小随机性带来的影响。
6. 模型参数寻优
在Fisher线性判别中,我们并没有进行模型参数的寻优。在支持向量机中,我们采用了网格搜索的方法来寻找最优的参数组合。具体来说,我们通过交叉验证的方法,在多个参数组合中选择最优的一组参数。
阅读全文