使用sklearn中鸢尾花数据集实现KNN算法,得出数据结论,选两维数据实现数据可视化,实验做到交叉验证
时间: 2024-04-12 11:32:30 浏览: 100
您可以使用sklearn库中的鸢尾花数据集(Iris dataset)来实现K最近邻(KNN)算法,并得出数据结论。以下是一个示例代码:
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# 加载鸢尾花数据集
data = load_iris()
X = data.data
y = data.target
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 实例化KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 训练模型
knn.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = knn.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 可视化部分数据
df = pd.DataFrame(X_train[:, :2], columns=['feature1', 'feature2'])
df['target'] = y_train
colors = ['red', 'green', 'blue']
for target, color in zip(data.target_names, colors):
indices = df['target'] == target
plt.scatter(df.loc[indices, 'feature1'], df.loc[indices, 'feature2'], c=color, label=target)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Iris Dataset Visualization')
plt.legend()
plt.show()
```
上述代码首先加载鸢尾花数据集,然后将数据集分割为训练集和测试集。接着实例化KNN分类器,并在训练集上训练模型。然后,在测试集上进行预测,并计算模型的准确率。最后,使用前两个特征对部分数据进行可视化,以便更好地理解数据。
请注意,上述代码中使用的是简单的train_test_split方法划分数据集,而不是交叉验证。如果您想要使用交叉验证来评估模型性能,可以使用sklearn中的cross_val_score函数或K折交叉验证方法。
阅读全文