iris数据集分类 近邻分类算法实验
时间: 2023-05-30 19:05:30 浏览: 151
iris数据集是一个经典的分类问题数据集,该数据集包含了3种不同种类的鸢尾花,每种鸢尾花有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),一共有150个样本。在本实验中,我们将使用近邻分类算法对iris数据集进行分类。
近邻分类算法是一种基于实例的分类方法,它的基本思想是:如果一个样本在特征空间中的k个最相似(即距离最近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
具体实现步骤如下:
1. 导入iris数据集,并将其分成训练集和测试集。
2. 定义距离度量方法,这里使用欧式距离。
3. 定义分类算法,即从k个最近邻中选择出现次数最多的类别作为预测结果。
4. 对测试集进行预测,并计算分类准确率。
以下是Python代码实现:
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np
# 导入iris数据集,分成训练集和测试集
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)
# 定义距离度量方法
def euclidean_distance(x1, x2):
return np.sqrt(np.sum((x1 - x2) ** 2))
# 定义分类算法
def knn(X_train, y_train, X_test, k):
y_pred = []
for i in range(len(X_test)):
distances = [euclidean_distance(X_train[j], X_test[i]) for j in range(len(X_train))]
nearest_neighbors = np.argsort(distances)[:k]
nearest_labels = [y_train[j] for j in nearest_neighbors]
y_pred.append(max(set(nearest_labels), key=nearest_labels.count))
return y_pred
# 对测试集进行预测
y_pred = knn(X_train, y_train, X_test, k=3)
# 计算分类准确率
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)
```
运行结果:
```
Accuracy: 0.9777777777777777
```
可以看出,使用近邻分类算法对iris数据集进行分类,得到了很高的分类准确率。
阅读全文