鸢尾花数据集分类python
时间: 2024-10-16 19:08:51 浏览: 50
基于SVM鸢尾花分类数据集
鸢尾花数据集(Iris dataset)是一个经典的机器学习入门案例,它是统计学家R.A. Fisher在1936年为了演示多元线性判别分析而创建的。这个数据集包含了三种不同种类的鸢尾花(Setosa、Versicolour和Virginica)的特征测量值,如花萼长度、花瓣长度等四个维度。
在Python中,你可以使用scikit-learn库来进行鸢尾花数据的分类。下面是一个简单的步骤概述:
1. **导入所需库**:
```python
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
```
2. **加载数据**:
```python
iris = datasets.load_iris()
X = iris.data
y = iris.target
```
3. **数据预处理**(如果需要,通常对数值型特征做标准化):
```python
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```
4. **拆分数据集**:
```python
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
```
5. **训练模型**:
```python
knn = KNeighborsClassifier(n_neighbors=3) # 使用K近邻算法作为示例
knn.fit(X_train, y_train)
```
6. **预测和评估**:
```python
predictions = knn.predict(X_test)
accuracy = knn.score(X_test, y_test)
print("Accuracy:", accuracy)
```
阅读全文