python处理鸢尾花数据
时间: 2023-07-30 10:06:25 浏览: 78
鸢尾花数据集是机器学习中经典的数据集之一,它包含150个样本,每个样本有4个特征,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度,以及对应的一个标签,表示这个样本属于哪一种鸢尾花。
下面是一个使用Python处理鸢尾花数据集的示例:
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据集
iris = load_iris()
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
# 打印数据集信息
print("训练集样本数:", len(X_train))
print("测试集样本数:", len(X_test))
print("特征数:", len(iris.feature_names))
print("标签种类数:", len(iris.target_names))
```
上述代码中,我们使用了scikit-learn库中的load_iris函数加载了鸢尾花数据集,并使用train_test_split函数将数据集划分成训练集和测试集。然后,我们打印了数据集的一些基本信息,包括训练集和测试集的样本数、特征数和标签种类数。
接下来,我们可以使用机器学习算法对数据进行训练和预测,例如使用决策树算法:
```python
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 训练模型
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("测试集准确率:", accuracy)
```
上述代码中,我们使用了scikit-learn库中的DecisionTreeClassifier类来训练一个决策树模型,并使用predict方法预测测试集。然后,我们使用accuracy_score函数计算了模型在测试集上的准确率。
阅读全文