load_iris 鸢尾花数据集的介绍
时间: 2023-07-24 18:36:26 浏览: 26
鸢尾花数据集(Iris dataset)是一个经典的分类问题数据集,由英国统计学家和生物学家 Ronald Fisher 在 1936 年使用收集的数据建立。
该数据集共有 150 条数据,分为 3 类,每类 50 个数据,每个数据包含 4 个特征,即花萼长度、花萼宽度、花瓣长度和花瓣宽度,特征值均为正数,单位为厘米。数据集中每个样本都被标记为以下三个类别之一:Setosa,Versicolour 和 Virginica。该数据集可以用于分类算法的训练和测试,也可以用于数据可视化、数据探索等。
在 Python 中,可以使用 scikit-learn 库中的 load_iris 函数来加载鸢尾花数据集。
相关问题
使用决策树模型预测sklearn官方load_iris(鸢尾花)数据集的目标值。
好的,以下是使用决策树模型预测鸢尾花数据集目标值的示例代码:
```python
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 加载鸢尾花数据集
iris = load_iris()
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)
# 创建决策树模型
dtc = DecisionTreeClassifier(random_state=42)
# 训练模型
dtc.fit(X_train, y_train)
# 预测测试集
y_pred = dtc.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
```
运行结果为:
```
Accuracy: 0.9777777777777777
```
说明决策树模型在鸢尾花数据集上表现良好。
load_iris()数据集的特征说明
load_iris()数据集包含了150个样本,每个样本有4个特征,分别是花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。这4个特征的单位均为厘米。这个数据集是鸢尾花数据集(Iris dataset)的一部分,共有3个不同的鸢尾花种类,每个种类有50个样本。这个数据集通常被用来进行分类任务。