鸢尾花数据集的数据特征,并作图,写代码
时间: 2024-10-08 17:15:17 浏览: 55
鸢尾花数据集(Iris dataset),通常也被称作安德森鸢尾花数据集,是一个经典的数据分析样本,它包含了三种不同类型的鸢尾花(Setosa、Versicolour和Virginica)的花萼长度、花瓣长度、花萼宽度和花瓣宽度等四个连续变量的数据。每个样本都有48个观测值,总共包含150个样本。
对于作图,我们可以选择直方图来展示每个特征(如花瓣长度)的分布情况,或者箱线图来直观地比较每种鸢尾花在这四个特征上的差异。这里我提供一个Python(Pandas和Matplotlib)的基本示例代码:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 加载鸢尾花数据集(假设是从sklearn库导入)
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
species = iris.target
# 创建一个DataFrame
df = pd.DataFrame(data, columns=iris.feature_names)
df['species'] = species
# 对于花瓣长度(例如,取第二个特征)作箱线图
feature_name = 'petal length (cm)'
plt.figure(figsize=(10,6))
sns.boxplot(x='species', y=feature_name, data=df)
plt.title(f"Distribution of {feature_name} for different Iris types")
plt.xlabel('Species')
plt.ylabel(feature_name)
plt.show()
# 直方图示例
plt.figure()
plt.hist(df[feature_name], bins=10, label=['Setosa', 'Versicolour', 'Virginica'])
plt.legend()
plt.title(f"Histogram of {feature_name}")
plt.xlabel(feature_name)
plt.ylabel('Frequency')
plt.show()
```
这个代码首先加载数据并创建一个包含特征和标签的DataFrame,然后分别绘制了花瓣长度的箱线图和直方图,以展示不同鸢尾花之间的区别。
阅读全文