2.Iris数据集找分位数画直方图,找每个维度25%和75%分位数,统计25%到75%之间的数据和大于75%分位数画图(使用不同颜色)
时间: 2024-12-17 19:42:25 浏览: 16
Iris数据集是一个常用的分类数据集,包含四种鸢尾花的测量数据。要在Python中使用matplotlib库来找出每个维度(比如花瓣长度、萼片宽度等)的第25%、第50%(中位数,即75%分位数减去25%分位数的结果)和第75%分位数,并对这四组数据进行可视化,可以按照以下步骤操作:
1. 导入所需的库:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
```
2. 加载Iris数据集:
```python
iris = load_iris()
data = pd.DataFrame(iris.data, columns=iris.feature_names)
```
3. 计算分位数:
```python
quartiles = data.quantile([0.25, 0.5, 0.75])
lower_quartile = quartiles.iloc[:, :4] * 0.25
upper_quartile = quartiles.iloc[:, :4] + (1 - quartiles.iloc[:, :4]) * 0.25
```
这里计算了每一维的下四分位数(Q1)和上四分位数(Q3),然后将它们转换成实际值范围。
4. 绘制直方图并区分不同区间:
```python
colors = ['blue', 'orange', 'green'] # 分别用于25%、50% 和 75%区间的颜色
fig, ax = plt.subplots(figsize=(10, 6))
for i, feature in enumerate(data.columns):
ax.hist(data[feature], bins='auto', alpha=0.5, label=f'{feature}', color=colors)
# 显示分位点
for q, color in zip([lower_quartile, upper_quartile], colors):
for percentile, c in zip(q.values.T, [color] * len(q)):
ax.axvline(percentile, linestyle='dashed', color=c, linewidth=1)
ax.set_xlabel('特征值')
ax.set_ylabel('频数')
ax.set_title('Iris数据集各维度的分位数直方图')
ax.legend()
# 对于大于75%分位数的数据,可以选择另一种颜色显示(这里是紫色)
greater_seventh_quartile = data[data > upper_quartile]
greater_seventh_quartile.plot(kind='scatter', x=data.columns, y=data.index, s=80, color='purple', label='>75%', ax=ax, alpha=0.5)
plt.show()
```
这个脚本会生成一个包含四个直方图的图形,分别对应于Iris数据集的四个特征。每个直方图的颜色和线型都反映了数据的分布情况以及分位数的位置。
阅读全文