读取scikit-learn库提供的鸢尾花(iris)数据集,对数据集中的数据进行描述性统计分析,计算各个属性的均值、标准差、中位数、极差、四分位数间距。
时间: 2023-07-10 10:04:28 浏览: 275
wake数据挖掘鸢尾花数据集iris.zip
5星 · 资源好评率100%
好的,我可以帮你完成这个任务。首先,我们需要导入scikit-learn库,以及鸢尾花数据集。代码如下:
```python
from sklearn.datasets import load_iris
import pandas as pd
iris_data = load_iris()
df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
```
接下来,我们可以使用pandas库提供的describe()函数来进行描述性统计分析。代码如下:
```python
# 计算各个属性的均值、标准差、中位数、极差、四分位数间距
statistics = df.describe()
statistics.loc['range'] = statistics.loc['max'] - statistics.loc['min']
statistics.loc['iqr'] = statistics.loc['75%'] - statistics.loc['25%']
print(statistics)
```
输出结果如下:
```
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
count 150.000000 150.000000 150.000000 150.000000
mean 5.843333 3.057333 3.758000 1.199333
std 0.828066 0.435866 1.765298 0.762238
min 4.300000 2.000000 1.000000 0.100000
25% 5.100000 2.800000 1.600000 0.300000
50% 5.800000 3.000000 4.350000 1.300000
75% 6.400000 3.300000 5.100000 1.800000
max 7.900000 4.400000 6.900000 2.500000
range 3.600000 2.400000 5.900000 2.400000
iqr 1.300000 0.500000 3.500000 1.500000
```
这里我们计算了各个属性的均值、标准差、中位数、极差、四分位数间距。其中,均值可以反映数据的集中趋势,标准差可以反映数据的离散程度;中位数是将数据集合分为两部分的点,可以反映数据的中心位置,极差是最大值和最小值之间的差距,可以反映数据的离散程度;四分位数间距是上四分位数和下四分位数之间的差距,可以反映数据的离散程度。
阅读全文