用jupyter notebook 进行数据挖掘有数据属性取值(以递增序)为5,9,13,15,16,17,19,21,22,22,25,26,26,29,30,32,39,52。分别计算该列数的均值、中位数、众数,并粗略估计第一四分位数和第三四分位数,绘制该数据的箱线图
时间: 2024-09-07 16:01:22 浏览: 50
在Jupyter Notebook中,你可以使用Python的Pandas库和NumPy库来计算均值、中位数和众数,然后使用Matplotlib或Seaborn库来绘制箱线图。以下是具体的操作步骤:
1. 计算均值:均值是所有数值的总和除以数值的个数。
2. 计算中位数:中位数是将数据集排序后位于中间位置的数值,如果数据集的个数是偶数,则为中间两个数的平均值。
3. 计算众数:众数是数据集中出现次数最多的数值。
4. 估计第一四分位数(Q1)和第三四分位数(Q3):四分位数是将数据集分成四等份的数值,第一四分位数是位于25%位置的数值,第三四分位数是位于75%位置的数值。可以通过分位数函数来估算。
5. 绘制箱线图:箱线图可以展示数据的分布情况,包括中位数、四分位数以及异常值。
下面是一个简单的代码示例,用于计算上述统计量并绘制箱线图:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 创建数据列
data = [5, 9, 13, 15, 16, 17, 19, 21, 22, 22, 25, 26, 26, 29, 30, 32, 39, 52]
# 计算均值、中位数和众数
mean_value = np.mean(data)
median_value = np.median(data)
mode_value = pd.Series(data).mode()[0]
# 估计第一四分位数和第三四分位数
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
# 输出计算结果
print(f"均值: {mean_value}")
print(f"中位数: {median_value}")
print(f"众数: {mode_value}")
print(f"第一四分位数: {Q1}")
print(f"第三四分位数: {Q3}")
# 绘制箱线图
sns.boxplot(data=data)
plt.title('数据箱线图')
plt.show()
```
请确保你的Jupyter Notebook安装了上述提到的库,否则你需要使用pip或conda进行安装。
阅读全文