检验泰坦尼克号数据集里船舱的分类和年龄是否符合正态分布
时间: 2023-11-09 19:05:35 浏览: 34
对于检验泰坦尼克号数据集中的船舱分类和年龄是否符合正态分布,可以采用 Shapiro-Wilk 检验和正态概率图两种方法进行检验。
首先,对于船舱分类,可以使用 scipy 库中的 shapiro() 函数进行 Shapiro-Wilk 检验,代码如下:
``` python
from scipy.stats import shapiro
# 构造船舱分类数据
cabin_class = df['cabin_class']
# 进行 Shapiro-Wilk 检验
stat, p = shapiro(cabin_class)
# 输出检验结果
print('Shapiro-Wilk检验:')
print('统计量={:.3f}, p值={:.3f}'.format(stat, p))
if p > 0.05:
print('样本数据符合正态分布')
else:
print('样本数据不符合正态分布')
```
其次,对于年龄,可以使用 seaborn 库中的 distplot() 函数绘制正态概率图,代码如下:
``` python
import seaborn as sns
# 构造年龄数据
age = df['age']
# 绘制正态概率图
sns.distplot(age, fit=norm, kde=False)
# 显示图形
plt.show()
```
需要注意的是,由于泰坦尼克号数据集中的年龄数据有缺失值,因此在进行检验时需要先对数据进行处理,例如可以使用均值来填充缺失值。另外,对于正态概率图,若散点图近似为一条直线,则认为样本数据符合正态分布。