泰坦尼克号数据集用统计推断来分析,附有python代码
时间: 2024-02-29 08:51:15 浏览: 102
好的,请问您需要哪些方面的统计推断分析?
以下是一个泰坦尼克号数据集的统计推断分析案例,主要包括数据的探索性分析、单因素分析、多因素分析等内容,并附有Python代码:
1. 数据探索性分析
首先,我们需要对数据进行探索性分析,以了解数据的分布情况和异常值等。
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 读取数据
df = pd.read_csv("titanic.csv")
# 查看数据基本信息
df.info()
# 查看数据的统计描述
df.describe()
# 查看每个变量的缺失值情况
df.isnull().sum()
# 绘制数据的分布图
sns.set(style="darkgrid")
sns.histplot(data=df, x="Age", hue="Survived", multiple="stack")
plt.show()
```
2. 单因素分析
接下来,我们可以进行单因素分析,以了解每个因素对生存率的影响。
```python
# 计算每个因素对生存率的影响
df.groupby("Sex")["Survived"].mean()
df.groupby("Pclass")["Survived"].mean()
df.groupby("Embarked")["Survived"].mean()
# 绘制每个因素对生存率的影响图
sns.barplot(data=df, x="Sex", y="Survived")
sns.barplot(data=df, x="Pclass", y="Survived")
sns.barplot(data=df, x="Embarked", y="Survived")
plt.show()
```
3. 多因素分析
最后,我们可以进行多因素分析,以了解多个因素对生存率的影响。
```python
# 计算多个因素对生存率的影响
df.pivot_table(values='Survived', index='Sex', columns='Pclass')
df.pivot_table(values='Survived', index='Sex', columns='Embarked')
# 绘制多个因素对生存率的影响图
sns.catplot(x="Pclass", y="Survived", hue="Sex", data=df, kind="bar")
sns.catplot(x="Embarked", y="Survived", hue="Sex", data=df, kind="bar")
plt.show()
```
通过以上分析,我们可以得出泰坦尼克号数据集中各个因素对生存率的影响情况,进而做出相应的结论和决策。
阅读全文