按要求对titanic数据进行数据分布可视化展示 舱位等级---存活柱状图 登陆港口---存活柱状图 年龄---舱位等级箱线图 年龄---存活直方图
时间: 2023-09-27 11:04:01 浏览: 177
好的,我了解您的要求,以下是回答:
为了实现您的要求,我使用Python语言和Matplotlib库来可视化展示Titanic数据集的数据分布。
首先是舱位等级和存活的柱状图,代码如下:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 读取Titanic数据集
titanic_data = pd.read_csv('titanic.csv')
# 统计每个舱位等级的存活人数
survived_by_pclass = titanic_data.groupby('Pclass')['Survived'].sum()
# 绘制柱状图
plt.bar(survived_by_pclass.index, survived_by_pclass.values)
plt.xticks([1, 2, 3])
plt.xlabel('Pclass')
plt.ylabel('Survived')
plt.title('Survived by Pclass')
plt.show()
```
接下来是登陆港口和存活的柱状图,代码如下:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 读取Titanic数据集
titanic_data = pd.read_csv('titanic.csv')
# 统计每个登陆港口的存活人数
survived_by_embarked = titanic_data.groupby('Embarked')['Survived'].sum()
# 绘制柱状图
plt.bar(survived_by_embarked.index, survived_by_embarked.values)
plt.xlabel('Embarked')
plt.ylabel('Survived')
plt.title('Survived by Embarked')
plt.show()
```
然后是年龄和舱位等级的箱线图,代码如下:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 读取Titanic数据集
titanic_data = pd.read_csv('titanic.csv')
# 绘制箱线图
plt.boxplot([titanic_data[titanic_data.Pclass == 1].Age.dropna(),
titanic_data[titanic_data.Pclass == 2].Age.dropna(),
titanic_data[titanic_data.Pclass == 3].Age.dropna()])
plt.xticks([1, 2, 3], ['1st', '2nd', '3rd'])
plt.xlabel('Pclass')
plt.ylabel('Age')
plt.title('Age by Pclass')
plt.show()
```
最后是年龄和存活的直方图,代码如下:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 读取Titanic数据集
titanic_data = pd.read_csv('titanic.csv')
# 绘制直方图
plt.hist([titanic_data[titanic_data.Survived == 0].Age.dropna(),
titanic_data[titanic_data.Survived == 1].Age.dropna()],
bins=20, label=['Not survived', 'Survived'])
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Survival by Age')
plt.legend()
plt.show()
```
以上是对Titanic数据集的数据分布可视化展示,希望能够满足您的需求。如有其他问题,请随时提出。
阅读全文