用Python代码将泰坦尼克号的数据集进行特征选择,并绘制直方图和柱状图
时间: 2024-09-26 22:03:52 浏览: 89
在Python中,我们可以使用Pandas库处理泰坦尼克号数据集,如`titanic.csv`,并利用Matplotlib库进行可视化。首先,需要导入所需的库并加载数据:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据
data = pd.read_csv('titanic.csv')
# 特征选择(假设我们只关心Survived、Pclass、Age、SibSp和Fare)
selected_features = ['Survived', 'Pclass', 'Age', 'SibSp', 'Fare']
data = data[selected_features]
```
接下来,我们可以对每个特征分别绘制直方图(histogram)和柱状图(bar chart)来了解其分布情况。例如,年龄和票价可以画成直方图,而乘客等级和兄弟姐妹的数量可以用作分类变量,绘制柱状图。
```python
# 绘制直方图
for feature in ['Age', 'Fare']:
plt.figure()
data[feature].hist()
plt.title(f'Histogram of {feature}')
plt.xlabel(feature)
plt.ylabel('Frequency')
plt.show()
# 绘制柱状图
for feature in ['Pclass', 'SibSp']:
plt.figure()
data[feature].value_counts().plot(kind='bar')
plt.title(f'Barchart of {feature} distribution')
plt.xlabel(feature)
plt.ylabel('Count')
plt.show()
```
在这里,每一组`plt.figure()`创建一个新的图表窗口,分别展示了每个选中的特征的统计特性。你可以根据实际需求调整代码,比如添加分组条件等。
阅读全文