泰坦尼克pandas数据探索
时间: 2023-12-05 09:41:37 浏览: 122
Pandas数据探索
泰坦尼克号数据集是一个非常经典的数据集,我们可以使用pandas库来对其进行探索和分析。以下是一些基本的数据探索方法:
1. 导入库和数据集
```python
import pandas as pd
# 读取csv文件
df = pd.read_csv('titanic.csv')
```
2. 查看数据集的基本信息
```python
# 查看前5行数据
print(df.head())
# 查看数据集的形状
print(df.shape)
# 查看数据集的列名
print(df.columns)
# 查看数据集的数据类型
print(df.dtypes)
# 查看数据集的统计信息
print(df.describe())
```
3. 数据清洗
```python
# 删除无用的列
df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
# 处理缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
# 处理文本数据
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
df['Embarked'] = df['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})
```
4. 数据分析
```python
# 查看存活人数和死亡人数
print(df['Survived'].value_counts())
# 查看存活率
print(df['Survived'].value_counts(normalize=True))
# 查看不同性别的存活率
print(df.groupby('Sex')['Survived'].value_counts(normalize=True))
# 查看不同等级舱位的存活率
print(df.groupby('Pclass')['Survived'].value_counts(normalize=True))
```
以上是一些基本的数据探索方法,当然还有很多其他的方法可以使用。希望这些方法能够帮助你更好地探索泰坦尼克号数据集。
阅读全文