处理Titanic Data Set数据及处理数据的缺失值(使用两种方式处理数据的缺失值),对数值型数据进行规范化
时间: 2023-12-02 07:05:22 浏览: 110
数据清洗之 缺失值处理
好的,我明白了。对于 Titanic 数据集,处理缺失值的两种常见方式是删除包含缺失值的行或列,或者使用均值、中位数、众数等填充缺失值。下面是使用 Python 和 Pandas 库进行数据处理的示例代码:
```python
import pandas as pd
from sklearn.preprocessing import StandardScaler
# 读取数据集
df = pd.read_csv('titanic.csv')
# 删除包含缺失值的行
df = df.dropna()
# 或者使用均值填充缺失值(以 Age 列为例)
df['Age'] = df['Age'].fillna(df['Age'].mean())
# 对数值型数据进行规范化(以 Age 和 Fare 列为例)
scaler = StandardScaler()
df[['Age', 'Fare']] = scaler.fit_transform(df[['Age', 'Fare']])
```
其中,`dropna()` 方法会删除包含缺失值的行或列,默认是删除行,可以通过 `axis` 参数指定删除列。`fillna()` 方法可以使用指定的值填充缺失值,也可以使用均值、中位数、众数等填充。对数值型数据进行规范化可以使用 `StandardScaler` 类,它可以将数据缩放到均值为 0、标准差为 1 的分布。
阅读全文