首页Python数据预处理代码

Python数据预处理代码

时间: 2023-09-06 09:10:31 浏览: 128

以下是一个简单的 Python 数据预处理代码示例： ```python import pandas as pd # 读取数据文件 data = pd.read_csv("data.csv") # 删除缺失值 data.dropna(inplace=True) # 去除重复行 data.drop_duplicates(inplace=True) # 转换数据类型 data["age"] = data["age"].astype(int) # 标准化数值列 num_cols = ["age", "income"] data[num_cols] = (data[num_cols] - data[num_cols].mean()) / data[num_cols].std() # 独热编码分类列 cat_cols = ["gender", "education"] data = pd.get_dummies(data, columns=cat_cols) # 保存处理后的数据 data.to_csv("processed_data.csv", index=False) ``` 以上代码示例中，我们使用 Pandas 库来读取数据文件，并进行以下预处理步骤： 1. 删除缺失值：利用 `dropna()` 方法删除数据文件中缺失的行。 2. 去除重复行：利用 `drop_duplicates()` 方法去除数据文件中重复的行。 3. 转换数据类型：利用 `astype()` 方法将数据文件中的字符串列转换为整数类型。 4. 标准化数值列：利用 NumPy 库的 `mean()` 和 `std()` 方法计算数值列的均值和标准差，并将数值列标准化。 5. 独热编码分类列：利用 Pandas 库的 `get_dummies()` 方法将分类列转换为独热编码。 6. 保存处理后的数据：利用 `to_csv()` 方法将处理后的数据保存到新的文件中。以上是一个简单的 Python 数据预处理代码示例，具体的预处理步骤和方法可以根据数据文件的特点进行调整和扩展。

阅读全文