python数据清洗与数据预处理代码
时间: 2024-12-12 07:05:21 浏览: 8
Python----数据预处理代码实例
Python中数据清洗和预处理是非常关键的数据分析步骤,常常通过一些库如Pandas、NumPy和OpenCSV来进行。以下是基本的操作:
1. 导入必要的库:
```python
import pandas as pd
import numpy as np
```
2. 加载数据集(假设文件名为'data.csv'):
```python
data = pd.read_csv('data.csv')
```
3. **数据清洗**:
- 检查缺失值(NaNs):
```python
data.isnull().sum() # 显示每列的缺失值数量
```
- 删除或填充缺失值:
```python
data.dropna() # 删除含有缺失值的行
data.fillna(value=0) # 使用特定值填充缺失值
```
- 异常值检测:
```python
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data = data[~((data < (Q1 - 1.5 * IQR)) |(data > (Q3 + 1.5 * IQR))).any(axis=1)] # 直方图箱线图法
```
4. **数据转换**:
- 类别编码(例如OneHotEncoding或LabelEncoder):
```python
pd.get_dummies(data['column_name']) 或者
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
data['encoded_column'] = encoder.fit_transform(data['column_name'])
```
- 数值特征标准化或归一化:
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data[['numeric_column']])
```
5. **数据切分**(如果需要训练模型):
```python
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)
```
阅读全文