深度学习数据清洗代码实例
时间: 2024-04-18 17:22:16 浏览: 17
当进行深度学习任务时,数据清洗是一个非常重要的步骤,它可以帮助我们准备干净、一致的数据集,以提高模型的性能和准确性。下面是一个简单的深度学习数据清洗代码实例:
```python
import pandas as pd
import numpy as np
# 读取数据
data = pd.read_csv('data.csv')
# 处理缺失值
data = data.fillna(0) # 将缺失值填充为0
# 处理异常值
data = data[(data['score'] >= 0) & (data['score'] <= 100)] # 剔除score列中小于0或大于100的异常值
# 处理重复值
data = data.drop_duplicates() # 删除重复的行
# 数据标准化
data['age'] = (data['age'] - data['age'].mean()) / data['age'].std() # 对age列进行标准化处理
# 特征编码
data['gender'] = data['gender'].map({'male': 0, 'female': 1}) # 将gender列的male编码为0,female编码为1
# 划分训练集和测试集
train_data = data.sample(frac=0.8, random_state=1) # 随机选择80%的数据作为训练集
test_data = data.drop(train_data.index) # 剩余的数据作为测试集
# 数据保存
train_data.to_csv('train_data.csv', index=False) # 将训练集保存为train_data.csv文件
test_data.to_csv('test_data.csv', index=False) # 将测试集保存为test_data.csv文件
```
这个代码实例演示了一些常见的数据清洗操作,包括处理缺失值、异常值、重复值,数据标准化和特征编码等。你可以根据自己的数据集和需求进行相应的修改和扩展。