首页深度学习数据清洗代码实例

深度学习数据清洗代码实例

时间: 2024-04-18 17:22:16 浏览: 17

当进行深度学习任务时，数据清洗是一个非常重要的步骤，它可以帮助我们准备干净、一致的数据集，以提高模型的性能和准确性。下面是一个简单的深度学习数据清洗代码实例： ```python import pandas as pd import numpy as np # 读取数据 data = pd.read_csv('data.csv') # 处理缺失值 data = data.fillna(0) # 将缺失值填充为0 # 处理异常值 data = data[(data['score'] >= 0) & (data['score'] <= 100)] # 剔除score列中小于0或大于100的异常值 # 处理重复值 data = data.drop_duplicates() # 删除重复的行 # 数据标准化 data['age'] = (data['age'] - data['age'].mean()) / data['age'].std() # 对age列进行标准化处理 # 特征编码 data['gender'] = data['gender'].map({'male': 0, 'female': 1}) # 将gender列的male编码为0，female编码为1 # 划分训练集和测试集 train_data = data.sample(frac=0.8, random_state=1) # 随机选择80%的数据作为训练集 test_data = data.drop(train_data.index) # 剩余的数据作为测试集 # 数据保存 train_data.to_csv('train_data.csv', index=False) # 将训练集保存为train_data.csv文件 test_data.to_csv('test_data.csv', index=False) # 将测试集保存为test_data.csv文件 ``` 这个代码实例演示了一些常见的数据清洗操作，包括处理缺失值、异常值、重复值，数据标准化和特征编码等。你可以根据自己的数据集和需求进行相应的修改和扩展。