2.工作要求 请使用python语言编写自动化数据清洗程序,对数据进行清洗,要求完成: (1)删除数据中的空行及空列; (2)删除文本中的特殊字符【*】【#】【%】; (3)去除工作年份列中的空字符; (4)删除年龄小于18的数据; (5)删除数据表中,完全重复的数据; (6)将经验等级数据进行编码转换
时间: 2024-03-22 20:42:58 浏览: 39
python数据清洗
5星 · 资源好评率100%
好的,根据您的工作要求,以下是Python代码实现自动化数据清洗:
```python
import pandas as pd
# 读取数据文件
df = pd.read_csv('data.csv')
# 删除数据中的空行及空列
df.dropna(how='all', inplace=True)
df.dropna(axis=1, how='all', inplace=True)
# 删除文本中的特殊字符【*】【#】【%】
df.replace(['*', '#', '%'], '', regex=True, inplace=True)
# 去除工作年份列中的空字符
df['工作年份'].replace(' ', '', inplace=True)
# 删除年龄小于18的数据
df = df[df['年龄'] >= 18]
# 删除数据表中,完全重复的数据
df.drop_duplicates(inplace=True)
# 将经验等级数据进行编码转换
exp_dict = {'1年以下': 1, '1-3年': 2, '3-5年': 3, '5-10年': 4, '10年以上': 5}
df['经验等级'] = df['经验等级'].map(exp_dict)
# 将处理后的数据保存到文件
df.to_csv('cleaned_data.csv', index=False)
```
以上代码实现了对数据的自动化清洗,包括删除空行和空列、删除特殊字符、去除工作年份列中的空字符、删除年龄小于18的数据、删除完全重复的数据以及将经验等级数据进行编码转换。最后将处理后的数据保存到文件。
阅读全文