编写一个清洗数据的脚本
时间: 2023-11-30 16:03:40 浏览: 78
Kettle通过Java脚本清洗数据的demo
5星 · 资源好评率100%
好的,以下是一个简单的清洗数据的脚本,可以根据需要进行修改和扩展:
```python
import pandas as pd
import re
# 读取数据文件
df = pd.read_csv('data.csv')
# 删除重复行
df.drop_duplicates(inplace=True)
# 删除缺失值
df.dropna(inplace=True)
# 去除文本中的非字母数字字符和空格
df['text'] = df['text'].apply(lambda x: re.sub(r'[^a-zA-Z0-9\s]', '', x))
# 转换为小写
df['text'] = df['text'].apply(lambda x: x.lower())
# 去除停用词
stopwords = set(['a', 'an', 'the'])
df['text'] = df['text'].apply(lambda x: ' '.join([word for word in x.split() if word not in stopwords]))
# 保存清洗后的数据
df.to_csv('clean_data.csv', index=False)
```
这个脚本首先使用 Pandas 读取了一个名为 "data.csv" 的数据文件,然后删除了其中的重复行和缺失值。接下来,使用正则表达式去除文本中的非字母数字字符和空格,并将所有字母转换为小写。最后,使用一个停用词列表去除文本中的停用词,并将清洗后的数据保存到名为 "clean_data.csv" 的文件中。请注意,这个脚本仅供参考,具体的清洗步骤和代码实现可能因数据类型和需求不同而有所不同。
阅读全文