1,正确读取51job.csv,列名命名为link、job、salary、company、city、time、label、demand,共8个字段 df=pd.read_csv('51job.csv',encoding='gbk',names=['link','job','salary','company','city','time','label','demand']) df.head(2) 将label和demand字段中的特殊字符和空白字符全部剔除
时间: 2023-12-23 20:05:17 浏览: 42
解析csv文件,获取需要的信息
好的,可以使用如下代码来读取csv文件并进行操作:
```python
import pandas as pd
# 读取csv文件并设置列名
df = pd.read_csv('51job.csv', encoding='gbk', names=['link', 'job', 'salary', 'company', 'city', 'time', 'label', 'demand'])
# 剔除label和demand字段中的特殊字符和空白字符
df['label'] = df['label'].str.replace(r'\s+', '').str.replace('[^a-zA-Z0-9\u4e00-\u9fa5]', '')
df['demand'] = df['demand'].str.replace(r'\s+', '').str.replace('[^a-zA-Z0-9\u4e00-\u9fa5]', '')
# 查看处理后的数据
print(df.head(2))
```
其中,`r'\s+'`表示匹配所有空白字符,`[^a-zA-Z0-9\u4e00-\u9fa5]`表示匹配所有非字母、非数字、非中文字符。`str.replace`方法将匹配到的字符替换为空字符串。最后,使用`head`方法查看处理后的前两行数据。
阅读全文