# 读取数据 df = pd.read_csv(city+'_'+kind+'_'+'lagou.csv', encoding='utf-8') # 数据清洗,剔除实习岗位 df.drop(df[df['职位名称'].str.contains('实习')].index,inplace=True) pattern = '\d+' df['work_year'] = df['工作经验'].str.findall(pattern) print('work_year:', df['work_year']) # 数据处理后的工作年限 avg_work_year = [] # 工作年限 for i in df['work_year']: # 如果工作经验为'不限'或应届毕业生',那么匹配值为空,工作年限为0 if len(i) == 0: avg_work_year.append(0) # 如果匹配值为一个数值,那么返回该数值 elif len(i) == 1: avg_work_year.append(int(''.join(i))) # 如果匹配值为一个区间,那么取平均值 else: num_list = [int(j) for j in i] avg_year = sum(num_list)/2 avg_work_year.append(avg_year) print('avg_work_year:',avg_work_year) df['工作经验'] = avg_work_year df['salary'] = df['工资'].str.findall(pattern) # 月薪 avg_salary = [] for k in df['salary']: int_list = [int(n) for n in k] # 存在工资只有一个区间,[20],所以用[-1]. avg_wage = int_list[0] + (int_list[-1] - int_list[0]) / 4 avg_salary.append(avg_wage) df['月工资'] = avg_salary df['学历要求'] = df['学历要求'].replace('不限', '大专') df.to_csv(city+'_'+kind+'_'+'lagou_finall.csv', index=False, encoding='utf-8_sig') plt.rcParams['font.sans-serif'] = ['simhei'] plt.rcParams['font.serif'] = ['simhei']
时间: 2023-06-24 08:05:18 浏览: 61
这段代码的作用是读取一个名为 city+'_'+kind+'_'+'lagou.csv' 的 CSV 文件,并对文件进行数据清洗,剔除实习岗位。然后通过正则表达式匹配工作经验和工资,并计算平均工作年限和月薪。接着,将学历要求中的“不限”替换为“大专”,并将处理后的数据保存为一个名为 city+'_'+kind+'_'+'lagou_finall.csv' 的新的 CSV 文件。最后,使用 matplotlib 库设置字体,并可以进行数据可视化分析。
相关问题
search_job_result += page_kind_job print(search_job_result) print('第{}页数据爬取完毕, 目前职位总数:{}'.format(i, len(search_job_result))) # 每次抓取完成后,暂停一会,防止被服务器拉黑 time.sleep(15) df = pd.DataFrame(data=search_job_result, columns=['公司全名', '公司简称', '公司规模', '融资阶段', '区域', '职位名称', '工作经验', '学历要求', '工资', '职位福利']) df.to_csv(city+'_'+kind+'_'+'lagou.csv', index=False, encoding='utf-8_sig')
这段代码是用来爬取拉钩网上某个城市某个职位类型的职位信息,并将结果存储为CSV文件。具体流程如下:
1. 定义一个空列表search_job_result,用来存储所有爬取到的职位信息。
2. 循环抓取拉钩网的多页数据,每一页数据包含多个职位信息。
3. 对于每一页数据,将其解析出每个职位的各项信息,如公司全名、公司简称、融资阶段、职位名称等,然后将这些信息存储为一个字典,并将该字典添加到search_job_result列表中。
4. 爬取完一页数据后,暂停一会儿,防止被服务器拉黑。
5. 将search_job_result列表转换成DataFrame格式,并将其保存为CSV文件。
需要注意的是,代码中的city和kind变量需要根据自己实际爬取的城市和职位类型进行修改。另外,代码中的15秒暂停时间也可以根据自己的情况进行调整。
(二)招聘数据分析 1、数据准备(可从网站爬取数据) 读取拉勾网的数据分析职位数据 lagou_data.csv,如下表,查看数据基本信息。
很抱歉,我是一个语言模型,无法执行爬取数据等操作。但是,我可以提供一些读取文件的代码示例,您可以参考一下:
```python
import pandas as pd
# 读取csv文件
df = pd.read_csv("lagou_data.csv", encoding="utf-8")
# 查看数据基本信息
print(df.info())
# 查看前5行数据
print(df.head())
```
您需要将文件路径替换成您实际存储数据的路径。