search_job_result += page_kind_job print(search_job_result) print('第{}页数据爬取完毕, 目前职位总数:{}'.format(i, len(search_job_result))) # 每次抓取完成后,暂停一会,防止被服务器拉黑 time.sleep(15) df = pd.DataFrame(data=search_job_result, columns=['公司全名', '公司简称', '公司规模', '融资阶段', '区域', '职位名称', '工作经验', '学历要求', '工资', '职位福利']) df.to_csv(city+'_'+kind+'_'+'lagou.csv', index=False, encoding='utf-8_sig')
时间: 2023-06-20 18:10:26 浏览: 110
这段代码是用来爬取拉钩网上某个城市某个职位类型的职位信息,并将结果存储为CSV文件。具体流程如下:
1. 定义一个空列表search_job_result,用来存储所有爬取到的职位信息。
2. 循环抓取拉钩网的多页数据,每一页数据包含多个职位信息。
3. 对于每一页数据,将其解析出每个职位的各项信息,如公司全名、公司简称、融资阶段、职位名称等,然后将这些信息存储为一个字典,并将该字典添加到search_job_result列表中。
4. 爬取完一页数据后,暂停一会儿,防止被服务器拉黑。
5. 将search_job_result列表转换成DataFrame格式,并将其保存为CSV文件。
需要注意的是,代码中的city和kind变量需要根据自己实际爬取的城市和职位类型进行修改。另外,代码中的15秒暂停时间也可以根据自己的情况进行调整。
阅读全文