用scrapy写一段爬取boss直聘上海地区职位信息的代码并导出excel表格

以下是一个简单的爬取boss直聘上海地区职位信息并导出excel表格的示例代码： ```python import scrapy import json import pandas as pd class BossSpider(scrapy.Spider): name = 'boss' allowed_domains = ['www.zhipin.com'] start_urls = ['https://www.zhipin.com/c101020100-p100101/'] def parse(self, response): # 获取职位信息列表 jobs = response.xpath('//div[@class="job-list"]/ul/li') for job in jobs: # 解析职位信息 job_title = job.xpath('./div[@class="job-title"]/text()').get() company_name = job.xpath('./div[@class="company-text"]/h3/a/text()').get() salary = job.xpath('./div[@class="job-limit clearfix"]/span/text()').get() job_url = job.xpath('./div[@class="info-primary"]/h3/a/@href').get() # 访问职位详情页，获取更多职位信息 yield scrapy.Request(job_url, callback=self.parse_job_detail, meta={ 'job_title': job_title, 'company_name': company_name, 'salary': salary }) # 翻页 next_page_url = response.xpath('//a[@ka="page-next"]/@href') if next_page_url: yield scrapy.Request(response.urljoin(next_page_url.get()), callback=self.parse) def parse_job_detail(self, response): # 获取职位要求、公司介绍等信息 job_desc = response.xpath('//div[@class="job-sec"]/div[@class="text"]/text()') job_desc = '\n'.join(job_desc.getall()).strip() company_info = response.xpath('//div[@class="job-sec company-info"]/div[@class="text"]/text()') company_info = '\n'.join(company_info.getall()).strip() # 获取meta传递的职位信息 job_title = response.meta['job_title'] company_name = response.meta['company_name'] salary = response.meta['salary'] # 导出数据到excel表格 data = { '职位名称': [job_title], '公司名称': [company_name], '薪资待遇': [salary], '职位描述': [job_desc], '公司介绍': [company_info], } df = pd.DataFrame(data) df.to_excel('boss.xlsx', index=False, header=False, mode='a') ``` 这段代码使用了Scrapy框架，通过XPath解析HTML页面，并使用pandas库将数据导出到excel表格中。您需要安装Scrapy和pandas库才能运行该代码，可以使用以下命令进行安装： ``` pip install scrapy pandas ``` 在运行该代码前，您需要根据您的需求修改`start_urls`和`allowed_domains`变量来指定您要爬取的网站。同时，您也可以根据需要修改数据导出的文件名和数据字段。

阅读全文

用scrapy写一段爬取boss直聘上海地区职位信息的代码并导出excel表格

相关推荐

使用Scrapy抓取职位招聘数据-爬虫python代码

爬取boss招聘数据

Scrapy框架爬取Boss直聘网Python职位信息的

用scrapy写一段爬取boss直聘上海地区一个月内的职位信息的代码并导出excel表格

用scrapy框架写一个爬取boss直聘上海地区岗位信息的代码

用scrapy框架写一个爬取boss直聘计算机相关岗位信息的代码

scrapy爬取boss直聘

scrapy爬取boss直聘2021

怎么使用scrapy爬取boss直聘上的数据详解

jobSpider是一只scrapy爬虫，用于爬取职位信息.zip

dongfangyanbao:使用 scrapy-selenium 爬取爬取东方财富网的所有个股研报信息

使用Scrapy框架与Python爬取京东商品信息教程

使用Scrapy框架从豆瓣爬取电影信息与评论

使用Scrapy-Redis分布式爬取Gitee开源项目信息教程

怎么使用scrapy爬取boss直聘上的数据并保存为csv文件详解

爬取boss直聘招聘信息

爬取Boss直聘上的招聘信息

python爬取boss直聘招聘信息

scrapy和selenium爬取boss

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】