scrapy 爬取boss直聘it行业招聘信息

本文介绍如何使用 Scrapy 爬取 boss 直聘 IT 行业的招聘信息。 1. 创建 Scrapy 项目在命令行中输入以下命令创建 Scrapy 项目： ``` scrapy startproject boss ``` 2. 创建爬虫在命令行中进入项目目录，输入以下命令创建爬虫： ``` scrapy genspider boss_it www.zhipin.com ``` 3. 修改爬虫代码打开 `boss_it.py` 文件，修改 `allowed_domains` 和 `start_urls`： ```python class BossItSpider(scrapy.Spider): name = 'boss_it' allowed_domains = ['www.zhipin.com'] start_urls = ['https://www.zhipin.com/c101280100/?query=IT'] def parse(self, response): pass ``` 4. 解析数据使用 Chrome 浏览器打开 boss 直聘网站，搜索 IT 行业的招聘信息。在浏览器中按 F12 打开开发者工具，切换到 Network 标签页。在搜索结果页面中选择一个招聘信息，可以看到有一个请求 URL，复制它的 URL，然后打开新的标签页，在地址栏中输入该 URL，回车后可以看到该招聘信息的详细页面。在开发者工具中切换到 Network 标签页，可以看到该页面的请求 URL，复制它的 URL，然后在 Scrapy 中发送该请求并解析数据。在 `parse` 方法中添加以下代码： ```python def parse(self, response): job_list = response.xpath('//div[@class="job-list"]/ul/li') for job in job_list: job_url = job.xpath('./div[1]/div[1]/a/@href').extract_first() yield scrapy.Request(url=job_url, callback=self.parse_job) next_page = response.xpath('//a[@class="next"]/@href') if next_page: next_page_url = response.urljoin(next_page.extract_first()) yield scrapy.Request(url=next_page_url, callback=self.parse) def parse_job(self, response): item = BossItem() item['job_title'] = response.xpath('//h1/text()').extract_first() item['salary'] = response.xpath('//div[@class="job-primary detail-box"]/div[2]/span/text()').extract_first() item['city'] = response.xpath('//div[@class="job-primary detail-box"]/div[1]/p/text()[1]').extract_first() item['experience'] = response.xpath('//div[@class="job-primary detail-box"]/div[1]/p/text()[2]').extract_first() item['education'] = response.xpath('//div[@class="job-primary detail-box"]/div[1]/p/text()[3]').extract_first() item['job_description'] = response.xpath('//div[@class="job-sec"]/div[1]/div[1]/text()').extract() yield item ``` 5. 定义数据模型在 `items.py` 文件中定义数据模型： ```python class BossItem(scrapy.Item): job_title = scrapy.Field() salary = scrapy.Field() city = scrapy.Field() experience = scrapy.Field() education = scrapy.Field() job_description = scrapy.Field() ``` 6. 启动爬虫在命令行中输入以下命令启动爬虫： ``` scrapy crawl boss_it -o boss.csv ``` 7. 查看结果爬虫运行结束后，可以看到一个名为 `boss.csv` 的文件，它包含了爬取的招聘信息。

阅读全文

scrapy 爬取boss直聘it行业招聘信息

相关推荐

使用Scrapy框架爬取智联招聘全平台职位信息

使用Python Scrapy爬取虎扑NBA新闻与球员信息

使用Scrapy爬取网易云音乐信息及热评

scrapy爬取boss直聘

scrapy爬取boss直聘2021

基于scrapy爬取boss直聘

怎么使用scrapy爬取boss直聘上的数据详解

怎么使用scrapy爬取boss直聘上的数据并保存为csv文件详解

爬取Boss直聘上的招聘信息

用scrapy框架写一个爬取boss直聘上海地区岗位信息的代码

用scrapy框架写一个爬取boss直聘计算机相关岗位信息的代码

爬取boss直聘招聘信息

python爬取boss直聘招聘信息

scrapy爬取智联招聘职位信息

scrapy爬取猎聘网代码

scrapy爬取智联招聘

scrapy爬取招聘网站

python爬虫爬取boss直聘

scrapy爬取酒店信息

scrapy爬取quotes scrapy

大家在看

网络游戏中人工智能NPC.pdf

c语言编写的jpeg解码源代码

Noise-Pollution-Monitoring-Device

ggplot_Piper

海康最新视频控件_独立进程.rar

最新推荐

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】