用scrapy框架写一个爬取boss直聘计算机相关岗位信息的代码
时间: 2024-06-08 11:05:49 浏览: 215
Scrapy框架爬取Boss直聘网Python职位信息的
5星 · 资源好评率100%
好的,以下是使用 Scrapy 框架写一个爬取 boss 直聘计算机相关岗位信息的代码:
```python
import scrapy
class BossSpider(scrapy.Spider):
name = 'boss'
allowed_domains = ['www.zhipin.com']
start_urls = ['https://www.zhipin.com/c101010100/?query=计算机']
def parse(self, response):
# 获取当前页面所有职位信息
job_list = response.xpath('//div[@class="job-list"]/ul/li')
for job in job_list:
# 获取职位名称和链接
job_name = job.xpath('./div/div[@class="job-title"]/text()').extract_first()
job_link = job.xpath('./div/div[@class="job-title"]/a/@href').extract_first()
# 获取公司名称和链接
company_name = job.xpath('./div/div[@class="company-text"]/h3/a/text()').extract_first()
company_link = job.xpath('./div/div[@class="company-text"]/h3/a/@href').extract_first()
yield {
'job_name': job_name,
'job_link': job_link,
'company_name': company_name,
'company_link': company_link,
}
# 获取下一页链接并继续爬取
next_page = response.xpath('//div[@class="page"]/a[@class="next"]/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
以上代码会爬取 boss 直聘中所有关键词为“计算机”的岗位信息,并将职位名称、职位链接、公司名称、公司链接存储在字典中,最终输出到控制台。你可以根据需要修改代码中的关键词和输出方式。
阅读全文