scrapy爬取智联招聘
时间: 2023-08-13 09:07:40 浏览: 167
好的,以下是使用Scrapy框架爬取智联招聘的简单示例代码:
首先,您需要在Scrapy中创建一个新项目:
```
scrapy startproject zhaopin
```
然后,在项目目录下创建一个新的spider:
```
cd zhaopin
scrapy genspider job zhaopin.com
```
接着,您需要在spider中定义要爬取的数据字段和要爬取的网页链接:
```python
import scrapy
class JobSpider(scrapy.Spider):
name = "job"
allowed_domains = ["zhaopin.com"]
start_urls = [
"https://sou.zhaopin.com/?p=1&jl=489&kw=python&kt=3",
]
def parse(self, response):
for job in response.css(".contentpile__content__wrapper"):
yield {
"title": job.css(".contentpile__content__wrapper__item__info__box__jobname__title::text").get(),
"company": job.css(".contentpile__content__wrapper__item__info__box__cname__title::text").get(),
"location": job.css(".contentpile__content__wrapper__item__info__box__joblocation__wrapper::text").get(),
"salary": job.css(".contentpile__content__wrapper__item__info__box__jobdata__item__salary::text").get(),
"date": job.css(".contentpile__content__wrapper__item__info__box__jobdata__item__datetxt::text").get(),
}
next_page = response.css(".next-page::attr(href)").get()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
在此示例中,我们定义了爬取职位标题,公司名称,工作地点,薪水和发布日期的数据字段。start_urls中包含我们要爬取的初始网址,然后在parse函数中使用css选择器筛选相应的数据,并使用response.follow方法跟进下一页链接。
最后,您可以在命令行中运行以下命令来启动爬虫:
```
scrapy crawl job -o job.csv
```
此命令将爬取智联招聘网站上的所有招聘信息,并将结果保存在名为“job.csv”的文件中。
阅读全文