用scrapy框架爬虫招聘网站
时间: 2024-06-09 11:10:57 浏览: 120
好的,以下是用Scrapy框架爬取招聘网站的大致步骤:
1. 创建Scrapy项目
在命令行中输入以下命令,创建一个名为job_spider的Scrapy项目:
```
scrapy startproject job_spider
```
2. 创建爬虫
在job_spider目录下,输入以下命令,创建一个名为job_spider的爬虫:
```
scrapy genspider job_spider example.com
```
其中,example.com是要爬取的网站域名,这里只是示例,实际爬虫中需要替换成目标网站的域名。
3. 编写爬虫代码
打开job_spider/spiders/job_spider.py文件,编辑爬虫代码。以下是一个简单的爬虫示例:
```python
import scrapy
class JobSpider(scrapy.Spider):
name = 'job_spider'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com/jobs']
def parse(self, response):
for job in response.xpath('//div[@class="job"]'):
yield {
'title': job.xpath('h2/a/text()').get(),
'company': job.xpath('h3/a/text()').get(),
'location': job.xpath('p/span[@class="location"]/text()').get(),
'salary': job.xpath('p/span[@class="salary"]/text()').get(),
}
next_page = response.xpath('//a[@class="next"]/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
在这个爬虫中,我们首先定义了名为JobSpider的爬虫类,设置了要爬取的域名和起始URL。在parse方法中,我们使用XPath表达式提取了每个职位的标题、公司、地点和薪资,并将其封装成字典格式的数据,使用yield关键字输出。同时,我们还检查了是否有下一页,如果有,使用response.follow方法跟踪链接并继续执行parse方法。
4. 运行爬虫
在命令行中进入job_spider目录,输入以下命令运行爬虫:
```
scrapy crawl job_spider -o jobs.csv
```
其中,jobs.csv是输出数据的文件名,可以根据需要更改。运行完成后,爬虫会输出抓取到的数据,并将其保存到指定的CSV文件中。
以上就是用Scrapy框架爬取招聘网站的基本步骤,具体细节还需要根据实际情况进行调整。
阅读全文