51job招聘网爬取scrapy
时间: 2023-10-20 21:08:31 浏览: 39
好的,以下是一个简单的51job招聘网爬虫示例,使用Scrapy框架编写:
首先,在终端中创建一个新的Scrapy项目:
```
scrapy startproject jobspider
```
接下来,进入项目目录并创建一个新的Spider:
```
cd jobspider
scrapy genspider job51 job51.com
```
现在,我们可以打开`jobspider/spiders/job51.py`文件,并开始编写我们的爬虫代码。以下是一个示例:
```python
import scrapy
class Job51Spider(scrapy.Spider):
name = 'job51'
allowed_domains = ['51job.com']
start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html']
def parse(self, response):
jobs = response.xpath('//div[@class="el"]')
for job in jobs:
yield {
'title': job.xpath('p[@class="t1"]/a/text()').get(),
'company': job.xpath('span[@class="t2"]/a/text()').get(),
'location': job.xpath('span[@class="t3"]/text()').get(),
'salary': job.xpath('span[@class="t4"]/text()').get(),
'date': job.xpath('span[@class="t5"]/text()').get(),
}
next_page = response.xpath('//div[@class="p_in"]/ul/li[last()]/a/@href')
if next_page:
yield response.follow(next_page.get(), self.parse)
```
在上面的代码中,我们定义了一个名为“job51”的Spider,它开始访问51job.com上的搜索页面,并使用XPath选择器提取有关每个工作的信息。我们还定义了一个“parse”方法来处理响应并提取数据。
最后,我们需要在命令行中运行以下命令以启动爬虫:
```
scrapy crawl job51 -o jobs.csv
```
这将运行我们的爬虫,并将提取的数据保存在“jobs.csv”文件中。
请注意,此示例仅用于演示如何使用Scrapy编写简单的爬虫。在实际使用中,您需要遵守所有网站的条款和条件,并确保您的爬虫不会对网站造成任何不必要的负担。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)