首页scrspy爬取招聘网

scrspy爬取招聘网

时间: 2023-05-28 14:05:58 浏览: 68

为了爬取招聘网站，您需要使用Python中的Scrapy框架。以下是一个简单的Scrapy爬虫的示例，它可以爬取一个招聘网站的职位信息： ``` import scrapy class JobSpider(scrapy.Spider): name = 'job' start_urls = ['https://www.example.com/jobs/'] def parse(self, response): for job in response.css('div.job-listing'): yield { 'title': job.css('h2.title::text').get(), 'company': job.css('span.company::text').get(), 'location': job.css('span.location::text').get(), 'salary': job.css('span.salary::text').get(), } next_page = response.css('a.next-page::attr(href)').get() if next_page is not None: yield response.follow(next_page, self.parse) ``` 在上面的代码中，我们首先定义了一个名为`JobSpider`的类，它继承自Scrapy的`Spider`类。我们指定了爬虫的名称和起始URL。在`parse`方法中，我们使用CSS选择器来提取职位信息，并使用`yield`语句将其发送到Scrapy引擎中。最后，我们检查是否有下一页，并使用`response.follow`方法继续处理下一页。要运行这个爬虫，您需要在命令行中输入以下命令： ``` scrapy runspider job_spider.py -o jobs.csv ``` 这将运行爬虫，并将结果保存在名为`jobs.csv`的CSV文件中。