首页scrapy用xpath翻页爬取考研网页

scrapy用xpath翻页爬取考研网页

时间: 2023-07-12 08:52:01 浏览: 63

以下是使用Scrapy和XPath翻页爬取考研网页的示例代码： ```python import scrapy class KaoyanSpider(scrapy.Spider): name = 'kaoyan' allowed_domains = ['kaoyan.com'] start_urls = ['https://kaoyan.com/beijing/wl/'] def parse(self, response): # 提取当前页面的学校列表 schools = response.xpath('//div[@class="college"]') for school in schools: name = school.xpath('.//h2/a/text()').get() address = school.xpath('.//p[contains(text(),"地址")]/text()').get() yield { 'name': name, 'address': address } # 提取下一页链接并发送请求 next_page = response.xpath('//a[@class="next"]/@href') if next_page: yield response.follow(next_page.get(), callback=self.parse) ``` 在以上代码中，`parse`方法用于提取当前页面的学校列表，并使用`yield`语句返回每个学校的名称和地址。然后，使用XPath表达式提取下一页的链接，并使用`response.follow`方法发送请求获取下一页的数据。如果没有下一页链接，则停止爬取。