scrapy用xpath翻页爬取考研网页
时间: 2023-07-12 08:52:01 浏览: 63
以下是使用Scrapy和XPath翻页爬取考研网页的示例代码:
```python
import scrapy
class KaoyanSpider(scrapy.Spider):
name = 'kaoyan'
allowed_domains = ['kaoyan.com']
start_urls = ['https://kaoyan.com/beijing/wl/']
def parse(self, response):
# 提取当前页面的学校列表
schools = response.xpath('//div[@class="college"]')
for school in schools:
name = school.xpath('.//h2/a/text()').get()
address = school.xpath('.//p[contains(text(),"地址")]/text()').get()
yield {
'name': name,
'address': address
}
# 提取下一页链接并发送请求
next_page = response.xpath('//a[@class="next"]/@href')
if next_page:
yield response.follow(next_page.get(), callback=self.parse)
```
在以上代码中,`parse`方法用于提取当前页面的学校列表,并使用`yield`语句返回每个学校的名称和地址。然后,使用XPath表达式提取下一页的链接,并使用`response.follow`方法发送请求获取下一页的数据。如果没有下一页链接,则停止爬取。