scrapy豆瓣读书top爬虫
时间: 2023-06-10 10:08:45 浏览: 175
python-crawler-douban:豆瓣综合爬虫,使用 `Python-3.7 + Scrapy-1.5` 构建,含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取
好的,以下是一个简单的Scrapy爬虫,可以用来爬取豆瓣读书的Top250图书信息:
```python
# -*- coding: utf-8 -*-
import scrapy
class DoubanBookSpider(scrapy.Spider):
name = 'douban_book'
allowed_domains = ['book.douban.com']
start_urls = ['https://book.douban.com/top250']
def parse(self, response):
for book in response.css('.indent .item'):
yield {
'title': book.css('.pl2 a::text').extract_first(),
'author': book.css('.pl::text').extract_first(),
'rating': book.css('.rating_nums::text').extract_first(),
'num_ratings': book.css('.star span::text').extract()[1],
'cover_image': book.css('.nbg img::attr(src)').extract_first(),
}
next_page = response.css('.next a::attr(href)').extract_first()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
这个爬虫首先在 `start_urls` 中指定了起始URL,然后在 `parse` 方法中解析每一页的图书信息,并使用 CSS 选择器来提取每本书的标题、作者、评分、评价人数和封面图片链接。最后,爬虫会检查是否有下一页,并在有下一页的情况下继续爬取。
阅读全文