首页scrapy爬虫代码实例

scrapy爬虫代码实例

时间: 2023-08-05 20:07:48 浏览: 89

好的，这里给你一个简单的Scrapy爬虫代码实例，可以爬取豆瓣图书的信息： ```python import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allowed_domains = ['book.douban.com'] start_urls = ['https://book.douban.com/tag/'] def parse(self, response): tags = response.css('.tagCol td a::attr(href)').getall() for tag in tags: yield response.follow(tag, callback=self.parse_books) def parse_books(self, response): books = response.css('.subject-item') for book in books: yield { 'title': book.css('h2 a::text').get(), 'author': book.css('.pub::text').get(), 'rating': book.css('.rating_nums::text').get(), 'cover': book.css('.nbg img::attr(src)').get() } next_page = response.css('.next a::attr(href)').get() if next_page is not None: yield response.follow(next_page, callback=self.parse_books) ``` 这个爬虫会首先访问豆瓣图书标签页，获取所有标签的链接，然后依次访问每个标签的页面，提取页面上的图书信息。最后，如果有下一页的话，会继续访问下一页。注意，这个代码仅供参考，如果你要使用它爬取数据，请先确认是否符合网站的爬取规则，避免触发反爬虫机制。

阅读全文