scrapy爬虫代码实例
时间: 2023-08-05 11:07:48 浏览: 79
scrapy爬虫实例代码
好的,这里给你一个简单的Scrapy爬虫代码实例,可以爬取豆瓣图书的信息:
```python
import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban'
allowed_domains = ['book.douban.com']
start_urls = ['https://book.douban.com/tag/']
def parse(self, response):
tags = response.css('.tagCol td a::attr(href)').getall()
for tag in tags:
yield response.follow(tag, callback=self.parse_books)
def parse_books(self, response):
books = response.css('.subject-item')
for book in books:
yield {
'title': book.css('h2 a::text').get(),
'author': book.css('.pub::text').get(),
'rating': book.css('.rating_nums::text').get(),
'cover': book.css('.nbg img::attr(src)').get()
}
next_page = response.css('.next a::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, callback=self.parse_books)
```
这个爬虫会首先访问豆瓣图书标签页,获取所有标签的链接,然后依次访问每个标签的页面,提取页面上的图书信息。最后,如果有下一页的话,会继续访问下一页。
注意,这个代码仅供参考,如果你要使用它爬取数据,请先确认是否符合网站的爬取规则,避免触发反爬虫机制。
阅读全文