写一个Scrapy爬虫案例
时间: 2024-04-01 07:37:56 浏览: 84
基于scrapy的爬虫小例子
下面是一个简单的 Scrapy 爬虫案例,它可以爬取百度贴吧中的帖子标题和链接:
```python
import scrapy
class BaiduTiebaSpider(scrapy.Spider):
name = 'baidu_tieba'
allowed_domains = ['tieba.baidu.com']
start_urls = ['http://tieba.baidu.com/f?kw=python']
def parse(self, response):
for post in response.css('.j_thread_list .threadlist_title'):
yield {
'title': post.css('a::text').get(),
'link': post.css('a::attr(href)').get(),
}
next_page = response.css('.next.pagination-item::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
这个爬虫会在百度贴吧的 Python 吧中爬取帖子标题和链接,并自动翻页。你可以在命令行中运行这个爬虫:
```
scrapy crawl baidu_tieba -o results.json
```
这个命令会将爬取到的结果保存到 results.json 文件中。如果你需要保存为其他格式,可以将文件扩展名改为对应的格式,如 results.csv、results.xml 等。
阅读全文