可以使用scrapy框架的实例吗
时间: 2023-09-02 16:15:20 浏览: 144
当然可以,Scrapy框架是一个强大的Python爬虫框架,可以非常方便地实现爬取新浪微博以及其他网站的功能。以下是一个使用Scrapy框架爬取新浪微博的示例代码:
```python
import scrapy
from scrapy import Request
import json
class WeiboSpider(scrapy.Spider):
name = 'weibo'
allowed_domains = ['m.weibo.cn']
start_urls = ['https://m.weibo.cn/api/container/getIndex?type=uid&value=1234567890']
def start_requests(self):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
for url in self.start_urls:
yield Request(url, headers=headers)
def parse(self, response):
json_data = json.loads(response.text)
for card in json_data['data']['cards']:
if card['card_type'] == 9:
mblog = card['mblog']
yield {
'id': mblog['id'],
'text': mblog['text'],
'created_at': mblog['created_at'],
'source': mblog['source'],
'attitudes_count': mblog['attitudes_count'],
'comments_count': mblog['comments_count'],
'reposts_count': mblog['reposts_count']
}
# 爬取下一页数据
since_id = json_data['data']['cardlistInfo']['since_id']
if since_id:
next_url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value=1234567890&since_id=' + str(since_id)
yield Request(next_url, callback=self.parse)
```
上述代码中,我们使用了Scrapy框架的Request和Item功能,以及自定义的解析函数parse。在parse函数中,我们使用了json库解析JSON格式的响应数据,提取了微博的id、文本、发布时间、来源、点赞数、评论数和转发数等信息,并将其存储到Item中。同时,我们通过递归的方式爬取了多页数据。
需要注意的是,上述代码中的URL中的数字1234567890应该替换成要爬取的微博主页的UID。此外,还需要添加Scrapy框架的其他配置和功能,例如爬虫中间件、代理设置、日志记录等,以便更好地应对反爬机制和异常情况。
阅读全文