首页python爬虫爬取微博评论

python爬虫爬取微博评论

时间: 2023-10-11 16:07:49 浏览: 96

python爬虫爬取微博评论案例详解

5星 · 资源好评率100%

前几天，杨超越编程大赛火了，大家都在报名参加，而我也是其中的一员。在我们的项目中，我负责的是数据爬取这块，我主要是把对于杨超越的每一条评论的相关信息。数据格式：{“name”:评论人姓名,”comment_time”:评论时间,”comment_info”:评论内容,”comment_url”:评论人的主页} 以上就是我们需要的信息。爬虫前的分析：以上是杨超越的微博主页，这是我们首先需要获取到的内容。因为我们需要等到这个主页内这些微博详情页的链接，但是我们向下刷新，会发现微博的主页信息是ajax动态加载出来的，这张图片就是我们向下刷新获取到的新的链接，这个就是我们需要获取

要爬取微博评论，可以使用 Python 的 `requests` 库和 `beautifulsoup4` 库来获取和解析页面。以下是一个简单的示例： ```python import requests from bs4 import BeautifulSoup url = 'https://weibo.com/xxxxxx/xxxxxxxxx' # 微博评论页面的 URL headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') comments = [] # 存储评论的列表 comment_items = soup.select('.list_li.S_line1.clearfix') for item in comment_items: comment = {} comment['user'] = item.select('.WB_text a')[0].text # 评论用户 comment['content'] = item.select('.WB_text[node-type="comment_content"]')[0].text.strip() # 评论内容 comments.append(comment) print(comments) ``` 需要注意的是，要爬取微博评论需要登录账号，可以使用模拟登录的方式或者使用 cookies。此外，微博评论是动态加载的，可以使用浏览器开发者工具查看请求的接口和参数，然后模拟请求获取评论数据。

阅读全文