python爬取微博正文及其评论内容
时间: 2023-10-06 11:09:00 浏览: 185
python爬虫爬取微博评论案例详解
5星 · 资源好评率100%
要爬取微博的正文及其评论内容,可以使用Python的第三方库来实现。以下是一个简单的爬取微博正文及评论的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 设置要爬取的微博页面地址
url = 'https://weibo.com/xxxxxxx/xxxxxxxxx'
# 发送请求
response = requests.get(url, headers=headers)
# 使用BeautifulSoup解析html
soup = BeautifulSoup(response.text, 'html.parser')
# 获取微博正文内容
weibo_text = soup.select_one('.WB_text.W_f14').text.strip()
# 获取微博评论内容
comments = soup.select('.list_li.S_line1.clearfix')
comment_list = []
for comment in comments:
comment_text = comment.select_one('.WB_text').text.strip()
comment_list.append(comment_text)
# 打印微博正文及评论
print('微博正文:', weibo_text)
print('评论列表:', comment_list)
```
需要注意的是,如果要爬取的微博是需要登录才能查看的,则需要先模拟登录获取cookie,并在请求头中添加cookie信息。另外,还需要注意反爬虫策略,不能频繁请求同一个页面,否则可能会被封禁IP。
阅读全文