python爬取微博内容
时间: 2023-09-08 16:15:05 浏览: 71
以下是一个示例代码,可以爬取微博的内容:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头信息,避免被反爬
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
# 构造请求url
url = "https://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E6%AF%8F%E6%97%A5%E4%B8%80%E7%82%B9&advancedfilter=1&hasori=1&starttime=20201201&endtime=20210101&sort=time&page=1"
# 发送请求
response = requests.get(url, headers=headers)
# 解析页面
soup = BeautifulSoup(response.content, 'html.parser')
# 找到所有微博的div标签
divs = soup.find_all("div", class_="c")
# 遍历每个微博
for div in divs:
# 找到微博的正文内容
span = div.find("span", class_="ctt")
if span is None:
continue
content = span.get_text()
print(content)
```
需要注意的是,微博的页面结构经常会变化,所以如果代码无法正常工作,可能需要根据实际情况进行调整。同时,爬取微博内容也需要遵守相关法律法规和网站的规定,不得进行非法操作。
阅读全文