爬虫微博热搜top50代码
时间: 2024-06-17 10:04:11 浏览: 174
Python爬虫获取微博TOP50热搜+写入Excel
爬取微博热搜top50的代码,大致分为以下几个步骤:
1. 导入需要用到的库:requests、BeautifulSoup、re。
2. 发送请求获取页面源代码。
3. 解析页面源代码,获取热搜列表信息。
4. 对热搜列表信息进行处理,提取出需要的信息。
5. 将信息输出或保存。
以下是Python实现代码:
```
import requests
from bs4 import BeautifulSoup
import re
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 请求链接
url = 'https://s.weibo.com/top/summary'
# 发送请求
response = requests.get(url, headers=headers)
# 解析页面源代码
soup = BeautifulSoup(response.text, 'html.parser')
# 获取热搜列表信息
hot_list = soup.find_all('td', class_='td-02')
# 对热搜列表信息进行处理,提取出需要的信息
result = []
for hot in hot_list:
rank = hot.find('span').text # 排名
title = hot.find('a').text # 标题
href = hot.find('a')['href'] # 链接
hot_value = hot.find_next_sibling().find('span').text # 热度值
result.append({'rank': rank, 'title': title, 'href': href, 'hot_value': hot_value})
# 将信息输出或保存
for item in result:
print(item)
```
阅读全文