python 微博爬虫 代码
时间: 2024-09-30 19:16:10 浏览: 33
微博爬虫代码,python爬虫框架
Python编写微博爬虫通常需要利用第三方库如`selenium`、`requests`配合`BeautifulSoup`或`lxml`解析HTML,以及可能需要`pandas`处理数据。以下是一个基本框架的示例,用于爬取微博用户的主页信息:
```python
# 导入所需的库
import requests
from bs4 import BeautifulSoup
def weibo_spider(username):
# 设置微博API URL
base_url = "https://weibo.com/"
# 构建完整的用户主页URL
user_page_url = f"{base_url}{username}"
# 发送GET请求获取网页源码
response = requests.get(user_page_url)
# 检查请求状态码
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'lxml')
# 查找并提取所需信息(例如用户名、头像链接等)
name = soup.find('span', {'class': 'name'}).text
avatar = soup.find('img', {'itemprop': 'image'})['src']
# 返回提取的信息
return name, avatar
else:
print(f"无法访问页面,状态码:{response.status_code}")
return None
# 示例使用
user_name = "某微博用户名"
result = weibo_spider(user_name)
if result:
name, avatar_url = result
print(f"用户名:{name}, 头像链接:{avatar_url}")
else:
print("未找到用户")
阅读全文