微博python爬虫代码
时间: 2024-08-06 07:01:07 浏览: 141
微博的Python爬虫通常会利用Twitter API或者通过网页抓取的方式进行,因为微博有严格的反爬虫机制,直接爬取用户数据可能会遇到IP限制。这里是一个简单的基于BeautifulSoup库抓取微博公开信息(如帖子标题、链接等)的基本示例:
```python
import requests
from bs4 import BeautifulSoup
def weibo_scraper(keyword):
url = "https://weibo.com/search?keyword=" + keyword
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
for item in soup.find_all('li', class_='c'):
title = item.find('a').get_text()
link = 'https://weibo.com' + item.find('a')['href']
print(f"Title: {title}\nLink: {link}\n")
else:
print("Failed to fetch data.")
# 使用关键字搜索微博
keyword = input("请输入你想查找的关键字: ")
weibo_scraper(keyword)
```
注意:这只是一个基础示例,并不一定能获取所有内容,而且频繁的请求可能会违反微博的服务条款。在实际操作前,务必了解目标网站的robots.txt文件和爬虫政策。
阅读全文