编写一段python爬虫代码爬取微博内容
时间: 2024-10-24 11:13:33 浏览: 25
编写Python爬虫抓取微博内容通常涉及使用第三方库如`requests`获取网页HTML,然后利用如BeautifulSoup或lxml解析HTML提取所需信息。以下是一个简化的例子,假设我们使用了`selenium`和`webdriver_manager`库来模拟浏览器访问,因为微博有反爬机制:
```python
from selenium import webdriver
from bs4 import BeautifulSoup
import time
# 安装并导入webdriver_manager
from webdriver_manager.chrome import ChromeDriverManager
def get_weibo_content(url):
# 初始化Chrome浏览器
driver = webdriver.Chrome(ChromeDriverManager().install())
try:
# 访问微博页面
driver.get(url)
time.sleep(3) # 等待页面加载完成
# 获取页面源代码
page_source = driver.page_source
soup = BeautifulSoup(page_source, 'html.parser')
# 找到包含微博内容的部分,这里假设是class为'msg-con'
content_divs = soup.find_all('div', class_='msg-con')
for div in content_divs:
text = div.get_text() # 提取文本
print(text)
except Exception as e:
print(f"遇到错误: {e}")
finally:
# 关闭浏览器
driver.quit()
# 使用你要爬取的微博URL
url = "https://weibo.com/xxxxxx"
get_weibo_content(url)
阅读全文