jupyter爬虫微博
时间: 2023-11-29 09:47:38 浏览: 89
微博的爬虫
以下是使用Jupyter Notebook和Selenium框架进行微博爬虫的步骤:
1.安装Selenium和ChromeDriver
```shell
!pip install selenium
```
下载ChromeDriver并将其解压缩到您的计算机上。
2.导入必要的库
```python
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
```
3.打开Chrome浏览器并访问微博登录页面
```python
driver = webdriver.Chrome('/path/to/chromedriver') # 将路径替换为您的ChromeDriver路径
driver.get('https://passport.weibo.cn/signin/login')
time.sleep(5) # 等待页面加载完成
```
4.输入用户名和密码并登录
```python
username = driver.find_element_by_id('loginName')
password = driver.find_element_by_id('loginPassword')
username.send_keys('your_username') # 将your_username替换为您的微博用户名
password.send_keys('your_password') # 将your_password替换为您的微博密码
password.send_keys(Keys.RETURN)
time.sleep(5) # 等待页面加载完成
```
5.搜索并抓取微博数据
```python
search_box = driver.find_element_by_xpath('//input[@placeholder="大家都在搜:"]')
search_box.send_keys('关键词') # 将关键词替换为您要搜索的内容
search_box.send_keys(Keys.RETURN)
time.sleep(5) # 等待页面加载完成
# 获取微博内容
weibo_content = driver.find_elements_by_xpath('//div[@class="content"]/p[@class="txt"]')
for content in weibo_content:
print(content.text)
```
阅读全文