使用requests库和BeautifulSoup爬取该网站https://top.baidu.com/board?tab=realtime
时间: 2023-12-17 15:03:03 浏览: 177
用beautifulsoup爬页面
好的,我知道了。首先,我们需要安装requests和beautifulsoup4库,可以使用以下命令进行安装:
```
pip install requests beautifulsoup4
```
然后,可以使用以下代码进行爬取:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
hot_list = soup.find_all('a', class_='title-link')
for hot in hot_list:
print(hot.get_text().strip())
```
这段代码会爬取百度实时热点榜单的标题,并打印出来。你可以根据自己的需要进行修改。记得加上异常处理和反爬虫策略。
阅读全文