用BeautifulSoup爬取网页
时间: 2024-04-05 13:22:43 浏览: 69
使用BeautifulSoup库可以很方便地从网页中提取出需要的信息。下面是一个简单的例子,演示如何使用BeautifulSoup库爬取网页。
首先,需要安装BeautifulSoup库。可以使用pip命令进行安装:
```
pip install beautifulsoup4
```
接下来,我们以爬取豆瓣电影排行榜为例,演示如何使用BeautifulSoup库爬取网页。代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/chart'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find_all('div', class_='pl2')
for movie in movie_list:
title = movie.find('a').text.strip()
rating = movie.find('span', class_='rating_nums').text.strip()
print(f'{title}:{rating}')
```
这个例子中,我们首先使用requests库向豆瓣电影排行榜的页面发送请求,获取响应。然后使用BeautifulSoup库解析响应的HTML代码,通过find_all()方法找到所有电影信息所在的div标签,再通过find()方法找到每个电影的标题和评分信息。
最后打印出电影的标题和评分。可以看到,使用BeautifulSoup库可以轻松地从网页中提取出需要的信息。
阅读全文