用jupyter爬去豆瓣top10的方法
时间: 2023-11-16 21:37:03 浏览: 73
爬虫-豆瓣电影数据爬取-资料代码
好的,以下是使用jupyter notebook爬取豆瓣电影top10的方法:
1. 打开jupyter notebook,创建一个新的Python notebook。
2. 在第一个代码单元格中,导入必要的库,如requests和beautifulsoup4:
```python
import requests
from bs4 import BeautifulSoup
```
3. 使用requests库发送GET请求来获取豆瓣电影top250页面的HTML内容:
```python
url = 'https://movie.douban.com/top250'
response = requests.get(url)
```
4. 使用beautifulsoup4库解析HTML内容:
```python
soup = BeautifulSoup(response.text, 'html.parser')
```
5. 从HTML内容中提取出前10部电影的名称和评分:
```python
movie_list = soup.find('ol', class_='grid_view').find_all('li')
for movie in movie_list[:10]:
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
print(f'{title} {rating}')
```
6. 运行代码单元格并查看输出结果。
请注意,爬取网站的信息可能会受到网站的反爬虫机制的限制,所以请遵守网站的爬虫规则。同时,为了防止被禁止访问网站,可以在请求头中加入一些信息,例如User-Agent等。
阅读全文