首页用jupyter爬去豆瓣top10的方法

用jupyter爬去豆瓣top10的方法

时间: 2023-11-16 08:37:03 浏览: 85

好的，以下是使用jupyter notebook爬取豆瓣电影top10的方法： 1. 打开jupyter notebook，创建一个新的Python notebook。 2. 在第一个代码单元格中，导入必要的库，如requests和beautifulsoup4： ```python import requests from bs4 import BeautifulSoup ``` 3. 使用requests库发送GET请求来获取豆瓣电影top250页面的HTML内容： ```python url = 'https://movie.douban.com/top250' response = requests.get(url) ``` 4. 使用beautifulsoup4库解析HTML内容： ```python soup = BeautifulSoup(response.text, 'html.parser') ``` 5. 从HTML内容中提取出前10部电影的名称和评分： ```python movie_list = soup.find('ol', class_='grid_view').find_all('li') for movie in movie_list[:10]: title = movie.find('span', class_='title').text rating = movie.find('span', class_='rating_num').text print(f'{title} {rating}') ``` 6. 运行代码单元格并查看输出结果。请注意，爬取网站的信息可能会受到网站的反爬虫机制的限制，所以请遵守网站的爬虫规则。同时，为了防止被禁止访问网站，可以在请求头中加入一些信息，例如User-Agent等。

阅读全文