首页入门python爬取豆瓣top250

入门python爬取豆瓣top250

时间: 2024-10-11 08:17:32 浏览: 38

入门Python爬取豆瓣Top250电影列表通常会涉及使用requests库获取网页数据，BeautifulSoup库解析HTML，以及pandas库处理数据。以下是简单的步骤： 1. **安装必要的库**: 首先，你需要安装`requests`、`beautifulsoup4`和`pandas`，可以使用pip命令行： ``` pip install requests beautifulsoup4 pandas ``` 2. **编写爬虫脚本**: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 目标URL url = "https://movie.douban.com/top250" # 发送GET请求 response = requests.get(url) # 检查请求状态码 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 找到包含电影信息的部分，通常是每个电影条目的标题和评分 movie_data = [] for item in soup.select('.item'): title = item.select_one('.title').text.strip() rating = item.select_one('.rating_num').text movie_data.append({'标题': title, '评分': rating}) # 将数据存储为DataFrame df = pd.DataFrame(movie_data) print(df) else: print("请求失败") ``` 3. **运行并保存结果**: 运行上述脚本，它将打印出豆瓣Top250电影的标题和评分。如果你想保存数据，可以将其导出到CSV文件： ```python df.to_csv('douban_top250.csv', index=False) ``` 注意：

阅读全文