爬取豆瓣电影top250的电影名称及评价并吧爬取的数据保存在表格文件中
时间: 2023-12-18 12:04:40 浏览: 158
好的,我可以使用Python的requests和beautifulsoup库来爬取豆瓣电影top250的电影名称及评价,并使用pandas库将数据保存在表格文件中。下面是代码示例:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 爬取豆瓣电影top250的电影名称及评价
url = 'https://movie.douban.com/top250'
movies = []
scores = []
for i in range(10):
page = i * 25
r = requests.get(url + '?start=' + str(page) + '&filter=')
soup = BeautifulSoup(r.text, 'html.parser')
all_movies = soup.find_all('div', class_='hd')
all_scores = soup.find_all('span', class_='rating_num')
for movie, score in zip(all_movies, all_scores):
movies.append(movie.a.span.text)
scores.append(score.text)
# 将数据保存在表格文件中
df = pd.DataFrame({'电影名称': movies, '评价': scores})
df.to_excel('douban_top250.xlsx', index=False)
print('数据已保存在douban_top250.xlsx文件中!')
```
代码中先使用requests库向豆瓣电影top250的网页发送请求,并使用beautifulsoup库解析网页内容。通过循环爬取10页的数据,每页包含25部电影。从每页的网页内容中找到电影名称和评价,分别保存在movies和scores列表中。最后,使用pandas库将数据转换成DataFrame格式,并保存在名为douban_top250.xlsx的表格文件中。执行完毕后,会在当前目录下生成一个Excel文件,其中包含爬取的电影名称和评价数据。
阅读全文