豆瓣电影TOP250由影迷评选出的250部电影的排行榜,为人们寻找好的电影提供一个参考。 本关任务:获取豆瓣电影Top250的所有网页源代码,并保存这些网页文件用于后面的信息提取。 任务分析: 1、网址 豆瓣电影TOP250共有十个网页,每个网页上展示了25部电影的简要信息。 首页网址 https://movie.douban.com/top250 第二页网址 https://movie.douban.com/top250?start=25&filter= 第三页网址 https://movie.douban.com/top250?start=50&filter= ...... 第十页网址 https://movie.douban.com/top250?start=225&filter= 2、获取方法:采用requests库进行源码获取,得到的文件保存到step1/webpages文件夹中。 重要提示:不要反复多次爬取,防止IP被封! 编程要求 根据提示,请勿修改已有代码,在右侧编辑器 Begin-End 之间补充代码,完成网页源码获取及保存文件的任务。要求将获取的十个网页代码保存到 step1/webpages/ 文件夹中,并分别顺序命名为 page0.txt, page1.txt, ... , page9.txt。每保存好一个网页文件,输出一条“文件保存成功!”的信息。 编程提示 需要为 request 库的 get 方法指定 headers 参数 header = {'User-Agent':'Chrome/81.0.4044.138 Safari/537.36'} #模拟浏览器头部信息 测试说明 平台会对你编写的代码进行测试。若代码正确,全部网页代码保存完毕,输出 十个网页成功保存!。 系统进行输出结果文本比对,只有全部文本相同才能通过本关测试。
时间: 2024-04-02 10:32:22 浏览: 233
爬取豆瓣Top250电影排行榜
# 已有代码,请勿修改
import requests
header = {'User-Agent':'Chrome/81.0.4044.138 Safari/537.36'} #模拟浏览器头部信息
# 循环遍历十个网页,获取源码并保存到文件
for i in range(10):
url = 'https://movie.douban.com/top250?start=' + str(i*25) + '&filter='
response = requests.get(url, headers=header)
filename = 'step1/webpages/page' + str(i) + '.txt'
with open(filename, 'w', encoding='utf-8') as f:
f.write(response.text)
print("文件保存成功!")
print("十个网页成功保存!")
阅读全文