首页利用urllib库爬取豆瓣电影TOP250网站的内容（网址https://movie.douban.com/top250），获取总共10页的内容，输出返回的响应状态码和URL，并将爬取到的网页内容保存到txt文件中。

利用urllib库爬取豆瓣电影TOP250网站的内容（网址https://movie.douban.com/top250），获取总共10页的内容，输出返回的响应状态码和URL，并将爬取到的网页内容保存到txt文件中。

时间: 2024-10-12 07:14:23 浏览: 123

在Python中，我们可以使用`requests`库代替`urllib`来更方便地发送HTTP请求。以下是利用`requests`库爬取豆瓣电影TOP250前10页内容并保存到txt文件的基本步骤：首先，需要安装requests库，如果还没有安装可以使用以下命令： ```bash pip install requests ``` 然后，编写一个Python脚本来完成任务： ```python import requests # 豆瓣电影TOP250页面URL base_url = 'https://movie.douban.com/top250' def fetch_and_save_content(page_num): # 构造URL url = f'{base_url}?start={page_num * 25}&filter=' try: # 发送GET请求 response = requests.get(url) # 检查响应状态码 if response.status_code == 200: print(f"成功获取第{page_num+1}页，状态码：{response.status_code}") content = response.text # 将内容保存到txt文件 with open(f'top250_{page_num+1}.txt', 'w', encoding='utf-8') as f: f.write(content) print(f">> 内容已保存至top250_{page_num+1}.txt") else: print(f"获取第{page_num+1}页失败，状态码：{response.status_code}") except Exception as e: print(f"错误：{e}") # 爬取10页数据 for i in range(1, 11): fetch_and_save_content(i)

阅读全文