利用urllib库爬取豆瓣电影TOP250网站的内容(网址https://movie.douban.com/top250),获取总共10页的内容,输出返回的响应状态码和URL,并将爬取到的网页内容保存到txt文件中。
时间: 2024-10-12 07:14:23 浏览: 70
在Python中,我们可以使用`requests`库代替`urllib`来更方便地发送HTTP请求。以下是利用`requests`库爬取豆瓣电影TOP250前10页内容并保存到txt文件的基本步骤:
首先,需要安装requests库,如果还没有安装可以使用以下命令:
```bash
pip install requests
```
然后,编写一个Python脚本来完成任务:
```python
import requests
# 豆瓣电影TOP250页面URL
base_url = 'https://movie.douban.com/top250'
def fetch_and_save_content(page_num):
# 构造URL
url = f'{base_url}?start={page_num * 25}&filter='
try:
# 发送GET请求
response = requests.get(url)
# 检查响应状态码
if response.status_code == 200:
print(f"成功获取第{page_num+1}页,状态码:{response.status_code}")
content = response.text
# 将内容保存到txt文件
with open(f'top250_{page_num+1}.txt', 'w', encoding='utf-8') as f:
f.write(content)
print(f">> 内容已保存至top250_{page_num+1}.txt")
else:
print(f"获取第{page_num+1}页失败,状态码:{response.status_code}")
except Exception as e:
print(f"错误:{e}")
# 爬取10页数据
for i in range(1, 11):
fetch_and_save_content(i)
阅读全文