1.编写网络爬虫程序,实现支持断点续传的网络文件下载功能。 https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2.4/spark-3.2.4-bin-hadoop2.7.tgz
时间: 2024-06-08 21:09:49 浏览: 102
好的,我来给您提供一个Python爬虫程序,支持断点续传,可以下载您提供的文件。请注意,这个程序只能下载HTTP协议的文件,不支持FTP协议。
```python
import requests
import os
url = 'https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2.4/spark-3.2.4-bin-hadoop2.7.tgz'
filename = os.path.basename(url)
save_path = './'
# 检查是否支持断点续传
headers = {'Range': 'bytes=0-4'}
res = requests.get(url, headers=headers)
if res.status_code == 206:
# 支持断点续传,获取已下载的文件大小
file_size = int(res.headers['Content-Range'].split('/')[-1])
headers = {'Range': f'bytes={file_size}-'}
mode = 'ab'
else:
# 不支持断点续传,从头开始下载
file_size = 0
headers = {}
mode = 'wb'
res = requests.get(url, headers=headers, stream=True)
total_size = int(res.headers['Content-Length'])
with open(os.path.join(save_path, filename), mode) as f:
for chunk in res.iter_content(chunk_size=1024):
if chunk:
file_size += len(chunk)
f.write(chunk)
f.flush()
progress = file_size / total_size * 100
print(f'\r已下载:{progress:.2f}%', end='')
print('\n下载完成')
```
请在程序中修改以下内容:
- `url`:要下载的文件的URL地址。
- `save_path`:文件保存的目录。
然后,运行程序即可。如果程序中已经存在同名文件,它会自动支持断点续传,继续下载文件。
阅读全文