Python 下载整站
时间: 2023-11-05 18:19:50 浏览: 110
todolist,带简易后端_微信小程序模板js代码前台前端H5页面源码+后台源码.rar
您可以使用第三方库如`wget`或`requests`来下载整个网站。以下是使用`wget`下载整个网站的示例代码:
```python
import os
import wget
from bs4 import BeautifulSoup
import requests
def download_website(url):
# 创建保存网站文件的目录
os.makedirs("website", exist_ok=True)
# 下载主页
wget.download(url, "website/index.html")
# 解析主页,获取所有链接
with open("website/index.html", "r") as file:
content = file.read()
soup = BeautifulSoup(content, "html.parser")
links = soup.find_all("a")
# 下载所有链接的页面
for link in links:
href = link.get("href")
if href.startswith("/"):
href = url + href
elif not href.startswith("http"):
continue
filename = href.replace(url, "").replace("/", "_")
wget.download(href, f"website/{filename}")
print("网站下载完成!")
# 调用函数下载整个网站
download_website("http://www.example.com")
```
这段代码使用`wget`库下载主页和其他链接的页面,并将它们保存在名为`website`的文件夹中。您可以根据需要修改保存文件的目录和文件名。
阅读全文