编写爬虫程序下载一个校园网站的全部网页 的代码csdn
时间: 2023-08-26 17:02:08 浏览: 93
下载整个网页源代码的工具
4星 · 用户满意度95%
编写爬虫程序下载一个校园网站的全部网页的代码如下:
```python
import requests
from bs4 import BeautifulSoup
import os
def download_webpages(url, output_path):
# 创建输出文件夹
if not os.path.exists(output_path):
os.makedirs(output_path)
# 发送HTTP请求,并获取网页内容
response = requests.get(url)
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取网页中的所有链接
links = soup.find_all('a')
# 遍历所有链接,下载网页并保存到本地
for link in links:
href = link.get('href')
# 跳过非网页链接,如图片、视频等
if not href.endswith('.html'):
continue
# 组合完整的链接
absolute_link = url + href
print(f"正在下载网页:{absolute_link}")
# 发送HTTP请求,并保存到本地
response = requests.get(absolute_link)
if response.status_code == 200:
filename = os.path.join(output_path, href)
with open(filename, 'w', encoding='utf-8') as file:
file.write(response.text)
print(f"网页下载完成:{absolute_link}")
else:
print(f"网页下载失败:{absolute_link}")
else:
print("无法访问该网站")
# 调用函数下载网页
url = 'https://www.csdn.net/'
output_path = 'output'
download_webpages(url, output_path)
```
以上代码使用了Python的requests库发送HTTP请求获取网页内容,使用BeautifulSoup库解析网页内容,并选择性地下载网页保存到本地。在下载过程中,会根据网页链接的后缀来判断是否为网页文件,非网页文件会被跳过。下载完成之后,会将网页保存到指定的输出文件夹中。
阅读全文