首页python爬虫批量下载网页

python爬虫批量下载网页

时间: 2024-04-11 17:24:23 浏览: 208

用python爬虫批量下载pdf的实现

5星 · 资源好评率100%

今天遇到一个任务，给一个excel文件，里面有500多个pdf文件的下载链接，需要把这些文件全部下载下来。我知道用python爬虫可以批量下载，不过之前没有接触过。今天下午找了下资料，终于成功搞定，免去了手动下载的烦恼。由于我搭建的python版本是3.5，我学习了上面列举的参考文献2中的代码，这里的版本为2.7，有些语法已经不适用了。我修正了部分语法，如下： # coding = UTF-8 # 爬取李东风PDF文档,网址：http://www.math.pku.edu.cn/teachers/lidf/docs/textrick/index.htm import urllib.req

以下是使用Python爬虫批量下载网页的示例代码[^2]： ```python import requests import os def download_webpages(url_list, save_dir): for url in url_list: # 发送GET请求获取网页内容 response = requests.get(url) # 获取网页的文件名 filename = url.split("/")[-1] # 拼接保存路径 save_path = os.path.join(save_dir, filename) # 将网页内容保存到本地文件 with open(save_path, "wb") as f: f.write(response.content) print("Successfully downloaded:", filename) # 要下载的网页URL列表 url_list = [ "https://www.example.com/page1.html", "https://www.example.com/page2.html", "https://www.example.com/page3.html" ] # 保存网页的目录 save_dir = "webpages" # 创建保存目录 os.makedirs(save_dir, exist_ok=True) # 调用函数进行批量下载 download_webpages(url_list, save_dir) ``` 这段代码使用了`requests`库来发送GET请求获取网页内容，并使用`os`库来创建保存网页的目录。通过循环遍历URL列表，依次下载网页并保存到本地文件中。你可以根据自己的需求修改URL列表和保存目录。

阅读全文