使用python下载一个网页下全部的pdf文件
时间: 2024-09-13 13:14:37 浏览: 51
Python实现抓取HTML网页并以PDF文件形式保存的方法
5星 · 资源好评率100%
在Python中,你可以使用`requests`库来获取网页内容,然后结合其他库如`beautifulsoup4`解析HTML,找到PDF链接,最后利用`pyPDF2`或者其他支持PDF下载的库下载文件。以下是一个简单的步骤示例:
1. 首先安装必要的库,如果尚未安装可以使用pip命令:
```
pip install requests beautifulsoup4 pyPDF2
```
2. 然后编写一个函数,用于下载所有PDF文件:
```python
import os
import requests
from bs4 import BeautifulSoup
def download_pdf(url):
# 获取网页内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有的PDF链接
pdf_links = [a['href'] for a in soup.find_all('a', {'href': lambda x: x.endswith('.pdf')})]
# 下载PDF文件到指定目录(这里假设存在一个名为"pdfs"的文件夹)
if not os.path.exists("pdfs"):
os.makedirs("pdfs")
for link in pdf_links:
file_name = link.split('/')[-1] # 获取文件名
full_link = url + link # 构建完整URL
with open(os.path.join("pdfs", file_name), "wb") as f:
pdf_content = requests.get(full_link).content
f.write(pdf_content)
# 调用函数并传入需要下载PDF的网页地址
download_pdf("http://example.com") # 请替换为实际的网页URL
```
阅读全文