编写一段python脚本,自动下载此页面所有PDF文件到本地
时间: 2024-09-13 13:02:13 浏览: 34
在Python中,我们可以使用`requests`库来获取网页内容,然后通过解析HTML找到PDF链接,最后使用`beautifulsoup4`库或者更高级的`pdfplumber`库来下载PDF。这里是一个基本的示例,假设我们找到了PDF链接都在`<a>`标签内,且`href`属性以`.pdf`结尾:
```python
import os
import requests
from bs4 import BeautifulSoup
# 目标URL
url = 'http://example.com' # 替换为你想要下载PDF的网页地址
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有PDF链接
pdf_links = [link['href'] for link in soup.find_all('a', href=lambda x: x.endswith('.pdf'))]
# 确保目录存在并开始下载
if not os.path.exists('pdfs'):
os.makedirs('pdfs')
for link in pdf_links:
response_pdf = requests.get(link, stream=True)
filename = os.path.join('pdfs', os.path.basename(link))
with open(filename, 'wb') as f:
for chunk in response_pdf.iter_content(chunk_size=1024):
if chunk: # filter out keep-alive new chunks
f.write(chunk)
print("PDF文件已下载完成.")
阅读全文