用python获取href中的pdf文件保存到本地
时间: 2023-05-14 14:07:14 浏览: 220
python读取pdf文件,将其中的图片保存到本地文件夹,自己编写,绝对可行!
可以使用Python中的requests和BeautifulSoup库来实现。首先,使用requests库获取网页的HTML代码,然后使用BeautifulSoup库解析HTML代码,找到所有的a标签,判断它们的href属性是否以".pdf"结尾,如果是,就使用requests库下载该PDF文件并保存到本地。
以下是示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = "https://example.com" # 替换为你要获取PDF文件的网页URL
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
for link in soup.find_all("a"):
href = link.get("href")
if href.endswith(".pdf"):
pdf_url = url + href if href.startswith("/") else href
with open(href.split("/")[-1], "wb") as f:
f.write(requests.get(pdf_url).content)
```
这段代码会将所有以".pdf"结尾的链接对应的PDF文件下载并保存到本地。
阅读全文