首页用python获取href中的pdf文件保存到本地

用python获取href中的pdf文件保存到本地

时间: 2023-05-14 14:07:14 浏览: 220

python读取pdf文件，将其中的图片保存到本地文件夹，自己编写，绝对可行！

可以使用Python中的requests和BeautifulSoup库来实现。首先，使用requests库获取网页的HTML代码，然后使用BeautifulSoup库解析HTML代码，找到所有的a标签，判断它们的href属性是否以".pdf"结尾，如果是，就使用requests库下载该PDF文件并保存到本地。以下是示例代码： ```python import requests from bs4 import BeautifulSoup url = "https://example.com" # 替换为你要获取PDF文件的网页URL response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") for link in soup.find_all("a"): href = link.get("href") if href.endswith(".pdf"): pdf_url = url + href if href.startswith("/") else href with open(href.split("/")[-1], "wb") as f: f.write(requests.get(pdf_url).content) ``` 这段代码会将所有以".pdf"结尾的链接对应的PDF文件下载并保存到本地。

阅读全文