首页python爬取网页中的pdf

python爬取网页中的pdf

时间: 2024-01-14 11:03:12 浏览: 119

要爬取网页中的 PDF 文件，可以使用 Python 的 requests 和 BeautifulSoup 库来实现。首先，使用 requests 库获取网页的 HTML 内容： ```python import requests url = 'http://example.com' response = requests.get(url) html_content = response.text ``` 接着，使用 BeautifulSoup 库解析 HTML 内容，并找到所有的 PDF 链接： ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') pdf_links = [] for link in soup.find_all('a'): href = link.get('href') if href.endswith('.pdf'): pdf_links.append(href) ``` 最后，使用 requests 库下载 PDF 文件到本地： ```python for link in pdf_links: response = requests.get(link) filename = link.split('/')[-1] with open(filename, 'wb') as f: f.write(response.content) ``` 以上代码可以爬取网页中所有以 .pdf 结尾的链接，并将这些 PDF 文件下载到本地。注意，爬取网页中的 PDF 文件需要遵守网站的使用规则和版权法律。

阅读全文