python爬取网页中的pdf
时间: 2024-01-14 11:03:12 浏览: 119
要爬取网页中的 PDF 文件,可以使用 Python 的 requests 和 BeautifulSoup 库来实现。
首先,使用 requests 库获取网页的 HTML 内容:
```python
import requests
url = 'http://example.com'
response = requests.get(url)
html_content = response.text
```
接着,使用 BeautifulSoup 库解析 HTML 内容,并找到所有的 PDF 链接:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
pdf_links = []
for link in soup.find_all('a'):
href = link.get('href')
if href.endswith('.pdf'):
pdf_links.append(href)
```
最后,使用 requests 库下载 PDF 文件到本地:
```python
for link in pdf_links:
response = requests.get(link)
filename = link.split('/')[-1]
with open(filename, 'wb') as f:
f.write(response.content)
```
以上代码可以爬取网页中所有以 .pdf 结尾的链接,并将这些 PDF 文件下载到本地。注意,爬取网页中的 PDF 文件需要遵守网站的使用规则和版权法律。
阅读全文