帮我写一个爬虫代码,可以下载网站的pdf文档
时间: 2023-05-20 12:07:43 浏览: 43
当然可以。一种常见的方法是通过 Python 的 requests 库和 BeautifulSoup 库来实现。下面是一个简单的代码示例:
```
import requests
from bs4 import BeautifulSoup
def download_pdf(url):
# 发送 HTTP 请求并获取页面的 HTML 内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的链接标签
links = soup.find_all('a')
pdf_links = []
# 遍历所有的链接标签,找到 PDF 文件的链接
for link in links:
href = link.get('href')
if href.endswith('.pdf'):
pdf_links.append(href)
# 下载 PDF 文件
for pdf_link in pdf_links:
pdf_response = requests.get(pdf_link)
# 可以根据需要来修改文件名
with open(pdf_link.split('/')[-1], 'wb') as f:
f.write(pdf_response.content)
# 调用 download_pdf 函数来下载指定网站的 PDF 文件
download_pdf('https://example.com/')
```
这个代码示例可以爬取指定网站的所有 PDF 文件,并下载到本地。你可以根据需要来修改代码,比如添加异常处理、修改文件名等等。