首页帮我写一个爬虫代码，可以下载网站的pdf文档

帮我写一个爬虫代码，可以下载网站的pdf文档

时间: 2023-05-20 12:07:43 浏览: 43

当然可以。一种常见的方法是通过 Python 的 requests 库和 BeautifulSoup 库来实现。下面是一个简单的代码示例： ``` import requests from bs4 import BeautifulSoup def download_pdf(url): # 发送 HTTP 请求并获取页面的 HTML 内容 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 找到所有的链接标签 links = soup.find_all('a') pdf_links = [] # 遍历所有的链接标签，找到 PDF 文件的链接 for link in links: href = link.get('href') if href.endswith('.pdf'): pdf_links.append(href) # 下载 PDF 文件 for pdf_link in pdf_links: pdf_response = requests.get(pdf_link) # 可以根据需要来修改文件名 with open(pdf_link.split('/')[-1], 'wb') as f: f.write(pdf_response.content) # 调用 download_pdf 函数来下载指定网站的 PDF 文件 download_pdf('https://example.com/') ``` 这个代码示例可以爬取指定网站的所有 PDF 文件，并下载到本地。你可以根据需要来修改代码，比如添加异常处理、修改文件名等等。