用户python写个一爬取网页pdf的脚本
时间: 2023-12-13 22:03:06 浏览: 102
你好!针对你的问题,我可以提供以下 Python 代码示例,用于爬取网页上的 PDF 文件:
```python
import requests
from bs4 import BeautifulSoup
# 目标网页的 URL
url = 'https://example.com'
# 发送 GET 请求,获取 HTML 内容
response = requests.get(url)
# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(response.content, 'html.parser')
# 查找所有的 <a> 标签
for link in soup.find_all('a'):
# 获取链接的 href 属性
href = link.get('href')
# 如果链接以 .pdf 结尾,则下载该文件
if href.endswith('.pdf'):
# 发送 GET 请求,获取 PDF 内容
pdf_response = requests.get(href)
# 将 PDF 内容保存到本地文件
with open(link.text + '.pdf', 'wb') as f:
f.write(pdf_response.content)
```
以上代码中,我们首先使用 `requests` 库发送 GET 请求,获取目标网页的 HTML 内容。然后使用 `BeautifulSoup` 库解析 HTML 内容,查找所有的 `<a>` 标签。对于每个 `<a>` 标签,我们获取它的 `href` 属性,如果该属性以 `.pdf` 结尾,则使用 `requests` 库发送 GET 请求,获取 PDF 内容。最后将 PDF 内容保存到本地文件中。
需要注意的是,以上代码只是一个示例,实际应用中可能需要根据具体情况进行修改。例如,可能需要添加异常处理、设置请求头等。此外,请确保你的爬虫行为不违反相关法律法规和网站的使用条款。
阅读全文