python批量爬取网页上的pdf
时间: 2023-11-24 19:55:00 浏览: 196
基于Python的批量爬取B站小视频.zip
你可以使用Python的requests和BeautifulSoup库来批量爬取网页上的pdf文件。下面是一个示例代码:
```
import requests
from bs4 import BeautifulSoup
import os
# 目标网页的URL
url = 'https://www.example.com'
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')
# 查找页面中的所有<a>标签
links = soup.find_all('a')
# 遍历所有链接
for link in links:
# 获取链接的URL
href = link.get('href')
# 如果链接是pdf文件
if href.endswith('.pdf'):
# 发送HTTP请求获取文件内容
file = requests.get(href)
# 获取文件名并保存文件
filename = os.path.basename(href)
with open(filename, 'wb') as f:
f.write(file.content)
```
这段代码会发送一个HTTP请求到指定的网址,获取网页内容并使用BeautifulSoup库解析HTML文档。然后,它查找页面中的所有`<a>`标签,如果链接是pdf文件,则发送HTTP请求获取文件内容,并保存到本地文件中。你可以根据需要修改代码来适应不同的网页结构和需求。
阅读全文