python 爬取url 目录下所有文件
时间: 2023-08-01 15:09:10 浏览: 265
你可以使用 Python 的 requests 库和 BeautifulSoup 库来爬取一个 URL 目录下的所有文件。
首先,你需要使用 requests 库来获取目录页面的 HTML 内容。然后,使用 BeautifulSoup 库来解析 HTML,找到所有链接,过滤出文件链接,然后使用 requests 库下载这些文件。
以下是一个简单的代码示例:
```python
import os
import requests
from bs4 import BeautifulSoup
url = 'http://example.com/files/'
# 获取目录页面的 HTML 内容
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 遍历所有链接,找到文件链接并下载
for link in soup.find_all('a'):
href = link.get('href')
if href.endswith('.pdf'): # 这里仅下载 PDF 文件,你可以根据实际情况修改
file_url = url + href
file_name = href.split('/')[-1]
response = requests.get(file_url)
with open(file_name, 'wb') as f:
f.write(response.content)
print(f'Downloaded {file_name}')
```
注意,这个代码示例仅适用于非认证目录,如果你需要认证,你需要修改 requests 库的请求头和参数等。
阅读全文