首页python 爬取url 目录下所有文件

python 爬取url 目录下所有文件

时间: 2023-08-01 15:09:10 浏览: 265

你可以使用 Python 的 requests 库和 BeautifulSoup 库来爬取一个 URL 目录下的所有文件。首先，你需要使用 requests 库来获取目录页面的 HTML 内容。然后，使用 BeautifulSoup 库来解析 HTML，找到所有链接，过滤出文件链接，然后使用 requests 库下载这些文件。以下是一个简单的代码示例： ```python import os import requests from bs4 import BeautifulSoup url = 'http://example.com/files/' # 获取目录页面的 HTML 内容 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 遍历所有链接，找到文件链接并下载 for link in soup.find_all('a'): href = link.get('href') if href.endswith('.pdf'): # 这里仅下载 PDF 文件，你可以根据实际情况修改 file_url = url + href file_name = href.split('/')[-1] response = requests.get(file_url) with open(file_name, 'wb') as f: f.write(response.content) print(f'Downloaded {file_name}') ``` 注意，这个代码示例仅适用于非认证目录，如果你需要认证，你需要修改 requests 库的请求头和参数等。

阅读全文