Python3爬虫之爬取某一路径的所有html文件
时间: 2024-09-08 22:01:12 浏览: 123
在Python3中,使用爬虫工具如BeautifulSoup、Requests或Scrapy等库来爬取特定路径下的所有HTML文件,通常需要结合os模块来遍历文件系统。这里是一个简单的示例,展示了如何使用os和requests库:
```python
import os
import requests
# 指定你要爬取的目录路径
directory_path = '/path/to/your/directory'
def get_html_files(directory):
html_files = []
for root, dirs, files in os.walk(directory):
for file in files:
if file.endswith('.html'):
file_url = os.path.join(root, file)
response = requests.get(file_url)
if response.status_code == 200:
html_files.append(file_url)
else:
print(f"Failed to fetch {file_url}, status code: {response.status_code}")
return html_files
all_html_files = get_html_files(directory_path)
```
这个脚本会递归地搜索指定目录及其子目录,并查找所有的`.html`文件。如果找到HTML文件,它会尝试下载并添加到结果列表中。注意,实际应用中可能还需要处理网络请求异常和其他潜在问题。
阅读全文