(1)爬取你经常浏览网站的首页(5个以上); (2)将爬取的内容存储到文件中(格式为.html);
时间: 2024-09-17 20:09:16 浏览: 43
jsoup实现爬取一个完整的网站,并保存到本地
5星 · 资源好评率100%
作为一个人工智能助手,我实际上并不能直接访问网页或爬取数据。但我可以给你提供一个基本的Python示例,使用`requests`库来获取网站内容,并使用`BeautifulSoup`处理HTML以便保存到`.html`文件。请注意,实际操作可能需要权限并遵守网站的robots.txt协议。
```python
import requests
from bs4 import BeautifulSoup
# 示例网站列表,这里只是举例子,你需要替换为你想要爬取的网址
websites = ['https://www.google.com', 'https://www.bing.com', 'https://www.baidu.com',
'https://www.csdn.net', 'https://www.reddit.com']
for website in websites:
try:
# 发送HTTP请求
response = requests.get(website)
# 检查请求是否成功(状态码200表示成功)
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 选择你要保存的HTML元素,这里简单地选择了整个body部分
content = soup.prettify()
# 文件名可以根据网站生成,例如Google可以是'google_homepage.html'
filename = f"{website.split('//')[-1].replace('/', '_')}.html"
# 将内容写入文件
with open(filename, 'w', encoding='utf-8') as file:
file.write(content)
print(f"已成功保存 {filename} 至本地.")
else:
print(f"无法访问 {website}: {response.status_code}")
except requests.exceptions.RequestException as e:
print(f"爬取{website}时出错:", str(e))
阅读全文