网址: https://tieba.baidu.com使用requests模块爬取此贴吧前3页的数据 每一页保存为html文件 例如1.html 2.html 3.html
时间: 2023-06-06 22:05:24 浏览: 1025
使用正则表达式和文件操作爬取并保存“某吧”某帖子全部内容
好的,我明白了。以下是Python代码实现:
``` python
import requests
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 循环爬取前3页数据
for i in range(1, 4):
url = 'https://tieba.baidu.com/f?kw=%E6%88%91%E7%9A%84%E4%B8%96%E7%95%8C&ie=utf-8&pn=' + str((i - 1) * 50)
response = requests.get(url, headers=headers)
# 保存为html文件
with open(str(i) + '.html', 'w', encoding='utf-8') as f:
f.write(response.text)
```
请注意,此代码是基于Python 3的。为了使代码正常运行,您需要安装requests模块。您可以在终端或命令提示符中使用以下命令安装此模块:
```
pip install requests
```
阅读全文