首页网址: https://tieba.baidu.com使用requests模块爬取此贴吧前3页的数据每一页保存为html文件例如1.html 2.html 3.html

网址: https://tieba.baidu.com使用requests模块爬取此贴吧前3页的数据每一页保存为html文件例如1.html 2.html 3.html

时间: 2023-06-06 22:05:24 浏览: 1025

使用正则表达式和文件操作爬取并保存“某吧”某帖子全部内容

好的，我明白了。以下是Python代码实现： ``` python import requests # 设置请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 循环爬取前3页数据 for i in range(1, 4): url = 'https://tieba.baidu.com/f?kw=%E6%88%91%E7%9A%84%E4%B8%96%E7%95%8C&ie=utf-8&pn=' + str((i - 1) * 50) response = requests.get(url, headers=headers) # 保存为html文件 with open(str(i) + '.html', 'w', encoding='utf-8') as f: f.write(response.text) ``` 请注意，此代码是基于Python 3的。为了使代码正常运行，您需要安装requests模块。您可以在终端或命令提示符中使用以下命令安装此模块： ``` pip install requests ```

阅读全文