用代码爬取https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/的10页标题时间并写入txt文档
时间: 2023-08-18 08:09:42 浏览: 76
HttpCanary 抓包工具.zip
好的,我可以为您提供 Python 代码来完成这个任务。不过在开始之前,请您先确保已经安装了 requests 和 beautifulsoup4 这两个库。您可以通过以下命令来安装它们:
```
pip install requests beautifulsoup4
```
接下来,这里是代码实现:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 爬取10页的数据
for i in range(1, 11):
url = f'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_{i}.html'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
# 获取所有标题和时间
titles = soup.find_all('h3', {'class': 'title'})
times = soup.find_all('span', {'class': 'time'})
# 将标题和时间写入txt文件
with open('result.txt', 'a', encoding='utf-8') as f:
for j in range(len(titles)):
f.write(f'{titles[j].text.strip()} {times[j].text.strip()}\n')
```
这段代码使用 requests 库发送请求,然后使用 beautifulsoup4 库解析 HTML 页面,从中获取标题和时间信息,最后将它们写入 result.txt 文件中。请注意,这里使用了 f-string 来构造URL。文件名为 result.txt,如果文件不存在,程序会自动创建一个,如果文件已存在,则会在文件末尾追加内容。
阅读全文