用代码爬取https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/的10页标题时间并写入txt文档
时间: 2023-08-07 11:07:59 浏览: 141
好的,我将使用Python的requests和BeautifulSoup库来实现网页的爬取和信息的提取。请确保你已经安装了这两个库,如果没有,请先使用以下命令安装:
```
pip install requests
pip install beautifulsoup4
```
下面是代码实现:
```python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的页数和url
page_num = 10
url_base = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/'
# 打开文件
with open('title_time.txt', 'w', encoding='utf-8') as f:
# 循环爬取每一页
for page in range(page_num):
# 拼接当前页的url
url = url_base + 'index_' + str(page+1) + '.html'
# 发送请求
response = requests.get(url)
response.encoding = 'utf-8'
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取每篇文章的标题和时间
articles = soup.select('.list li')
for article in articles:
title = article.select_one('.title a').get_text().strip()
time = article.select_one('.time').get_text().strip()
# 将标题和时间写入文件
f.write(title + '\t' + time + '\n')
# 提示爬取完成
print('Done!')
```
这段代码会爬取https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 的前10页的标题和时间,并将其写入名为title_time.txt的文本文件中。你可以修改page_num来指定要爬取的页数,也可以修改url_base来爬取其他网页。
阅读全文