首页用代码爬取https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/的10页标题时间并写入txt文档

用代码爬取https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/的10页标题时间并写入txt文档

时间: 2023-08-07 11:07:59 浏览: 141

好的，我将使用Python的requests和BeautifulSoup库来实现网页的爬取和信息的提取。请确保你已经安装了这两个库，如果没有，请先使用以下命令安装： ``` pip install requests pip install beautifulsoup4 ``` 下面是代码实现： ```python import requests from bs4 import BeautifulSoup # 定义要爬取的页数和url page_num = 10 url_base = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/' # 打开文件 with open('title_time.txt', 'w', encoding='utf-8') as f: # 循环爬取每一页 for page in range(page_num): # 拼接当前页的url url = url_base + 'index_' + str(page+1) + '.html' # 发送请求 response = requests.get(url) response.encoding = 'utf-8' # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取每篇文章的标题和时间 articles = soup.select('.list li') for article in articles: title = article.select_one('.title a').get_text().strip() time = article.select_one('.time').get_text().strip() # 将标题和时间写入文件 f.write(title + '\t' + time + '\n') # 提示爬取完成 print('Done!') ``` 这段代码会爬取https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 的前10页的标题和时间，并将其写入名为title_time.txt的文本文件中。你可以修改page_num来指定要爬取的页数，也可以修改url_base来爬取其他网页。

阅读全文