首页python爬取代码，项目：税屋网站网址：https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 要求：爬取10页数据，写入txt文档数据内容： 1）标题 2）时间 3)文档格式： [时间] 标题

python爬取代码，项目：税屋网站网址：https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 要求：爬取10页数据，写入txt文档数据内容： 1）标题 2）时间 3)文档格式： [时间] 标题

时间: 2023-12-25 18:04:01 浏览: 154

好的，以下是Python爬取税屋网站的代码： ```python import requests from bs4 import BeautifulSoup # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 要爬取的页数 pages = 10 # 爬取数据写入的txt文件 file = open('shuiwu.txt', 'w', encoding='utf-8') # 循环爬取每一页数据 for page in range(1, pages+1): url = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_' + str(page) + '.html' response = requests.get(url, headers=headers) # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') items = soup.select('.newslist li') # 循环爬取每一条数据 for item in items: title = item.select_one('a').text.strip() # 获取标题 date = item.select_one('.date').text.strip() # 获取时间 file.write('[' + date + ']' + ' ' + title + '\n') # 写入txt文件 # 关闭txt文件 file.close() ``` 以上代码会爬取税屋网站的前10页数据，将每条数据的标题和时间写入到txt文件中，格式为：[时间] 标题。如果需要爬取更多页数，可以将 `pages` 变量的值修改为需要爬取的页数即可。

阅读全文