import requests from bs4 import BeautifulSoup def get_shui5_data(page): url = f'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/pg{page}/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') l_list = soup.find_all('div', class_='xwt2_a') data = [] for l in l_list: title = l.find('div',class_='title').get_text().strip() time = l.find('p',class_='p3').get_text().strip() data.append((title, time)) return data all_data = [] for i in range(1, 11): print(f'正在爬取第 {i} 页...') data = get_shui5_data(i) all_data.extend(data) with open('shui5_data.txt', 'w', encoding='utf-8') as f: for (title, time) in enumerate(all_data, start=1): f.write(f'{title} {time}\n') print('爬取完成,数据已写入shui5_data.txt文件')
时间: 2024-04-24 16:21:52 浏览: 142
这段代码是用 Python 爬取水五网站北京市财税法规栏目的文章标题和发布时间,并将数据以文本形式写入 shui5_data.txt 文件中。具体实现过程是:使用 requests 库发送 GET 请求获取网页内容,使用 BeautifulSoup 库解析 HTML,提取出所有 class 为 xwt2_a 的 div 标签,再从中提取出标题和时间,存入一个二元组中,最后将所有二元组写入文本文件中。
阅读全文