首页通过python代码实现爬取税屋网站https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/10页数据并写入txt文档

通过python代码实现爬取税屋网站https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/10页数据并写入txt文档

时间: 2023-08-15 15:05:17 浏览: 106

好的，我可以帮你实现这个功能。我们可以使用Python中的requests和BeautifulSoup库来爬取网页数据，并使用Python自带的io库将数据写入txt文档。下面是实现的代码： ```python import requests from bs4 import BeautifulSoup import io # 设置请求头，模拟浏览器发送请求 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 构建URL列表 urls = ['https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index.html'] for i in range(2, 11): url = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_' + str(i) + '.html' urls.append(url) # 创建一个空字符串，用于存储爬取到的数据 result = '' # 遍历URL列表，爬取每一页的数据 for url in urls: response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') articles = soup.find_all('div', class_='list_box') for article in articles: title = article.find('h2').text.strip() date = article.find('span', class_='date').text.strip() content = article.find('p').text.strip() result += 'Title: {}\nDate: {}\nContent: {}\n\n'.format(title, date, content) # 将爬取到的数据写入txt文档 with io.open('shui5.txt', 'w', encoding='utf-8') as f: f.write(result) ``` 这段代码首先定义了请求头，然后构建了一个URL列表，用于遍历每一页的数据。接着遍历URL列表，对每一页的数据进行解析，并将解析结果存储在一个字符串中。最后使用io库将字符串写入txt文档中。注意，在打开文档时需要指定编码格式为utf-8，因为税屋网站使用的是中文编码。

阅读全文