python爬取代码,项目:税屋网站 网址:https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 要求:爬取10页数据,写入txt文档 数据内容: 1)标题 2)时间 3)文档格式: [时间] 标题
时间: 2023-12-25 18:04:01 浏览: 154
好的,以下是Python爬取税屋网站的代码:
```python
import requests
from bs4 import BeautifulSoup
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 要爬取的页数
pages = 10
# 爬取数据写入的txt文件
file = open('shuiwu.txt', 'w', encoding='utf-8')
# 循环爬取每一页数据
for page in range(1, pages+1):
url = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_' + str(page) + '.html'
response = requests.get(url, headers=headers)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.select('.newslist li')
# 循环爬取每一条数据
for item in items:
title = item.select_one('a').text.strip() # 获取标题
date = item.select_one('.date').text.strip() # 获取时间
file.write('[' + date + ']' + ' ' + title + '\n') # 写入txt文件
# 关闭txt文件
file.close()
```
以上代码会爬取税屋网站的前10页数据,将每条数据的标题和时间写入到txt文件中,格式为:[时间] 标题。如果需要爬取更多页数,可以将 `pages` 变量的值修改为需要爬取的页数即可。
阅读全文