用python编写一个程序,需求:项目:税屋网站 网址:https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 要求:爬取10页数据,写入txt文档 数据内容: 1)标题 2)时间
时间: 2023-12-25 15:04:01 浏览: 55
tutorials_python.zip_Python可视化_SHUI
好的,可以通过Python的requests和BeautifulSoup库来实现网页的爬取和数据的提取。以下是实现代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,防止被网站屏蔽
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 循环爬取10页数据,并将标题和时间写入txt文档
for i in range(1, 11):
url = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_{}.shtml'.format(i)
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取每条数据的标题和时间
titles = soup.select('.list li a')
times = soup.select('.list li span')
# 将数据写入txt文档
with open('data.txt', 'a', encoding='utf-8') as f:
for j in range(len(titles)):
title = titles[j].get_text().strip()
time = times[j].get_text().strip()
f.write(title + '\t' + time + '\n')
print('第{}页数据写入完成!'.format(i))
```
运行该程序后,会在同级目录下生成一个名为data.txt的文档,其中包含了10页的标题和时间数据。
阅读全文