用python编写一个程序,需求:项目:税屋网站 网址:https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/ 要求:爬取10页数据,写入txt文档 数据内容: 1)标题 2)时间
时间: 2023-12-25 12:03:53 浏览: 45
好的,我可以为您提供代码实现。不过在此之前,我需要确认一下您是否已经安装了必要的Python库,包括requests、BeautifulSoup和lxml。如果您还没有安装,可以使用以下命令来安装它们:
```
pip install requests
pip install beautifulsoup4
pip install lxml
```
安装完成后,您可以使用下面的代码来爬取税屋网站的数据,并将其写入txt文档中。
```python
import requests
from bs4 import BeautifulSoup
# 爬取10页数据
for i in range(1, 11):
# 构造请求URL
url = 'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_' + str(i) + '.html'
# 发送请求
response = requests.get(url)
# 解析HTML内容
soup = BeautifulSoup(response.content, 'lxml')
# 获取文章列表
articles = soup.find_all('div', class_='list-item')
# 写入txt文档
with open('shuiwu.txt', 'a', encoding='utf-8') as f:
for article in articles:
# 获取文章标题和时间
title = article.find('a').text.strip()
time = article.find('span', class_='date').text.strip()
# 将标题和时间写入txt文档
f.write(title + '\t' + time + '\n')
```
在这段代码中,我们使用requests库发送请求,然后使用BeautifulSoup解析HTML内容。我们循环爬取10页数据,并将每一页中的文章标题和时间写入txt文档中。请注意,我们使用了`with open()`语句来打开txt文档,并且使用`'a'`模式来追加写入数据,以避免覆盖之前的内容。
希望这段代码能够满足您的需求,如果您有任何其他问题,请随时问我。
阅读全文