在网页上爬写十页数据,代码怎么写
时间: 2024-04-25 14:25:47 浏览: 65
数据爬虫学校网页相关代码
好的,以下是一个简单的 Python 代码实现,可以爬取税屋网站前十页文章的标题和时间,并将数据保存到一个文本文件中:
```python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的页数
num_pages = 10
# 打开一个文本文件
with open('data.txt', 'w', encoding='utf-8') as f:
# 循环遍历每一页
for page in range(1, num_pages+1):
# 构造请求 URL
url = f'https://www.shui5.cn/article/BeiJingShiCaiShuiFaGui/index_{page}.html'
# 发送 GET 请求
response = requests.get(url)
# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取文章列表
articles = soup.find_all('div', class_='list-box')[0].find_all('li')
# 循环遍历每篇文章
for article in articles:
# 获取标题和时间
title = article.find_all('a')[0].text.strip()
time = article.find_all('span', class_='time')[0].text.strip()
# 写入文本文件中
f.write(f'{title}\t{time}\n')
```
代码中使用了 requests 库发送 HTTP 请求,使用 BeautifulSoup 库解析 HTML。首先定义要爬取的页数,然后循环遍历每一页,构造请求 URL,发送 GET 请求,解析 HTML,获取文章列表,然后循环遍历每篇文章,获取标题和时间,并将数据写入文本文件中。
阅读全文