如何使用Python爬取多页网页数据,并将每页内容作为一个元素保存
时间: 2023-05-18 19:04:31 浏览: 103
你可以使用 Python 的 requests 库和 BeautifulSoup 库来实现这个功能。首先,你需要使用 requests 库发送 HTTP 请求获取网页内容,然后使用 BeautifulSoup 库解析 HTML 代码,提取出你需要的数据。下面是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义要爬取的网页 URL
url = 'https://example.com/page/'
# 定义要爬取的页数
page_count = 10
# 循环爬取每一页的数据
for i in range(1, page_count+1):
# 构造当前页的 URL
current_url = url + str(i)
# 发送 HTTP 请求获取网页内容
response = requests.get(current_url)
# 解析 HTML 代码
soup = BeautifulSoup(response.content, 'html.parser')
# 提取出你需要的数据
data = soup.find_all('div', {'class': 'content'})
# 将数据保存到一个列表中
data_list.append(data)
```
在这个示例代码中,我们使用了一个 for 循环来爬取多页网页数据。我们首先定义了要爬取的网页 URL 和要爬取的页数,然后在循环中构造每一页的 URL,发送 HTTP 请求获取网页内容,解析 HTML 代码,提取出我们需要的数据,并将数据保存到一个列表中。你可以根据自己的需求修改这个示例代码,比如修改要爬取的网页 URL、要爬取的数据类型等。
阅读全文