首页爬取多页网页并解析数据

爬取多页网页并解析数据

时间: 2023-07-29 12:11:47 浏览: 67

爬取多页网页并解析数据的过程可以分为以下几步： 1. 确定需要爬取的网页URL，并设置请求头信息。 2. 发送HTTP请求获取网页内容。 3. 使用解析库解析网页内容，获取需要的数据。 4. 判断是否有下一页，如果有，则重复步骤2-3，否则结束爬取。下面是一个简单的Python爬虫示例，可以爬取糗事百科的多页段子： ```python import requests from bs4 import BeautifulSoup # 爬取的页面数量 page_num = 3 # 糗事百科的URL url = 'https://www.qiushibaike.com/hot/page/{}/' # 循环爬取多页 for i in range(1, page_num+1): # 构造本页的URL page_url = url.format(i) # 设置请求头信息 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发送HTTP请求 response = requests.get(page_url, headers=headers) # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取段子列表 article_list = soup.find_all('div', class_='article') # 循环输出段子内容 for article in article_list: print(article.span.get_text(strip=True)) ``` 以上代码中，我们首先设置了需要爬取的页面数量和糗事百科的URL。然后使用循环结构依次爬取多页，每次构造本页的URL并设置请求头信息，发送HTTP请求并获取网页内容。接着使用BeautifulSoup解析网页内容，获取段子列表，循环输出每个段子的内容。