首页使用python抓取http://www.ccgp.gov.cn/cr/list网页首页所有信息.尝试抓取第一页和第二页的所有信息翻页url网页不变

使用python抓取http://www.ccgp.gov.cn/cr/list网页首页所有信息.尝试抓取第一页和第二页的所有信息翻页url网页不变

时间: 2024-01-11 07:04:19 浏览: 176

好的，我明白了。对于你的问题，可以使用Python的requests和BeautifulSoup库来实现。以下是一个示例代码，可以抓取第一页和第二页的所有信息和翻页URL： ```python import requests from bs4 import BeautifulSoup url = 'http://www.ccgp.gov.cn/cr/list' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 获取第一页信息 params1 = {'searchkey': '', 'category': '', 'pageNum': '1'} response1 = requests.get(url, params=params1, headers=headers) soup1 = BeautifulSoup(response1.text, 'html.parser') print(soup1.find_all('li')) # 获取第二页信息 params2 = {'searchkey': '', 'category': '', 'pageNum': '2'} response2 = requests.get(url, params=params2, headers=headers) soup2 = BeautifulSoup(response2.text, 'html.parser') print(soup2.find_all('li')) # 获取下一页URL next_page_url = soup2.find('a', class_='next-page')['href'] print(next_page_url) ``` 注意，这里的代码可能会因为网页结构变化导致抓取失败，需要根据实际情况进行调整。

阅读全文