使用python抓取http://www.ccgp.gov.cn/cr/list网页首页所有信息.尝试抓取第一页和第二页的所有信息翻页url网页不变
时间: 2024-01-11 18:04:19 浏览: 163
用Python程序抓取网页的HTML信息的一个小实例
好的,我明白了。对于你的问题,可以使用Python的requests和BeautifulSoup库来实现。以下是一个示例代码,可以抓取第一页和第二页的所有信息和翻页URL:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.ccgp.gov.cn/cr/list'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 获取第一页信息
params1 = {'searchkey': '', 'category': '', 'pageNum': '1'}
response1 = requests.get(url, params=params1, headers=headers)
soup1 = BeautifulSoup(response1.text, 'html.parser')
print(soup1.find_all('li'))
# 获取第二页信息
params2 = {'searchkey': '', 'category': '', 'pageNum': '2'}
response2 = requests.get(url, params=params2, headers=headers)
soup2 = BeautifulSoup(response2.text, 'html.parser')
print(soup2.find_all('li'))
# 获取下一页URL
next_page_url = soup2.find('a', class_='next-page')['href']
print(next_page_url)
```
注意,这里的代码可能会因为网页结构变化导致抓取失败,需要根据实际情况进行调整。
阅读全文