怎么爬虫下面这个网址的第二页https://www.shanghairanking.cn/rankings/gras/2022/RS0226
时间: 2023-10-07 15:09:39 浏览: 156
c#操作xml文件示例
你可以使用 Python 中的 requests 和 BeautifulSoup 库来实现网页爬取。具体步骤如下:
1. 首先需要安装 requests 和 BeautifulSoup 库,可以通过 pip install requests 和 pip install beautifulsoup4 来安装。
2. 导入库:
```python
import requests
from bs4 import BeautifulSoup
```
3. 使用 requests 库发送 GET 请求获取网页内容,并用 BeautifulSoup 库解析网页:
```python
url = "https://www.shanghairanking.cn/rankings/gras/2022/RS0226?page="
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
page_num = 2 # 想要爬取的页数
for i in range(page_num):
r = requests.get(url + str(i+1), headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
# 这里可以对获取的网页内容进行处理
```
注意:这里需要设置 User-Agent,以模拟浏览器发送请求,避免被网站屏蔽。
4. 可以在循环中对获取的网页内容进行处理,例如提取所需信息并保存到文件中。
阅读全文