python爬虫爬取考研数据代码
时间: 2023-10-08 20:05:07 浏览: 143
以下是使用Python爬虫爬取考研数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 构造请求链接
url = 'https://yz.chsi.com.cn/zsml/queryAction.do'
params = {
'm': 'search',
'yxmc': '', # 学校名称
'zymc': '', # 专业名称
'xxfs': '', # 学习方式
'pageno': 1 # 页码
}
# 发送请求,并获取数据
response = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table', {'class': 'ch-table'})
rows = table.find_all('tr')
# 解析数据
for row in rows:
cols = row.find_all('td')
if len(cols) == 10: # 数据行
school = cols[0].text.strip() # 学校名称
major = cols[1].text.strip() # 专业名称
category = cols[2].text.strip() # 学科门类
degree = cols[3].text.strip() # 学位类型
study_type = cols[4].text.strip() # 学习方式
year = cols[5].text.strip() # 招生年份
batch = cols[6].text.strip() # 批次
province = cols[7].text.strip() # 省份
plan_num = cols[8].text.strip() # 计划数
enroll_num = cols[9].text.strip() # 报名数
print(school, major, category, degree, study_type, year, batch, province, plan_num, enroll_num)
```
该代码使用requests库发送HTTP请求,并使用BeautifulSoup库解析HTML页面,最终获取考研数据并输出。你可以根据自己的需求修改请求链接和解析逻辑。
阅读全文