爬取考研信息并存储到csv中
时间: 2024-03-27 09:39:33 浏览: 65
好的,我可以帮你实现这个任务。需要先安装一些必要的库,包括 requests、beautifulsoup4、pandas。你可以在命令行中使用以下命令安装:
```
pip install requests beautifulsoup4 pandas
```
接下来,我们可以使用 requests 库来获取网页内容,使用 beautifulsoup4 库来解析 HTML,使用 pandas 库来存储到 csv 文件中。
下面是一个简单的代码示例,可以爬取研招网的考研信息并存储到 csv 文件中:
```
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://yz.chsi.com.cn/zsml/queryAction.do'
params = {
'ssdm': '',
'yjxkdm': '',
'yjxkdmValue': '',
'zymc': '',
'xxfs': '',
'pageno': 1
}
data = []
for i in range(10): # 爬取前10页数据
params['pageno'] = i + 1
response = requests.post(url, data=params)
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table', {'class': 'zsml-table'})
rows = table.find_all('tr')
for row in rows[1:]:
cols = row.find_all('td')
data.append([col.text.strip() for col in cols])
df = pd.DataFrame(data, columns=['学校', '专业', '科类', '计划数', '招生人数'])
df.to_csv('kaoyan.csv', index=False)
```
这段代码会爬取研招网的考研信息,并将学校、专业、科类、计划数、招生人数存储到 kaoyan.csv 文件中。你可以根据实际需求修改代码。
阅读全文