python爬取boss数据
时间: 2023-11-24 20:50:46 浏览: 124
以下是使用requests库爬取boss直聘网站数据的示例代码:
```python
import requests
import json
def get_job_list(keyword, city):
url = 'https://www.zhipin.com/wapi/zpgeek/common/data/search/joblist.json'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
'Referer': 'https://www.zhipin.com/job_detail/?query={}&city={}'.format(keyword, city),
'X-Requested-With': 'XMLHttpRequest'
}
params = {
'query': keyword,
'city': city,
'page': 1,
'pageSize': 10
}
response = requests.get(url, headers=headers, params=params)
if response.status_code == 200:
data = json.loads(response.text)
job_list = data['zpData']['dataList']
for job in job_list:
print(job['jobName'], job['salary'], job['eduLevel']['name'], job['workingExp']['name'], job['company']['name'])
else:
print('请求失败')
get_job_list('web前端', '上海')
```
该代码使用requests库向boss直聘网站发送请求,获取指定城市和关键词的职位列表。其中,headers中的Referer字段是必须的,否则会返回403错误。params中的page和pageSize字段可以控制返回的职位数量和页数。最后,解析返回的json数据,提取职位名称、薪资、学历、工作经验和公司名称等信息,并打印输出。
阅读全文