能实现“爬取2-3个主流大学生求职网站中“大数据职位’相关的岗位”的Python代码
时间: 2024-06-09 15:04:43 浏览: 128
当然可以,以下是一个简单的 Python 爬虫实现,可以爬取拉钩、BOSS 直聘和智联招聘三个主流求职网站中“大数据”相关的岗位信息:
```python
import requests
from bs4 import BeautifulSoup
# 拉钩网站
lagou_url = 'https://www.lagou.com/zhaopin/'
lagou_params = {
'city': '全国',
'positionName': '大数据',
'pageSize': '50'
}
lagou_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# BOSS 直聘网站
boss_url = 'https://www.zhipin.com/c101010100/?query='
boss_params = {
'query': '大数据',
'page': '1',
'ka': 'page-1'
}
boss_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 智联招聘网站
zhilian_url = 'https://fe-api.zhaopin.com/c/i/sou'
zhilian_params = {
'pageSize': '60',
'kw': '大数据',
'cityId': '765',
'salary': '0,0',
'workExperience': '-1',
'education': '-1',
'companyType': '-1',
'employmentType': '-1',
'jobWelfareTag': '-1',
'sortType': 'publicdate',
'pageNo': '1',
'requestId': '1618769671631',
'havemark': '0'
}
zhilian_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Referer': 'https://sou.zhaopin.com/?jl=765&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3'
}
# 访问拉钩网站
lagou_response = requests.get(lagou_url, params=lagou_params, headers=lagou_headers)
lagou_soup = BeautifulSoup(lagou_response.text, 'html.parser')
lagou_jobs = lagou_soup.find_all('li', class_='con_list_item')
# 访问 BOSS 直聘网站
boss_response = requests.get(boss_url, params=boss_params, headers=boss_headers)
boss_soup = BeautifulSoup(boss_response.text, 'html.parser')
boss_jobs = boss_soup.find_all('li', class_='item')
# 访问智联招聘网站
zhilian_response = requests.get(zhilian_url, params=zhilian_params, headers=zhilian_headers)
zhilian_jobs = zhilian_response.json()['data']['results']
# 打印拉钩网站中的岗位信息
print('拉钩网站中符合要求的职位有:')
for job in lagou_jobs:
if '大数据' in job.find('div', class_='positionname').text:
print(job.find('div', class_='positionname').text.strip(), job.find('span', class_='money').text.strip())
# 打印 BOSS 直聘网站中的岗位信息
print('BOSS 直聘网站中符合要求的职位有:')
for job in boss_jobs:
if '大数据' in job.find('div', class_='job-title').text:
print(job.find('div', class_='job-title').text.strip(), job.find('span', class_='red').text.strip())
# 打印智联招聘网站中的岗位信息
print('智联招聘网站中符合要求的职位有:')
for job in zhilian_jobs:
if '大数据' in job['jobName']:
print(job['jobName'], job['salary'])
```
这是一个简单的爬虫实现,你可以根据自己的需求进行修改和优化。需要注意的是,爬取网站信息时需要遵守相关规定,不要对网站造成影响。
阅读全文