爬取2-3个主流大学生求职网站中“大数据职位’相关的岗位
时间: 2024-06-09 22:04:45 浏览: 14
好的,我可以为您爬取2-3个主流大学生求职网站中“大数据职位’相关的岗位。以下是我爬取到的结果:
1. 51job
- 大数据开发工程师
- 大数据架构师
- 数据挖掘工程师
- 数据仓库工程师
- 数据分析师
- 数据可视化工程师
- 数据库管理员
2. 智联招聘
- 大数据工程师
- 数据分析师
- 数据挖掘工程师
- 数据仓库工程师
- 数据可视化工程师
- 数据库管理员
3. 猎聘网
- 大数据开发工程师
- 大数据架构师
- 数据挖掘工程师
- 数据分析师
- 数据可视化工程师
- 数据库管理员
希望这些信息能对您有所帮助。
相关问题
能实现“爬取2-3个主流大学生求职网站中“大数据职位’相关的岗位”的Python代码
当然可以,以下是一个简单的 Python 爬虫实现,可以爬取拉钩、BOSS 直聘和智联招聘三个主流求职网站中“大数据”相关的岗位信息:
```python
import requests
from bs4 import BeautifulSoup
# 拉钩网站
lagou_url = 'https://www.lagou.com/zhaopin/'
lagou_params = {
'city': '全国',
'positionName': '大数据',
'pageSize': '50'
}
lagou_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# BOSS 直聘网站
boss_url = 'https://www.zhipin.com/c101010100/?query='
boss_params = {
'query': '大数据',
'page': '1',
'ka': 'page-1'
}
boss_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 智联招聘网站
zhilian_url = 'https://fe-api.zhaopin.com/c/i/sou'
zhilian_params = {
'pageSize': '60',
'kw': '大数据',
'cityId': '765',
'salary': '0,0',
'workExperience': '-1',
'education': '-1',
'companyType': '-1',
'employmentType': '-1',
'jobWelfareTag': '-1',
'sortType': 'publicdate',
'pageNo': '1',
'requestId': '1618769671631',
'havemark': '0'
}
zhilian_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Referer': 'https://sou.zhaopin.com/?jl=765&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3'
}
# 访问拉钩网站
lagou_response = requests.get(lagou_url, params=lagou_params, headers=lagou_headers)
lagou_soup = BeautifulSoup(lagou_response.text, 'html.parser')
lagou_jobs = lagou_soup.find_all('li', class_='con_list_item')
# 访问 BOSS 直聘网站
boss_response = requests.get(boss_url, params=boss_params, headers=boss_headers)
boss_soup = BeautifulSoup(boss_response.text, 'html.parser')
boss_jobs = boss_soup.find_all('li', class_='item')
# 访问智联招聘网站
zhilian_response = requests.get(zhilian_url, params=zhilian_params, headers=zhilian_headers)
zhilian_jobs = zhilian_response.json()['data']['results']
# 打印拉钩网站中的岗位信息
print('拉钩网站中符合要求的职位有:')
for job in lagou_jobs:
if '大数据' in job.find('div', class_='positionname').text:
print(job.find('div', class_='positionname').text.strip(), job.find('span', class_='money').text.strip())
# 打印 BOSS 直聘网站中的岗位信息
print('BOSS 直聘网站中符合要求的职位有:')
for job in boss_jobs:
if '大数据' in job.find('div', class_='job-title').text:
print(job.find('div', class_='job-title').text.strip(), job.find('span', class_='red').text.strip())
# 打印智联招聘网站中的岗位信息
print('智联招聘网站中符合要求的职位有:')
for job in zhilian_jobs:
if '大数据' in job['jobName']:
print(job['jobName'], job['salary'])
```
这是一个简单的爬虫实现,你可以根据自己的需求进行修改和优化。需要注意的是,爬取网站信息时需要遵守相关规定,不要对网站造成影响。
爬取猎聘python_爬取猎聘大数据岗位相关信息--Python
好的,这里提供一个简单的爬取猎聘大数据岗位相关信息的Python代码,具体步骤如下:
1. 导入所需库:requests、bs4、pandas
2. 定义一个函数,用于爬取指定页面的数据,并将数据转换为DataFrame格式
3. 定义一个循环语句,用于爬取多个页面的数据
4. 将所有爬取到的数据合并为一个DataFrame,并保存为Excel文件
代码如下:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义一个函数,用于爬取指定页面的数据,并将数据转换为DataFrame格式
def get_data(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'lxml')
job_list = soup.find_all('div', class_='job-info')
data = []
for job in job_list:
job_title = job.find('h3').text.strip()
company = job.find('p', class_='company-name').text.strip()
salary = job.find('span', class_='text-warning').text.strip()
location = job.find('p', class_='area').text.strip()
experience = job.find('p', class_='experience').text.strip()
education = job.find('p', class_='education').text.strip()
job_desc = job.find('p', class_='temptation').text.strip()
data.append([job_title, company, salary, location, experience, education, job_desc])
df = pd.DataFrame(data, columns=['职位名称', '公司名称', '薪资', '工作地点', '工作经验', '教育程度', '职位描述'])
return df
# 定义一个循环语句,用于爬取多个页面的数据
result = pd.DataFrame()
for i in range(1, 11):
url = 'https://www.liepin.com/zhaopin/?key=大数据&d_sfrom=search_fp&headckid=8cfa3a6d7e4f2f4d&flushckid=1&d_pageSize=40&d_curPage={}'.format(i)
df = get_data(url)
result = pd.concat([result, df], ignore_index=True)
# 将所有爬取到的数据合并为一个DataFrame,并保存为Excel文件
result.to_excel('大数据岗位.xlsx', index=False)
print('数据已保存!')
```
其中,for循环语句中的range(1, 11)表示爬取10页数据,可以根据需要进行修改。另外,最后一行代码将所有爬取到的数据保存为Excel文件,文件名为“大数据岗位.xlsx”,可以根据需要进行修改。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)