python爬取岗位数据并分析 代码
时间: 2024-12-02 20:19:03 浏览: 19
亚马逊数据_python亚马逊_python_
5星 · 资源好评率100%
Python 爬取岗位数据并进行分析通常涉及网络抓取、数据解析以及数据分析等多个步骤。以下是一个简单的概述,使用 Python 的 requests 库获取网页内容,BeautifulSoup 或 lxml 解析 HTML,然后存储到 Pandas DataFrame 中进行处理。
```python
# 导入需要的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 设置目标URL
url = "https://www.example.com/jobs" # 替换为你想爬取的职位列表页面
# 发送请求获取HTML内容
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'lxml')
job_elements = soup.find_all('div', class_='job-item') # 假设职位信息在class为'job-item'的元素中
# 提取所需字段,如职位名称、职责描述、薪资等
jobs_data = []
for job in job_elements:
title = job.find('h2').text
description = job.find('p', class_='description').text
salary = job.find('span', class_='salary').text if 'salary' in job else None
jobs_data.append([title, description, salary])
# 将数据转换为DataFrame
df_jobs = pd.DataFrame(jobs_data, columns=['职位名称', '职责描述', '薪资'])
# 数据清洗和预处理,例如去除无用字符、填充缺失值
df_jobs['职位名称'] = df_jobs['职位名称'].str.strip() # 去除首尾空格
df_jobs.dropna(inplace=True) # 删除含有缺失值的行
# 分析数据,比如统计各个职位的数量,薪酬分布等
job_counts = df_jobs['职位名称'].value_counts()
salary_distribution = df_jobs['薪资'].value_counts()
# 打印结果或保存到文件
print(job_counts)
print(salary_distribution)
阅读全文