利用巴尔的摩公务员工资数据集分析输出平均年薪最高的三个职位(job title)(先清洗数据)
时间: 2024-11-23 15:50:44 浏览: 8
首先,要利用巴尔的摩公务员工资数据集分析出平均年薪最高的三个职位,我们需要遵循以下步骤:
1. **数据加载与预处理**:
- 导入所需的Python库,如pandas for 数据处理、numpy for 数学计算,以及可能的csv或Excel读取库(例如openpyxl或read_csv)。
- 加载数据集,检查数据完整性,删除缺失值或异常值,确保只保留有效的工资信息。
- 将"job title"列转换成合适的类别或字符串类型,以便后续分析。
```python
import pandas as pd
import numpy as np
# 假设data是数据集名称
df = pd.read_csv('data.csv') # 替换为实际文件路径
df = df.dropna(subset=['salary', 'job_title']) # 删除缺失薪资或职位信息的数据
df['job_title'] = df['job_title'].astype(str) # 转换职位标题为字符串
```
2. **按职位分组并计算平均年薪**:
- 使用groupby函数按照"job_title"对数据进行分组,并计算每个职位的平均年薪。
```python
average_salaries = df.groupby('job_title')['salary'].mean()
```
3. **找出最高年薪的三个职位**:
- 对平均年薪进行降序排列,然后选取前三个职位。
```python
top_three_jobs = average_salaries.sort_values(ascending=False).head(3)
```
4. **结果展示**:
- 输出这三份工作的名称及其对应的平均年薪。
```python
print("平均年薪最高的三个职位及薪酬:")
for index, row in top_three_jobs.iterrows():
print(f"{index}: {row[0]} - 年薪: ${row[1]:.2f}")
```
阅读全文