职工数据分析(StaffBill.csv)。 1. 读取数据 2. 数据清理:去掉索引号 3. 数据统计 (1)统计职工表中职工学历的种类。 (2)按职工学历,统计每种学历的职工人数。 (3)按职工学历,计算每种学历的职工平均工资
时间: 2024-10-25 22:05:21 浏览: 33
职工数据分析主要是对名为"StaffBill.csv"的文件进行操作,这个文件通常包含关于员工的相关信息,比如姓名、学历、工资等字段。以下是针对您提出的三个步骤的分析过程:
1. **读取数据**:
使用Python的pandas库可以方便地加载CSV文件,例如:
```python
import pandas as pd
staff_data = pd.read_csv('StaffBill.csv')
```
2. **数据清理:去掉索引号**
如果DataFrame的index列是无意义的索引,我们可以简单地删除它:
```python
staff_data = staff_data.reset_index(drop=True)
```
3. **数据统计**:
- **(1) 统计职工表中职工学历的种类**:
```python
unique_degrees = staff_data['学历'].nunique()
print(f"有{unique_degrees}种不同的学历.")
```
- **(2) 按职工学历,统计每种学历的职工人数**:
```python
degree_counts = staff_data['学历'].value_counts()
print("各学历职工人数:")
print(degrees_counts)
```
- **(3) 按职工学历,计算每种学历的职工平均工资**:
首先,确认'工资'列是数值类型:
```python
assert '工资' in staff_data.dtypes == float, "工资列不是数值类型"
```
然后进行分组求平均值:
```python
avg_salary_by_degree = staff_data.groupby('学历')['工资'].mean()
print("各学历职工平均工资:")
print(avg_salary_by_degree)
```
完成以上操作后,你就可以得到职工学历分布的统计信息以及每个学历对应的平均工资了。
阅读全文