计算每个大学在整体数据集的占比
时间: 2024-10-13 15:11:07 浏览: 29
全国各省份计算机服务和软件从业人员占比数据2011-2021年
5星 · 资源好评率100%
为了计算每个大学在整体数据集中的占比,你需要首先了解数据集中大学的具体分类或者某个标识大学的字段。例如,如果你有一个名为university_names或department的列,你可以按照以下步骤操作:
1. **加载数据**:
假设你正在使用的是pandas DataFrame `df`,并且数据集包含一个大学名称的列,如`University`:
```python
import pandas as pd
df = pd.read_csv('university_data.csv') # 假设数据集名是university_data.csv
```
2. **统计大学频次**:
使用`value_counts()`函数计算每个大学出现的次数:
```python
university_counts = df['University'].value_counts()
```
3. **计算百分比**:
将频率转换成占比(百分比),需要加上一个小于1的数值(例如0.0001)避免除以零的错误:
```python
university_percentages = (university_counts / df.shape[0]) * 100 + 0.0001
```
4. 结果存储:
最终的结果可以用字典或数据框的形式存储起来,便于后续查看:
```python
university_percentages_dict = university_percentages.to_dict()
```
阅读全文