将dataframe发布年、所在县分组,并计算等级个数
时间: 2024-09-06 10:01:48 浏览: 43
在Python的Pandas库中,如果你有一个DataFrame并且想要按照"年"和"所在县"这两个字段进行分组,并计算每个组别的等级个数,你可以使用`groupby`函数配合`nunique`方法。假设你的DataFrame名为df,其中包含"year", "county", 和 "rank"列,可以这样做:
```python
# 首先,你需要对数据进行分组
grouped = df.groupby(['year', 'county'])
# 然后,计算每个组别在rank列的不同值的数量(即等级个数)
rank_counts = grouped['rank'].nunique()
# 这将返回一个新的DataFrame,其中每一行表示一个(year, county)组合及其对应的等级数量
```
如果你的数据集中有缺失的"rank"值,你可能需要在计算之前处理一下这些缺失值。例如,如果想忽略缺失值,可以在`nunique`前添加`.dropna()`:
```python
rank_counts = grouped['rank'].dropna().nunique()
```
阅读全文