dataframe按him列统计数量,筛选出超过50的数据
时间: 2024-10-12 08:13:49 浏览: 35
DataFrame是数据分析中常用的数据结构,通常用于存储表格数据。如果你想按照特定列(比如名为“him”的列)计算每种值的数量,并筛选出数量超过50的数据,可以使用Pandas库提供的函数。以下是Python pandas示例:
```python
import pandas as pd
# 假设df是你的DataFrame
df = pd.DataFrame(...)
# 按照"him"列计数
counts = df['him'].value_counts()
# 筛选出数量超过50的项
result = counts[counts > 50]
# 结果会是一个Series,包含'him'列中每个独特值及其对应的计数值
print(result)
```
在这个例子中,`value_counts()`函数会对"him"列进行计数,然后`result`就是筛选后的结果。如果你想要返回满足条件的新DataFrame,可以用布尔索引来选取原始DataFrame:
```python
filtered_df = df[df['him'].isin(result.index)]
```
这将返回一个新的DataFrame,其中仅包含"him"列值在筛选结果中存在的行。
阅读全文