dataframe 条件 统计
时间: 2024-11-15 17:06:59 浏览: 3
Pandas DataFrame Notes
DataFrame是Pandas库中常用的数据结构,它是一个二维表格,可以看作是由列名索引的 Series 的集合。对于DataFrame,我们可以使用条件统计(condition-based statistics)来筛选、计算特定满足条件的值。
例如,如果你想统计某个DataFrame中某一列(假设列为'data_column')大于某个阈值(如50)的行数,你可以这样做:
```python
count = df['data_column'].value_counts()[df['data_column'] > 50]
```
这将返回满足条件的非空值的数量。如果你想要计算符合条件的平均值、总和或其他聚合函数,可以使用`df.loc[]`或`.query()`结合条件表达式:
```python
average_value = df[df['data_column'] > 50]['data_column'].mean()
total_sum = df.query('data_column > 50')['data_column'].sum()
```
这里,`df.loc[]`用于基于条件选择行,而`.query()`则直接在表达式级别执行条件过滤。
阅读全文