polars在原有的数据集上先聚合计算再添加回去,最佳写法是什么
时间: 2024-09-07 21:02:53 浏览: 60
Polars是Python的一个强大的数据分析库,它提供了一种高效的方式来处理表格数据。如果你想在原有的数据集上先进行聚合计算(如求和、平均值等),然后将结果添加回原始DataFrame,你可以按照以下步骤操作:
1. **读取数据**:
```python
import polars as pl
df = pl.read_csv("your_data.csv")
```
2. **选择需要聚合的列**:
```python
aggregation_columns = ["column1", "column2"]
agg_df = df[aggregation_columns]
```
3. **应用聚合函数**:
```python
agg_results = agg_df.groupby("group_column").aggregate({"column1": "sum", "column2": "mean"})
```
这里`group_column`是你想要分组的列名,"sum" 和 "mean" 是示例的聚合函数,你可以替换为你实际的需求。
4. **合并原始数据和聚合结果**:
```python
result = df.join(agg_results, on="group_column", how="left") # 使用left join保留所有原始行
result["column1_sum"] = result.pop("column1") # 将计算后的列添加到原DataFrame
result["column2_mean"] = result.pop("column2_mean")
```
这会把新的聚合字段添加回原始DataFrame `result`。
阅读全文