假设数据集中有一个名为Category的列,按 Category列对数据进行分组,并计算每组中其他数值型列的均值。
时间: 2024-10-10 14:06:43 浏览: 22
用LSTM模型+交叉熵+Adam,对测试集中的数据进行rate和category分类
假设我们有一个包含数值型列和其他分类变量(如Category)的数据集,想要按类别对数据进行分组并计算每个类别下其他数值型列的均值,可以按照以下步骤操作:
1. 首先,加载数据到一个Pandas DataFrame中,确保“Category”列是分类列(通常是字符串类型)。
2. 使用`groupby()`函数按"Category"列对数据集进行分组,这会创建一个GroupBy对象。
```python
grouped_data = df.groupby('Category')
```
3. 然后,对于每一个组(即每个Category),我们可以使用`mean()`函数计算其内数值型列的均值。这需要指定要计算均值的列名,如果是多个列,可以提供列名的列表。
```python
mean_values = grouped_data.mean()
```
4. 结果是一个DataFrame,其中每一行代表一个类别,每一列是对应数值型列的均值。
完整示例:
```python
import pandas as pd
# 假设df是你的数据集
mean_per_category = df.groupby('Category').mean()
print(mean_per_category)
```
这样就可以得到每个Category下的数值型列的均值了。
阅读全文