pandas对重复行求均值
时间: 2023-10-13 22:25:16 浏览: 322
可以使用 pandas 库中的 drop_duplicates() 方法去除重复行,再使用 groupby() 方法分组,并应用 mean() 方法求均值,如下所示:
```python
import pandas as pd
# 创建示例 DataFrame
df = pd.DataFrame({'name': ['A', 'B', 'A'], 'age': [20, 25, 20], 'score': [80, 90, 85]})
# 去除重复行并求均值
mean_df = df.drop_duplicates().groupby('name').mean()
print(mean_df)
```
输出结果:
```
age score
name
A 20.0 82.5
B 25.0 90.0
```
相关问题
python pandas均值
根据引用\[1\]中的代码,可以使用`df.mean()`函数来计算DataFrame中每一列的平均值。例如,`df.mean()`将返回一个Series对象,其中包含每一列的平均值。如果只想计算特定列的平均值,可以使用`df\["列名"\].mean()`的方式。例如,`df\["YY"\].mean()`将返回列"YY"的平均值,即22.0。如果想将某一列转换为列表,可以使用`tolist()`函数,例如`YY_list = df\["YY"\].tolist()`将列"YY"转换为列表。可以使用`len()`函数获取列表的长度,例如`len(YY_list)`将返回列表的长度,即5。如果想要去除列表中的重复元素,可以使用`set()`函数,例如`len(set(YY_list))`将返回去重后的列表长度。另外,可以使用`unique()`函数获取列中的唯一值,例如`df\["YY"\].unique()`将返回列"YY"中的唯一值数组。
#### 引用[.reference_title]
- *1* [Python pandas,pandas常用统计方法,求和sum,均值mean,最大值max,中位数median,标准差std](https://blog.csdn.net/houyanhua1/article/details/87858575)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [Python Pandas 常用统计数据方法汇总(求和,计数,均值,中位数,分位数,最大/最小,方差,标准差等)](https://blog.csdn.net/qq_42067550/article/details/106260512)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
4、实现Pandas的去重、求最大最小值、均值等操作
假设我们有以下数据集:
```
import pandas as pd
data = pd.DataFrame({'A': [1, 2, 3, 2, 4],
'B': [5, 6, 7, 7, 9]})
```
### 去重
要对数据集进行去重,可以使用 `drop_duplicates()` 方法:
```
data.drop_duplicates()
```
这将返回一个新的数据集,其中重复的行已经被删除了。
### 求最大最小值
要计算数据集中每列的最大值和最小值,可以使用 `max()` 和 `min()` 方法。例如:
```
max_values = data.max()
min_values = data.min()
print(f'Max values:\n{max_values}\n')
print(f'Min values:\n{min_values}\n')
```
### 计算均值
要计算数据集中每列的均值,可以使用 `mean()` 方法。例如:
```
mean_values = data.mean()
print(f'Mean values:\n{mean_values}\n')
```
注意:这些方法默认情况下会忽略缺失值。如果你想要将缺失值包含在计算中,可以使用 `skipna=False` 参数:
```
mean_values = data.mean(skipna=False)
print(f'Mean values (including NaN):\n{mean_values}\n')
```
阅读全文