从一个DataFrame对象中选择一个子集,并根据某一列进行去重。
时间: 2024-05-02 16:21:39 浏览: 65
pandas对dataFrame中某一个列的数据进行处理的方法
可以使用DataFrame的loc方法选择子集,并通过drop_duplicates方法根据某一列进行去重。具体代码如下:
```
import pandas as pd
# 创建DataFrame对象
data = {'name': ['Alice', 'Bob', 'Charlie', 'Bob', 'David'],
'age': [25, 30, 35, 30, 20],
'gender': ['F', 'M', 'M', 'M', 'M']}
df = pd.DataFrame(data)
# 选择子集并根据name列进行去重
subset = df.loc[:, ['name', 'age']]
subset = subset.drop_duplicates(subset='name')
print(subset)
```
输出结果为:
```
name age
0 Alice 25
1 Bob 30
2 Charlie 35
4 David 20
```
其中,`df.loc[:, ['name', 'age']]`选择了DataFrame对象中的name和age两列作为子集,`subset.drop_duplicates(subset='name')`根据name列进行去重。
阅读全文