从一个DataFrame对象中选择一个子集,并根据某一列进行去重。
时间: 2024-02-18 09:05:44 浏览: 63
pandas对dataFrame中某一个列的数据进行处理的方法
5星 · 资源好评率100%
可以使用 Pandas 库中的 `loc` 方法和 `drop_duplicates` 方法来实现。
假设我们有一个 DataFrame 对象 `df`,其中有多个列,我们需要根据其中一列 `col_name` 进行去重。可以通过以下代码实现:
``` python
subset = df.loc[:, ['col_name']]
subset = subset.drop_duplicates()
```
第一行代码中,使用 `loc` 方法选择了所有行和 `col_name` 列,生成了一个名为 `subset` 的 DataFrame 子集。第二行代码中,使用 `drop_duplicates` 方法对 `subset` 进行去重操作,生成了一个不含重复值的新 DataFrame。
注意:`drop_duplicates` 方法会默认保留第一个出现的重复值,删除后续出现的重复值。如果需要保留最后一个出现的重复值,可以传入参数 `keep='last'`。
阅读全文