Pandas删除excel表格的重复行,排除班级一列
时间: 2024-11-13 21:24:52 浏览: 5
python 删除excel表格重复行,数据预处理操作
在Pandas中,如果你想从Excel表格中删除重复行并保持`班级`这一列的独特性,可以按照以下步骤操作:
1. 首先,读取Excel文件并设置`班级`列为默认索引[^1],这将自动忽略该列的重复值。
```python
import pandas as pd
excel_path = "E:\python 资料\孙兴华 数据分析教程\Pandas课件\课件\pandas教程\课件026\分组聚合.xlsx"
data = pd.read_excel(excel_path, index_col='班级')
```
2. 接下来,你可以使用`drop_duplicates()`函数删除基于其他列(除`班级`外的列)的重复行,如果只想保留每个`班级`的第一次出现,可以只传入`subset`参数,不传入`keep`参数。
```python
no_duplicates = data.drop_duplicates(subset=data.columns.difference(['班级']))
```
这样,你就得到了一个无重复行的新DataFrame,其中`班级`列保留了唯一的值。
阅读全文