pandas查看数据集中重复行的ID,并进行删除,删除后再次查看数据集中的重复行的ID
时间: 2023-02-27 08:58:13 浏览: 126
使用 Pandas 可以很容易地查看数据集中的重复行并进行删除。以下是一个例子:
```
import pandas as pd
# 创建数据集
data = {'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'Name': ['Tom', 'John', 'Jane', 'Tom', 'John', 'Jane', 'Tom', 'John', 'Jane', 'Tom']}
df = pd.DataFrame(data)
# 查看重复行的 ID
duplicate_rows_df = df[df.duplicated(['Name'])]
print("Duplicate Rows based on a single column (Name) are:", duplicate_rows_df, sep='\n')
# 删除重复行
df.drop_duplicates(subset ="Name", keep = False, inplace = True)
print("Dataframe after removing duplicates based on a single column (Name):", df, sep='\n')
# 再次查看重复行的 ID
duplicate_rows_df = df[df.duplicated(['Name'])]
print("Duplicate Rows based on a single column (Name) are:", duplicate_rows_df, sep='\n')
```
以上代码创建了一个名为 "df" 的数据框,并使用 `duplicated` 函数查看重复行的 ID。然后,使用 `drop_duplicates` 函数删除了重复行,最后再次使用 `duplicated` 函数查看是否仍存在重复行。
阅读全文