dataframe根据重复数据放到新的dataframe
时间: 2023-11-18 22:08:34 浏览: 62
数据库表中插入重复数据的处理
5星 · 资源好评率100%
可以使用 pandas 库中的 drop_duplicates() 方法去除重复数据,并将结果存储到新的 DataFrame 中。下面是一个示例代码:
```python
import pandas as pd
# 创建示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Bob', 'David', 'Charlie'],
'Age': [25, 30, 35, 30, 40, 35],
'City': ['New York', 'Paris', 'London', 'Paris', 'Tokyo', 'London']}
df = pd.DataFrame(data)
# 根据重复数据放到新的 DataFrame
df_duplicates = df[df.duplicated()]
print(df_duplicates)
```
上述代码首先创建了一个包含重复数据的 DataFrame `df`,然后使用 `df.duplicated()` 找到重复的行并存储到新的 DataFrame `df_duplicates` 中。输出结果为:
```
Name Age City
3 Bob 30 Paris
5 Charlie 35 London
```
可以看到,`df_duplicates` 中只包含重复的行数据。如果想要保留第一个出现的重复数据,可以在 `drop_duplicates()` 方法中设置参数 `keep='first'`。例如:
```python
df_duplicates = df[df.duplicated(keep='first')]
```
此时,`df_duplicates` 中只会保留第一个出现的重复数据。
阅读全文