dataframe如何删除重复数据
时间: 2023-09-14 18:11:43 浏览: 49
在 pandas 中,可以使用 `drop_duplicates()` 方法来删除重复数据。
假设有一个名为 `df` 的 dataframe,其中包含重复的行,可以使用以下代码删除重复数据:
```python
df.drop_duplicates(inplace=True)
```
该方法会返回一个已删除重复行的新 dataframe,如果使用 `inplace=True`,则会直接在原 dataframe 上进行修改。你也可以指定特定的列来判断是否为重复行,例如:
```python
df.drop_duplicates(subset=['column_name'], inplace=True)
```
其中,`column_name` 为需要检查的列名。
相关问题
dataframe查看重复数据
要查看DataFrame中的重复数据,可以使用pandas库中的duplicated()和drop_duplicates()函数。
duplicated()函数可以用来查找重复的行并返回一个布尔值的Series,其中True表示该行是重复的,False表示该行是唯一的。例如:
```python
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 1], 'B': [4, 5, 6, 4]})
print(df.duplicated())
```
输出:
```
0 False
1 False
2 False
3 True
dtype: bool
```
上面的代码中,DataFrame中第4行是重复的,因为它的A列值与第1行相同,B列值与第1行相同。
drop_duplicates()函数可以用来删除重复的行。例如:
```python
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 1], 'B': [4, 5, 6, 4]})
df = df.drop_duplicates()
print(df)
```
输出:
```
A B
0 1 4
1 2 5
2 3 6
```
上面的代码中,DataFrame中的重复行被删除了。
dataframe中删除重复数据
可以使用`drop_duplicates()`方法来删除重复数据。
例如,假设有以下的dataframe:
```
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'],
'age': [25, 30, 35, 40, 45, 25],
'city': ['New York', 'Los Angeles', 'San Francisco', 'Seattle', 'Chicago', 'New York']}
df = pd.DataFrame(data)
print(df)
```
输出:
```
name age city
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 San Francisco
3 David 40 Seattle
4 Emily 45 Chicago
5 Alice 25 New York
```
可以看到,有两行数据是重复的。
要删除重复数据,只需要调用`drop_duplicates()`方法即可:
```
df = df.drop_duplicates()
print(df)
```
输出:
```
name age city
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 San Francisco
3 David 40 Seattle
4 Emily 45 Chicago
```
可以看到,重复的两行数据已经被删除了,只剩下了唯一的行。