python去除重复数据
时间: 2024-10-12 20:09:05 浏览: 28
Python代码源码-实操案例-框架案例-重复数据处理(df.drop duplicates方法).zip
在Python中,有几种常见的方法可以去除列表、集合或者字典中的重复元素:
1. **列表推导式** (List Comprehension):
对于列表,你可以使用列表推导式配合 `if` 条件来过滤出唯一的元素,如:
```python
unique_list = [x for i, x in enumerate(lst) if x not in lst[:i]]
```
2. **set() 函数**:
如果你想快速去除所有类型的重复元素,可以直接将序列转换成 set(集合),因为集合不允许有重复项,然后转回列表:
```python
unique_list = list(set(lst))
```
这种方法会保持原顺序(如果需要)。
3. **dict.fromkeys() 或者 defaultdict**:
使用 `dict.fromkeys()` 可以创建一个新的字典,键只允许唯一,然后再取其值,自动去除了重复的元素。对于有序性要求不高,且元素本身不可哈希的情况,可以考虑使用 `collections.defaultdict` 的同名方法:
```python
from collections import defaultdict
unique_list = list(defaultdict(list).fromkeys(lst))
```
4. **numpy库** (仅对数值数组适用):
对于 numpy 数组,可以使用 `numpy.unique()` 函数:
```python
import numpy as np
unique_array = np.unique(lst)
```
阅读全文