Python去重全攻略：20种列表去重复项的方法

127 浏览量更新于2024-08-28 1 收藏 66KB PDF 举报

本文主要介绍了Python中去除列表重复项的多种方法，包括使用新建列表、基于下标判断以及列表推导等技术。在Python编程中，列表是一个非常重要的数据结构，它允许存储不同类型的元素，并且可以动态扩展。在处理包含重复元素的列表时，有时我们需要确保列表中的每个元素都是唯一的。以下是几种常见的去重方法： ### 1. 新建列表（不使用索引） ```python def unique(data): new_list = [] for item in data: if item not in new_list: new_list.append(item) return new_list ``` 这种方法通过遍历数据并检查元素是否已存在于新列表中来去重，然后将元素添加到新列表。 ### 2. 新建列表（使用索引） ```python def unique(data): new_list = [] for i in range(len(data)): if data[i] not in new_list: new_list.append(data[i]) return new_list ``` 这种方法与上一种类似，但使用了索引遍历原始列表，这在某些情况下可能更有效，特别是当列表元素不可哈希时。 ### 2.1. 使用列表推导 ```python def unique(data): new_list = [i for i in data if i not in new_list] return new_list ``` 这是对上一个方法的简化，通过列表推导一次性完成去重和构建新列表的过程。以上方法在小规模数据集上效果良好，但如果数据量较大，它们的效率可能会降低，因为频繁的`not in`操作在大数据集上可能很耗时。对于这种情况，可以考虑使用其他数据结构，如集合（Set）或者字典（Dictionary）。 ### 3. 利用集合 ```python def unique_set(data): return list(set(data)) ``` 集合是一个无序且不允许重复元素的数据结构，通过将列表转换为集合，然后再转换回列表，可以快速有效地去重。然而，这种方法会改变元素的原始顺序。 ### 4. 利用字典 ```python def unique_dict(data): return list(dict.fromkeys(data)) ``` 字典的键是唯一的，通过将列表元素作为键创建字典，然后再转换回列表，同样可以去重，同时也保留了原始顺序（Python 3.7及以上版本）。在选择去重方法时，应考虑数据量、元素类型、对原顺序的需求以及性能要求。对于需要保持原始顺序的情况，集合和字典方法可能不是最佳选择，而新建列表的方法则更为合适。对于性能要求高且顺序不重要的情况，集合方法通常是最优的。在实践中，可以根据具体情况选择最适用的方法。

Python列表去重复项的列表去重复项的N种方法种方法(实例代码实例代码)

说明说明

Python语言中列表(List)与其他语言的数组(Array)类似，是一种有序的集合数据结构，Python List可支持各种数据类型，长度

也可动态调整，与JS中的数组或Java ArrayList很接近。在实际编程中，经常会遇到数组或列表去掉重复项，保持成员唯一

性。实现方式有多种，比如新建列表来存储非重复项，或者在原有基础上删除掉重复的项，也可以利用数据结构来达到去重

复。具体哪一种方法更好呢?以下约20种方式都可以实现，我们可以通过这些来交流和学习。

方式方式

## 1. 新建列表，如果新列表中不存在，则添加到新列表。

def unique(data):

new_list = [] for item in data:

if item not in new_list:

new_list.append(item)

return new_list

# test

data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] start_time = time.time()

print("new_list + not in data:", unique(data))

print("time:" + str((time.time() - start_time) * 1000) + " ms")

# result

$ python -V

Python 2.7.16

$ python unique.py

('for list + not in. data:', ['a', 1, 2, 'b'])

time:0.0441074371338 ms

## 2. 新建列表。根据下标判断是否存在新列表中，如果新列表中不存在则添加到新列表。

def unique(data):

new_list = [] for i in range(len(data)):

if data[i] not in new_list:

new_list.append(data[i])

return new_list

## 2.1 新建列表，使用列表推导来去重。是前一种的简写。

def unique(data):

new_list = [] [new_list.append(i) for i in data if not i in new_list] return new_list

# test

data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] start_time = time.time()

print("for range + not in. data:", unique(data))

print("time:" + str((time.time() - start_time) * 1000) + " ms")

## 3. 通过index找不到该项，则追加到新列表中。index找不到会报错，因此放在异常处理里。

def unique(data):

new_list = [] for i in range(len(data)):

item = data[i] try:

if (new_list.index(item) < 0):

print('new_list:', new_list)

except ValueError:

new_list.append(item)

return new_list

# test

data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] start_time = time.time()

print("list index + except:", unique(data))

print("time:" + str((time.time() - start_time) * 1000) + " ms")

## 4. 新建列表，两个循环。如果内循环与外循环项相同，且下标相同就添加到新列表，其余忽略

def unique(data):

new_list = [] for i in range(len(data)):

j = 0

while j <= i:

if data[i] == data[j]:

if i == j:

new_list.append(data[i])

break

j += 1

return new_list

# test

data = ['a', 'a', 1, 1, 2, 2, 'b', 'b', 2, 1] start_time = time.time()

print("new list + for. new_list:", unique(data))

print("time:" + str((time.time() - start_time) * 1000) + " ms")

## 5. 在原有列表上移除重复项目。自后往前遍历，逐个与前面项比较，如果值相同且下标相同，则移除当前项。

def unique(data):

l = len(data)

while (l > 0):

l -= 1

i = l

while i > 0:

i -= 1

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38584642

粉丝: 5
资源: 945

Python去重全攻略：20种列表去重复项的方法

Python numpy 点数组去重的实例

6-8python代码

python训练100实例

python聚类算法总结及对应实例代码

Fibonacci序列实例，定义函数，返回由斐波那契数列中前n个数组成的列表。python代码

请解释如何在Python中实现斐波那契数列的计算，并分别使用递归方法和动态规划方法编写示例代码。同时，请分析这两种方法在效率上的差异。

如何在Python中结合使用循环和条件语句进行有效的数值处理？请提供一个计算斐波那契数列前N项的示例。

python递归算法经典实例

python 在同一行内输入字符串str和整数n，重复n编字符串str并输出。 实例1： 输入： abc 3 输出： abcabcabc 实例2： 输入： ** 2 输出： ****

python好玩复杂的代码

最新资源

python 在同一行内输入字符串str和整数n，重复n编字符串str并输出。实例1：输入： abc 3 输出： abcabcabc 实例2：输入： 2 输出： **