Python3.4.3去除TXT文本重复行的方法

112 浏览量更新于2024-08-29 收藏 163KB PDF 举报

"在Python 3.4.3环境下，处理TXT文本文件，特别是针对逐行读取内容并去重的技巧。本文将探讨读写文件时需要注意的几个关键问题，并提供多种实现方法。" 在Python编程中，处理文件是常见的任务之一，特别是在文本分析领域。当涉及到读取TXT文本文件并去除重复行时，有几点需要注意： 1. **字符编码**：确保正确地指定文件的编码类型，因为不同的文本文件可能使用不同的编码（如UTF-8、GBK等）。在打开文件时，可以使用`open()`函数的第二个参数来指定编码，例如`open("filename", "r", encoding="utf-8")`。 2. **操作完成即时关闭文件描述符**：在完成文件操作后，应立即关闭文件以释放系统资源。使用`with`语句可以确保文件在使用完毕后自动关闭，例如`with open("filename", "r") as f:`。 3. **代码兼容性**：编写代码时要考虑不同Python版本之间的兼容性。虽然示例中的代码适用于Python 3.4.3，但应确保代码能在其他版本的Python上运行。现在，我们来看几种逐行读取并去重的方法： **方法一**：使用`open()`函数打开文件，然后通过`readline()`方法逐行读取。将读取到的行添加到列表中，最后利用集合（set）的特性去重。由于集合不保证元素顺序，可以将结果转换回列表。如果需要保持原有顺序，可以使用`dict.keys()`方法： ```python f = open("duplicate_txt.txt", "r+") lines = [] for line in f: lines.append(line) f.close() unique_lines = list(set(lines)) # 去重，顺序随机 # unique_lines = list(dict.fromkeys(lines)) # 保持原有顺序，更快 with open("noduplicate1.txt", "w") as f1: f1.write("".join(unique_lines)) ``` **方法二**：使用`for`循环遍历`open()`函数返回的文件对象，将每一行添加到列表，然后同样使用集合去重。为了保持原始顺序，可以对去重后的列表进行排序： ```python lines = [] for line in open("duplicate_txt.txt", "r+"): lines.append(line) unique_lines = list(set(lines)) unique_lines.sort(key=lines.index) # 保持原始顺序 with open("noduplicate2.txt", "w") as f2: f2.write("".join(unique_lines)) ``` 以上两种方法都能有效地处理文件去重，但要注意的是，对于大型文件，直接使用集合可能效率更高，因为它具有O(1)的平均时间复杂度。而排序操作可能会消耗更多的时间，特别是在数据量大的情况下。在实际应用中，根据文件大小和对顺序的需求选择合适的方法。

python3.4.3下逐行读入下逐行读入txt文本并去重的方法文本并去重的方法

读写文件时应注意的问题包括：读写文件时应注意的问题包括：

1.字符编码

2.操作完成即时关闭文件描述符

3.代码兼容性

几种方法：几种方法：

#!/bin/python3

original_list1=[" "] original_list2=[" "] original_list3=[" "] original_list4=[" "] newlist1=[" "] newlist2=[" "] newlist3=[" "] newlist4=[" "] newtxt1=""

newtxt2=""

newtxt3=""

newtxt4=""

#first way to readline

f = open("duplicate_txt.txt","r+") # 返回一个文件对象

line = f.readline() # 调用文件的 readline()方法

while line:

original_list1.append(line)

line = f.readline()

f.close()

#use "set()" remove duplicate str in the list

# in this way,list will sort randomly

newlist1 = list(set(original_list1))

#newlist1 = {}.fromkeys(original_list1).keys() #faster

#rebuild a new txt

newtxt1="".join(newlist1)

f1 = open("noduplicate1.txt","w")

f1.write(newtxt1)

f1.close()

###################################################################

#second way to readline

for line in open("duplicate_txt.txt","r+"):

original_list2.append(line)

newlist2 = list(set(original_list2))

newlist2.sort(key=original_list2.index) #sort

#newlist2 = sorted(set(original_list2),key=l1.index) #other way

newtxt2="".join(newlist2)

f2 = open("noduplicate2.txt","w")

f2.write(newtxt2)

f2.close()

###################################################################

#third way to readline

f3 = open("duplicate_txt.txt","r")

original_list3 = f3.readlines() #读取全部内容，并以列表方式返回

for i in original_list3: #遍历去重

if not i in newlist3:

newlist3.append(i)

newtxt3="".join(newlist3)

f4 = open("noduplicate3.txt","w")

f4.write(newtxt3)

f4.close()

###################################################################

#fourth way

f5 = open('duplicate_txt.txt',"r+")

try:

original_list4 = f5.readlines()

[newlist4.append(i) for i in original_list4 if not i in newlist4] newtxt4="".join(newlist4)

f6 = open("noduplicate4.txt","w")

f6.write(newtxt4)

f6.close()

finally:

f5.close()

结果：结果：

去重前：去重前：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38680247

粉丝: 4
资源: 922

Python3.4.3去除TXT文本重复行的方法

python3.7.2下多个txt文件合并去重

python3.4.3

python 3.4.3

Python 3.4.3 版本

Python3.4.3 pdf文档

Python3.4.3 入门指南

python3.4.3入门指南

Python3.4.3 入门指南.CHM

Python3.4.3 入门指南.zip

Python3.4.3 入门指南-111410151

最新资源