用python Thinker 写一个多线程编程文本备份文本查重的程序
时间: 2023-06-03 10:05:10 浏览: 121
本程序使用Python的多线程技术,实现文本备份和查重的功能。
首先,需要定义一个函数用于备份文本:
```python
import os
import shutil
def backup_file(src_file, dest_folder):
"""
备份文件
:param src_file: 原文件的路径
:param dest_folder: 备份文件夹的路径
"""
if not os.path.exists(src_file):
print(f"{src_file} 不存在!")
return
if not os.path.exists(dest_folder):
os.makedirs(dest_folder)
file_name = os.path.basename(src_file)
dest_file = os.path.join(dest_folder, file_name)
shutil.copy(src_file, dest_file)
print(f"{src_file} 备份成功!")
```
该函数接受两个参数:原文件的路径和备份文件夹的路径。函数首先判断原文件是否存在,如果不存在则提示用户原文件不存在;如果备份文件夹不存在则创建该文件夹。然后,函数将原文件复制到备份文件夹中,并输出备份成功的提示信息。
接下来,我们需要实现文本查重功能。我们可以使用哈希算法实现文本的快速查重。具体步骤如下:
1. 读取文本内容;
2. 将文本内容转换成哈希值;
3. 判断哈希值是否在已有的哈希表中,如果存在,则表示文本已经存在,否则,将哈希值添加到哈希表中。
下面是具体的代码实现:
```python
import hashlib
def duplicate_check(file_path):
"""
文本查重
:param file_path: 文件路径
"""
if not os.path.exists(file_path):
print(f"{file_path} 不存在!")
return
hash_dict = {}
with open(file_path, "r", encoding="utf-8") as f:
for line in f:
line = line.strip()
md5_value = hashlib.md5(line.encode()).hexdigest()
if md5_value in hash_dict:
print(f"发现重复文本:{line}")
else:
hash_dict[md5_value] = line
```
该函数接受一个文件路径作为参数,首先判断文件是否存在,如果不存在则提示用户文件不存在。然后,遍历文本的每一行,将每一行的内容转换成哈希值,并与已存在的哈希表进行比较,如果已存在,则表示当前文本重复,否则,将哈希值添加到哈希表中。
最后,我们可以使用多线程来同时进行文本备份和查重的操作。下面是具体的代码实现:
```python
from threading import Thread
def backup_and_check(file_path, dest_folder):
"""
备份和查重
:param file_path: 文件路径
:param dest_folder: 备份文件夹路径
"""
t1 = Thread(target=backup_file, args=(file_path, dest_folder))
t2 = Thread(target=duplicate_check, args=(file_path,))
t1.start()
t2.start()
t1.join()
t2.join()
print("任务完成!")
```
该函数接受两个参数:文件路径和备份文件夹的路径。函数首先创建两个线程,一个线程用于备份文件,另一个线程用于查重。然后,启动两个线程,并使用join()方法等待两个线程完成工作,最后输出任务完成的提示信息。
以上就是我们使用Python进行多线程编程实现文本备份和查重功能的实现方法。
阅读全文