文件查重系统python代码
时间: 2024-11-30 15:14:09 浏览: 11
文件查重系统通常会利用文本相似度算法来比较两个或多个文档的内容。Python是一个非常适合这个任务的语言,因为它有丰富的库支持如nltk、sklearn、jieba等。以下是一个简单的例子,展示如何使用内置的`difflib`模块计算两个文本文件的相似度:
```python
import difflib
def file_similarity(file1, file2):
with open(file1, 'r') as f1, open(file2, 'r') as f2:
file1_content = f1.read()
file2_content = f2.read()
# 创建Differ对象并比较文件内容
d = difflib.Differ()
diff = list(d.compare(file1_content.splitlines(1), file2_content.splitlines(1)))
# 计算相似度
similarity = len([line for line in diff if line.startswith('+') or line.startswith('-')]) / len(diff)
return similarity
# 使用函数
similarity_score = file_similarity('file1.txt', 'file2.txt')
print(f"两文件的相似度为: {similarity_score}")
阅读全文