如何用py实现文档内没有重复的文本
时间: 2024-10-19 11:03:11 浏览: 10
Python 提取html文件的标签文本,可用于学习通网页等
在Python中,你可以使用集合(set)数据结构来去除文档中的重复文本。集合是一个无序的不重复元素序列,当你将文本列表传递给集合,它会自动移除所有重复项。以下是简单的步骤:
```python
def remove_duplicates(texts):
# 创建一个空集合来存储唯一文本
unique_texts = set()
# 遍历文档中的每一行或段落
for text in texts.split("\n"): # 如果是多行文本,可以按换行符分割
# 添加到集合中,如果文本已存在则会被忽略
unique_texts.add(text)
# 将集合转换回列表,得到无重复的文本
unique_text_list = list(unique_texts)
return unique_text_list
# 使用示例
documents = ["这是文本1", "这是文本2", "这是文本1", "这是文本3"]
unique_document_text = remove_duplicates(documents)
print("无重复的文本:", unique_document_text)
阅读全文