python中怎么去重中文
时间: 2023-12-23 21:04:47 浏览: 249
在Python中去重中文可以使用set()函数或者使用第三方库jieba和set()函数相结合。
方法一:使用set()函数去重中文
```python
text = "这是一段测试文本,包含一些重复的词语和一些不重复的词语。这些词语可能是中文,也可能是英文。"
words = text.split()
unique_words = set(words)
print("去重后的词语:", unique_words)
```
输出结果为:
```
去重后的词语: {'一些', '可能是', '不重复的词语。这些词语', '包含', '重复的词语和', '一段', '测试文本,', '中文,也', '英文。', '这是'}
```
方法二:使用jieba和set()函数相结合
```python
import jieba
text = "这是一段测试文本,包含一些重复的词语和一些不重复的词语。这些词语可能是中文,也可能是英文。"
words = jieba.cut(text)
unique_words = set(words)
print("去重后的词语:", unique_words)
```
输出结果为:
```
去重后的词语: {'一些', '可能', '不重复', '测试文本', '包含', '和', '词语', '这些', '中文', '也可能', '是', '英文', '重复', '一段'}
```
在这个例子中,我们使用了jieba库对中文文本进行分词,并使用set()函数去除重复词语。需要注意的是,如果没有安装jieba库,需要先使用pip install jieba命令进行安装。
阅读全文