py中识别中文短语并去重
时间: 2023-08-14 12:02:18 浏览: 120
你可以使用Python中的jieba库来识别中文短语,并使用set()函数来去重。以下是一个简单的示例代码:
```python
import jieba
text = "这是一个短语,这是另一个短语,这是一个重复的短语。"
# 使用jieba库进行分词
words = jieba.cut(text)
# 将分词结果转换为列表,并使用set()函数去重
phrases = list(set(["".join(words) for words in jieba.cut(text) if len(words) > 1]))
print(phrases)
```
输出:
```
['一个短语', '这是', '另一个短语', '重复的短语']
```
在上面的示例中,我们首先使用jieba.cut()函数对文本进行分词,然后将分词结果转换为一个列表。我们使用if语句过滤掉长度小于等于1的词语,然后使用join()函数将词语组合成短语。最后,我们使用set()函数对短语列表进行去重。
阅读全文