首页py中识别中文短语并去重

py中识别中文短语并去重

时间: 2023-08-14 12:02:18 浏览: 120

你可以使用Python中的jieba库来识别中文短语，并使用set()函数来去重。以下是一个简单的示例代码： ```python import jieba text = "这是一个短语，这是另一个短语，这是一个重复的短语。" # 使用jieba库进行分词 words = jieba.cut(text) # 将分词结果转换为列表，并使用set()函数去重 phrases = list(set(["".join(words) for words in jieba.cut(text) if len(words) > 1])) print(phrases) ``` 输出： ``` ['一个短语', '这是', '另一个短语', '重复的短语'] ``` 在上面的示例中，我们首先使用jieba.cut()函数对文本进行分词，然后将分词结果转换为一个列表。我们使用if语句过滤掉长度小于等于1的词语，然后使用join()函数将词语组合成短语。最后，我们使用set()函数对短语列表进行去重。

阅读全文