用bi-garm实现中文分词
时间: 2024-06-01 19:14:20 浏览: 164
可以使用jieba库来实现中文分词,它支持使用bi-gram、tri-gram等多种分词算法。你可以用以下代码来实现:
import jieba
sentence = "我喜欢用Python做自然语言处理"
# 使用bi-gram分词
jieba.load_userdict('user_dict.txt') # 加载用户词典
words = jieba.lcut(sentence, cut_all=False, HMM=False)
bi_words = []
for i in range(len(words)-1):
bi_words.append(words[i]+words[i+1])
print(bi_words)
阅读全文