首页中文分词前向最大匹配算法的代码

中文分词前向最大匹配算法的代码

时间: 2024-03-28 09:33:35 浏览: 17

中文分词是将连续的汉字序列切分成有意义的词语的过程。前向最大匹配算法是一种常用的中文分词算法，其基本思想是从左到右扫描待分词文本，根据词典中最长词语的长度进行匹配。以下是前向最大匹配算法的代码示例： ```python def forward_max_match(text, word_dict): result = [] # 存储分词结果 max_length = max(len(word) for word in word_dict) # 获取词典中最长词语的长度 while text: word = text[:max_length] # 从左到右取出最长词语长度的子串 while word not in word_dict: # 如果子串不在词典中，则逐渐减少子串长度 if len(word) == 1: break word = word[:-1] result.append(word) # 将匹配到的词语添加到结果列表中 text = text[len(word):] # 剩余文本继续匹配 return result ``` 使用示例： ```python word_dict = ["中", "中文", "文", "分词", "前向", "最大", "匹配", "算法"] text = "中文分词前向最大匹配算法" result = forward_max_match(text, word_dict) print(result) ``` 输出结果为：['中文', '分词', '前向', '最大', '匹配', '算法']