误差小的预训练好的中文分词模型
时间: 2023-06-20 18:08:03 浏览: 199
可用来进行模型训练的中文分词词库.rar
目前比较常用的预训练好的中文分词模型有以下几种:
1. THULAC:由清华大学自然语言处理与社会人文计算实验室开发,采用了深度学习技术和分层隐马尔可夫模型。具有较高的分词准确率和速度。
2. LTP:由哈尔滨工业大学智能科学与技术实验室开发。采用了最大熵模型和条件随机场模型,具有较高的分词准确率和速度。
3. Jieba:由Sun Junwei开发,是目前应用最为广泛的中文分词模块之一。虽然没有采用深度学习技术,但是其基于词典匹配和规则推导的分词方法在速度和准确率上都有不错的表现。
4. HanLP:由大连理工大学自然语言处理与社会人文计算实验室开发,采用了深度学习技术和传统机器学习技术相结合的方法,具有较高的分词准确率和速度。
这些预训练好的中文分词模型在不同的应用场景下表现略有差异,可以根据具体需求进行选择。
阅读全文