IK Analyzer 3.0 中文分词器 - Lucene 索引
1.IK Analyzer 3.0 介绍
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006 年 12
月推出 1.0 版开始, IKAnalyzer 已经推出了 3 个大版本。最初,它是以开源项目 Luence 为
应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IK Analyzer 3.0 则
发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化
实现。
1.1 IK Analyzer 3.0 结构设计
1.2 IK Analyzer 3.0 特性
采用了特有的“正向迭代最细粒度切分算法“,具有 50 万字/秒的高速处理能力。(IK3.1 以
上版本已优化至 65 万字/秒)
采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL)、数字(日期,常
用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对 Lucene 全文检索优化的查询分析器 IKQueryParser(作者吐血 推荐);采用歧义分析算法
优化查询关键字的搜索排列组合,能极大的提高 Lucene 检索的命中率。
1.3 分词效果示例
文本原文 1:
IK-Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006 年 12
月推出 1.0 版开始, IKAnalyzer 已经推出了 3 个大版本。
分词结果:
ik-analyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中
文 | 分词 | 工具包 | 工具 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推
出 | 出了 | 3 | 个大 | 个 | 版本
文本原文 2:
永和服装饰品有限公司
分词结果:
永和 | 和服 | 服装 | 装饰品 | 装饰 | 饰品 | 有限 | 公司
文本原文 3:
作者博客:linliangyi2007.javaeye.com 电子邮件:linliangyi2005@gmail.com
分词结果:
作 者 | 博客 | linliangyi2007.javaeye.com | 2007 | 电 子 邮 件 | 电 子 | 邮件 | 地 址 |
linliangyi2005@gmail.com | 2005
评论3