没有合适的资源?快使用搜索试试~ 我知道了~
首页Lucene的IK Analyzer 3.0 中文分词器 全解
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
资源详情
资源评论
资源推荐

IK Analyzer 3.0 中文分词器 - Lucene 索引
1.IK Analyzer 3.0 介绍
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006 年 12
月推出 1.0 版开始, IKAnalyzer 已经推出了 3 个大版本。最初,它是以开源项目 Luence 为
应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IK Analyzer 3.0 则
发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化
实现。
1.1 IK Analyzer 3.0 结构设计
1.2 IK Analyzer 3.0 特性
采用了特有的“正向迭代最细粒度切分算法“,具有 50 万字/秒的高速处理能力。(IK3.1 以
上版本已优化至 65 万字/秒)
采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL)、数字(日期,常
用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对 Lucene 全文检索优化的查询分析器 IKQueryParser(作者吐血 推荐);采用歧义分析算法
优化查询关键字的搜索排列组合,能极大的提高 Lucene 检索的命中率。
1.3 分词效果示例
文本原文 1:
IK-Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006 年 12
月推出 1.0 版开始, IKAnalyzer 已经推出了 3 个大版本。
分词结果:
ik-analyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中
文 | 分词 | 工具包 | 工具 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推
出 | 出了 | 3 | 个大 | 个 | 版本
文本原文 2:
永和服装饰品有限公司
分词结果:
永和 | 和服 | 服装 | 装饰品 | 装饰 | 饰品 | 有限 | 公司
文本原文 3:
作者博客:linliangyi2007.javaeye.com 电子邮件:linliangyi2005@gmail.com
分词结果:
作 者 | 博客 | linliangyi2007.javaeye.com | 2007 | 电 子 邮 件 | 电 子 | 邮件 | 地 址 |
linliangyi2005@gmail.com | 2005

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论3