对EalsticSearch底层分词的原理,分词流程
时间: 2024-06-05 10:07:22 浏览: 70
Lucene3.0分词系统.doc
4星 · 用户满意度95%
ElasticSearch底层分词的原理可以通过以下方式进行简要概括:
1. 将待处理的文本内容按照一定规则进行切割,形成一个个词条(Term)。
2. 通过分词器(Tokenizer)处理每个词条,去除无用的字符、符号等等,形成标准的词条格式。
3. 对处理后的词条进行词汇格式化(Token Filter),比如大小写转化、词根还原等等,以便于后续进行搜索匹配。
4. 将处理后的词条存储在倒排索引(Inverted Index)中,以便于快速进行搜索。
在这个过程中,ElasticSearch使用了各种各样的内置分词器和词汇格式化器,同时也支持自定义分词器和格式化器。除此之外,ElasticSearch还使用了一些优化技术,如倒排索引压缩、位集合缓存等等,以提高搜索效率。
阅读全文