Elasticsearch分词原理与内置分析器解析

下载需积分: 10 | PPTX格式 | 3.53MB | 更新于2024-07-09 | 9 浏览量 | 举报

"Elasticsearch分词.pptx 涉及到ES的分词原理、内置分词器以及它们的特性和使用示例。主要介绍了StandardAnalyzer、SimpleAnalyzer和WhitespaceAnalyzer三种分词器。" 在Elasticsearch (ES) 中，分词是构建高效全文搜索引擎的关键步骤，它涉及到将文本内容拆分成可搜索的独立单元，即词汇项。倒排索引，基于这些分词结果构建，使得快速匹配和检索成为可能。在ES中，分词过程分为两种类型：读时分词（query-time analysis）和写时分词（index-time analysis）。前者在用户查询时即时进行，后者在文档被索引时执行。 1. **读时分词**：当用户输入查询时，ES会实时对关键词进行分词，生成的分词仅存在于内存中，查询结束后随即消失。 2. **写时分词**：在文档写入ES时，文档内容会被分词并存储到倒排索引中，这些信息持久化在磁盘，不会因为查询结束或ES重启而丢失。 ES提供了多种内置分词器以适应不同的语言和场景需求： - **StandardAnalyzer**：默认分词器，适用于多语言，会将词汇转换为小写，移除标点符号和停止词。其Tokenizer是StandardTokenizer，TokenFilters包括LowerCaseTokenFilter。示例： ``` POST _analyze { "analyzer": "standard", "text": "NanjingWanmiInformationTechnologyCo.,LTD" } ``` 输出：`"nanjingwanmiinformationtechnologycotld"` - **SimpleAnalyzer**：简单分词器，以非字母字符作为分隔符，所有词汇转为小写。Tokenizer是LowerCaseTokenizer。示例： ``` POST _analyze { "analyzer": "simple", "text": "NanjingWanmi'sInformationTechnologyCo.,LTD" } ``` 输出：`"nanjingwanmisinformationtechnologycotld"` - **WhitespaceAnalyzer**：以空白字符作为分隔符，不处理标点符号。这种分词器对于保持原始分隔符的场景很有用。示例： ``` POST _analyze { "analyzer": "whitespace", "text": "Hello, World!" } ``` 输出：`"Hello", "World!"` 选择合适的分词器对ES的搜索性能和准确度至关重要。例如，对于中文文档，可能需要使用专门为中文设计的分词器，如SmartChineseAnalyzer，它可以正确处理中文的词语边界。同时，自定义分词器和过滤器也可以通过配置来满足特定需求，如添加自定义停用词表，或者实现特定的分词逻辑。 Elasticsearch的分词机制是其强大搜索功能的基础，正确理解和使用分词器能够有效提升全文检索的质量和效率。开发者需要根据实际应用场景选择或定制合适的分词策略，以确保数据的索引和查询达到预期效果。