Lucene与ElasticSearch面试关键点解析

需积分: 5 28 浏览量更新于2024-08-05 收藏 21KB DOCX 举报

"Lucene和ElasticSearch面试准备" 在面试准备中，理解Lucene和Elasticsearch的关键概念和技术是至关重要的。Lucene是一个高性能、全文本搜索引擎库，它提供了核心的索引和搜索功能，而Elasticsearch是基于Lucene构建的分布式、RESTful风格的搜索和分析引擎，简化了Lucene的使用并增加了集群和分布式处理的能力。 1. Lucene性能与全文检索 - Lucene利用索引实现快速搜索，索引库一旦建立，可以在多次搜索中复用，避免了每次查询时对大量数据的扫描。 - 分词器用于将文本拆分成可搜索的词项，这使得Lucene能进行高效的全文本搜索。 2. 多关键字搜索 - Lucene支持同时搜索多个关键字，可以组合使用AND、OR、NOT等布尔运算符，帮助用户找到匹配多个条件的结果。 3. 准确性 - 通过索引查询而非模糊查询，Lucene提供比传统数据库更准确的搜索结果，因为索引直接指向特定的文档。 4. 高亮处理 - Lucene能够对搜索结果中的匹配关键词进行高亮，便于用户快速识别匹配部分。 5. 权重与相关度排序 - 搜索结果按照得分排序，得分由一个算法计算得出，可以人工调整以适应不同的需求，如广告推广。 **全文检索方案** - 用户输入关键词后，应用服务器通过Lucene API查询索引库，然后将结果返回给用户。 **索引创建流程** - 数据准备：从各种来源获取数据，如关系数据库、文件系统或网络。 - 获取文档：使用JDBC访问数据库，使用IO操作读取文件。 - 分析文档：将数据转化为Document对象，每个Document代表一条记录，Field则代表字段。使用分析器（Analyzer）对Field内容进行分词。 - 建立索引：创建倒排索引，记录每个词项出现在哪些文档及其频率和位置。 - 建立查询：根据用户输入生成Query对象，如"bookName:java"表示搜索图书名称包含"java"的记录。 **内部搜索原理** - 顺序扫描法：原始的线性搜索方法，效率较低。 - 倒排索引法：Lucene的主要搜索方法，通过查找词项的倒排索引快速定位到相关文档。 Elasticsearch在此基础上增加了以下特性： - 分布式：支持多节点集群，提供高可用性和水平扩展能力。 - 自动分片和副本：数据自动分布在不同节点上，提高容错性和性能。 - RESTful接口：易于集成和使用，支持JSON格式通信。 - 集成分析器和过滤器：支持多种语言和定制化文本分析。 - 动态映射：自动检测和处理新字段，简化数据管理。 - 聚合与分析：强大的数据聚合功能，支持复杂的数据分析。在面试中，除了这些基础知识，还需要了解Elasticsearch的集群管理、索引策略、性能优化、安全设置等相关知识。熟悉这些内容将有助于在面试中展现出对全文检索和分布式搜索系统的深入理解。

Luence 和 ElasticSearch 面试准备

Lucene:

1、性能上

全文检索，建立一个索引库，一次建立多次使用。在索引库里面会把所有的商品名根据分词

器建立索引，就好比新华字典，索引对应 document，比如输入衬衫，那么就会根据索引迅

速的翻到衬衫对应的商品名，时间迅速，性能很好。

2、多关键字搜索

3、准确性

它是通过索引查询的，就好像你查字典一样，准确性比数据库的模糊查询高许多

4、高亮处理

5、权重、相关度排序

查询出来的 document 都有一个算法（得分），根据算法可以计算得分，得分越高的排名越

靠前，比如百度搜索一个东西，一般排名靠前的得分越高，得分通过算法，可以人工控制，

比如百度推广，企业给的钱多得分自然高，因此排名靠前。

全文检索方案：

根据用户输入的搜索关键词（java），应用服务器使用 lucene 提供的 API 搜索索引库，索引

库返回搜索结果给应用服务器，应用服务器再把搜索结果响应给用户。

索引创建流程

准备数据：保存在关系数据库中的业务数据，保存在磁盘上的文件数据，网络上的网页文件

数据。

获取文档：通过 jdbc 操作获取关系数据库中的业务数据；通过 io 流操作获取磁盘上的文件

数据。

分析文档：文档对象（Document），一个文档对象中包含有多个域（Field）。一个文档对象，

就相当于关系数据库中的一条记录，一个域就相当于一个字段。把原始数据转换成文档对象

以后，使用分析器（分词器）对象把文档域中的内容切分一个一个的词语，目的是为了方便

后续建立索引。

建立索引：建立词语与文档的对应关系（词语在什么文档出现，出现了多少次，在什么位置

出现），即倒排索引，保存到索引库中。

建立查询：根据用户输入的搜索关键词（java），建立查询对象（Query），Query 对象会生

成具体的查询语法。

比如 bookName:java，表示搜索图书名称域中包含有 java 的图书。

全文检索 lucene 的内部搜索原理：顺序扫描法和倒排序索引法

下载后可阅读完整内容，剩余3页未读，立即下载

BinBinPeng

粉丝: 1
资源: 16

Lucene与ElasticSearch面试关键点解析

Elasticsearch 0.20.6 Java API分布式搜索实战与分词器集成

Elasticsearch 0.20.6 Java API 分布式搜索实战与配置

SearchFrame：基于Luence和Solr的Java搜索引擎框架开发

luence搜索

基于ajax与luence构建搜索引擎的设计和实现论文.doc

IKAnalyzer和luence压缩包大全

Luence简单实例

luence4.6例子

Luence搜索Demo

luence in action

最新资源