Elasticsearch面试精华：34题实战解析与索引调优策略

需积分: 0 68 浏览量更新于2024-08-03 收藏 28KB DOCX 举报

在本次面试中，面试官关注了应聘者对Elasticsearch的理解深度和实践经验。首先，他们期望了解公司内ES集群的具体架构，例如，集群包含13个节点，索引结构复杂，共有多达20个以上的根据日期动态创建的索引，每个索引每天增加1亿+的数据量，并且通过分片策略将其分割为10个，以优化数据分布和查询性能。为了保持索引大小在可管理范围内，每天凌晨会执行force_merge操作来合并碎片并释放空间。在索引设计阶段的调优措施包括： 1. 利用日期模板创建索引，并通过rollover API自动管理索引生命周期，确保新数据的无缝添加。 2. 使用别名来管理和切换索引，提高灵活性。 3. 采用冷热数据分离策略，将频繁访问的数据存储在SSD上，减少查询延迟。 4. 利用Curator进行索引生命周期管理，确保资源的有效利用。 5. 合理配置分词器，仅对需要的字段进行分词，降低存储需求。 6. 在Mapping阶段细致考虑字段的属性，如检索需求和存储需求。在写入操作上，面试者提到： - 设置写入时副本数为0，以提升写入速度。 - 关闭refresh_interval以避免不必要的刷新，但需注意后续恢复这些设置。 - 使用bulk批量写入以减少网络开销。 - 优先使用自动生成的ID，简化管理。查询优化方面，应聘者提到了： - 避免使用wildcard和批量terms查询，以减少解析和匹配的时间。 - 尽可能使用keyword类型，利用倒排索引的优势。 - 对于大数据量的检索，可以预筛选索引范围，提高效率。 - 设计合理的路由规则，优化数据访问路径。此外，面试官还询问了基础概念，如倒排索引。倒排索引是Elasticsearch的核心技术之一，它通过分词策略形成词与文档的映射关系，使得搜索引擎能够快速定位包含特定关键词的文档，即使在大量数据中也能达到近乎实时的检索速度。倒排索引由词典（记录每个词）和倒排表（记录每个词在哪些文档中出现）组成，其底层实现通常基于FST（Finite State Transducer），这是一种高效的字符串转换数据结构。这些知识点展示了面试者在Elasticsearch方面的专业知识，包括集群架构设计、索引管理、写入优化、查询策略以及基础概念理解。面试官通过这些问题评估应聘者的实际操作经验、问题解决能力和对Elasticsearch最佳实践的掌握程度。

存储层面

冷热数据分离存储，热数据(比如最近 3 天或者一周的数据)，其余为冷数据。对于冷数据不会再写

入新数据，可以考虑定期 force_merge 加 shrink 压缩操作，节省存储空间和检索效率。

部署层面

一旦之前没有规划，这里就属于应急策略。

结合 ES 自身的支持动态扩展的特点，动态新增机器的方式可以缓解集群压力，注意：如果之前主

节点等规划合理，不需要重启集群也能完成动态新增的。

elasticsearch 是如何实现 master 选举的

面试官：想了解 ES 集群的底层原理，不再只关注业务层面了。

前置前提：

1、只有候选主节点(master：true)的节点才能成为主节点。

2、最小主节点数( min masternodes)的目的是防止脑裂。

这个我看了各种网上分析的版本和源码分析的书籍，云里雾里。

核对了一下代码，核心入口为 findMaster，选择主节点成功返回对应 Master，否则返回 null。选举

流程大致描述如下：

第一步:确认候选主节点数达标,elasticsearch. yml 设置的值 discovery. zen. minimum_master_nodes;

第二步：比较：先判定是否具备 master 资格，具备候选主节点资格的优先返回；若两节点都为候

选主节点，则 id 小的值会主节点。注意这里的 id 为 string 类型。

题外话：获取节点 id 的方法。

1GET/_cat/ nodes?v&h= ip, port,heapPercent,heapMax, id, name 2ip port heapPercent heapMax id

name

详细描述一下 Elasticsearch 索引文档的过程

面试官：想了解 ES 的底层原理，不再只关注业务层面了。

这里的索引文档应该理解为文档写入 ES，创建索引的过程。

文档写入包含：单文档写入和批量 bulk 写入，这里只解释一下：单文档写入流程。

第一步：客户写集群某节点写入数据，发送请求。(如果没有指定路由/协调节点，请求的节点扮演

路由节点的角色。)

第二步：节点 1接受到请求后，使用文档_id 来确定文档属于分片 0。请求会被转到另外的节点，假

定节点 3。因此分片 0 的主分片分配到节点 3 上。

剩余12页未读，继续阅读

向前齐步走

粉丝: 60
资源: 2904

Elasticsearch面试精华：34题实战解析与索引调优策略

精选7道Elastic Search面试题！.pdf

Elasticsearch 28道面试题和答案.docx

Elasticsearch 25道面试题和答案.docx

Elasticsearch 50道面试题和答案.docx

【路径规划】乌燕鸥算法栅格地图机器人最短路径规划【含Matlab仿真 2886期】.zip

【路径规划】生物地理算法栅格地图机器人最短路径规划【含Matlab仿真 2914期】.zip

【路径规划】冠状病毒群体免疫算法栅格地图机器人路径规划【含Matlab仿真 2818期】.zip

在 GPU 上计算的各种样条算法.zip

TPLink-TLPS110U-V2-110329打印服务器

Matlab实现基于MIC-BP最大互信息系数数据特征选择算法结合BP神经网络的数据分类预测（含完整的程序和代码详解）

最新资源