Elasticsearch面试深度解析：分片策略、选举机制与调优技巧

需积分: 0 129 浏览量更新于2024-08-03 收藏 27KB DOCX 举报

"Elasticsearch面试题及答案涵盖了节点配置、选举机制、性能优化、避免脑裂策略以及大数据量聚合方法等核心知识点。" 在Elasticsearch中，节点配置对于集群的稳定性和性能至关重要。一个Node的分片分配遵循官方建议，通常一个Node不应分配超过三个主分片（shards），以保持节点的处理能力和资源均衡。 Elasticsearch的Master选举是由ZenDiscovery模块管理的。节点间通过Ping RPC进行通信，发现彼此的存在，并使用Unicast单播模块来控制需要ping的节点列表。选举过程涉及节点根据node_id排序，初步选定第一个节点作为潜在Master，若该节点获得超过半数其他节点的投票且自身也参与竞选，则被选为Master。若未满足条件，则重新进行选举，直至满足条件为止。针对Elasticsearch的写入调优，有以下几个关键步骤：首先，写入前可暂时将副本数设为0，减少复制数据的开销；其次，关闭refresh_interval至-1，禁用刷新机制，减少写入时的额外负担；再者，利用bulk批量写入，以提高效率；写入完成后，恢复副本数和刷新间隔，确保数据实时性；最后，尽量使用系统自动生成的ID，避免因用户自定义ID导致的分片分布不均问题。为了避免Elasticsearch集群出现“脑裂”现象，即两个或多个独立的主节点同时存在，可以通过设置`discovery.zen.minimum_master_nodes`参数，确保至少超过所有候选主节点数的一半，以此避免分裂情况的发生。对于大数据量（如上亿级别）的聚合操作，Elasticsearch提供了cardinality度量，利用HyperLogLog（HLL）算法估算字段的基数，即唯一值的数量。HLL算法通过哈希运算和bits分析来估计基数，具有可配置的精度，可根据需求调整内存使用，即使面对大量数据，内存占用仍与预设精度相关。至于Elasticsearch的主分片数量，一旦设定，是无法在后期更改的。这是因为分片分配基于文档ID的哈希值和主分片总数的模运算，改变主分片数量会导致数据路由规则变化，从而破坏已有的数据分布。这些面试题和答案揭示了Elasticsearch在集群管理、性能优化和大数据处理等方面的关键概念和技术，对于理解和操作Elasticsearch集群至关重要。

你之前公司的 ElasticSearch 集群,一个 Node 一般会分配几个分片?

我们遵循官方建议，一个 Node 最好不要多于三个 shards.

ElasticSearch 是如何实现 Master 选举的?

ElasticSearch 的选举是 ZenDiscovery 模块负责的,主要包含 Ping(节点之间通过这个 RPC 来发现彼此)

和 Unicast(单播模块包含一个主机列表以控制哪些节点需要 ping 通)这两部分；

对所有可以成为 master 的节点(node. master:true)根据 nodeld 字典排序,每次选举每个节点都把自己所

知道节点排一次序，然后选出第一个(第 0 位)节点,“暂且认为它是 master 节点。”

如果对某个节点的投票数达到一定的值(可以成为 master 节点数 n/2+1)并且该节点自己也选举自己，

那这个节点就是 master。否则重新选举一直到满足上述条件。

你是如何做 ElasticSearch 写入调优的?

1)写入前副本数设置为 0；

2)写入前关闭 refresh_interval 设置为-1,禁用刷新机制;

3)写入过程中：采取 bulk 批量写入；

4) 写入后恢复副本数和刷新间隔；

5) 尽量使用自动生成的 id。

ElasticSearch 如何避免脑裂?

可以通过设置最少投票通过数量( discovery. zen. minimum master nodes)超过所有候选节点一半以

上，来解决脑裂问题。

ElasticSearch 对于大数据量(上亿量级)的聚合如何实现?

ElasticSearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数,即该字段的 distinct 或

者 unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入做哈希运算，然后根据哈希运

算结果中的 bits 做概率估算从而得到基数。其特点是：

可配置的精度，用来控制内存的使用(更精确=更多内存)，小的数据集精度是非常高的；我们可以

通过配置参数来设置去重需要的固定内存使用量，无论数千还是数十亿的唯一值，内存使用量只

与你配置的精确度相关。

图片

ElasticSearch 主分片数量可以在后期更改吗?为什么?

不可以,因为根据路由算法 shard= hash( document_id)%

( num_of_primary_shards),当主分片数量变化时会影响数据被路由到哪个分片上。

下载后可阅读完整内容，剩余5页未读，立即下载

老歪不歪

粉丝: 44
资源: 4368

Elasticsearch面试深度解析：分片策略、选举机制与调优技巧

Elasticsearch 25道面试题和答案.docx

Elasticsearch 34道面试题和答案.docx

Elasticsearch 50道面试题和答案.docx

【java毕业设计】网页时装购物系统源码（springboot+vue+mysql+说明文档+LW）.zip

Kylin10 + GDAL2.4 + OSG3.6.4 + OsgEarth2.10.1

计算机系统维护技术.xps

数学建模问题中阻滞增长模型

基于Java的菜匣子优选系统设计与实现+jsp（源码）.rar

编程选择题40道：异常处理：错误处理与异常抛出.Tex.docx

为 Vue 2 和 3 创建通用库.zip

最新资源