HBase原理：解析sequenceId的关键作用 - CSDN文库

23 浏览量更新于2024-08-29 收藏 886KB PDF 举报

在HBase这种分布式数据库系统中，数据的写入过程涉及到多个组件的交互，其中HLog（Hadoop Log）和Memstore是两个关键环节。HBase数据写入时，首先会将数据写入内存中的Memstore，然后追加到HLog中。为了确保数据的一致性和可靠性，需要有一种机制将这两个地方的数据关联起来，这就是sequenceId的作用。 sequenceId是HBase中用于关联Memstore与HLog之间数据的关键标识。它解决了以下三个关键问题： 1. **数据删除**：当Memstore中的数据被flush到HDFS上的HFile中时，需要确定对应的HLog日志可以安全删除。sequenceId能帮助系统找到Memstore数据在HLog中的位置，从而判断是否所有数据已持久化，以便清理HLog。 2. **日志轮换**：HBase限制了单个HLog文件的最大大小和数量。当达到上限时，需要删除最旧的日志。sequenceId能确认哪些HLog日志中的数据已经完全落盘，允许进行安全的日志替换。 3. **故障恢复**：如果RegionServer发生故障，sequenceId用于确定哪些HLog记录需要在恢复过程中重新处理，以重建Memstore丢失的数据，而不会重复处理已经持久化的数据。 HLog日志的核心结构是一个关键的理解点。每个RegionServer通常有一个HLog，但可以通过MultiWAL功能启用多个。一个HLog服务于多个Region，记录不同Region的更新。日志单元WALEntry包含HLogKey和WALEdit。HLogKey携带有诸如tablename、regionname以及重要的sequenceid等元数据，而WALEdit则保存了一次事务中对多列的更新。 sequenceId本身是一个递增的整数，它标记了在特定Region中每条更新的顺序。每个WALEntry都有一个唯一的sequenceId，它在Memstore和HLog之间建立了明确的映射关系。当Memstore中的数据flush时，其对应的sequenceId会被写入到生成的HFile中，同时在HLog中删除相应的条目。这样，即使RegionServer崩溃，通过sequenceId，系统也能识别并恢复未持久化的更新。在故障恢复过程中，sequenceId用于确定需要恢复的HLog记录，即那些sequenceId大于Region上次flush时的最大sequenceId的记录。通过这种方式，HBase能够确保数据一致性，并有效地管理其日志存储，避免无谓的空间浪费。 sequenceId是HBase保证数据一致性和容错性的重要机制，它在数据写入流程中起到了至关重要的作用，确保了数据在Memstore和HLog之间的正确同步，并在故障恢复时提供必要的信息。

HBase原理原理——要弄懂的要弄懂的sequenceId

为什么需要sequenceId?

HBase数据在写入的时候首先追加写入HLog，再写入Memstore，也就是说一份数据会以两种不同的形式存在于两个地方。那

两个地方的同一份数据需不需要一种机制将两者关联起来?有的朋友要问为什么需要关联这两者，那笔者这里提出三个相关问

题：

1. Memstore中的数据flush到HDFS文件中后HLog对应的数据是不是就可以被删除了?不然HLog会无限增长!那问题来

了，Memstore中被flush到HDFS的数据，如何映射到HLog中的相关日志数据?

2. HBase中单个HLog都有固定大小，日志文件最大个数也是固定设置的，默认最大HLog文件数量为8。如果日志数量超过这

个数量，就必须删除最老的HLog日志。那问题来了，如何知道待删除HLog日志对应的所有数据都已经落盘了?(如果知道哪些

数据没有落盘，就可以强制对其执行flush，之后就可以将HLog删除)

3. RegionServer宕机之后Memstore中数据必然会丢失，大家都知道可以通过HLog进行恢复。那问题来了，HLog中哪些数据

需要恢复?哪些不需要恢复?

这三个问题从本质上来讲是一个问题，都需要一种介质来表示Memstore中数据Flush的那个点对应HLog哪个位置，这个介质

就是本文要介绍的重点-sequenceId

HLog日志核心结构

要理解sequenceId，需要简单了解HBase中HLog文件的基本结构，如下图所示，关注点主要有两点：

1. 每个RegionServer拥有一个或多个HLog(默认只有1个，1.x版本可以开启 MultiWAL 功能，允许多个HLog)。每个HLog是多

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38698539

粉丝: 7
资源: 948

最新资源