HBase系统架构解析：行键、列族与时间戳

29 浏览量更新于2024-08-28 1 收藏 661KB PDF 举报

"Hbase系统架构及数据结构" 在HBase中，系统架构和数据结构的设计是为了解决大规模数据存储和高效检索的问题。HBase是一个分布式、基于列族的NoSQL数据库，它运行在Hadoop生态系统之上，充分利用了HDFS的分布式存储能力。一、系统架构 HBase构建于Hadoop的HDFS之上，提供高可靠性、高性能的存储。其核心架构包括Master节点、RegionServer节点以及Zookeeper服务。Master节点负责全局的表管理和Region分配，而RegionServer则实际存储和处理数据。Zookeeper用于协调和监控系统状态，确保系统的稳定运行。数据分布在多个RegionServer之间，每个RegionServer负责一部分行键（RowKey）的范围，随着数据增长，Region会自动分裂以保持性能。二、数据模型 HBase的数据模型是基于行和列族的。每个表由行和列构成，列被组织成若干个列族。列族是预定义的，而列可以在运行时动态添加，这允许灵活的数据模式。每个列族下可以有任意数量的列，如`courses:history`和`courses:math`属于`courses`列族。 1. 行键（RowKey） - RowKey是表中的主键，用于唯一标识一行数据。它可以是任意长度的字节序列，但在实际应用中通常为10-100字节。行数据按照RowKey的字典序排序存储，设计时需考虑这一点，以优化数据访问。 - RowKey的读写操作具有原子性，这意味着对同一行的多次修改会以原子方式完成，确保并发操作的正确性。 2. 列族（Column Family） - 列族是表的schema的一部分，需要预先定义。所有的列都属于某个列族，如`courses`列族包含所有课程相关的列。 - 列族提供了一种粗粒度的权限控制和资源管理方式，不同应用可以根据需要对不同列族进行访问和操作。 3. 列（Column） - 列在列族下动态创建，例如`courses:history`和`courses:math`是`courses`列族下的两个不同列。 - 列的访问是通过列族名和列限定符（Qualifier）进行的。 4. 时间戳（Timestamp） - 每个Cell（由RowKey、Column和Timestamp确定）可以存储多版本数据，版本通过时间戳区分。 - 时间戳可以由HBase自动分配，用于版本控制和数据过期。三、数据检索 - 单个RowKey访问：直接通过RowKey获取一行数据。 - RowKey范围访问：指定一个RowKey范围，获取多行数据。 - 全表扫描：遍历整个表的所有数据，但通常较少使用，因为效率较低。四、其他特性 - 稀疏性：HBase允许表设计得很稀疏，即对于为空的列不占用存储空间，节省了存储资源。 - 数据压缩：为了提高存储效率，HBase支持对数据进行压缩。 - 索引：虽然HBase的主索引是RowKey，但可以通过二级索引来优化特定列或列族的查询。 HBase的这种架构和数据模型使得它适合处理大量稀疏数据，尤其适用于实时查询和大数据分析场景。通过合理设计RowKey和列族，可以实现高效的数据存储和检索，满足各种大数据应用的需求。

Hbase系统架构及数据结构系统架构及数据结构

HBase中的表一般有这样的特点：

1 大：一个表可以有上亿行，上百万列

2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。

3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

下面一幅图是Hbase在Hadoop Ecosystem中的位置。

二、逻辑视图

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family)

Row Key

与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：

1 通过单个row key访问

2 通过row key的range

3 全表扫描

Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key

保存为字节数组。

存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储

放到一起。(位置相关性)

注意：

字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然

序，行键必须用0作左填充。

行的一次读写是原子操作 (不论一次读写多少列)。这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作

时的行为。

列族

hbase表中的每个列，都归属与某个列族。列族是表的chema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作

为前缀。例如courses:history，courses:math都属于courses 这个列族。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38631978

粉丝: 3
资源: 933

HBase系统架构解析：行键、列族与时间戳

"深入学习Hbase1：HBase数据结构与NoSQL数据库，三种访问方式详解

HBase系统架构：海量数据的高效列族设计与行键策略

HBase体系结构解析：HRegion与数据存储

HBase 系统架构

java 大数据 spark flink redis hive hbase kafka 面试题 数据结构 算法 设计模式.zip

浅谈HBASE数据结构设计.pdf

hbase底层数据结构

hbase的核心数据结构

HBASE技术架构及应用介绍.pdf

HBASE技术架构及应用介绍.pptx

最新资源

java 大数据 spark flink redis hive hbase kafka 面试题数据结构算法设计模式.zip