HBase入门：数据模型与逻辑架构详解

需积分: 0 36 浏览量更新于2024-07-01 收藏 2.76MB PDF 举报

HBase讲义1深入探讨了HBase这一分布式列式非关系型数据库系统，它起源于Google的BigTable论文，主要适用于处理海量、实时的随机读写操作。HBase的核心特点包括： 1. **数据模型**： - HBase采用表的形式存储数据，每个表由行（rowkey）和列（列族）构成。行key通常是确定数据唯一性的主键，列族则是数据的组织方式，包含一组相关的列。 - 列存储优化：与关系型数据库不同，HBase通过列式存储减少存储空间占用，支持多列存储，并且在列数据为空时不会占用空间，体现其稀疏性。 2. **特性与优势**： - **海量存储**：底层基于Hadoop Distributed File System (HDFS)，可以处理极大量的数据。 - **易扩展性**：随着数据增长，仅需动态添加DataNode服务节点来扩展存储能力。 - **高并发**：支持高并发的读写操作，对于高流量应用场景非常关键。 - **数据版本管理**：每个数据有多个版本，版本号即插入时间戳，便于历史数据追踪。 - **数据类型**：所有数据以字节数组形式存储，保持统一的数据模型。 3. **应用领域**： - 交通：存储船舶GPS数据，日增量大。 - 金融：包括消费、贷款、还款等信息。 - 电商：交易、物流、浏览等业务数据。 - 电信：通话记录等。 4. **逻辑架构**： - **命名空间**（NameSpace）：类似于关系型数据库的数据库概念，HBase有预设的hbase和default命名空间，用户表可以选择归属到其中的一个或自定义命名空间。 5. **物理存储**： - 表在物理层面上是由NameNode管理和DataNode节点上的Region组成，Region是数据的物理分片，存储在具体的DataNode上。总结：HBase适用于对海量明细数据的高效存储，特别强调在处理单表数据量巨大（千万乃至上亿条）且并发需求高的场景。理解HBase的数据模型和逻辑架构对于有效利用其性能和功能至关重要。

概念描述

NameSpace（数

据库）

命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用

的命名空间。一个表可以自由选择是否有命名空间，如果创建表的时候加上了命名空间后，这个表名字以:作为区分！

Table

类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，数据属性，比如超时时间（TTL），压缩算法（COMPRESSION）等，都在列族的定义中

定义，不需要声明具体的列。

Row（一行逻辑

数据）

HBase表中的每行数据都由一个RowKey和多个Column（列）组成。一个行包含了多个列，这些列通过列族来分类,行中的数据所属列族只能从该表所定义的列族中选取,不

能定义这个表中不存在的列族，否则报错NoSuchColumnFamilyException。

RowKey（每行

数据主键）

Rowkey由用户指定的一串不重复的字符串定义，是一行的唯一标识！数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的

设计十分重要。如果使用了之前已经定义的RowKey，那么会将之前的数据更新掉！

Column

Family（列族）

列族是多个列的集合。一个列族可以动态地灵活定义多个列。表的相关属性大部分都定义在列族上，同一个表里的不同列族可以有完全不同的属性配置，但是同一个列族

内的所有列都会有相同的属性。列族存在的意义是HBase会把相同列族的列尽量放在同一台机器上，所以说，如果想让某几个列被放到一起，你就给他们定义相同的列

族。

Column

Qualifier（列）

Hbase中的列是可以随意定义的，一个行中的列不限名字、不限数量，只限定列族。因此列必须依赖于列族存在！列的名称前必须带着其所属的列族！例如info：name，

info：age

TimeStamp（时

间戳--》版本）

用于标识数据的不同版本（version）。时间戳默认由系统指定，也可以由用户显式指定。在读取单元格的数据时，版本号可以省略，如果不指定，Hbase默认会获取最后

一个版本的数据返回！

Cell 一个列中可以存储多个版本的数据。而每个版本就称为一个单元格（Cell）。

Region（表的分

区）

Region由一个表的若干行组成！在Region中行的排序按照行键（rowkey）字典排序。Region不能跨RegionSever，且当数据量大的时候，HBase会拆分Region。

第 3 节 HBase整体架构

Zookeeper

实现了HMaster的高可用

保存了HBase的元数据信息，是所有HBase表的寻址入口

对HMaster和HRegionServer实现了监控

HMaster（Master）

为HRegionServer分配Region

维护整个集群的负载均衡

维护集群的元数据信息

发现失效的Region，并将失效的Region分配到正常的HRegionServer上

HRegionServer（RegionServer）

负责管理Region

接受客户端的读写数据请求

切分在运行过程中变大的Region

Region

每个HRegion由多个Store构成，

每个Store保存一个列族（Columns Family），表有几个列族，则有几个Store，

每个Store由一个MemStore和多个StoreFile组成，MemStore是Store在内存中的内容，写到文件后就是StoreFile。StoreFile底层是以HFile的格式保存。



剩余15页未读，继续阅读

老许的花开

粉丝: 34
资源: 328

HBase入门：数据模型与逻辑架构详解

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统

HBase详细讲解

HBase Introduction

HBASE讲义文档

HBase讲义-阿里巴巴

大数据框架（HADOOP、HIVE、HBASE）优化和简历项目编写（视频+讲义+笔记）

厦门大学林子雨版大数据基础入门培训课程 教师培训交流讲义-模块6-分布式数据库HBase 共82页.ppt

大数据开发之Hbase企业应用及与MapReduce集成实战教程（视频+讲义+笔记+配置+代码+练习）

大数据开发之案例实践Hbase的设计及企业优化视频教程（视频+讲义+笔记+配置+代码+练习）

Hadoop及Hbase介绍

最新资源

厦门大学林子雨版大数据基础入门培训课程教师培训交流讲义-模块6-分布式数据库HBase 共82页.ppt