HBase深度解析：分布式列式存储原理与实战

4星 · 超过85%的资源需积分: 10 149 浏览量更新于2024-07-28 5 收藏 174KB DOCX 举报

"HBase学习笔记涵盖了HBase的基本概念、核心特性以及HBase Shell常用命令的使用方法。" 在深入探讨HBase之前，首先理解它的定义和背景至关重要。HBase是一个开源的分布式数据库，基于Google的Bigtable论文设计，它专为大规模数据集而构建，支持海量数据的实时读写。HBase充分利用了Apache Hadoop的HDFS（Hadoop Distributed File System）作为底层存储，利用Hadoop的MapReduce框架处理大数据计算，同时依赖Zookeeper进行集群协调和服务发现。 HBase的核心特性包括： 1. 面向列的存储：数据按列族（Column Family）组织，允许高效地存储和检索特定列的数据，这对于大数据分析非常有用。 2. 分布式：数据分布在多个节点上，提供水平扩展能力，能够处理PB级别的数据。 3. 时间戳：每个版本的数据都有一个时间戳，这使得可以追踪数据的历史变化，并且方便数据的版本控制。 4. 强一致性：通过主控服务器和Zookeeper确保数据的一致性。 5. 可配置的保留策略：可以设置最小版本（minVersions）和最大版本（maxVersions），控制数据的保留时间。 HBase Shell是与HBase交互的命令行工具，常用的命令包括： - `create`：创建表，需要指定表名和至少一个列族。 - `put`：向表中插入数据，指定表名、行键（Row Key）和列族:列:版本的数据值。 - `get`：读取表中特定行的数据。 - `scan`：扫描表中的数据，可设置过滤条件。 - `delete`：删除指定行或列的数据。 - `disable/enable`：禁用或启用表。 - `drop`：删除表。 - `list`：列出所有表。 - `alter`：修改表的结构，如添加或删除列族。 HColumnDescriptor是用来描述列族的类，包含以下属性： - familyName：列族名称，必须由数字或字母组成，不能含冒号。 - minVersions：最小保留版本数，用于设置数据的最小存活时间。 - maxVersions：最大保留版本数，超过这个数量的旧版本将被删除。 - keepDeletedCells：是否保留已删除的单元格直到达到最大版本数。 - compression：数据压缩类型，如GZ或SNAPPY。 - encodeOnDisk：是否在磁盘上使用指定的数据块编码。 - dataBlockEncoding：数据块编码方式，影响数据存储效率。 - inMemory：是否将列族数据缓存在内存中。 - blockCacheEnabled：是否开启Block Cache，用于加速数据读取。 - blockSize：存储文件时使用的块大小，影响随机访问速度和索引大小。 - timeToLive：单元格内容的生存时间，超时后自动删除。 - bloomFilter：布隆过滤器类型，用于减少不必要的磁盘I/O。 - scope：列的复制范围，决定数据的冗余度和可用性。理解并熟练掌握这些基本概念和命令，对于有效地使用和管理HBase数据库至关重要。在实际应用中，还需要考虑如何优化表设计、数据模型以及配置参数，以满足不同业务场景的需求。

如图上面的表，我们对这表进行操作为说明：

6、建立表，表的名字为 

GH%G6H%H9H

9、查看当前  中的所有表：



<、查看表结构：

GH

1、插入数据：

插入一个数据：;66F6

GH%H6H%H66H%H;66F6H

剩余16页未读，继续阅读

路人Ding

粉丝: 0
资源: 9

HBase深度解析：分布式列式存储原理与实战

IT十八掌_HBase阶段学习笔记(课堂笔记与原理图解)

Hadoop与HBase自学笔记

Hbase学习笔记

Hadoop之HBase学习笔记

hbase学习笔记.doc

HBase学习笔记(个人整理)

大数据HBase学习笔记：从入门到深入理解

HBase完整学习笔记

HBase自学笔记

大数据Hbase 的学习笔记

最新资源