HBase分布式架构：高并发、实时处理大数据的秘密

175 浏览量更新于2024-07-15 收藏 1.59MB PDF 举报

"本文介绍了Hadoop的HDFS系统和HBase分布式数据库的特点，强调了它们在处理大数据量、高并发和实时处理中的应用。HDFS作为Hadoop的核心子项目，提供了高容错、高可靠性和高吞吐率的分布式文件存储。而HBase则基于HDFS，构建了一个适用于大规模数据处理的NoSQL数据库，擅长处理高并发和实时查询需求。" 在大数据处理领域，Hadoop的HDFS（Hadoop Distributed File System）是基础，它的设计目标是处理和存储海量数据。HDFS的主要优点包括： 1. **高容错性**：数据会被自动保存多个副本，当某个副本丢失时，系统能够自动恢复，保证系统的稳定运行。 2. **适合批处理**：HDFS的设计原则是将计算推向数据，而非将数据移动到计算节点，这使得处理大数据更为高效。 3. **大数据处理能力**：HDFS能够处理GB、TB乃至PB级别的数据，并且能应对百万级别的文件数量。 4. **流式文件访问**：文件一旦写入就不可修改，只能追加，确保数据一致性。 5. **经济实惠**：HDFS可以在普通的商用硬件上运行，通过多副本机制提高系统的可靠性。然而，HDFS也存在一些限制，如： 1. **低延迟数据访问**：HDFS不适合对延迟有严格要求的场景，其读取速度无法达到毫秒级别。 2. **小文件存储**：存储大量小文件会占用NameNode大量内存，且小文件的寻道时间可能超过读取时间，不契合HDFS的设计初衷。 3. **并发写入与文件随机修改**：HDFS不支持多个线程同时写入一个文件，且文件一旦写入后只能追加，不能进行随机修改。 HBase作为基于HDFS的分布式数据库，弥补了HDFS在实时处理和高并发场景下的不足。HBase是一个行式NoSQL数据库，它使用列族存储模型，非常适合于大数据实时查询和分析。在HBase中，数据被分片存储在多台服务器上，每个服务器上都有一个RegionServer负责管理一部分数据，从而实现水平扩展和高并发处理。 HBase的工作流程通常包括以下步骤： 1. **数据写入**：客户端将数据写入到HBase，首先会到达最近的RegionServer，然后数据会被持久化到HDFS上，并更新元数据信息。 2. **数据读取**：读取数据时，客户端会根据表的元数据信息找到对应的数据所在的RegionServer，直接从那里获取数据，实现快速响应。 3. **数据分布与扩展**：随着数据量的增长，HBase会自动将数据分片（Region）划分为更小的部分，分配到不同的RegionServer，以保持负载均衡。总结来说，Hadoop的HDFS提供了大规模数据存储的基础，而HBase在此基础上实现了高并发和实时处理，两者结合，为企业和组织处理大数据提供了强大的工具。在实际应用中，HDFS和HBase的组合经常用于日志分析、互联网广告定向、物联网数据分析等领域，有效解决了大数据时代的数据存储和处理挑战。

4.DataStreamer 会去处理接受 data queue，它先问询 NameNode 这个新的 block 最适合存储的在哪几个DataNode里，比如

重复数是3，那么就找到3个最适合的 DataNode，把它们排成一个 pipeline。DataStreamer 把 packet 按队列输出到管道的第

一个 DataNode 中，第一个 DataNode又把 packet 输出到第二个 DataNode 中，以此类推。

5.DFSOutputStream 还有一个队列叫 ack queue，也是由 packet 组成，等待DataNode的收到响应，当pipeline中的所有

DataNode都表示已经收到的时候，这时akc queue才会把对应的packet包移除掉。

6.客户端完成写数据后，调用close方法关闭写入流。

7.DataStreamer 把剩余的包都刷到 pipeline 里，然后等待 ack 信息，收到最后一个 ack 后，通知 DataNode 把文件标示为已

完成。

到这里想必大家对Hadopp有了一定的了解了，接下来就是Hbase框架的使用了，小伙伴们是不是很期待啊

不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5

个节点的hadoop集群环境（CDH5）。

好了，让我们来学习HBase吧！

HBase简介

HBase的发展史

2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起，2008年成为Apache Hadoop的一个子项目。现已作为产品在多

家企业被使用，如：WorldLingo/Streamy.com/OpenPlaces/Yahoo!

Hbase到底是什么

HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写随机访问超大规模数据集时，可以使用

HBase。

尽管已经有许多数据存储和访问的策略和实现方法，但事实上大多数解决方案，特别是一些关系类型的，在构建时并没有考虑

超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限，但这些功能通常都是事后

增加的，安装和维护都和复杂。同时，也会影响RDBMS的特定功能，例如联接、复杂的查询、触发器、视图和外键约束这些

操作在大型的RDBMS上的代价相当高，甚至根本无法实现。

HBase从另一个角度处理伸缩性问题。它通过线性方式从下到上增加节点来进行扩展。HBase不是关系型数据库，也不支持

SQL，但是它有自己的特长，这是RDBMS不能处理的，HBase巧妙地将大而稀疏的表放在商用的服务器集群上。

HBase 是Google Bigtable 的开源实现，与Google Bigtable 利用GFS作为其文件存储系统类似， HBase 利用Hadoop HDFS

作为其文件存储系统；Google 运行MapReduce 来处理Bigtable中的海量数据， HBase 同样利用Hadoop MapReduce来处理

HBase中的海量数据；Google Bigtable 利用Chubby作为协同服务， HBase 利用Zookeeper作为对应。

HBase的特点

1.大：一个表可以有上亿行，上百万列。

2.面向列：面向列表（簇）的存储和权限控制，列（簇）独立检索。

3.稀疏：对于为空（NULL）的列，并不占用存储空间，因此，表可以设计的非常稀疏。

4.无模式：每一行都有一个可以排序的主键和任意多的列，列可以根据需要动态增加，同一张表中不同的行可以有截然不同的

列。

5.数据多版本：每个单元中的数据可以有多个版本，默认情况下，版本号自动分配，版本号就是单元格插入时的时间戳。

6.数据类型单一：HBase中的数据都是字符串，没有类型。

HBase的高并发和实时处理数据

Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，不适用于提供实时计算；HBase是可以提供实时计

算的分布式数据库，数据被保存在HDFS分布式文件系统上，由HDFS保证期高容错性，但是再生产环境中，HBase是如何基

于hadoop提供实时性呢？ HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中；但是HDFS并不

知道的hbase存的是什么，它只把存储文件是为二进制文件，也就是说，hbase的存储数据对于HDFS文件系统是透明的。下

面是HBase文件在HDFS上的存储示意图。

HBase HRegion servers集群中的所有的region的数据在服务器启动时都是被打开的，并且在内冲初始化一些memstore，相应

的这就在一定程度上加快系统响应；而Hadoop中的block中的数据文件默认是关闭的，只有在需要的时候才打开，处理完数

据后就关闭，这在一定程度上就增加了响应时间。

剩余18页未读，继续阅读

weixin_38748875

粉丝: 10
资源: 951

HBase分布式架构：高并发、实时处理大数据的秘密

HBase-并发控制机制解析

基于Hbase的大数据查询优化

多线程 hbase

hbase分布式存储架构

09：HBase分布式实时数据库.zip

HBase分布式事务与SQL实现

21丨分布式架构：如何应对高并发的用户请求.pdf

基于HBase的海量GIS数据分布式处理实践.pdf

HBase分布式数据库详解：对象职责与系统架构

HBase分布式数据库详解：概念、结构与应用

最新资源