互联网应用的数据库伸缩性：HBase与传统数据库对比

114 浏览量更新于2024-08-28 收藏 818KB PDF 举报

"本文探讨了Hbase与传统数据库之间的区别，主要关注互联网应用的伸缩性和适应性需求。文章提到了互联网应用对系统性能和伸缩性的重视，与传统企业级应用对数据完整性和安全性的侧重不同。随着用户量的增长，数据库层的扩展成为关键问题，从单一服务器到主从复制（Master-Slave）架构，再到垂直切分以减轻Master服务器的写压力。" 在深入讨论HBase与传统数据库的区别之前，有必要理解两者所处的环境和设计目标。传统的关系型数据库如MySQL、Oracle等，通常用于企业级应用，强调ACID（原子性、一致性、隔离性、持久性）特性，保障数据的完整性和一致性。它们通常采用预定义的结构化模式，并且支持复杂的事务处理。然而，HBase是一种分布式、非关系型（NoSQL）数据库，特别适合处理大规模、半结构化或非结构化的数据。HBase的设计目标是高并发、低延迟的随机读写操作，以及水平扩展能力，这使其在互联网应用中，尤其是大数据分析和实时数据检索场景下，表现出优越性能。文章中提到的伸缩性问题，是互联网应用面临的一大挑战。随着用户数量的增长，数据库需要能够快速扩展以应对日益增加的读写请求。最初，简单的单机数据库可能能满足需求，但随着压力增加，将Web服务器、应用服务器和数据库服务器分离是常见的优化手段。接着，引入主从复制架构，将读写操作分离，减少主服务器的压力，提高读取效率。然而，当写压力依然过大时，垂直切分成为必要策略。这意味着根据数据的业务关联性，将不同的表或部分数据分配到不同的数据库，以分散负载。这种方式虽然能在一定程度上缓解压力，但并不能无限扩展，因为数据库的表结构和容量仍受限于单个服务器。这就是HBase发挥作用的地方。HBase基于Google的Bigtable设计，利用Hadoop的HDFS作为底层存储，采用列族（Column Family）和行键（Row Key）的概念，实现了基于键的高效访问。它支持多版本数据，允许多个并发写操作，并通过分区和Region Server实现真正的水平扩展。每个Region Server负责一部分行键范围内的数据，随着数据增长，Region会自动分裂，分配到更多的服务器上，从而实现动态扩展。此外，HBase的架构使得它在处理大数据时具有天然优势。它的列式存储方式利于压缩和并行处理，对于数据分析和实时查询有显著优势。同时，HBase与Hadoop生态系统紧密集成，可以方便地与其他大数据工具如MapReduce、Spark配合使用。 HBase与传统数据库的主要区别在于设计理念和应用场景。HBase针对互联网应用的高并发、大数据量和伸缩性需求，提供了灵活、可扩展的解决方案，而传统数据库则更注重数据的一致性和完整性，适用于事务密集型的企业应用。在选择数据库时，应根据具体的应用场景和性能需求来决定最合适的数据库类型。

Hbase与传统数据库的区别与传统数据库的区别

在说HBase之前，我想再唠叨几句。做互联网应用的哥们儿应该都清楚，互联网应用这东西，你没办法预测你的系统什么时候

会被多少人访问，你面临的用户到底有多少，说不定今天你的用户还少，明天系统用户就变多了，结果您的系统应付不过来了

了，不干了，这岂不是咱哥几个的悲哀，说时髦点就叫“杯具啊”。

其实说白了，这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说，互联网应用更加看重系统性能

以及伸缩性，而传统企业级应用都是比较看重数据完整性和数据安全性。那么我们就来说说互联网应用伸缩性这事儿.对于伸

缩性这事儿，哥们儿我也写了几篇博文，想看的兄弟可以参考我以前的博文，对于web server,app server的伸缩性，我在这里

先不说了，因为这部分的伸缩性相对来说比较容易一点，我主要来回顾一些一个慢慢变大的互联网应用如何应对数据库这一层

的伸缩。

首先刚开始，人不多，压力也不大,搞一台数据库服务器就搞定了，此时所有的东东都塞进一个Server里，包括web server,app

server,db server,但是随着人越来越多，系统压力越来越多，这个时候可能你把web server,app server和db server分离了，好

歹这样可以应付一阵子，但是随着用户量的不断增加，你会发现，数据库这哥们不行了，速度老慢了，有时候还会宕掉，所以

这个时候，你得给数据库这哥们找几个伴，这个时候Master-Salve就出现了，这个时候有一个Master Server专门负责接收写

操作，另外的几个Salve Server专门进行读取，这样Master这哥们终于不抱怨了，总算读写分离了，压力总算轻点了,这个时

候其实主要是对读取操作进行了水平扩张，通过增加多个Salve来克服查询时CPU瓶颈。一般这样下来，你的系统可以应付一

定的压力，但是随着用户数量的增多，压力的不断增加，你会发现Master server这哥们的写压力还是变的太大，没办法，这

个时候怎么办呢？你就得切分啊，俗话说“只有切分了，才会有伸缩性嘛”，所以啊，这个时候只能分库了，这也是我们常说的

数据库“垂直切分”，比如将一些不关联的数据存放到不同的库中，分开部署，这样终于可以带走一部分的读取和写入压力

了，Master又可以轻松一点了，但是随着数据的不断增多，你的数据库表中的数据又变的非常的大，这样查询效率非常低，

这个时候就需要进行“水平分区”了，比如通过将User表中的数据按照10W来划分，这样每张表不会超过10W了。

综上所述，一般一个流行的web站点都会经历一个从单台DB，到主从复制，到垂直分区再到水平分区的痛苦的过程。其实数

据库切分这事儿，看起来原理貌似很简单，如果真正做起来，我想凡是sharding过数据库的哥们儿都深受其苦啊。对于数据库

伸缩的文章，哥们儿可以看看后面的参考资料介绍。

好了，从上面的那一堆废话中，我们也发现数据库存储水平扩张scale out是多么痛苦的一件事情，不过幸好技术在进步，业界

的其它弟兄也在努力，09年这一年出现了非常多的NoSQL数据库，更准确的应该说是No relation数据库，这些数据库多数都

会对非结构化的数据提供透明的水平扩张能力，大大减轻了哥们儿设计时候的压力。下面我就拿Hbase这分布式列存储系统来

说说。

一 Hbase是个啥东东？

在说Hase是个啥家伙之前，首先我们来看看两个概念，面向行存储和面向列存储。面向行存储，我相信大伙儿应该都清楚，

我们熟悉的RDBMS就是此种类型的，面向行存储的数据库主要适合于事务性要求严格场合，或者说面向行存储的存储系统适

合OLTP，但是根据CAP理论，传统的RDBMS，为了实现强一致性，通过严格的ACID事务来进行同步，这就造成了系统的可

用性和伸缩性方面大大折扣，而目前的很多NoSQL产品，包括Hbase，它们都是一种最终一致性的系统，它们为了高的可用

性牺牲了一部分的一致性。好像，我上面说了面向列存储，那么到底什么是面向列存储呢？Hbase,Casandra,Bigtable都属于

面向列存储的分布式存储系统。看到这里，如果您不明白Hbase是个啥东东，不要紧，我再总结一下下：

Hbase是一个面向列存储的分布式存储系统，它的优点在于可以实现高性能的并发读写操作，同时Hbase还会对数据进行透明

的切分，这样就使得存储本身具有了水平伸缩性。

二 Hbase数据模型

HBase,Cassandra的数据模型非常类似，他们的思想都是来源于Google的Bigtable，因此这三者的数据模型非常类似，唯一不

同的就是Cassandra具有Super cloumn family的概念，而Hbase目前我没发现。好了，废话少说，我们来看看Hbase的数据模

型到底是个啥东东。

在Hbase里面有以下两个主要的概念，Row key,Column Family，我们首先来看看Column family,Column family中文又名“列

族”，Column family是在系统启动之前预先定义好的，每一个Column Family都可以根据“限定符”有多个column.下面我们来举

个例子就会非常的清晰了。

假如系统中有一个User表，如果按照传统的RDBMS的话，User表中的列是固定的，比如schema 定义了name,age,sex等属

性，User的属性是不能动态增加的。但是如果采用列存储系统，比如Hbase，那么我们可以定义User表，然后定义info 列

族，User的数据可以分为：info:name = zhangsan,info:age=30,info:sex=male等，如果后来你又想增加另外的属性，这样很方

便只需要info:newProperty就可以了。

也许前面的这个例子还不够清晰，我们再举个例子来解释一下，熟悉SNS的朋友，应该都知道有好友Feed，一般设计Feed，

我们都是按照“某人在某时做了标题为某某的事情”，但是同时一般我们也会预留一下关键字，比如有时候feed也许需要

url，feed需要image属性等，这样来说，feed本身的属性是不确定的，因此如果采用传统的关系数据库将非常麻烦，况且关系

数据库会造成一些为null的单元浪费，而列存储就不会出现这个问题，在Hbase里，如果每一个column 单元没有值，那么是占

用空间的。下面我们通过两张图来形象的表示这种关系：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38655011

粉丝: 9

互联网应用的数据库伸缩性：HBase与传统数据库对比

Hadoop,Hive,Hbase等框架详解

Datawarehouse-Series:数据仓库实战：Hive、HBase、Kylin、ClickHouse

infiniDB与clickhouse对比.pdf

Apache HBase与传统数据库的对比分析

HBase和传统数据库的区别

互联网应用的数据库挑战：HBase与传统数据库的伸缩性对比

.HBase和传统数据库的优势在哪儿？

简述hbase分布式数据库与传统数据库的区别

搭建HBase完全分布式数据库

Hbase与关系数据库对比：特性与可伸缩性分析

最新资源