后后Hadoop时代的大数据技术思考:数据即服务时代的大数据技术思考:数据即服务
1. Hadoop 的神话正在破灭
IBM leads BigInsights for Hadoop out behind barn. Shots heard
IBM has announced the retirement of the basic plan for its data analytics software platform, BigInsights for Hadoop.
The basic plan of the service will be retired in a month, on December 7 of this year.
“IBM把BigInsights for Hadoop牵到牧棚后面,只听一声枪响…”
这个是前不久英国知名媒体The Register对IBM 产品BigInsights产品下线的报道。
BigInsights 是IBM在Apache Hadoop上增加了不少IBM分析技术能力后形成的一个大数据分析产品。 在面临近乎2年的前途未
卜的窘境之后,IBM终于决定将其关闭。
无独有偶,前不久Gartner的一篇文章也指出 “70%以上的Hadoop部署未能天线的业务价值…”
Hadoop大数据是怎么了呢?
我们从DBMS数据库管理系统的角度,来剖析下常见产品的能力:RDBMS,MPP,Hadoop,NoSQL以及NewSQL。 这几类
产品对数据处理的能力各有什么样的特点?
2. 常见几种数据技术比较
我们首先试图对大数据这个被第一滥用的名词来统一一下概念。按照Gartner的说法,大数据具备以下几个特征(3个V):
Volume: 数据量够大
Velocity: 数据访问并发够高,够实时
Variety: 数据的类型多
从另一方面讲,大数据也是数据,对常规数据的管理离不开我们熟悉的ACID事务性来保证对数据操作时候的原子性,一致
性,隔离性和持久性。有了这个几个衡量标准以后,我们可以来对上述几个产品列表比较一下。
在这里根据4个维度给几种流行的数据库管理技术打分,以5分制为例,5分即最高分,表明具备最佳能力。1分为最低分,表
明相对而言能力最弱。其实最近已经有类似于TiDB或者CockroachDB的NewSQL产品出现,但是数据库软件是最为复杂的软
件之一, 因为它要满足各种应用的使用场景。如果历史是面镜子,那么最少还要3年左右这些NewSQL的表现才能被足够的评
测。所以这里我们暂时略过。
下面我们来解读一下各种数据库的得分原因。
3. 关系型数据库
RDBMS全称关系型数据库(Relational Database Management System)是历史最悠久的数据库类型。关系型数据库以
Oracle,SQLServer,MySQL,PostgreSQL等为代表,是我们最熟悉的数据库。特点是:
单机架构限制,处理数据量有限, 通常在小几个TB以下(得分2)
受事务之累,并发不高,但是通常是毫秒级响应(得分3)
严谨的关系模型,无法处理非结构化数据(得分1)
事务性强,无与伦比(得分5)
4. MPP 数仓