迁移至Hadoop：大数据挑战与RDBMS的局限

需积分: 9 43 浏览量更新于2024-07-23 收藏 38KB DOCX 举报

在探讨浪潮Hadoop的相关知识点时，首先要理解为什么可能需要从关系型数据库（RDBMS）转向非关系型数据库，如HBase。自1970年代以来，RDBMS以其可靠性和结构化数据管理能力，为众多企业提供了强大的支持。然而，随着大数据时代的到来，RDBMS在处理大规模、非结构化或半结构化数据以及实时查询方面逐渐显得力不从心。 Google和Amazon等公司观察到大数据所带来的价值，它们推动了包括Hadoop和MapReduce在内的技术发展，以应对数据量急剧增长的需求。Hadoop分布式文件系统（HDFS）能够存储大量非结构化数据，并且设计灵活，允许数据分类随时调整，只需更新分析算法即可。它作为现有数据系统的补充，提供了大规模数据存储的池，支持批量处理和流式访问，但同时需要解决随机访问性能的问题，与传统的数据库系统相比，Hadoop更适合批处理而非频繁的随机查询。 HBase是Hadoop生态系统中的一个重要组件，它是一种NoSQL数据库，尤其适用于BigTable式的列族存储模型。与RDBMS的行存储（Row-Oriented）不同，HBase采用列存储（Column-Oriented）方式，将数据按照列分组并连续存储，这一设计假设查询通常只针对部分列，而非整个行，从而减少了磁盘I/O。此外，列存储的优势还体现在列值的相似性使得压缩更为有效，因为列的变化相对较小，许多压缩算法在这种结构中表现更佳。这种列存储技术，如Column-Oriented Database（COD），挑战了传统的Codd 12条规则，这些规则强调了关系型数据库的固定结构。随着技术的发展，如列数据库和MPP（大规模并行处理）数据库，人们开始重新审视数据处理的方法，寻找更加灵活和高效的方式来适应大数据时代的需求。总结起来，迁移至Hadoop（包括HBase）的主要原因在于大数据处理的需求与RDBMS在特定场景下的局限性。Hadoop提供了一种适应海量非结构化数据的解决方案，通过列存储的优势改进了数据存储和分析性能，尽管这要求用户在某些情况下调整他们的查询习惯和思维方式。随着技术的进步，Hadoop和其相关的列存储模型将继续在现代IT环境中扮演重要角色。

假设你要建设这样的系统，有数千用户的要求要处理，申请一个合

理的预算，合理的方法是使用 LAMP，linux ， apache，mysql ，php

来实现商业的原型。

关系型数据库格式化了数据到一个 user 表，表的列是例如：

url ,shortusrl ,click 等然后用 shor3d 做外键，也有索引来访问需要查

找的 url ，或者是通过 username 来查找。

如果你想找到特定客户的短 url 列表，就要使用 join sql 通过这些相

关表来获得记录，而且不光是获得短 url，还要获得所需要的特定

客户的细节信息.

还有，你还可以使用数据库的内建的特性：例如，使用存储过程

来持久更新多客户的数据。数据库会保证这些数据都是连续存放在

表里面的。

事务：

使得在一个原子操作里面更新多张表的数据，可以让所有的

修改要么全部是可见的或者全部是不可见的（避免脏读/幻影读/

不可重复读等）. RDBMS 保证你数据是强一致性的。参照完整性强

制表的关系。这样你可以执行复杂的 sql 在多表见。你不必关心数

据是如何保存的，只需要关心表的 schema ，定义固定的层次，

应用程序可以访问。

这就是工作的很好的，而且服务的很好。如果幸运，你可以成为

internet 上下一个热门话题。然后用户数增加，开始在共享数据

剩余17页未读，继续阅读

yu1243680103

粉丝: 2
资源: 19

迁移至Hadoop：大数据挑战与RDBMS的局限

浪潮Hadoop发行版介绍

浪潮Hadoop资料

浪潮Hadoop发行版：大数据处理与分布式计算详解

大数据技术概览：从信息技术浪潮到Hadoop应用

Hadoop-2.4.1

hadoop面试题大全

Hadoop生态圈总体介绍

Hadoop大数据概述.docx

基于Hadoop的视频内容分析

Hadoop的背景及应用现状分析

最新资源