如何挑选合适的大数据或如何挑选合适的大数据或Hadoop平台?平台?
今年,大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经
成为事实上的标准。IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决
定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。你有多种选择来安装Hadoop的一个版
本并实现大数据处理。本文讨论了不同的选择,并推荐了每种选择的适用场合。
Hadoop平台的多种选择
下图展示了Hadoop平台的多种选择。你可以只安装Apache 发布版本,或从不同提供商所提供的几个发行版本中选择一个,
或决定使用某个大数据套件。每个发行版本都包含有Apache Hadoop,而几乎每个大数据套件都包含或使用了一个发行版
本,理解这一点是很重要的。
下面我们首先从Apache Hadoop开始来好好看看每种选择。
Apache Hadoop
Apache Hadoop项目的目前版本(2.0版)含有以下模块:
1.Hadoop通用模块:支持其他Hadoop模块的通用工具集。
2.Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分布式文件系统。
3.Hadoop YARN:用于作业调度和集群资源管理的框架。
4.Hadoop MapReduce:基于YARN的大数据并行处理系统。
在本地系统上独立安装Apache Hadoop是非常容易的(只需解压缩并设置某些环境变量,然后就可以开始使用了)。但是这只合
适于入门和做一些基本的教程学习。
如果你想在一个或多个“真正的节点”上安装Apache Hadoop,那就复杂多了。
问题1:复杂的集群设置
你可以使用伪分布式模式在单个节点上模拟多节点的安装。你可以在单台服务器上模拟在多台不同服务器上的安装。就算是在
该模式下,你也要做大量的配置工作。如果你想设置一个由几个节点组成的集群,毫无疑问,该过程就变得更为复杂了。要是
你是一个新手管理员,那么你就不得不在用户权限、访问权限等诸如此类的问题中痛苦挣扎。
问题2: Hadoop生态系统的使用
在Apache中,所有项目之间都是相互独立的。这是很好的一点!不过Hadoop生态系统除了包含Hadoop外,还包含了很多其他
Apache项目:
1.Pig:分析大数据集的一个平台,该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。
2.Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,
特定查询以及分析存放在Hadoop兼容文件系统中的大数据。
3.Hbase:一种分布的、可伸缩的、大数据储存库,支持随机、实时读/写访问。
4.Sqoop:为高效传输批量数据而设计的一种工具,其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传
输。