没有合适的资源?快使用搜索试试~ 我知道了~
首页使用Ambari搭建Hadoop集群
资源详情
资源评论
资源推荐
Hadoop介绍
Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现
开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架
中最核心设计就是:MapReduce和HDFS。MapReduce提供了对数据的分布式计算,
HDFS提供了海量数据的分布式存储。
在Hadoop家族中,收入了20多个用于计算、分析、存储、监控、管理等组件和工具,这些
家族成员极大的丰富了Hadoop的各方面的功能。
Hadoop常见家族成员
下面简单的列举几个常见的组件:
ApacheHadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个
分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。
ApacheHive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件
映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发
专门的MapReduce应用,十分适合数据仓库的统计分析。
ApachePig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语
言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处
理的MapReduce运算。
ApacheHBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系
统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
ApacheSqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工
具,可以将一个关系型数据库(MySQL,Oracle,Postgres等)中的数据导进到
Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
ApacheZookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,
它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调
及其管理的难度,提供高性能的分布式服务
ApacheMahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。
Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
ApacheCassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook
开发,用于储存简单格式数据,集GoogleBigTable的数据模型与AmazonDynamo
的完全分布式的架构于一身
ApacheAvro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据
交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的
IPC机制
ApacheAmbari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监
控。
ApacheChukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它
可以将各种各样类型的数据收集成适合Hadoop处理的文件保存在HDFS中供
Hadoop进行各种MapReduce操作。
ApacheHama:是一个基于HDFS的BSP(BulkSynchronousParallel)并行计
算框架,Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
ApacheFlume:是一个分布的、可靠的、高可用的海量日志聚合的系统,可用
于日志数据收集,日志数据处理,日志数据传输。
ApacheGiraph:是一个可伸缩的分布式迭代图处理系统,基于Hadoop平台,
灵感来自BSP(bulksynchronousparallel)和Google的Pregel。
ApacheOozie:是一个工作流引擎服务器,用于管理和协调运行在Hadoop平台
上(HDFS、Pig和MapReduce)的任务。
ApacheCrunch:是基于Google的FlumeJava库编写的Java库,用于创建
MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚
合和排序记录等常见任务的模式库
ApacheWhirr:是一套运行于云服务的类库(包括Hadoop),可提供高度的互
补性。Whirr学支持AmazonEC2和Rackspace的服务。
ApacheBigtop:是一个对Hadoop及其周边生态进行打包,分发和测试的工
具。
ApacheHCatalog:是基于Hadoop的数据表和存储管理,实现中央的元数据和
模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。
ClouderaHue:是一个基于WEB的监控和管理系统,实现对HDFS,
MapReduce/YARN,HBase,Hive,Pig的web化操作和管理。
Ambari介绍
Ambari跟Hadoop等开源软件一样,也是ApacheSoftwareFoundation中的一个项
目,并且是顶级项目。目前最新的发布版本是2.6.0。Ambari是用来创建、管理、监视
Hadoop的集群,但是这里的Hadoop是广义,指的是Hadoop整个生态圈(例如
Hive,Hbase,Sqoop,Zookeeper等),而并不仅是特指Hadoop。用一句话来说,
Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。
Ambari提供了对Hadoop更加方便快捷的管理功能,主要包含:
通过一步一步的安装向导简化了集群供应。
预先配置好关键的运维指标(metrics),可以直接查看HadoopCore(HDFS
和MapReduce)及相关项目(如HBase、Hive和HCatalog)是否健康。
支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。
通过一个完整的RESTfulAPI把监控信息暴露出来,集成了现有的运维工具。
用户界面非常直观,用户可以轻松有效地查看信息并控制集群。
使用Ambari部署Hadoop集群
在使用Ambari安装部署Hadoop时,需要对下载镜像源,配置本地环境。
配置说明
主机:
node-1:192.168.10.11,配置:2C8G-30G,yum镜像源,数据库,java环境
node-2:192.168.10.12,配置:2C8G-30G,java环境
node-2:192.168.10.12,配置:2C8G-30G,java环境
软件包Hadoop软件镜像压缩包,Ambari镜像压缩包,版本2.6
配置本地yum源
1、在node-1上配置hadoop所有组件的yum源。安装httpd:
[root@node-1 ~]# yum install httpd -y
2、在官方下载镜像文件,此文件大概7G,可以使用p2p工具下载,其中包含两个repo文件
和4个压缩包:
剩余13页未读,继续阅读
悲催哥哥
- 粉丝: 5
- 资源: 63
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0