没有合适的资源?快使用搜索试试~ 我知道了~
首页Hadoop各个组件大概介绍
资源详情
资源评论
资源推荐
目录
1. Hadoop....................................................................................................................................... 1
1.1 HDFS 架构(Hadoop 分布式文件系统).........................................................................2
1.2 MapReduce(分布式计算框架)....................................................................................3
1.3 Yarn(资源管理系统)......................................................................................................... 4
1.4 Yarn 框架相对于老的 MapReduce 框架优势:..............................................................5
2 Scala(函数式面向对象语言)...................................................................................................... 5
3 Spark........................................................................................................................................... 6
3.1 Spark 简单介绍................................................................................................................. 6
3.2 Spark 与 hadoop 区别...................................................................................................... 7
4 Hive(基于 Hadoop 的数据仓库)............................................................................................ 8
5 Hbase(分布式列存数据库)................................................................................................... 9
6 Zookeeper(分布式协作服务).............................................................................................. 10
7 Hcatalog.................................................................................................................................... 11
8 Sqoop(数据同步工具)......................................................................................................... 11
9 Pig(基于 Hadoop 的数据流系统)........................................................................................ 12
10 Mahout(数据挖掘算法库)................................................................................................ 13
11 Ambari.................................................................................................................................... 14
12 Cassandra------------非关系数据库........................................................................................... 15
13 Avro(数据序列化的系统).................................................................................................. 16
14 Chukwa(数据收集系统)..................................................................................................... 16
15 Tez............................................................................................................................................ 18
16 Oozie........................................................................................................................................ 22
17 Flume(日志收集工具)........................................................................................................ 22
18 Maven(项目管理工具)............................................................................................................ 23
第 1 页 共 25 页
Hadoop 生态系统介绍
1. Hadoop
是一个能够对大量数据进行分布式处理的软件框架。
具有可靠、高效、可伸缩的特点。
的核心是 和 , 还包括 。
下图为 的生态系统:
第 2 页 共 25 页
1.1HDFS 架构(Hadoop 分布式文件系统)
分 布 式 文 件 系 统 被 设 计 成 适 合 运 行 在 通 用 硬 件
上的分布式文件系统。它和现有的分布式文件系
统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显
的。 是一个高度容错性的系统,适合部署在廉价的机器上。
能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
放宽了一部分 约束,来实现流式读取文件系统数据的目的。
在最开始是作为 搜索引擎项目的基础架构而开发的。
是 ! 项目的一部分。
第 3 页 共 25 页
1.2MapReduce(分布式计算框架)
是 "#$ 提出的一个软件架构,用于大规模数据集(大于
%&')的并行运算。
概念((映射)(和((规约)(,和它们的主要思想,都是从函
数式编程语言里借来的,还有从矢量编程语言里借来的特性。
极大地方便了编程人员在不会分布式并行编程的情况下,将
自己的程序运行在分布式系统上。
当前的软件实现是指定一个 (映射)函数,用来把一组键值对映射成
一组新的键值对,指定并发的 (规约)函数,用来保证所有映射
的键值对中的每一个共享相同的键组。
从 )*版本开始,*的 *框架完全重构,发生了根
本的变化。新的 **框架命名为 +*或者
叫 ,,其架构图如下图所示:
并不是下一代 (-),下一代 与第
一代 (-%)在编程接口、数据处理引擎(&./ 和
&./)是完全一样的, 可认为 - 重用了 -% 的这些模块,
不同的是资源管理和作业管理系统,-% 中资源管理和作业管理均是由
01&/ 实现的,集两个功能于一身,而在 - 中,将这两部分分开
了, 其中,作业管理由 $,. 实现,而资源管理由新增系
统 完成,由于 具有通用性,因此 也可以作为其他计算
框架的资源管理系统,不仅限于 ,也是其他计算框架,比如
/、 等, 通常而言,我们一般将运行在 上的计算框架称
第 4 页 共 25 页
为 “ * , * 2 , 比 如 “ * , * 23 * (/ * ,
(,“*,*2等,
1.3Yarn(资源管理系统)
***(*,*.*#,另一种
资源协调者)是一种新的 *资源管理器,它是一个通用资源管理系
统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、
资源统一管理和数据共享等方面带来了巨大好处。
最初是为了修复 实现里的明显不足,并对可伸缩性
(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了
提升。
实现这些需求的方式是,把 01*&/ 的两个主要功能(资源管理
和作业 调度 4监 控 )分 成了 两 个独 立的 服 务程 序— —全 局的 资 源管 理
()和针对每个应用的应用 .(),这里说的应用要么是传统
意义上的 任务,要么是任务的有向无环图(")。
从某种那个意义上来说应该算做是一个云操作系统,它负责集群的
资源管理。
在操作系统之上可以开发各类的应用程序,例如批处理 、流
式 作 业 以 及 实 时 型 服 务 等 。 这 些 应 用 可 以 同 时 利 用
集群的计算能力和丰富的数据存储模型,共享同一个 *集
群和驻留在集群上的数据。此外,这些新的框架还可以利用 的资源
管理器,提供新的应用管理器实现。
已经支持两种计算框架:&5 和
剩余23页未读,继续阅读
syblogs
- 粉丝: 535
- 资源: 26
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0