Hadoop 2.x:从起源到现状——数据存储与分布式计算技术详解
需积分: 25 99 浏览量
更新于2024-08-13
收藏 12.67MB PPT 举报
Hadoop是一个开源的大数据处理框架,由Doug Cutting在2003-2004年间为解决Lucene项目中大规模数据检索的问题而发展起来。它的起源可以追溯到Lucene,这是一个由Doug Cutting创建的Java编写的全文搜索库,旨在提供易于使用的工具来支持全文检索。Lucene起初是一个个人项目,后来成为Apache Jakarta下的子项目。
Hadoop2.x版本是对Hadoop技术的一次重大升级,它继承了Google的两个核心思想:Google File System (GFS) 和 MapReduce。GFS是一种分布式文件系统,解决了海量数据的存储问题,使得数据可以跨越多台普通PC服务器进行存储,并通过冗余设计提高数据的可用性和可靠性。MapReduce则是一种编程模型,允许开发者编写并运行在分布式计算环境中执行的并行任务,简化了大数据处理的复杂性。
在Google搜索引擎的基础上,Hadoop借鉴了其处理大规模数据和复杂计算的能力,特别是PageRank算法的并行计算。Hadoop的设计理念是利用廉价的硬件资源,如普通服务器,构建高度可扩展且容错的集群系统,同时通过全球多个数据中心的分布部署,降低了单一故障的影响。
2005年,Hadoop正式成为Apache基金会的一部分,随后的几年里,MapReduce和Nutch Distributed File System (NDFS)等组件被整合到Hadoop项目中,标志着Hadoop的成熟和标准化。Hadoop的名字源于Doug Cutting的儿子的玩具大象,这个亲切的名字反映了其分布式、可靠和强大的特性。
至今,Hadoop已经发展成为一个广泛应用于大数据处理、机器学习、流处理等领域的重要工具,不仅被许多大型企业如Yahoo!和Facebook采用,也成为了大数据学习和研究中的基础技术之一。随着技术的不断迭代,Hadoop生态也在持续扩大,包括Hadoop YARN、Hive、Pig、HBase等组件,共同构成了一个完整的大数据处理平台。
363 浏览量
509 浏览量
250 浏览量
265 浏览量
192 浏览量
267 浏览量
495 浏览量
574 浏览量
476 浏览量
辰可爱啊
- 粉丝: 18
- 资源: 2万+
最新资源
- 山西省乡镇级区划图 shp格式
- Bork File Encrypter-开源
- Chrome-臭氧:Arch Linuk PKGBUILD,用于通过臭氧支持维兰而建造Chrome
- learngit
- pro-vue-admin:基于ElementUI快速开发中后台系统的页面
- 简单的js滑动打分效果
- CSC611M-Gomoku
- 市场营销计划与管理
- icu4c-56_1-Win64-msvc10.zip
- 实现语音识别功能源码下载
- 055_××电信网络股份有限公司商业计划书(doc35).zip
- flat-web
- 确定文件类型
- Tromino:你能用一套 L 形 Trominoes 填满 4x4 棋盘吗???-matlab开发
- 长沙市场调查分析月报告
- STM32F429开发指南-寄存器版本(解压密码:abac).zip