Hadoop 2.x:从GFS到MapReduce,揭秘RPC与NIO在分布式计算的核心应用

需积分: 25 33 下载量 88 浏览量 更新于2024-08-13 收藏 12.67MB PPT 举报
Hadoop是一个开源的大数据处理框架,起源于Google的分布式计算理念和技术。Hadoop2.x版本是对Hadoop技术的一次全面升级,它解决了Google所面临的大规模数据存储和处理难题,如网页抓取、存储(GFS)、搜索算法以及PageRank计算等。 Hadoop的核心思想在于利用廉价的PC服务器组建高可用的集群,通过Google提出的分布式文件系统(GFS)和MapReduce模型来处理海量数据。GFS将数据分散在多台服务器上,实现了数据的高效存储和访问,而MapReduce则负责将复杂的计算任务分解为一系列小任务,分布在集群的不同节点上并行执行,最后汇总结果。 Lucene是Hadoop的重要源头,由Doug Cutting开发,最初是为了实现类似Google的全文搜索功能。它提供了一套简单易用的工具包,帮助开发者快速构建全文检索系统。随着数据量的增长,Lucene面临与Google相似的挑战,促使Cutting借鉴了GFS和MapReduce的设计,最终催生了Hadoop。 Hadoop的发展历程可以追溯到2003-2004年,当时Google公开了部分技术细节,Cutting等人在此基础上开发了分布式文件系统(DFS)和MapReduce。随后,Nutch项目,特别是其中的DFS和MapReduce技术,被整合进Hadoop,Yahoo对Hadoop表示出了兴趣,并接纳了它。Hadoop于2005年秋季正式成为Apache基金会的一部分,随着时间的推移,MapReduce和NDFS成为了Hadoop的核心组件。 Hadoop的名字来源于Doug Cutting的儿子的玩具大象,这一命名体现了其简洁、实用和易于部署的特点。如今,Hadoop已经成为大数据处理的事实标准,被广泛应用于各种场景,如日志分析、社交网络挖掘、在线广告优化等,其高度不仅体现在技术实现上,更体现在它在业界的广泛应用和影响力。通过Hadoop,企业能够处理PB级别的数据,实现大数据时代的高效分析和决策支持。