Hadoop2.x:从Google思想到大数据处理框架

需积分: 25 33 下载量 154 浏览量 更新于2024-08-13 收藏 12.67MB PPT 举报
"Hadoop介绍-基础概念与发展历程" Hadoop是一个开源框架,主要设计用于处理和存储大规模数据。它的核心由两个主要组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。这个系统允许数据分布式存储在多台普通PC服务器上,通过并行处理来高效地处理大数据任务。 Hadoop的2.x版本是一个重要的里程碑,它带来了许多改进和增强,如YARN(Yet Another Resource Negotiator),使得Hadoop平台更加灵活和可扩展。YARN将资源管理和任务调度从MapReduce中分离出来,提高了系统的整体性能和资源利用率。 Hadoop的起源可以追溯到Doug Cutting创建的全文搜索库Lucene。随着对Google技术的深入研究,特别是Google的GFS(Google文件系统)和MapReduce,Doug Cutting和他的团队开始开发Nutch,这是一个基于Lucene的搜索引擎项目。Nutch的成功催生了Hadoop的诞生,因为它需要解决与Google相似的大数据存储和处理问题。 当Yahoo! 招募Doug Cutting时,Nutch和Hadoop得到了进一步的发展。2005年,Hadoop作为Apache Lucene的一个子项目被引入,并在2006年独立成为Apache软件基金会的顶级项目。Hadoop这个名字来源于Cutting的儿子的一个玩具大象。 Hadoop的核心组件: 1. HDFS:Hadoop分布式文件系统,将大文件分割成多个数据块(默认大小为128MB或更小),并复制到集群中的多个节点上,以提高容错性和可用性。每个数据块都有一个元数据记录,包括文件系统命名空间信息和文件的Block信息,这些元数据存储在NameNode上,而DataNode负责存储实际的数据块。 2. MapReduce:这是一种编程模型,用于处理和生成大型数据集。它将复杂的计算任务拆分成两步——“Map”阶段(数据分区和本地处理)和“Reduce”阶段(汇总结果)。MapReduce使得开发者能够编写并行处理任务,充分利用集群的计算能力。 Hadoop在大数据领域的应用广泛,包括数据分析、日志处理、推荐系统、机器学习等。随着时间的推移,Hadoop生态系统不断发展壮大,涵盖了诸如Hive(数据仓库工具)、Pig(高级数据处理语言)、Spark(快速数据处理引擎)等众多项目,共同构建了一个强大的大数据处理平台。如今,Hadoop已经成为大数据处理的标准工具之一,被全球各大公司广泛采用。