Hadoop2.x：从Google思想到大数据处理框架

需积分: 25 154 浏览量更新于2024-08-13 收藏 12.67MB PPT 举报

"Hadoop介绍-基础概念与发展历程" Hadoop是一个开源框架，主要设计用于处理和存储大规模数据。它的核心由两个主要组件组成：Hadoop Distributed File System (HDFS) 和 MapReduce。这个系统允许数据分布式存储在多台普通PC服务器上，通过并行处理来高效地处理大数据任务。 Hadoop的2.x版本是一个重要的里程碑，它带来了许多改进和增强，如YARN（Yet Another Resource Negotiator），使得Hadoop平台更加灵活和可扩展。YARN将资源管理和任务调度从MapReduce中分离出来，提高了系统的整体性能和资源利用率。 Hadoop的起源可以追溯到Doug Cutting创建的全文搜索库Lucene。随着对Google技术的深入研究，特别是Google的GFS（Google文件系统）和MapReduce，Doug Cutting和他的团队开始开发Nutch，这是一个基于Lucene的搜索引擎项目。Nutch的成功催生了Hadoop的诞生，因为它需要解决与Google相似的大数据存储和处理问题。当Yahoo! 招募Doug Cutting时，Nutch和Hadoop得到了进一步的发展。2005年，Hadoop作为Apache Lucene的一个子项目被引入，并在2006年独立成为Apache软件基金会的顶级项目。Hadoop这个名字来源于Cutting的儿子的一个玩具大象。 Hadoop的核心组件： 1. HDFS：Hadoop分布式文件系统，将大文件分割成多个数据块（默认大小为128MB或更小），并复制到集群中的多个节点上，以提高容错性和可用性。每个数据块都有一个元数据记录，包括文件系统命名空间信息和文件的Block信息，这些元数据存储在NameNode上，而DataNode负责存储实际的数据块。 2. MapReduce：这是一种编程模型，用于处理和生成大型数据集。它将复杂的计算任务拆分成两步——“Map”阶段（数据分区和本地处理）和“Reduce”阶段（汇总结果）。MapReduce使得开发者能够编写并行处理任务，充分利用集群的计算能力。 Hadoop在大数据领域的应用广泛，包括数据分析、日志处理、推荐系统、机器学习等。随着时间的推移，Hadoop生态系统不断发展壮大，涵盖了诸如Hive（数据仓库工具）、Pig（高级数据处理语言）、Spark（快速数据处理引擎）等众多项目，共同构建了一个强大的大数据处理平台。如今，Hadoop已经成为大数据处理的标准工具之一，被全球各大公司广泛采用。

条之

粉丝: 27
资源: 2万+

Hadoop2.x：从Google思想到大数据处理框架

spark--bin-hadoop3-without-hive.tgz

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

spark-3.1.2-bin-hadoop3.2.tgz

大数据技术之-03-Hadoop学习-Hadoop运行模式及常见错误及解决方案.docx

第一步-hadoop-hadoop-2.7.3在centos7上部署安装（单机版）.zip

学习笔记(01):Hadoop大数据从入门到精通-Hadoop的介绍及基本概念

hadoop - hadoop tutorial

大数据工作者--Hadoop进阶版hadoop创建

计算机专业基础理论电子书合集10----hadoop

Trabajo-Distr-hadoop:使用Hadoop

最新资源