探索Hadoop 1.0与2.0：HDFS、MapReduce与YARN深度解析

需积分: 11 181 浏览量更新于2024-07-17 收藏 1.64MB PPTX 举报

Hadoop是一个专为大数据处理而设计的开源框架，它最初由Google在2003年提出，并在2006年通过Apache基金会进行开源。Hadoop的核心组件主要包括Hadoop Distributed File System (HDFS)、MapReduce和YARN。 **HDFS（分布式文件存储）**是Hadoop的基础，由两个关键角色组成：NameNode和DataNode。NameNode作为元数据管理器，负责跟踪文件系统的命名空间、块分配和数据块的复制情况。DataNode则存储实际的数据块，提供高可靠性和高吞吐率的存储服务。HDFS的设计目标是能够处理PB级别的数据，它将大文件切分为等大小的数据块，分布在多台机器上，实现了数据的冗余存储和自动故障恢复，确保数据的一致性和高可用性。尽管HDFS强调大规模数据的存储和批处理，但它并不适合低延迟或频繁的文件操作，例如随机访问。 **MapReduce** 是Hadoop中的分布式计算模型，用于执行并行任务。其工作流程主要分为两个阶段：Map阶段和Reduce阶段。Map阶段将输入数据分成小块，进行局部处理，然后将中间结果发送给Reduce阶段，进行全局汇总。这种设计简化了编程模型，允许开发者编写简单的函数来处理数据，同时提供了高容错性和扩展性，适合处理海量数据的离线处理任务。 **YARN（Yet Another Resource Negotiator）** 是Hadoop 2.0引入的一个新的资源调度器，它替代了早期的JobTracker。YARN将资源管理职责分解为两部分：ResourceManager负责整体资源分配和监控，而NodeManager则负责单个节点上的资源管理和任务调度。这使得Hadoop更加灵活，适应不同的工作负载和计算需求。 Hadoop 2.0在HDFS方面做了改进，引入了Hadoop High Availability (HA)架构，增强了系统的稳定性和容错性。在MapReduce层面，虽然原始模型在处理大规模数据时表现出色，但随着技术发展，新的优化和框架（如Apache Spark）也在逐渐取代MapReduce，以提供更高效的数据处理能力。 Hadoop是一个强大的大数据处理平台，通过HDFS的分布式存储、MapReduce的并行计算和YARN的资源调度，解决了海量数据的存储、处理和管理问题。然而，它也存在一些局限性，比如不适合实时交互和低延迟应用，需要权衡吞吐量与延迟之间的平衡。随着技术进步，Hadoop不断进化以满足不断变化的大数据环境需求。

点媒一本地化移动广告第一平台

HDFS 的优点

HDFS 优点：



高容错性



数据自动保存多个副本



副本丢失后，自动恢复



适合批处理



移动计算而非数据



数据位置暴露给计算框架



适合大数据处理



GB 、 TB 、甚至 PB 级数据



百万规模以上的文件数量



10K+ 节点规模



流式文件访问



一次性写入，多次读取



保证数据一致性



可构建在廉价机器上



通过多副本提高可靠性



提供了容错和恢复机制

HDFS 缺点：



低延迟数据访问



比如毫秒级



低延迟与高吞吐率



不利于小文件存取



占用 NameNode 大量内存



寻道时间超过读取时间



不能并发写入、文件随机修

改



一个文件只能有一个写者



仅支持 append

剩余22页未读，继续阅读

未来囧图

粉丝: 5
资源: 44

探索Hadoop 1.0与2.0：HDFS、MapReduce与YARN深度解析

"优质大数据课程推荐：Hadoop入门数据分析实战

"优质大数据与云计算教程精选推荐

Hadoop入门教程：从MapReduce到生态系统

hadoop原理介绍ppt.pptx

Hadoop技术-Hadoop伪分布式安装.pptx

RDBMS到Hadoop的迁移方案.pptx

从零开始学Hadoop大数据分析.pptx

大数据运维技术第5章 Hadoop集群运行课件.pptx

64页大数据解决方案HiGraph+SQL on Hadoop汇报v2.0.pptx.zip

MapReduce 原理与实践.pptx

最新资源