Hadoop入门：分布式计算框架与云计算应用

需积分: 10 149 浏览量更新于2024-07-24 收藏 294KB PDF 举报

Hadoop 入门文档深入介绍了Apache Hadoop这个强大的分布式计算框架。Hadoop的核心理念是利用廉价的硬件资源实现大规模数据处理，其架构主要包括一个Master节点和多个Slave节点。Master节点通常包含NameNode和JobTracker两个组件，NameNode负责管理文件系统的元数据，而JobTracker则负责协调和调度任务在Slave节点上执行。每个Slave节点通常同时具备DataNode和TaskTracker的功能，DataNode负责存储数据块，TaskTracker负责执行Map和Reduce任务，实现了数据和计算的分布式处理。分布式计算的设计原则是"Moving Computation is Cheaper than Moving Data"，即通过在数据存储地执行任务，而不是移动数据，降低通信开销，提高效率。在Hadoop中，任务被分解为更小的部分（Map任务和Reduce任务），并在各个Slave节点上并行处理，最终在Master节点汇总结果。作者岑文初在工作中意识到，随着大数据和云计算的发展，日志分析等大数据处理需求的增长，传统的单机处理模式已无法满足需求，需要引入分布式计算框架。他提到在服务集成平台项目中，日志分析成为了一个潜在的使用场景，Hadoop正是一个适合处理这类场景的工具。Hadoop的分布式特性允许用户提交任务到系统，而不必关心任务的具体执行细节，大大简化了数据处理流程。 Hadoop作为一个开源框架，已经在亚马逊、Facebook和Yahoo等大型企业中广泛应用。对于初学者而言，学习Hadoop意味着理解和掌握分布式文件系统、MapReduce编程模型、HDFS（Hadoop Distributed File System）和YARN（Yet Another Resource Negotiator）等核心概念，同时也要关注如何配置和优化Hadoop集群以适应不同的业务需求。 Hadoop入门文档为读者提供了一个从基础原理到实际应用的全面视角，帮助理解如何利用Hadoop进行分布式计算，解决大规模数据处理问题，并预见了其在未来云计算时代的重要地位。

最后再说一下 HDFS 的几个设计特点（对于框架设计值得借鉴）：

1. Block 的放置：默认不配置。一个 Block 会有三份备份，一份放在 NameNode 指定

的 DataNode，另一份放在与指定 DataNode 非同一 Rack 上的 DataNode，最后一

份放在与指定 DataNode 同一 Rack 上的 DataNode 上。备份无非就是为了数据安

全，考虑同一 Rack 的失败情况以及不同 Rack 之间数据拷贝性能问题就采用这种配

置方式。

2. 心跳检测 DataNode 的健康状况，如果发现问题就采取数据备份的方式来保证数据

的安全性。

3. 数据复制（场景为 DataNode 失败、需要平衡 DataNode 的存储利用率和需要平衡

DataNode 数据交互压力等情况）：这里先说一下，使用 HDFS 的 balancer 命令，可

以配置一个 Threshold 来平衡每一个 DataNode 磁盘利用率。例如设置了 Threshol

d 为 10%，那么执行 balancer 命令的时候，首先统计所有 DataNode 的磁盘利用

率的均值，然后判断如果某一个 DataNode 的磁盘利用率超过这个均值 Threshold

以上，那么将会把这个 DataNode 的 block 转移到磁盘利用率低的 DataNode，这对

于新节点的加入来说十分有用。

4. 数据交验：采用 CRC32 作数据交验。在文件 Block 写入的时候除了写入数据还会写

入交验信息，在读取的时候需要交验后再读入。

5. NameNode 是单点：如果失败的话，任务处理信息将会纪录在本地文件系统和远端

的文件系统中。

6. 数据管道性的写入：当客户端要写入文件到 DataNode 上，首先客户端读取一个 B

lock 然后写到第一个 DataNode 上，然后由第一个 DataNode 传递到备份的 DataN

ode 上，一直到所有需要写入这个 Block 的 NataNode 都成功写入，客户端才会继续

开始写下一个 Block。

7. 安全模式：在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文

件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到

安全模式结束。安全模式主要是为了系统启动的时候检查各个 DataNode 上数据块

的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以

进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式

不允许修改的出错提示，只需要等待一会儿即可。

下面综合MapReduce 和 HDFS 来看 Hadoop 的结构：

剩余18页未读，继续阅读

水哥V5

粉丝: 0

Hadoop入门：分布式计算框架与云计算应用

Hadoop入门学习资料与赚钱项目解密

最新版Hadoop入门手册网络版：云技术入门指南

Hadoop入门实战手册详细中文版

hadoop 入门文档

hadoop入门介绍.pdf

hadoop入门指南.pdf

hadoop入门教程.pdf

hadoop入门实战手册.pdf

hadoop入门[归纳].pdf

分布式计算开源框架Hadoop入门实践.pdf

最新资源