Hadoop入门：分布式计算框架实践与理解

需积分: 10 87 浏览量更新于2024-07-26 收藏 294KB PDF 举报

"分布式计算开源框架Hadoop的入门实践，作者岑文初，主要涉及阿里软件开发平台服务框架和服务集成平台的设计。文章介绍了Hadoop作为分布式计算的核心框架，包括MapReduce和HDFS两个主要组件。MapReduce是任务分解与结果汇总的思想，用于大数据处理；HDFS是分布式文件系统，为分布式计算提供存储支持。文章讨论了分布式计算在海量数据分析中的重要性，以及Hadoop在亚马逊、Facebook和Yahoo等大型网站的应用。作者通过自己的学习过程分享对Hadoop的理解，适用于日志分析和索引建立等场景。" Hadoop是一个由Apache开源社区维护的分布式计算框架，它允许开发者处理和存储海量数据。这个框架的设计灵感来源于Google的两篇著名论文，即MapReduce和Bigtable。Hadoop的核心由两个关键组件构成： 1. **Hadoop分布式文件系统（HDFS）**：HDFS是一个高容错性的文件系统，旨在在普通硬件上运行，并提供高度可靠的数据存储。它将大文件分布在多台服务器上，确保即使部分节点故障，数据也能被安全地恢复和访问。HDFS的特性包括数据复制、块级存储和自动故障恢复。 2. **MapReduce**：MapReduce是一种编程模型，用于大规模数据集的并行计算。它将大型数据集分割成小块，然后在多台机器上并行处理这些块，最后将所有结果汇总。Map阶段负责数据的分解和处理，Reduce阶段负责结果的聚合。这种模型使得开发者可以专注于业务逻辑，而不必关心底层的分布式细节。在实际应用中，Hadoop广泛应用于日志分析、搜索引擎索引构建、推荐系统、社交网络分析等领域。对于处理PB级别的数据，Hadoop提供了一种经济高效的方式。通过Hadoop，企业可以处理海量数据，挖掘其中的潜在价值，推动业务决策和创新。在服务集成平台（SIP）这样的项目中，Hadoop可以帮助分析大量日志，提供实时或近实时的洞察。尽管作者提到在早期的日志分析中使用了Memcache和MySQL，但面对未来的海量数据，分布式计算框架如Hadoop将是更合适的选择。它能够自动调度任务，优化资源分配，使计算任务在集群中高效运行。 Hadoop的学习和实践是一个持续的过程，涉及到配置、优化、容错管理等多个方面。通过不断学习和实验，开发者可以更好地理解和利用Hadoop解决实际问题。作者强调，尽管在学习过程中可能会遇到错误，但分享和交流可以促进共同进步。因此，对于那些对分布式计算和大数据处理感兴趣的人来说，Hadoop是一个值得深入研究的工具。

最后再说一下 HDFS 的几个设计特点（对于框架设计值得借鉴）：

1. Block 的放置：默认不配置。一个 Block 会有三份备份，一份放在 NameNode 指定

的 DataNode，另一份放在与指定 DataNode 非同一 Rack 上的 DataNode，最后一

份放在与指定 DataNode 同一 Rack 上的 DataNode 上。备份无非就是为了数据安

全，考虑同一 Rack 的失败情况以及不同 Rack 之间数据拷贝性能问题就采用这种配

置方式。

2. 心跳检测 DataNode 的健康状况，如果发现问题就采取数据备份的方式来保证数据

的安全性。

3. 数据复制（场景为 DataNode 失败、需要平衡 DataNode 的存储利用率和需要平衡

DataNode 数据交互压力等情况）：这里先说一下，使用 HDFS 的 balancer 命令，可

以配置一个 Threshold 来平衡每一个 DataNode 磁盘利用率。例如设置了 Threshol

d 为 10%，那么执行 balancer 命令的时候，首先统计所有 DataNode 的磁盘利用

率的均值，然后判断如果某一个 DataNode 的磁盘利用率超过这个均值 Threshold

以上，那么将会把这个 DataNode 的 block 转移到磁盘利用率低的 DataNode，这对

于新节点的加入来说十分有用。

4. 数据交验：采用 CRC32 作数据交验。在文件 Block 写入的时候除了写入数据还会写

入交验信息，在读取的时候需要交验后再读入。

5. NameNode 是单点：如果失败的话，任务处理信息将会纪录在本地文件系统和远端

的文件系统中。

6. 数据管道性的写入：当客户端要写入文件到 DataNode 上，首先客户端读取一个 B

lock 然后写到第一个 DataNode 上，然后由第一个 DataNode 传递到备份的 DataN

ode 上，一直到所有需要写入这个 Block 的 NataNode 都成功写入，客户端才会继续

开始写下一个 Block。

7. 安全模式：在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文

件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到

安全模式结束。安全模式主要是为了系统启动的时候检查各个 DataNode 上数据块

的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以

进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式

不允许修改的出错提示，只需要等待一会儿即可。

下面综合MapReduce 和 HDFS 来看 Hadoop 的结构：

剩余18页未读，继续阅读

FF031987

粉丝: 0
资源: 1

Hadoop入门：分布式计算框架实践与理解

Hadoop入门：分布式计算框架实践与探索

Hadoop入门：分布式计算框架实践与理解

Hadoop入门：分布式计算在日志分析中的实践

分布式计算开源框架Hadoop入门实践

分布式计算开源框架Hadoop入门实践.pdf

分布式计算开源框架Hadoop入门实践.docx

分布式计算开源框架hadoop入门实践 高清完整中文版PDF下载

Hadoop_入门实践

Hadoop分布式计算框架入门与实践探索

Hadoop分布式计算框架入门与实践指南

最新资源

分布式计算开源框架hadoop入门实践高清完整中文版PDF下载