Hadoop分布式文件系统：构架与设计解析

88 浏览量更新于2024-08-27 收藏 311KB PDF 举报

"Hadoop分布式文件系统的构架和设计" Hadoop分布式文件系统（HDFS）是一种高度可扩展的、容错性强的文件存储系统，它被设计用来在大量的普通硬件上运行，处理和存储海量数据。以下是HDFS的核心概念和设计原则： 1. **介绍**： HDFS是Apache Hadoop项目的一部分，它被设计成一个能够处理大规模数据的分布式文件系统。它的主要目标是提供高吞吐量的数据访问，适合大规模数据分析应用。 2. **假设和目标**： - **假设**：硬件故障是常态，因此系统必须具有自我修复能力。 - **目标**：提供高可用性和高容错性，以及对大数据集的高效访问。 3. **硬件失效**： HDFS通过数据副本来应对硬件故障，当一个节点失败时，其他副本可以接管其职责，确保服务的连续性。 4. **流模式数据访问**： HDFS优化了批量数据读写操作，而非随机小文件访问，适合大规模数据批处理任务。 5. **大数据集支持**：支持处理PB级别的数据，通过水平扩展节点数量来增加存储容量和处理能力。 6. **简单一致性模型**：强调计算向数据移动，而不是将大量数据移动到计算节点，降低了网络带宽需求。 7. **硬件和软件平台的可移植性**： HDFS能够在不同硬件和软件平台上运行，适应不同的数据中心环境。 8. **名字节点（NameNode）和数据节点（DataNodes）**： - **NameNode**负责管理文件系统的命名空间和文件的元数据。 - **DataNodes**存储实际的数据块，并处理数据的读写请求。 9. **文件系统名字空间**： NameNode维护着文件和目录的层次结构，确保文件系统的一致性。 10. **数据副本**：数据被分成多个数据块，并在多个DataNodes上保存多个副本，以提高可靠性。 11. **副本的存放**：初始的副本放置策略通常考虑网络拓扑和节点负载，以优化读取性能。 12. **副本选择**：读操作通常从最近或最空闲的DataNode读取，写操作则涉及到多个DataNode之间的数据同步。 13. **安全模式**：在系统启动时，NameNode进入安全模式，等待足够的DataNode报告其状态，以确保数据完整性。 14. **文件系统元数据的持久化**： NameNode定期将元数据保存到磁盘，防止数据丢失。 15. **通讯协议**： HDFS使用特定的协议进行节点间的通信，如心跳和BlockReport等。 16. **健壮性**：系统通过监控心跳、数据复制和错误检测来确保系统的稳定运行。 17. **数据磁盘故障、心跳和再复制**： DataNodes通过心跳机制向NameNode报告其状态，当发现数据丢失时，会自动启动再复制过程。 18. **群集的负载均衡**：定期进行数据块的重新分布以平衡集群中的负载。 19. **数据整合**：数据组织成固定大小的数据块，便于高效存储和检索。 20. **分段运输**：文件写入时，数据被分割成多个块并分别传输，提高了写入效率。 21. **管道式复制**：复制过程中，一个节点接收数据并同时将其转发到下一个节点，提高了复制速度。 22. **访问方式**：提供了命令行接口（DFSShell）、管理工具（DFSAdmin）和Web界面，方便用户和管理员操作。 23. **空间的回收**：当文件被删除时，其占用的空间会被逐步回收，而文件的undelete功能允许恢复意外删除的文件。 HDFS的设计使得它成为大数据分析的理想选择，如MapReduce和其他分布式计算框架。它通过在廉价硬件上构建大规模存储集群，实现了对海量数据的有效管理和处理。

Simple Coherency Model

简单的一致性模型简单的一致性模型

HDFS applications need a write-once-read-many access model for files. A file once created, written, and closed need not be

changed. This assumption simplifies data coherency issues and enables high throughput data access. A MapReduce

application or a web crawler application fits perfectly with this model. There is a plan to support appending-writes to files in

the future.

HDFS应用程序写一次读多次的文件访问模型. 文件一点别建立、写入、关闭，将不能被改变了. 这个假定简化了文件一致性的

术语，能够提高数据访问的吞吐量. 一个MapReduce应用程序或网络爬虫应用程序非常的适合这种模型. 我们有个一个计划，

在未来添加支持追加写入的功能.

“Moving Computation is Cheaper than Moving Data”

“移动计算方法比移动数据便宜移动计算方法比移动数据便宜”

A computation requested by an application is much more efficient if it is executed near the data it operates on. This is

especially true when the size of the data set is huge. This minimizes network congestion and increases the overall

throughput of the system. The assumption is that it is often better to migrate the computation closer to where the data is

located rather than moving the data to where the application is running. HDFS provides interfaces for applications to move

themselves closer to where the data is located.

应用的一个计算请求假如在离数据更近的地方计算将会更有效率. 这样在数据十分巨大的时候更加明显. 这样可以最小化网络阻

塞和增加整个系统的吞吐量. 有个设想是，经常移动程序到他计算的数据附近，而不是经常移动数据到他相关的应用程序附近.

HDFS为应用提供一个接口，方面他们（程序）移动自己到离他们数据更近的地方.

Portability Across Heterogeneous Hardware and Software Platforms

跨不同硬件和软件平台的和移植性跨不同硬件和软件平台的和移植性

HDFS has been designed to be easily portable from one platform to another. This facilitates widespread adoption of HDFS

as a platform of choice for a large set of applications.

HDFS被设计为可以方便的从一个平台移植到另外一个平台. 这样有助于HDFS被大量的应用采纳.

Namenode and Datanodes

名字节点和数据节点名字节点和数据节点

HDFS has a master/slave architecture. An HDFS cluster consists of a single Namenode , a master server that manages the

file system namespace and regulates access to files by clients. In addition, there are a number of Datanodes , usually one

per node in the cluster, which manage storage attached to the nodes that they run on. HDFS exposes a file system

namespace and allows user data to be stored in files. Internally, a file is split into one or more blocks and these blocks are

stored in a set of Datanodes. The Namenode executes file system namespace operations like opening, closing, and

renaming files and directories. It also determines the mapping of blocks to Datanodes. The Datanodes are responsible for

serving read and write requests from the file system’s clients. The Datanodes also perform block creation, deletion, and

replication upon instruction from the Namenode.

HDFS是一个主从构架. 一个HDFS群集有单个

名字节点

组成, 一个主服务器管理文件系统的名字空间和调节客户端对文件的访

问. 另外, 存在一些

数据节点

, 一般来说每一个在群集中的节点管理它运行所在机器的存储（磁盘）. HDFS 暴露一个文件系统

命名空间以及允许用户数据被存在文件中. 在内部, 一个文件被分为一个或多个快，这些块被存在一系列的数据节点上. 名字节

点管理文件系统的操作，例如，打开文件、关闭文件、文件改名、目录维护。它也决定数据块到数据节点的映射. 数据节点的

责任是满足客户程序的读写请求。数据节点执行来自于名字节点的建立、删除、复制指令.

剩余11页未读，继续阅读

weixin_38678773

粉丝: 4
资源: 963

Hadoop分布式文件系统：构架与设计解析

Hadoop分布式文件系统的构架和设计(原创翻译 70%)

分布式文件系统与传统文件系统的比较研究.pdf

Hadoop分布式文件系统：构架与设计解析

一种基于Hadoop分布式气瓶管理系统设计研究.pdf

中小规模分布式文件系统集群构架的优化方案.pdf

"Google和Hadoop MapReduce基础构架及分布式系统原理简介

Hadoop云计算框架中的分布式数据库HBase研究.pdf

毕业设计，基于hadoop的云盘系统，技术选型springboot+mysql+layui+hdfs+hbase.zip

基于Hadoop的游戏数据分析系统设计及源码教程

简述hadoop和spark大数据平台的基本构架和工作原理

最新资源