探索HDFS：起源、架构与分布式文件系统的关键特性

40 浏览量更新于2024-08-28 收藏 480KB PDF 举报

分布式文件系统HDFS（Hadoop Distributed File System）起源于Google的GFS（Google File System）和Bigtable，它们是Google应对海量数据处理和分布式计算的关键组件。HDFS的设计初衷是为了支持大数据处理平台Hadoop，尤其是在处理大规模、高吞吐量的读写操作时。 HDFS的核心架构包括以下几个关键部分： 1. NameNode：作为全局命名空间的管理者，它负责维护文件系统的元数据，如文件路径和块的分布情况。NameNode是单点故障，因此通常会有心跳检测机制和备份策略来保障高可用性。 2. DataNodes：这些节点负责实际的数据存储，将文件划分为固定大小的块（默认64MB），并在集群中的不同节点上冗余存储。DataNodes之间通过RPC通信与NameNode保持同步。 3. Block Replication：为了提高数据的可靠性和容错性，HDFS通常会将每个数据块复制多份，放置在不同的DataNodes上。 4. Client：用户或应用程序通过Client与HDFS交互，发起文件操作，如读取、写入和删除。Client通过网络请求NameNode获取文件位置信息，然后与DataNodes通信完成操作。 HDFS的主要特性包括： - **高容错性**：通过数据块的复制策略，即使有部分DataNodes失效，数据仍能被恢复。 - **高吞吐量**：通过并行读写和大量DataNodes的分布式存储，支持大规模数据的高效传输。 - **可扩展性**：通过添加新的DataNodes，轻松地水平扩展存储能力。 - **容错性设计**：NameNode采用心跳检测机制和备份，DataNodes则有心跳和块报告机制，确保系统稳定。 - **延迟容忍**：虽然不是强一致性，但HDFS在某些场景下可以通过时间戳和版本控制实现弱一致性。在数据操作方面，HDFS支持常见的文件系统操作，如创建、读取、写入、删除和重命名文件。由于其设计特点，对于大量小文件的处理可能不如传统文件系统高效，但对于大文件和流式数据处理表现优异。关于分布式系统的一般问题和解决方案，CAP理论（Consistency, Availability, Partition Tolerance）是一个重要讨论点。在HDFS中，为了保证数据的一致性，可能需要牺牲部分实时性，即在面对网络分区时，可能会牺牲局部的一致性以保证全局的可用性。这需要根据具体应用场景权衡和选择合适的策略。总结来说，HDFS是分布式文件系统的一个典型代表，它在处理大数据挑战中发挥着关键作用。深入理解其起源、架构、特性和数据操作方式，对于从事大数据或云计算领域的技术人员来说至关重要。同时，掌握分布式系统的基本原理和CAP理论，有助于更好地设计和优化分布式应用。

分布式文件系统分布式文件系统HDFS的起源、架构、组成、特性以及数据操的起源、架构、组成、特性以及数据操

作方式作方式

hdfs全程是Hadoop Distributed File System，是一个分布式文件系统。

分布式

分布式是近几年非常火的技术概念，无论是云计算、大数据还是高并发的互联网架构话题都会频频出现这个词语，特别是这个

大谈“大规模”的时代，分布式貌似成了高大上技术的代名词。引的许多刚入行的技术人员趋之若鹜，其实世界上不会有凭空出

现的事物，都是慢慢演化的，新事物一定可以找到旧事物的影子。只要打好基础，抓住技术演进的主线，结合实践慢慢积累就

可以了。但是话又说回来，分布式系统确实在实现上难度上确实要高于一般的业务系统，门槛也要高一些。

那么我们就先看看“一般的”分布式系统需要解决那些问题、这些问题的通用解决方案和特性。限于篇幅，如要深入了解某个协

议和算法请参考相关文献。

1.定义

分布式系统会划分成多个子系统或模块，各自运行在不同的机器上，子系统或模块之间通过网络通信进行协作，实现最终的整

体功能。比如分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。利用多个

节点共同协作完成一项或多项具体业务功能的系统就是分布式系统。

举例：SolrCloud

A. 一个solrcloud集群通常有多台solr服务器

B. 每一个solr服务器节点负责存储整个索引库的若干个shard（数据分片）

C. 每一个shard又有多台服务器存放若干个副本互为主备用

D. 索引的建立和查询会在整个集群的各个节点上并发执行

E. SolrCloud集群作为整体对外服务，而其内部细节可对客户端透明

2.问题及方案

1）CAP的权衡

分布式领域有一个非常著名的CAP理论，是由 Eric Brewer 提出的分布式系统中最为重要的理论之一。其定义很好理解，CAP

三个字母分别代表了分布式系统中三个相互矛盾的属性。CAP分别代表Consistency、Availiablity、Tolerance to the partition

of network即一致性、可用性、网络分区容忍性。

一致性（Consistency）：在CAP理论中的一致性是强一致性，即每个节点上的数据时刻保持一致。

可用性（Availiablity）：是指分布式系统在出现异常情况的时候的可用度。

分区容忍性（Tolerance…）：是指分布式系统对网络分区的容错度。

CAP 理论指出：无法设计一种分布式协议，使得同时完全具备 CAP 三个属性，即该种协议下的副本始终是强一致性&服务始

终是可用的&协议可以容忍任何网络分区异常；分布式系统协议只能在 CAP 这三者间所有折中。

CAP折中的实现可以体现在分布式协议中：

a. Lease 机制牺牲了部分异常情况下的 A，从而获得了完全的 C 与很好的 P。

b. Quorum 机制，即总共有 N 个副本，成功更新 W 个副本则算成功提交，读取时读 R 个副本。这种一般的 Quorum 机制，

在 CAP 三大因素中都各做了折中，有一定的 C，有较好的 A，也有较好的 P，是一种较为平衡的分布式协议。

c. 两阶段提交系统具有完全的 C，很不好 A，很不好 P。

d. Paxos 协议具有完全的 C，较好的 A，较好的 P。

2）负载均衡

在某些有多个节点的分布式系统中需要对服务请求进行负载均衡，根据业务需求的不同也可以使用不同的负载均衡算法，例如

一致性Hash。

3）高并发

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38617436

粉丝: 12
资源: 945

探索HDFS：起源、架构与分布式文件系统的关键特性

Hadoop，HBase，Hive，HDFS视频，共44集(全套)

分布式系统与并行计算文献阅读综述

Pegasus：一个分布式KV系统的设计过程.pdf

头歌大数据从入门到实战 - 第2章 分布式文件系统hdfs

2.2分布式文件系统HDFS

分布式文件系统hdfs

hadoop—分布式文件系统hdfs

分布式文件系统HDFS

自建分布式文件系统hdfs

hadoop分布式文件系统hdfs

最新资源

头歌大数据从入门到实战 - 第2章分布式文件系统hdfs