Google GFS：大规模分布式文件系统设计与实现

5星 · 超过95%的资源需积分: 9 69 浏览量更新于2024-07-31 收藏 390KB DOC 举报

"Google GFS官方论文：分布式文件系统" Google 文件系统（GFS）是Google为满足大规模数据密集型应用需求而设计的一种可伸缩的分布式文件系统。该系统能够在经济实惠的普通硬件上运行，并提供灾难冗余功能，为大量并发的客户端提供高效服务。GFS的设计理念不仅借鉴了传统分布式文件系统的优点，还根据Google自身的应用负载和技术环境进行了独特的创新。 GFS的设计目标包括性能、可伸缩性、可靠性和可用性。由于Google的应用场景涉及海量数据，因此系统必须能够处理频繁的组件故障。GFS由数百甚至数千台服务器组成，这些服务器可能随时出现各种类型的故障，如硬件故障、软件错误或人为操作失误。为了应对这种高故障率，GFS内置了持续监控、错误检测、冗余备份和自动恢复机制。在文件系统接口方面，GFS进行了扩展，以适应分布式应用的需求。系统的核心是一个主服务器（Master），负责元数据管理，包括文件和块的映射关系，以及权限控制等。多个从属服务器（Chunckserver）存储实际的数据块，每个数据块通常被复制三次以确保容错能力。客户端可以直接与Chunkserver通信进行读写操作，但需要通过主服务器获取最新的元数据信息。 GFS在设计上强调简单性和效率，采用了一种称为“大块”（Large Block）的概念，通常每个数据块的大小为64MB，这样可以减少磁盘寻道时间和网络传输开销。此外，GFS还支持流式访问模式，适合大规模数据的顺序读写，这与传统的随机I/O操作相比，能显著提升性能。论文详细讨论了GFS在设计时所做出的权衡，如一致性模型、复制策略以及故障恢复机制。它采用的是最终一致性模型，即在故障发生后，系统会最终达到一致状态，而不是保证严格的实时同步。在复制策略上，GFS倾向于将副本分布在不同的物理机架上，以增加容错能力。在性能测试和实际生产环境中的表现方面，GFS展现了出色的扩展性和高吞吐量。它已被广泛应用于Google内部的各种服务和数据处理任务，支持数百TB的存储空间和大规模并发访问。尽管最初的设计和实现已经过去一段时间，但GFS的基本设计理念和架构对后来的分布式文件系统产生了深远影响，如Hadoop的HDFS便是受到了GFS的启发。 GFS是分布式计算领域的一个里程碑，它的设计思想和实践经验对于理解大规模数据处理的挑战以及如何构建可靠的分布式系统具有重要价值。

个 Chunk 副本的存放地点。所有的元数据都保存在 Master 服务器的内存中。前两种类型的元

数据（命名空间、文件和 Chunk 的对应关系）同时也会以记录变更日志的方式记录在操作系

统的系统日志文件中，日志文件存储在本地磁盘上，同时日志会被复制到其它的远程 Master

服务器上。采用保存变更日志的方式，我们能够简单可靠的更新 Master 服务器的状态，并且

不用担心 Master 服务器崩溃导致数据不一致的风险。Master 服务器不会持久保存 Chunk 位

置信息。Master 服务器在启动时，或者有新的 Chunk 服务器加入时，向各个 Chunk 服务器

轮询它们所存储的 Chunk 的信息。

2.6.1 内存中的数据结构

因为元数据保存在内存中，所以 Master 服务器的操作速度非常快。并且，Master 服务器可以

在后台简单而高效的周期性扫描自己保存的全部状态信息。这种周期性的状态扫描也用于实现

Chunk 垃圾收集、在 Chunk 服务器失效的时重新复制数据、通过 Chunk 的迁移实现跨

Chunk 服务器的负载均衡以及磁盘使用状况统计等功能。4.3 和 4.4 章节将深入讨论这些行为。

将元数据全部保存在内存中的方法有潜在问题：Chunk 的数量以及整个系统的承载能力都受限

于 Master 服务器所拥有的内存大小。但是在实际应用中，这并不是一个严重的问题。Master

服务器只需要不到 64 个字节的元数据就能够管理一个 64MB 的 Chunk。由于大多数文件都包

含多个 Chunk，因此绝大多数 Chunk 都是满的，除了文件的最后一个 Chunk 是部分填充的。

同样的，每个文件的在命名空间中的数据大小通常在 64 字节以下，因为保存的文件名是用前

缀压缩算法压缩过的。

即便是需要支持更大的文件系统，为 Master 服务器增加额外内存的费用是很少的，而通过增

加有限的费用，我们就能够把元数据全部保存在内存里，增强了系统的简洁性、可靠性、高性

能和灵活性。

2.6.2 Chunk 位置信息

Master 服务器并不保存持久化保存哪个 Chunk 服务器存有指定 Chunk 的副本的信息。

Master 服务器只是在启动的时候轮询 Chunk 服务器以获取这些信息。Master 服务器能够保

证它持有的信息始终是最新的，因为它控制了所有的 Chunk 位置的分配，而且通过周期性的

心跳信息监控 Chunk 服务器的状态。

最初设计时，我们试图把 Chunk 的位置信息持久的保存在 Master 服务器上，但是后来我们发

现在启动的时候轮询 Chunk 服务器，之后定期轮询更新的方式更简单。这种设计简化了在有

Chunk 服务器加入集群、离开集群、更名、失效、以及重启的时候，Master 服务器和 Chunk

服务器数据同步的问题。在一个拥有数百台服务器的集群中，这类事件会频繁的发生。

可以从另外一个角度去理解这个设计决策：只有 Chunk 服务器才能最终确定一个 Chunk 是否

在它的硬盘上。我们从没有考虑过在 Master 服务器上维护一个这些信息的全局视图，因为

Chunk 服务器的错误可能会导致 Chunk 自动消失(比如，硬盘损坏了或者无法访问了)，亦或

者操作人员可能会重命名一个 Chunk 服务器。

2.6.3 操作日志

操作日志包含了关键的元数据变更历史记录。这对 GFS 非常重要。这不仅仅是因为操作日志是

元数据唯一的持久化存储记录，它也作为判断同步操作顺序的逻辑时间基线（alex 注：也就

是通过逻辑日志的序号作为操作发生的逻辑时间，类似于事务系统中的 LSN）。文件和

Chunk，连同它们的版本(参考 4.5 节)，都由它们创建的逻辑时间唯一的、永久的标识。

操作日志非常重要，我们必须确保日志文件的完整，确保只有在元数据的变化被持久化后，日

志才对客户端是可见的。否则，即使 Chunk 本身没有出现任何问题，我们仍有可能丢失整个

文件系统，或者丢失客户端最近的操作。所以，我们会把日志复制到多台远程机器，并且只有

把相应的日志记录写入到本地以及远程机器的硬盘后，才会响应客户端的操作请求。Master

服务器会收集多个日志记录后批量处理，以减少写入磁盘和复制对系统整体性能的影响。

Master 服务器在灾难恢复时，通过重演操作日志把文件系统恢复到最近的状态。为了缩短

Master 启动的时间，我们必须使日志足够小（alex 注：即重演系统操作的日志量尽量的少）。

Master 服务器在日志增长到一定量时对系统状态做一次 Checkpoint(alex 注：Checkpoint

是一种行为，一种对数据库状态作一次快照的行为)，将所有的状态数据写入一个

Checkpoint 文件（alex 注：并删除之前的日志文件）。在灾难恢复的时候，Master 服务器

就通过从磁盘上读取这个 Checkpoint 文件，以及重演 Checkpoint 之后的有限个日志文件就

能够恢复系统。Checkpoint 文件以压缩 B-树形势的数据结构存储，可以直接映射到内存，在

用于命名空间查询时无需额外的解析。这大大提高了恢复速度，增强了可用性。

由于创建一个 Checkpoint 文件需要一定的时间，所以 Master 服务器的内部状态被组织为一

种格式，这种格式要确保在 Checkpoint 过程中不会阻塞正在进行的修改操作。Master 服务

器使用独立的线程切换到新的日志文件和创建新的 Checkpoint 文件。新的 Checkpoint 文件

包括切换前所有的修改。对于一个包含数百万个文件的集群，创建一个 Checkpoint 文件需要

1 分钟左右的时间。创建完成后，Checkpoint 文件会被写入在本地和远程的硬盘里。

Master 服务器恢复只需要最新的 Checkpoint 文件和后续的日志文件。旧的 Checkpoint 文

件和日志文件可以被删除，但是为了应对灾难性的故障（alex 注：catastrophes，数据备份

相关文档中经常会遇到这个词，表示一种超出预期范围的灾难性事件），我们通常会多保存一

些历史文件。Checkpoint 失败不会对正确性产生任何影响，因为恢复功能的代码可以检测并

跳过没有完成的 Checkpoint 文件。

2.7 一致性模型

GFS 支持一个宽松的一致性模型，这个模型能够很好的支撑我们的高度分布的应用，同时还保

持了相对简单且容易实现的优点。本节我们讨论 GFS 的一致性的保障机制，以及对应用程序

的意义。我们也着重描述了 GFS 如何管理这些一致性保障机制，但是实现的细节将在本论文的

其它部分讨论。

2.7.1 GFS 一致性保障机制

文件命名空间的修改（例如，文件创建）是原子性的。它们仅由 Master 节点的控制：命名空

间锁提供了原子性和正确性（4.1 章）的保障；Master 节点的操作日志定义了这些操作在全

局的顺序（2.6.3 章）。

数据修改后文件 region（alex 注：region 这个词用中文非常难以表达，我认为应该是修改操

作所涉及的文件中的某个范围）的状态取决于操作的类型、成功与否、以及是否同步修改。表

1 总结了各种操作的结果。如果所有客户端，无论从哪个副本读取，读到的数据都一样，那么

我们认为文件 region 是“一致的”；如果对文件的数据修改之后，region 是一致的，并且客户

端能够看到写入操作全部的内容，那么这个 region 是“已定义的”。当一个数据修改操作成功

执行，并且没有受到同时执行的其它写入操作的干扰，那么影响的 region 就是已定义的（隐

含了一致性）：所有的客户端都可以看到写入的内容。并行修改操作成功完成之后，region 处

于一致的、未定义的状态：所有的客户端看到同样的数据，但是无法读到任何一次写入操作写

入的数据。通常情况下，文件 region 内包含了来自多个修改操作的、混杂的数据片段。失败

的修改操作导致一个 region 处于不一致状态（同时也是未定义的）：不同的客户在不同的时

间会看到不同的数据。后面我们将描述应用如何区分已定义和未定义的 region。应用程序没

有必要再去细分未定义 region 的不同类型。

剩余25页未读，继续阅读

szh4295023

粉丝: 0

Google GFS：大规模分布式文件系统设计与实现

Google三大论文之分布式文件系统GFS中文完整版

分布式文件系统的一些论文

GFS分布式文件系统

GFS：Google分布式文件系统的数据完整性机制

GFS：Google分布式文件系统的锁机制与副本位置策略

分布式文件系统-GFS1

Google GFS中文论文：大规模分布式文件系统解析

GFS：高可用分布式文件系统

深入理解GFS：Google分布式存储系统设计原理解读

Google GFS：大规模分布式文件系统详解

最新资源