Google分布式文件系统设计与实现

需积分: 9 156 浏览量更新于2024-07-26 1 收藏 393KB PDF 举报

"Google File System 译文" 本文档是关于Google File System（GFS）的详细概述，由Sanjay Ghemawat, Howard Gobioff和Shun-Tak Leung三位Google工程师撰写。GFS是一个专为大规模分布式数据处理应用设计的可扩展分布式文件系统。该系统的核心理念是在普通、成本效益高的硬件基础上构建，同时提供高容错性和出色的聚合处理性能，以满足大量并发客户端的需求。 GFS的设计目标与传统分布式文件系统有共同之处，但根据Google特有的工作负载和技术环境进行了优化。考虑到当前和预期的工作需求，GFS在某些方面与传统文件系统的设计有所不同，因此需要对传统设计进行重新评估，并探索新的关键设计原则。这种文件系统能够满足Google对于存储的特定要求，被广泛应用于内部服务，处理大量数据生成和处理的应用，以及应对海量研发数据的需求。 GFS的实施规模宏大，最大的集群包含上千台计算机，每台计算机搭载多个硬盘，总存储容量达到数百TB。这些数据可以被数百个客户端并行访问，体现了其强大的并发处理能力。在论文中，作者深入讨论了GFS的架构、操作机制、容错策略、数据块的概念、客户端库、主服务器和块服务器的角色，以及如何通过这些组件协同工作来实现高效、可靠的分布式存储。 GFS的关键特性包括： 1. **大文件和大数据块**：GFS将文件分割成64MB的大数据块，便于在分布式环境中高效传输和存储。 2. **三副本策略**：为了保证容错性，每个数据块通常保存三个副本，分布在不同的机器上，确保数据的高可用性。 3. **主服务器**：负责元数据管理，如文件到数据块的映射，以及副本位置的维护，确保客户端可以快速定位数据。 4. **块服务器**：实际存储数据块，并负责与客户端交互，执行读写操作。 5. **客户端库**：在客户端应用程序和GFS之间提供接口，处理诸如数据块选择、重试、恢复等细节。 GFS的设计充分考虑了大规模分布式环境中的挑战，如网络延迟、硬件故障和数据一致性问题。通过这种设计，GFS成功地支撑了Google一系列大数据处理服务，成为了分布式计算领域的一个里程碑。

 第 5 页

2.5 chunk 块大小

chunk 的大小是一个设计的关键参数。我们选择这个大小为 64M，远远大于典型的文件系统的 block

大小。每一个 chunk 的实例（复制品）都是作为在 chunkserver 上的 Linux 文件格式存放的，并且只

有当需要的情况下才会增长。滞后分配空间的机制可以通过文件内部分段来避免空间浪费，对于这样

大的 chunksize 来说，（内部分段 fragment）这可能是一个最大的缺陷了。

选择一个很大的 chunk 大小提供了一些重要的好处。首先，它减少了客户端和 master 的交互，因为

在同一个 chunk 内的读写操作之需要客户端初始询问一次 master 关于 chunk 位置信息就可以了。这

个减少访问量对于我们的系统来说是很显著的，因为我们的应用大部分是顺序读写超大文件的。即使

是对小范围的随机读，客户端可以很容易 cache 一个好几个 TB 数据文件的所有的位置信息。其次，

由于是使用一个大的 chunk，客户端可以在一个 chunk 上完成更多的操作，它可以通过维持一个到

chunkserver 的 TCP 长连接来减少网络管理量。第三，它减少了元数据在 master 上的大小。这个使

得我们可以把元数据保存在内存，这样带来一些其他的好处，详细请见 2.6.1 节。

在另一方面，选择一个大型的 chunk，就算是采用滞后分配空间的模式，也有它的不好的地方。小型

文件包含较少树木的 chunk，也许只有一个 chunk。保存这些文件的 chunkserver 就会在大量客户端

访问的时候就会成为焦点。在实践中，焦点问题不太重要因为我们的应用大部分都是读取超大的文件，

顺序读取超多的 chunk 的文件的。

不过，随着 batch-queue 系统开始使用 GFS 系统的时候，焦点问题就显现出来了：一个可执行的程

序在 GFS 上保存成为一个单 chunk 的文件，并且在数百台机器上一起启动的时候就出现焦点问题。

只有两三个 chunkserver 保存这个可执行的文件，但是有好几百台机器一起请求加载这个文件导致系

统局部过载。我们通过把这样的执行文件保存份数增加，以及错开 batchqueue 系统的各 worker 启

动时间来解决这样的问题。一劳永逸的解决方法是让客户端能够互相读取数据，这样才是解决之道。

2.6 元数据

master 节点保存这样三个主要类型的数据：文件和 chunk 的 namespace

，文件到 chunks 的映射关

系，每一个 chunk 的副本的位置。所有的元数据都是保存在 master 的内存里的。头两个类型

（namepspaces 和文件到 chunk 的映射）同时也是由在 master 本地硬盘的记录所有变化信息的

operation log 来持久化保存的，这个记录也会在远端机器上保存副本。通过 log，在 master 宕机的时

候，我们可以简单，可靠的恢复 master 的状态。master 并不持久化保存 chunk 位置信息。相反，他

在启动地时候以及 chunkserver 加入集群的时候，向每一个 chunkserver 询问他的 chunk 信息。

2.6.1 内存数据结构

因为元数据都是在内存保存的，master 的操作很快。另外 master 也很容易定时后台扫描所有的内部

状态。定时内部状态扫描是用于实现 chunk 的垃圾回收机制，当 chunkserver 失效的时候重新复制，

以及为了负载均衡和磁盘空间均衡使用的目的做 chunkserver 之间的 chunk 镜像。4.3 和 4.4 节将讨

论这些操作的细节。

这种内存保存数据的方式有一个潜在的问题，就是说整个系统的 chunk 数量以及对应的系统容量是受

到 master 机器的内存限制的。这个在实际生产中并不是一个很重要的限制。master 为每 64Mchunk

分配的空间不到 64 个字节的元数据。大部分的 chunks 都是装满了的，因为大部分文件都是很大的，

包含很多个 chunk，只有文件的最后部分可能是有空间的。类似的，文件的名字空间通常对于每一个

文件来说要求少于 64 个字节，因为保存文件名的时候是使用前缀压缩的机制。

如果有需要支持到更大的文件系统，因为我们是采用内存保存元数据的方式，所以我们可以很简单，

可靠，高效，灵活的通过增加 master 机器的内存就可以了。

剩余24页未读，继续阅读

q353025805

粉丝: 0

Google分布式文件系统设计与实现

The Google File System中文版

Google File System Paper

Google File System中文完美版

Google File System、Lustre File System、Global File System三种分步式文件系统研究

Google File System

The Google File System中文翻译

谷歌分布式文件系统：Google File System详解

google file system

Google File System（GFS）

谷歌三驾马车中文版 google file system+mapreduce+bigtable中文版

最新资源