Google经典论文翻译：集群、GFS、MapReduce与NoSQL

需积分: 19 39 浏览量更新于2024-07-28 1 收藏 3.32MB PDF 举报

"这是一份集合了Google早期重要技术论文的中文翻译，包括Google的集群架构、分布式文件系统GFS、编程模型MapReduce、结构化数据存储系统BigTable、分布式锁服务系统Chubby以及分布式查询脚本语言Sawzall的相关内容。还包括一篇关于GFS的访谈录和一篇综述性文章SMAQ，涵盖了大规模数据处理的多个方面。译者phylips@bmy2011-7对原有的翻译进行了修订和完善，新增了对Chubby的翻译，并结合分布式系统的基础理论进行了深入解析。" **Google系列论文详解** 1. **Cluster**: 这篇论文揭示了Google的集群架构，展示了如何高效地管理和运行大规模的硬件基础设施，为Google搜索引擎提供支持。它描述了如何通过硬件冗余、软件优化和自动化管理来确保系统的高可用性和性能。 2. **GFS (Google File System)**: GFS是一个分布式文件系统，专为大规模数据处理而设计。它强调了容错性和可扩展性，允许快速访问和处理PB级别的数据。GFS的核心特性包括主服务器、块服务器和客户端，以及分块、复制和恢复策略。 3. **MapReduce**: MapReduce是一种编程模型，用于并行处理和生成大数据集。它由“Map”阶段（数据分区和并行处理）和“Reduce”阶段（结果聚合）组成，简化了编写处理大量数据的复杂程序。 4. **BigTable**: BigTable是建立在GFS之上的一种分布式数据库，用于存储半结构化和结构化数据。它支持高效的读写操作，适用于处理如网页索引、用户数据等实时查询需求。BigTable是NoSQL数据库的先驱之一。 5. **Chubby**: Chubby是一种分布式锁服务，它提供了强一致性保证，是许多Google服务的基础。Chubby利用了分布式系统理论，如租约机制和Paxos协议，确保在分布式环境中的一致性和可靠性。 6. **Sawzall**: Sawzall是基于MapReduce的分布式查询语言，用于分析大规模数据集。它扩展了传统的编程模型，使得数据分析更加便捷。 7. **GFS访谈录**: 这是Kirk McKusick与Sean Quinlan之间的对话，深入探讨了GFS的起源和演化，提供了对系统设计背后思路的洞察。 8. **SMAQ**: SMAQ是一篇综述性文章，不仅涵盖了Google的技术，还讨论了当时的其他NoSQL系统，为理解大规模数据存储、计算和查询提供了全面视角。这些论文对于理解Google的基础架构和技术理念至关重要，同时也是分布式计算和大数据处理领域的重要参考资料。通过译者的修订，读者能够更准确地理解和应用这些技术概念。

是问 master 它应该同哪个 chunkserver 联系。并且 client 会在一定的时间段内缓

存这些信息，直接与 chunksever 交互进行很多后续的操作。

根据图 1，我们解释一下一个简单的读操作的交互过程：首先，由于 chunk 的大

小固定，客户端就可以将应用程序中标识的文件名和 offset 转换为 chunk的 index。

然后给 master 发送一个包含文件名和 chunk index 的请求，master 返回相应的

chunk 的 handle 和所有备份的位置。客户端以文件名和 chunk index 为 key 将这

条信息进行缓存。

然后客户端给其中一个备份发送一个请求，通常是最近的那个。请求标识了 chunk

的 handle 以及在那个 chunk 内的字节边界。直到缓存信息过期或者重新打开文

件之前，对于相同 chunk 的后续读操作就不需要 client-master 的通信了。事实上，

客户端通常在一个请求中查询多个 chunk 的信息，master 也可以将这些被请求的

多个 chunk 的信息包裹在一块进行返回。通过使用这种特别的信息，没有增加额

外的花费就避免了未来 client-master 间的多次通信。

2.5 chunk 大小

chunk 大小是一个关键的设计参数。我们选择了 64MB，远远大于现有的文件系

统块。每个 chunk 的副本作为普通的 linux 文件存储在 chunkserver 上，只在需要

时才会进行扩展。惰性空间分配策略避免了因内部碎片造成的空间浪费，很可能

最大的碎片有像一个 chunk 那么大。

大的 chunk size 提供了几个重要的优势。首先，降低了 client 与 master 的交互需

求，因为在相同 chunk 上的读写只需要一个初始化请求就可以从 master 得到

chunk 的位置信息。这对于减少应用产生的负载是非常明显的，因为大部分应用

需要顺序的读写整个大文件。即使对于小的随机读取，客户端也可以很容易的缓

存一个几 TB 工作集的所有 chunk 的位置信息。其次，由于 chunk 很大，那么客

户端就很有可能在一个给定的 chunk 上执行更多的操作，这样可以将一个与

chunkserver 的 TCP 连接保持更长的时间，这就减少了网络开销。再者，降低了

存储在 master 上的元数据大小。这样就允许我们将元数据存放在内存中，反过

来就带来了我们将在 2.6.1 中讨论的其他优势。

另一方面，大的 chunk size，即使采用了 lazy 空间分配，也有它的缺点。小的文

件可能只有少数几个 chunk，或许只有一个。如果很多的 client 都需要访问这个

文件，这样那些存储了这些 chunk 的 chunkserver 就会变成热点。实际中，热点

还没有成为一个主要的考虑点因为我们的应用绝大部分都是在顺序读很大的多

chunk 文件。

然而，当 GFS 第一次使用在一个批处理队列系统时，热点确实出现了：一个可执

行文件作为只有一个 chunk 的文件写到 GFS，然后同时在数百台机器上开始执行。

存储了该可执行文件的那些 chunkserver 被数百个并发请求瞬间变成超载。我们

通过更高的备份级别存储这样的可执行文件以及减慢队列系统的应用程序启动

时间解决了这个问题。一个潜在的长远解决方案是在这种情况下，允许客户端从

其他客户端读取数据。

2.6 元数据

Master 存储了三个主要类型的元数据：文件和 chunk 名字空间，文件到 chunk

的映射信息，每个 chunk 的备份的位置。所有的元数据都保存在 master 的内存

中。前两种类型还通过将更新操作的日志保存在本地硬盘和备份在远程机器来保

持持久化。使用 log 允许我们简单可靠地更新 master 的状态，不用担心当 master

crash 时的不一致性。Master 并没有永久保存 chunk 的位置信息，而是在 master

启动或者某个 chunkserver 加入集群时，它会向每个 chunkserver 询问它的 chunks

信息。

2.6.1 内存数据结构

由于元数据存储在内存里，master 的操作是很快的。因此对于 master 来说，可

以简单有效地在后台对整个状态进行周期性扫描。这个周期性的扫描是用来实现

chunk 垃圾回收，chunkserver 出现失败时进行的重复制，以及为了平衡负载和磁

盘空间在 chunkserver 间的 chunk 迁移。4.3，4.4 将进一步讨论这些活动。

全内存策略存在的一个潜在限制就是 chunk 的数目，因此整个系统的容量取决于

master 有多少可用内存。实际中这不是一个很严重的限制。Master 为每个 64MB

的 chunk 维护少于 64byte 的数据。大部分的 chunk 是满的，因为大部分的文件

包含多个 chunk，只有最后一个 chunk 可能是未满的。类似的，每个文件名字空

间数据通常需要少于 64byte 因为文件名称存储时会使用前缀压缩算法进行压缩。

如果需要支持更大的文件系统，只需要往 master 里添加内存。这点开销与通过

将元数据存储到内存所得到简单性、可靠性、性能和灵活性相比，将是很小的一

笔花费。

2.6.2 chunk location

Master 并没有提供一个永久性的存储保存对于一个给定的 chunk 都是那些

chunkserver 保存了它的副本。它只是在启动时，简单地从 chunkserver 那里把这

些信息拉过来。Master 能够保证它自己是更新过的，因为是由它来控制 chunk

的放置，以及通过周期性的心跳信息来监控 chunkserver。

起初，我们尝试将 chunk 位置信息永久保存在 master，但是我们发现在启动时去

chunkserver 请求这些数据更简单。这样避免了当 chunkserver 在加入或者离开集

群，改名，失败，重启等待时需要的 master 与 chunkserver 间的同步。在一个数

百台机器的集群中，这样的事件太经常了。

理解这个设计决定的另一个方式是 chunkserver 对于自己有还是没有某个 chunk

具有最终的发言权。在 master 上维护一个这些信息一致性视图是没有意义的，

因为发生在 chunkserver 上的错误可能使得一些 chunk 突然间不见了(比如硬盘可

能会坏掉或者不可用)，一个操作可能将 chunkserver 重命名。

2.6.3 操作日志

操作日志包含了关键元数据改变的历史记录。它是 GFS 的核心。它不仅是元数据

的唯一一致性记录，而且它也定义了那些并发操作的逻辑上的时间表。文件和

chunk 的版本都是唯一和永恒地由它们创建时的逻辑时间来标识的。

因此操作日志是很关键的，我们必须可靠地保存它，在任何元数据变更被持久化

之前不应当被客户端看到。否则，我们将丢失整个文件系统或者最近的客户端操

作，即使 chunckserver 自己保存了它们。因此我们将它备份在多个远程机器上，

对于一个客户端操作只有当该操作对应的日志记录被刷新到本地和远程的磁盘

上时才会发出响应。Master 将几个操作日志捆在一块刷新，从而降低刷新和复

制对于整个系统吞吐率的影响。

Master 通过重新执行操作日志来恢复它的文件系统。为了最小化启动时间，我

们必须将日志保持在很小的规模。当日志增长超过一定的大小后，Master 给它

的状态设置检查点，它可以通过从本地磁盘加载最新的检查点进行恢复，然后重

新执行那些在该检查点之后的日志记录。检查点保存了一个压缩的类 B 树的结构，

不需要额外的解析就可以直接映射到内存用于名字空间查找。这大大提高了恢复

的速度和可用性。

因为建立一个检查点会花费一些时间，master 内部状态结构的设计使得一个新的

检查点可以不需要延时那些接受到的变化就可以被创建。Master 会启动一个新

的线程切换到一个新的日志文件然后创建新的检查点。这个新的检查点包含在切

换之前的所有变更。对于一个包含几百万文件的集群大概需要几分钟就可以完成。

结束后，它将会被写回本地和远程的磁盘。

恢复只需要最新的检查点和后来的日志文件。更老的检查点和日志文件可以自由

的删除，当然我们会保存一些来应对某些突发情况。在创建检查点的时候发生的

失败不会影响系统的正确性，因为恢复代码会检测和跳过不完全的检查点。

2.7 一致性模型

GFS 使用了一个放松的一致性模型不但很好的支持了我们的高度分布式的应用，

而且实现起来也相对简单高效。我们现在讨论 GFS 所提供的保证以及它们对应用

程序意味着什么。我们也会讲述 GFS 如何维护这些保证，但是会将具体的细节留

到其他论文里讲述。

2.7.1 GFS 提供的保证

文件名字空间的改变(比如文件创建)是原子性的。它们只由 master 进行处理：名

字空间锁用来保证原子性和正确性(4.1 节)。Master 的操作日志定义了这些操作

的全局性的顺序。

当数据变更后，文件区域的状态取决于变更的类型，变更是否成功以及是否是并

发进行的。表 1 是对变更结果的一个概述。

如果所有的客户端无论从哪个副本读取数据总是看到相同的数据，那么我们就说

文件区域是一致的(consistent)。如果文件数据变更后是一致的，同时客户端可以

看到它所有的变更，那么我们就说文件区是已定义的(defined)。当一个变更成功

后，且没有受到其他并发写者的影响，那么被影响的区域就是已定义的

(defined)(肯定是一致性的)：所有的客户端总是能看到该变更所写入的数据。并

发的成功的变更，会使区域进入未定义的状态但是还是一致的：所有的客户端可

以看到一致的数据，但是它可能无法看到所有的变更{！如果变更是针对相同的

数据写这样有的变更就会被新的变更所覆盖，这样用户就无法看到最先的变更了，

同时发生在跨 chunk 的操作会被拆分成两个操作，这样这个操作的一部分可能会

被其他操作覆盖，而另一部分则保留下来，如 3.1 节末尾所述}。通常它看到的是

多个变更组合后的结果。一个失败的变更会使区域进入非一致的状态(因此也是

未定义的状态)：不同的客户端在不同的访问中可能看到不同的数据。我们后面

会描述我们的应用程序如何区分已定义的(defined)区域和未定义的(undefined)区

域。应用程序不需要进一步区分未定义区域的各种不同类型。

数据变更可能是写或者记录 append。写操作会使数据在应用程序指定的偏移位

置写入。记录 append 操作会使数据原子性的 append，如果是并发性的话则至少

会被 append 一次{！应该是指每个 append 操作会至少执行一次，而不是说至少

有一个 append 操作会执行，比如多个 client 同时发起 append 操作，它们每个都

应该会至少 append 一次，而非至少有一个 client 成功 append}，但是偏移位置是

由 GFS 决定的(然而，通常的理解可能是在客户端想写入的那个文件的尾部)。偏

移位置会被返回给客户端，同时标记包含这条记录的那个已定义的(defined)文件

区域的起始位置。另外 GFS 可能会在它们之间插入一些 padding 或者记录的副本。

它们会占据那些被认为是不一致的区域，通常它们比用户数据小的多。

在一系列成功的变更之后，变更的文件区域被保证是已定义的(defined)，同时包

含了最后一次变更的数据写入。GFS 通过两种方式来实现这种结果 a.将这些变更

以相同的操作顺序应用在该 chunk 的所有的副本上，b.使用 chunk 的版本号来检

测那些可能由于它的 chunkserver 挂掉了而丢失了一些变更的陈旧副本。陈旧的

副本永远都不会参与变更或者返回给那些向 master 询问 chunk 位置的 client。它

们会优先参与垃圾回收。

因为客户端会缓存 chunk 的位置，在信息更新之前它们可能会读到陈旧的副本。

该时间窗口由缓存值的超时时间以及文件的下一次打开决定，它们会清除缓存中

该文件相关的所有 chunk 信息。此外，由于我们的大部分操作都是记录的 append，

因此一个陈旧副本通常会返回一个过早结束的 chunk 而不是过时的数据。当读取

者重试并与 master 联系时，它会立即得到当前的 chunk 位置。

在一个成功的变更发生很久之后，组件失败仍有可能破坏或者污染数据。GFS 通

过周期性的 master 和所有 chunkserver 间的握手找到那些失败的 chunkserver，同

时通过校验和(5.2 节)来检测数据的污染。一旦发现问题，会尽快地利用正确的

副本进行恢复(4.3 节)。只有一个块的所有副本在 GFS 做出反应之前全部丢失，

这个块丢失才是不可逆转的，而通常 GFS 的反应是在几分钟内的。即使在这种

情况下，块不可用，而不是被污染：应用程序会收到清晰的错误信息而不是被污

染的数据。

2.7.2 对于应用程序的影响

GFS 应用程序可以通过使用简单的技术来适应这种放松的一致性模型，这些技术

已经为其他目的所需要：依赖于 append 操作而不是覆盖、检查点、写时自我验

证、自标识-记录。

实际中，我们所有的应用程序都是通过 append 而不是覆盖来改变文件。在一个

典型应用中，一个写操作者会从头至尾生成一个文件。当写完所有数据后它自动

的将文件重命名为一个永久性的名称，或者通过周期性的检查点检查已经有多少

数据被成功写入了。检查点可能会设置应用级的校验和。读取者仅验证和处理最

后一个检查点之前的文件区域，这些区域处于已定义的状态。无论什么样的并发

和一致性要求，这个方法都工作的很好。append 操作比随机写对于应用程序的

失败处理起来总是要更加有效和富有弹性。检查点允许写操作者增量性的重启

(不需要重新从头写)，允许读取者可以处理那些已经成功写入的数据，虽然应用

程序看到的数据仍然是不完全的。

另一种典型的应用中，很多写者为了归并文件或者是作为一个生产者消费者队列

同时向一个文件 append。记录的 append 的 append-at-least-once 语义保证了每个

写者的输出。只是读取者需要采用如下方法处理偶然的 padding 和重复数据。写

者为每条记录准备一些额外信息比如校验和，这样它的合法性就可以验证，通过

校验和，读取者就可以识别并且忽略掉这些冗余的 padding 和记录片段。如果不

能容忍重复的数据(比如它们可能触发非幂等操作)，可以通过在记录中使用唯一

标识符来过滤它们，很多时候都需要这些标识符命名相应的应用程序实体，比如

网页文档。这些用于 record 输入输出的功能函数是以库的形式被我们的应用程

序共享的，同时应用于 gongle 其他的文件接口实现。所以，总是可以传送给记

录读取者相同系列的记录，加上一些很少的重复数据。

在以上的描述中，存在一个基本的假定：数据是以 record 形式存储的，而且通

常这些 record 都是可以重复的，比如一个网页文档我们可以重复存，这对于数

剩余283页未读，继续阅读

zzwstar

粉丝: 0
资源: 10

Google经典论文翻译：集群、GFS、MapReduce与NoSQL

热感知电源完整性加速设计：DesignCon2019 Google论文解析

Google论文翻译合集：GFS、Chubby、Cluster等

谷歌论文：全球分布式存储系统的可用性分析

nsdi google 论文

Google论文集

Google论文集合

Google大数据三大论文中文版下载 Google论文MapReduce、GFS、Bigtable论文下载

Google大数据三大论文英文版下载 Google论文MapReduce、GFS、Bigtable论文下载英文版

hadoop_google论文

谷歌论文经典中文版

最新资源