Google Bigtable：分布式结构化数据存储系统中文解析

需积分: 50 160 浏览量更新于2024-07-31 收藏 2.4MB PDF 举报

"Google的三大论文中文版，包括对Bigtable分布式结构化数据存储系统的详细介绍" 在Google的三大论文中，其中一篇重点讲述了“Bigtable：一个分布式的结构化数据存储系统”。这篇论文由译者alex翻译，详细阐述了Bigtable的设计理念、功能以及在Google内部的广泛应用。 Bigtable是为了解决大规模数据处理问题而设计的，它可以处理PB级别的数据，分布在数千台服务器上。系统的主要目标是实现广泛的应用性、可扩展性、高性能和高可用性。这使得Bigtable能够适应各种不同的需求，从后台的大批量处理到面向用户的实时数据服务。 1. 数据模型与分布： Bigtable提供了一个简化的数据模型，允许用户动态地控制数据的分布和格式。这种模型不同于传统的关系数据模型，它不完全支持SQL，而是采用了列族（Column Families）和列（Columns）的概念，允许数据以稀疏、多维度的方式存储。 2. 可扩展性与性能：通过分布式架构，Bigtable能够水平扩展以应对不断增长的数据量。每个节点都可以存储和处理一部分数据，确保了系统的整体性能。此外，Bigtable采用了一种名为Chubby的分布式锁服务来保证数据的一致性。 3. 高可用性：为了保证服务的连续性，Bigtable采用了副本机制，数据会被复制到多个位置，即使部分服务器出现故障，系统仍能正常运行。同时，Bigtable还利用GFS（Google File System）作为底层存储，增强了数据的持久性和恢复能力。 4. 应用场景： Bigtable已被众多Google产品广泛采用，如Google Analytics、Google Finance、Orkut、个性化搜索、Writely（现Google Docs）和Google Earth等。这些应用对Bigtable的性能和响应速度有着不同的要求，而Bigtable都能有效地满足。 5. 技术细节： Bigtable利用了MapReduce进行批量数据处理，并采用了 SSTable（Sorted String Table）作为数据文件格式，这是一种高效的静态文件格式，适用于大数据的读写操作。此外，Bigtable还采用了一种名为“超级块”（Superblocks）的内存数据结构，优化了数据检索性能。总结来说，Bigtable是Google为处理大规模分布式数据而设计的一个核心组件，它的灵活性、可扩展性和高性能使其成为了Google众多服务的基石。这篇论文对于理解Google的基础设施和大数据处理有极大的参考价值。

个日志记录都有一个序列号，因此，在恢复的时候，Tablet服务器能够检测出并忽略掉那些由于线程切换

而导致的重复的记录。

Tablet

恢复提速

当Master服务器将一个Tablet从一个Tablet服务器移到另外一个Tablet服务器时，源Tablet服务器会对这

个Tablet做一次Minor Compaction。这个Compaction操作减少了Tablet服务器的日志文件中没有归并

的记录，从而减少了恢复的时间。Compaction完成之后，该服务器就停止为该Tablet提供服务。在卸载

Tablet之前，源Tablet服务器还会再做一次（通常会很快）Minor Compaction，以消除前面在一次压缩

过程中又产生的未归并的记录。第二次Minor Compaction完成以后，Tablet就可以被装载到新的Tablet

服务器上了，并且不需要从日志中进行恢复。

利用不变性

我们在使用Bigtable时，除了SSTable缓存之外的其它部分产生的SSTable都是不变的，我们可以利用这

一点对系统进行简化。例如，当从SSTable读取数据的时候，我们不必对文件系统访问操作进行同步。这

样一来，就可以非常高效的实现对行的并行操作。memtable是唯一一个能被读和写操作同时访问的可变

数据结构。为了减少在读操作时的竞争，我们对内存表采用COW(Copy-on-write)机制，这样就允许读写

操作并行执行。

因为SSTable是不变的，因此，我们可以把永久删除被标记为“删除”的数据的问题，转换成对废弃的

SSTable进行垃圾收集的问题了。每个Tablet的SSTable都在METADATA表中注册了。Master服务器采用

“标记-删除”的垃圾回收方式删除SSTable集合中废弃的SSTable【25】，METADATA表则保存了Root

SSTable的集合。

最后，SSTable的不变性使得分割Tablet的操作非常快捷。我们不必为每个分割出来的Tablet建立新的

SSTable集合，而是共享原来的Tablet的SSTable集合。

7 性能评估

为了测试Bigtable的性能和可扩展性，我们建立了一个包括N台Tablet服务器的Bigtable集群，这里N是可

变的。每台Tablet服务器配置了1GB的内存，数据写入到一个包括1786台机器、每台机器有2个IDE硬盘

的GFS集群上。我们使用N台客户机生成工作负载测试Bigtable。（我们使用和Tablet服务器相同数目的

客户机以确保客户机不会成为瓶颈。）每台客户机配置2GZ双核Opteron处理器，配置了足以容纳所有进

程工作数据集的物理内存，以及一张Gigabit的以太网卡。这些机器都连入一个两层的、树状的交换网络

里，在根节点上的带宽加起来有大约100-200Gbps。所有的机器采用相同的设备，因此，任何两台机器

间网络来回一次的时间都小于1ms。

Tablet服务器、Master服务器、测试机、以及GFS服务器都运行在同一组机器上。每台机器都运行一个

GFS的服务器。其它的机器要么运行Tablet服务器、要么运行客户程序、要么运行在测试过程中，使用这

组机器的其它的任务启动的进程。

R是测试过程中，Bigtable包含的不同的列关键字的数量。我们精心选择R的值，保证每次基准测试对每台

Tablet服务器读/写的数据量都在1GB左右。

在序列写的基准测试中，我们使用的列关键字的范围是0到R-1。这个范围又被划分为10N个大小相同的区

间。核心调度程序把这些区间分配给N个客户端，分配方式是：只要客户程序处理完上一个区间的数据，

调度程序就把后续的、尚未处理的区间分配给它。这种动态分配的方式有助于减少客户机上同时运行的其

它进程对性能的影响。我们在每个列关键字下写入一个单独的字符串。每个字符串都是随机生成的、因此

也没有被压缩

（

alex

注：参考第

节的压缩小节）

。另外，不同列关键字下的字符串也是不同的，因此也

就不存在跨行的压缩。随机写入基准测试采用类似的方法，除了行关键字在写入前先做Hash，Hash采用

按R取模的方式，这样就保证了在整个基准测试持续的时间内，写入的工作负载均匀的分布在列存储空间

内。

序列读的基准测试生成列关键字的方式与序列写相同，不同于序列写在列关键字下写入字符串的是，序列

读是读取列关键字下的字符串（这些字符串由之前序列写基准测试程序写入）。同样的，随机读的基准测

试和随机写是类似的。

扫描基准测试和序列读类似，但是使用的是BigTable提供的、从一个列范围内扫描所有的value值的API。

由于一次RPC调用就从一个Tablet服务器取回了大量的Value值，因此，使用扫描方式的基准测试程序可以

减少RPC调用的次数。

随机读（内存）基准测试和随机读类似，除了包含基准测试数据的局部性群组被设置为“in-memory”，因

此，读操作直接从Tablet服务器的内存中读取数据，不需要从GFS读取数据。针对这个测试，我们把每台

Tablet服务器存储的数据从1GB减少到100MB，这样就可以把数据全部加载到Tablet服务器的内存中了。

图6中有两个视图，显示了我们的基准测试的性能；图中的数据和曲线是读/写 1000-byte value值时取得

的。图中的表格显示了每个Tablet服务器每秒钟进行的操作的次数；图中的曲线显示了每秒种所有的

Tablet服务器上操作次数的总和。

单个

Tablet

服务器的性能

我们首先分析下单个Tablet服务器的性能。随机读的性能比其它操作慢一个数量级或以上

（

alex

注：

the order of magnitude or more

）

。每个随机读操作都要通过网络从GFS传输64KB的SSTable到

Tablet服务器，而我们只使用其中大小是1000 byte的一个value值。Tablet服务器每秒大约执行1200次

读操作，也就是每秒大约从GFS读取75MB的数据。这个传输带宽足以占满Tablet服务器的CPU时间，因

为其中包括了网络协议栈的消耗、SSTable解析、以及BigTable代码执行；这个带宽也足以占满我们系统

中网络的链接带宽。大多数采用这种访问模式BigTable应用程序会减小Block的大小，通常会减到8KB。

内存中的随机读操作速度快很多，原因是，所有1000-byte的读操作都是从Tablet服务器的本地内存中读

取数据，不需要从GFS读取64KB的Block。

随机和序列写操作的性能比随机读要好些，原因是每个Tablet服务器直接把写入操作的内容追加到一个

Commit日志文件的尾部，并且采用批量提交的方式，通过把数据以流的方式写入到GFS来提高性能。随

机写和序列写在性能上没有太大的差异，这两种方式的写操作实际上都是把操作内容记录到同一个Tablet

服务器的Commit日志文件中。

序列读的性能好于随机读，因为每取出64KB的SSTable的Block后，这些数据会缓存到Block缓存中，后

续的64次读操作直接从缓存读取数据。

扫描的性能更高，这是由于客户程序每一次RPC调用都会返回大量的value的数据，所以，RPC调用的消耗

基本抵消了。

性能提升

随着我们将系统中的Tablet服务器从1台增加到500台，系统的整体吞吐量有了梦幻般的增长，增长的倍率

超过了100。比如，随着Tablet服务器的数量增加了500倍，内存中的随机读操作的性能增加了300倍。

之所以会有这样的性能提升，主要是因为这个基准测试的瓶颈是单台Tablet服务器的CPU。

尽管如此，性能的提升还不是线性的。在大多数的基准测试中我们看到，当Tablet服务器的数量从1台增加

到50台时，每台服务器的吞吐量会有一个明显的下降。这是由于多台服务器间的负载不均衡造成的，大多

数情况下是由于其它的程序抢占了CPU。我们负载均衡的算法会尽量避免这种不均衡，但是基于两个主要

原因，这个算法并不能完美的工作：一个是尽量减少Tablet的移动导致重新负载均衡能力受限（如果

Tablet被移动了，那么在短时间内 — 一般是1秒内 — 这个Tablet是不可用的），另一个是我们的基准测

试程序产生的负载会有波动

（

alex

注：

the load generated by our benchmarks shifts around as

the benchmark progresses

）

。

随机读基准测试的测试结果显示，随机读的性能随Tablet服务器数量增加的提升幅度最小（整体吞吐量只

提升了100倍，而服务器的数量却增加了500倍）。这是因为每个1000-byte的读操作都会导致一个

64KB大的Block在网络上传输。这样的网络传输量消耗了我们网络中各种共享的1GB的链路，结果导致随

着我们增加服务器的数量，每台服务器上的吞吐量急剧下降。

8 实际应用

截止到2006年8月，Google内部一共有388个非测试用的Bigtable集群运行在各种各样的服务器集群

上，合计大约有24500个Tablet服务器。表1显示了每个集群上Tablet服务器的大致分布情况。这些集群

中，许多用于开发目的，因此会有一段时期比较空闲。通过观察一个由14个集群、8069个Tablet服务器

组成的集群组，我们看到整体的吞吐量超过了每秒1200000次请求，发送到系统的RPC请求导致的网络负

载达到了741MB/s，系统发出的RPC请求网络负载大约是16GB/s。

表2提供了一些目前正在使用的表的相关数据。一些表存储的是用户相关的数据，另外一些存储的则是用

于批处理的数据；这些表在总的大小、每个数据项的平均大小、从内存中读取的数据的比例、表的

Schema的复杂程度上都有很大的差别。本节的其余部分，我们将主要描述三个产品研发团队如何使用

Bigtable的。

8.1 Google Analytics

Google Analytics是用来帮助Web站点的管理员分析他们网站的流量模式的服务。它提供了整体状况的统

剩余59页未读，继续阅读

OtisZz

粉丝: 7
资源: 7

Google Bigtable：分布式结构化数据存储系统中文解析

Google_三大论文中文版2.pdf

Google_大数据三大论文中文版.zip_Java_

Google_云计算三大论文_中文版

Google文件系统(Google_File_System)论文中文版

The_Google_File_System_中文版论文

Google_file_system-论文-中文版

Google_MapReduce论文中文版

Google三大论文_中文版

Google云计算三大论文中文版

google云计算三大论文中文版

最新资源