Google BigTable：大规模数据处理的核心技术

需积分: 20 101 浏览量更新于2024-09-13 1 收藏 34KB DOC 举报

"本文是关于Google的分布式数据库系统BigTable的原理介绍，源自Google工程师Jeff Dean在华盛顿大学的演讲。BigTable被设计用于处理大规模半结构化数据，如RSS源，已在众多Google服务中应用，如Print、Search History、Maps和Orkut。" 在深入探讨BigTable之前，我们先理解其核心概念。BigTable是一种分布式存储系统，它构建在Google的基础架构之上，包括GFS（Google文件系统）、Scheduler、Lock Service和MapReduce。设计目标是运行在低成本的PC服务器集群上，提供高效率的数据处理和存储能力。 BigTable的数据模型是一个多维稀疏映射，由行、列和时间戳构成的表格。每个单元格(cell)都有一个时间戳，允许存储不同时间点的数据版本，便于追踪数据的变化。例如，URLs可以作为行键，列可以有多种含义，如"contents"用于存储文件内容，或"language"用于保存语言代码。为了管理海量数据，BigTable将大表分割成较小的单元——Tablets，每个Tablet的大小通常在100-200MB之间。每个节点可以存储大约100个Tablets，这样通过GFS的分布式特性，实现负载均衡和高效的数据访问。Tablets是不可变的（immutable），以SSTable形式存储，配合日志文件确保数据一致性。当内存达到一定阈值时，系统会自动进行压缩操作。 BigTable的架构还包括Chubby，一个分布式锁服务，用于协调各个组件之间的操作。此外，MapReduce用于批量处理和分析数据，使得BigTable能处理复杂的数据处理任务。在实际运行中，BigTable通过动态调整Tablets的位置来应对负载变化，将繁忙的Tablets迁移至空闲的机器，确保整体性能。同时，为了保证高可用性，数据通常会有多份副本，即使在硬件故障情况下也能保证服务连续性。 Google's BigTable是一个强大的分布式数据库系统，它为Google的众多服务提供了基础支持，展示了在大规模数据处理方面的创新和效率。它的设计理念和实现技术对于理解现代云存储解决方案有着重要的参考价值。

Google's BigTable 原理（翻译）

 题记：google 的成功除了一个个出色的创意外，还因为有 Je

Dean 这样的软件架构天才。

 ------ 编者

官方的 Google Reader blog 中有对 BigTable 的解释。这是 Google 内部开

发的一个用来处理大数据量的系统。这种系统适合处理半结构化的数据比如

RSS 数据源。

以下发言

是 Andrew Hitchcock 在 2005 年 10 月 18 号基

于： Google 的工程师 Je Dean 在华盛顿大学的一次谈话 (Creative

Commons License).



首先，BigTable 从 2004 年初就开始研发了，到现在为止已经用了将

近 8 个月。（2005 年 2 月）目前大概有 100 个左右的服务使用

BigTable，比如： Print,Search History,Maps 和 Orkut。根据

Google 的一贯做法，内部开发的 BigTable 是为跑在廉价的 PC 机上设

计的。BigTable 让 Google 在提供新服务时的运行成本降低，最大限

度地利用了计算能力。BigTable 是建立在 GFS ，Scheduler ，Lock

Service 和 MapReduce 之上的。

每个 Table 都是一个多维的稀疏图 sparse map。Table 由行和列组成，

并且每个存储单元 cell 都有一个时间戳。在不同的时间对同一个存储

单元 cell 有多份拷贝，这样就可以记录数据的变动情况。在他的例子

中，行是 URLs ，列可以定义一个名字，比如：contents。Contents

下载后可阅读完整内容，剩余4页未读，立即下载

kooxiv

粉丝: 0
资源: 4

Google BigTable：大规模数据处理的核心技术

cpp-一个开源的BigtableC实现百度万亿量级分布式数据库Tera

Google-Bigtable中文版_1.0.zip

BigTable原理详解

什么是Google Bigtable的一种开源实现

阐述BigTable的系统架构

bigtable中的rpc

bigtable系统架构

说明Bigtable数据模型和具体架构

Bigtable的查询优化算法和数据结构

最新资源