Google BigTable：大规模数据存储解决方案

下载需积分: 13 | DOCX格式 | 365KB | 更新于2024-09-10 | 97 浏览量 | 举报

"Google BigTable 是Google开发的一个用于存储海量数据的分布式、结构化数据存储系统，设计用于处理稀疏的、多维度排序的数据。它适用于大数据量、高吞吐量和快速响应的场景，解决了传统数据库在面对大规模数据时的挑战。" Google BigTable 的设计目标是解决Google在处理其核心业务时遇到的数据存储问题。在BigTable出现之前，Google面临着一系列实际的业务挑战，例如： 1. **网页存储**：Google搜索引擎需要不断抓取和更新全球范围内的网页。每个网页由URL、内容（Content）和抓取时间（Time）定义。随着互联网的发展，URL集合不断增加，对存储系统的要求是能够高效地存储和检索这些包含URL、内容和时间戳的数据。 2. **Google Analytics**：这个服务提供了网站流量分析，需要记录不同URL在不同时间的页面浏览量（PV）、独立访客数（UV）等指标。这同样需要一个能存储大量数据并支持按URL和时间查询的系统。这两个场景揭示了BigTable所需的关键特性： - **大数据量存储**：由于数据量巨大，达到TB或PB级别，传统的数据库系统可能无法有效处理。 - **时间维度相关**：数据与时间紧密关联，需要支持按时间序列进行查询和分析。 - **多维度排序**：数据以URL为主键，不同的属性（如“Content”或“PV/UV”）对应不同的值，且需要对这些属性进行快速访问。 - **映射关系**：每个主键（URL）可以有多个属性（Content, PV, UV等），每个属性都有相应的值。在尝试现有技术无果后，Google开发了BigTable来应对这些挑战。BigTable的核心设计理念包括： - **分布式架构**：通过分布式存储，BigTable可以在多台机器上分散数据，提高可用性和扩展性。 - **Chubby锁服务**：用于协调分布式环境中的数据一致性。 - **GFS（Google File System）**：作为底层的文件系统，提供大文件存储。 - **SSTable（Sorted String Table）**：一种磁盘上的数据结构，用于持久化和索引数据。 - **Column Family**：类似于数据库的列族，将相关属性组织在一起，便于管理和查询。 BigTable的架构允许它高效地处理稀疏数据，支持多维排序和快速查询，使得Google能够处理其核心服务的庞大数据需求。此外，BigTable的设计理念也影响了许多开源项目，如HBase和Cassandra，它们在NoSQL数据库领域中扮演了重要角色，为企业级的大数据应用提供了强大的支持。

Google BigTable。

BigTable，很多人对它耳熟能详，但它究竟解决什么问题呢？这是今天要聊的话题。



什么是 BigTable？

Google BigTable 是一个分布式，结构化数据的存储系统，它用来存储海量数据。该系统用来满足“大数

据量、高吞吐量、快速响应”等不同应用场景下的存储需求。

画外音：本质上，

BigTable

是一个存储系统。



有 BigTable 之前，Google 面临什么问题？

Google 并不是一群人坐在办公室开会，想出来的系统，Google 面临着很实际的业务问题。

画外音：

很多公司的基础架构部，是坐在办公室开会，想出来的东西，然后强推业务线使用；

脱离业务的技术，都是耍流氓。



典型场景一：网页存储



Google 每天要抓取很多网页：

 新出现的网页，新 URL

 旧网页，旧 URL



对一个已抓取的网页，旧 URL 为啥要反复抓取？

因为，网页会更新，例如新浪首页：

sina.com.cn/index.html

URL 虽然没有变，但依然会抓取。

画外音：我去，相当于，被抓取的

URL

集合，只会无限增大，趋近无穷，这里面的技术难题，不知道大家

感不感兴趣？



这里，对于存储系统的需求，是要存储：不同 URL，不同时间 Time，的内容 Content。

画外音：

URL+”Content”+Time => Binary

。



网页的实际内容 Binary，是 Spider 抓取出来的。



典型场景二：Google Analytics



Google Analytics 要给站长展示其网站的流量 PV，独立用户数 UV，典型访问路径等，以帮助站长了解

站点情况，优化站点。



这里，对于存储系统的需求，是要存储，不同 URL，不同时间 Time，的 PV 和 UV。

画外音：

URL+”PV”+Time => $count

URL+”UV”+Time => $count



PV 和 UV 的值，是 MapReduce 离线任务计算出来的。



不管是“网页存储”还是“站点统计”存储，它们都有几个共同的特点：

 数据量极大，TB，PB 级别

 和时间维度相关

 同一个主键，属性与值有映射

画外音：

下载后可阅读完整内容，剩余3页未读，立即下载

hyy80688

粉丝: 10

Google BigTable：大规模数据存储解决方案

BigTable原理详解

simple-bigtable

BigTable简介

谷歌BigTable论文

谷歌BIGtable介绍

google bigtable 论文

google bigtable论文

Google Bigtable PPT

Google BigTable Paper

bigtable：Google Bigtable的Elixir客户端库

最新资源