分布式系统经典论文集：Google技术解码

需积分: 11 3 浏览量更新于2024-07-16 收藏 18.38MB PDF 举报

《分布式系统领域经典论文翻译集》是一本极具参考价值的文献汇编，专为深入理解分布式系统的设计、实现与优化而精心编纂。该书收录了一系列里程碑式的Google论文，展示了这些公司在处理海量数据、构建大规模并行计算架构以及设计高效分布式服务方面的创新实践。首先，论文译序概述了分布式系统的理论基础和重要性，强调了这些经典论文对于现代技术发展的影响。接着，作者关注于SQL和NoSQL时代的演变，介绍了如何根据特定场景选择合适的数据存储和查询模型。 1. "The Anatomy of a Large-Scale Hypertextual Web Search Engine"（译文：大规模超文本网络搜索引擎的解剖）详细剖析了Google搜索引擎的核心技术，揭示了其大规模数据处理和索引构建的原理。 2. "Web Search for a Planet: The Google Cluster Architecture"（译文：地球规模的网络搜索：Google集群架构）探讨了Google如何通过分布式集群技术来支撑全球范围内的搜索服务。 3. "GFS：Google 文件系统"（译文：GFS：Google文件系统）介绍了Google内部用于存储和管理大量数据的分布式文件系统，展示了其在高可用性和吞吐量方面的设计。 4. "MapReduce: Simplied Data Processing on Large Clusters"（译文：MapReduce：大型集群上的简化数据处理）阐述了这个广泛应用的编程模型，使得非专家也能编写出高效的并行处理任务。 5. "Bigtable: A Distributed Storage System for Structured Data"（译文：Bigtable：结构化数据的分布式存储系统）是关于Google如何设计一个支持复杂查询的分布式数据库，支持实时数据处理。 6. "Chubby: The Chubby Lock Service for Loosely-Coupled Distributed Systems"（译文：Chubby：为松耦合分布式系统提供的锁服务）探讨了Google如何解决分布式系统中的协调问题，确保一致性。 7. "Sawzall: Interpreting the Data -- Parallel Analysis with Sawzall"（译文：Sawzall：用Sawzall进行并行数据分析）介绍了Google开发的一种用于解析和分析数据的工作流系统，强调了数据处理效率。 8. "Pregel: A System for Large-Scale Graph Processing"（译文：Pregel：大规模图处理系统）展示了在分布式环境中处理图数据的高效算法，对社交网络分析等领域有深远影响。 9. "Dremel: Interactive Analysis of Web-Scale Datasets"（译文：Dremel：Web规模数据集的交互式分析）重点介绍了Google开发的用于在线查询优化的查询处理引擎。 10. "Percolator: Large-scale Incremental Processing Using Distributed Transactions and Notifications"（译文：Percolator：利用分布式事务和通知进行大规模增量处理）讨论了如何通过分布式事务处理来提高系统响应速度。 11. "MegaStore: Providing Scalable, Highly Available Storage for Interactive Services"（译文：MegaStore：为交互式服务提供可扩展且高可用的存储）展现了Google如何为实时交互应用提供强大的数据存储解决方案。此外，书中还包括对GFS进阶研究、多主节点时代的来临（如Google FileSystem II）、以及将SQL实现于MapReduce框架上的尝试（如Tenzing）等，充分体现了Google在分布式系统领域的探索和技术创新。这些论文不仅提供了实用的技术细节，还揭示了分布式系统设计的策略和最佳实践，对IT专业人士具有极高的学习价值。

目前为止我们提到的存储解决方案都是依赖于Hadoop进行MapReduce。还有一些NoSQL数

据库为了对存储数据进行并行计算本身具有内建的Mapreduce支持。与Hadoop系统的多组件

SMAQ架构不同，它们提供一个由storage, MapReduce and query一体组成的自包含系统。!

基于Hadoop的系统通常是面向批量处理分析，NoSQL存储通常是面向实时应用。在这些数据

库里，MapReduce通常只是一个附加功能，作为其他查询机制的一个补充而存在。比如，在

Riak里，对MapReduce job通常有一个60秒的超时限制，而通常来说， Hadoop 认为一个job

可能运行数分钟或者数小时。!

下面的这些NoSQL数据库都具有MapReduce功能：

CouchDB，一个分布式数据库，提供了半结构化的文档存储功能。主要特点是提供很强的多副

本支持，以及可以进行分布式更新。在CouchDB里，查询是通过使用javascript定义

MapReduce的map和reduce阶段实现的。

MongoDB，本身很类似于CouchDB，但是更注重性能，对于分布式更新，副本，版本的支持

相对弱些。MapReduce也是通过javascript描述的。

Riak，与前面两个数据库也很类似。但是更关注高可用性。可以使用javascript或者Erlang描

述MapReduce。

!与关系型数据库的集成!

在很多应用中，主要的源数据存储在关系型数据库中，比如Mysql或者Oracle。MapReduce

通常通过两种方式使用这些数据：

使用关系型数据库作为源(比如社交网络中的朋友列表)

将MapReduce结果重新注入到关系型数据库(比如基于朋友的兴趣产生的产品推荐列表)

!理解MapReduce如何与关系型数据库交互是很重要的。最简单的，通过组合使用SQL导出命

令和HDFS操作，带分隔符的文本文件可以作为传统关系型数据库和Hadoop系统间的导入导出

格式。更进一步的讲，还存在一些更复杂的工具。

!Sqoop工具是设计用来将数据从关系型数据库导入到Hadoop系统。它是由Cloudera开发的，

一个专注于企业级应用的Hadoop平台经销商。Sqoop是与具体数据库无关的，因为它使用了

java的JDBC数据库API。可以将整个表导入，也可以使用查询命令限制需要导入的数据。

!Sqoop也提供将MapReduce的结果从HDFS导回关系型数据库的功能。因为HDFS是一个文件

系统，所以Sqoop需要以分隔符标识的文本为输入，需要将它们转换为相应的SQL命令才能将

数据插入到数据库。

!对于Hadoop系统来说，通过使用Cascading API中的cascading.jdbc和

cascading-dbmigrate也能实现类似的功能。

!与streaming数据源的集成

关系型数据库以及流式数据源(比如web服务器日志，传感器输出)组成了海量数据系统的最常见

的数据来源。Cloudera的Flume项目就是旨在提供流式数据源与Hadoop之间集成的方便工具。

Flume收集来自于集群机器上的数据，将它们不断的注入到HDFS中。Facebook的Scribe服务

器也提供类似的功能。!

商业性的SMAQ解决方案

一些MPP数据库具有内建的MapReduce功能支持。MPP数据库具有一个由并行运行的独立节

点组成的分布式架构。它们的主要功能是数据仓库和分析，可以使用SQL。!

Greenplum：基于开源的 PostreSQL DBMS，运行在分布式硬件组成的集群上。MapReduce

作为SQL的补充，可以进行在Greenplum上的更快速更大规模的数据分析，减少了几个数量级

的查询时间。Greenplum MapReduce允许使用由数据库存储和外部数据源组成的混合数据。

MapReduce操作可以使用Perl或者Python函数进行描述。!

Aster Data 的nCluster数据仓库系统也提供MapReduce支持。MapReduce操作可以通过使

用Aster Data的SQL-MapReduce技术调用。SQL-MapReduce技术可以使SQL查询和通过

各种语言(C#, C++, Java, R or Python)的源代码定义的MapReduce job组合在一块。

!其他的一些数据仓库解决方案选择提供与Hadoop的连接器，而不是在内部集成MapReduce

功能。

Vertica：是一个提供了Hadoop连接器的列存式数据库。

Netezza：最近由IBM收购。与Cloudera合作提高了它与Hadoop之间的互操作性。尽

管它解决了类似的问题，但是实际上它已经不在我们的SMAQ模型定义之内，因为它既不开源

也不运行在普通硬件上。!

尽管可以全部使用开源软件来创建一个基于Hadoop的系统，但是集成这样的一个系统仍然需要

一些努力。Cloudera的目的就是使得Hadoop更能适应用企业化的应用，而且在它们的

Cloudera Distribution for Hadoop (CDH)中已经提供一个统一的Hadoop发行版。

!查询

通过上面的java代码可以看出使用程序语言定义MapReduce job的map和reduce过程并不是

那么的直观和方便。为了解决这个问题，SMAQ系统引人了一个更高层的查询层来简化

MapReduce操作和结果查询。

很多使用Hadoop的组织为了使操作更加方便，已经对Hadoop的API进行了内部的封装。有些

已经成为开源项目或者商业性产品。

查询层通常并不仅仅提供用于描述计算过程的特性，而且支持对数据的存取以及简化在

MapReduce集群上的执行流程。

!Pig

由yahoo开发，目前是Hadoop项目的一部分。Pig提供了一个称为Pig Latin的高级查询语言来

描述和运行MapReduce job。它的目的是让Hadoop更容易被那些熟悉SQL的开发人员访问，

除了一个Java API，它还提供一个交互式的接口。Pig目前已经集成在Cassandra 和HBase数

据库中。!下面是使用Pig写的上面的wordcount的例子，包括了数据的加载和存储过程($0代表

记录的第一个字段)。

input = LOAD 'input/sentences.txt' USING TextLoader();

words = FOREACH input GENERATE FLATTEN(TOKENIZE($0));

grouped = GROUP words BY $0;

counts = FOREACH grouped GENERATE group, COUNT(words);

ordered = ORDER counts BY $0;

STORE ordered INTO 'output/wordCount' USING PigStorage();

Pig是非常具有表达力的，它允许开发者通过UDFs(User Defined Functions )书写一些定制化

的功能。这些UDF使用java语言书写。尽管它比MapReduce API更容易理解和使用，但是它要

求用户去学习一门新的语言。某些程度上它与SQL有些类似，但是它又与SQL具有很大的不同，

因为那些熟悉SQL的人们很难将它们的知识在这里重用。!

Hive

正如前面所述，Hive是一个建立在Hadoop之上的开源的数据仓库。由Facebook创建，它提供

了一个非常类似于SQL的查询语言，而且提供一个支持简单内建查询的web接口。因此它很适

合于那些熟悉SQL的非开发者用户。!

与Pig和Cascading的需要进行编译相比，Hive的一个长处是提供即席查询。对于那些已经成熟

的商务智能系统来说，Hive是一个更自然的起点，因为它提供了一个对于非技术用户更加友好

的接口。Cloudera的Hadoop发行版里集成了Hive，而且通过HUE项目提供了一个更高级的用

户接口，使得用户可以提交查询并且监控MapReduce job的执行。!

Cascading, the API Approach

Cascading提供了一个对Hadoop的MapReduce API的包装以使它更容易被java应用程序使

用。它只是一个为了让MapReduce集成到更大的系统中时更简单的一个包装层。Cascading

包括如下几个特性：

旨在简化MapReduce job定义的数据处理API

一个控制MapReduce job在Hadoop集群上运行的API

访问基于Jvm的脚本语言，比如Jython, Groovy, or JRuby.

与HDFS之外的数据源的集成，包括Amazon S3，web服务器

提供MapReduce过程测试的验证机制

Cascading的关键特性是它允许开发者将MapReduce job以流的形式进行组装，通过将选定的

一些pipes连接起来。因此很适用于将Hadoop集成到一个更大的系统中。!Cascading本身并不

提供高级查询语言，由它而衍生出的一个叫Cascalog的开源项目完成了这项工作。Cascalog

通过使用Clojure JVM语言实现了一个类似于Datalog的查询语言。尽管很强大，Cascalog仍

然只是一个小范围内使用的语言，因为它既不像Hive那样提供一个类SQL的语言，也不像Pig那

样是过程性的。下面是使用Cascalog完成的wordcout的例子：

!!!!! (defmapcatop split [sentence]

!!!!!!!!!!! (seq (.split sentence "\\s+")))

!!!!! (?<- (stdout) [?word ?count]

!!!!!!!!!!! (sentence ?s) (split ?s :> ?word)

!!!!!!!!!!! (c/count ?count))

使用Solr进行搜索

大规模数据系统的一个重要组件就是数据查询和摘要。数据库层比如HBase提供了对数据的简

单访问，但是并不具备复杂的搜索能力。为了解决搜索问题。开源的搜索和索引平台Solr通常与

NoSQL数据库组合使用。Solr使用Luence搜索技术提供一个自包含的搜索服务器产品。比如，

考虑一个社交网络数据库，MapReduce可以使用一些合理的参数用来计算个人的影响力，这个

数值会被写回到数据库。之后使用Solr进行索引，就允许在这个社交网络上进行一些操作，比如

找到最有影响力的人。!

最初在CENT开发，现在作为Apache项目的Solr，已经从一个单一的文本搜索引擎演化为支持

导航和结果聚类。此外，Solr还可以管理存储在分布式服务器上的海量数据。这使得它成为在海

量数据上进行搜索的理想解决方案，以及构建商业智能系统的重要组件。!

总结

MapReduce尤其是Hadoop实现提供了在普通服务器上进行分布式计算的强有力的方式。再加

上分布式存储以及用户友好的查询机制，它们形成的SMAQ架构使得海量数据处理通过小型团

队甚至个人开发也能实现。!

作为这个星球上最大的互联网公司，毫无疑问google正在引领着海量数据处理实践的潮流。虽

然Google经常发表一些对于自己来说已经过时甚至不再使用的技术的论文，但是发表之后总会

有类似的系统被业界实现出来，也足以说明google的技术至少领先业界数年。

!而google的论文现在也成为研究分布式系统的必读内容，因为有太多的系统都是从那几篇论文

中衍生出来。当然最为人所知的仍然是GFS，MapReduce，BigTable这三篇，而目前关于这

三篇论文已经存在多个版本的翻译。之所以还选择翻译这三篇，主要目的还是在于加深自己的印

象，因为它们实在太重要了。本身在翻译的过程中尽量贴近于英文原文的内容，因此可能有些地

方翻译的有些生硬，网上应该存在更好的翻译版本。

除此之外，另两篇很重要的则是关于Cluster及Chubby的。关于Cluster的这篇发表时间最早，

因此与现在的系统已有很大的差异，但是其中的很多内容仍然是值得认真阅读的，而且关于此篇，

目前我还未发现有翻译版本。关于Chubby的这篇，则更为抽象，因为Chubby本身只是被其他

系统底层使用，而且它底层采用的Paxos，Lease这些算法及机制，如果不是分布式领域的研究

人员，很少有人了解，目前为止仍未见到其翻译版本，网上倒是有些简短的阅读笔记，但是不足

以了解Chubby系统的全貌。

!可以说以上五篇是google整个分布式计算系统最基础的部分。其实还应该加上Sawzall，这样

才组成了完整的SMAQ系统。而类Sawzall的系统也有很多，比如yahoo的Pig，微软的 Drydlinq。

Sawzall这篇，网上已有很好的翻译版本，所以此处不再进行翻译。

!除此之外，google近年来又公布了很多内部使用的计算查询系统，这些系统的设计思路也具有

很大的参考价值，解决的都是一些很具体实际的问题。然而，网上对其介绍的内容甚少，所以这

里我会对其一并翻译。主要包括Pregel，Percolator，Dremel，MegaStore。

!同时，还有一篇不能忽略的需要翻译的文章，就是其创始人Sergey Brin 和Lawrence Page

发表的奠定google搜索引擎基础架构的论文<<The anatomy of a large-scale hypertextual

Web search engine>>，虽然google现今的系统与之相去甚远，但是该论文仍然不失为一篇搜

索领域的经典入门文章。

!所以初步决定，该系列会有 10 几篇论文，但是随着时间的推移，google 可能会发布一些新的

论文，因此这应该不会是一个固定的数字。

The Anatomy of a Large-Scale Hypertextual Web Search Engine

Sergey Brin and Lawrence Page

剩余954页未读，继续阅读

senhehe

粉丝: 0
资源: 16

分布式系统经典论文集：Google技术解码

信息安全领域经典论文集汇总

信息安全领域顶尖会议论文合集

分布式系统原理与范式第二版

分布式系统Hadoop平台的视频转码.pdf

耦合分布式系统多任务动态调度算法.pdf

ICE在分布式系统消息中间件中的应用.pdf

发布订阅分布式系统的测试执行框架研究.pdf

一种P2P分布式系统高可靠数据恢复模型.pdf

一种基于负载均衡异构分布式系统的改进容错调度算法.pdf

一种基于多层拓扑的大规模分布式系统结构脆弱性分析算法.pdf

最新资源