Google三驾马车与Hadoop：分布式计算与存储入门

需积分: 10 82 浏览量更新于2024-07-23 1 收藏 416KB DOC 举报

"分布式计算学习，涉及分布式、云计算和网站开发，主要通过学习Google的经典论文和开源项目Hadoop来理解分布式存储和计算。" 在IT领域，分布式计算是现代大规模数据处理的关键技术，它允许在多台计算机（节点）之间分散处理任务，提高系统的性能和可用性。分布式计算学习通常从理解Google的三篇标志性论文开始，即GFS（Google File System）、MapReduce和Bigtable。这些论文为构建大规模分布式系统提供了理论基础。 GFS是一种分布式文件系统，设计用于处理超大规模的数据存储需求，提供高容错性和高吞吐量。MapReduce则是一种编程模型，用于大规模数据集的并行计算，将复杂任务分解为映射（map）和化简（reduce）两个阶段，使得在大量节点上并行执行成为可能。Bigtable是类似Google的NoSQL数据库，用于存储非结构化数据。 Hadoop是基于Java实现的开源分布式计算框架，它实现了GFS的类似系统HDFS（Hadoop Distributed File System）和MapReduce的实现。HDFS提供可靠的、可伸缩的分布式存储，而MapReduce则负责数据的并行处理。Hadoop的生态系统还包括其他组件，如HBase（分布式列式数据库，对应Bigtable）和ZooKeeper（分布式协调服务，对应Chubby）等。学习Hadoop时，可以参考网上众多的源码分析和实践经验分享，例如某个博客已完成对HDFS的剖析，并正在深入MapReduce部分。此外，还有许多用户和开发者在各种平台上分享他们的Hadoop学习心得和实战经验。中文Hadoop站点也提供了丰富的学习资源。对于初学者，建议首先理解分布式文件系统的基础概念，因为它是整个分布式系统架构的基石。没有有效的数据存储，任何强大的计算平台都无法发挥其潜力。接着，深入学习MapReduce，掌握如何编写分布式应用程序处理大数据。最后，通过实践和参与实际项目，积累分布式系统的实践经验，以提升对整个系统的理解和掌控能力。在分布式计算的学习过程中，理论与实践相结合至关重要。通过阅读论文理解设计理念，结合Hadoop的实际代码加深理解，再通过实验验证理论，这样的学习方法有助于形成全面的知识体系。同时，随着技术的不断进步，持续关注最新的分布式计算技术和工具，如Spark、Flink等，是保持与时俱进的关键。

　　此外，与 FSVolume 对应的，还有一个数据结构，就是 DataStorage，它是 Storage 的子类，提供了

升级、回滚等支持。但与 FSVolume 不一样，它不需要了解数据块文件的具体内容，它只知道有这么一

堆文件放这里，会有不同版本的升级需求，它会处理怎么把它们升级回滚之类的业务（关于 Storage，

可以参见这里）。而 FSVolume 提供的接口，都基本上是和 Block 相关的。。。

　　相比数据服务器，主控服务器的数据量不大，但逻辑更为复杂。主控服务器主要有三类数据：文

件系统的目录结构数据，各个文件的分块信息，数据块的位置信息（就数据块放置在哪些数据服务器

上...）。在 GFS 和 HDFS 的架构中，只有文件的目录结构和分块信息才会被持久化到本地磁盘上，而

数据块的位置信息则是通过动态汇总过来的，仅仅存活在内存数据结构中，机器挂了，就灰飞烟灭了。

每一个数据服务器启动后，都会向主控服务器发送注册消息，将其上数据块的状况都告知于主控服务

器。俗话说，简单就是美，根据 DRY 原则，保存的冗余信息越少，出现不一致的可能性越低，付出一

点点时间的代价，换取了一大把逻辑上的简单性，绝对应该是一个包赚不赔的买卖。。。

　　在 HDFS 中，FSNamespacesystem 类就负责保管文件系统的目录结构以及每个文件的分块状况的，

其中，前者是由 FSDirectory 类来负责，后者是各个 INodeFile 本身维护。在 INodeFile 里面，有一个

BlockInfo 的数组，保存着与该文件相关的所有数据块信息，BlockInfo 中包含了从数据块到数据服务器

的映射，INodeFile 只需要知道一个偏移量，就可以提供相关的数据块，和数据块存放的数据服务器信

息。。。

　　3、服务器间协议

　　在 Hadoop 的实现中，部署了一套 RPC 机制，以此来实现各服务间的通信协议。在 Hadoop 中，

每一对服务器间的通信协议，都定义成为一个接口。服务端的类实现该接口，并且建立 RPC 服务，监

听相关的接口，在独立的线程处理 RPC 请求。客户端则可以实例化一个该接口的代理对象，调用该接

口的相应方法，执行一次同步的通信，传入相应参数，接收相应的返回值。基于此 RPC 的通信模式，

是一个消息拉取的流程，RPC 服务器等待 RPC 客户端的调用，而不会先发制人主动把相关信息推送到

RPC 客户端去。。。

其实 RPC 的模式和原理，实在是没啥好说的，之所以说，是因为可以通过把握好这个，彻

底理顺 Hadoop 各服务器间的通信模式。Hadoop 会定义一些列的 RPC 接口，只需要看

谁实现，谁调用，就可以知道谁和谁通信，都做些啥事情，图中服务器的基本架构、各服

务所使用的协议、调用方向、以及协议中的基本内容。。。

剩余19页未读，继续阅读

y112102

粉丝: 9

Google三驾马车与Hadoop：分布式计算与存储入门

大规模分布式计算机学习.pdf

华工分布式计算实验

分布式计算课件

学习分布式计算框架有什么用

分布式计算应该怎么学

深度学习 mpi 分布式计算

分布式计算(第二版).pdf

分布式计算系统导论——原理与组成 pdf

多智能体强化学习与分布式计算的联系

分布式计算在Python中的实现

最新资源