Storm入门教程：创建与部署Topologies

45 浏览量更新于2024-08-30 收藏 150KB PDF 举报

"本教程详细介绍了如何使用Java和Python创建并部署Storm Topologies，通过storm-starter项目实例进行教学，并强调了Storm集群与Hadoop集群的不同之处，以及Storm集群中的核心组件，包括Nimbus和Supervisor的角色。同时，介绍了Topology的持久性和容错机制，以及如何构建和运行Topology。" 在Storm教程中，我们首先了解如何创建和部署Topologies。Topologies是Storm实时计算的基础，由多个处理节点和它们之间的数据流连接构成。在这个过程中，Java被作为主要的编程语言，同时通过Python的例子展示Storm的多语言支持。学习者被建议下载storm-starter项目源码，跟随教程逐步操作，并确保事先完成Storm开发环境的配置。在准备工作部分，提到的"配置storm开发环境"和"新建一个storm项目"是入门前的重要步骤，确保开发者能够顺利地运行和调试代码。Storm集群与Hadoop集群在概念上有相似之处，但其核心差异在于，Hadoop运行MapReduce Job，而Storm运行持续运行的Topology。一个MapReduce Job有明确的开始和结束，而Topology会持续运行，直到被显式停止。 Storm集群包含两类节点：控制节点（Nimbus）和工作节点（Supervisor）。Nimbus类似于Hadoop的JobTracker，负责分发代码、任务调度和状态监控。工作节点上的Supervisor则管理任务执行，根据需求启动或关闭工作进程。每个工作进程执行Topology的一部分，一个正在运行的Topology由分布在多台机器上的多个工作进程共同组成。集群的稳定性和容错性是Storm设计的关键特点。Nimbus和Supervisor依赖Zookeeper进行协调，并且它们是快速失败和无状态的。所有状态信息要么存储在Zookeeper，要么保存在本地磁盘。这意味着即使这些进程意外终止，也能迅速恢复，保证服务的连续性。构建和运行Topology是Storm的核心操作。每个处理节点（Bolt或Spout）包含特定的业务逻辑，而连接定义了数据的流动路径。启动Topology相当简单，这使得Storm成为实时数据处理的强大工具。通过理解并实践本教程，读者将掌握在Storm中构建高效、稳定实时处理系统的基本技能。

Storm教程教程

教程

在这个教程里面我们将学习如何创建Topologies,并且把topologies部署到storm的集群里面去。Java将是我们主要的示范语

言，个别例子会使用python以演示storm的多语言特性。

准备工作

这个教程使用storm-starter项目里面的例子。我推荐你们下载这个项目的代码并且跟着教程一起做。先读一下：配置storm开

发环境和新建一个strom项目这两篇文章把你的机器设置好。

一个Storm集群的基本组件

storm的集群表面上看和hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是

Topology。它们是非常不一样的 —一个关键的区别是：一个MapReduce Job最终会结束，而一个Topology运永远运行（除非

你显式的杀掉他）。

在Storm的集群里面有两种节点：控制节点(master node)和工作节点(worker node)。控制节点上面运行一个后台程序：

Nimbus，它的作用类似Hadoop里面的JobTracker。Nimbus负责在集群里面分布代码，分配工作给机器，并且监控状态。

每一个工作节点上面运行一个叫做Supervisor的节点。Supervisor会监听分配给它那台机器的工作，根据需要启动/关闭工作进

程。每一个工作进程执行一个Topology的一个子集；一个运行的Topology由运行在很多机器上的很多工作进程组成。

storm topology结构

Nimbus和Supervisor之间的所有协调工作都是通过一个Zookeeper集群来完成。并且，nimbus进程和supervisor都是快速失败

（fail-fast)和无状态的。所有的状态要么在Zookeeper里面，要么在本地磁盘上。这也就意味着你可以用kill -9来杀死nimbus

和supervisor进程，然后再重启它们，它们可以继续工作，就好像什么都没有发生过似的。这个设计使得storm不可思议的稳

定。

Topologies

为了在storm上面做实时计算，你要去建立一些topologies。一个topology就是一个计算节点所组成的图。Topology里面的每

个处理节点都包含处理逻辑，而节点之间的连接则表示数据流动的方向。

运行一个Topology是很简单的。首先，把你所有的代码以及所依赖的jar打进一个jar包。然后运行类似下面的这个命令。

storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2

这个命令会运行主类: backtype.strom.MyTopology,参数是arg1, arg2。这个类的main函数定义这个topology并且把它提交给

Nimbus。storm jar负责连接到nimbus并且上传jar文件。

因为topology的定义其实就是一个Thrift结构并且nimbus就是一个Thrift服务，有可以用任何语言创建并且提交topology。上面

的方面是用JVM

-based语言提交的最简单的方法, 看一下文章: 在生产集群上运行topology去看看怎么启动以及停止topologies。

Stream

Stream是storm里面的关键抽象。一个stream是一个没有边界的tuple序列。storm提供一些原语来分布式地、可靠地把一个

stream传输进一个新的stream。比如：你可以把一个tweets流传输到热门话题的流。

storm提供的最基本的处理stream的原语是spout和bolt。你可以实现Spout和Bolt对应的接口以处理你的应用的逻辑。

spout的流的源头。比如一个spout可能从Kestrel队列里面读取消息并且把这些消息发射成一个流。又比如一个spout可以调用

twitter的一个api并且把返回的tweets发射成一个流。

bolt可以接收任意多个输入stream，作一些处理，有些bolt可能还会发射一些新的stream。一些复杂的流转换，比如从一些

tweet里面计算出热门话题，需要多个步骤，从而也就需要多个bolt。 Bolt可以做任何事情: 运行函数，过滤tuple, 做一些聚

合，做一些合并以及访问数据库等等。

spout和bolt所组成一个网络会被打包成topology， topology是storm里面最高一级的抽象，你可以把topology提交给storm的集

群来运行。topology的结构在Topology那一段已经说过了，这里就不再赘述了。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38529123

粉丝: 3
资源: 930

Storm入门教程：创建与部署Topologies

Storm视频教程

storm 视频教程

Storm入门教程 之Storm原理和概念详解

storm-tutorial:Apache Storm 教程

flume+kafka+storm教程

TutorialsPoint Apache Storm教程.epub

storm-tutorial:一些与 apache Storm 教程一起使用的示例

大数据处理框架：Hadoop与Hadoop流数据处理框架Storm教程.docx

全方位详解：大数据处理框架Storm教程

storm大数据教程

最新资源

Storm入门教程之Storm原理和概念详解