Storm实时计算系统：数据流模型详解与组件间通信

160 浏览量更新于2024-08-29 收藏 287KB PDF 举报

本文主要探讨了Storm数据流模型的深度分析和关键特性。Storm是一个强大的开源实时计算框架，它的核心组件包括Topologies、Streams、Spouts和Bolts。Topologies是 Storm 的核心概念，类似于Hadoop的MapReduce任务，但具有实时性和持久性的特点，一旦提交就持续运行，直到用户手动停止。 Spouts在Storm中扮演着消息生产者的角色，它们从外部数据源如消息队列、数据库等持续不断地读取数据，并生成tuple元组，这些元组构成了数据流的起点。Bolts则是消息处理器，它们接收Spouts产生的流，并进行一系列操作，比如过滤、聚合、数据库查询等，同时可以进一步处理并发射新的流给下级Bolt。数据流(Stream)在Storm中是时间连续且无限的元组序列，它是组件间通信的桥梁。每个Spout和Bolt都有并行度的概念，可以根据需要配置，Storm会在集群中分配相应数量的线程来并发执行这些组件。为了实现组件间的元组传递，Storm提供了多种数据流分发策略，例如AllToAll、shuffle和direct等，这些策略决定了tuple如何在集群内的节点间高效地流动。文章特别强调了Storm的数据流模型对于支持多拓扑之间的订阅和协同处理的重要性。在实际应用中，例如在一个实时监控系统中，可能有多个Topologies分别负责数据收集、处理和报警，这些Topologies通过数据流相互连接，形成一个灵活的实时计算网络。此外，文章还提到了Storm与其它流处理系统的比较，比如与Apache Flink或Apache Kafka的区别，可能包括性能、可扩展性、容错机制等方面的对比。通过对这些特性深入理解，开发人员能够更有效地利用Storm构建实时计算应用程序，满足复杂的数据处理需求。

Storm数据流模型的分析及讨论数据流模型的分析及讨论

Storm基本概念

Storm是一个开源的实时计算系统，它提供了一系列的基本元素用于进行计算：Topology、Stream、Spout、Bolt等等。

在Storm中，一个实时应用的计算任务被打包作为Topology发布，这同Hadoop的MapReduce任务相似。但是有一点不同的

是：在Hadoop中，MapReduce任务最终会执行完成后结束；而在Storm中，Topology任务一旦提交后永远不会结束，除非你

显示去停止任务。

计算任务Topology是由不同的Spouts和Bolts，通过数据流（Stream）连接起来的图。下面是一个Topology的结构示意图：

其中包含有：

Spout：Storm中的消息源，用于为Topology生产消息（数据），一般是从外部数据源（如Message Queue、RDBMS、

NoSQL、Realtime Log）不间断地读取数据并发送给Topology消息（tuple元组）。

Bolt：Storm中的消息处理者，用于为Topology进行消息的处理，Bolt可以执行过滤，聚合，查询数据库等操作，而且可以一

级一级的进行处理。

最终，Topology会被提交到storm集群中运行；也可以通过命令停止Topology的运行，将Topology占用的计算资源归还给

Storm集群。

Storm数据流模型

数据流（Stream）是Storm中对数据进行的抽象，它是时间上无界的tuple元组序列。在Topology中，Spout是Stream的源

头，负责为Topology从特定数据源发射Stream；Bolt可以接收任意多个Stream作为输入，然后进行数据的加工处理过程，如

果需要，Bolt还可以发射出新的Stream给下级Bolt进行处理。

下面是一个Topology内部Spout和Bolt之间的数据流关系：

Topology中每一个计算组件（Spout和Bolt）都有一个并行执行度，在创建Topology时可以进行指定，Storm会在集群内分配

对应并行度个数的线程来同时执行这一组件。

那么，有一个问题：既然对于一个Spout或Bolt，都会有多个task线程来运行，那么如何在两个组件（Spout和Bolt）之间发送

tuple元组呢？

Storm提供了若干种数据流分发（Stream Grouping）策略用来解决这一问题。在Topology定义时，需要为每个Bolt指定接收

什么样的Stream作为其输入（注：Spout并不需要接收Stream，只会发射Stream）。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38680475

粉丝: 6
资源: 933

Storm实时计算系统：数据流模型详解与组件间通信

实时大数据分析基于Storm、Spark技术的实时应用.zip

Storm企业级应用实战、运维和调优

深入理解Storm：数据流模型与实时计算

理解Apache Storm的数据模型与数据流转换

Storm应用模型研究：性能与大数据处理优势

Storm在大数据处理中的应用模型探究

Storm实时流处理框架配置详解

分布式数据流挖掘：技术、模型与系统

入门指南：Storm实时流处理系统详解

Storm大数据处理模式详解：流批处理与Zookeeper、Supervisor部署

最新资源