Storm入门：API实例教程

需积分: 10 189 浏览量更新于2024-07-21 1 收藏 5.65MB PDF 举报

"Getting Started with Storm" 是一本由 Jonathan Leibiusky, Gabriel Eisbruch 和 Dario Simonassi 合著的入门教程，主要介绍了 Apache Storm 这一分布式实时计算系统的使用。该书通过简单易懂的实例，深入浅出地讲解了 Storm 的各种 API 和核心概念。 Apache Storm 是一个开源的流处理系统，它允许开发者在分布式环境中进行实时数据处理。以下是一些关键知识点： 1. **核心概念**： - **拓扑（Topology）**：Storm 的核心是拓扑，它定义了数据流如何在不同组件之间传输。一个拓扑由多个“spout”（数据源）和“bolt”（处理组件）组成。 - **Spout**：Spout 是数据流的源头，负责读取数据并分发到不同的 bolt 进行处理。它可以是从消息队列、数据库或者其他数据源拉取数据。 - **Bolt**：Bolt 执行数据处理任务，如过滤、转换、聚合等操作。Bolts 可以连接在一起形成复杂的处理管道。 - **Stream Groupings**：数据在 spout 和 bolt 之间的传递方式称为分组策略，包括全局分组、字段分组、shuffle 分组、局部分组等。 2. **Storm API**： - **创建拓扑**：使用 `topologyBuilder` 创建新的拓扑，并添加 spouts 和 bolts。 - **定义 Spout**：实现 `IRichSpout` 接口来创建自定义 spout，包含 `nextTuple()` 方法用于生成新 tuple。 - **定义 Bolt**：实现 `IRichBolt` 接口来创建自定义 bolt，包含 `execute(Tuple input)` 方法处理传入的 tuple。 - **设置 Stream Groupings**：使用 `Fields` 和 `Grouping` 类来指定数据的分组策略。 3. **运行与监控**： - **本地模式**：可以在本地单机模式下运行拓扑，方便开发和测试。 - **集群部署**：生产环境中，Storm 可以部署在 Zookeeper 配合下的集群上，通过 Nimbus 节点进行任务调度，Supervisor 负责管理 worker 进程。 - **Storm UI**：提供了 Web UI 监控拓扑状态，查看 tuples 处理情况，以及日志信息。 4. **容错机制**： - **持久化状态**：Bolt 可以使用 Trident API 来实现状态持久化，确保故障恢复时能够恢复到一致的状态。 - **检查点（Checkpointing）**：通过周期性保存工作状态，当发生故障时可以从最近的检查点恢复。 5. **实时处理的应用场景**： - **实时分析**：实时计算用户行为、社交网络分析、日志分析等。 - **数据清洗**：对原始数据进行预处理，过滤无效或错误的数据。 - **流式计算**：例如连续计算窗口内的聚合、滑动窗口计算等。 "Getting Started with Storm" 提供了一个了解和学习 Storm 的良好起点，通过实例学习，读者可以快速掌握如何构建和部署实时处理应用。书中涵盖的内容将帮助初学者理解实时处理的核心原理，以及如何利用 Storm 实现高效、可扩展的流处理系统。

剩余104页未读，继续阅读

zkc5050

粉丝: 0
资源: 3

Storm入门：API实例教程

storm学习入门《Getting started with Storm》中英文版

Getting Started with Storm-带书签目录超清文字版.pdf

[BOOK] Getting Started with Storm

getting started with qt5 pdf

getting started with machine learning

an5401 getting started with csec security module

getting started with the graph template language in sas

mcal getting started tutorial

在idea里面按什么快捷键得到Getting started IntelliJ IDEA

vectorcast getting started guide-chinese v1.0

最新资源