Storm实时处理详解：架构与编程模型

需积分: 0 31 浏览量更新于2024-08-04 收藏 469KB DOCX 举报

"本章详细介绍了Apache Storm的架构、编程模型以及相关应用案例，包括物联网WiFi项目的实现和实时看板、日志监控告警系统的构建。同时，还探讨了Storm的框架设计和面试中可能遇到的相关问题。" Apache Storm是一个开源的实时流处理系统，由Twitter贡献给Apache软件基金会，其主要目标是处理大规模的数据流，提供高可靠性和容错性，且具备易于编程的特性，支持多种编程语言。 **架构** Storm的架构由几个关键组件构成： 1. **Nimbus**：作为主控节点，Nimbus负责任务的调度和资源分配。在高可用设置中，可以配置多个Nimbus节点形成主备模式，以确保系统的连续运行。 2. **Zookeeper**：Zookeeper在Storm集群中扮演协调者的角色，存储集群的状态、配置信息和心跳数据，Nimbus通过Zookeeper来协调任务分配给各个Supervisor。 3. **Supervisor**：Supervisor是工作节点，接收Nimbus的任务分配，并管理在其上运行的worker进程。 4. **Worker**：Worker进程是实际执行计算任务的实体，每个worker包含多个Spout或Bolt实例的线程，这些线程被称为tasks。在0.8版以后，tasks与物理线程不再一一对应，而是引入了executor概念，允许多个tasks共享同一物理线程。 **编程模型** Storm的编程模型基于两个基本组件： 1. **Spout**：Spout是数据流的源头，负责从外部数据源接收数据并发布到拓扑中。它可以是任何数据源，如消息队列、数据库或其他实时数据流。 2. **Bolt**：Bolt是数据处理单元，执行数据清洗、转换、聚合等操作。Bolt可以连接到多个Spout，也可以连接到其他Bolt，形成数据处理的管道。 **并行度**：在Storm中，可以通过设置拓扑的并行度来控制组件的实例数量，这决定了数据处理的能力和速度。 **消息不丢失**：Storm提供了保证消息不丢失的机制，如acker和tuple acking，确保每个数据项都被正确处理。 **案例应用** 1. **Storm物联网WiFi项目**：本节介绍了如何利用Storm处理物联网WiFi项目中的数据，涵盖了项目背景、数据来源、集群配置、数据处理和计算流程。 2. **Storm实时看板案例**：描述了如何分析需求、确定数据源、采集方案、存储方式以及数据计算和展现，以构建实时监控系统。 3. **Storm日志监控告警系统**：展示了如何运用Storm进行日志监控，包括需求分析、数据源选择、采集策略、存储解决方案和数据计算。 **Storm框架**：这部分可能涉及Storm的高级特性，如拓扑结构、容错机制、流分组策略等。 **面试题**：本章末尾提到了可能会在面试中遇到的关于Storm的问题，帮助读者更好地理解和准备相关面试。通过深入理解这些知识点，开发者可以有效地利用Apache Storm构建高效、可靠的实时数据处理系统。

架构

1.1.1Nimbus

负责资源分配和任务调度。新版本中的 nimbus 节点可以有多个，做主备

1.1.2Zookeeper

协调集群，公共数据的存放（如心跳数据，集群的状态和配置信息），nimbus 将分配给

Supervisor 的任务写入到 Zookeeper

1.1.3supervisor

负责接受 nimbus 分配的任务，启动和停止属于自己管理的 worker 进程。

1.1.4worker

运行具体处理组件逻辑的进程。worker 中每一个 spout/bolt 的线程称为一个 task. 在

storm0.8 之后，task 不再与物理线程对应，同一个 spout/bolt 的 task 可能会共享一个物理线程，

该线程称为 executor。最新版本的 Jstorm 已经废除了 task 的概念

剩余10页未读，继续阅读

wxb0cf756a5ebe75e9

粉丝: 27
资源: 283

Storm实时处理详解：架构与编程模型

细细品味Storm_Storm简介及安装

Storm实战：构建大数据实时计算

大数据技术与应用基础-第9、10章流实时处理系统Storm、企业级、大数据流处理Apex.pptx

第三章 curStormTag

Getting Started with Storm

storm实现井字棋游戏源码

Storm入门与组件详解

翻译完成：Storm入门教程

入门Storm：中文版指南

Storm入门：大数据实时分析指南

最新资源