Storm实时处理与部署详解:信息流、连续计算与分布式调用
需积分: 10 138 浏览量
更新于2024-08-20
收藏 2.08MB PPT 举报
"这篇文档资料主要介绍了应用类型中的Storm实时处理系统,以及它在信息流处理、连续计算和分布式远程程序调用等领域的应用。同时,文档提到了Storm与Zookeeper、Kafka和Maven等技术的关联。文档还深入讨论了Storm的架构组件,如Supervisor、Worker、Executor和Task的详细运作机制,并提到了并行度(parallelism)和单服务器扩展(single server scale)的概念。"
在 Storm 的实时处理系统中,其核心能力在于对新数据的实时处理和数据库的即时更新,这使得它成为处理连续查询的理想选择。连续计算允许系统持续地分析数据流,并将结果立即反馈给用户,如在社交媒体监控热门话题的例子所示。此外,Storm 还能用于并行处理密集型查询,高效地计算并返回结果。
Storm 与 Zookeeper 的集成确保了集群的高可用性和稳定性。Zookeeper通常部署为2N+1台服务器,这样的配置能够抵御节点故障,保持服务的正常运行。而Supervisor是Storm的管理节点,它们可以动态扩展以适应不断变化的工作负载,每个Supervisor默认管理4个worker。
每个worker是在不同机器上并行运行的独立执行单元,它们负责执行Topology的一部分。Topology可以包含一个或多个worker,每个worker对应一个或多个executor。Executor是执行特定component(spout或bolt)的线程,每个component至少对应一个executor,但一个executor只能对应一个component。
Task是实际执行处理逻辑的单元,一个executor可以执行一个或多个task。尽管通常每个executor只执行一个task,但任务的执行线程和task并不完全等同。worker的数量可以通过配置文件和代码进行调整,以适应并发需求,一般来说,worker的数量应大于机器的数量。
文档中还提到了并行度(parallelism)和单服务器扩展(single server scale)的概念。并行度决定了Storm拓扑中的组件如何分布和执行,它可以影响系统的处理能力和吞吐量。而单服务器扩展则关注如何在单个服务器上优化性能,以应对可能的负载增长。
这份文档提供了丰富的Storm部署和使用知识,涵盖了从基本概念到高级特性的全面介绍,对于理解和实践Storm的实时处理解决方案具有很高的参考价值。
2022-03-16 上传
2018-03-23 上传
2021-04-30 上传
2017-08-22 上传
2019-08-06 上传
2021-04-08 上传
2021-10-23 上传
点击了解资源详情
getsentry
- 粉丝: 28
- 资源: 2万+
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍