Storm实时处理详解：Grouping策略解析

需积分: 9 32 浏览量更新于2024-08-13 收藏 1.42MB PPT 举报

"这篇文章主要介绍了实时流处理框架Storm中的grouping策略，包括shuffleGrouping、fieldsGrouping、allGrouping、globalGrouping、noneGrouping、directGrouping和customGrouping，并简述了Storm在大数据处理中的应用和与Hadoop的区别。" 在大数据实时处理领域，Apache Storm是一个重要的开源框架，它专门用于处理连续不断的数据流，提供低延迟和高吞吐量的实时计算。相较于Hadoop等批处理系统，Storm更适合那些需要实时响应和快速分析的场景。 Storm的程序流程基于拓扑结构（Topology），其中包含Spout和Bolt组件。Spout作为数据源，负责生成数据流；Bolt则接收并处理这些数据，进行各种计算。数据流在Spout和Bolt之间通过Tuple（消息传递的基本单元）进行传输，而Streamgrouping（消息的分组方法）决定了Tuple如何在Bolt的不同任务间分发。 1. **shuffleGrouping**：这是一种随机分组策略，它将tuple均匀地随机分布到Bolt的所有任务，确保每个任务接收到的数量大致相同，有助于负载均衡。 2. **fieldsGrouping**：根据tuple中的特定字段进行分组，确保具有相同字段值的tuple被分发到同一个任务，常用于实现字段聚合或分桶计算。 3. **allGrouping**：广播分组，每个Tuple都会被发送到Bolt的所有任务，适合需要所有任务都处理同一数据的情况。 4. **globalGrouping**：全局分组，所有tuple都被发送到task id最小的task，确保所有数据都流向同一任务，一般用于特殊需求的场景。 5. **noneGrouping**：实际上相当于随机分组，目前无特定分组会被处理为随机分配tuple。 6. **directGrouping**：直接分组允许用户自定义tuple的发送目标，指定tuple直接发送到特定的Bolt任务。 7. **customGrouping**：自定义分组，允许开发人员根据自己的需求实现更复杂的分组策略，提供最大的灵活性。在实际应用中，Storm被广泛应用于实时计算、实时分析、在线机器学习、持续计算以及分布式RPC等场景，许多知名公司如淘宝、百度、阿里、Twitter和雅虎都在其系统中使用了Storm。Storm和Hadoop虽然都处理大数据，但角色不同，Hadoop适合批量数据处理，而Storm专注于实时数据处理。

辰可爱啊

粉丝: 15
资源: 2万+

Storm实时处理详解：Grouping策略解析

apache-storm-2.4.0.tar.gz

apache-storm-0.9.3

apache-storm-0.9.3.tar

partial-key-grouping:Apache Storm的部分密钥分组的实现和示例。 部分密钥分组是分布式流处理系统的负载平衡策略

my-own-storm:学习Storm

apache-storm-0.9.5源码

apache-storm-0.9.6.tar及使用说明

storm多重grouping的一个例子

Storm实时流处理框架详解

Storm实时流处理：数据落地与组件详解

最新资源

partial-key-grouping:Apache Storm的部分密钥分组的实现和示例。部分密钥分组是分布式流处理系统的负载平衡策略