Storm可靠性机制详解：Acker与Tuple生命周期

88 浏览量更新于2024-08-27 收藏 253KB PDF 举报

"storm-可靠机制" 在分布式计算领域，Apache Storm是一个实时计算系统，它确保数据流处理的正确性和可靠性。本摘要将深入探讨Storm的可靠机制，包括其工作原理和核心组件Acker。一、Storm的可靠性机制 Storm的可靠性特性主要体现在它能够保证消息的完全处理。具体来说，Storm会确保每个消息单元（由一个或多个源Tuple组成）在用户定义的超时时间（通过`Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS`配置）内得到完整处理。这意味着源Tuple及其衍生的所有子Tuple都会通过Topology中的所有预期Bolt。若超时未处理，系统会通知Spout处理失败；反之，当所有相关Tuple处理完成，系统则会发送确认信息，表明消息处理成功。二、Acker组件 Acker是Storm Topology中的关键部分，它的职责是追踪每个从Spout任务发出的MessageId所关联的Tuple树的处理状态。每个MessageId可能对应多个源Tuple，这些Tuple被视为同一消息单元。当Acker检测到一个tuple树已完全处理，它会向生成该tuple的task发送确认。如果在指定超时时间内，tuple未被处理，Acker会调用Spout的`fail`方法，通知处理失败；处理成功则调用`ack`方法。三、Tuple树与生命周期 Tuple树是Storm处理逻辑的一种表现形式，其中多个源Tuple可以共享相同的MessageId，形成一棵处理链路。例如，源Tuple message1生成tuple1和tuple2，经过bolt1和bolt2处理后，产生新的Tuple，最终传递给bolt3。只有当bolt3处理完所有关联的Tuple，message1才被认为被完全处理。四、Acker的工作原理与优化 Acker通过跟踪每个Tuple的64位ID来监控处理进度。默认情况下，每个Topology包含一个Acker task，但可以根据数据量增加其数量以提高效率。设置`Config.TOPOLOGY_ACKERS`可以调整Acker的数量。更多的Acker意味着更高效的确认处理，特别是在处理大量数据的Topologies中。总结，Storm的可靠机制通过Acker组件实现了消息处理的跟踪和确认，确保了数据流的完整性和一致性。这种机制使得Storm成为实时计算场景下，尤其是在大数据处理中，保证数据处理准确性的强大工具。通过理解和优化Acker的配置，用户可以更好地控制和提升Storm Topology的性能和可靠性。

storm-可靠机制可靠机制

一可靠性简介

Storm的可靠性是指Storm会告知用户每一个消息单元是否在一个指定的时间(timeout)内被完全处理。完全处理的意思是该

MessageId绑定的源Tuple以及由该源Tuple衍生的所有Tuple都经过了Topology中每一个应该到达的Bolt的处理。

注: timetout 可以通过Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS 来指定

Storm中的每一个Topology中都包含有一个Acker组件。Acker组件的任务就是跟踪从某个task中的Spout流出的每一个

messageId所绑定的Tuple树中的所有Tuple的处理情况。如果在用户设置的最大超时时间内这些Tuple没有被完全处理，那么

Acker会告诉Spout该消息处理失败，相反则会告知Spout该消息处理成功,它会分别调用Spout中的fail和ack方法。

Storm允许用户在Spout中发射一个新的源Tuple时为其指定一个MessageId，这个MessageId可以是任意的Object对象。多个

源Tuple可以共用同一个MessageId，表示这多个源Tuple对用户来说是同一个消息单元，它们会被放到同一棵tuple树中，如

下图所示:

Tuple 树

在Spout中由message 1绑定的tuple1和tuple2分别经过bolt1和bolt2的处理，然后生成了两个新的Tuple，并最终流向了

bolt3。当bolt3处理完之后，称message 1被完全处理了。

二 Acker 原理分析

storm里面有一类特殊的task称为acker（acker bolt），负责跟踪spout发出的每一个tuple的tuple树。当acker发现一个tuple树

已经处理完成了。它会发送一个消息给产生这个tuple的那个task。你可以通过Config.TOPOLOGY_ACKERS来设置一个

topology里面的acker的数量，默认值是1。如果你的topology里面的tuple比较多的话，那么把acker的数量设置多一点，效率

会高一点。

理解storm的可靠性的最好的方法是来看看tuple和tuple树的生命周期，当一个tuple被创建，不管是spout还是bolt创建的，它

会被赋予一个64位的id，而acker就是利用这个id去跟踪所有的tuple的。每个tuple知道它的祖宗的id(从spout发出来的那个

tuple的id), 每当你新发射一个tuple，它的祖宗id都会传给这个新的tuple。所以当一个tuple被ack的时候，它会发一个消息给

acker，告诉它这个tuple树发生了怎么样的变化。具体来说就是它告诉acker: 我已经完成了，我有这些儿子tuple, 你跟踪一下

他们吧。

(spout-tuple-id, tmp-ack-val)

tmp-ark-val = tuple-id ^ (child-tuple-id1 ^ child-tuple-id2 ... )

tmp-ack-val是要ack的tuple的id与由它新创建的所有的tuple的id异或的结果

当一个tuple需要ack的时候，它到底选择哪个acker来发送这个信息呢？

storm使用一致性哈希来把一个spout-tuple-id对应到acker，因为每一个tuple知道它所有的祖宗的tuple-id，所以它自然可以算

出要通知哪个acker来ack。

注：一个tuple可能存在于多个tuple树，所有可能存在多个祖宗的tuple-id

acker是怎么知道每一个spout tuple应该交给哪个task来处理?

当一个spout发射一个新的tuple，它会简单的发一个消息给一个合适的acker，并且告诉acker它自己的id(taskid)，这样storm

就有了taskid-tupleid的对应关系。当acker发现一个树完成处理了，它知道给哪个task发送成功的消息。

Acker的高效性

acker task并不显式的跟踪tuple树。对于那些有成千上万个节点的tuple树，把这么多的tuple信息都跟踪起来会耗费太多的内

存。相反， acker用了一种不同的方式，使得对于每个spout tuple所需要的内存量是恒定的（20 bytes) . 这个跟踪算法是

storm如何工作的关键，并且也是它的主要突破。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38705640

粉丝: 8
资源: 953

Storm可靠性机制详解：Acker与Tuple生命周期

apache-storm-1.2.3.tar.gz

apache-storm-2.0.0-src.tar.gz

storm1.2.1-wangzs-可靠单词计数

storm-0.7.2

storm-test:storm相关测试

storm-hbase集成

storm-wordcount例子

apache-storm-2.1.0-src.tar.gz

apache-storm-1.2.3.rar

storm-kafka整合代码

最新资源