Storm与Gearpump整合:透明兼容与Streaming SQL在Spark中的解决方案

0 下载量 72 浏览量 更新于2024-08-30 收藏 1.83MB PDF 举报
在第二次上海大数据流处理聚会上,Intel、大众点评和Cloudera的大数据工程师们共同探讨了时下热门的大数据流处理技术——StormoverGearpump与Streaming SQL on Spark。演讲者张天伦,作为Intel的大数据工程师,分享了他对流处理领域的热情,并鼓励同行在GitHub上交流相关项目,以推动技术进步。 StormoverGearpump是一个创新解决方案,旨在为现有的Storm用户提供无缝的兼容层。通常,用户需要在从Storm切换到其他流处理引擎(如Gearpump)时进行大量的代码修改和重新编译。然而,通过StormoverGearpump,用户无需改动一行代码或重新打包jar包,可以直接将Storm应用迁移到 Gearpump上,实现了零成本的迁移。这得益于Gearpump基于Akka和Actor模型设计的分布式实时流处理系统,其架构包括一个master节点和多个worker节点,每个worker负责管理本地资源,这种层级设计提高了系统的可靠性和性能。 Gearpump的核心特性包括动态有向无环图(Dynamic DAG),允许实时修改计算逻辑,且具有低延迟和高效执行。此外,它为每个应用提供了独立的隔离环境,每个应用都有自己的appmaster,负责资源请求和部署executor(类似JVM的执行单元),而executor中的Task则是执行实际操作的Actor。 然而,尽管Storm被广泛使用,但在某些场景下可能无法满足所有需求。比如,随着数据处理的复杂性和性能要求的提升,Storm的局限性逐渐显现。因此,Intel开发了Gearpump来弥补Storm的不足,提供更为高效、灵活和可扩展的流处理解决方案。实现Storm与Gearpump之间的兼容性,不仅是为了吸引Storm用户转向 Gearpump,也是为了推动整个大数据处理领域技术的发展和优化。 总结来说,本次分享讨论了如何利用StormoverGearpump将现有Storm应用程序迁移到新的流处理平台,以及Gearpump自身的技术优势,包括其基于Actor模型的可靠架构、动态任务调度和对用户友好性的增强,从而提升大数据流处理的性能和灵活性。同时,也揭示了驱动这一兼容性工作的背景,即为了解决业界广泛使用的Storm在特定场景下的局限性。