Nathan Marz提出的实时大数据Lambda架构原理与特性

67 浏览量更新于2024-08-28 收藏 348KB PDF 举报

"Lambda架构是一种实时大数据处理框架，由Storm的作者Nathan Marz提出，旨在满足高容错、低延迟和可扩展等实时大数据系统的关键特性。Lambda架构结合了离线计算和实时计算，利用不可变性、读写分离和复杂性隔离等原则，能够与Hadoop、Kafka、Storm、Spark、Hbase等大数据组件集成，适用于各种应用场景，如金融、社交网络和电子商务数据分析。" 在深入理解Lambda架构之前，我们需要先探讨大数据系统的核心需求。Marz强调的四大关键特性： 1. **容错性和鲁棒性**：在分布式系统中，由于硬件故障和人为错误是常态，因此系统必须具备强健的容错能力。这意味着即使在机器或人为操作出错的情况下，系统仍能保持正常运行，并迅速从错误中恢复。 2. **低延迟**：许多实时应用要求数据处理和查询响应时间极短。Lambda架构设计时考虑到了这一点，确保对数据更新和查询的快速响应。 3. **横向扩容**：随着数据量和负载的增长，系统需要通过添加更多机器（scaleout）而非增强单台机器性能（scaleup）来保持性能。这种线性可扩展性对于处理海量数据至关重要。 4. **通用性和可扩展性**：Lambda架构应当适应各种不同领域的需求，并且在添加新功能时，能以较低的开发成本实现扩展。 Lambda架构的主要组成部分包括**批处理层**、**实时处理层**和**服务层**： - **批处理层**：使用Hadoop等工具进行批量、离线的数据处理，生成结果数据集。这些数据集是不可变的，提供了一种历史视图，用于处理错误和提供数据一致性。 - **实时处理层**：通过Storm、Spark Streaming等工具处理实时流数据，提供低延迟的处理能力。实时处理层处理的是增量数据，与批处理层的结果相结合，提供最新的数据视图。 - **服务层**：结合批处理层和实时处理层的结果，为用户提供最终一致性的查询接口。这一层通常采用读写分离的设计，以降低延迟并提高可用性。 Lambda架构的优势在于它通过分离批处理和实时处理，实现了错误处理、低延迟和可扩展性的平衡。不过，它也存在一定的复杂性，因为需要管理和维护两套独立的处理系统。此外，随着Kappa架构的出现，一种更为简洁的“事件驱动”模型开始受到关注，它将实时处理与历史数据的处理合并到单一的流处理平台，如Apache Flink或Kafka Streams。 Lambda架构是实时大数据处理领域的基石之一，对于理解和设计处理大规模数据流的系统具有重要的指导意义。

用于实时大数据处理的用于实时大数据处理的Lambda架构架构

这里要讲的 Lambda 是一个实时大数据处理框架，而不是 AWS 的同名服务，但是其中所强调的容错性、横向扩容、易于维护

等通用性质的概念却是二者都具备的，对于 AWS Lambda 感兴趣的可以看博客的另外一篇文章《Serverless(无服务器) 架构

入门 by Lambda》或访问 AWS 官方了解。

1.Lambda 架构背景介绍

Lambda 架构是由 Storm 的作者 Nathan Marz 提出的一个实时大数据处理框架。Marz 在 Twitter 工作期间开发了著名的实时

大数据处理框架 Storm，Lambda 架构是其根据多年进行分布式大数据系统的经验总结提炼而成。

Lambda 架构的目标是设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。Lambda 架

构整合离线计算和实时计算，融合不可变性（Immunability），读写分离和复杂性隔离等一系列架构原则，可集成

Hadoop，Kafka，Storm，Spark，Hbase 等各类大数据组件。

2. 大数据系统的关键特性

Marz 认为大数据系统应具有以下的关键特性：

Robust and fault-tolerant（容错性和鲁棒性）：对大规模分布式系统来说，机器是不可靠的，可能会当机，但是系统需要是健

壮、行为正确的，即使是遇到机器错误。除了机器错误，人更可能会犯错误。在软件开发中难免会有一些 Bug，系统必须对有

Bug 的程序写入的错误数据有足够的适应能力，所以比机器容错性更加重要的容错性是人为操作容错性。对于大规模的分布式

系统来说，人和机器的错误每天都可能会发生，如何应对人和机器的错误，让系统能够从错误中快速恢复尤其重要。

Low latency reads and updates（低延时）：很多应用对于读和写操作的延时要求非常高，要求对更新和查询的响应是低延时

的。

Scalable（横向扩容）：当数据量/负载增大时，可扩展性的系统通过增加更多的机器资源来维持性能。也就是常说的系统需

要线性可扩展，通常采用 scale out（通过增加机器的个数）而不是 scale up（通过增强机器的性能）。

General（通用性）：系统需要能够适应广泛的应用，包括金融领域、社交网络、电子商务数据分析等。

Extensible（可扩展）：需要增加新功能、新特性时，可扩展的系统能以最小的开发代价来增加新功能。

Allows ad hoc queries（方便查询）：数据中蕴含有价值，需要能够方便、快速的查询出所需要的数据。

Minimal maintenance（易于维护）：系统要想做到易于维护，其关键是控制其复杂性，越是复杂的系统越容易出错、越难维

护。

Debuggable（易调试）：当出问题时，系统需要有足够的信息来调试错误，找到问题的根源。其关键是能够追根溯源到每个

数据生成点。

3. 数据系统的本质

为了设计出能满足前述的大数据关键特性的系统，我们需要对数据系统有本质性的理解。我们可将数据系统简化为：

数据系统 = 数据 + 查询

从而从数据和查询两方面来认识大数据系统的本质。

3.1. 数据的本质

3.1.1. 数据的特性：When & What

我们先从 “数据” 的特性谈起。数据是一个不可分割的单位，数据有两个关键的性质：When 和 What。

When 是指数据是与时间相关的，数据一定是在某个时间点产生的。比如 Log 日志就隐含着按照时间先后顺序产生的数

据，Log 前面的日志数据一定先于 Log 后面的日志数据产生；消息系统中消息的接受者一定是在消息的发送者发送消息后接

收到的消息。相比于数据库，数据库中表的记录就丢失了时间先后顺序的信息，中间某条记录可能是在最后一条记录产生后发

生更新的。对于分布式系统，数据的时间特性尤其重要。分布式系统中数据可能产生于不同的系统中，时间决定了数据发生的

全局先后顺序。比如对一个值做算术运算，先+2，后*3，与先*3，后+2，得到的结果完全不同。数据的时间性质决定了数据

的全局发生先后，也就决定了数据的结果。

What 是指数据的本身。由于数据跟某个时间点相关，所以数据的本身是不可变的 (immutable)，过往的数据已经成为事实

（Fact），你不可能回到过去的某个时间点去改变数据事实。这也就意味着对数据的操作其实只有两种：读取已存在的数据和

添加更多的新数据。采用数据库的记法，CRUD 就变成了 CR，Update 和 Delete 本质上其实是新产生的数据信息，用 C 来记

录。

3.1.2. 数据的存储：Store Everything Rawly and Immutably

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38694343

粉丝: 3
资源: 915

Nathan Marz提出的实时大数据Lambda架构原理与特性

邮电学院Scala大数据实时处理——基于Lambda架构的Spark源码

实时数仓之 Kappa 架构与 Lambda 架构（建议收藏！）.pdf

大数据处理中的Lambda架构和Kappa架构

Lambda架构：实时大数据处理的基石与原则

Lambda架构：实时数据处理的创新方案

Lambda架构：大数据处理的三层次解析

邮电学院基于Lambda架构的Scala Spark大数据处理实践

探索实时数仓：Kappa与Lambda架构详解

请根据“实时数据仓库架构设计 Lambda架构 Kappa架构 流批结合的实时数仓”写出学习收获

大数据系统的Lambda架构

最新资源

请根据“实时数据仓库架构设计 Lambda架构 Kappa架构流批结合的实时数仓”写出学习收获