深入理解分布式技术：JayKreps的TheLog学习笔记

198 浏览量更新于2024-09-01 收藏 519KB PDF 举报

"学习笔记：TheLog（我所读过的最好的一篇分布式技术文章）" 这篇学习笔记主要基于Jay Kreps的一篇关于Log的重要性的博文。Jay Kreps是LinkedIn的前Principal Staff Engineer，也是Confluent公司的创始人之一，他在这个领域有深厚的造诣，尤其在Kafka和Samza这两个项目上贡献巨大。本文主要探讨了Log在分布式系统中的关键作用以及其基本概念。首先，Log是许多关键分布式系统组件的基础，包括分布式图数据库、分布式搜索引擎、Hadoop、以及第一代和第二代键值数据库。Log的概念可能和计算机历史一样悠久，并且在分布式数据系统和实时计算系统中占据中心地位。Log有多种名称，如Commit Log、Transaction Log和Write-Ahead Log，这些都是在不同场景下对Log的特定应用。不理解Log，就意味着无法深入理解数据库、NoSQL存储、键值存储、复制机制、Paxos算法、Hadoop甚至版本控制系统等软件系统。Log的核心价值在于它记录了何时发生了什么，这是分布式系统中最基础和关键的部分。 Log的基本结构是将记录追加到尾部，按照从左到右的顺序读取，每个条目拥有唯一的有序log entry序号。这种序号可以视作一种时间戳，使我们能够独立于物理时钟来定义事件发生的时间顺序。尽管Log看似简单，只是一组按时间排序的记录，但它的重要性在于它能够提供事件发生的精确时间线，这对于保持数据的一致性和处理分布式环境中的复杂同步问题至关重要。 Log的这种特性使得它们在分布式复制、故障恢复、数据一致性保证等方面发挥着至关重要的作用。例如，在数据库复制中，Log可以帮助确保主从节点的数据同步；在Paxos算法中，Log用于协调节点间的共识；而在实时数据处理系统如Kafka中，Log是消息传递和持久化的关键。理解Log的概念和它在分布式系统中的应用，对于任何希望深入理解现代软件架构和数据处理的人来说都是必不可少的。这篇笔记通过提炼Jay Kreps的文章，提供了一个了解Log这一核心概念的窗口，有助于读者进一步探索和掌握分布式系统的设计和实现。

数据流（data flow）

实时计算

2.2.3 分布式系统中的logs

Log解决了两个很重要的分布式数据系统中的问题：

1) 有序的数据变化

2) 数据分布式化

所谓的状态机复制原理（State Machine Replication Principle）：

如果两个确定的处理过程，从相同的状态开始，按照相同的顺序，接收相同的输入，那么它们将会产生相同的输出，并以相

同的状态结束。

所谓确定的（deterministic），是指处理过程是时间无关的，其处理结果亦不受额外输入的影响。

可以通过非确定的例子来理解：

多线程的执行顺序不同导致不同的结果

执行getTimeOfDay()方法

其它的不能重复的处理过程

所谓状态，可以是机器上的任意数据，无论在处理结束后，是在机器的内存中还是磁盘上。

相同的输入按照相同的顺序，产生相同的结果，这一点值得引起你的注意，这也是为什么log会如此重要，这是一个直觉性的

概念：如果你将同一个log输入两个确定性的程序，它们将产生相同的输出。

在分布式系统的构建中，意识到这一点，可以使得：

让所有的机器做同样的事，规约为：

构建分布式的、满足一致性的log系统，以为所有处理系统提供输入。

Log系统的作用，就是将所有的输入流之上的不确定性驱散，确保所有的处理相同输入的复制节点保持同步。

这种方法的最妙之处在于，你可以将索引日志的时间戳，作为所有复制节点的时钟来对待：

通过将复制节点所处理过的log中最大的时间戳，作为复制节点的唯一ID，这样，时间戳结合log，就可以唯一地表达此节点的

整个状态。

应用这种方法的方式也很多：

在log中记录对一个服务的请求

在回复请求的前后，记录服务状态的变化

或者，服务所执行的一系列转换命令，等等。

理论上来讲，我们可以记录一系列的机器指令，或者所调用方法的名称及参数，只要数据处理进程的行为相同，这些进程就可

以保证跨节点的一致性。

常玩儿数据库的人，会将逻辑日志和物理日志区分对待：

物理日志：记录了所有的行内容的变化。

逻辑日志：不是记录内容的变化，而是Insert , update , delete等导致行内容变化的SQL语句。

对分布式系统，通常有两种方式来处理复制和数据处理：

1） State machine model（active – active）

2） Primary-back model (active – passive)

如下图所示：

剩余13页未读，继续阅读

weixin_38553478

粉丝: 7
资源: 924

深入理解分布式技术：JayKreps的TheLog学习笔记

读书笔记：zookeeper分布式过程协同技术详解读书笔记.zip

读书笔记：《Zookeeper 分布式过程协同技术详解》读书笔记.zip

读书笔记：ZooKeeper分布式过程协同技术详解.zip

如何通过《Python编程学习笔记：161页全干货分享》快速掌握编程技巧并应用于项目实践中？

如何利用《Python编程学习笔记：161页全干货分享》系统学习Python，实现从基础到实战的跨越？

python爬虫爬取58网站数据_python实战学习笔记：爬取58同城平板电脑数据

如何高效地通过《Python编程学习笔记：161页全干货分享》掌握Python基础和提高编程能力？

gstreamer学习笔记：通过udp传输音视频

spark学习笔记：spark sql概述

超星学习通怎么查看学习笔记？

最新资源