Spark源码阅读技巧：代码跟读与日志调试

需积分: 10 180 浏览量更新于2024-09-10 收藏 2.87MB PDF 举报

"Apache Spark源码走读：如何进行代码跟读" 在深入研究Apache Spark源码时，了解如何有效地进行代码跟读是一项重要的技能。Apache Spark是一个流行的分布式计算框架，它使用Scala语言编写，结合了内存计算和快速数据处理的能力。Spark的核心特性包括弹性分布式数据集（RDD）、数据流模型以及基于Akka的消息传递机制。在源码跟读过程中，遇到的主要挑战包括Scala的语法复杂性以及理解Spark内部组件之间的交互。在进行代码跟读时，当遇到难以追踪的代码路径，一种方法是在关键点插入调试语句，例如`new Throwable().printStackTrace()`。这个语句会在运行时打印出完整的堆栈跟踪，帮助开发者了解当前操作是在哪个函数、哪一行代码触发的。例如，在Spark Shell中执行`sc.textFile("README.md")`时，如果想要知道`tryToPut`函数是如何被调用的，可以在`MemoryStore.scala`中找到该函数，并在调用之前添加上述打印堆栈跟踪的语句。重新编译并运行Spark后，堆栈跟踪信息将揭示`tryToPut`的调用上下文。除了插入调试语句，代码跟读还涉及到源码版本的管理。在修改代码后，如果不准备立即提交，可以使用Git等版本控制系统将改动同步到本地。这通常涉及使用`git add`来暂存改动，`git stash`来保存未提交的更改，然后在本地工作目录中应用这些更改。在Spark中，Akka作为底层的消息传递框架，用于Actor间的通信。追踪Akka消息的接收方，可以通过搜索和分析日志或直接在代码中添加日志输出来实现。例如，如果想知道`CoarseGrainedSchedulerBackend`发送的`LaunchTask`消息由哪个Actor接收，可以使用`grep`命令搜索日志中的相关消息。通过这种方式，可以定位到`CoarseGrainedExecutorBackend`是`LaunchTask`消息的接收者，并进一步研究其处理流程。在Spark源码跟读的过程中，对Scala语言和Akka框架的理解至关重要。Scala的语法特性如高阶函数、模式匹配和类型推断等可能会使得代码逻辑显得复杂，而Akka的Actor模型则要求开发者理解异步编程和消息传递的概念。此外，熟悉Spark的模块架构，如Driver、Executor、Scheduler和Storage等，也有助于更有效地跟读源码。 Apache Spark源码跟读需要掌握一系列技巧，包括使用调试语句、版本控制工具以及理解和运用Akka消息系统。通过这些方法，开发者能够逐步深入理解Spark的内部工作机制，从而更好地优化和扩展Spark应用程序。

搜索

云计算

云存储

大数据

首页新闻中心业界动态产品中心成功案例支持与下载关于云创

行业热点 >>

每周动态 >>

技术评论 >>

技术实现 >>

Apache Spark源码走读：如何进行代码跟读

发布时间： 2014-7-15 15:02:02

　　概要

　　今天不谈Spark中什么复杂的技术实现，只稍为聊聊如何进行代码跟读。众所周知，Spark使用

scala进行开发，由于scala有众多的语法糖，很多时候代码跟着跟着就觉着线索跟丢掉了，另外Spark

基于Akka来进行消息交互，那如何知道谁是接收方呢？

　　new Throwable().printStackTrace

　　代码跟读的时候，经常会借助于日志，针对日志中输出的每一句，我们都很想知道它们的调用者是

谁。但有时苦于对spark系统的了解程度不深，或者对scala认识不够，一时半会之内无法找到答案，那

么有没有什么简便的办法呢？

　　我的办法就是在日志出现的地方加入下面一句话

　　现在举一个实际的例子来说明问题。

　　比如我们在启动spark-shell之后，输入一句非常简单的sc.textFile("README.md")，会输出下述的

log

　　那我很想知道是第二句日志所在的tryToPut函数是被谁调用的该怎么办？

　　办法就是打开MemoryStore.scala，找到下述语句

　　在这句话之上，添加如下语句

　　然后，重新进行源码编译

　　再次打开spark-shell,执行sc.textFile("README.md"),就可以得到如下输出，从中可以清楚知道

tryToPut的调用者是谁

当前位置：首页 > 业界动态 > 技术评论 > 本文

下载后可阅读完整内容，剩余3页未读，立即下载

poolpoolpool

粉丝: 5
资源: 63

Spark源码阅读技巧：代码跟读与日志调试

spark-3.0.1:Spark-3.0.1

spark-2.3.0

ApacheSpark源码走读（二）

Apache Spark源码解析：高性能计算的秘密

Apache Spark源码探索：内存计算与高性能解析

Apache Spark源码走读之2 -- Job的提交与运行

Apache Spark源码走读之4 -- DStream实时流数据处理

Apache Spark源码走读之5 -- DStream处理的容错性分析

Apache_Spark源码走读

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

最新资源