非科班出身，年薪50万的大数据Spark学习心得

需积分: 15 88 浏览量更新于2024-08-04 收藏 95KB DOCX 举报

"某二本非计算机专业16年毕业，通过深入学习大数据技术Spark，实现了职业转型，目前年薪达到50万。本文是该学习者在尚硅谷学习大数据技术Spark的总结，旨在分享其学习经验和理解，帮助其他有志于大数据领域的学习者。" Spark是大数据处理领域的重要工具，以其高效、易用和可扩展性著称。Spark的核心原理在于它的内核设计，包括了SparkContext、ApplicationMaster、Driver和Executor等关键组件。 Spark应用的提交通常是在Yarn这样的集群管理器上进行。当使用`bin/spark-submit`命令启动Spark应用时，会在集群中启动一个JVM进程，这个进程包含了ApplicationMaster和Driver。其中，ApplicationMaster是一个独立的进程，负责资源的申请和任务的调度；而Driver则是一个运行在JVM中的线程，它通常与SparkContext相联系，SparkContext是Spark程序的入口点，负责创建和管理RDD（弹性分布式数据集）。 Executor是Spark中执行实际计算的实体，它是一个计算对象，同时包含ExecutorBackend作为后台通信接口。Executor们运行在集群的不同节点上，负责执行由Driver分配的任务。 Spark的内部通信机制基于高效的网络框架，早期使用AKKA，现在更多地采用Netty。Netty提供了基于AIO（异步非阻塞I/O）的高性能网络通信能力。在Linux系统中，虽然AIO的底层实现与NIO的EPOLL类似，但在Windows系统上，AIO通过IOCP（I/O完成端口）提供了真正的异步I/O，因此在选择Netty时，需要考虑目标运行环境。 Spark的组件之间通过RPC（远程过程调用）进行通信。Driver通过CoarseGrainedSchedulerBackend与Executor进行交互，Executor则通过CoarseGrainedExecutorBackend响应Driver的调度指令。所有的通信终端都继承自Endpoint，并通过RpcEndpoint接收消息，通过RpcEndpointRef发送或请求消息。在Spark作业的生命周期中，用户通过SparkConf设置应用名称，创建SparkContext后，逻辑代码被转换为RDD。RDD是Spark的基础数据抽象，它们可以通过转换算子（如map、filter）进行操作，并通过行动算子（如count、collect）触发实际计算。RDD的转换和行动会触发Job的生成，Job会被进一步划分为多个Stage，Stage的划分依据转换算子和依赖关系，尤其是窄依赖和宽依赖。窄依赖允许数据在Stage内部高效传递，而宽依赖则可能导致数据shuffle，从而划分新的Stage。RDD的分区数量在默认情况下是不变的，但某些shuffle操作（如groupByKey、reduceByKey）可能会改变分区数量，这会影响计算的并行度和效率。通过深入理解Spark的内核原理、组件通信机制以及作业调度流程，可以帮助开发者更好地优化Spark应用，提升大数据处理的效率和性能。这位年薪50万的大佬的学习经验表明，即使是非计算机专业的学习者，也能通过系统学习和实践在大数据领域取得显著成就。

所谓的内核，其实就是 Spark 的内部核心原理。

1. Spark 应用提交

(1) Spark 向 Yarn 提交

➢ 当使用 bin/java 执行 java 程序时，会产生 JVM，java 的进程

(2) ApplicationMaster, Driver, Executor

➢ ApplicationMaster 是一个进程

➢ Driver 是一个线程, 但是我们一般会讲 SparkContext 称之为 Driver

➢ Executor 是一个计算对象, 但有时我们将 ExecutorBackend 后台通信对象也称

之为 Executor

2. Spark 内部组件及通信

(1) 通信原理 - IO - RPC

➢ 基本的网络通信：Socket, ServerSocket

➢ 通信框架：AKKA(旧), Netty(新)(AIO)

➢ 三种 IO 方式：BIO（阻塞式）, NIO（非阻塞式）, AIO（异步）

下载后可阅读完整内容，剩余4页未读，立即下载

冷酷的本杰明

粉丝: 5

非科班出身，年薪50万的大数据Spark学习心得

非计算机专业毕业生如何成为50万年薪MySQL大佬：从入门到流行数据库管理

数字万年历设计项目资料包-毕业设计与技术参考

STM32万年历项目源码与文档-计算机专业生必备资源

02-2-某二本非计算机专业16年毕业，50万年薪大佬学习总结 sql 必读笔记

大数据技术分享 Spark技术讲座Strava Labs-使用Apache Spark探索运动员的十亿活动数据集共39页.pdf

（零基础化学专业某知名大学毕业45万年薪）项目怎么说.docx

深入大数据架构师之路，问鼎40万年薪教学视频

龙果学院 深入大数据架构师之路，问鼎40万年薪

基于MCS51单片机的电子万年历设计----毕业论文论文.doc

2010年本人毕业设计－多功能万年历(单片机实现)-Proteus+keil

最新资源

龙果学院深入大数据架构师之路，问鼎40万年薪