PySpark学习指南：从环境搭建到SparkSQL与SparkStreaming

pyspark

需积分: 0 74 浏览量更新于2024-07-09 收藏 14.91MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"09-SparkV1.2(PySpark)-LAPTOP-G48G0MSR.docx" 本文档详细介绍了如何学习和使用Apache Spark的PySpark接口，特别是针对Spark 2.3版本，该版本对Python的支持已经非常成熟。文档首先列出了课程安排，涵盖从环境搭建到综合项目实战的全过程，强调了理论与实践相结合的重要性。 1. **环境搭建** 在开始学习PySpark之前，需要安装和配置一系列的软件环境，包括： - JDK：安装Java Development Kit并将其添加到系统环境变量中，因为Spark是用Java编写的。 - Scala：安装Scala并添加环境变量，因为Spark的基础是Scala库。 - Hadoop：配置Hadoop环境变量，Spark可以与Hadoop生态系统集成。 - MAVEN：安装Maven，用于编译Spark源代码。 - Python：安装Python 3，并在源码下编译安装，以供PySpark使用。同时，需要确保安装了一些Python依赖。 2. **Spark源码编译与安装** - 下载Spark源码后，通过`./configure --prefix=xxx/xxx/xxx`指定Python的安装路径来配置源码。 - 添加Python到环境变量，以便Spark能识别。 - 使用Maven编译源码，遵循官方文档中的“Building Spark”指南。 - 编译完成后，解压缩生成的Spark二进制包，并通过`bin/spark-shell`启动Spark shell。 3. **Spark运行模式** - Spark支持多种运行模式，如本地模式（适用于开发）、YARN模式（适用于生产环境）等。在开发过程中，本地模式就足够了，但在实际生产环境中，YARN或Mesos等集群管理模式更常见。 4. **PySpark配置** - 若要使用PySpark，需确保`PYSPARK_PYTHON`环境变量指向Python 3解释器的路径。若启动时默认使用Python 2.7，可以通过设置`PYSPARK_PYTHON`环境变量来切换到Python 3。 5. **PySpark使用** - 启动PySpark shell通过运行`./pyspark`命令。 - 可以使用`./pyspark --help`查看所有可用的命令行选项。 6. **学习建议** - 推荐做笔记和查阅官方文档，以加深理解和记忆。 - 鼓励多尝试，独立思考，避免过分依赖他人的帮助。 7. **课程内容** - SparkCore核心：介绍RDD（弹性分布式数据集）的概念和编程模型。 - SparkCore进阶与调优：探讨高级RDD操作和性能优化策略。 - SparkSQL：学习如何使用Spark SQL进行结构化数据处理。 - SparkStreaming：理解Spark实时流处理框架的工作原理。 - Azkanban：可能是一个关于敏捷项目管理工具Azkanban的课程，包含基础、实战和进阶内容。 - 综合项目实战：通过实际项目练习，巩固所学知识。通过这个课程，学员将能够全面掌握PySpark的使用，从基本的RDD操作到复杂的SparkSQL查询，再到实时流处理，最终能应用到实际项目中去。

资源详情

资源推荐

0!A 数据可以进行 ! 操作：内存、磁盘、内存C磁盘、多副本、序列化。

2.2. RDD 的创建方式

9811"1+1'1++;" !";"3!+ 

第一要务：创建 5

5 程序的主入口点，能够连接到  ： “ 集群 ” 8

、+、、 

使用 5 创建 、广播变量到集群。

在创建 5 之前还需要创建一个 G 对象

conf = SparkConf().setAppName(appName).setMaster(master)

sc = SparkContext(conf=conf)

2.2.1. Parallelized Collecons

从集合中创建 

data = [1, 2, 3, 4, 5]

distData = sc.parallelize(data)

从外部 External Datasets 创建 RDD 非常常用

2.2.2. External Datasets

从外部存储中创建 

、从本地文件读取数据

rdd = sc.textFile("file:///root/data/hello.txt")

2、从 HDFS 上读取数据

rdd = sc.textFile("hdfs://hadoop1:9000/data/hello.txt", 3)

注意点

（1） Spark will run one task for each partition of the cluster. 默认情况下一个 partition

开启一个 task 任务

（2）典型的一个 CPU 设置 2-4 个 Partitions

（3） @G3!"2 I2 3&!& 

L+ 我们上课是在单节点上的：一个节点，5 只要在这台机器上

有就行了。如果是  集群，比如  个节点，那么每个节点 都是从节点

的本地读取数据。

（）$GM2;&+!3 +I!3+!"5E!I33!"+!!I

 + 2I  + L!++  L E 5 I 3  3 5E!N1 1+!NI

5E!N1 1+!1H5NI+5E!N1 1+!1H"%N

（）>5E! +A+"3 G!"3 &G

AAG2:+G3IAAG&G2&

&!",:&+G3!*EI&33G!"3 &GAA&

!""J3/3JGLAA&

2.3. RDD 常用算子编程

9811"1+1'1++;" !";"3!+ 7++;A

2.3.1. RDD 常用操作

G A：L+G 5!A"

121"3&1+!A1O

A：3J3+!J" P3!" 3A+

31+311O

注意点：

（）所有的 G A 算子都是懒执行的，先记录逻辑处理关系，只有遇到 A

算子时才会真正进行计算。

（） $A3J3+!JL!+5"

剩余52页未读，继续阅读

小猫不会去楼兰捉虫

粉丝: 168
资源: 17

PySpark学习指南：从环境搭建到SparkSQL与SparkStreaming

电路图.pdsprj.LAPTOP-SNPOAHQK.zhangxin.workspace

电子密码锁2.pdsprj.LAPTOP-VE7D541Q.lenovo.workspace

链接数据库1045 - Access denied for user sjszsis @ LAPTOP-QGEQl1T8 (using password: YES)

flowchart TD A[Christmas] -->|Get money| B(Go shopping) B --> C{Let me think} C -->|One| D[Laptop] C -->|Two| E[iPhone] C -->|Three| F[fa:fa-car Car]这是什么意思

vi sine.croot@LAPTOP-UM25I7CP:~# gcc -o sine.c sin.x -1musr/lib/gcc/x86_64-linux-gnu/7/../../../x86_64-linux-gnu/Scrtl.o: In functionstart text+0x20): undefined reference to maincollect2: error: ld returned l exit status

CP:'# echo "mber of points inside cirele,Total mumber of points,approximated value of pi>pi.sv grep -0E "[0-9J+(. [0-9J+)?"pi.outpi.csvpaste -sdroot@LAPTOP-UM257CP

[Errno 2] No such file or directory: 'D:\\a-pycharm\\project\\Scon-ABSA-main\\datasets\\laptop_trai.context.graph' 进程已结束,退出代码1

with open(C:\\Users\\Vosstol.LAPTOP-UGP6A3N0\\Desktop\\student.txt", "w") as file

ERROR: Directory 'c:\\Users\\Vosstol.LAPTOP-UGP6A3N0\\Desktop\\Python期末' is not installable. Neither 'setup.py' nor 'pyproject.toml' found.

oracle行转列sql

最新资源