没有合适的资源?快使用搜索试试~ 我知道了~
首页Spark SQL 2.3.0:深入浅出
Spark SQL 2.3.0:深入浅出
5星 · 超过95%的资源 需积分: 50 75 下载量 200 浏览量
更新于2023-03-16
评论 1
收藏 160KB PDF 举报
Spark SQL 2.3.0:深入浅出,看了下,还行,希望对大家有帮助
资源详情
资源评论
资源推荐
Spark SQL 2.3.0:深浅出
Spark SQL 概述
!"#$%&!'(&)*&+"#,-.&!"#$%/*&01234.&51$&61$%)78&6)9-&*9$3,93$.2&2#9#:
;:& 集成
!"#$%&!<4&可以使&!'(&或者所熟悉的&=#9#>$#0.&+?@&在&*"#$%&程序
中查询结构化的数据。
A:& 统的数据访问
!"#$%&!<4&提供访问各种数据源的常法,包括&B)C.,+C$1,
?#$<3.9,DEF,G!DH&和&G=IF。
J:& 兼容&B)C.
!"#$%&!'(&持&B)C.'(&语法以及&B)C.&!.$=.*&和&K=>,允许您访问
现有的&B)C.&仓库。
L:& 标准连接
!"#$%&!'(&可以通过&G=IF&或&D=IF&连接外部的I@具。
Spark SQL 架构
先,!"#$%&!'(&对外提供多种访问式,我们可以通过&B)C.&B<4、
!"#$%&编程的式(!'(&或者&=#9#>$#0M=#9#*.9&+?@)、!9$.#0)78&!'(
的式提交执程序。
然后,会成个未完全解析的逻辑执计划,再集合内部&*,-.0#&信息
个逻辑执计划,最后再经过优化,最终成个优化后的逻辑执
计划,这切就是&!"#$%&!'(&的核&NN&F#9#4O*9&来完成。
最后,将优化后的逻辑执计划交由&!"#$%&P78)7.&来翻译执我们提交
的作业。
DataFrame&Dateset
DataFrame 产背景
=#9#>$#0.&并是&!"#$%&!'(&提出的,是早起在&EM?#72#*&语就已经
存在,但由于&EM?#72#*&只能满单机上的些数据处需求,法完成
些数据的任务,但是&!"#$%&!'(&作为&!"#$%&的模块,可以借助
!"#$%&的数据处性能,完全胜任这些数据的处任务,另外由于
=#9#>$#0.&早期已存在,因此在编写&!"#$%&!'(&程序的时候,疑降低
的槛。
DataFrame 概述
;:& 以的形式构成的分布式数据集,按照赋予同的名称(相当于加
上&*,-.0#&的&E==)。
A:& 可以看做是个经过优化后的个数据表(9#Q4.)。
J:& 提供类&!'(&的&+?@&如:*.4.,9M5)49.$M#88$.8#9)17M6-.$.&操作结构化
的数据。
L:& 将&EM?#72#*&处数据的经验复到分布式的数据上,应为它的
灵感来&EM?#72#*。
DataFrame 基本 API
;:& F$.#9.&=#9#>$#0.
A:& "$)79!,-.0#
J:& *-16
L:& *.4.,9
R:& 5)49.$
S:& :::
样数据(people.json):
{"name":"张三", "age":18, "sex":"man"}
{"name":"四", "age":28, "sex":"female"}
{"name":"王五", "sex":"man"}
Spark SQL 编程:
val spark = SparkSession.builder().conf(sparkConf).getOrCreate()
// 创建DataFrame 将json件加载为DataFrame
val peopleDF = spark.read.format("json").load("/data/people.json")
// 输出Schema信息
peopleDF.printSchema()
// 展示结果---默认展示20条
peopleDF.show()
// 查询某
peopleDF.select(peopleDF("name"))
// 过滤出于20岁的
peopleDF.filter("age > 20").show()
输出结果如下:
// 输出Schema信息
root
|-- age: long (nullable = true)
|-- name: string (nullable = true)
|-- sex: string (nullable = true)
// 展示结果---默认展示20条
+----+----+------+
| age|name| sex|
+----+----+------+
| 18| 张三| man|
| 28| 四|female|
|null| 王五| man|
+----+----+------+
// 查询某
+----+
|name|
+----+
| 张三|
| 四|
| 王五|
+----+
// 过滤出于20岁的
+---+----+------+
|age|name| sex|
+---+----+------+
| 28| 四|female|
+---+----+------+
剩余11页未读,继续阅读
sethcss
- 粉丝: 8
- 资源: 28
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 2023年中国辣条食品行业创新及消费需求洞察报告.pptx
- 2023年半导体行业20强品牌.pptx
- 2023年全球电力行业评论.pptx
- 2023年全球网络安全现状-劳动力资源和网络运营的全球发展新态势.pptx
- 毕业设计-基于单片机的液体密度检测系统设计.doc
- 家用清扫机器人设计.doc
- 基于VB+数据库SQL的教师信息管理系统设计与实现 计算机专业设计范文模板参考资料.pdf
- 官塘驿林场林防火(资源监管)“空天地人”四位一体监测系统方案.doc
- 基于专利语义表征的技术预见方法及其应用.docx
- 浅谈电子商务的现状及发展趋势学习总结.doc
- 基于单片机的智能仓库温湿度控制系统 (2).pdf
- 基于SSM框架知识产权管理系统 (2).pdf
- 9年终工作总结新年计划PPT模板.pptx
- Hytera海能达CH04L01 说明书.pdf
- 数据中心运维操作标准及流程.pdf
- 报告模板 -成本分析与报告培训之三.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论2