没有合适的资源?快使用搜索试试~ 我知道了~
首页SparkSql和DataFrame实战.docx
文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL还可以用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息,请参考Hive表格部分。当从另一种编程语言中运行SQL时,结果将作为DataFrame返回。您还可以使用命令行或jdbc/odbc来与SQL接口进行交互。 2. 什么是DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在Spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、Hive、关系数据库、cassandra等
资源详情
资源评论
资源推荐
SparkSql 和 DataFrame 实战
一、 简介
1. 什么是 Spark SQL
Spark SQL 的 一 个用 途 是 执 行 使 用 基 本 SQL 语 法或 HiveQL 编 写的 SQL 查 询 。
Spark SQL 还可以用于从现有的 Hive 安装中读取数据。有关如何配置此功能的更多信息,
请参考 Hive 表格部分。当从另一种编程语言中运行 SQL 时,结果将作为 DataFrame 返
回。您还可以使用命令行或 jdbc/odbc 来与 SQL 接口进行交互。
2. 什么是 DataFrame
一个以命名列组织的分布式数据集 。概念上相当于关系数据库中一张表或在 R /
Python 中的 data frame 数据结构,但 DataFrame 有丰富的优化。在 Spark 1.3 之前,
核心的新类型为 RDD-schemaRDD,现改为 DataFrame。spark 通过 DataFrame 操作
大量 的数据 源,包 括 外部文 件(如 json 、avro 、parquet、sequence%le 等 等) 、
Hive、关系数据库、cassandra 等。
3. DataFrame 和 RDD 的区别
图 DataFrame 与 RDD 的区别
从上面的图中可以看出 DataFrame 和 RDD 的区别。
RDD 是分布式的 Java 对象的集合,比如,RDD[Person]是以 Person 为类型参数,
但是,Person 类的内部结构对于 RDD 而言却是不可知的。
DataFrame 是一种以 RDD 为基础的分布式数据集,也就是分布式的 Row 对象的集
合(每个 Row 对象代表一行记录),提供了详细的结构信息,也就是我们经常说的模式
(schema),Spark SQL 可以清楚地知道该数据集中包含哪些列、每列的名称和类型。
和 RDD 一样,DataFrame 的各种变换操作也采用惰性机制,只是记录了各种转换的
逻辑转换路线图(是一个 DAG 图),不会发生真正的计算,这个 DAG 图相当于一个逻辑
查询计划,最终,会被翻译成物理查询计划,生成 RDD DAG,按照之前介绍的 RDD
DAG 的执行方式去完成最终的计算得到结果。
二、 数据准备
people.json people.txt
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}
Michael, 29
Andy, 30
Justin, 19
三、 Spark-shell 启动及参数
[root@tagtic-master sql]# spark-shell --driver-memory 1G --executor-memory 1G --
executor-cores 4 --name yuhui
默认初始化:
Spark context available as sc.
SQL context available as sqlContext.
剩余11页未读,继续阅读
weixin_42349399
- 粉丝: 0
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0