没有合适的资源?快使用搜索试试~ 我知道了~
首页Spark学习笔记(三):Spark DataFrame
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾 系列博客: Spark学习笔记(一):Spark概述与运行原理 Spark学习笔记(二):RDD编程基础 Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据 Spark SQL目前支持Scala、Java、Python三种语言,支持SQL-92规范 •DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的
资源详情
资源评论
资源推荐
Spark学习笔记(三):学习笔记(三):Spark DataFrame
系列博客是学习厦门大学林子雨老师spark编程基础课程的笔记,方便回顾
系列博客:
Spark学习笔记(一):Spark概述与运行原理
Spark学习笔记(二):RDD编程基础
Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自
RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据
Spark SQL目前支持Scala、Java、Python三种语言,支持SQL-92规范
•DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了
更高的计算性能
DataFrame与RDD的区别
RDD是分布式的 Java对象的集合,但是,对象内部结构对于RDD而言却是不可知的
DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
DataFrame的创建的创建
从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对
数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能
可以通过如下语句创建一个SparkSession对象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
实际上,在启动进入pyspark以后,pyspark就默认提供了一个SparkContext对象(名称为sc)和一个SparkSession对象(名
称为spark)
从文件中加载数据创建从文件中加载数据创建DataFrame
在创建DataFrame时,可以使用spark.read操作,从不同类型的文件中加载数据创建DataFrame
spark.read.text("people.txt")#读取文本文件people.txt创建DataFrame
spark.read.json("people.json")#读取people.json文件创建DataFrame
spark.read.parquet("people.parquet")#读取people.parquet文件创建DataFrame
spark.read.format("text").load("people.txt")#读取文本文件people.json创建DataFrame;
spark.read.format("json").load("people.json")#读取JSON文件people.json创建DataFrame;
spark.read.format("parquet").load("people.parquet")#读取Parquet文件people.parquet
从从RDD转换得到转换得到DataFrame
(1)利用反射机制推断RDD模式
weixin_38560275
- 粉丝: 2
- 资源: 916
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 27页智慧街道信息化建设综合解决方案.pptx
- 计算机二级Ms-Office选择题汇总.doc
- 单链表的插入和删除实验报告 (2).docx
- 单链表的插入和删除实验报告.pdf
- 物联网智能终端项目设备管理方案.pdf
- 如何打造品牌的模式.doc
- 样式控制与页面布局.pdf
- 武汉理工Java实验报告(二).docx
- 2021线上新品消费趋势报告.pdf
- 第3章 Matlab中的矩阵及其运算.docx
- 基于Web的人力资源管理系统的必要性和可行性.doc
- 基于一阶倒立摆的matlab仿真实验.doc
- 速运公司物流管理模式研究教材
- 大数据与管理.pptx
- 单片机课程设计之步进电机.doc
- 大数据与数据挖掘.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论10