Apache Spark 2实战指南:从入门到应用与SQL优化
需积分: 19 97 浏览量
更新于2024-07-19
收藏 14.38MB PDF 举报
Apache Spark 2 Cookbook(2nd) 是一本深度讲解Apache Spark 2框架的实用指南,该版本是第二版,包含了丰富的实战教程和开发技巧。本书以中文翻译的形式,旨在帮助读者掌握Spark 2在大数据处理中的核心应用和最佳实践。
**第1章:入门Apache Spark**
本章引导读者快速上手Spark,介绍了多种部署方式,包括使用Databricks Cloud进行云端部署、通过Amazon EMR部署Spark、从二进制包安装、构建Spark源代码并利用Maven,以及在Amazon EC2和集群上手动部署。此外,还详细讲解了SparkContext和SparkSession的理解,这两个核心组件在Spark应用中扮演着至关重要的角色,它们提供了与分布式数据交互的基础。
**第2章:使用Spark开发应用**
本章节深入探讨了Spark应用程序的开发实践。首先,读者可以学习如何利用Spark shell进行交互式编程,了解其在数据探索中的作用。接下来,介绍了如何在Eclipse中结合Maven或SBT构建Spark项目,并针对IntelliJ IDEA这样的集成开发环境提供了两种不同的配置方法。此外,还提到了使用Zeppelin notebook(一个交互式数据科学笔记本)来编写和执行Spark应用,使得数据分析更直观和便捷。同时,书中也涵盖了如何通过Kerberos进行安全认证,确保数据的安全传输。
**第3章:Spark SQL**
Spark SQL是Spark的重要组成部分,专用于处理结构化数据。本章阐述了Spark SQL的发展历程,以及它如何增强Spark对结构化数据的支持。读者可以了解到Catalyst优化器的工作原理,这是Spark SQL查询计划的核心。此外,作者还指导读者如何使用case classes自动推断和定义数据的结构,简化了数据处理的复杂性。
Apache Spark 2 Cookbook(2nd)是一本实用的参考书籍,无论你是Spark新手还是经验丰富的开发者,都能从中找到适合自己的学习路径,掌握Spark 2在大数据分析和处理中的核心技术和最佳实践。从基础入门到高级应用,这本书都能提供详尽的指导,帮助读者提升在Spark 2领域的技能水平。
2017-08-21 上传
2018-09-30 上传
2017-09-28 上传
109 浏览量
2017-06-07 上传
132 浏览量
2017-03-12 上传
2019-07-15 上传
2017-07-20 上传
weihua0722
- 粉丝: 17
- 资源: 62
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析