Spark与Hadoop大数据分析实战

"《大数据分析与Spark和Hadoop》是一本深入探讨Apache Spark 2.0版本和Hadoop 2.7版本集成的常用工具的书籍。本书详细介绍了Spark堆栈的所有组件,包括DataFrame、DataSet、GraphFrames、结构化流处理、基于DataFrame的ML流水线以及SparkR等最新话题。同时,书中还涵盖了与HDFS、YARN、Jupyter、Zeppelin、NiFi、Mahout、HBase Spark连接器、GraphFrames、H2O和Hivemall等框架和工具的集成。本书旨在为读者提供Apache Spark和Hadoop的基础知识,通过实例在Spark+Hadoop集群上探索所有Spark和Hadoop核心组件。"
在这本书中,作者 Venkat Ankam 深入解析了Spark相对于MapReduce的优势,详细介绍了DataFrame API、数据源API和新的DataSet API,用于构建大数据分析应用。书中涵盖了使用Spark Streaming与Apache Kafka和HBase进行实时数据分析的内容,以及利用新概念“结构化流处理”解决物联网(IoT)案例。此外,书中还讲解了使用MLLib、ML流水线、SparkR以及GraphX和GraphFrames进行机器学习和图分析的方法。
读者将有机会学习使用Jupyter、Apache Zeppelin等Web笔记本以及数据流工具Apache NiFi来分析和可视化数据。书中的章节涵盖了大数据分析的概览、开始使用Hadoop和Spark、深入Spark、使用Spark SQL、DataFrame和DataSet进行大数据分析、实时分析、使用Spark和Hadoop的笔记本和数据流、机器学习、使用Spark和Mahout构建推荐系统以及使用GraphX进行图分析等内容。
通过阅读本书,读者将能够了解和实施各种大数据分析工具和技术,掌握Hadoop和Spark生态系统组件,熟悉Spark的各个组件,包括Spark Core、Spark SQL、DataFrame、DataSet、常规流处理和结构化流处理,以及使用MLLib、ML流水线、H2O、Hivemall、GraphX、SparkR和Hivemall进行数据科学和机器学习。作者Venkat Ankam拥有丰富的IT经验,特别是在大数据技术领域,他还是Cloudera认证的Hadoop开发人员和管理员,以及Databricks认证的Spark开发人员。
107 浏览量
2021-02-06 上传
101 浏览量
236 浏览量
352 浏览量
138 浏览量
151 浏览量
213 浏览量
199 浏览量

ramissue
- 粉丝: 354
最新资源
- 隐私数据清洗工具Java代码实践教程
- UML与.NET设计模式详细教程
- 多技术领域综合企业官网开发源代码包及使用指南
- C++实现简易HTTP服务端及文件处理
- 深入解析iOS TextKit图文混排技术
- Android设备间Wifi文件传输功能的实现
- ExcellenceSoft热键工具:自定义Windows快捷操作
- Ubuntu上通过脚本安装Deezer Desktop非官方指南
- CAD2007安装教程与工具包下载指南
- 如何利用Box平台和API实现代码段示例
- 揭秘SSH项目源码:实用性强,助力开发高效
- ECSHOP仿68ecshop模板开发中心:适用于2.7.3版本
- VS2012自定义图标教程与技巧
- Android新库Quiet:利用扬声器实现数据传递
- Delphi实现HTTP断点续传下载技术源码解析
- 实时情绪分析助力品牌提升与趋势追踪:交互式Web应用程序