Spark与Hadoop大数据分析实战
![](https://csdnimg.cn/release/wenkucmsfe/public/img/starY.0159711c.png)
"《大数据分析与Spark和Hadoop》是一本深入探讨Apache Spark 2.0版本和Hadoop 2.7版本集成的常用工具的书籍。本书详细介绍了Spark堆栈的所有组件,包括DataFrame、DataSet、GraphFrames、结构化流处理、基于DataFrame的ML流水线以及SparkR等最新话题。同时,书中还涵盖了与HDFS、YARN、Jupyter、Zeppelin、NiFi、Mahout、HBase Spark连接器、GraphFrames、H2O和Hivemall等框架和工具的集成。本书旨在为读者提供Apache Spark和Hadoop的基础知识,通过实例在Spark+Hadoop集群上探索所有Spark和Hadoop核心组件。"
在这本书中,作者 Venkat Ankam 深入解析了Spark相对于MapReduce的优势,详细介绍了DataFrame API、数据源API和新的DataSet API,用于构建大数据分析应用。书中涵盖了使用Spark Streaming与Apache Kafka和HBase进行实时数据分析的内容,以及利用新概念“结构化流处理”解决物联网(IoT)案例。此外,书中还讲解了使用MLLib、ML流水线、SparkR以及GraphX和GraphFrames进行机器学习和图分析的方法。
读者将有机会学习使用Jupyter、Apache Zeppelin等Web笔记本以及数据流工具Apache NiFi来分析和可视化数据。书中的章节涵盖了大数据分析的概览、开始使用Hadoop和Spark、深入Spark、使用Spark SQL、DataFrame和DataSet进行大数据分析、实时分析、使用Spark和Hadoop的笔记本和数据流、机器学习、使用Spark和Mahout构建推荐系统以及使用GraphX进行图分析等内容。
通过阅读本书,读者将能够了解和实施各种大数据分析工具和技术,掌握Hadoop和Spark生态系统组件,熟悉Spark的各个组件,包括Spark Core、Spark SQL、DataFrame、DataSet、常规流处理和结构化流处理,以及使用MLLib、ML流水线、H2O、Hivemall、GraphX、SparkR和Hivemall进行数据科学和机器学习。作者Venkat Ankam拥有丰富的IT经验,特别是在大数据技术领域,他还是Cloudera认证的Hadoop开发人员和管理员,以及Databricks认证的Spark开发人员。
104 浏览量
2021-02-06 上传
2018-01-22 上传
233 浏览量
351 浏览量
135 浏览量
149 浏览量
208 浏览量
194 浏览量
![](https://profile-avatar.csdnimg.cn/e66324aa22894c0997bffffafc974f36_ramissue.jpg!1)
ramissue
- 粉丝: 354
最新资源
- MATLAB 2006神经网络工具箱用户指南
- INFORMIX监控与管理命令详解:SMI与TBSTAT操作
- Intel Threading Building Blocks:引领C++并行编程新时代
- C++泛型编程深入指南:模板完全解析
- 精通组件编程:COM/DCOM实例解析与Office二次开发
- UNIX基础入门:常用命令详解与操作
- Servlet基础入门:生命周期与配置详解
- HTTP状态码详解:成功、重定向与信息响应
- Java Web Services:构建与集成指南
- LDAP技术详解:从X.500到ActiveDirectory
- MyEclipse开发JSF实战教程:快速入门
- 刘长炯MyEclipse 6.0入门教程:快速安装与开发指南
- Linux环境下安装配置Tomcat指南
- Eclipse与Lomboz插件助力J2EE开发:从WebSphere到WebLogic
- Oracle数据库操作:自定义函数与记录处理
- 谭浩强C语言基础:数据类型、运算符与表达式解析