Spark与Hadoop大数据分析实战

5星 · 超过95%的资源 需积分: 11 94 下载量 87 浏览量 更新于2024-07-20 收藏 6.52MB PDF 举报
"《大数据分析与Spark和Hadoop》是一本深入探讨Apache Spark 2.0版本和Hadoop 2.7版本集成的常用工具的书籍。本书详细介绍了Spark堆栈的所有组件,包括DataFrame、DataSet、GraphFrames、结构化流处理、基于DataFrame的ML流水线以及SparkR等最新话题。同时,书中还涵盖了与HDFS、YARN、Jupyter、Zeppelin、NiFi、Mahout、HBase Spark连接器、GraphFrames、H2O和Hivemall等框架和工具的集成。本书旨在为读者提供Apache Spark和Hadoop的基础知识,通过实例在Spark+Hadoop集群上探索所有Spark和Hadoop核心组件。" 在这本书中,作者 Venkat Ankam 深入解析了Spark相对于MapReduce的优势,详细介绍了DataFrame API、数据源API和新的DataSet API,用于构建大数据分析应用。书中涵盖了使用Spark Streaming与Apache Kafka和HBase进行实时数据分析的内容,以及利用新概念“结构化流处理”解决物联网(IoT)案例。此外,书中还讲解了使用MLLib、ML流水线、SparkR以及GraphX和GraphFrames进行机器学习和图分析的方法。 读者将有机会学习使用Jupyter、Apache Zeppelin等Web笔记本以及数据流工具Apache NiFi来分析和可视化数据。书中的章节涵盖了大数据分析的概览、开始使用Hadoop和Spark、深入Spark、使用Spark SQL、DataFrame和DataSet进行大数据分析、实时分析、使用Spark和Hadoop的笔记本和数据流、机器学习、使用Spark和Mahout构建推荐系统以及使用GraphX进行图分析等内容。 通过阅读本书,读者将能够了解和实施各种大数据分析工具和技术,掌握Hadoop和Spark生态系统组件,熟悉Spark的各个组件,包括Spark Core、Spark SQL、DataFrame、DataSet、常规流处理和结构化流处理,以及使用MLLib、ML流水线、H2O、Hivemall、GraphX、SparkR和Hivemall进行数据科学和机器学习。作者Venkat Ankam拥有丰富的IT经验,特别是在大数据技术领域,他还是Cloudera认证的Hadoop开发人员和管理员,以及Databricks认证的Spark开发人员。