掌握Apache Spark与Hadoop 2.0/2.7大数据分析实战
5星 · 超过95%的资源 需积分: 11 112 浏览量
更新于2024-07-20
2
收藏 6.52MB PDF 举报
《大数据分析:使用Spark与Hadoop实战》是一本基于Apache Spark 2.0和Hadoop 2.7版本的最新集成指南。本书面向数据分析师和数据科学家,旨在帮助他们在Hadoop集群上利用Spark进行高效的大数据分析。作者Venkat Ankam拥有超过18年的IT经验,尤其在大数据技术方面有深厚造诣,他不仅是一名Cloudera认证的Hadoop开发者和管理员,还是Databricks认证的Spark开发者。
书中涵盖了Spark堆栈的所有关键组件,包括DataFrame、DataSets、GraphFrames、Structured Streaming、基于DataFrame的ML Pipelines以及SparkR等热门主题。此外,它还介绍了与HDFS、YARN框架的整合,以及Jupyter、Zeppelin、NiFi、Mahout、HBase Spark Connector、GraphFrames、H2O和Hivemall等工具的使用。书中的内容深度剖析了从Spark Core到Spark SQL,再到DataFrames、DataSets、传统和结构化流处理、MLLib、ML Pipelines和GraphX,以及如何将机器学习和图分析融入Spark的实践。
书中着重强调了从MapReduce向Spark的迁移,解释了Spark在内存速度上的优势,并讲解了DataFrame API、Data Sources API和新的DataSet API的使用。实时数据分析部分探讨了如何通过Spark Streaming结合Apache Kafka和HBase构建流应用,以及如何利用Structured Streaming处理物联网(IoT)场景。此外,作者还介绍了使用SparkR进行交互式分析的方法。
读者在阅读过程中,还将接触到基于Web的笔记本工具,如Jupyter、Apache Zeppelin和数据流工具Apache NiFi,以便于数据的分析和可视化。全书共分为10章,从宏观层面介绍大数据分析,到深入细节的技术实现,内容全面且实用。
版权信息表明,未经Packt Publishing事先书面许可,不得复制、存储或通过任何方式传输本书的任何部分,且书中的信息仅在作者和出版商的努力下提供准确,但不保证无误,也不承担由此产生的任何责任。
《大数据分析:使用Spark与Hadoop实战》是一本实用的参考书籍,适合希望在实际项目中掌握Spark和Hadoop技术的专业人士,无论你是初学者还是经验丰富的数据专家,都能从中获益匪浅。
2017-01-13 上传
2018-02-08 上传
2018-01-22 上传
Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExi
2023-04-03 上传
2023-05-27 上传
2023-05-25 上传
2023-06-10 上传
2023-06-13 上传
2024-05-26 上传
2023-06-01 上传
robertyuzj
- 粉丝: 23
- 资源: 75
最新资源
- 前端面试必问:真实项目经验大揭秘
- 永磁同步电机二阶自抗扰神经网络控制技术与实践
- 基于HAL库的LoRa通讯与SHT30温湿度测量项目
- avaWeb-mast推荐系统开发实战指南
- 慧鱼SolidWorks零件模型库:设计与创新的强大工具
- MATLAB实现稀疏傅里叶变换(SFFT)代码及测试
- ChatGPT联网模式亮相,体验智能压缩技术.zip
- 掌握进程保护的HOOK API技术
- 基于.Net的日用品网站开发:设计、实现与分析
- MyBatis-Spring 1.3.2版本下载指南
- 开源全能媒体播放器:小戴媒体播放器2 5.1-3
- 华为eNSP参考文档:DHCP与VRP操作指南
- SpringMyBatis实现疫苗接种预约系统
- VHDL实现倒车雷达系统源码免费提供
- 掌握软件测评师考试要点:历年真题解析
- 轻松下载微信视频号内容的新工具介绍