掌握Apache Spark与Hadoop 2.0/2.7大数据分析实战

5星 · 超过95%的资源 需积分: 11 159 下载量 112 浏览量 更新于2024-07-20 2 收藏 6.52MB PDF 举报
《大数据分析:使用Spark与Hadoop实战》是一本基于Apache Spark 2.0和Hadoop 2.7版本的最新集成指南。本书面向数据分析师和数据科学家,旨在帮助他们在Hadoop集群上利用Spark进行高效的大数据分析。作者Venkat Ankam拥有超过18年的IT经验,尤其在大数据技术方面有深厚造诣,他不仅是一名Cloudera认证的Hadoop开发者和管理员,还是Databricks认证的Spark开发者。 书中涵盖了Spark堆栈的所有关键组件,包括DataFrame、DataSets、GraphFrames、Structured Streaming、基于DataFrame的ML Pipelines以及SparkR等热门主题。此外,它还介绍了与HDFS、YARN框架的整合,以及Jupyter、Zeppelin、NiFi、Mahout、HBase Spark Connector、GraphFrames、H2O和Hivemall等工具的使用。书中的内容深度剖析了从Spark Core到Spark SQL,再到DataFrames、DataSets、传统和结构化流处理、MLLib、ML Pipelines和GraphX,以及如何将机器学习和图分析融入Spark的实践。 书中着重强调了从MapReduce向Spark的迁移,解释了Spark在内存速度上的优势,并讲解了DataFrame API、Data Sources API和新的DataSet API的使用。实时数据分析部分探讨了如何通过Spark Streaming结合Apache Kafka和HBase构建流应用,以及如何利用Structured Streaming处理物联网(IoT)场景。此外,作者还介绍了使用SparkR进行交互式分析的方法。 读者在阅读过程中,还将接触到基于Web的笔记本工具,如Jupyter、Apache Zeppelin和数据流工具Apache NiFi,以便于数据的分析和可视化。全书共分为10章,从宏观层面介绍大数据分析,到深入细节的技术实现,内容全面且实用。 版权信息表明,未经Packt Publishing事先书面许可,不得复制、存储或通过任何方式传输本书的任何部分,且书中的信息仅在作者和出版商的努力下提供准确,但不保证无误,也不承担由此产生的任何责任。 《大数据分析:使用Spark与Hadoop实战》是一本实用的参考书籍,适合希望在实际项目中掌握Spark和Hadoop技术的专业人士,无论你是初学者还是经验丰富的数据专家,都能从中获益匪浅。

结合下面hive元数据信息,生成hive建表语句,并且加上comment,注意day是分区 dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 apk 应用包名 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_name 应用名称 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_url 平台详情页链接 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 cate 应用所属分类 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 other 其他 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 region 平台名称 string day stri

2023-06-10 上传