spark分析平台搭建
时间: 2023-11-04 13:07:21 浏览: 164
spark环境搭建
大数据分析处理平台是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析。在搭建Spark分析平台之前,需要明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。具体步骤如下:
1. 选择操作系统,可以在个人电脑上安装两台及以上数量的虚拟机作为底层构建平台。
2. 搭建Hadoop集群,Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群红对海量数据进行分布式计算。
3. 安装和配置Spark,Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架,提供了多种高级工具:Shark SQL应用于即席查询(Ad-hoc query)、Spark Streaming应用于流式计算、MLlib应用于机器学习、GraphX应用于图处理。
4. 部署Spark,Spark可以基于自带的standalone集群管理器独立运行,也可以部署在Apache Mesos和Hadoop YARN等集群管理器上运行。
5. 访问数据,Spark可以访问存储在HDFS、Hbase、Cassandra、Amazon S3、本地文件系统等等上的数据,支持文本文件,序列文件,以及任何Hadoop的InputFormat。
6. 进行实验分析,使用Spark提供的多种高级工具进行数据分析和挖掘。
阅读全文