Ubuntu 14.04上编译Spark以支持Hive on Spark (1.4.0版)的实施教程

需积分: 0 5 下载量 106 浏览量 更新于2024-08-04 收藏 270KB DOCX 举报
本文档是关于在Ubuntu 14.04操作系统环境下,针对Hive on Spark实施过程中遇到的问题进行的编译和配置指南。主要关注点在于如何解决Spark与Hive之间的jar包冲突,以确保Spark可以支持从Hive中读取数据。 首先,文章强调了在编译Spark时需要的环境设置,包括使用Maven作为构建工具,Scala语言(版本2.11.7),以及Hadoop 2.6作为基础框架。由于Spark对Scala的依赖,编译时网络连接是必需的,以便下载Scala的最新nightly版本。此外,作者推荐使用国内的Maven镜像以提高下载速度并减少网络延迟,这一步骤对于大规模的编译过程非常重要,可以显著缩短时间。 其次,文章建议选择较稳定的Spark版本1.4.0进行编译,因为可能存在Hive不兼容新版本Spark的情况,并且这个版本在社区中已经得到广泛验证。编译步骤包括下载源码、执行编译命令,最后生成编译后的结果文件。 安装阶段,编译好的Spark包会被复制到集群节点,并进行解压,然后配置环境变量SQOOP_HOME,确保bin目录被添加到系统的PATH中,这样所有节点都能访问Spark服务。 配置方面,涉及到的主要文件包括`conf/spark-env.sh`(用于环境变量配置)、`conf/spark-defaults.conf`(Spark默认配置)、`conf/slaves`(定义集群节点列表),以及`conf/log4j.properties`(用于调整日志级别)。启动集群服务通常通过`/sbin/start-all.sh`命令,如果启动失败,可能是编译或配置存在问题。 HiveOnSpark的集成是在Hive启动时自动检测Spark环境变量SPARK_HOME的,只要正确配置,Hive就能利用Spark的功能。启动后,可以通过webUI查看Spark Master的URL,这有助于监控和管理Spark集群。 最后,整个过程的运行环境依赖于Java 1.7、Hadoop 2.6和Hive 1.2.1。总结来说,本文提供了一个详细的步骤指导,帮助用户在特定环境中成功地将Hive与Spark集成,以满足大数据处理的需求。