编译适用于CDH6.3.2的Spark 3.2.2版本源码指南

5星 · 超过95%的资源需积分: 41 163 浏览量更新于2024-11-04 2 收藏 254.33MB TGZ 举报

资源摘要信息:"Spark是一个开源的分布式计算系统，它提供了全面、统一的框架用于大数据处理。Spark-3.2.2是Apache Spark的一个版本，它提供了许多功能改进和bug修复。CDH（Cloudera's Distribution Including Apache Hadoop）是一个由Cloudera提供的Hadoop发行版，其中包括了Apache Spark及其他大数据处理工具。在本资源中，我们关注的是一个基于CDH6.3.2环境下的Spark-3.2.2编译版本。由于CDH6.3.2自带的Spark版本是2.4.0，并且该版本的Spark SQL功能被阉割，因此出现了一个需要升级和定制编译版本的需求。这个资源的构建是基于scala 2.12.0，java 1.8和maven 3.6.3进行的。编译源码的目的是为了让Spark-3.2.2能够在CDH6.3.2集群环境中正常工作，特别是对Spark SQL的支持。在Hadoop生态系统中，Spark SQL是一个重要的组件，它允许用户执行SQL查询以及处理半结构化的数据。由于CDH6.3.2缺少完整的Spark SQL支持，因此需要自行编译这个版本，以获得完整的功能。 Spark核心功能包括： 1. Spark Core：提供了Spark的基本功能，包括任务调度、内存管理、错误恢复、与存储系统交互等。 2. Spark SQL：允许执行SQL查询和操作数据帧。它支持多种数据源，并能够将数据转换成一个关系表。 3. Spark Streaming：支持实时数据处理和流式计算。 4. MLlib：是一个机器学习库，提供了常见机器学习算法的实现。 5. GraphX：是一个用于图和图并行计算的库。对于Cloudera CDH环境而言，由于其对Apache软件的特有打包和优化，直接升级Spark可能会导致兼容性问题。因此，需要对源码进行重新编译，以确保能够与Cloudera的Hadoop生态兼容。这个过程可能会涉及到对特定版本的Hadoop依赖库、配置文件以及运行时参数的调整。构建过程中的依赖和工具： 1. scala 2.12.0：Scala语言是Spark的主要编程语言，版本的选择需要和构建系统兼容。 2. java 1.8：Spark的运行环境需要Java的支持，同样需要确保版本与构建环境兼容。 3. maven 3.6.3：是一个项目管理和构建自动化工具，用于管理Spark项目中的依赖和构建过程。编译完成后，Spark的客户端可以被配置到CDH6.3.2集群中，从而为集群中的用户和应用程序提供完整的Spark服务。特别是Spark SQL的完整支持，能够使得用户更加方便地执行SQL查询，处理数据，以及将Spark集成到现有的数据仓库和BI工具中。总结来说，该资源的主要目的是通过编译源码提供一个兼容CDH6.3.2的Spark-3.2.2版本，从而解决原生CDH6.3.2中Spark版本过低和Spark SQL功能缺失的问题。这将增强CDH集群的数据处理能力，特别是对结构化和半结构化数据的处理。" 标签中提到的"spark"、"大数据"、"cdh"均是数据处理和存储领域的关键技术或平台。Apache Spark是大数据处理领域内的佼佼者，具备高度的灵活性和强大的计算能力，是处理大规模数据集时的理想选择。大数据作为一个涵盖各种技术和实践的术语，描述了存储、处理、分析和检索巨量数据集的挑战和机遇。而CDH作为Hadoop生态系统的一部分，是搭建大规模数据处理平台的常见选择，许多组织采用CDH来部署和管理它们的大数据应用和集群。文件名称列表中的"spark-3.2.2-bin-3.0.0-cdh6.3.2"暗示了该资源是一个已经打包好的二进制分发文件，适用于Cloudera Distribution的Hadoop版本6.3.2。这个分发文件是将编译好的Spark软件按照特定格式和目录结构组织起来的压缩包，用户可以直接下载并部署到CDH6.3.2集群中使用。

收起资源包目录

spark-3.2.2-bin-3.0.0-cdh6.3.2 （1332个子文件）

load-spark-env.cmd 2KB

_metadata 743B

full_user.avsc 240B

find-spark-home 2KB

parquet-hadoop-1.12.2.jar 955KB

.gitignore 49B

parquet-jackson-1.12.2.jar 1.79MB

netty-all-4.1.68.Final.jar 4.31MB

run-example.cmd 1KB

parquet-encoding-1.12.2.jar 829KB

spark-shell2.cmd 2KB

setup.cfg 854B

spark-defaults.conf 1KB

zookeeper-3.6.2.jar 1.19MB

hive-exec-2.3.9-core.jar 10.34MB

derby-10.14.2.0.jar 3.08MB

beeline 1KB

user.avsc 185B

commons-math3-3.4.1.jar 1.94MB

spark-submit2.cmd 1KB

ages.csv 26B

spark-examples_2.12-3.2.2.jar 1.49MB

spark-sql_2.12-3.2.2.jar 7.98MB

leveldbjni-all-1.8.jar 1021KB

scala-compiler-2.12.15.jar 10.47MB

pyspark2.cmd 2KB

arpack_combined_all-0.1.jar 1.14MB

.part-r-00007.gz.parquet.crc 12B

cats-kernel_2.12-2.1.1.jar 3.19MB

zstd-jni-1.5.0-4.jar 6.46MB

pyspark.css 2KB

make.bat 1KB

spark-catalyst_2.12-3.2.2.jar 11.16MB

quickstart_df.ipynb 31KB

spark-class.cmd 1KB

parquet-column-1.12.2.jar 1.9MB

.coveragerc 872B

spark-network-common_2.12-3.2.2.jar 2.3MB

spark-core_2.12-3.2.2.jar 10.35MB

_common_metadata 210B

breeze_2.12-1.2.jar 13.31MB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

spark-3.2.2-yarn-shuffle.jar 12.45MB

lpsa.data 10KB

lapack-2.2.1.jar 794KB

jersey-common-2.34.jar 1.13MB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

.part-r-00002.gz.parquet.crc 12B

people.csv 49B

sparkR.cmd 1KB

hadoop-client-api-3.0.0-cdh6.3.2.jar 16.44MB

guava-14.0.1.jar 2.09MB

spark-class2.cmd 3KB

datanucleus-rdbms-4.1.19.jar 1.82MB

test.data 128B

datanucleus-core-4.1.17.jar 1.92MB

mypy.ini 3KB

spire_2.12-0.17.0.jar 6.91MB

users.avro 334B

ivy-2.5.0.jar 1.34MB

beeline.cmd 1KB

quickstart_ps.ipynb 4.08MB

make2.bat 2KB

find-spark-home.cmd 3KB

commons-compress-1.21.jar 994KB

hadoop-client-runtime-3.0.0-cdh6.3.2.jar 22.14MB

ages_newlines.csv 87B

algebra_2.12-2.0.1.jar 1.11MB

.part-r-00008.gz.parquet.crc 12B

jackson-databind-2.12.3.jar 1.45MB

scala-library-2.12.15.jar 5.19MB

sparkR2.cmd 1KB

spark-sql.cmd 1KB

MANIFEST.in 1KB

jersey-server-2.34.jar 925KB

curator-client-2.13.0.jar 2.31MB

_SUCCESS 0B

spark-streaming_2.12-3.2.2.jar 1.09MB

tink-1.6.0.jar 1.26MB

shapeless_2.12-2.3.3.jar 3.09MB

.part-r-00005.gz.parquet.crc 12B

hive-metastore-2.3.9.jar 7.82MB

.part-r-00004.gz.parquet.crc 12B

spark-shell.cmd 1KB

JTransforms-3.1.jar 1.12MB

snappy-java-1.1.8.4.jar 1.88MB

htrace-core4-4.1.0-incubating.jar 1.43MB

scala-reflect-2.12.15.jar 3.51MB

jaxb-runtime-2.3.2.jar 990KB

rocksdbjni-6.20.3.jar 34.41MB

hive-service-rpc-3.1.2.jar 1.6MB

orc-core-1.6.14.jar 987KB

spark-sql2.cmd 1KB

pyspark.cmd 1KB

janino-3.0.16.jar 905KB

spark-submit.cmd 1KB

hive-serde-2.3.9.jar 895KB

spark-mllib_2.12-3.2.2.jar 5.85MB

arrow-vector-2.0.0.jar 1.63MB

_SUCCESS 0B

共 1332 条

Crazy549475374

粉丝: 0
资源: 1

编译适用于CDH6.3.2的Spark 3.2.2版本源码指南

适配CDH6.3.2的Spark3.2.2

spark-3.3.1-bin-3.0.0-cdh6.3.2.tgz

CDH6.3.2之升级spark-3.3.1.doc

commons-collections-3.2.2.jar maven

commons-collections-3.2.2.jar

redis-3.2.2.gem

java -jar evosuite-1.0.6.jar -setup path/to/target/classes path/to/target/dependency/commons-collections-3.2.2.jar

$EVOSUITE -setup target/classes target/dependency/commons-collections-3.2.2.jar的Windows命令

hadoop-3.2.2.tar.gz下载

$EVOSUITE -setup target/classes target/dependency/commons-collections-3.2.2.jar

最新资源