Linux系统中Hadoop2.7兼容的Spark 3.2.1版发布

5星 · 超过95%的资源需积分: 5 163 浏览量更新于2024-12-01 收藏 260.01MB TGZ 举报

资源摘要信息:"Spark-3.2.1-bin-hadoop2.7.tgz是一个压缩包文件，包含了针对Linux操作系统的Apache Spark 3.2.1版本的二进制分发文件，这个版本是专门为与Hadoop 2.7版本兼容而构建的。Apache Spark是一个开源的大数据分析处理框架，最初由加州大学伯克利分校的AMPLab开发，之后成为Apache软件基金会的顶级项目。Spark提供了一个快速的分布式计算系统，它支持多种任务，包括批处理、流处理、机器学习和图计算。在大数据领域，Spark是一个重要工具，它通过提供高层次的API来简化数据处理任务，同时提供了与Hadoop生态系统（包括HDFS、YARN和Hive等）的无缝集成。Spark的一个关键特性是它的内存计算能力，这使得它在需要快速迭代处理的场景下比传统的基于磁盘的Hadoop MapReduce更高效。此外，Spark也支持容错的分布式数据集（RDDs），这是其核心概念之一，它允许用户在不可靠的硬件上执行并行处理和分布式数据操作。 Spark的版本迭代通常会带来性能改进、新特性的添加以及对新版本的Hadoop等生态系统的支持。在这个特定的版本中，Spark 3.2.1针对Hadoop 2.7进行了优化，确保了与旧版Hadoop集群的兼容性，这对于那些升级Hadoop较为困难的企业来说非常重要。由于Hadoop 2.7是一个较老的版本，因此这个Spark版本主要面向依然运行该版本Hadoop的企业。压缩包内的文件列表仅包含一个名为'spark-3.2.1-bin-hadoop2.7'的文件，这表明压缩包是一个预编译的二进制安装包。用户可以通过解压缩这个文件到指定目录来安装Spark，不需要从源代码编译。安装过程中，用户可能会需要根据自己的系统环境配置一些环境变量，如JAVA_HOME（指向Java的安装目录），以及更新PATH环境变量来包含Spark的bin目录，从而可以直接在命令行中运行spark-shell、pyspark等交互式shell或提交Spark作业。为了充分利用Spark的分布式计算能力，用户需要配置Spark运行时的环境，这包括配置与集群管理器（如YARN或Mesos）的通信，以及为运行Spark作业分配合适的内存和CPU资源。此外，Spark还提供了REST API，允许用户通过HTTP接口与集群交互。在使用过程中，用户可以编写Spark应用程序，通过Spark提供的编程接口，如Scala、Java、Python和R等语言编写代码。这些应用程序可以直接运行在Spark集群上，完成如数据清洗、分析、处理等操作。同时，Spark还提供了一个交互式的Shell环境，方便开发者进行探索性数据分析。由于Spark广泛的应用和其生态系统中的各种组件，对于IT专业人员来说，掌握Spark的知识是非常重要的。这不仅可以帮助他们更高效地处理大规模数据集，还能够在大数据分析和处理项目中发挥关键作用。"

收起资源包目录

spark-3.2.1-bin-hadoop2.7.tgz （1496个子文件）

arpack_combined_all-0.1.jar 1.14MB

datanucleus-rdbms-4.1.19.jar 1.82MB

tink-1.6.0.jar 1.26MB

scala-reflect-2.12.15.jar 3.51MB

.part-r-00004.gz.parquet.crc 12B

pyspark.css 2KB

xercesImpl-2.12.0.jar 1.32MB

beeline.cmd 1KB

AnIndex 42KB

spark-sql_2.12-3.2.1.jar 7.95MB

hadoop-mapreduce-client-core-2.7.4.jar 1.49MB

spark-3.2.1-yarn-shuffle.jar 12.4MB

mesos-1.4.0-shaded-protobuf.jar 7MB

spire_2.12-0.17.0.jar 6.91MB

htrace-core-3.1.0-incubating.jar 1.41MB

00Index.html 133KB

R.css 1KB

hive-service-rpc-3.1.2.jar 1.6MB

test.data 128B

spark-class2.cmd 3KB

hadoop-yarn-api-2.7.4.jar 1.94MB

setup.cfg 854B

_SUCCESS 0B

scala-compiler-2.12.15.jar 10.47MB

DESCRIPTION 2KB

spark-defaults.conf 1KB

find-spark-home 2KB

spark-core_2.12-3.2.1.jar 10.33MB

Dockerfile 2KB

parquet-jackson-1.12.2.jar 1.79MB

rocksdbjni-6.20.3.jar 34.41MB

MANIFEST.in 1KB

user.avsc 185B

.part-r-00005.gz.parquet.crc 12B

spark-submit2.cmd 1KB

shapeless_2.12-2.3.3.jar 3.09MB

ages.csv 26B

pyspark2.cmd 2KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

.coveragerc 872B

pyspark.cmd 1KB

cats-kernel_2.12-2.1.1.jar 3.19MB

hive-exec-2.3.9-core.jar 10.34MB

zookeeper-3.6.2.jar 1.19MB

sparkR2.cmd 1KB

spark-catalyst_2.12-3.2.1.jar 11.11MB

users.avro 334B

_SUCCESS 0B

spark-submit.cmd 1KB

spark-shell2.cmd 2KB

derby-10.14.2.0.jar 3.08MB

make.bat 1KB

kubernetes-model-core-5.4.1.jar 3.59MB

ivy-2.5.0.jar 1.34MB

hadoop-common-2.7.4.jar 3.34MB

spark-network-common_2.12-3.2.1.jar 2.3MB

netty-all-4.1.68.Final.jar 4.31MB

.part-r-00008.gz.parquet.crc 12B

lpsa.data 10KB

_metadata 743B

find-spark-home.cmd 3KB

beeline 1KB

mypy.ini 3KB

arrow-vector-2.0.0.jar 1.63MB

Dockerfile 1KB

spark-shell.cmd 1KB

make2.bat 2KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

full_user.avsc 240B

snappy-java-1.1.8.4.jar 1.88MB

load-spark-env.cmd 2KB

guava-14.0.1.jar 2.09MB

breeze_2.12-1.2.jar 13.31MB

commons-math3-3.4.1.jar 1.94MB

LICENSE-javassist.html 25KB

spark-class.cmd 1KB

spark-sql.cmd 1KB

parquet-column-1.12.2.jar 1.9MB

hive-metastore-2.3.9.jar 7.82MB

datanucleus-core-4.1.17.jar 1.92MB

ages_newlines.csv 87B

sparkR.cmd 1KB

spark-examples_2.12-3.2.1.jar 1.49MB

_common_metadata 210B

spark-mllib_2.12-3.2.1.jar 5.85MB

INDEX 17KB

hadoop-yarn-common-2.7.4.jar 1.6MB

quickstart_df.ipynb 31KB

run-example.cmd 1KB

hadoop-hdfs-2.7.4.jar 7.96MB

scala-library-2.12.15.jar 5.19MB

.gitignore 49B

zstd-jni-1.5.0-4.jar 6.46MB

spark-sql2.cmd 1KB

.part-r-00002.gz.parquet.crc 12B

people.csv 49B

Dockerfile 1KB

jackson-databind-2.12.3.jar 1.45MB

.part-r-00007.gz.parquet.crc 12B

quickstart_ps.ipynb 4.08MB

共 1496 条

chopin406

粉丝: 5
资源: 37

Linux系统中Hadoop2.7兼容的Spark 3.2.1版发布

spark-2.3.1-bin-hadoop2.7.zip

spark-2.3.0-bin-hadoop2.7版本.zip

Linux的spark-2.3.3-bin-hadoop2.7.tgz

hadoop-3.2.1.tar.gz

hadoop-3.2.1.tar.gz 下载

val lines = sc.textFile("file:///opt/module/spark-3.2.1-bin-hadoop2.7/a.txt") 为什么没有发现sc

wget https://github.com/libffi/libffi/releases/download/v3.2.1/libffi-3.2.1.tar.gztar -zxvf libffi-3.2.1.tar.gz

在pycharm中如何将jquery-3.2.1.min.js拷贝到目录中

cas-client-core-3.2.1

commons-collections-3.2.1.jar

最新资源