无需Hadoop的Spark 3.2.0安装指南

需积分: 5 143 浏览量更新于2024-11-12 收藏 199.72MB TGZ 举报

资源摘要信息:"Apache Spark 3.2.0 是一个快速的大数据处理框架，它是基于内存计算的分布式数据处理系统，具备了易用性、灵活性以及强大的计算能力。Spark 3.2.0 的发布，对于需要处理大规模数据集的用户而言，无疑是一个重要的更新。这一版本不仅优化了性能，还增加了许多新特性和改进，以提升开发者的使用体验和系统的稳定性。安装 Spark 3.2.0 需要一个事先配置好的 Java 环境，因为 Spark 是用 Scala 编写的，而 Scala 是运行在 Java 虚拟机（JVM）上的。因此，安装 Spark 前确保已经安装并配置了 Java 开发工具包（JDK）。此外，尽管这个文件名中包含了 'without-hadoop'，说明这是一款不包含 Hadoop 组件的 Spark 发行版，但是 Spark 依旧可以与 Hadoop 集群无缝集成，以利用其存储和资源管理功能。 Spark 3.2.0 的主要功能特点包括： 1. 高级 API 的改进：Spark SQL 以及 DataFrame 和 Dataset API 的优化，使得数据分析更加便捷。 2. 性能优化：改进了任务调度和执行，以及提高了资源使用效率。 3. 强化了机器学习库 MLlib：增加了更多的机器学习算法和工具，扩展了对特征处理的支持。 4. 改善了流处理：对 Structured Streaming 做了改进，支持了更多类型的事件时间操作和窗口函数。 5. 增强了对 Kubernetes 的支持：Spark 3.2.0 在 Kubernetes 上的部署和运行有了更多的改进和增强。标签中提到的 'hadoop' 指的是 Apache Hadoop，它是一个开源框架，用于分布式存储和处理大数据。虽然 spark-3.2.0-bin-without-hadoop.tgz 是一个不包含 Hadoop 的 Spark 发行版，Spark 本身是设计来与 Hadoop 生态系统集成的。这允许 Spark 应用程序能够访问 Hadoop 支持的存储系统，如 HDFS、HBase 等，并使用 YARN 进行资源管理。文件名称列表中仅提供了一个名为 'spark-3.2.0-bin-without-hadoop' 的文件，这暗示了这是 Spark 安装包的压缩文件。'bin' 表示这是一个二进制发行版，意味着该版本包含了 Spark 的所有必需二进制文件，可以不用从源代码编译就能直接使用。'without-hadoop' 则指明这个版本的 Spark 不包括 Hadoop 相关的库和组件，它可能不包含像 Hadoop YARN 之类的资源管理器和 HDFS 之类的分布式文件系统。在实际部署 Spark 时，开发者通常需要根据具体的应用需求来选择合适的安装包。对于那些已经在使用 Hadoop 集群的用户来说，'without-hadoop' 版本可能更受青睐，因为他们不需要在 Spark 中再次集成 Hadoop 相关的组件。同时，对于那些只需要 Spark 处理能力的场景，该版本也可以减少系统复杂性和提高系统的性能。为了安装和使用 Spark 3.2.0，用户需要解压缩下载的安装包，然后设置环境变量以便在命令行中方便地调用 Spark。安装过程中，用户还需要对 Spark 进行基本配置，比如指定 Spark 的安装目录、设置内存大小等，以适应不同的工作负载和资源限制。"

收起资源包目录

spark-3.2.0-bin-without-hadoop.tgz （1399个子文件）

jersey-server-2.34.jar 925KB

R.css 1KB

arpack_combined_all-0.1.jar 1.14MB

spark-network-common_2.12-3.2.0.jar 2.3MB

spark-examples_2.12-3.2.0.jar 1.49MB

scala-library-2.12.15.jar 5.19MB

.part-r-00007.gz.parquet.crc 12B

00Index.html 133KB

Dockerfile 1KB

make.bat 1KB

.gitignore 49B

load-spark-env.cmd 2KB

sparkR2.cmd 1KB

make2.bat 2KB

spark-shell2.cmd 2KB

parquet-column-1.12.1.jar 1.9MB

setup.cfg 854B

users.avro 334B

jersey-common-2.34.jar 1.13MB

.part-r-00008.gz.parquet.crc 12B

pyspark.css 2KB

zstd-jni-1.5.0-4.jar 6.46MB

run-example.cmd 1KB

spark-mllib_2.12-3.2.0.jar 5.85MB

ages_newlines.csv 87B

spark-sql_2.12-3.2.0.jar 7.94MB

jaxb-runtime-2.3.2.jar 990KB

spark-defaults.conf 1KB

lapack-2.2.0.jar 794KB

.part-r-00002.gz.parquet.crc 12B

quickstart_df.ipynb 31KB

spark-class.cmd 1KB

spark-sql2.cmd 1KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

kubernetes-model-core-5.4.1.jar 3.59MB

spark-core_2.12-3.2.0.jar 10.33MB

jackson-databind-2.12.3.jar 1.45MB

spark-catalyst_2.12-3.2.0.jar 11.09MB

kubernetes-client-5.4.1.jar 1.08MB

LICENSE-javassist.html 25KB

find-spark-home 2KB

spark-streaming_2.12-3.2.0.jar 1.09MB

.coveragerc 872B

lpsa.data 10KB

_SUCCESS 0B

Dockerfile 1KB

spark-3.2.0-yarn-shuffle.jar 12.45MB

test.data 128B

spark-submit.cmd 1KB

scala-reflect-2.12.15.jar 3.51MB

_common_metadata 210B

beeline 1KB

.part-r-00004.gz.parquet.crc 12B

.part-r-00005.gz.parquet.crc 12B

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

ivy-2.5.0.jar 1.34MB

people.csv 49B

tink-1.6.0.jar 1.26MB

javassist-3.25.0-GA.jar 762KB

commons-math3-3.4.1.jar 1.94MB

find-spark-home.cmd 3KB

commons-compress-1.21.jar 994KB

_metadata 743B

Dockerfile 2KB

mypy.ini 3KB

_SUCCESS 0B

JTransforms-3.1.jar 1.12MB

orc-core-1.6.11.jar 986KB

spark-class2.cmd 3KB

algebra_2.12-2.0.1.jar 1.11MB

mesos-1.4.0-shaded-protobuf.jar 7MB

DESCRIPTION 2KB

user.avsc 185B

pyspark.cmd 1KB

shapeless_2.12-2.3.3.jar 3.09MB

netty-all-4.1.68.Final.jar 4.31MB

parquet-encoding-1.12.1.jar 829KB

spark-sql.cmd 1KB

snappy-java-1.1.8.4.jar 1.88MB

full_user.avsc 240B

INDEX 17KB

cats-kernel_2.12-2.1.1.jar 3.19MB

arrow-vector-2.0.0.jar 1.63MB

janino-3.0.16.jar 905KB

breeze_2.12-1.2.jar 13.31MB

AnIndex 42KB

sparkR.cmd 1KB

parquet-hadoop-1.12.1.jar 955KB

parquet-jackson-1.12.1.jar 1.79MB

pyspark2.cmd 2KB

rocksdbjni-6.20.3.jar 34.41MB

leveldbjni-all-1.8.jar 1021KB

spark-shell.cmd 1KB

beeline.cmd 1KB

ages.csv 26B

MANIFEST.in 1KB

scala-compiler-2.12.15.jar 10.47MB

quickstart_ps.ipynb 4.08MB

spark-submit2.cmd 1KB

spire_2.12-0.17.0.jar 6.91MB

共 1399 条

Hi~喜马拉雅

粉丝: 457
资源: 6

无需Hadoop的Spark 3.2.0安装指南

Python库videomass-3.2.0的安装与使用

Spark 3.2.0版本特性与Hadoop 3.2集成详解

Python客户端库：pulp_python-client-3.2.0.tar.gz解析

spark-3.2.0.tgz和spark-3.2.0-bin-hadoop2.tar.gz的区别

spark-3.2.0-bin-hadoop3.2.tgz

spark-3.2.0-bin-hadoop3-without-hive

richfaces-ui-3.2.0.GA-bin.part1.rar

richfaces-ui-3.2.0.GA-bin.part2.rar

apache-zookeeper-3.8.0-bin.tar.gz和kafka_2.13-3.2.0.tgz

NHibernate-3.2.0.GA-bin

最新资源