Apache Spark 2.1.1 版本详解与下载

spark-2.1.1

需积分: 13 55 浏览量更新于2024-10-28 收藏 188.58MB RAR 举报

资源摘要信息:"Apache Spark 2.1.1 版本是一个开源的快速大数据处理框架，它构建在Hadoop的生态系统之上，提供了一个全面、统一的框架用于大数据计算。该版本特别针对Hadoop 2.7版本进行了优化和兼容性测试，旨在为用户提供一个高效的处理和分析大规模数据集的能力。Apache Spark 2.1.1版本支持多种数据处理操作，包括批处理、流处理、机器学习和图计算，并且提供了一个高级的API，允许开发者以Scala、Java、Python或R语言进行编程。在这个版本中，Spark 开发者集中对性能和稳定性进行了大量改进，以及增加了一些新特性。这些改进包括但不限于对Spark SQL的增强，它允许用户更高效地对结构化数据进行查询和分析。此外，Spark Streaming在这一版本中也有了性能上的提升，使得实时数据处理更加迅速可靠。 Spark 2.1.1还对机器学习库MLlib和图处理库GraphX进行了更新，加入了更多的算法和性能提升。MLlib是Spark的核心库之一，它为机器学习提供了丰富的功能，让开发者能够执行大规模的机器学习任务。GraphX则是一个为图形计算设计的库，支持大规模图处理和分析。对于初学者而言，Spark提供了一个易于理解的编程模型，允许用户通过定义RDD（弹性分布式数据集）的转换和行动来编写应用。RDD是Spark中的一个核心概念，它是一个不可变的分布式对象集合，可以让用户以容错的方式处理和存储在内存中的大规模数据集。此版本还改进了与Hadoop生态系统的兼容性，增强了对HDFS（Hadoop Distributed File System）的支持，允许用户利用HDFS进行数据存储和管理。此外，Spark 2.1.1还优化了YARN（Yet Another Resource Negotiator）集成，允许用户更有效地管理集群资源，并且能够在YARN之上运行Spark作业。总的来说，Apache Spark 2.1.1是一个功能强大的大数据处理平台，适合处理需要快速计算能力的各类大数据应用。无论是对于数据科学家、工程师还是分析师，Spark都提供了丰富的工具和API来满足他们对数据处理的各种需求。" 请注意，由于提供的信息有限，以上内容是基于标题和描述中提供的信息，以及对于Apache Spark 2.1.1版本的通用知识所作出的详细总结。

收起资源包目录

spark-2.1.1-bin-hadoop2.7 （1272个子文件）

sparkR2.cmd 1014B

union.html 18KB

insertInto.html 18KB

load-spark-env.cmd 2KB

take.html 18KB

pyspark.css 2KB

R.css 1KB

.part-r-00002.gz.parquet.crc 12B

crossJoin.html 18KB

with.html 18KB

ages.csv 26B

write.text.html 18KB

spark-class.cmd 1012B

user.avsc 185B

AnIndex 22KB

full_user.avsc 240B

collect.html 18KB

rbind.html 18KB

limit.html 18KB

dropDuplicates.html 18KB

test.data 128B

dim.html 18KB

unpersist.html 18KB

_SUCCESS 0B

spark-submit.cmd 1012B

find-spark-home 2KB

write.parquet.html 18KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

write.df.html 19KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

coalesce.html 21KB

00Index.html 75KB

merge.html 20KB

columns.html 18KB

drop.html 18KB

registerTempTable-deprecated.html 18KB

.part-r-00008.gz.parquet.crc 12B

sparkR.cmd 1000B

.part-r-00005.gz.parquet.crc 12B

str.html 18KB

showDF.html 18KB

write.orc.html 18KB

SparkDataFrame.html 18KB

_metadata 743B

gapplyCollect.html 20KB

users.avro 334B

beeline.cmd 899B

groupBy.html 18KB

spark-shell2.cmd 1KB

spark-shell.cmd 1010B

.part-r-00007.gz.parquet.crc 12B

pyspark2.cmd 1KB

gapply.html 20KB

first.html 22KB

persist.html 18KB

pyspark.cmd 1002B

randomSplit.html 18KB

spark-submit2.cmd 1KB

rename.html 18KB

summarize.html 21KB

except.html 18KB

setup.cfg 854B

write.json.html 18KB

explain.html 18KB

attach.html 18KB

withColumn.html 18KB

_SUCCESS 0B

head.html 18KB

as.data.frame.html 18KB

intersect.html 18KB

dapplyCollect.html 18KB

show.html 18KB

beeline 1KB

coltypes.html 18KB

summary.html 18KB

DESCRIPTION 1KB

.gitignore 49B

arrange.html 18KB

lpsa.data 10KB

filter.html 19KB

.part-r-00004.gz.parquet.crc 12B

subset.html 20KB

createOrReplaceTempView.html 18KB

histogram.html 18KB

ncol.html 18KB

_common_metadata 210B

make.bat 193B

run-example.cmd 988B

sample.html 18KB

nafunctions.html 19KB

dapply.html 19KB

mutate.html 18KB

join.html 19KB

make2.bat 6KB

repartition.html 18KB

write.jdbc.html 19KB

select.html 19KB

selectExpr.html 18KB

saveAsTable.html 19KB

spark-class2.cmd 2KB

共 1272 条

简单的小呆瓜

粉丝: 2w+
资源: 23

Apache Spark 2.1.1 版本详解与下载

spark-2.1.1-bin-hadoop2.7.tgz.7z

spark-2.1.1-bin-hadoop2.7.tar.gz

spark-2.1.1-bin-hadoop2.7.tar.bz2 亲测可用

将/home/zkpk/spark-2.1.1-bin-hadoop2.7/jars中的jar包拷贝到项目的lib文件夹中，这些jar包为Spark程序的基础编译环境，报错怎么解决

scala在lib文件中手动添加jar包，将/home/zkpk/spark-2.1.1-bin-hadoop2.7/jars中的jar包拷贝到项目的lib文件夹中，这些jar包为Spark程序的基础编译环境

spark-2.1.1-bin-hadoop2.6.tgz

spark-2.2.1-bin-hadoop2.7.tgz

spark-3.2.1-bin-hadoop2.7.tgz

apache-hive-2.1.1-bin

apache-kylin-4.0.1-bin-spark2-3.0.0-cdh6.2.0.tar.gz

最新资源