深入理解Java8 Stream源码与Spark SQL/Streaming实战

需积分: 9 121 浏览量更新于2024-11-10 收藏 16.52MB ZIP 举报

资源摘要信息:"本资源主要是关于Java8 Stream源码的学习，以及使用Spark进行SQL和Streaming学习的项目。在学习过程中，作者使用Scala版本进行学习，而在企业生产中则使用Java版本，因此，项目中也包含了用Java重构的部分。项目结构分为实战项目和日常测试项目，所有的数据都存放在data目录下。本资源还对Spark及其生态圈进行了概述，详细讲解了其产生的背景和MapReduce的局限性。" 首先，Java8 Stream是Java 8中引入的一个重要的新特性，它提供了一种高效处理集合的方式。Stream API可以让我们以声明性的方式处理数据，它可以串行执行，也可以并行执行，提高了程序的执行效率。Stream API主要包括Stream源、中间操作和终止操作三个部分。其次，Spark是一个快速、通用、可扩展的大数据处理框架。它有四个主要的组件：Spark Core，Spark SQL，Spark Streaming和Spark MLlib。其中，Spark SQL用于处理结构化数据，Spark Streaming用于处理实时数据流，Spark MLlib用于机器学习。在这个项目中，作者将Spark SQL和Spark Streaming分别放到了两个目录下，每个目录下都有一个Actual-Project和一个learning-project。Actual-Project是实战项目，用于检验学习成果；learning-project是学习过程中用于日常测试的项目。所有的数据都存放在data目录下，学习者可以自行下载，并在执行程序时修改路径。作者还对Spark及其生态圈进行了概述。他指出，Spark的产生主要是为了解决MapReduce的局限性。MapReduce是一种编程模型，用于大规模数据集的并行运算。但是，MapReduce的代码非常繁琐，只能支持map和reduce两种方法，执行效率低下。此外，MapReduce在处理过程中需要将map处理完的数据回写到磁盘，reduce再从磁盘上把数据拉取过来，这也导致了执行效率的低下。MapReduce中的map和reduce都会对应一个jvm，因此作业量大时，线程开销非常庞大。MapReduce不适合进行迭代多次，交互感很低，不支持流式处理。总体来说，这个资源对Java8 Stream的源码进行了深入的研究，同时也提供了一个实践项目，让学习者可以在实践中学习Spark SQL和Spark Streaming。资源中还详细讲解了Spark及其生态圈的产生背景和特点，对于学习者来说，是一个非常好的学习资源。

资源目录

收起资源包目录

深入理解Java8 Stream源码与Spark SQL/Streaming实战（182个子文件）

DataFrameApp.class 690B

DataFrameRDDApp$Info.class 3KB

scala-strain.iml 80B

DataFrameCase$Student.class 3KB

DayVideoTrafficsStat$.class 2KB

StatDAO$.class 4KB

DataFrameRDDApp$$anonfun$3.class 1KB

MySQLUtils.class 2KB

TopNStatJob.class 2KB

VideoAccessTopNDAO.class 4KB

DataFrameRDDApp$$anonfun$2.class 2KB

ipDatabase.csv 4.75MB

DataFrameCase$$typecreator13$1.class 2KB

SparkStatCleanJob$$anonfun$1.class 1KB

TopNStatJob$$anonfun$videoTrafficsTopNStat$1.class 2KB

commons-collections-3.2.1.jar 562KB

scala-strain.iml 80B

DatasetApp$.class 3KB

SparkSQLThriftServerApp$.class 2KB

VideoAccessTopNServlet.class 2KB

SQLContextApp$.class 2KB

student.data 1KB

MySQLUtils.class 1KB

web.iml 80B

commons-lang-2.5.jar 273KB

VideoAccessTopN.class 756B

DataFrameRDDApp$Info$.class 2KB

DataFrameRDDApp$.class 6KB

MySQLUtils.class 2KB

IpUtils$.class 908B

DatasetApp$Sales$.class 2KB

SparkSQLThriftServerApp.class 759B

DateUtils$.class 2KB

SparkStatCleanJobYarn$.class 4KB

SQLContextApp.class 696B

ParquetApp$.class 2KB

HiveMySQLApp.class 690B

sales.csv 239B

TopNStatJob$$anonfun$videoAccessTopNStat2$1$$anonfun$apply$1.class 2KB

SparkSessionApp.class 709B

SparkStatCleanJobYarn.class 770B

AccessConvertUtil.class 975B

StatDAO$$anonfun$insertDayVideoTrafficsAccessTopN$1.class 2KB

DayVideoTrafficsStat.class 5KB

topn.html 2KB

AccessConvertUtil$.class 3KB

StatDAO$$anonfun$insertDayCityVideoAccessTopN$1.class 2KB

SparkStatCleanJob$.class 3KB

VideoAccessTopN.class 756B

DataFrameApp$.class 3KB

scala-strain-1.0.jar 964KB

mysql-connector-java-5.1.38.jar 961KB

test.html 2KB

TopNStatJob$$anonfun$videoTrafficsTopNStat$1$$anonfun$apply$3.class 2KB

servlet-api-2.5.jar 103KB

IpUtils.class 846B

DayVideoAccessStat$.class 2KB

DateUtils.class 1KB

commons-beanutils-1.8.0.jar 226KB

DataFrameCase$$anonfun$3.class 1KB

json-lib-2.4-jdk15.jar 155KB

DataFrameRDDApp.class 2KB

DatasetApp.class 2KB

DataFrameCase.class 2KB

MySQLUtils$.class 1KB

TopNStatJob$$anonfun$cityAccessTopNStat$1$$anonfun$apply$2.class 2KB

DataFrameRDDApp$$anonfun$1.class 1KB

DataFrameCase$$anonfun$2.class 2KB

StatDAO.class 2KB

DataFrameRDDApp$$typecreator5$1.class 2KB

StatDAO$$anonfun$insertDayVideoAccessTopN$1.class 2KB

DayCityVideoAccessStat.class 6KB

TopNStatJob$$anonfun$cityAccessTopNStat$1.class 2KB

SQLContextApp.class 696B

DataFrameCase$$typecreator5$1.class 2KB

SparkStatCleanJobYarn$$anonfun$1.class 1KB

DataFrameCase$$anonfun$main$1.class 1KB

DataFrameCase$$anonfun$4.class 2KB

HiveMySQLApp$.class 3KB

TopNStatJob$.class 7KB

HiveContextApp$.class 1KB

VideoAccessTopNDAO.class 4KB

DayVideoAccessStat.class 5KB

VideoAccessTopNServlet.class 2KB

DatasetApp$$typecreator4$1.class 2KB

ipDatabase.csv 4.75MB

ParquetApp.class 677B

SparkSessionApp$.class 2KB

DayCityVideoAccessStat$.class 3KB

StatDAO$$anonfun$deleteData$1.class 2KB

DataFrameCase$$anonfun$1.class 1KB

DataFrameRDDApp$$anonfun$4.class 2KB

DatasetApp$$anonfun$main$1.class 1KB

HiveContextApp.class 703B

SQLContextApp$.class 2KB

DatasetApp$Sales.class 3KB

SparkStatCleanJob.class 744B

DataFrameCase$.class 6KB

TopNStatJob$$anonfun$videoAccessTopNStat2$1.class 2KB

DataFrameCase$Student$.class 2KB

共 182 条

weixin_38564598

粉丝: 2
资源: 906

深入理解Java8 Stream源码与Spark SQL/Streaming实战

Java8集合源码深度解析：Spark数据分析技术

深入理解Java 8 Stream源码与Spark学习指南

Java8 Stream源码解读：mJDBC高效JDBC包装器剖析

java8stream源码-Learning-Spark:学习Spark的代码，关于SparkCore、SparkSQL、SparkStrea

java8stream源码-LearnSpringCloud:学习SpringCloud

java8stream源码-Streams:JavaStream概览

java8stream源码-JavaTraining:Java培训

java8stream源码-YaitLambdas:YaitLambdas

java8stream源码-qwertyuiop:qwertyuiop

java8stream源码-JPP:JPP

最新资源