Scala与Spark深度学习笔记：从基础到SparkSQL

需积分: 10 138 浏览量更新于2024-07-15 收藏 5.62MB PDF 举报

"该资源是关于Spark和Scala的综合学习笔记，涵盖了从基础到进阶的多个主题，包括Scala的开发环境配置、基本语法、集合操作、面向对象编程和函数式编程，以及Spark的环境搭建、算子使用、运行原理、运行模式和SparkSQL的应用。" Spark与Scala是大数据处理领域常用的工具，Spark以其高效、易用和可扩展性受到广泛欢迎，而Scala作为其主要编程语言，结合了面向对象和函数式编程的特点。在Scala部分，笔记首先介绍了如何使用IDEA进行Scala开发，包括安装必要的插件和创建HelloWorld程序。接着，深入讲解了数据类型、常量变量和懒加载等基础概念。在集合章节中，讲解了插值器、运算符、表达式，以及各种集合如数组、List、Tuple、Set和Map的使用，包括不可变和可变集合的区别。面向对象编程部分涵盖了类、伴生对象、继承、抽象类、特质和样例类。最后，函数式编程部分涉及函数、匿名函数、高阶函数、闭包、递归和柯里化，以及重要的隐式转换。 Spark部分从环境搭建开始，包括Spark高可用（HA）的配置。Spark算子的学习是关键，包括RDD的概念、特性、算子的使用，以及如何用Java实现WordCount。Spark的运行原理深入讨论了RDD的持久化、依赖关系、调度机制、广播变量和累加器。Shuffle和分区是优化性能的重要环节，其中分区策略对并行度有直接影响。Spark运行模式包括Local、Standalone和YARN，每种模式的提交方式也进行了说明。SparkSQL部分介绍了DataFrame，它提供了更高级别的抽象，与RDD的区别在于其基于DataFrame的SQL查询能力，以及如何创建DataFrame，包括从RDD转换、读取JSON和Parquet文件。这些笔记为学习者提供了全面的Spark和Scala知识框架，有助于理解和应用这两个强大的工具进行大数据处理。

2、scala方法、函数区别

方法是一个以def开头的带有参数列表（可以无参数列表）的一个逻辑操作块，这正如object或者class

中的成员方法一样。

函数是一个赋值给一个变量（或者常量）的匿名方法（带或者不带参数列表），并且通过=>转换符号跟

上逻辑代码块的一个表达式。=>转换符号后面的逻辑代码块的写法与method的body部分相同。

注意：

有

些

翻

译

上函

数

(function)

与

方

法

(method)

是

没

有

区

别

的

。

3、函数、匿名函数



4、高阶函数

return first - second;

}

public static double multiply(double first,double second){

return first * second;

}

public static double division(double first,double second){

return first / second;

}

public static void main(String[] args) {

//计算（1+2）/3*4

//函数式实现计算

double result2 = multiply(division(add(1,2),3),4);

System.out.println("retult2:" + result2);

//函数式形变：链式

double result3 =

Operations.create(1).add(2).division(3).multiply(4).toDouble();

System.out.println("retult3:" + result3);

 }

}

//函数

 var concatstr =(a:String,b:String) => a+b

 println(concatstr("hello","snoopy"))

//匿名函数的定义

 (name:String) => { println("hello " + name) }  

 //匿名函数的使用

 ((name:String) => { println("hello " + name) } ) ("小明")

//可常见到匿名函数当实参传递

//接收其他函数作为参数的函数，被称作高阶函数

 //greeting是一个高阶函数？  greeting是一个方法，因为接收了函数作为参数则称该方法为高

阶函数？

 var sayHelloFunc = (name:String) =>println("hello,"+name)

 

 def greeting(func:(String)=>Unit,name:String){

  func(name)

8、隐式转换

隐式转换函数（implicit conversion function）是以implicit关键字声明的带有单个参数的函数，这样的

函数将被自动应用，将值从一种类型转换为另一种类型。隐式转换函数叫什么名字是无所谓的，因为通

常不会由用户手动调用，而是由Scala进行调用。但是如果要使用隐式转换，则需要对隐式转换函数进

行导入。因此通常建议将隐式转换函数的名称命名为“one2one”的形式。

我们需要某个类中的一个方法，但是这个类没有提供这样的一个方法，所以我们需要隐式转换，转换成

提供了这个方法的类，然后再调用这个方法



//柯里化

//函数表达式

var add = function(x){

 return function(y){

  return x + y;

 }

};

//函数调用

add(3)(5);

import scala.io.Source

import java.io.File



//这里的RichFile相当于File的增强类需要将被增强的类作为参数传入构造器中

class RichFile(val file: File) {

 def read = {

   Source.fromFile(file.getPath).mkString

 }

}



//implicit是隐式转换的关键字这里定义一个隐式转换函数把当前类型转换成增强的类型

object Context {

  //File --> RichFile

  implicit def file2RichFile(file: File) = new RichFile(file)

}



object Hello_Implicit_Conversions {

  def main(args: Array[String]): Unit = {

    //导入隐式转换

    import Context.file2RichFile

    //File类本身没有read方法通过隐式转换完成

    //这里的read方法是RichFile类中的方法需要通过隐式转换File --> RichFile

    println(new File("E:\\projectTest\\1.txt").read)

  

  }

}

/**

* 隐式转换是Scala中一种特殊的功能，它能将一种数据类型转换成另外一种数据类型，

* 然后这种数据类型将拥有另外一种数据类型的所有方法，可以看成是对类的一种增强。

剩余77页未读，继续阅读

海鸥~

粉丝: 52
资源: 8

Scala与Spark深度学习笔记：从基础到SparkSQL

spark-tut-2016-intro.pdf

藏经阁-Just Enough Scala for Spark.pdf

learning-apache-spark-2.pdf

Spark-Spark的开发调优.pdf

编程指南快速入门 - Spark 2.4.0文档.pdf

Scala Spark Bindings.pdf

希嘉数据中台体系--05--数据计算篇.pdf

DP-100考试大纲 .pdf

藏经阁-Typed Functional Programming.pdf

藏经阁-Monitoring the Dynamic.pdf

最新资源