大数据与算法精要：从基础到深度学习

40 浏览量更新于2024-07-18 收藏 14.89MB PDF 举报

"本书是大数据实战全栈式工程师的成长修炼笔记，涵盖了大数据技术、机器学习算法和深度学习等内容。书中详细介绍了Scala编程语言，包括基本语法、函数式编程、类和对象等，并涉及Hadoop、Spark、Alluxio、Hive、Kylin、Drill、Kafka、Storm、Zookeeper、Oozie等相关大数据处理和存储系统。同时，书中还提到了常见的数据算法模型，如回归、分类、聚类、过滤、降维和深度学习。" 在大数据领域，本书首先关注的是Scala，一种广泛用于大数据处理的编程语言。Scala的特性包括强大的类型系统、函数式编程概念以及面向对象设计的灵活性。书中深入讲解了Scala的基础，例如解释器、IDE、SBT构建工具以及各种基本语法元素，如数据类型、变量、操作符、控制结构和模式匹配。函数式编程部分涵盖了函数定义、参数、闭包、高阶函数等核心概念。在大数据平台方面，本书涵盖了Hadoop作为大数据存储系统，Spark作为统一堆栈的大数据计算引擎，Alluxio作为分布式内存文件系统，Hive作为数据仓库，以及Apache Kylin和Drill在OLAP（在线分析处理）中的应用。此外，还讨论了消息中间件Kafka在数据传输中的作用，实时流处理系统Storm，分布式协调服务框架Zookeeper，以及作业流调度框架Oozie，这些都是大数据生态系统中不可或缺的组件。在算法部分，书中提到了几种常用的数据分析模型。回归分析用于预测连续变量；分类算法帮助我们将数据分配到预定义的类别中；聚类则将数据自动分组，发现隐藏的结构；过滤算法常用于推荐系统，根据用户历史行为进行个性化推荐；降维技术如主成分分析（PCA）能减少数据复杂性，便于可视化和分析；而深度学习，作为人工智能的一个分支，利用神经网络进行复杂的模式识别和预测任务。这本书为读者提供了全面的大数据知识体系，包括技术栈、编程语言和数据分析方法，对于希望成为全栈式大数据工程师的人来说，是一份宝贵的资源。通过学习，读者不仅可以掌握大数据处理的工具和技术，还能理解并运用各种机器学习算法，提升在大数据领域的专业素养。

scala 类似于 c++、java，索引也是从 0 开始，但元组是个例外，它从 1 开始。

1.5.2

、数据类型

scala 有 7 种数值类型：Byte、Char、Short、Int、Long、Float 和 Double，

以及 2 种非数值类型：Boolean 和 Unit（只有一个值“()”，相当于 java 和 c++

中的 void，即空值）。这些类型都是抽象的 final 类(不能使用 new 新建，也不

能被继承)，在 scala 包中定义，是对 java 基本数据类型的包装，因此与 java 基

本数据类型有相同的长度。同时，scala 还提供了 RichInt、RichChar 等等，它们

分别提供 Int、Char 等所不具备的便捷方法。

另外，scala 沿用了 java.lang 包中的 String。在 scala 中，常量也称作字面量，

字符串字面量由双引号包含的字符组成，同时 scala 提供了另一种定义字符串常

量的语法——原始字符串，它以三个双引号作为开始和结束，字符串内部可以包

含无论何种任意字符。

在 scala 中，我们使用方法，而不是强制类型转换，来做数值类型之间的转

换，如 99.44.toInt、97.toChar。另外也可以参见显式类型转换和隐式转换。

1.5.3

、变量

scala 有两种变量：val 和 var。val 如同 java 中的 final 变量，var 如同 java

中的非 final 变量。由于 scala 是完全面向对象的，因此 val 和 var 只是声明了对

象的引用是不可变的还是可变的，并不能说明引用指向的对象的可变性。声明变

量的同时需要初始化之，否则该变量就是抽象的。如果不指定变量的类型，编译

器会从初始化它的表达式中推断出其类型。当然你也可以在必要的时候指定其类

型，但注意，在 scala 中变量或函数的类型总是写在变量或函数的名称的后边。

示例如下：

val answer = “yes”

val answer, message: String = “yes”

1.5.4

、标识符

scala 标识符有四种形式：字母数字标识符、操作符标识符、混合标识符、

字面量标识符。

字母数字标识符：跟其他语言类似，由字母、数字和下划线组成，但需注意

“$”字符被保留作为 scala 编译器产生的标识符之用，你不要随意使用它啊。

操作符标识符：由一个或多个操作符字符组成。scala 编译器将在内部“粉

碎”操作符标识符以转换成合法的内嵌“$”的 java 标识符。若你想从 java 代码

中访问这个标识符，就应该使用这种内部表示方式。

混合标识符：由字母数字以及后面跟着的下划线和一个操作符标识符组成。

如 unary_+定义了一个前缀操作符“+”。

字面量标识符：是用反引号`…`包含的任意字符串，scala 将把被包含的字符

串作为标识符，即使被包含字符串是 scala 的关键字。例如：你可以使用

Thread.`yield`()来访问 java 中的方法，即使 yield 是 scala 的关键字。

1.5.5

、操作符

scala 的操作符和你在 java 和 C++中的预期效果是一样的，但注意 scala 并

不提供++、--操作符。不过，scala 中的操作符实际上都是方法，任何方法都可

以当作操作符使用，如 a + b 相当于 a.+(b)。

需要注意的是：对于不可变对象(注：对象的不可变并不是说它的引用变量

是 val 的)，并不真正支持类似于“+=”这样以“=”结尾的操作符(即方法)，不

过 scala 还是提供了一些语法糖，用以解释以“=”结尾的操作符用于不可变对

象的情况。假设 a 是不可变对象的引用，那么在 scala 中 a += b 将被解释为 a = a

+ b，这时就相当于新建一个不可变对象重新赋值给引用 a，前提是引用变量 a

要声明为 var 的，因为 val 变量定义之后是不可变的。

1.5.6

、块表达式与赋值

在 scala 中，{}块包含一系列表达式，其结果也是一个表达式，块中最后一

个表达式的值就是其值。

在 scala 中，赋值语句本身的值是 Unit 类型的。因此如下语句的值为“()”：

{r = r * n; n -= 1}

正是由于上述原因，scala 中不能多重赋值，而 java 和 c++却可以多重赋值。

因此，在 scala 中，如下语句中的 x 值为“()”：

x = y = 1

1.5.7

、控制结构

scala 和其他编程语言有一个根本性差异：在 scala 中，几乎所有构造出来的

语法结构都有值。这个特性使得程序结构更加精简。scala 内建的控制结构很少，

剩余495页未读，继续阅读

ruigeGR

粉丝: 0

大数据与算法精要：从基础到深度学习

大数据算法测验答案解析及关键领域概述

现代大数据算法：Java技术解析

大数据算法在数据分析中的应用与实践

大数据算法期末复习.pdf

Spark大数据算法平台.pptx

大数据算法章节测验答案.docx

UIUC CS598CSC 大数据算法讲义

大数据算法分析与设计实验报告.docx

大数据算法在数据分析中的应用学习与总结

大数据算法与数据结构精华解析

最新资源