深度学习500问：数学与机器学习基础解析

5星 · 超过95%的资源需积分: 50 105 浏览量更新于2024-07-16 5 收藏 89.26MB PDF 举报

"深度学习500问.pdf" 是一份基于GitHub开源项目整理的深度学习知识问答集，由CrisLee编辑，包含了从数学基础到机器学习基础等多个方面的深度学习相关问题。该项目链接为<https://github.com/scutan90/DeepLearning-500-questions>。该文档首先介绍了数学基础，包括标量、向量、张量的概念及其相互关系，矩阵与向量的运算，矩阵的正定性，导数和偏导数的区别，以及概率论的基础知识，如特征值分解、奇异值与特征值的关系，概率分布，条件概率，联合概率与边缘概率，独立性与条件独立性，以及期望、方差、协方差和相关系数等统计概念。在机器学习基础部分，文档涵盖了各种机器学习算法的图示，如监督学习、非监督学习、半监督学习和弱监督学习的定义，监督学习的步骤，多实例学习，分类网络与回归任务的区别，神经网络的定义，常见分类算法的优缺点，评估分类算法的方法，以及大数据与深度学习的关联。此外，还深入讨论了局部最优与全局最优的概念，逻辑回归的原理，逻辑回归与朴素贝叶斯的区别，代价函数和损失函数的作用，以及梯度下降法在优化过程中的应用，包括其不同变体（如随机梯度下降和批量梯度下降）的比较。文档还涉及了梯度下降法的优化策略，包括如何理解和调整算法，以及梯度下降法的局限性。计算图的概念也被提及，这在深度学习模型的反向传播过程中非常重要。这份文档是深度学习初学者和进阶者的重要参考资料，它提供了全面而深入的问题解答，帮助读者巩固和深化对深度学习理论基础的理解。通过阅读和学习，可以系统性地掌握深度学习所需的数学知识和机器学习算法，为实际的模型构建和训练打下坚实的基础。

第一章 数学基础
1 向量和矩阵
1.1 标量、向量、矩阵、张量之间的联系
1.2 张量与矩阵的区别
1.3 矩阵和向量相乘结果   
1.4 向量和矩阵的范数归纳  
1.5 如何判断一个矩阵为正定
2 导数和偏导数
2.1 导数偏导计算
2.2 导数和偏导数有什么区别？  
3 特征值和特征向量
3.1 特征值分解与特征向量  
3.2 奇异值与特征值有什么关系
4 概率分布与随机变量
4.1 机器学习为什么要使用概率
4.2 变量与随机变量有什么区别  
4.3 随机变量与概率分布的联系
4.4 离散型随机变量和概率质量函数
4.5 连续型随机变量和概率密度函数
4.6 举例理解条件概率  
4.7 联合概率与边缘概率联系区别  
4.8 条件概率的链式法则  
4.9 独立性和条件独立性
5 常见概率分布
5.1 Bernoulli分布
5.2 高斯分布
5.3 何时采用正态分布
5.4 指数分布
5.5 Laplace 分布
5.6 Dirac分布和经验分布
6 期望、方差、协方差、相关系数
6.1 期望 
6.2 方差
6.3 协方差
6.4 相关系数
参考文献

第一章 数学基础  
深度学习通常又需要哪些数学基础？深度学习里的数学到底难在哪里？通常初学者都会有这些问题，在
网络推荐及书本推荐里，经常看到会列出一系列数学科目，比如微积分、线性代数、概率论、复变函
数、数值计算、优化理论、信息论等等。这些数学知识有相关性，但实际上按照这样的知识范围来学
习，学习成本会很久，而且会很枯燥，本章我们通过选举一些数学基础里容易混淆的一些概念做以介
绍，帮助大家更好的理清这些易混淆概念之间的关系。
1 向量和矩阵  
1.1 标量、向量、矩阵、张量之间的联系  

标量（scalar）

一个标量表示一个单独的数，它不同于线性代数中研究的其他大部分对象（通常是多个数的数组）。我

们用斜体表示标量。标量通常被赋予小写的变量名称。

向量（vector）

一个向量表示一组有序排列的数。通过次序中的索引，我们可以确定每个单独的数。通常我们赋予向量

粗体的小写变量名称，比如xx。向量中的元素可以通过带脚标的斜体表示。向量的第一个元素是

，第二个元素是，以此类推。我们也会注明存储在向量中的元素的类型（实数、虚数等）。

矩阵（matrix）

矩阵是具有相同特征和纬度的对象的集合，表现为一张二维数据表。其意义是一个对象表示为矩阵中的

一行，一个特征表示为矩阵中的一列，每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名

称，比如。

张量（tensor）

在某些情况下，我们会讨论坐标超过两维的数组。一般地，一个数组中的元素分布在若干维坐标的规则

网格中，我们将其称之为张量。使用来表示张量“A”。张量中坐标为的元素记作。

四者之间关系

标量是0阶张量，向量是一阶张量。举例：

标量就是知道棍子的长度，但是你不会知道棍子指向哪儿。

向量就是不但知道棍子的长度，还知道棍子指向前面还是后面。

张量就是不但知道棍子的长度，也知道棍子指向前面还是后面，还能知道这棍子又向上/下和左/

右偏转了多少。

1.1.2 张量与矩阵的区别

从代数角度讲，矩阵它是向量的推广。向量可以看成一维的“表格”（即分量按照顺序排成一排），

矩阵是二维的“表格”（分量按照纵横位置排列），那么阶张量就是所谓的维的“表格”。张量的

严格定义是利用线性映射来描述。

从几何角度讲，矩阵是一个真正的几何量，也就是说，它是一个不随参照系的坐标变换而变化的

东西。向量也具有这种特性。

张量可以用3×3矩阵形式来表达。

表示标量的数和表示向量的三维数组也可分别看作1×1，1×3的矩阵。

1.1.3 矩阵和向量相乘结果

若使用爱因斯坦求和约定（Einstein summation convention），矩阵 , 相乘得到矩阵可以用下式

表示：

其中， , , 分别表示矩阵的元素，出现两次，是一个哑变量（Dummy Variables）表示

对该参数进行遍历求和。

而矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况，例如：矩阵是一个的矩阵。

1.1.4 向量和矩阵的范数归纳

向量的范数(norm)

定义一个向量为：。任意一组向量设为。其不同范数求解

如下：

向量的1范数：向量的各个元素的绝对值之和，上述向量的1范数结果就是：29。

则称此极限为函数在点处的导数。记作或或或。

通俗地说，导数就是曲线在某一点切线的斜率。

偏导数:

既然谈到偏导数(partial derivative)，那就至少涉及到两个自变量。以两个自变量为例，，

从导数到偏导数，也就是从曲线来到了曲面。曲线上的一点，其切线只有一条。但是曲面上的一点，切

线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注

意

：直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

设函数在点的领域内有定义，当时，可以看作关于的一元函数，

若该一元函数在处可导，即有

函数的极限存在。那么称为函数在点处关于自变量的偏导数，记作

或或或。

偏导数在求解时可以将另外一个变量看做常数，利用普通的求导方式求解，比如关于的

偏导数就为，这个时候相当于的系数。

某点处的偏导数的几何意义为曲面与面或面交线在或

处切线的斜率。

1.2.2 导数和偏导数有什么区别？

导数和偏导没有本质区别，如果极限存在，都是当自变量的变化量趋于0时，函数值的变化量与自变量

变化量比值的极限。

一元函数，一个对应一个，导数只有一个。

二元函数，一个对应一个和一个，有两个导数：一个是对的导数，一个是对的导

数，称之为偏导。

求偏导时要注意，对一个变量求导，则视另一个变量为常数，只对改变量求导，从而将偏导

的求解转化成了一元函数的求导。

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors)；

特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。

如果说一个向量是方阵的特征向量，将一定可以表示成下面的形式：

为特征向量对应的特征值。特征值分解是将一个矩阵分解为如下形式：

其中，是这个矩阵的特征向量组成的矩阵，是一个对角矩阵，每一个对角线元素就是一个特征

值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主

要的变化到次要的变化排列）。也就是说矩阵的信息可以由其特征值和特征向量表示。

剩余584页未读，继续阅读

Cris_Lee卡卡卡

粉丝: 104
资源: 1

深度学习500问：数学与机器学习基础解析

深度学习500问的pdf版本

DeepLearning-500-questions.zip

深度学习500问pdf版2019年7.zip

深度学习 表征学习.pdf

深度学习500问PDF.zip

深度学习活动报道.pdf

深度学习研究进展.pdf

深度学习技术介绍.pdf

深度学习研究综述.pdf

深度学习的研究.pdf

最新资源

深度学习表征学习.pdf