没有合适的资源?快使用搜索试试~ 我知道了~
首页深度学习500问:数学与机器学习基础解析
"深度学习500问.pdf" 是一份基于GitHub开源项目整理的深度学习知识问答集,由CrisLee编辑,包含了从数学基础到机器学习基础等多个方面的深度学习相关问题。该项目链接为<https://github.com/scutan90/DeepLearning-500-questions>。 该文档首先介绍了数学基础,包括标量、向量、张量的概念及其相互关系,矩阵与向量的运算,矩阵的正定性,导数和偏导数的区别,以及概率论的基础知识,如特征值分解、奇异值与特征值的关系,概率分布,条件概率,联合概率与边缘概率,独立性与条件独立性,以及期望、方差、协方差和相关系数等统计概念。 在机器学习基础部分,文档涵盖了各种机器学习算法的图示,如监督学习、非监督学习、半监督学习和弱监督学习的定义,监督学习的步骤,多实例学习,分类网络与回归任务的区别,神经网络的定义,常见分类算法的优缺点,评估分类算法的方法,以及大数据与深度学习的关联。此外,还深入讨论了局部最优与全局最优的概念,逻辑回归的原理,逻辑回归与朴素贝叶斯的区别,代价函数和损失函数的作用,以及梯度下降法在优化过程中的应用,包括其不同变体(如随机梯度下降和批量梯度下降)的比较。 文档还涉及了梯度下降法的优化策略,包括如何理解和调整算法,以及梯度下降法的局限性。计算图的概念也被提及,这在深度学习模型的反向传播过程中非常重要。 这份文档是深度学习初学者和进阶者的重要参考资料,它提供了全面而深入的问题解答,帮助读者巩固和深化对深度学习理论基础的理解。通过阅读和学习,可以系统性地掌握深度学习所需的数学知识和机器学习算法,为实际的模型构建和训练打下坚实的基础。
资源详情
资源推荐
第一章 数学基础
1.1 向量和矩阵
1.1.1 标量、向量、矩阵、张量之间的联系
1.1.2 张量与矩阵的区别
1.1.3 矩阵和向量相乘结果
1.1.4 向量和矩阵的范数归纳
1.1.5 如何判断一个矩阵为正定
1.2 导数和偏导数
1.2.1 导数偏导计算
1.2.2 导数和偏导数有什么区别?
1.3 特征值和特征向量
1.3.1 特征值分解与特征向量
1.3.2 奇异值与特征值有什么关系
1.4 概率分布与随机变量
1.4.1 机器学习为什么要使用概率
1.4.2 变量与随机变量有什么区别
1.4.3 随机变量与概率分布的联系
1.4.4 离散型随机变量和概率质量函数
1.4.5 连续型随机变量和概率密度函数
1.4.6 举例理解条件概率
1.4.7 联合概率与边缘概率联系区别
1.4.8 条件概率的链式法则
1.4.9 独立性和条件独立性
1.5 常见概率分布
1.5.1 Bernoulli分布
1.5.2 高斯分布
1.5.3 何时采用正态分布
1.5.4 指数分布
1.5.5 Laplace 分布
1.5.6 Dirac分布和经验分布
1.6 期望、方差、协方差、相关系数
1.6.1 期望
1.6.2 方差
1.6.3 协方差
1.6.4 相关系数
参考文献
第一章 数学基础
深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在
网络推荐及书本推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函
数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学
习,学习成本会很久,而且会很枯燥,本章我们通过选举一些数学基础里容易混淆的一些概念做以介
绍,帮助大家更好的理清这些易混淆概念之间的关系。
1.1 向量和矩阵
1.1.1 标量、向量、矩阵、张量之间的联系
标量(scalar)
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我
们用斜体表示标量。标量通常被赋予小写的变量名称。
向量(vector)
一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量
粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量 的第一个元素是
,第二个元素是 ,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
矩阵(matrix)
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的
一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名
称,比如 。
张量(tensor)
在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则
网格中,我们将其称之为张量。使用 来表示张量“A”。张量 中坐标为 的元素记作 。
四者之间关系
标量是0阶张量,向量是一阶张量。举例:
标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/
右偏转了多少。
1.1.2 张量与矩阵的区别
从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排),
矩阵是二维的“表格”(分量按照纵横位置排列), 那么 阶张量就是所谓的 维的“表格”。 张量的
严格定义是利用线性映射来描述。
从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的
东西。向量也具有这种特性。
张量可以用3×3矩阵形式来表达。
表示标量的数和表示向量的三维数组也可分别看作1×1,1×3的矩阵。
1.1.3 矩阵和向量相乘结果
若使用爱因斯坦求和约定(Einstein summation convention),矩阵 , 相乘得到矩阵 可以用下式
表示:
其中, , , 分别表示矩阵 的元素, 出现两次,是一个哑变量(Dummy Variables)表示
对该参数进行遍历求和。
而矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况,例如:矩阵 是一个 的矩阵。
1.1.4 向量和矩阵的范数归纳
向量的范数(norm)
定义一个向量为: 。任意一组向量设为 。其不同范数求解
如下:
向量的1范数:向量的各个元素的绝对值之和,上述向量 的1范数结果就是:29。
向量的2范数:向量的每个元素的平方和再开平方根,上述 的2范数结果就是:15。
向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量 的负无穷范数结果就是:5。
向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量 的正无穷范数结果就是:10。
向量的p范数:
矩阵的范数
定义一个矩阵 。 任意矩阵定义为: ,其元素为 。
矩阵的范数定义为
当向量取不同范数时, 相应得到了不同的矩阵范数。
矩阵的1范数(列范数):矩阵的每一列上的元
素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵 的1范数先得到 ,再取最大
的最终结果就是:9。
矩阵的2范数:矩阵 的最大特征值开平方根,上述矩阵 的2范数得到的最终结果是:
10.0623。
其中, 为 的特征值绝对值的最大值。
矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最
大),上述矩阵 的行范数先得到
;
,再取最大的最终结果就是:16。
矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化
核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。
矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀
疏,上述矩阵 最终结果就是:6。
矩阵的L1范数:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀
疏,上述矩阵 最终结果就是:22。
矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于
它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。
矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再
将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范
数,上述矩阵 最终结果就是:17.1559。
矩阵的 p范数
1.1.5 如何判断一个矩阵为正定
判定一个矩阵是否为正定,通常有以下几个方面:
顺序主子式全大于0;
存在可逆矩阵 使 等于该矩阵;
正惯性指数等于 ;
合同于单位矩阵 (即:规范形为 )
标准形中主对角元素全为正;
特征值全为正;
是某基的度量矩阵。
1.2 导数和偏导数
1.2.1 导数偏导计算
导数定义:
导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意
义是这个点的切线。物理意义是该时刻的(瞬时)变化率。
注
意
:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元
函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有
其中 表示平均速度, 表示路程, 表示时间。这个公式可以改写为
其中 表示两点之间的距离,而 表示走过这段距离需要花费的时间。当 趋向于0( )
时,也就是时间变得很短时,平均速度也就变成了在 时刻的瞬时速度,表示成如下形式:
实际上,上式表示的是路程 关于时间 的函数在 处的导数。一般的,这样定义导数:如果平均变
化率的极限存在,即有
则称此极限为函数 在点 处的导数。记作 或 或 或 。
通俗地说,导数就是曲线在某一点切线的斜率。
偏导数:
既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例, ,
从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切
线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
注
意
:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
设函数 在点 的领域内有定义,当 时, 可以看作关于 的一元函数 ,
若该一元函数在 处可导,即有
函数的极限 存在。那么称 为函数 在点 处关于自变量 的偏导数,记作
或 或 或 。
偏导数在求解时可以将另外一个变量看做常数,利用普通的求导方式求解,比如 关于 的
偏导数就为 ,这个时候 相当于 的系数。
某点 处的偏导数的几何意义为曲面 与面 或面 交线在 或
处切线的斜率。
1.2.2 导数和偏导数有什么区别?
导数和偏导没有本质区别,如果极限存在,都是当自变量的变化量趋于0时,函数值的变化量与自变量
变化量比值的极限。
一元函数,一个 对应一个 ,导数只有一个。
二元函数,一个 对应一个 和一个 ,有两个导数:一个是 对 的导数,一个是 对 的导
数,称之为偏导。
求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导
的求解转化成了一元函数的求导。
1.3 特征值和特征向量
1.3.1 特征值分解与特征向量
特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);
特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。
如果说一个向量 是方阵 的特征向量,将一定可以表示成下面的形式:
为特征向量 对应的特征值。特征值分解是将一个矩阵分解为如下形式:
其中, 是这个矩阵 的特征向量组成的矩阵, 是一个对角矩阵,每一个对角线元素就是一个特征
值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主
要的变化到次要的变化排列)。也就是说矩阵 的信息可以由其特征值和特征向量表示。
剩余584页未读,继续阅读
Cris_Lee卡卡卡
- 粉丝: 103
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功