没有合适的资源?快使用搜索试试~ 我知道了~
首页机器学习深度学习:张量、矩阵与范数解析
机器学习深度学习:张量、矩阵与范数解析
需积分: 40 17 下载量 105 浏览量
更新于2024-07-18
收藏 21.07MB PDF 举报
"这是关于机器学习和深度学习基础知识的概述,主要涵盖了数学概念,如标量、向量和张量,以及它们之间的联系。此外,还介绍了矩阵与向量的乘法以及不同范数的计算方法。" 在机器学习和深度学习领域,扎实的数学基础至关重要。本资料首先阐述了标量、向量和张量的基本概念。标量是无方向的数值,如长度,只代表单一的量。向量则包含大小和方向,例如物理中的力,不仅有大小,还有朝向。而张量是更一般的概念,它可以是任意维度的数组,用来描述多维空间中的数据,如图像像素或多元统计数据。 张量与矩阵的关系在于,矩阵是二维张量的特例,可以视为一维向量的扩展。从代数角度看,矩阵是按行列排列的元素集合,而张量则扩展到了更多维度。几何上,矩阵和向量是不变量,不随坐标变换而改变。值得注意的是,尽管张量可以表示为矩阵,但其内涵更为广泛。 矩阵和向量的乘法运算遵循特定规则。当一个m行n列的矩阵与一个n维向量相乘时,结果是一个m维向量。这种乘法涉及每行矩阵元素与向量元素的逐个乘积之和。 向量和矩阵的范数是衡量其大小或强度的概念。对于向量,1范数是所有元素绝对值的和,2范数是元素平方和的平方根,相当于欧几里得距离,负无穷范数是最小绝对值,正无穷范数是最大绝对值。对于矩阵,1范数是所有列向量绝对值和的最大值,2范数是其转置与自身相乘后最大特征值的平方根,无穷范数是所有行向量绝对值和的最大值。 这些基础知识是理解机器学习和深度学习模型,如神经网络中权重矩阵、梯度计算、优化过程以及损失函数等核心概念的基础。掌握这些内容有助于深入探究复杂的机器学习算法和系统,从而进行有效的模型训练和预测。
资源详情
资源推荐
16
4)举例,告诉一张包含气球的图片,需要得出气球在图片中的位置及气球和背景的分割
线,这就是已知弱标签学习强标签的问题。
在企业数据应用的场景下, 人们最常用的可能就是监督式学习和非监督式学习的模型。
在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据, 目前半监督式学习
是一个很热的话题。
2.3
监督学习有哪些步骤
监督式学习:
监督学习是使用已知正确答案的示例来训练网络。每组训练数据有一个明确的标识或结果,
想象一下,我们可以训练一个网络,让其从照片库中(其中包含气球的照片)识别出气球的照
片。以下就是我们在这个假设场景中所要采取的步骤。
步骤 1:数据集的创建和分类
首先,浏览你的照片(数据集),确定所有包含气球的照片,并对其进行标注。然后,将
所有照片分为训练集和验证集。目标就是在深度网络中找一函数,这个函数输入是任意一张照
片,当照片中包含气球时,输出 1,否则输出 0。
步骤 2:训练
选择合适的模型,模型可通过以下激活函数对每张照片进行预测。既然我们已经知道哪些
是包含气球的图片,那么我们就可以告诉模型它的预测是对还是错。然后我们会将这些信息反
馈(feed back)给网络。
该算法使用的这种反馈,就是一个量化“真实答案与模型预测有多少偏差”的函数的结果。
这个函数被称为成本函数(cost function),也称为目标函数(objective function),效用函数(utility
function)或适应度函数(fitness function)。然后,该函数的结果用于修改一个称为反向传播
(
backpropagation
)过程中节点之间的连接强度和偏差。
我们会为每个图片都重复一遍此操作,而在每种情况下,算法都在尽量最小化成本函数。
其实,我们有多种数学技术可以用来验证这个模型是正确还是错误的,但我们常用的是一
个非常常见的方法,我们称之为梯度下降(
gradient descent
)。
步骤 3:验证
当处理完训练集所有照片,接着要去测试该模型。利用验证集来来验证训练有素的模型是
否可以准确地挑选出含有气球在内的照片。
在此过程中,通常会通过调整和模型相关的各种事物(超参数)来重复步骤 2 和 3,诸如
里面有多少个节点,有多少层,哪些数学函数用于决定节点是否亮起,如何在反向传播阶段积
极有效地训练权值等等。
17
步骤 4:测试及应用
当有了一个准确的模型,就可以将该模型部署到你的应用程序中。你可以将模型定义为
API
调用,并且你可以从软件中调用该方法,从而进行推理并给出相应的结果。
2.4
多实例学习?
多示例学习
(multiple instance learning)
:已知包含多个数据的数据包和数据包的标签,训
练智能算法,将数据包映射到标签的过程,在有的问题中也同时给出包内每个数据的标签。
比如说一段视频由很多张图组成,假如 10000 张,那么我们要判断视频里是否包含某一物
体,比如气球。单张标注每一帧是否有气球太耗时,通常人们看一遍说这个视频里是否有气球,
就得到了多示例学习的数据。10000 帧的数据不是每一个都有气球出现,只要有一帧有气球,
那么我们就认为这个数据包是有气球的。只有当所有的视频帧都没有气球,才是没有气球的。
从这里面学习哪一段视频(
10000
张)是否有气球出现就是多实例学习的问题。
2.5
分类网络和回归的区别?
2.3
小节介绍了包含气球照片的数据集整理。当照片中包含气球时,输出
1
,否则输出
0
。
此步骤通常称为分类任务(categorization task)。在这种情况下,我们进行的通常是一个结果为
yes or no 的训练。
但事实上,监督学习也可以用于输出一组值,而不仅仅是
0
或
1
。例如,我们可以训练一
个网络,用它来输出一张图片上有气球的概率,那么在这种情况下,输出值就是 0 到 1 之间的
任意值。这些任务我们称之为回归。
2.6 什么是神经网络?
神经网络就是按照一定规则将多个神经元连接起来的网络。不同的神经网络,具有不同的
连接规则。
例如全连接(full connected, FC)神经网络,它的规则包括:
1)有三种层:输入层,输出层,隐藏层。
2
)同一层的神经元之间没有连接。
3)full connected 的含义:第 N 层的每个神经元和第 N-1 层的所有神经元相连,第 N-1
层神经元的输出就是第 N 层神经元的输入。
18
4)每个连接都有一个权值。
神经网络架构
下面这张图就是一个神经网络系统,它由很多层组成。输入层负责接收信息,比如一只猫
的图片。输出层是计算机对这个输入信息的判断结果,它是不是猫。隐藏层就是对输入信息的
传递和加工处理。
2.7
常用分类算法的优缺点?
算法
优点
缺点
Bayes
贝叶斯分类
法
1)所需估计的参数少,对于缺
失数据不敏感。
2)有着坚实的数学基础,以及
稳定的分类效率。
1)假设属性之间相互独立,这
往往并不成立。(喜欢吃番茄、
鸡蛋,却不喜欢吃番茄炒蛋)。
2)需要知道先验概率。
3)分类决策存在错误率。
Decision Tree
决策树
1)不需要任何领域知识或参数
假设。
2)适合高维数据。
3)简单易于理解。
4)短时间内处理大量数据,得
到可行且效果较好的结果。
5)能够同时处理数据型和常规
性属性。
1)对于各类别样本数量不一致
数据,信息增益偏向于那些具
有更多数值的特征。
2)易于过拟合。
3)忽略属性之间的相关性。
4)不支持在线学习。
SVM
支持向量机
1)可以解决小样本下机器学习
的问题。
2)提高泛化性能。
1)对缺失数据敏感。
2)内存消耗大,难以解释。
3)运行和调差略烦人。
19
3)可以解决高维、非线性问题。
超高维文本分类仍受欢迎。
4)避免神经网络结构选择和局
部极小的问题。
KNN
K 近邻
1)思想简单,理论成熟,既可
以用来做分类也可以用来做回
归;
2 可用于非线性分类;
3 训练时间复杂度为 O(n);
4)准确度高,对数据没有假设,
对 outlier 不敏感;
1)计算量太大
2)对于样本分类不均衡的问
题,会产生误判。
3)需要大量的内存。
4)输出的可解释性不强。
Logistic
Regression
逻辑回归
1)速度快。
2)简单易于理解,直接看到各
个特征的权重。
3)能容易地更新模型吸收新的
数据。
4)如果想要一个概率框架,动
态调整分类阀值。
特征处理复杂。需要归一化和
较多的特征工程。
Neural
Network
神经网络
1)分类准确率高。
2)并行处理能力强。
3)分布式存储和学习能力强。
4)鲁棒性较强,不易受噪声影
响。
1)需要大量参数(网络拓扑、
阀值、阈值)。
2)结果难以解释。
3)训练时间过长。
Adaboosting
1)adaboost 是一种有很高精
度的分类器。
2)可以使用各种方法构建子分
类器,Adaboost 算法提供的是
框架。
3)当使用简单分类器时,计算
出的结果是可以理解的。而且
弱分类器构造极其简单。
4)简单,不用做特征筛选。
5)不用担心 overfitting。
对 outlier 比较敏感
20
2.8
正确率能很好的评估分类算法吗?
不同算法有不同特点,在不同数据集上有不同的表现效果,根据特定的任务选择不同的算
法。如何评价分类算法的好坏,要做具体任务具体分析。对于决策树,主要用正确率去评估,
但是其他算法,只用正确率能很好的评估吗?
答案是否定的。
正确率确实是一个很直观很好的评价指标,但是有时候正确率高并不能完全代表一个算法
就好。比如对某个地区进行地震预测,地震分类属性分为 0:不发生地震、1 发生地震。我们
都知道,不发生的概率是极大的,对于分类器而言,如果分类器不加思考,对每一个测试样例
的类别都划分为 0,达到 99%的正确率,但是,问题来了,如果真的发生地震时,这个分类器
毫无察觉,那带来的后果将是巨大的。很显然,99%正确率的分类器并不是我们想要的。出现
这种现象的原因主要是数据分布不均衡,类别为
1
的数据太少,错分了类别
1
但达到了很高的
正确率缺忽视了研究者本身最为关注的情况。
2.9
分类算法的评估方法?
1
、几个常用的术语
这里首先介绍几个 常见 的 模型评价术语,现在假设我们的分类目标只有两类,计为正例
(positive)和负例(negtive)分别是:
1
)
True positives(TP):
被正确地划分为正例的个数,即实际为正例且被分类器划分为正例
的实例数(样本数);
2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例
的实例数;
3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例
的实例数;
4
)
True negatives(TN):
被正确地划分为负例的个数,即实际为负例且被分类器划分为负例
的实例数。
实
际
类
别
预测类别
Yes
No
总计
Yes
TP
FN
P
(实际为
Yes
)
No
FP
TN
N (实际为 No )
剩余366页未读,继续阅读
lllzzr18
- 粉丝: 1
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功