没有合适的资源?快使用搜索试试~ 我知道了~
首页吴恩达机器学习笔记:监督与无监督学习详解
吴恩达机器学习笔记:监督与无监督学习详解
需积分: 0 1 下载量 101 浏览量
更新于2024-06-17
收藏 24.11MB PDF 举报
吴恩达的机器学习课程笔记涵盖了机器学习的基础概念和发展历史。早期,Arthur Samuel(1959年)将机器学习定义为计算机在无明确指令下自我学习的能力,而Tom Mitchell(1998年)则进一步阐述为程序通过经验和反馈改进执行任务的能力。机器学习的核心分为监督学习和无监督学习两大类。 监督学习是机器学习的基石,它依赖于有标签的数据集进行训练,目标是预测未知数据的标签。常见的监督学习算法包括KNN、朴素贝叶斯、支持向量机(SVM)、决策树、随机森林和神经网络(如BP)。这些算法广泛应用于垃圾邮件分类、心脏病预测等场景,通过不断调整模型参数以提高预测准确性。 在无监督学习中,数据集没有预先提供的标签,算法需要自行发现数据的内在结构和规律。无监督学习的应用包括降维技术,如主成分分析(PCA)和独立成分分析(ICA),它们可以减少数据的复杂性,便于数据分析和可视化。聚类算法,如K均值和层次聚类,是无监督学习的重要组成部分,用于发现数据中的自然群组,帮助揭示数据的内在组织。此外,异常检测也是无监督学习的应用之一,通过识别数据集中的异常值或异常模式,可以应用于金融监控和网络安全等领域,提升系统的稳定性和安全性。 吴恩达的机器学习自做笔记强调了学习过程中理论与实践相结合的重要性,无论是监督还是无监督学习,都要求学习者理解和掌握如何有效地从数据中提取有价值的信息,并将其转化为实际问题的解决方案。
资源详情
资源推荐
利 用 三 次 函 数 模 型 与 数 据 集 进 行 拟 合
使 用 多 元 线 性 回 归 的 方 法 , 用 假 设 函 数 来 拟 合 数 据 。
下 面 讨 论 使 用 三 次 函 数 模 型 来 拟 合 数 据 。
例 要 进 行 预 测 房 子 价 格
表 示 用 房 子 面 积 房 子 面 积 的 平 方 房 子 面 积 的 立 方 。
中 的 、 、 均 为 输 入 特 征 。
把 和 两 者 关 联 起 来
把 特 征 设 置 为 房 子 面 积 , 把 特 征 设 置 为 房 子 面 积 的 平 方 , 把 特 征 设 置 为 房 子 面 积 的 立 方
即 设 、 、
再 用 线 性 回 归 方 法 ,
就 可 以 拟 合 这 个 三 次 函 数 模 型 到 数 据 集 上
如 像 上 述 那 样 设 置 特 征 、 、
特 征 : 房 子 面 积 范 围 大 小 在 到 之 间
特 征 : 房 子 面 积 的 平 方 的 范 围 大 小 就 在 到 一 百 万 的 平 方 之 间
特 征 : 房 子 面 积 的 平 方 的 范 围 大 小 就 在 到 的 次 方 之 间
可 以 看 出 上 述 个 特 征 的 范 围 相 差 很 大 , 因 此 此 时 使 用 梯 度 下 降 法 的 话 , 那 么 运 用 特 征 缩 放 就 显 得 更 加 尤 为 重 要 了
之 前 所 述 的 二 次 函 数 模 型 拟 合 数 据 并 不 是 很 理 想 , 因 为 二 次 函 数 模 型 拟 合 数 据 到 最 终 曲 线 会 下 降 , 曲 线 会
下 降 即 意 味 着 房 子 面 积 增 加 的 情 况 下 房 子 价 格 反 而 下 降 的 情 况 , 这 是 使 用 二 次 函 数 模 型 不 理 想 的 地 方 。 因 此 采 用 三 次 函 数 模 型
来 拟 合 数 据 。 当 然 除 了 使 用 三 次 函 数 模 型 之 外 , 还 可 以 通 过 其 他 模 型 来 进 行 拟 合 。
如 : 。 表 示 求 房 子 面 积 的 平 方 根 。
表 示 预 测 的 房 子 价 格 房 子 面 积 房 子 面 积 的 平 方 根 。
那 么 该 函 数 的 曲 线 趋 势 上 升 到 一 定 程 度 之 后 便 慢 慢 变 得 平 缓 , 曲 线 最 终 也 不 会 下 降 的 , 最 多 也 只 会 缓 慢 上 升 。
正规方程(区别于迭代方法的直接解法)
为了求出最优解θ,假如θ是个实数,我们可以求导,令导数等于0得到θ。
但是这里θ是一个N维向量,可以运用微积分的知识,分别对θ1,θ2,θ3,...,求偏导数令其为0得到最
优解。
正规方程提供了一种求θ的解析方法,不需要再像之前梯度下降算法那样运行迭代算法,而是可以直接
一次性求解θ的最优值,即只需要一步就可以得到最优值。
假 设 有 一 个 非 常 简 单 的 代 价 函 数 : ( 这 里 的 是 一 个 实 数 )
可 以 利 用 对 求 导 , 然 后 令 的 导 数 等 于 即 可 得 到 令 最 小 的 值 。
在目前所探讨的问题中,θ不是一个实数,而是一个n+1维的参数向量
对 每 一 个 都 求 偏 导 , 并 令 其 偏 导 为 , 求 对 应 的 的 值
举一个m=4的例子,构建一个矩阵X
是 一 个 维 矩 阵 , 是 一 个 维 向 量
为 训 练 样 本 数 量 , 是 特 征 变 量 数 , 其 实 是
梯度下降法 正规方程法
缺点:需要选择学习速率α,
运行多次尝试不同的α,找到
最好的那个α
优点:不需要选择学习速率α
缺点:需要更多次的迭代 优点:也不需要迭代,所以不需要画出J(θ)的曲线
优点:在特征变量很多的情况
下也能运行地相当好
缺点:为了求解参数θ,需要求 (X^T)X^(-1) 这个n×n地矩阵,
若有n个特征变的话,其复杂度为O(n^3),故若n很大,其时间
消耗会太大
假 如 有 个 训 练 样 本 , 和 个 特 征 变 量
构 建 设 计 矩 阵 的 方 法 : , 一 个 维 矩 阵
例 子 : 那 么 构 建 的 矩 阵 , 为 一 个 维 矩 阵
是 的 逆 矩 阵
如 果 用 正 规 方 程 法 , 那 么 就 不 需 要 特 征 缩 放
何时使用梯度下降法,何时使用正规方程法
如有m个训练样本,n个特征变量
所以取决于特征变量的多少来决定用什么方法,但是其界限很难确定。
总结:只要特征变量的数目并不大,正规方程是一个很好的计算参数θ的替代方法,具体地说只要特征
变量数量小于一万,吴老师会用正规方程法。
正规方程在矩阵不可逆情况下的解决方法
如 果 是 不 可 逆 矩 阵 奇 异 或 退 化 矩 阵 , 怎 么 进 行 处 理 ?
在 里 可 以 直 接 得 到 正 解 。
里 有 两 个 函 数 可 以 求 解 矩 阵 的 逆 , 一 个 被 称 为 , 另 一 个 是 , 两 者 之 间 的 差 异 是 技 术 性 的
一 个 是 所 谓 的 伪 逆 , 另 一 个 被 称 为 逆 。 即 使 矩 阵 不 可 逆 也 可 以 直 接 用 里 面 的 两 个 函 数 求 解
不 可 逆 的 两 个 常 见 原 因 :
由 于 某 些 原 因 , 学 习 问 题 包 含 了 多 余 的 特 征 。
如 在 预 测 住 房 价 格 时 , 如 果 是 以 平 方 英 尺 为 单 位 的 房 子 面 积 , 是 以 平 方 米 为 单 位 的 房 子 面 积 。
两 个 特 征 可 以 用 一 个 线 性 方 程 联 系 起 来 , 这 样 的 话 是 不 可 逆 矩 阵 。
在 运 行 的 学 习 算 法 , 有 很 多 特 征 。 具 体 地 说 在 训 练 样 本 小 于 或 等 于 特 征 变 量 的 时 候 。
解 决 办 法 是 看 能 否 删 除 某 些 特 征 , 或 者 使 用 一 种 叫 做 正 规 化 的 方 法 。
总 结 : 如 果 是 不 可 逆 矩 阵 , 首 先 看 特 征 里 是 否 有 多 余 的 特 征 像 和 若 是 线 性 相 关 的 或 互 为 线 性 函 数 。 若 的 确 有 一 些 多 余
的 特 征 , 可 以 删 除 其 中 一 个 , 无 需 将 两 个 特 征 同 时 保 留 , 所 以 删 除 二 者 其 一 。 如 果 特 征 里 没 有 多 余 的 , 检 查 是 否 有 过 多 的 特 征 ,
如 果 特 征 数 量 实 在 太 多 , 在 不 影 响 结 果 的 情 况 下 删 除 一 些 特 征 , 或 者 考 虑 使 用 正 规 化 方 法
导师的编程小技巧
略
章节06 Octave/Matlab教程(Python编程)
基本操作
移动数据
计算数据
数据绘制
控制语句: for,while...
矢量
本章课程总结
编程作业: 线性回归
01 简单的练习
总结下题目:输出一个5*5的单位矩阵
在此我们用 np.eye(N,M=None, k=0, dtype=<type ‘float’>)
函数的原型: numpy.eye(N,M=None,k=0,dtype=<class 'float'>,order='C')
返回的是一个二维2的数组 (N,M) ,对角线的地方为1,其余的地方为0.
参数介绍:
(1)N:int型,表示的是输出的行数即方阵的维度
(2)M:int型,可选项,输出的列数,如果没有就默认为M=N
(3)k:int型,可选项,默认对角线为1,其余全为0;如果k为正数,则对角线往上第k个全为1,其余
全为0;如果k为负数,则对角线往下第k个全为1,其余全为0
(4)dtype:数据的类型,可选项,返回的数据的数据类型
(5)order:{‘C’,‘F'},可选项,也就是输出的数组的形式是按照C语言的行优先’C',还是按照Fortran
形式的列优先‘F'存储在内存中
剩余51页未读,继续阅读
彷徨迷离
- 粉丝: 6
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 利用迪杰斯特拉算法的全国交通咨询系统设计与实现
- 全国交通咨询系统C++实现源码解析
- DFT与FFT应用:信号频谱分析实验
- MATLAB图论算法实现:最小费用最大流
- MATLAB常用命令完全指南
- 共创智慧灯杆数据运营公司——抢占5G市场
- 中山农情统计分析系统项目实施与管理策略
- XX省中小学智慧校园建设实施方案
- 中山农情统计分析系统项目实施方案
- MATLAB函数详解:从Text到Size的实用指南
- 考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
- Matlab进行统计回归分析:从单因素到双因素方差分析
- 智慧灯杆数据运营公司策划书:抢占5G市场,打造智慧城市新载体
- Photoshop基础与色彩知识:信息时代的PS认证考试全攻略
- Photoshop技能测试:核心概念与操作
- Photoshop试题与答案详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功