没有合适的资源?快使用搜索试试~ 我知道了~
首页理解机器学习基石:理论、应用与提升
理解机器学习基石:理论、应用与提升
需积分: 14 57 下载量 87 浏览量
更新于2024-07-19
收藏 3.37MB PDF 举报
"机器学习基石电子版笔记是一门由国立台湾大学的林轩田教授在Coursera平台上开设的在线课程,专为那些想要深入理解机器学习理论和方法的学生设计。课程分为8周,主要关注理论和概念,而非具体的算法细节。课程结构被划分为四个关键部分,分别是:何时可以使用机器学习、机器如何学习、以及如何让机器学习变得更有效。 第一部分"The learning problem",即机器学习问题,开始于课程的介绍,包括对课程目标和理念的概述。课程首先定义什么是学习,强调了人类和动物通过观察和思考获得知识的过程,然后引出机器学习的概念,指出它是计算机通过处理数据和执行计算来获取知识和技能的过程,特别强调了数据在机器学习中的核心地位,与人类观察的区别。 接下来的章节深入探讨了“技巧”这个概念,它是机器学习中的关键,如预测和识别能力。以股票市场为例,通过分析历史数据找出能够增加投资收益的策略,展示了机器学习的实际应用。课程内容涵盖了基础概念,如感知器(Perceptron learning algorithm)、神经网络(如Pocket算法)、二元分类、线性回归和逻辑回归等经典算法,这些都是通过“大课”和“小课”的形式逐步讲解的,每个大课通常由四小节组成,每小节的教学时间大约为10到20分钟。 这门课程旨在帮助学生建立起坚实的机器学习理论基础,理解其背后的原理,以及如何选择和运用合适的机器学习方法来解决实际问题。通过学习,学生不仅能掌握机器学习的基本工具,还能提升对如何优化机器学习性能的理解,以便在实际项目中取得更好的效果。"
资源详情
资源推荐
假如很长时间都没有新的权值向量比当前的权值向量犯错更少,则返回该向量作
为函数 g。
三、Types of Learning
各种类型的机器学习问题。
3.1 Learning with Different Output Space
不同类型的输出空间。
3.1.1 binary classification
二元分类问题。
前两章中提到的银行发信用卡问题就是一个典型的二元分类问题,其输出空间只
包含两个标记+1 和-1,分别对应着发卡与不发卡。
当然二元分类问题包含多种情况,如 2.3 节中提到过,如图 3-1 所示。
图 3-1 a) 线性可分 b) 线性不可分包含噪音 c) 多项式可分
图 3-1a 为线性可分(linear binary separable),如可以使用 PLA 求解;b 是
包含噪音可以使用 pocket 求解,而 c 会在后面章节中详细叙述,属于多项式可
分解。当然解决以上三种 二元分类问题的机器学习方法很多,因为二元分类问
题是机器学习中很重要、核心的问题。
3.1.2 Multiclass Classification
多元分类。
有二元分类,就不难想到多元分类的问题,该类问题输出标签不止两种,而是
{1,2,…,K}。这在人们的生活中非常常见,比如给水果的图像分类,识别硬币等
等,其主要的应用场景就是模式识别。
3.1.3 Regression
回归分析。
该问题的输出空间为整个实数集上或者在一定的实数范围内,这和前面讲的分类
问题完全不一样,该输出不是一种毫无意义的标记,而是有实际意义的输出值。
比如给定一个大气数据可以推出明天的天气等等之类的问题。统计学习对该类问
题的研究比较成熟。
3.1.4 Structured Learning
结构学习。
当然还有其他更为复杂的问题,比如很多很多类型的分类问题。
3.2 Learning with Different Data Label
不同的数据标记。
3.2.1 Supervised Learning
监督学习。
知道数据输入的同时还知道数据的标记。就相当于告诉你题目的同时还告诉你答
案,让你在这种环境下学习,称之为监督学习(supervised learning)或者叫
有师学习(learning with a teacher),之前讨论的一些算法都是这类问题。
举个例子,硬币分类问题,如图 3-2 所示,其中横轴标示硬币的大小,纵轴标示
硬币聚集的堆。
图 3-2 有监督的多类别分类问题
其中这几种类别的硬币已经被各种不同的颜色所标示好。
3.2.2 Unsupervised Learning
无监督学习。
这是一种没有标示(就是没有输出 y)的问题,就是不告诉你题目的正确答案让
你自己去寻找,再以硬币分类为例进行阐述,如图 3-3 所示。
图 3-3 无监督的多类别分类问题
这种类型的问题最常见的是聚类或者叫分群(clustering),从图中不难看出无
标示的难度比有标示的难度增加不少,而且极有可能犯错,但是这 种问题却拥
有广泛的应用场景(毕竟标示需要花费大量人力物力),如将新闻按照不同的主
题聚类,按用户的属性将用户聚成不同类型的用户群等等。
除了聚类之外还有其他的无监督学习,如密度评估(density estimation)和离
群点检测(outlier detection)等等。
3.2.3 Semi-supervised Learning
半监督学习。
是否能在监督式学习和无监督学习之间取一个中庸的方法呢?答案是可以的,就
是半监督学习,它通过少量有标记的训练点和大量无标记的训练点达到学习的
目的。还是以硬币为例,如图 3-4 所示。这种类型的例子也有很多,比如图像的
识别,很多情况下我们不可能把每张图片都做上标记(因为做这种标记需要耗费
大 量的人力物力,是一种昂贵的行为),此时,使用半监督学习是一种不错的
选择。
图 3-4 半监督学习
3.2.4 Reinforcement Learning
强化学习。
前面三个是机器学习中最传统的三种方式,除此之外,还有一种方式是通过对一
个行为作出奖励或者惩罚,以此获得的输出,进而进行学习,这种学习方式称之
为强化学习。
一般可以表示为 ,其中向量 还是为输入向量, 表示一种输出,注
意 并不一定是最佳输出,最后一项是对输出做出的评判。比如一个广告系统可
以写成如下形式 。
3.3 Learning with Different Protocol
不同方式获取数据。
对此节的内容进行简单阐述,在不同的协议中可以将机器学习分为三大类:
1. 批量(batch)学习就是将很多数据一次性的给算法进行学习,
最常见的方式;
2. 在线(online)学习就是一点一点将数据传输进去,如 PLA 和
增强学习都适用于这种形式;
3. 主动(active)学习是主动提出问题让算法解决,可以节省大量
的训练和标记消耗。
3.4 Learning with Different Input Space
不同的输入空间。
输入又可以称之为特征(features),其主要分为三种:
剩余157页未读,继续阅读
qq_34325583
- 粉丝: 6
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功