1.1 什么是数据挖掘?
数据挖掘是通过对(大规模)观测数据集的
分析,寻找确信的关系,并将数据以一种可理
解的且利于使用的新颖方式 概括数据的方
法.
2 什么可以挖掘出来?
知识 ;隐藏的关系;不确定的现实;对决
策或理解任务性质可能有用的信息。
3 数据挖掘是怎样的?
适用于大数据;观测的数据(不是实验数
据,数据收集过程中没有人为控制);
不受怀疑的的关系(关系应该是正确和重
要的);新颖的(众所周知的结论是无用
的);可理解的(挖掘结果将呈现给用户
的决策);有用处的。
4 什么是机器学习?
计算机程序被要求从经验 E 中学习某些任
务 T 和绩效测量 P,如果它在 T 中的任务
中的表现(由 P 测量)随经验 E 而改善,
那么我们称之为机器学习。
5 机器学习框架
监督学习;无监督学习;强化学习;半监
督学习;主动学习
6 监督学习
在 ML 文献中,监督学习问题具有以下特
征:我们主要对预测感兴趣。我们只想预
测一件事。
已经指定了我们想要预测的值的可能值,
并且我们有一些其值已知的训练案例。
我们想要预测的事物称为目标或响应变量。
通常,我们需要训练数据
7 如何做出预测?
主要方法
我们可以通过使用训练数据来估计模型的
参数来训练模型,然后使用这些参数来对
测试数据进行预测。 当我们对测试数据进
行预测时,这种方法可以节省计算量。因
为我们估计一次参数,并多次使用它们。
例如线性回归
其他方法:最近邻方法
基于训练案例的子集对测试数据进行预测,
例如,通过近似 P( y | x ) 的均值,中
值或模式 。
重要问题:如何选择 K? 如果 K 太小,我
们可能会“过度拟合”,但如果 K 太大,我们
将对与测试用例无关的训练案例进行平均。
8 两种预测方法的比较?
这两种方法在计算方面是对立的。
NN 近邻方法是基于记忆的方法。我们需要
记住所有的训练数据。
线性回归方法在获取参数后,可以忘记训
练数据,只需使用参数即可。
在统计特性方面对立。
NN 对数据做了一些假设 ,并且具有过度
拟合的高可能性
线性回归对数据做出了强有力的假设,因
此具有很高的偏差可能
9 无监督学习
对于无监督的学习问题,我们不关注任何
特定事物的预测 ,而是试图找到数据的有
趣方面。
聚类 示例:我们可能会发现患有类似症
状的患者群,我们称之为疾病。我们可能
会发现大量图像的集群。
Reinforcement Learning
Learning from interaction(with
environment)
Goal-directedlearning
Learning what to doand its e%ect
Trial-and-errorsearch and delayed
reward
The two most important
评论0