"机器学习回顾：统计学习方法、监督学习与模型选择(详细版)"

需积分: 15 40 浏览量更新于2023-12-22 收藏 1.44MB DOCX 举报

本次机器学习课程回顾主要针对菜鸟入门，适用于期末快速回顾机器学习内容。首先，在基本概念部分，我们学习了统计学习方法的三要素，即模型、策略和算法。在统计学习方法中，我们需要从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的，并且假设要学习的模型属于某个函数的集合，称为假设空间。然后，我们需要应用某个评价准则，从假设空间中选取一个最优模型，使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测。最优模型的选取由算法实现。另外，我们还学习了有监督学习、无监督学习和半监督学习这三种机器学习方法。有监督学习是指从标注数据中学习预测模型的机器学习问题，无监督学习是指从无标注数据中学习预测模型的机器学习问题，半监督学习则是利用标注数据和未标注数据学习预测模型的机器学习问题。在有监督学习中，我们学习了数据、标签和模型这三个要素，以及学习和预测这两个过程。另外，我们还了解了生成式模型和判别式模型的概念。生成式模型是指对联合分布p(x, y)建模，然后利用贝叶斯公式求出条件分布p(y|x)；判别式模型是直接对条件分布p(y|x)建模。常见的代表模型有朴素贝叶斯、高斯判别分析和隐马尔科夫模型等。在回顾了基本概念部分之后，我们进入了监督学习方法，其中重点介绍了线性回归和逻辑回归两种模型。线性回归是一种用于建立自变量和因变量之间关系的统计模型，适用于解释因变量受一个或多个自变量影响的情况。而逻辑回归则是一种用于解决分类问题的统计模型，通常用于二分类问题，可以通过Sigmoid函数将线性输出转换为概率输出，从而进行分类。接着，我们学习了支持向量机（SVM）模型，它是一种针对分类问题的监督学习模型，可以在高维空间中构建超平面或者超平面集合，从而实现对数据的分类。紧接着，我们深入研究了集成学习方法，其中我们学习了随机森林和梯度提升树两种集成学习模型。随机森林是一种集成学习方法，它通过构建多个决策树并整合其结果来进行预测。而梯度提升树则是一种以决策树为基学习器的集成学习算法，通过不断迭代训练基学习器来提高模型的预测性能。最后，我们学习了无监督学习方法，重点介绍了聚类分析和主成分分析两种模型。聚类分析是一种无监督学习方法，它通过将数据划分成不同的类别来发现数据的内在结构。而主成分分析则是一种用于降维和数据压缩的技术，通过寻找数据中的主成分来实现对数据的降维。通过本次机器学习课程回顾，我们深入了解了统计学习方法的基本概念，掌握了有监督学习、无监督学习和半监督学习这三种机器学习方法，以及监督学习、集成学习和无监督学习中的各种模型。这将为我们在期末复习和日后的实际应用中提供坚实的理论基础和操作指导。

回归：用于预测输入变量(自变量)和输出变量(因变量)之间的关系（映射）。回归

模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟

合。

聚类：对大量未知标注的数据集，按照数据内部存在的数据特征将数据集划分为

多个不同的类别，使类别内数据比较相似，类别之间的数据相似度比较小。（高耦合

低内聚）

分类：当输出变量 Y 取有限个离散值时，预测问题便成为分类问题。分类器对新

的输入进行输出的预测，称为分类。

2. Knn

中英文名字、算法理念、算法过程、算法伪代码，算法代码实现

中文：K 近邻算法

算法理念：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最

邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。

算法过程：

1) 计算测试数据与各个训练数据之间的距离；

2) 按照距离的递增关系进行排序；

3) 选取距离最小的 k 个点；

4) 确定前 k 个点所在类别的出现频率；

5) 返回前 k 个点中出现频率最高的类别作为测试数据的预测分类。

剩余15页未读，继续阅读

Jhx332211

粉丝: 795
资源: 1

"机器学习回顾：统计学习方法、监督学习与模型选择(详细版)"

机器学习入门介绍

机器学习入门

吴恩达斯坦福机器学习课程讲义完整中文版

Coursera 机器学习课程 Machine Learning Andrew Ng Stanford 课程项目（答案）合集

Scikit-learn入门教程：机器学习实战

国科大《模式识别与机器学习》课程资料2015-2020年完整版

最新Python机器学习库scikit-learn 0.24.2发布

斯坦福大学2014机器学习教程笔记-吴恩达

高清英版《动手实践机器学习》Scikit-Learn与TensorFlow指南

初学者指南：2017版机器学习入门-理解与应对挑战

最新资源