机器学习与数据挖掘核心概念回顾

需积分: 0 3 浏览量更新于2024-06-30 收藏 7.08MB PDF 举报

"机器学习与数据挖掘复习1" 这篇资料涵盖了多个机器学习和数据挖掘的关键概念，包括分类、聚类、降维以及深度学习等主题。以下是这些知识点的详细解释： 1. **决策树 ( Decision Trees)** - 决策树是一种基于树状结构进行预测的模型，其中每个内部节点表示一个特征或属性测试，每个分支代表一个测试输出，而叶节点则代表一个决策结果。 2. **K-近邻算法 (K-Nearest Neighbors, KNN)** - KNN是一种基于实例的学习方法，它根据一个对象的k个最近邻来预测其类别，其中k是预先设定的参数。 3. **集成学习 (Ensemble Learning)** - 集成学习通过组合多个弱学习器来创建一个更强大的预测器。它包括两种主要类型：Bagging和Boosting。 - **Bagging**（Bootstrap Aggregating）通过随机抽样创建多个子集并训练独立的模型，然后取平均或多数投票来决定最终预测。 - **Boosting**如AdaBoost，它迭代地训练弱学习器，每次迭代都更加重视前一轮被错误分类的样本，以提高整体性能。 - **Bagging VS Boosting**：Bagging可以减少过拟合，提高模型稳定性；Boosting则更注重提高模型的准确度，可能对异常值敏感。 4. **主成分分析 (Principal Component Analysis, PCA)** - PCA是一种无监督的线性降维技术，通过找到数据的主要变异方向，将高维数据转换为低维表示，同时保留大部分方差信息。 5. **流形学习 (Manifold Learning)** - 流形学习旨在发现隐藏在高维数据中的低维结构，如Isomap和LLE（局部线性嵌入）。 6. **自编码器 (Autoencoder)** - 自编码器是一种神经网络，用于学习输入数据的压缩表示，通过编码和解码过程来重构原始数据。 7. **支持向量机 (Support Vector Machines, SVM)** - SVM是一种二分类和多分类模型，通过寻找最大间隔超平面来划分数据，最大化两类之间的间隔。 8. **Transformer** - Transformer是一种基于自注意力机制的深度学习模型，最初用于自然语言处理任务，如序列到序列建模，现在广泛应用于各种领域。 9. **深度学习框架 (Deep Learning Frameworks)** - 涉及到TensorFlow、PyTorch等深度学习库，它们提供了构建和训练神经网络的工具。 10. **聚类 (Clustering)** - 包括K-means和DBSCAN（基于密度的聚类）等方法，用于将数据自动分组到相似的类别中。 11. **期望最大化 (Expectation-Maximization, EM)** - EM算法是统计学中用于估计混合模型参数的一种方法，常见于隐马尔可夫模型和高斯混合模型等。 12. **朴素贝叶斯 (Naive Bayes)** - 基于贝叶斯定理的分类算法，假设特征之间相互独立。 13. **支持向量机 (Support Vector Machines, SVM)** - 除了基本的SVM外，还提到了核方法和基于SVM的聚类。 14. **协同过滤 (Collaborative Filtering)** - 是推荐系统的一种方法，通过分析用户的行为来预测他们可能感兴趣的物品。以上就是机器学习与数据挖掘复习1中涵盖的一些核心概念，每个主题都有其独特的理论基础和实际应用。理解并掌握这些知识点对于深入学习机器学习和数据挖掘至关重要。

预测的时候使⽤组合分类器对样本X进⾏分类，T个模型同时预测，并返回多数的表决。

随机森林：

随机森林的随机性体现在：

1. 对样本进⾏有放回的采样

2. 在每个点划分的时候，随机选择特征进⾏考虑

3. 样本在某个属性有多个特征值的时候，随机划分进⼀个特征值的分类中。

⼤的m可以让决策树准确度提⾼，⽽⼩的m值能让每个决策树独⽴性较强。通常取

评价指标：分类间隔，对样本A有75%的分类正确，则分类间隔为75-25=50%

袋外错误率：对每⼀棵树来说，都有样本没有被抽样进⼊训练样本中，这些就是袋外样本。对袋外样本

预测的错误率就是袋外错误率。

优点：

1. 处理⾼维数据，不需要进⾏特征选择

2. 训练完后，能给出哪些特征⽐较重要

3. 容易做成并⾏化⽅法

4. 决策树由于使⽤贪婪的思想，容易陷⼊局部最优。随机森林的随机性就是为了解决这个问题。

5. 由于决策树在确定分类边界时，只涉及单个特征的逻辑判断，导致决策边界平⾏于坐标轴，限制了

决策树对分类边界的表达能⼒。

缺点：

1. 相⽐于决策树执⾏过程慢

2. 相⽐于决策树可解释性差。

4.2 boosting：

串⾏的过程，⽆法实现并⾏

剩余32页未读，继续阅读

我就是月下

粉丝: 30

机器学习与数据挖掘核心概念回顾

机器学习复习1

数据挖掘复习资料1

机器学习复习题1

机器学习与数据挖掘复习.docx

机器学习与数据挖掘复习.pdf

机器学习与数据挖掘复习..docx

中南大学 机器学习与数据挖掘复习 研究生 本科生

机器学习与数据挖掘实验三.doc

机器学习/数据挖掘岗面试准备

找工作时，边复习边手工整理的学习资料，用脑图xmind打开 包含了数据挖掘、自然语言处理、机器学习这些方向的复习

最新资源

中南大学机器学习与数据挖掘复习研究生本科生

找工作时，边复习边手工整理的学习资料，用脑图xmind打开包含了数据挖掘、自然语言处理、机器学习这些方向的复习