数据挖掘算法全解析：从统计基础到Python实现

需积分: 9 55 浏览量更新于2024-07-18 收藏 4.65MB PDF 举报

"这篇文档是关于数据挖掘常用算法的总结，包括了数学基础、机器学习概览、监督学习中的分类与回归、非监督学习的聚类与关联分析、Python数据预处理、数据结构与算法、SQL知识以及多个数据挖掘案例分析。作者Xuejun Yang在2016年9月18日编写了这个版本（V1.0）。" 第一部分数据挖掘与机器学习数学基础主要介绍了机器学习的统计基础，包括概率论的概念。样本空间是随机实验所有可能结果的集合，事件是样本空间的子集，分为空事件、原子事件、混合事件和样本空间本身。概率论则用于量化描述不确定性的事件，如硬币投掷的结果。第二部分机器学习概述简要介绍了机器学习的基本概念，包括监督学习和非监督学习。第三部分至第九部分详细讨论了监督学习中的各种算法： - KNN（k最邻近分类算法）是一种基于实例的学习，通过找到最近的k个邻居来决定新样本的类别。 - 决策树通过构建树形结构来做出预测，每个内部节点代表一个特征，每个分支代表一个特征值，而叶子节点代表类别。 - 朴素贝叶斯分类器基于贝叶斯定理，假设特征之间相互独立。 - Logistic回归用于二分类问题，通过sigmoid函数将线性组合转换为0到1之间的概率。 - SVM（支持向量机）寻找最大边距超平面来划分数据，通过核函数处理非线性问题。 - 集成学习（Ensemble Learning）如随机森林和梯度提升，结合多个弱分类器形成强分类器。第十部分至第十四部分涵盖了非监督学习： - K-means聚类通过迭代优化过程将数据分配到k个簇中。 - 关联规则分析如Apriori算法，用于发现物品集之间的频繁模式，常用于市场篮子分析。 - 数据降维是预处理步骤，如主成分分析（PCA）和奇异值分解（SVD），用于减少特征维度，提高模型效率。第十五章至第十六章介绍了Python在数据预处理中的应用，包括数据分析基础和数据清洗，如缺失值处理、异常值检测和数据类型转换。第六部分提到了数据结构与算法，特别是二叉树的遍历和基本排序方法。第七部分简要介绍了SQL语言，对于数据查询和操作至关重要。第八部分提供了四个数据挖掘案例，涉及泰坦尼克号生存率分析、飞机坠毁事件分析、贷款预测和葡萄酒价格模型预测，这些案例展示了如何实际运用所学的理论知识。这份文档全面覆盖了数据挖掘和机器学习的核心概念，以及Python实现和实战案例，对于初学者和有一定经验的数据从业者都是宝贵的参考资料。

第三部分监督学习---分类与回归

有监督就是给的样本都有标签，分类的训练样本必须有标签，所以分类算法都是有监督算法。监

督机器学习无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的

同时最小化误差。最小化误差是为了让我们的训练数据，而规则化参数是防止我们的模型过分拟合我

们的训练数据，提高泛化能力

第四章 KNN（k 最邻近分类算法）

1.算法思路

通过计算每个训练样例到待分类样品的距离，取和待分类样品距离最近的 K 个训练样例，K 个

样品中哪个类别的训练样例占多数，则待分类样品就属于哪个类别

核心思想：如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别，则该样本

也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或

者几个样本的类别来决定待分样本所属的类别。 kNN 方法在类别决策时，只与极少量的相邻样本

有关。由于 kNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，

因此对于类域的交叉或重叠较多的待分样本集来说，kNN 方法较其他方法更为适合。

2.算法描述

1. 算距离：给定测试对象，计算它与训练集中的每个对象的距离

依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到 Sim(Item, D1)、Sim(Item, D2)… …、

Sim(Item, Dj)。

2. 将 Sim(Item, D1)、Sim(Item, D2)… …、Sim(Item, Dj)排序，若是超过相似度阈值 t 则放入邻居

案例集合 NN。

找邻居：圈定距离最近的 k 个训练对象，作为测试对象的近邻

3. 自邻居案例集合 NN 中取出前 k 名，依多数决，得到 Item 可能类别。

做分类：根据这 k 个近邻归属的主要类别，来对测试对象分类

3.算法步骤

• step.1---初始化距离为最大值

• step.2---计算未知样本和每个训练样本的距离 dist

• step.3---得到目前 K 个最临近样本中的最大距离 maxdist

• step.4---如果 dist 小于 maxdist，则将该训练样本作为 K-最近邻样本

• step.5---重复步骤 2、3、4，直到未知样本和所有训练样本的距离都算完

• step.6---统计 K-最近邻样本中每个类标号出现的次数

• step.7---选择出现频率最大的类标号作为未知样本的类标号

该算法涉及 3 个主要因素：训练集、距离或相似的衡量、k 的大小。

4. k 邻近模型三个基本要素

三个基本要素为

距离度量、

值的选择和分类决策规则

距离度量：

设特征空间是 n 维实数向量空间



，







，



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢



,



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢











的



距离定义为：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢





p=2 时为欧式距离：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢



p=1 时为曼哈顿距离：



















󰇛



󰇜

 



󰇛



󰇜







p=时，它是各个坐标距离的最大值 







，









󰇻



󰇛󰇜

 



󰇛󰇜

󰇻

5.算法优缺点

1) 优点

 简单，易于理解，易于实现，无需估计参数，无需训练；

 适合样本容量比较大的分类问题

 特别适合于多分类问题(multi-modal,对象具有多个类别标签)，例如根据基因特征来判断其功能

分类，kNN 比 SVM 的表现要好

2) 缺点

 懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢；

 可解释性较差，无法给出决策树那样的规则

 对于样本量较小的分类问题，会产生误分

6.常见问题

1）K 值设定为多大

k 太小，分类结果易受噪声点影响；k 太大，近邻中又可能包含太多的其它类别的点。（对距离加

权，可以降低 k 值设定的影响）

k 值通常是采用交叉检验来确定（以 k=1 为基准）

经验规则：k 一般低于训练样本数的平方根

2）类别如何判定最合适

投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法

更恰当一些。

3）如何选定合适的距离衡量

高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。

变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行

标准化。

4）训练样本是否要一视同仁

在训练集中，有些样本可能是更值得依赖的。

可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。

5）性能问题

kNN 是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找 k 个近

邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并

计算距离。

已经有一些方法提高计算的效率，例如压缩训练样本量等。

4. 决策树算法（贪心算法）

• 有监督的学习

• 非参数学习算法

• 自顶向下递归方式构造决策树

• 在每一步选择中都采取在当前状态下最好/优的选择

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各

个子数据集有一个最好的分类的过程。

在决策树算法中，ID3 基于信息增益作为属性选择的度量，C4.5 基于信息增益比作为属性选择的

度量，CART 基于基尼指数作为属性选择的度量

5.决策树学习过程

• 特征选择

• 决策树生成：递归结构，对应于模型的局部最优

• 决策树剪枝：缩小树结构规模、缓解过拟合，对应于模型的全局选择

6. 决策树优缺点

优点：

(1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂

条件就能够唯一确定一条分类的谓词。

(2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要，

即可以生成可以理解的规则。

(3)可以处理连续和种类字段

(4)不需要任何领域知识和参数假设

(5)适合高维数据

缺点：

(1) 对于各类别样本数量不一致的数据，信息增益偏向于哪些具有更多数值的特征

(2) 易于过拟合

(3) 忽略属性之间的相关性

5.2 决策树数学知识

1.信息论：若一事假有 k 种结果，对应的概率为



，则此事件发生后所得到的信息量 I 为：





 



󰇛





󰇜

 



 



󰇛





󰇜

  



 



󰇛





󰇜

















2. 熵：给定包含关于某个目标概念的正反样例的样例集 S，那么 S 相对这个布尔型分类的熵为：



󰇛



󰇜













 











其中 P+代表正样例，p-代表反样例

3. 条件熵：假设随机变量（X，Y），其联合分布概率为 P(X=xi,Y=yi)=Pij,i=1,2,,n;j=1,2,,m

则条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性，其定义为 X 在给定条件下

Y 的条件概率分布的熵对 X 的数学期望

剩余111页未读，继续阅读

noteahp

粉丝: 0
资源: 3

数据挖掘算法全解析：从统计基础到Python实现

python数据挖掘之KNN算法

常用数据挖掘算法总结及Python实现.pdf

常用数据挖掘算法总结及Python实现pdf

常用数据挖掘算法总结及Python实现.zip

常用数据挖掘算法总结及python实现.pdf

《常用数据挖掘算法总结及Python实现》 PDF

常用数据挖掘算法总结及Python实现(含标签)

常用数据挖掘算法总结及Python实现 文字版+code

免费的防止锁屏小软件，可用于域统一管控下的锁屏机制

Python代码实现带装饰的圣诞树控制台输出

最新资源

常用数据挖掘算法总结及Python实现文字版+code