数据挖掘算法全览：Python实现与案例分析

需积分: 37 106 浏览量更新于2024-07-17 6 收藏 4.64MB PDF 举报

"常用数据挖掘算法总结及Python实现" 这篇文档是关于数据挖掘算法的全面总结，适合初学者，特别是对Python实现有兴趣的学习者。它分为八大部分，涵盖了从数学基础到实际应用的广泛主题。在第一部分，文档介绍了数据挖掘与机器学习的数学基础，包括统计学的基本概念，如样本空间、事件、概率论定义，这些都是理解机器学习算法的基础。此外，还讨论了探索性数据分析（EDA），这对于理解数据和发现模式至关重要。第二部分概述了机器学习，进一步深入探讨了机器学习的基本概念。第三部分专注于监督学习，详细讲解了几种常见的分类和回归算法。KNN（k-最近邻）是一种基于实例的学习，通过找到训练集中最接近新样本的k个点来进行分类或回归。决策树是一种直观的算法，通过构建树状模型来做出决策。朴素贝叶斯分类利用贝叶斯定理，假设特征之间相互独立。Logistic回归用于二分类问题，通过Sigmoid函数将连续值转换为概率。SVM（支持向量机）是另一种分类器，通过找到最大边距超平面将数据分开。集成学习，如AdaBoost、Random Forest等，通过组合多个弱分类器形成强分类器。第四部分涉及非监督学习，讲解了聚类和关联分析。K-means是一种常用的聚类算法，用于将数据分配到k个不同的群组。Apriori算法则用于关联规则学习，发现项集之间的频繁模式。第五部分介绍了Python数据预处理，包括数据分析基础和数据清洗技术，这是实际项目中非常关键的步骤。第六部分涉及数据结构与算法，简要讨论了二叉树的遍历和基本排序方法，这对于理解算法效率至关重要。第七部分涵盖了SQL基础知识，这对于从数据库中提取和操作数据是必要的。最后，第八部分提供了四个实际的数据挖掘案例，包括泰坦尼克号生存率分析、飞机坠毁分析、贷款预测问题和使用KNN算法预测葡萄酒价格，这些案例帮助读者将理论知识应用于实践中。整个文档提供了丰富的知识，不仅涵盖了理论，还提供了Python实现，对于希望在数据挖掘领域深入学习的人来说是一份宝贵的资源。

第三部分监督学习---分类与回归

有监督就是给的样本都有标签，分类的训练样本必须有标签，所以分类算法都是有监督算法。监

督机器学习无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的

同时最小化误差。最小化误差是为了让我们的训练数据，而规则化参数是防止我们的模型过分拟合我

们的训练数据，提高泛化能力

第四章 KNN（k 最邻近分类算法）

1.算法思路

通过计算每个训练样例到待分类样品的距离，取和待分类样品距离最近的 K 个训练样例，K 个

样品中哪个类别的训练样例占多数，则待分类样品就属于哪个类别

核心思想：如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别，则该样本

也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或

者几个样本的类别来决定待分样本所属的类别。 kNN 方法在类别决策时，只与极少量的相邻样本

有关。由于 kNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，

因此对于类域的交叉或重叠较多的待分样本集来说，kNN 方法较其他方法更为适合。

2.算法描述

1. 算距离：给定测试对象，计算它与训练集中的每个对象的距离

依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到 Sim(Item, D1)、Sim(Item, D2)… …、

Sim(Item, Dj)。

2. 将 Sim(Item, D1)、Sim(Item, D2)… …、Sim(Item, Dj)排序，若是超过相似度阈值 t 则放入邻居

案例集合 NN。

找邻居：圈定距离最近的 k 个训练对象，作为测试对象的近邻

3. 自邻居案例集合 NN 中取出前 k 名，依多数决，得到 Item 可能类别。

做分类：根据这 k 个近邻归属的主要类别，来对测试对象分类

3.算法步骤

• step.1---初始化距离为最大值

• step.2---计算未知样本和每个训练样本的距离 dist

• step.3---得到目前 K 个最临近样本中的最大距离 maxdist

• step.4---如果 dist 小于 maxdist，则将该训练样本作为 K-最近邻样本

• step.5---重复步骤 2、3、4，直到未知样本和所有训练样本的距离都算完

• step.6---统计 K-最近邻样本中每个类标号出现的次数

• step.7---选择出现频率最大的类标号作为未知样本的类标号

该算法涉及 3 个主要因素：训练集、距离或相似的衡量、k 的大小。

4. k 邻近模型三个基本要素

三个基本要素为

距离度量、

值的选择和分类决策规则

距离度量：

设特征空间是 n 维实数向量空间



，







，



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢



,



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢



欢迎加入非盈利Python编程学习交流QQ群783462347，群里免费提供500+本Python书籍！









的



距离定义为：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢





p=2 时为欧式距离：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢



p=1 时为曼哈顿距离：



















󰇛



󰇜

 



󰇛



󰇜







p=时，它是各个坐标距离的最大值 







，









󰇻



󰇛󰇜

 



󰇛󰇜

󰇻

5.算法优缺点

1) 优点

 简单，易于理解，易于实现，无需估计参数，无需训练；

 适合样本容量比较大的分类问题

 特别适合于多分类问题(multi-modal,对象具有多个类别标签)，例如根据基因特征来判断其功能

分类，kNN 比 SVM 的表现要好

2) 缺点

 懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢；

 可解释性较差，无法给出决策树那样的规则

 对于样本量较小的分类问题，会产生误分

6.常见问题

1）K 值设定为多大

k 太小，分类结果易受噪声点影响；k 太大，近邻中又可能包含太多的其它类别的点。（对距离加

权，可以降低 k 值设定的影响）

k 值通常是采用交叉检验来确定（以 k=1 为基准）

经验规则：k 一般低于训练样本数的平方根

2）类别如何判定最合适

投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法

更恰当一些。

3）如何选定合适的距离衡量

高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。

变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行

标准化。

4）训练样本是否要一视同仁

在训练集中，有些样本可能是更值得依赖的。

可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。

5）性能问题

kNN 是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找 k 个近

邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并

计算距离。

已经有一些方法提高计算的效率，例如压缩训练样本量等。

欢迎加入非盈利Python编程学习交流QQ群783462347，群里免费提供500+本Python书籍！

4. 决策树算法（贪心算法）

• 有监督的学习

• 非参数学习算法

• 自顶向下递归方式构造决策树

• 在每一步选择中都采取在当前状态下最好/优的选择

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各

个子数据集有一个最好的分类的过程。

在决策树算法中，ID3 基于信息增益作为属性选择的度量，C4.5 基于信息增益比作为属性选择的

度量，CART 基于基尼指数作为属性选择的度量

5.决策树学习过程

• 特征选择

• 决策树生成：递归结构，对应于模型的局部最优

• 决策树剪枝：缩小树结构规模、缓解过拟合，对应于模型的全局选择

6. 决策树优缺点

优点：

(1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂

条件就能够唯一确定一条分类的谓词。

(2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要，

即可以生成可以理解的规则。

(3)可以处理连续和种类字段

(4)不需要任何领域知识和参数假设

(5)适合高维数据

缺点：

(1) 对于各类别样本数量不一致的数据，信息增益偏向于哪些具有更多数值的特征

(2) 易于过拟合

(3) 忽略属性之间的相关性

5.2 决策树数学知识

1.信息论：若一事假有 k 种结果，对应的概率为



，则此事件发生后所得到的信息量 I 为：





 



󰇛





󰇜

 



 



󰇛





󰇜

  



 



󰇛





󰇜

















2. 熵：给定包含关于某个目标概念的正反样例的样例集 S，那么 S 相对这个布尔型分类的熵为：



󰇛



󰇜













 











其中 P+代表正样例，p-代表反样例

3. 条件熵：假设随机变量（X，Y），其联合分布概率为 P(X=xi,Y=yi)=Pij,i=1,2,,n;j=1,2,,m

则条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性，其定义为 X 在给定条件下

Y 的条件概率分布的熵对 X 的数学期望

欢迎加入非盈利Python编程学习交流QQ群783462347，群里免费提供500+本Python书籍！

剩余111页未读，继续阅读

weixin_44523404

粉丝: 1
资源: 13

数据挖掘算法全览：Python实现与案例分析

常用数据挖掘算法总结及Python实现.pdf

Python与数据挖掘

python实现Apriori算法apriori.py和数据

常用数据挖掘算法总结及Python实现pdf

常用数据挖掘算法总结及Python实现.zip

常用数据挖掘算法总结及python实现.pdf

《常用数据挖掘算法总结及Python实现》 PDF

常用数据挖掘算法总结及Python实现 文字版+code

常用数据挖掘算法总结及Python实现(含标签)

Apriori算法及其实现

最新资源

常用数据挖掘算法总结及Python实现文字版+code