数据挖掘实战：Python实现算法总结

需积分: 9 90 浏览量更新于2024-07-18 收藏 5.08MB PDF 举报

"该资源是一份关于数据挖掘算法的详细指南，主要针对使用Python实现的机器学习和数据挖掘技术。内容涵盖了从统计基础到实际应用的各个层面，包括监督学习中的分类与回归算法（如KNN、决策树、朴素贝叶斯、逻辑回归和SVM），非监督学习中的聚类（如K-means）和关联分析，以及数据预处理、数据结构与算法和SQL知识。此外，还提供了多个案例分析，如泰坦尼克号生存率分析、飞机事故分析、贷款预测以及葡萄酒价格模型预测等，旨在帮助读者通过实践加深对数据挖掘的理解。" 在数据挖掘和机器学习领域，统计基础是理解各种算法的核心。概率论是这一领域的基石，它描述了事件发生的可能性。样本空间是所有可能结果的集合，事件是样本空间的子集，可以分为空事件、原子事件、混合事件和样本空间本身。概率的定义基于对大量重复实验的观察，例如投硬币，正面朝上的概率可以通过长期试验来估计。在监督学习中，KNN是一种基于实例的学习，通过找到训练集中与新样本最近的k个邻居来预测其类别。决策树利用树状结构进行决策，每个内部节点代表一个特征，每个分支代表一个特征值，而叶节点则代表一个类别。朴素贝叶斯分类器假设特征之间相互独立，并基于贝叶斯定理进行分类。逻辑回归用于二分类问题，SVM（支持向量机）通过构造最大边距超平面来划分数据，尤其适用于高维数据。非监督学习中的K-means聚类是一种常见的无监督算法，用于将数据集划分为k个不重叠的簇。关联规则学习如Apriori算法，常用于市场篮子分析，寻找商品之间的频繁购买模式。在实际应用中，Python是数据科学家的首选语言，其强大的数据分析库如Pandas、Numpy和Scikit-learn使得数据预处理和模型构建变得简单。数据清洗是预处理的关键步骤，涉及处理缺失值、异常值和重复值。了解基本的数据结构和算法（如二叉树和排序）有助于提升数据处理效率。SQL语言用于数据库操作，对于获取和管理大量数据至关重要。案例分析部分提供了实际问题的解决思路，帮助读者将理论知识应用于实际场景，如泰坦尼克号乘客生存预测，分析飞机事故数据，预测贷款违约风险，以及使用KNN预测葡萄酒价格等。这些案例展示了如何整合所学知识，解决复杂问题。这份文档是学习数据挖掘和机器学习的全面资源，不仅讲解了理论知识，还提供了丰富的实践内容，有助于提升读者在数据科学领域的技能。

第三部分监督学习---分类与回归

有监督就是给的样本都有标签，分类的训练样本必须有标签，所以分类算法都是有监督算法。监

督机器学习无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的

同时最小化误差。最小化误差是为了让我们的训练数据，而规则化参数是防止我们的模型过分拟合我

们的训练数据，提高泛化能力

第四章 KNN（k 最邻近分类算法）

1.算法思路

通过计算每个训练样例到待分类样品的距离，取和待分类样品距离最近的 K 个训练样例，K 个

样品中哪个类别的训练样例占多数，则待分类样品就属于哪个类别

核心思想：如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别，则该样本

也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或

者几个样本的类别来决定待分样本所属的类别。 kNN 方法在类别决策时，只与极少量的相邻样本

有关。由于 kNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，

因此对于类域的交叉或重叠较多的待分样本集来说，kNN 方法较其他方法更为适合。

2.算法描述

1. 算距离：给定测试对象，计算它与训练集中的每个对象的距离

依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到 Sim(Item, D1)、Sim(Item, D2)… …、

Sim(Item, Dj)。

2. 将 Sim(Item, D1)、Sim(Item, D2)… …、Sim(Item, Dj)排序，若是超过相似度阈值 t 则放入邻居

案例集合 NN。

找邻居：圈定距离最近的 k 个训练对象，作为测试对象的近邻

3. 自邻居案例集合 NN 中取出前 k 名，依多数决，得到 Item 可能类别。

做分类：根据这 k 个近邻归属的主要类别，来对测试对象分类

3.算法步骤

• step.1---初始化距离为最大值

• step.2---计算未知样本和每个训练样本的距离 dist

• step.3---得到目前 K 个最临近样本中的最大距离 maxdist

• step.4---如果 dist 小于 maxdist，则将该训练样本作为 K-最近邻样本

• step.5---重复步骤 2、3、4，直到未知样本和所有训练样本的距离都算完

• step.6---统计 K-最近邻样本中每个类标号出现的次数

• step.7---选择出现频率最大的类标号作为未知样本的类标号

该算法涉及 3 个主要因素：训练集、距离或相似的衡量、k 的大小。

4. k 邻近模型三个基本要素

三个基本要素为

距离度量、

值的选择和分类决策规则

距离度量：

设特征空间是 n 维实数向量空间



，







，



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢



,



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢



欢迎加入非盈利Python编程学习交流QQ群783462347，群里免费提供500+本Python书籍！









的



距离定义为：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢





p=2 时为欧式距离：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢



p=1 时为曼哈顿距离：



















󰇛



󰇜

 



󰇛



󰇜







p=时，它是各个坐标距离的最大值 







，









󰇻



󰇛󰇜

 



󰇛󰇜

󰇻

5.算法优缺点

1) 优点

 简单，易于理解，易于实现，无需估计参数，无需训练；

 适合样本容量比较大的分类问题

 特别适合于多分类问题(multi-modal,对象具有多个类别标签)，例如根据基因特征来判断其功能

分类，kNN 比 SVM 的表现要好

2) 缺点

 懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢；

 可解释性较差，无法给出决策树那样的规则

 对于样本量较小的分类问题，会产生误分

6.常见问题

1）K 值设定为多大

k 太小，分类结果易受噪声点影响；k 太大，近邻中又可能包含太多的其它类别的点。（对距离加

权，可以降低 k 值设定的影响）

k 值通常是采用交叉检验来确定（以 k=1 为基准）

经验规则：k 一般低于训练样本数的平方根

2）类别如何判定最合适

投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法

更恰当一些。

3）如何选定合适的距离衡量

高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。

变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行

标准化。

4）训练样本是否要一视同仁

在训练集中，有些样本可能是更值得依赖的。

可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。

5）性能问题

kNN 是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找 k 个近

邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并

计算距离。

已经有一些方法提高计算的效率，例如压缩训练样本量等。

欢迎加入非盈利Python编程学习交流QQ群783462347，群里免费提供500+本Python书籍！

4. 决策树算法（贪心算法）

• 有监督的学习

• 非参数学习算法

• 自顶向下递归方式构造决策树

• 在每一步选择中都采取在当前状态下最好/优的选择

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各

个子数据集有一个最好的分类的过程。

在决策树算法中，ID3 基于信息增益作为属性选择的度量，C4.5 基于信息增益比作为属性选择的

度量，CART 基于基尼指数作为属性选择的度量

5.决策树学习过程

• 特征选择

• 决策树生成：递归结构，对应于模型的局部最优

• 决策树剪枝：缩小树结构规模、缓解过拟合，对应于模型的全局选择

6. 决策树优缺点

优点：

(1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂

条件就能够唯一确定一条分类的谓词。

(2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要，

即可以生成可以理解的规则。

(3)可以处理连续和种类字段

(4)不需要任何领域知识和参数假设

(5)适合高维数据

缺点：

(1) 对于各类别样本数量不一致的数据，信息增益偏向于哪些具有更多数值的特征

(2) 易于过拟合

(3) 忽略属性之间的相关性

5.2 决策树数学知识

1.信息论：若一事假有 k 种结果，对应的概率为



，则此事件发生后所得到的信息量 I 为：





 



󰇛





󰇜

 



 



󰇛





󰇜

  



 



󰇛





󰇜

















2. 熵：给定包含关于某个目标概念的正反样例的样例集 S，那么 S 相对这个布尔型分类的熵为：



󰇛



󰇜













 











其中 P+代表正样例，p-代表反样例

3. 条件熵：假设随机变量（X，Y），其联合分布概率为 P(X=xi,Y=yi)=Pij,i=1,2,,n;j=1,2,,m

则条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性，其定义为 X 在给定条件下

Y 的条件概率分布的熵对 X 的数学期望

欢迎加入非盈利Python编程学习交流QQ群783462347，群里免费提供500+本Python书籍！

剩余111页未读，继续阅读

weixin_42271300

粉丝: 0
资源: 2

数据挖掘实战：Python实现算法总结

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云.pdf

浅谈数据挖掘算法研究与实现.pdf

java大数据挖掘算法

python金融数据挖掘算法

MapReduce 支持的部分数据挖掘算法

数据挖掘算法 python

结合目标检测的数据挖掘算法的研究和应用

使用数据挖掘算法实现语音识别，说明实现过程

目前常见的数据挖掘算法有哪些

数据挖掘原理与算法第三版pdf

最新资源