数据挖掘算法全攻略：Python实现与案例分析

5星 · 超过95%的资源需积分: 50 154 浏览量更新于2024-07-20 4 收藏 5.71MB PDF 举报

"常用数据挖掘算法总结及Python实现" 这篇文档是关于数据挖掘算法的全面总结，适合初学者，包含了理论基础和实际的Python代码实现。文档分为几个主要部分，涵盖了从数学基础到具体算法应用的广泛内容。首先，文档讨论了数据挖掘与机器学习的数学基础，包括统计学原理。在第一章“机器学习的统计基础”中，讲解了概率论的基本概念，如样本空间、事件、概率的定义等。这些基础知识是理解后续机器学习算法的关键，例如概率如何用于描述事件发生的不确定性，以及如何在决策树、朴素贝叶斯分类等算法中使用概率计算。接下来，文档介绍了机器学习的整体概述，包括监督学习和非监督学习。在监督学习部分，详细讲解了KNN、决策树、朴素贝叶斯、逻辑回归和支持向量机（SVM）等分类和回归算法。每个算法都有其特定的应用场景和优缺点，例如KNN是基于实例的学习，决策树易于理解和解释，而SVM则擅长处理高维数据和非线性问题。非监督学习部分，主要涉及聚类和关联分析，如K-means聚类算法用于发现数据的自然群体，而Apriori算法则用于发现频繁项集和规则，这些都是数据挖掘中的重要工具，特别是在市场篮子分析和用户行为分析中。文档还专门讨论了数据预处理，这是任何数据挖掘项目中不可或缺的步骤。Python在此发挥了重要作用，包括数据清洗、数据降维等，Python的库如Pandas和NumPy提供了强大的工具来处理这些问题。此外，文档还介绍了二叉树、排序算法和SQL基础知识，这些都是数据结构和数据库操作的基础，对于数据挖掘从业者来说非常重要。最后，通过一系列实际案例，如泰坦尼克号生存率预测、飞机失事分析、贷款预测和葡萄酒价格模型预测，将理论知识应用到实践中，帮助读者更好地理解和掌握所学内容。这篇文档提供了一个全面的数据挖掘学习框架，从理论到实践，涵盖了机器学习的重要算法和数据预处理技术，并辅以Python代码实现，是学习数据挖掘的理想资料。

第三部分监督学习---分类与回归

有监督就是给的样本都有标签，分类的训练样本必须有标签，所以分类算法都是有监督算法。监

督机器学习无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的

同时最小化误差。最小化误差是为了让我们的训练数据，而规则化参数是防止我们的模型过分拟合我

们的训练数据，提高泛化能力

第四章 KNN（k 最邻近分类算法）

1.算法思路

通过计算每个训练样例到待分类样品的距离，取和待分类样品距离最近的 K 个训练样例，K 个

样品中哪个类别的训练样例占多数，则待分类样品就属于哪个类别

核心思想：如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别，则该样本

也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或

者几个样本的类别来决定待分样本所属的类别。 kNN 方法在类别决策时，只与极少量的相邻样本

有关。由于 kNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，

因此对于类域的交叉或重叠较多的待分样本集来说，kNN 方法较其他方法更为适合。

2.算法描述

1. 算距离：给定测试对象，计算它与训练集中的每个对象的距离

依公式计算 Item 与 D1、D2 … …、Dj 之相似度。得到 Sim(Item, D1)、Sim(Item, D2)… …、

Sim(Item, Dj)。

2. 将 Sim(Item, D1)、Sim(Item, D2)… …、Sim(Item, Dj)排序，若是超过相似度阈值 t 则放入邻居

案例集合 NN。

找邻居：圈定距离最近的 k 个训练对象，作为测试对象的近邻

3. 自邻居案例集合 NN 中取出前 k 名，依多数决，得到 Item 可能类别。

做分类：根据这 k 个近邻归属的主要类别，来对测试对象分类

3.算法步骤

• step.1---初始化距离为最大值

• step.2---计算未知样本和每个训练样本的距离 dist

• step.3---得到目前 K 个最临近样本中的最大距离 maxdist

• step.4---如果 dist 小于 maxdist，则将该训练样本作为 K-最近邻样本

• step.5---重复步骤 2、3、4，直到未知样本和所有训练样本的距离都算完

• step.6---统计 K-最近邻样本中每个类标号出现的次数

• step.7---选择出现频率最大的类标号作为未知样本的类标号

该算法涉及 3 个主要因素：训练集、距离或相似的衡量、k 的大小。

4. k 邻近模型三个基本要素

三个基本要素为

距离度量、

值的选择和分类决策规则

距离度量：

设特征空间是 n 维实数向量空间



，







，



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢



,



󰇡



󰇛󰇜





󰇛󰇜





󰇛󰇜

󰇢











的



距离定义为：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢





p=2 时为欧式距离：











󰇡







󰇛󰇜

 



󰇛󰇜









󰇢



p=1 时为曼哈顿距离：



















󰇛



󰇜

 



󰇛



󰇜







p=时，它是各个坐标距离的最大值 







，









󰇻



󰇛󰇜

 



󰇛󰇜

󰇻

5.算法优缺点

1) 优点

 简单，易于理解，易于实现，无需估计参数，无需训练；

 适合样本容量比较大的分类问题

 特别适合于多分类问题(multi-modal,对象具有多个类别标签)，例如根据基因特征来判断其功能

分类，kNN 比 SVM 的表现要好

2) 缺点

 懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢；

 可解释性较差，无法给出决策树那样的规则

 对于样本量较小的分类问题，会产生误分

6.常见问题

1）K 值设定为多大

k 太小，分类结果易受噪声点影响；k 太大，近邻中又可能包含太多的其它类别的点。（对距离加

权，可以降低 k 值设定的影响）

k 值通常是采用交叉检验来确定（以 k=1 为基准）

经验规则：k 一般低于训练样本数的平方根

2）类别如何判定最合适

投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法

更恰当一些。

3）如何选定合适的距离衡量

高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。

变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行

标准化。

4）训练样本是否要一视同仁

在训练集中，有些样本可能是更值得依赖的。

可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。

5）性能问题

kNN 是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找 k 个近

邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并

计算距离。

已经有一些方法提高计算的效率，例如压缩训练样本量等。

第五章决策树

5.1. 决策树基本概念及算法优缺点

1. 什么是决策树

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两

种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

决策树（Decision Tree），又称判定树，是一种以树结构（包括二叉树和多叉树）形式来表达的预

测分析模型。

 通过把实例从根节点排列到某个叶子节点来分类实例

 叶子节点即为实例所属的分类

 树上每个节点说明了对实例的某个属性的测试，节点的每个后继分支对应于该属性的一个可能值

2. 决策树结构

3. 决策树种类

分类树---对离散变量做决策树

回归树---对连续变量做决策树

4. 决策树算法（贪心算法）

• 有监督的学习

• 非参数学习算法

• 自顶向下递归方式构造决策树

• 在每一步选择中都采取在当前状态下最好/优的选择

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各

个子数据集有一个最好的分类的过程。

在决策树算法中，ID3 基于信息增益作为属性选择的度量，C4.5 基于信息增益比作为属性选择的

度量，CART 基于基尼指数作为属性选择的度量

5.决策树学习过程

• 特征选择

• 决策树生成：递归结构，对应于模型的局部最优

• 决策树剪枝：缩小树结构规模、缓解过拟合，对应于模型的全局选择

6. 决策树优缺点

优点：

(1) 速度快：计算量相对较小，且容易转化成分类规则。只要沿着树根向下一直走到叶，沿途的分裂

条件就能够唯一确定一条分类的谓词。

(2) 准确性高：挖掘出的分类规则准确性高，便于理解，决策树可以清晰的显示哪些字段比较重要，

即可以生成可以理解的规则。

(3)可以处理连续和种类字段

缺点：

(1) 对于各类别样本数量不一致的数据，信息增益偏向于哪些具有更多数值的特征

(2) 易于过拟合

(3) 对连续的字段比较难预测

(4) 不是全局最优

5.2 决策树数学知识

1.信息论：若一事假有 k 种结果，对应的概率为



，则此事件发生后所得到的信息量 I 为：





 



󰇛





󰇜

 



 



󰇛





󰇜

  



 



󰇛





󰇜

















2. 熵：给定包含关于某个目标概念的正反样例的样例集 S，那么 S 相对这个布尔型分类的熵为：



󰇛



󰇜













 











其中 P+代表正样例，p-代表反样例

3. 条件熵：假设随机变量（X，Y），其联合分布概率为 P(X=xi,Y=yi)=Pij,i=1,2,,n;j=1,2,,m

则条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性，其定义为 X 在给定条件下

Y 的条件概率分布的熵对 X 的数学期望

5.3 决策树算法 Hunt

在 Hunt 算法中，通过递归的方式建立决策树。

1）如果数据集 D 中所有的数据都属于一个类，那么将该节点标记为为节点。

2）如果数据集 D 中包含属于多个类的训练数据，那么选择一个属性将训练数据划分为较小的子集，

对于测试条件的每个输出，创建一个子女节点，并根据测试结果将 D 中的记录分布到子女节点中，

然后对每一个子女节点重复 1，2 过程，对子女的子女依然是递归的调用该算法，直至最后停止。

5.4. 决策树算法 ID3

1. 分类系统信息熵

2.条件熵

剩余131页未读，继续阅读

yangxuejunwinner

粉丝: 115
资源: 1

数据挖掘算法全攻略：Python实现与案例分析

常用数据挖掘算法总结及Python实现.pdf

常用数据挖掘算法总结及Python实现(含标签)

常用数据挖掘算法总结及Python实现 文字版+code

数据挖掘算法 python

python金融数据挖掘算法

常见数据挖掘算法 python

数据挖掘算法python

数据挖掘强关联规则python

python数据挖掘考试题

python数据挖掘实验

最新资源

常用数据挖掘算法总结及Python实现文字版+code