数据挖掘经典算法详解：C4.5、k-Means等十大算法深度解析

需积分: 0 54 浏览量更新于2024-07-24 收藏 1021KB PDF 举报

数据挖掘是一项关键的IT技术，它通过从大量数据中发现有价值的信息和知识，支持商业决策、市场分析和预测等应用。这里提到的“数据挖掘的十大经典算法”是国际权威组织——IEEE International Conference on Data Mining (ICDM)在2006年评选出的一些具有里程碑意义的算法。这些算法不仅因其广泛的应用和影响力而被选中，而且代表了数据挖掘领域的基石。首先，C4.5算法是基于决策树的分类模型，它是ID3算法的改进版。C4.5算法的特点包括使用信息增益率而非简单信息增益来避免偏向选择属性值较多的属性，通过剪枝优化树结构，能处理连续属性并处理不完整数据。尽管C4.5规则生成直观，但其效率较低，因为对数据集进行多次排序。其次，k-Means算法是一种无监督的聚类方法，用于将数据对象划分为k个紧密的群体，每个群体中心代表该组内的平均特性。k-Means假设数据服从混合正态分布，目标是减小簇内误差，寻找最优的聚类中心。紧接着是支持向量机（SVM），作为一种监督学习模型，SVM广泛应用于分类和回归问题。它通过将数据映射到高维空间以构建最大间隔超平面，以此实现最佳分类性能。SVM的关键在于找到最大间隔，以降低总体错误率，Burges的《模式识别支持向量机指南》提供了深入理解的资源。 Apriori算法则是挖掘频繁项集和关联规则的代表性算法，尤其适用于发现购物篮分析中的商品组合规律。其核心思想是通过递归地合并候选项集来检测频繁项目，从而推导出有价值的关联规则。此外，还有AdaBoost（适应性提升）、PageRank（网页排名）、kNN（k近邻）和朴素贝叶斯等算法，每一种都在各自的领域内展现出强大的预测和分析能力。这些经典算法的掌握对于数据分析师、机器学习工程师和数据科学家来说，都是不可或缺的知识基石，能够帮助他们在处理实际问题时更高效地提取和利用数据的价值。深入理解和掌握这些算法，将有助于提升数据挖掘项目的质量和效率。

有很多个分类器(超平面）可以把数据分开，但是只有一个能够达到最大分割。

我们通常希望分类的过程是一个机器学习的过程。这些数据点并不需要是中的点，而可以是

任意(统计学符号)中或者 (计算机科学符号) 的点。我们希望能够把这些点通过一个 n-1 维的

超平面分开，通常这个被称为线性分类器。有很多分类器都符合这个要求，但是我们还希望

找到分类最佳的平面，即使得属于两个不同类的数据点间隔最大的那个面，该面亦称为最大

间隔超平面。如果我们能够找到这个面，那么这个分类器就称为最大间隔分类器。

问题定义

设样本属于两个类，用该样本训练 svm 得到的最大间隔超平面。在超平面上的样本点也称为

支持向量.

我们考虑以下形式的样本点

其中 ci 为 1 或−1 --用以表示数据点属于哪个类. 是一个 p − (统计学符号), 或 n − (计算机科

学符号) 维向量，其每个元素都被缩放到[0,1]或[-1,1].缩放的目的是防止方差大的随机变量主

导分类过程.我们可以把这些数据称为―训练数据‖，希望我们的支持向量机能够通过一个超平

面正确的把他们分开。超平面的数学形式可以写作

根据几何知识，我们知道向量垂直于分类超平面。加入位移 b 的目的是增加间隔.如果没有 b

的话，那超平面将不得不通过原点，限制了这个方法的灵活性。

由于我们要求最大间隔，因此我们需要知道支持向量以及（与最佳超平面）平行的并且离支

持向量最近的超平面。我们可以看到这些平行超平面可以由方程族：

来表示。

如果这些训练数据是线性可分的，那就可以找到这样两个超平面，在它们之间没有任何样本

点并且这两个超平面之间的距离也最大.通过几何不难得到这两个超平面之间的距离是

2/|w|，因此我们需要最小化 |w|。同时为了使得样本数据点都在超平面的间隔区以外，我们

需要保证对于所有的 i 满足其中的一个条件

这两个式子可以写作：

原型

现在寻找最佳超平面这个问题就变成了在(1)这个约束条件下最小化|w|.这是一个二次規劃

QP(quadratic programming)最优化中的问题。

更清楚的，它可以表示如下：

最小化 , 满足。

1/2 这个因子是为了数学上表达的方便加上的。

对偶型(Dual Form)

把原型的分类规则写作对偶型，可以看到分类器其实是一个关于支持向量（即那些在间隔区

边缘的训练样本点）的函数。

支持向量机的对偶型如下：并满足 αi > = 0

软间隔

1995 年, Corinna Cortes 与 Vapnik 提出了一种改进的最大间隔区方法，这种方法可以处理标

记错误的样本。如果可区分正负例的超平面不存在，则―软边界‖将选择一个超平面尽可能清

晰地区分样本，同时使其与分界最清晰的样本的距离最大化。这一成果使术语―支持向量机‖

（或―SVM‖）得到推广。这种方法引入了松驰参数 ξi 以衡量对数据 xi 的误分类度。

。

随后，将目标函数与一个针对非 0ξi 的惩罚函数相加，在增大间距和缩小错误惩罚两大目标

之间进行权衡优化。如果惩罚函数是一个线性函数，则等式(3)变形为

数据挖掘十大经典算法(4)Apriori

Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集

思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持

度大于最小支持度的项集称为频繁项集，简称频集。

Apriori 演算法所使用的前置统计量包括了：

最大规则物件数：规则中物件组所包含的最大物件数量

最小支援：规则中物件或是物件组必顸符合的最低案例数

最小信心水准：计算规则所必须符合的最低信心水准门槛

该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支

持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后

使用第 1 步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则

的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用

户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

可能产生大量的候选集,以及可能需要重复扫描数据库，是 Apriori 算法的两大缺点。

数据挖掘十大经典算法(5) EM

剩余32页未读，继续阅读

cx爱小芹芹

粉丝: 30
资源: 3

数据挖掘经典算法详解：C4.5、k-Means等十大算法深度解析

数据挖掘十大算法详解

Java8实现数据挖掘十大算法源码解析

数据挖掘十大算法：英文版原著作者Wu Xindong

数据挖掘十大算法

数据挖掘十大算法 介绍

数据挖掘十大算法.docx

数据挖掘十大算法.pdf

数据挖掘十大算法，经典

数据挖掘十大算法思维导图

数据挖掘十大算法解析

最新资源

数据挖掘十大算法介绍