数据挖掘十大经典算法详解：决策树与ID3

需积分: 9 54 浏览量更新于2024-09-15 3 收藏 134KB DOC 举报

"数据挖掘的十大经典算法" 在数据挖掘领域，掌握一些经典的算法至关重要，因为它们可以帮助我们从海量数据中提取有价值的信息。本资源详细介绍了其中的十大算法，特别是决策树算法，它是机器学习中一个重要的预测模型。决策树通过构建树形结构来模拟决策过程，其中每个内部节点表示一个特征或属性，每个分支代表该特征的一个可能值，而叶节点则对应一个类别决策。决策树学习是一种递归的过程，通过不断分割数据集来逼近最优分类。在构建过程中，算法会选择最优特征进行分割，这个过程通常基于信息增益、基尼不纯度等指标。当所有数据都能被某一类别完全覆盖，或者无法找到能进一步提高分类效果的特征时，递归结束。此外，随机森林是一种集成学习方法，它结合了多个决策树的结果，以提高整体分类准确性和鲁棒性。 ID3算法是决策树学习的经典实例，由Claude Shannon的信息熵理论为基础。ID3算法通过计算熵来评估特征的选择，熵用于量化数据集的不确定性。算法分为两部分：概念提取算法CLS和ID3算法本身。CLS通过递归地划分数据集，直至所有子集都属于同一类别。ID3算法则引入了随机子集选择，以避免过拟合，并通过窗口机制逐步优化决策树。 ID3算法的步骤包括： 1. 选取一部分数据作为窗口W，生成分类树DT。 2. 扫描剩余数据，找出无法由当前DT确定的“意外”例子。 3. 更新窗口W，结合新发现的意外例子，重复步骤1和2，直到没有意外例子。在这个过程中，启发式标准是选择使信息熵减少最多的特征进行分割，以最大化信息增益。通过这种方式，ID3算法能够构建出一棵能够尽可能准确预测结果的决策树。数据挖掘的十大经典算法中，决策树及其变种如ID3算法提供了强大的工具，帮助我们理解数据并作出预测。这些算法不仅适用于分类问题，也常用于回归和其他任务，是数据挖掘领域不可或缺的基础知识。通过深入理解和应用这些算法，我们可以更好地发掘数据的潜在价值，推动业务决策和科学研究的进步。

为保证生成的决策树最小，ID3 算法在生成子树时，选取使生成的子树的熵(即 Gain(S))最小的特征

来生成子树。

ID3 算法对数据的要求：

1) 所有属性必须为离散量；

2) 所有的训练例的所有属性必须有一个明确的值；

3) 相同的因素必须得到相同的结论且训练例必须唯一。

1.3 C4.5 算法

由于 ID3 算法在实际应用中存在一些问题，于是 Quilan 提出了 C4.5 算法，严格上说 C4.5 只能是 ID3

的一个改进算法。

C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5 算法有如下优点：

产生的分类规则易于理解，准确率较高。

C4.5 算法有如下缺点：

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外， C4.5

只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

分类决策树算法：

C4.5 算法是机器学习算法中的一种分类决策树算法，其核心算法是 ID3 算法。

分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。

决策树的各部分是：

根：学习的事例集；

枝：分类的判定条件；

叶：分好的各个类。

1.3.1 C4.5 对 ID3 算法的改进

1) 熵的改进，加上了子树的信息。

Split_Infox(X)= -SUM( (|T|/|T

|)*LOG(|T

|/|T|))；

Gain ratio(X)= Gain(X)/Split_Infox(X);

2) 在输入数据上的改进

① 因素属性的值可以是连续量，C4.5 对其排序并分成不同的集合后按照 ID3 算法当作离散量进行处

理，但结论属性的值必须是离散值。

② 训练例的因素属性值可以是不确定的，以?表示，但结论必须是确定的。

3) 对已生成的决策树进行裁剪，减小生成树的规模。

2 The k-means algorithm（k 平均算法）

k-means algorithm 是一个聚类算法，把 n 个对象根据它们的属性分为 k 个分割，k < n。它与处理混合

正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空

间向量，并且目标是使各个群组内部的均方误差总和最小。

假设有 k 个群组 S

, i=1,2,...,k。μ

是群组 S

内所有元素 x

的重心，或叫中心点。

k 平均聚类发明于 1956 年，该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式

改进探索法。劳埃德算法首先把输入点分成 k 个初始化分组，可以是随机的或者使用一些启发式数据。然

剩余10页未读，继续阅读

松子大叔

粉丝: 1

数据挖掘十大经典算法详解：决策树与ID3

数据挖掘十大经典算法

数据挖掘十大经典算法.doc

数据挖掘十大经典算法初探

数据挖掘十大经典算法详解

数据挖掘十大经典算法解析

vue.js v2.5.17

DM8-SQL语言详解及其数据管理和查询操作指南

1108_ba_open_report.pdf

anslow_02_0109.pdf

以下是OpenCV在不同操作系统下的下载与安装教程

最新资源