ChiMerge算法在数据挖掘中的应用

版权申诉

PDF格式 | 215KB | 更新于2024-08-08 | 174 浏览量 | 举报

数据挖掘作业—莺尾花.pdf ChiMerge算法是监督的、自底向上的数据离散化方法，依赖于卡方分析，用于解决数据挖掘中的离散化问题。下面是 ChiMerge算法的详细知识点：工作原理 ChiMerge算法的基本思想是：对于精确的离散化，相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。低卡方值表明它们具有相似的类分布。离散化算法离散化算法是将连续的数值属性转换为离散的类别属性。常见的离散化算法有： 1. 等宽区间：将数值属性等分为N等份，每个区间的长度相同。 2. 等频区间：区间的边界值要经过选择，使得每个区间包含大致相等的实例数量。弊端等宽区间和等频区间算法都忽略了实例所属的类型，落在正确区间里的偶然性很大。 ChiMerge算法 ChiMerge算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证，类别属性独立于其中一个区间，则这个区间就要被合并。 ChiMerge算法的两个部分 ChiMerge算法包括两个部分： 1. 初始化：根据要离散的属性对实例进行排序，每个实例属于一个区间。 2. 自底向上合并：当满足停止条件的时候，区间合并停止。卡方值计算公式卡方值的计算公式：（参数m=2，每次比较的区间数是2个）评价离散算法的有效性评价一个离散算法是否有效很难，因为不知道什么是最高效的分类。高质量的离散化应该是：区间内一致，区间之间区分明显。离散化的主要目的是消除数值属性以及为数值属性定义准确的类别。 C4、CART、PVM算法 C4、CART、PVM算法在离散属性时会考虑类信息，但是是在算法实施的过程中间，而不是在预处理阶段。 ChiMerge算法的优点 ChiMerge算法可以避免等宽区间和等频区间算法的弊端，考虑类信息，实现高质量的离散化。

（一）ChiMerge 的工作原理：

ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡

方分析：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。

基本思想：对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，

如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它

们应当保持分开。而低卡方值表明它们具有相似的类分布。

1、最简单的离散算法是：等宽区间。从最小值到最大值之间,，均分为 N 等

份，这样，如果 A, B 为最小最大值，则每个区间的长度为 w=(B-A) / N, 则

区间边界值为 A+W, A+2W, …. A+(N-1)W。

、还有一种简单算法，等频区间。区间的边界值要经过选择，使得每个区间包

含大致相等的实例数量。比如说 N

10，每个区间应该包含大约 10

的实例。

3、以上两种算法有弊端：比如，等宽区间划分，划分为 5 区间，最高工资为

50000，则所有工资低于 10000 的人都被划分到同一区间。等频区间可能正好相

反，所有工资高于 50000 的人都会被划分到 50000 这一区间中。这两种算法都忽

略了实例所属的类型，落在正确区间里的偶然性很大。

4、 C4、CART、PVM 算法在离散属性时会考虑类信息，但是是在算法实施的

过程中间，而不是在预处理阶段。例如，C4 算法（ID3 决策树系列的一种），

将数值属性离散为两个区间，而取这两个区间时，该属性的信息增益是最大的。

5、评价一个离散算法是否有效很难，因为不知道什么是最高效的分类。

6、离散化的主要目的是：消除数值属性以及为数值属性定义准确的类别。

7、高质量的离散化应该是：区间内一致，区间之间区分明显。

8、 ChiMerge 算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。

如果经过验证，类别属性独立于其中一个区间，则这个区间就要被合并。

9、 ChiMerge 算法包括 2 部分：1、初始化，2、自底向上合并，当满足停止条

件的时候，区间合并停止。

第一步：初始化

根据要离散的属性对实例进行排序：每个实例属于一个区间。

第二步：合并区间，又包括两步骤：

(1) 计算每一对相邻区间的卡方值。

(2) 将卡方值最小的一对区间合并。

预先设定一个卡方的阈值，在阈值之下的区间都合并，阈值之上的区间保持分区

间。

卡方的计算公式：

参数说明：

下载后可阅读完整内容，剩余5页未读，立即下载

竖子敢尔

粉丝: 1w+

ChiMerge算法在数据挖掘中的应用

大工20春《数据挖掘》在线作业1答卷.pdf

大数据工程师课程方案(HCIA-BigData大数据挖掘分析方向).pdf

北邮数据挖掘作业.pdf

2018年11度大数据挖掘大作业.pdf

基于数据挖掘的现场作业风险态势评估方法.pdf

云存储与虚拟化分论坛-基于云计算的海量数据挖掘 何清7.pdf

斯坦福CS246《大数据挖掘》2022课程.rar

北京理工大学数据挖掘课程作业.zip

iris莺尾花标准数据集（Excel格式）

数据挖掘与决策树J48算法在文本分类中的应用.pdf

最新资源

云存储与虚拟化分论坛-基于云计算的海量数据挖掘何清7.pdf