ChiMerge算法在数据挖掘中的应用

版权申诉
0 下载量 21 浏览量 更新于2024-08-08 收藏 215KB PDF 举报
数据挖掘作业—莺尾花.pdf ChiMerge算法是监督的、自底向上的数据离散化方法,依赖于卡方分析,用于解决数据挖掘中的离散化问题。下面是 ChiMerge算法的详细知识点: 工作原理 ChiMerge算法的基本思想是:对于精确的离散化,相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。低卡方值表明它们具有相似的类分布。 离散化算法 离散化算法是将连续的数值属性转换为离散的类别属性。常见的离散化算法有: 1. 等宽区间:将数值属性等分为N等份,每个区间的长度相同。 2. 等频区间:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。 弊端 等宽区间和等频区间算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。 ChiMerge算法 ChiMerge算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证,类别属性独立于其中一个区间,则这个区间就要被合并。 ChiMerge算法的两个部分 ChiMerge算法包括两个部分: 1. 初始化:根据要离散的属性对实例进行排序,每个实例属于一个区间。 2. 自底向上合并:当满足停止条件的时候,区间合并停止。 卡方值计算公式 卡方值的计算公式:(参数m=2,每次比较的区间数是2个) 评价离散算法的有效性 评价一个离散算法是否有效很难,因为不知道什么是最高效的分类。高质量的离散化应该是:区间内一致,区间之间区分明显。 离散化的主要目的是 消除数值属性以及为数值属性定义准确的类别。 C4、CART、PVM算法 C4、CART、PVM算法在离散属性时会考虑类信息,但是是在算法实施的过程中间,而不是在预处理阶段。 ChiMerge算法的优点 ChiMerge算法可以避免等宽区间和等频区间算法的弊端,考虑类信息,实现高质量的离散化。