ChiMerge算法在数据挖掘中的应用
版权申诉
PDF格式 | 215KB |
更新于2024-08-08
| 174 浏览量 | 举报
数据挖掘作业—莺尾花.pdf
ChiMerge算法是监督的、自底向上的数据离散化方法,依赖于卡方分析,用于解决数据挖掘中的离散化问题。下面是 ChiMerge算法的详细知识点:
工作原理
ChiMerge算法的基本思想是:对于精确的离散化,相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。低卡方值表明它们具有相似的类分布。
离散化算法
离散化算法是将连续的数值属性转换为离散的类别属性。常见的离散化算法有:
1. 等宽区间:将数值属性等分为N等份,每个区间的长度相同。
2. 等频区间:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。
弊端
等宽区间和等频区间算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。
ChiMerge算法
ChiMerge算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证,类别属性独立于其中一个区间,则这个区间就要被合并。
ChiMerge算法的两个部分
ChiMerge算法包括两个部分:
1. 初始化:根据要离散的属性对实例进行排序,每个实例属于一个区间。
2. 自底向上合并:当满足停止条件的时候,区间合并停止。
卡方值计算公式
卡方值的计算公式:(参数m=2,每次比较的区间数是2个)
评价离散算法的有效性
评价一个离散算法是否有效很难,因为不知道什么是最高效的分类。高质量的离散化应该是:区间内一致,区间之间区分明显。
离散化的主要目的是
消除数值属性以及为数值属性定义准确的类别。
C4、CART、PVM算法
C4、CART、PVM算法在离散属性时会考虑类信息,但是是在算法实施的过程中间,而不是在预处理阶段。
ChiMerge算法的优点
ChiMerge算法可以避免等宽区间和等频区间算法的弊端,考虑类信息,实现高质量的离散化。
相关推荐







竖子敢尔
- 粉丝: 1w+
最新资源
- 武汉大学数字图像处理课程课件精要
- 搭建个性化知识付费平台——Laravel开发MeEdu教程
- SSD7练习7完整解答指南
- Android中文API合集第三版:开发者必备指南
- Python测试自动化实践:深入理解更多测试案例
- 中国风室内装饰网站模板设计发布
- Android情景模式中音量定时控制与铃声设置技巧
- 温度城市的TypeScript实践应用
- 新版高通QPST刷机工具下载支持高通CPU
- C++实现24点问题求解的源代码
- 核电厂水处理系统的自动化控制解决方案
- 自定义进度条组件AMProgressView用于统计与下载进度展示
- 中国古典红木家具网页模板免费下载
- CSS定位技术之Position-master解析
- 复选框状态持久化及其日期同步技术
- Winform版HTML编辑器:强大功能与广泛适用性