ChiMerge算法在数据挖掘中的应用
版权申诉
21 浏览量
更新于2024-08-08
收藏 215KB PDF 举报
数据挖掘作业—莺尾花.pdf
ChiMerge算法是监督的、自底向上的数据离散化方法,依赖于卡方分析,用于解决数据挖掘中的离散化问题。下面是 ChiMerge算法的详细知识点:
工作原理
ChiMerge算法的基本思想是:对于精确的离散化,相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。低卡方值表明它们具有相似的类分布。
离散化算法
离散化算法是将连续的数值属性转换为离散的类别属性。常见的离散化算法有:
1. 等宽区间:将数值属性等分为N等份,每个区间的长度相同。
2. 等频区间:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。
弊端
等宽区间和等频区间算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。
ChiMerge算法
ChiMerge算法用卡方统计量来决定相邻区间是否一致或者是否区别明显。如果经过验证,类别属性独立于其中一个区间,则这个区间就要被合并。
ChiMerge算法的两个部分
ChiMerge算法包括两个部分:
1. 初始化:根据要离散的属性对实例进行排序,每个实例属于一个区间。
2. 自底向上合并:当满足停止条件的时候,区间合并停止。
卡方值计算公式
卡方值的计算公式:(参数m=2,每次比较的区间数是2个)
评价离散算法的有效性
评价一个离散算法是否有效很难,因为不知道什么是最高效的分类。高质量的离散化应该是:区间内一致,区间之间区分明显。
离散化的主要目的是
消除数值属性以及为数值属性定义准确的类别。
C4、CART、PVM算法
C4、CART、PVM算法在离散属性时会考虑类信息,但是是在算法实施的过程中间,而不是在预处理阶段。
ChiMerge算法的优点
ChiMerge算法可以避免等宽区间和等频区间算法的弊端,考虑类信息,实现高质量的离散化。
2022-07-01 上传
2022-06-14 上传
2022-06-22 上传
2023-12-05 上传
2023-10-09 上传
2023-05-16 上传
2023-05-16 上传
2023-08-09 上传
2024-01-12 上传
竖子敢尔
- 粉丝: 1w+
- 资源: 2470
最新资源
- 迅雷网 幻灯片代码 div+css+js 大标题与小标题.zip
- Stacked Multicell Multilevel_cascade_pdf_
- CVI.rar_通讯编程_C/C++_
- 账号密码管理 3.0-易语言
- AnomalyDetection:一种基于先前训练数据来检测测试数据中异常的机器学习算法。 它使用不同的聚类方法来创建原始知识库,以检测异常
- Scratch少儿编程项目音效音乐素材-【影视作品】音效-故宫.zip
- miniDBdata:迷你项目的Vdot数据
- 50--[饥饿鲨(简单)].zip源码scratch2.0 3.0编程项目源文件源码案例素材源代码
- 迅雷jQuery 7屏横向擦除焦点图有缩略图和标题.zip
- RecycleRush2015:2015年机器人代码
- SimpleFMSynthApp:使用JUCE和PortAudio构建的简单FM综合应用程序
- IC_DEMO.RAR_Visual_Basic_
- Scratch少儿编程项目音效音乐素材-【事件】声音-滑稽.zip
- 动态网站建设与管理期末试卷.7z
- as3-blog-source-code:我(已不复存在的)FlashActionScript 博客上帖子的源代码
- 中柏笔记本移除功耗墙,重启失效