改进的数值型属性离散化方法提升数据挖掘性能
需积分: 12 158 浏览量
更新于2024-08-11
收藏 860KB PDF 举报
本文档探讨了一种创新的数据挖掘技术——"一种基于相似性度量的离散化方法",发表于2012年的《西北师范大学学报(自然科学版)》第48卷第5期。传统的离散化方法,如基于信息熵的方法,其主要缺点在于可能无法准确捕捉数值型属性之间的复杂关系和局部特征,这在数据预处理阶段尤为关键,因为它直接影响到后续机器学习算法的效果。
作者丁剑和白凤伟针对这一问题,提出了一个新颖的离散化策略。他们的方法不再单纯依赖信息熵来衡量区间的划分,而是引入了相似性度量理论。这种方法将数值型属性划分为一系列区间,每个区间的信息量不再由单一的熵值决定,而是通过一个被称为代数-几何平均数距离公式的相似性度量公式来评估,这个公式考虑到了区间内样本点之间的整体相似性。
更为智能的是,他们提出的离散化过程是动态的,根据训练数据集的大小自动调整区间的数量,这意味着这种方法能够自适应地处理不同规模的数据集,提高了离散化效果的灵活性。这种策略旨在更好地保留数据的分布特性,从而提高分类模型的性能。
为了验证新方法的有效性,作者在多个数据集上进行了实验,使用朴素贝叶斯分类器对离散化后的数据进行了分类。实验结果显示,相比于基于信息熵的离散化方法,基于相似性度量的新方法具有更高的分类正确率,这证明了其在实际应用中的优势。
这篇论文的核心贡献在于提供了一种更有效、更具适应性的数值型属性离散化方法,对于数据挖掘领域,尤其是在处理数值型特征时,具有重要的理论价值和实践意义。通过引入相似性度量,它不仅解决了传统方法的信息损失问题,还提升了模型的预测精度,为改进数据预处理流程和提升机器学习算法性能提供了新的思路。
426 浏览量
182 浏览量
182 浏览量
点击了解资源详情
点击了解资源详情
2025-03-06 上传
2025-03-06 上传
2025-03-06 上传

weixin_38560797
- 粉丝: 5
最新资源
- VB通过Modbus协议控制三菱PLC通讯实操指南
- simfinapi:R语言中简化SimFin数据获取与分析的包
- LabVIEW温度控制上位机程序开发指南
- 西门子工业网络通信实例解析与CP243-1应用
- 清华紫光全能王V9.1软件深度体验与功能解析
- VB实现Access数据库数据同步操作指南
- VB实现MSChart绘制实时监控曲线
- VC6.0通过实例深入访问Excel文件技巧
- 自动机可视化工具:编程语言与正则表达式的图形化解释
- 赛义德·莫比尼:揭秘其开创性技术成果
- 微信小程序开发教程:如何实现模仿ofo共享单车应用
- TrueTable在Windows10 64位及CAD2007中的完美适配
- 图解Win7搭建IIS7+PHP+MySQL+phpMyAdmin教程
- C#与LabVIEW联合采集NI设备的电压电流信号并创建Excel文件
- LP1800-3最小系统官方资料压缩包
- Linksys WUSB54GG无线网卡驱动程序下载指南