改进的数值型属性离散化方法提升数据挖掘性能

需积分: 12 158 浏览量更新于2024-08-11 收藏 860KB PDF 举报

本文档探讨了一种创新的数据挖掘技术——"一种基于相似性度量的离散化方法"，发表于2012年的《西北师范大学学报（自然科学版）》第48卷第5期。传统的离散化方法，如基于信息熵的方法，其主要缺点在于可能无法准确捕捉数值型属性之间的复杂关系和局部特征，这在数据预处理阶段尤为关键，因为它直接影响到后续机器学习算法的效果。作者丁剑和白凤伟针对这一问题，提出了一个新颖的离散化策略。他们的方法不再单纯依赖信息熵来衡量区间的划分，而是引入了相似性度量理论。这种方法将数值型属性划分为一系列区间，每个区间的信息量不再由单一的熵值决定，而是通过一个被称为代数-几何平均数距离公式的相似性度量公式来评估，这个公式考虑到了区间内样本点之间的整体相似性。更为智能的是，他们提出的离散化过程是动态的，根据训练数据集的大小自动调整区间的数量，这意味着这种方法能够自适应地处理不同规模的数据集，提高了离散化效果的灵活性。这种策略旨在更好地保留数据的分布特性，从而提高分类模型的性能。为了验证新方法的有效性，作者在多个数据集上进行了实验，使用朴素贝叶斯分类器对离散化后的数据进行了分类。实验结果显示，相比于基于信息熵的离散化方法，基于相似性度量的新方法具有更高的分类正确率，这证明了其在实际应用中的优势。这篇论文的核心贡献在于提供了一种更有效、更具适应性的数值型属性离散化方法，对于数据挖掘领域，尤其是在处理数值型特征时，具有重要的理论价值和实践意义。通过引入相似性度量，它不仅解决了传统方法的信息损失问题，还提升了模型的预测精度，为改进数据预处理流程和提升机器学习算法性能提供了新的思路。

　第４８卷２０１２年第５期　　　　　西　北　师　范　大　学　学　报（自然科学版）

　Ｖｏｌ畅４８　２０１２　Ｎｏ畅５　　　　　ＪｏｕｒｎａｌｏｆＮｏｒｔｈｗｅｓｔＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ）　

收稿日期：２０１２桘０６桘０８；修改稿收到日期：２０１２桘０７桘３０

基金项目：国家自然科学基金资助项目（７１０６１００１）；宁夏自治区自然科学基金资助项目（ＮＺ１２２１４）

作者简介：丁剑（１９７７ — ），男，宁夏固原人，副教授，硕士．主要研究方向为数据挖掘．

Ｅ桘ｍａｉｌ：

ｙ

ｃｈｄｊ＠１６３畅ｃｏｍ

一种基于相似性度量的离散化方法

丁　剑

１

，白凤伟

２

（１．北方民族大学计算机科学与工程学院，宁夏银川　７５００２１；

２．北京交通大学计算机与信息技术学院，北京　１０００４４）

摘　要：针对基于信息熵的离散化方法的不足，提出了一种应用相似性度量理论将数值型属性进行离散化的方法．数

值型属性离散化后，每一个区间所获得的信息量用一个叫做代数‐几何平均数距离公式的相似性度量公式来度量；区

间的数目由训练数据集合的大小动态决定．将此方法和基于信息熵的离散化方法在一些数据集合上进行实验，并用朴

素贝叶斯分类器对离散化后的数据集合进行分类，结果表明该方法有更好的分类正确率．

关键词：数据挖掘；离散化；相似性度量；信息熵

中图分类号：ＴＰ２７４　　　　文献标识码：Ａ　　　　文章编号：１００１‐９８８ Ⅹ （２０１２）０５‐００４３‐０５

Ａｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｉｎｇ‐ｂａｓｅｄｄｉｓｃｒｅｔｉｚａｔｉｏｎｍｅｔｈｏｄ

ＤＩＮＧＪｉａｎ

１

，ＢＡＩＦｅｎｇ‐ｗｅｉ

２

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＢｅｉｆａｎｇＵｎｉｖｅｒｓｉｔｙｏｆＮａｔｉｏｎａｌｉｔｉｅｓ，Ｙｉｎｃｈｕａｎ７５００２１，Ｎｉｎｇｘｉａ，Ｃｈｉｎａ；

２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｄｅｓｃｒｉｂｅｓａｄｉｓｃｒｅｔｉｚａｔｉｏｎｍｅｔｈｏｄｕｓｉｎｇｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｉｎｇｔｈｅｏｒｙａｉｍｉｎｇａｔｓｏｌｖｉｎｇ

ｔｈｅｉｎａｄｅｑｕａｃｉｅｓｏｆｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙｍｅｔｈｏｄ．Ａｆｔｅｒｎｕｍｅｒｉｃａｔｔｒｉｂｕｔｅｓａｒｅｄｉｓｃｒｅｔｉｚｅｄ，ｔｈｅａｍｏｕｎｔｏｆ

ｉｎｆｏｒｍａｔｉｏｎｏｆｅａｃｈｉｎｔｅｒｖａｌｉｓｍｅａｓｕｒｅｄｕｓｉｎｇｏｎｅｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｉｎｇｆｏｒｍｕｌａｃａｌｌｅｄａｌｇｅｂｒａ‐

ｇ

ｅｏｍｅｔｒｙ

ｍｅａｎｄｉｓｔａｎｃｅｆｏｒｍｕｌａａｎｄｔｈｅｄｉｓｔｒｉｂｕｔｉｏｎｏｆｃｌａｓｓｖａｌｕｅｓｗｏｕｌｄｂｅｆａｉｒｌｙｃｏｎｓｉｓｔｅｎｔｗｉｔｈｉｎａｎｉｎｔｅｒｖａｌ．

Ｔｈｅｎｕｍｂｅｒｏｆｉｎｔｅｒｖａｌｓｉｓｄｅｃｉｄｅｄｂｙｔｈｅｓｉｚｅｏｆｔｈｅｄａｔａｓｅｔ．Ｆｉｒｓｔ，ｏｕｒｄｉｓｃｒｅｔｉｚａｔｉｏｎｍｅｔｈｏｄａｎｄｔｈｅ

ｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ‐ｂａｓｅｄｄｉｓｃｒｅｔｉｚａｔｉｏｎａｒｅｃｏｍｂｉｎｅｄｔｏｄｉｓｃｒｅｔｉｚｅｓｅｖｅｒａｌｄａｔａｓｅｔｓ，ａｎｄｔｈｅｎＮａｉｖｅＢａｙｅｓ

Ｓｉｍｐｌｅｃｌａｓｓｉｆｉｅｒｉｓｕｓｅｄｔｏｃｏｍｐａｒｅｔｈｅａｃｃｕｒａｃｉｅｓｏｆｔｈｅｓｅｄｉｓｃｒｅｔｉｚｅｄｄａｔａｓｅｔｓ．Ｔｈｅｒｅｓｕｌｔｓｈｏｗｓｔｈａｔｏｕｒ

ｄｉｓｃｒｅｔｉｚａｔｉｏｎｍｅｔｈｏｄｈａｖｅｂｅｔｔｅｒｃｏｒｒｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎｒａｔｅａｇａｉｎｓｔｔｈｅｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ‐ｂａｓｅｄ

ｄｉｓｃｒｅｔｉｚａｔｉｏｎ．

Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｇ；ｄｉｓｃｒｅｔｉｚａｔｉｏｎ；ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｉｎｇ；ｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ

　　常用的离散化方法主要有三类： ① 宽离散化

方法

［１‐３］

，该类方法将数值型属性的值域按等宽度

原则进行划分． ② 等频离散化方法

［１，２，４］

，它同样

需要指定离散区间的数目ｋ．首先将实例集按属性

值进行升序排列，然后将数值型属性的值域划分为

ｋ个区间，按等区间大小原则进行离散化． ③ 固

定频率离散化方法

［２］

，它划分给每个区间相同的

样本数．该类方法需要指定每个区间的样本数ｓ，

然后将每个数值型属性进行离散化．这些方法都没

有参考数据集合本身的一些特性，即使产生许多离

散化效果，也存在着很大的偶然性．

基于信息熵的离散化方法（ＦＩＤ）

［５］

是一种根据

信息熵最小启发式原理思想的离散化方法，它利用

切点熵来寻找最佳的切点，采用递归的方式进行离

散化，并引用最小描述长度原则（ＭＤＬ，Ｍｉｎｉｍｕｍ

ＤｅｓｃｒｉｐｔｉｏｎＬｅｎｇｔｈ）来判断是否终止离散化．ＦＩＤ

３４

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38560797

粉丝: 5

改进的数值型属性离散化方法提升数据挖掘性能

基于相似性度量学习的轨道异物检测研究

基于SAX的时间序列相似性度量方法 (2012年)

对称SAX时间序列相似度量方法及其实验分析

基于小波与分形维的数字调制识别算法研究

从零到一：构建模式识别知识体系，第一章《Pattern Recognition and Machine Learning》深度解读

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

最新资源