概率信息熵理论在实值属性离散化中的应用

PDF格式 | 333KB | 更新于2024-08-31 | 151 浏览量 | 举报

"PIE：实值属性离散化方法及应用" 实值属性离散化是数据预处理的关键环节，特别是在数据挖掘和机器学习中，它对于提升模型的效率和准确性至关重要。离散化过程将连续数值转化为离散的类别，从而减少数据的复杂性，便于后续分析。本文介绍了一种名为PIE（Probability and Information Entropy）的新方法，该方法融合了概率论和信息熵理论，旨在更精确地处理实值属性的离散化问题。 PIE方法的核心在于通过信息熵来量化相邻区间的相似性。信息熵是信息论中的一个概念，用于度量信息的不确定性或随机性。在离散化过程中，相邻区间的相似性是决定合并与否的重要依据。此外，PIE还兼顾了离散区间大小和区间类别数对学习精度的影响。区间大小反映了数据分布的集中程度，而类别数则关系到分类的复杂性。通过概率理论，PIE建立了一个衡量这两者的标准，以确保离散化过程既能保持信息的丰富性，又不会引入过多的噪声。在实际应用中，PIE方法已被证明对See5/C5.0这样的分类器具有良好的学习性能。See5/C5.0是一种基于决策树的分类算法，离散化后的数据对其构建决策规则尤其有利。实验结果显示，PIE在肿瘤诊断这一复杂任务中表现出色，这证明了其在高精度要求场景下的实用性。离散化方法大致可分为两类：自底向上和自顶向下。自底向上方法通常从每个属性值开始，逐步合并区间，而自顶向下方法则从全范围开始，逐步细化。另外，有监督和无监督离散化也是常见的分类方式。有监督方法利用类别信息指导离散化，如Ent-MDLP，它基于熵最小化和最小描述长度原则；CAIM则根据类与属性的相关性进行离散；而Chi2-based算法使用卡方统计来决定区间合并，但忽略了区间大小和类别数的影响。无监督方法，如EWD和EFD，虽然简单快速，但可能无法满足特定需求。 PIE方法的优势在于其全面性和灵活性。它不仅考虑了区间差异性，还综合了区间大小和类别数，从而提高了离散化结果的准确性和模型的分类能力。这种方法对于处理包含复杂信息的实值属性特别有效，尤其是在医学诊断、金融风险评估等需要高精度分析的领域。 PIE是一种创新的离散化技术，它结合了概率论和信息熵，能够更好地适应各种数据特性，提高机器学习算法的性能。未来的研究可以进一步探索PIE在其他分类算法中的应用，以及如何优化该方法以适应更广泛的数据类型和应用场景。

PIE：实值属性离散化方法及应用：实值属性离散化方法及应用

提出一种基于概率与信息熵理论的实值属性离散化方法，综合考虑了各对合并区间之间的差异性；该方法利用

信息熵衡量相邻区间的相似性，同时考虑离散区间大小和区间类别数对学习精度的影响，并通过概率的方法得

到了这两个因素的衡量标准。仿真结果表明，新方法对See5/C5.0分类器有较好的分类学习能力，并在肿瘤诊断

中得到了很好的应用。

摘摘要：要：提出一种基于

关键词：关键词：离散化；

　连续属性离散化是数据挖掘和机器学习的重要预处理步骤，直接影响到机器学习的效果。在分类算法中，对训练样本集进行

离散化具有两重意义：一方面可以有效降低学习算法的复杂度，加快学习速度，提高学习精度；另一方面可以简化、归纳获得

的知识，提高分类结果的可理解性。很多离散化方法的提出，主要分为以下两种类型[1]：(1)自底向上和自顶向下的离散化方

法。自底向上离散化方法是以每个属性值为一个区间，然后迭代地合并相邻区间；自顶向下离散化方法是把整个属性的值域视

为一个区间，递归地向该区间中添加断点。(2)有监督和无监督离散化方法。有监督方法使用决策类信息进行离散化，如Ent-

MDLP[2]、CAIM[3]和Chi2-based[4-5]等算法。Ent-MDLP使用熵的理论来评价候选断点，选择使得整体熵值最小的断点作为

最终断点，并且通过最小描述长度原则来确定离散区间数；CAIM是一种自顶向下离散化方法，该方法依据类与属性间的关联

度，提出一种启发式离散化标准，计算当前状态的标准值来判别当前断点是否应该被加入断点集合中。自底向上的Chi2-

based离散化算法使用卡方统计来确定当前相邻区间是否被合并，并采用显著性水平值逐渐降低的方法检验系统的不一致率，

确定离散化进程是否终止。然而，Chi2-based方法在衡量区间差异时没有考虑区间大小和区间类别数对离散化结果的影响，

可能会导致学习精度的降低；而无监督离散化方法则不考虑类的信息。传统的无监督离散化方法包括EWD(Equal Width

Discretization)和EFD(Equal Frequency Discretization)，这两个算法实现简单且计算消耗低，但结果往往难以满足预计的要

求。

本文提出一种基于概率与信息熵理论的实值属性离散化方法PIE(Probability and Information Entropy)，综合考虑了各对合并区

间之间的差异性，利用信息熵衡量相邻区间的相似性，同时考虑离散区间大小和区间类别数对分类能力的影响，并通过概率的

方法得到了这两个因素的衡量指标。实验结果表明，PIE显著地提高了See5/C5.0分类器分类学习精度，并在乳腺肿瘤诊断中

得到了很好的应用。

1 PIE离散化离散化

　离散化问题描述如下：对于m个连续属性的数据集，样本点个数为N，决策类别数为S，数据集中任意一个连续属性为a，可

以将连续属性的值域离散成I个区间：

P：{[d0，d1]，[d1，d2]，…，[dI-1，dI]}

其中，d0是连续属性A的最小值，dI是a的最大值，属性a的值按升序进行排列，{d0，d1，d2，…，dI-1，dI}为离散过程中

的断点集合。属性a的每个值都可以划分到离散的I个区间的某一个区间中。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38679178

粉丝: 4

概率信息熵理论在实值属性离散化中的应用

UltraWinChart NA2004 Vol2

Matlab图形绘制PPT教案学习.pptx

MATLAB作图函数在教育中的应用：5个概念可视化，辅助教学

精通Stata绘图：图形构建与个性化定制的终极攻略

掌握MATLAB高级编程技巧：数据分析与可视化的利器，提升你的编程实力

Python新手指南：掌握这一方法，高效计算任意数列的平均值

MATLAB作图函数在工程设计中的应用：5个设计方案可视化，辅助工程决策

【MATLAB高级应用：斯皮尔曼系数案例】：深度剖析与实际应用

MATLAB输出在数据分析中的应用：数据可视化与统计分析的利器

【时间序列数据可视化艺术】：用图表讲故事的10种方法

最新资源