连续特征离散化方法探讨

4星 · 超过85%的资源需积分: 46 178 浏览量更新于2024-09-19 2 收藏 171KB PDF 举报

本文主要探讨了连续数值的离散化方法，强调了离散化在数据挖掘中的重要性，特别是对于连续特征的转化。作者分别介绍了离散化方法的分类，包括有监督和无监督的方法，并讨论了离散化过程中的关键术语和步骤。文章指出，选择合适的离散化方法对于提升数据挖掘和机器学习的效果至关重要。连续特征离散化是数据预处理的关键步骤，因为许多机器学习和数据挖掘算法对离散特征有更好的处理能力。连续特征，如身高、年龄或价格，具有无限可能的数值，而离散特征，如性别或商品类别，通常只有有限的取值。离散化可以帮助减少数据复杂性，降低存储需求，提高知识表示的直观性，使数据更易于理解和解释，并加速算法的学习过程。文中提到了离散化方法的分类，有监督离散化考虑了目标变量的信息，无监督离散化则仅依赖于输入数据。一些典型的离散化方法包括等频划分、等宽划分、基于信息熵的方法、基于聚类的方法以及基于规则的方法。等频划分是将数据分成大小相等的区间，等宽划分则是根据数值范围创建固定宽度的区间。信息熵方法则利用信息理论来确定最优分割点，以最大化信息增益或减少不确定性。基于聚类的方法通过聚类算法（如K-means）将相似的数值归入同一类别。基于规则的方法，如ID3决策树算法，通过构建决策树来指导离散化过程。在选择离散化方法时，需要考虑数据的特性、问题背景以及所采用的算法。关联分析中的连续特征离散化被提出为一个未来的研究方向，这表明在处理包含连续和离散特征的数据集时，寻找有效的离散化策略仍然是一个活跃的研究领域。连续数值的离散化是数据预处理中的核心任务，它影响着后续分析的效率和准确性。通过理解和应用适当的离散化技术，可以提高模型的性能，帮助从复杂的数据中提取更有价值的信息。

连续特征离散化方法综述

汪庆，张巍，刘鹏

上海财经大学信息管理与工程学院，上海，200439

wq_811@yahoo.com.cn

摘要：离散特征在数据挖掘的过程中具有重要

的作用，如何将实际数据集中的连续特征最好

地离散化是一个 NP-hard 问题。本文介绍了离

散化方法的不同角度的分类、离散化过程中用

到的术语及一般离散化的过程。同时，还按照

离散化方法有监督和无监督的分类方法体系，

介绍了几种有代表性的离散化方法。提出需根

据学习环境选择合适的离散化方法，将关联分

析中连续特征离散化作为以后的研究方向。

关键词：连续特征，离散特征，离散化

1 引言

数据集的特征按照其取值可以分为连续特

征和离散特征。连续特征也称为定量特征，通

常用间隔尺度和比例尺度来衡量，有较多甚至

无穷的数值表达, 其值取自某个连续的区间,

表示了对象的某种可测性质,例如人的身高、年

龄, 商品的价格、空气温度、物体长度等等。

离散特征也称定性特征，一般以名义尺度或有

序尺度定义，是指以文本型数据表达的对象特

征, 如人的性别、学历特征, 商品的用途( 食

品、服装) 等, 此类特征的值域只限定于较少的

取值

[1-2]

。连续特征的取值允许被排序，可进行

算术运算；离散特征的取值有时允许被排序，

但是其不能进行算术运算

[3]

。

在机器学习和数据挖掘中，已经发展了处

理离散型数据的很多算法，如决策树、关联规

则及基于粗糙集理论的许多方法，而这些算法

对于连续型数据却不适用；而有些算法即使能

处理连续型数据，挖掘和学习也没有处理离散

型数据有用和有效。但是在实际数据库中，往

往不只存在着离散型数据，也存在着大量连续

型数据。这样就有必要将连续特征离散化，使

得特征可以适用于各种算法。特征的离散化处

理就是把连续特征转化为离散特征，它是数据

预处理的一个重要过程，直接关系到挖掘和学

习的效果

[3-4]

。

将连续特征离散化，再将离散化的结果应

用于算法有很多好处。（1）离散化结果将会减

少给定连续特征值的个数，减小系统对存储空

间的实际需求。（2）离散特征相对于连续特征

来说更接近于知识层面的表示。（3）通过离散

化，数据被规约和简化，对于使用者和专家来

说，离散化的数据都更易于理解，使用和解释。

（4）离散化处理使得算法的学习更为准确和迅

速

[5]

。（5）一系列算法只能应用于离散型数据，

使得离散化处理成为必要，而离散化又使很多

算法的应用范围扩展了

，

。但最优离散化

问题已经被证明是一个NP-hard问题。

离散化的方法有很多，本文接下来第 2 节

介绍了离散化方法的分类体系、术语及离散化

过程，第 3 节选取了目前比较有代表性的几种

离散化方法进行了详细介绍以及一些改进的离

散化方法，第 4 节提出了要根据学习环境和用

户需要选择合适的离散化方法，并以关联分析

中的离散化为例，指出在关联分析中离散化方

法选择需要注意的问题，最后是全文的结束语，

并将关联分析中的连续特征离散化作为以后的

研究方向。

2 现状及离散化过程

2.1 分类

离散化方法依据不同的需求沿着不同的主

线发展至今，目前已存在很多不同离散化方法

的分类体系。不同的分类体系强调离散化方法

间的区别的不同方面

[3]

。主要的分类体系有有

监督的和无监督的、动态的和静态的、全局的

和局部的、分裂式的（从上至下）和合并式的

（从下至上）、单变量的和多变量的以及直接的

和增量式的。

根据离散化方法是否使用数据集的类信

息，离散化方法可以分为有监督的和无监督的。

有监督的离散化方法使用类信息，而无监督的

离散化方法不使用类信息。有监督的离散化方

法又分为建立在错误率基础上的、建立在熵值

基础上的或者建立在统计信息基础上的

，

。

早期的等宽、等频的离散化方法是无监督方法

的典型代表，连续的区间根据使用者给定的宽

度或频数划分成小的区间。无监督的方法的缺

陷在于它对分布不均匀的数据不适用，对异常

下载后可阅读完整内容，剩余5页未读，立即下载

tangxj21

粉丝: 0
资源: 2

连续特征离散化方法探讨

连续系统离散化方法

RoughSet中基于聚类的连续属性离散化方法.pdf

几种常用的连续状态方程离散方法总结-用于卡尔曼滤波方程.pdf

CFD方法中的数值离散化

matlab 数值离散化

matlab离散化方法

c++ map 离散化

等宽离散化和等频离散化有什么区别

连续图形和离散化图形有什么区别

最新资源