贪心思想数值属性离散化算法的改进与验证

需积分: 5 20 浏览量更新于2024-08-12 收藏 401KB PDF 举报

"基于贪心思想的数值属性离散化算法的改进 (2009年)" 在数据挖掘和机器学习领域，数值属性离散化是预处理阶段的关键步骤，它将连续的数值数据转化为离散的类别，有助于降低数据复杂性，提高模型的效率和准确性。贪心算法是一种常用的方法，它通过局部最优决策来逐步构建全局解决方案，但在处理数值属性离散化时可能面临一些挑战，如过度分割或信息损失。现有的数值属性离散化算法通常基于不同的策略，如等宽、等频、基于信息熵或基于聚类的方法。等宽方法将数据范围划分为固定宽度的区间，而等频方法则是将相同数量的记录分配到每个区间。这些方法虽然简单易懂，但在处理非均匀分布的数据时可能会导致区间过于拥挤或稀疏。基于信息熵的方法试图最大化信息增益，寻找最优划分，但计算量较大，对大规模数据不友好。基于聚类的方法通过聚类相似数据点，但对异常值敏感，且选择合适的聚类参数是个挑战。陈忠和郭躬德在2009年的论文中针对基于贪心思想的数值属性离散化算法进行了研究，他们分析了这些算法的优缺点。贪心算法通常以迭代的方式选择最佳分割点，每次决策都追求当前最优，但可能忽视了全局最优解。因此，他们提出了一种改进算法，该算法可能包含了动态调整分割点、考虑数据分布特性或优化信息增益计算等方面的创新，以克服传统贪心算法的局限。改进后的算法通过具体的示例进行了验证，结果表明这种改造算法在保持较低计算复杂性的同时，能够更好地适应数据分布，减少信息损失，提高离散化的效果。这为数值属性离散化提供了一个更有效、更实用的解决方案，对于提升数据挖掘和机器学习任务的性能具有积极意义。这篇论文的贡献在于对数值属性离散化问题的深入探讨，以及提出了一种针对贪心算法的改进策略，这有助于优化数据预处理过程，使得后续的数据分析和模型构建更加准确和高效。同时，这也为未来的研究提供了新的思考方向，如何在保证效率的同时，更好地处理复杂的数据分布情况。

第

卷第

期

2009

年

月

福建师范大学学报(自然科学版〉

一

Journal

Fujian

Normal

University

CNatural

SciencêEdition>

No.4

Jul. 2009

文章编号

1000-5277(2009)04-0035-06

基于贪心思想的数值属性离散化算法的改造

陈忠，郭躬德

(福建师范大学数学与计算机科学学院，福建福州

35000

摘要:对现有的数

直属性离散化算法进行研究，客观地评价丁它们的优缺点，并在此基础主针对基于贪

.心思怒的数千直属性离散化算法的不足，提出丁一种新的改进算法.最后通过算法示例验证表明这种改造界

法是有效、可行的.

关键词:数值.&，性;离散化;贪心算法

中图分类号

TP391

文献标识码

Modified

Discretization

Algorithm

Numerical

Attributes

ßased

Greedy

Strategy

CHEN

Si ,

GUO

Gong-de

CSchool

，

Mathematics

and

Com

户

uter

Science ,

Fujian

Normal

University

Fuzhou

350007 ,

China)

Abstract:

carries

out

survey

existing

discretization

methods

numerical

at-

tributes

and

evaluates

their

advantages

and

disadvantages

objectively.

the

basis of

that

new

improved

algorithm

presented

according

the

disadvantages

discretization

algo-

rithm

numerical

attributes

based

greedy

strategy.

Finally

the

improved

algorithm

verified

examples

and

the

results

show

that

the

algorithm

is effective

and

feasible.

Key

words:

numerical

attributes

j discretization j

greedy

algorithm

对数据挖掘和机器学习而言，数值属性离散化具有非常重要的意义.数值属性离散化可以减少算

法的时间和空间开销，提高算法的学习精度，提高系统对样本的聚类能力，增强系统抗数据噪音的能

力[1]此外，许多数据挖掘和机器学习算法只能处理离散型信息系统，因此必须预先对数值属性进行

离散化.数值属性离散化的性能可以从简洁性、一致性和准确性三个方面进行衡量

(1]

现有的离散化算

法主要可以分为有监督或无监督的离散化算法、局部或全局的离散化算法、静态或动态的离散化算

法

[2]

本文对几种常用的数值属性离散化算法进行研究，客观地评价它们的优缺点，并在此基础上针对

数值属性离散化算法中的贪心算法及其相应的改进算法前不足，提出一种新的改进算法.最后通过算

法示例验证表明，本文提出的改进的贪心算法可以有敬地完善现有的改进的贪心算法中"列先行后

法"的不足，能够减少候选断点的个数，消除选择断点过程中的不确定性，并且减少未知区域的个数.

离散化问题的描述

[3J

设

, c U

{d}

，

，j)

为一决策表.其中

{PH

的，…，

例)是一个非空有限集，称为论域;

c={

吨，吨，…，

αICI}

和

{d}

分别称为条件属性集和决策属性集

;ν

事

是属性取值范围构成的集

aECU!d)

收稿日期

2008-09-24

基金项目:福建省自然科学基金资助项目

(200

0016)

，教育部留学回国人员基金资助项目(教外商留

[2068J 890

号)

作者简介

陈恩(1

987-

)，女，福建带回人，硕士研究生，研究方向

数据挖掘技术及其应用.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38557727

粉丝: 5
资源: 907

贪心思想数值属性离散化算法的改进与验证

一个基于邻域粗糙集的前向贪心的属性约简算法

连续属性离散化算法比较研究* (2007年)

贪心算法 贪心算法 贪心算法 贪心算法

贪心算法 贪心 算法 贪心的算法

一种基于贪心算法的快速PCA算法

基于贪心策略的总体分布优化算法求解0-1背包问题

基于贪心改进算法的云计算任务调度.pdf

一种基于贪心算法的纹理排样改进方法.docx

连续属性离散化算法性能比较：实证分析与影响因素

基于贪心思想的MIMO系统天线选择算法研究

最新资源

贪心算法贪心算法贪心算法贪心算法

贪心算法贪心算法贪心的算法