遗传算法优化决策表连续属性离散化研究

论文研究

需积分: 0 13 浏览量更新于2024-09-06 收藏 182KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文是关于遗传算法在决策表连续属性离散化中的应用研究，由赵卫东、戴伟辉和蔡斌于2003年在《系统工程理论与实践》上发表。该研究关注的是如何有效地处理决策表中的连续属性，以进行数据压缩和简化分析，同时涉及模式识别、机器学习和粗集理论等领域。连续属性的离散化是一个挑战，因为现有的离散方法往往受到候选分割点选择的主观性影响，且最优离散化问题被证明是NP-困难问题，这意味着找到最佳解决方案非常复杂。论文提出了将分割点的选择转化为0-1整数规划问题，并利用实数编码的遗传算法寻找最优分割点集，以克服传统启发式算法可能导致的局部最小值问题。" 在决策表中，连续属性的离散化是将数值型的数据转化为离散的类别，这有助于减少数据的复杂性，提高分析效率。遗传算法是一种基于自然选择和遗传原理的全局优化工具，它通过模拟生物进化过程，如选择、交叉和变异操作，来搜索问题空间的全局最优解。在本论文中，作者将遗传算法应用于离散化问题，通过实数编码的方式，使得算法能够更灵活地处理分割点的选取。论文首先指出，现有的离散方法，如基于信息熵的离散化，往往存在选择初始分割点的主观性，这可能影响离散的效果。最优离散化问题的复杂性使得大多数算法只能找到局部最优解，而非全局最优。为此，作者引入了粗集理论，这是一种处理不精确或不确定信息的数学工具。通过粗集理论，他们将分割点的选择转化为一个0-1整数规划问题，其中每个分割点的选取可以看作是二进制决策变量，目标是最大化某种评价函数（如信息增益或降低的不确定性）。遗传算法在解决这个优化问题时，首先生成一个初始种群，种群中的每个个体代表一组分割点的选择。然后，通过适应度函数评估每个个体的优劣，适应度高的个体有更高的概率被保留下来进行下一代的繁殖。通过交叉和变异操作，算法能够在种群中探索不同的分割点组合，以寻找全局最优解。这种策略避免了传统启发式算法可能陷入局部最优的困境。总结来说，这篇论文通过将连续属性离散化问题转化为0-1整数规划，并利用遗传算法进行求解，提供了一种更客观和系统的方法来选择分割点，从而提高了离散化的效果。这种方法对于模式识别、机器学习以及粗集分析等领域具有实际的应用价值，特别是在处理大规模和复杂数据集时，能够提供更好的数据预处理策略。

资源详情

资源推荐

　2003 年 1 月系统工程理论与实践第 1 期　

文章编号: 100026788

(

2003

)

0120062206

遗传算法在决策表连续属性离散化中的应用研究

赵卫东, 戴伟辉, 蔡　斌

(

复旦大学管理学院, 上海 200433

)

摘要: 　连续属性的离散化是压缩数据和简化分析的重要手段, 也是模式识别、机器学习和粗集分析等

领域研究的难点Λ目前已出现多种离散方法, 存在的主要问题是对离散效果影响较大的侯选分割点集选

择带有较强的主观性Λ最优离散化是

N P

2困难问题, 大多数离散化算法采用的启发式也难以得到较满意

的离散效果Λ 基于粗集理论, 探讨了上述问题, 把分割点的优选问题转化为 021 整数规划, 并提出一种用

实数编码的遗传算法来计算最优分割点集Λ

关键词: 　离散; 决策表; 粗集; 遗传算法

中图分类号: 　

301　　　　　　　　文献标识码: 　

The D iscretization of Continuous A ttributes

U sing Genetic A lgo rithm s

ZHAO W ei

dong

DA IW ei

hui

CA IB in

(

School ofM anagem ent

Fudan U niversity

Shanghai

200433,

China

)

Abstract

The discretization of continuous attributes is an impo rtant m ethod fo r comp ressing data and

simp lifying analysis

w hich is of the focuses in the dom ains of pattern recognition

m achine learning and

rough sets

Some discretization algo rithm s have been used such asM D

discretization based on entropy

but there exist disadvantages in them

Fo r examp le

the cho ice of initial set of cut dots is hard to be de2

term ined

The op tim al discretization has been p roved to be N P

hard

Heuristics used by mo st algo2

rithm s usually give localm inim a though results sometim es are satisfactory

Based on the rough set theo2

the p roblem s m entioned above are firstly discussed in this paper

Then w e transform the discretiza2

tion of continuous attributes into

0212

integer p rogramm ing

w hich can be so lved successfully by existent

softw are such as lindo

Furthermo re

a genetic algo rithm using decim al encoding is p roposed to compute

the op tim al discretization

Key words

discretization

;

decision table

;

rough set

; 0212

integer p rogramm ing

;

genetic algorithm

1　引言

连续属性的离散化是机器学习和数据挖掘的重要预处理步骤, 直接关系到学习的效果Λ 在许多场合,

连续属性的离散化也是必要的Λ如粗集对连续属性缺乏直接有效的处理Λ连续属性的离散化, 不仅可以缩

减运算量, 还能在一定程度上抑制噪声Λ通常, 离散化是在连续属性的值域范围内选择若干分割点, 从而把

整个属性值域划分为若干子区间, 每个子区间用一个符号值代替Λ 从粗集的观点看, 离散化的实质是在保

持决策表分类能力不变, 即条件属性和决策属性相关关系不变的条件下, 在连续属性的值域中搜索合适的

一致分割点集

(

consistent set of cuts

)

Λ评价连续属性离散化的质量, 主要看分割点的选择和个数多少Λ最

优离散化, 即最小一致离散化已被证明是

N P

hard

问题

[1 ]

Λ 连续属性的离散化也要尽量避免决策表信息

的损失Λ

收稿日期: 2001206211

作者简介: 赵卫东

(

1971-

)

, 男, 江苏徐州人, 博士后, 研究方向: 智能决策, 企业变化管理和电子商务等

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38744153

粉丝: 346
资源: 2万+

遗传算法优化决策表连续属性离散化研究

论文研究-一种新的基于连续属性离散化的属性约简方法.pdf

描述连续属性的离散化过程

连续型属性离散化的步骤

k-means算法和决策树和随机森林的优缺点

离散遗传算法与传统遗传算法有什么不同

经典遗传算法介绍包括二进制遗传算法和连续遗传算法1000字

cart回归树需要对连续属性离散化吗

离散数据的遗传算法多目标优化

连续系统离散化matlab

使用离散化的算法有哪些

matlab遗传算法+离散变量

遗传算法整体离散交叉

matlab怎么进行线性连续系统离散化处理

改进遗传算法的研究现状和意义

python 连续变量离散化

强化学习中sac算法与q-learning算法的区别和优缺点及其使用条件

离散多约束遗传算法github开源代码

最新资源