信息熵与粗糙集结合：一种连续属性多变量离散化新算法

需积分: 22 20 浏览量更新于2024-08-12 收藏 402KB PDF 举报

"基于信息熵的粗糙集连续属性多变量离散化算法 (2013年)" 在数据挖掘和知识发现领域，属性离散化是一个关键步骤，它能将连续属性转换为离散属性，从而简化问题的复杂度，使规则更简洁、精确且易于理解。现有的离散化方法往往在选择断点时忽视了属性间的互斥性和属性内部断点的关联性，这可能导致丢失决策表中的不可分辨关系。因此，"基于信息熵的粗糙集连续属性多变量离散化算法"（PAD）应运而生，该算法由王举范和陈卓在2013年的《青岛科技大学学报（自然科学版）》上发表。 PAD算法的核心是采用信息熵作为选择断点的评估指标，信息熵是衡量系统不确定性的重要工具，它可以反映数据的纯度或信息含量。通过最大化信息熵，算法可以找到最能代表数据分布的断点，从而实现有效的离散化。此外，PAD算法以不可分辨关系作为停止标准，确保离散化过程不会破坏原始数据的决策关系。为提高离散化效果，PAD算法还引入了5条断点预选确选策略。这些策略可能包括但不限于基于密度、频率、聚类等方法来预先筛选可能的断点，并进一步确定最佳断点，以达到最优的离散效果。实验结果显示，与Rosetta软件中的5种离散化算法相比，PAD算法在保持较高预测精度的同时，使用的断点数量更少，这意味着它在效率和准确性之间取得了更好的平衡。关键词：粗糙集理论，不可分辨关系，离散化，信息熵。这个研究工作对于理解粗糙集理论在连续属性离散化中的应用以及如何利用信息熵优化离散化过程具有重要意义。同时，提出的断点预选和确选策略为离散化方法的设计提供了新的思路，对后续的数据处理和分析工作有积极的指导作用。中图分类号：P208，表示该论文属于计算机科学与技术的范畴，文献标志码：A，通常表示这是原创性的科学研究论文。此篇论文的贡献在于提出了一种创新的离散化算法，对于提高数据挖掘的效率和准确性具有实际价值。

第

卷第

期

青岛科技大学学报（白然科学版）

Vol.

：让

o.4

2013

年

月

Journal

Qingdao University

Science and Technology( :'atural Science Edition) Aug. 2013

文章编号：

1672

6987(2013)04 0423

基于信息娟的粗糙集连续属性多变量离散化算法

王举范，陈卓

（青岛科技大学信息科学技术学院，山东青岛

.2660

口）

摘

要：属性离散化能够降低问题的复杂度，得到更加简短、精确且易于理解的规则。针

对现有离散化方法在选择断点时没有考虑属性问和属性内断点的互斥性且不能保证保持

决策表的不可分辨关系，本研究提出一种新的基于信息恼的粗桂集连续属性多变量离散

化算法

CPAD)

。它以信息焰作为选择断点的衡量标准，以不可分辨关系为停止标准并引

入

条断点预选确选策略。实验结果表明，引入断点预选、确选策略的

PAD

算法与

Ros

tta

软件中的

个离散化算法相比，具有较高的预测精度和较少的断点数目。

关键词：粗桂集；不可分辨关系；离散化；信息煽

中图分类号：

208

文献标志码：

Multiple

Variable

Discretization

Algorithm

Continuous

Attributes

Rough Set

Theory

Based

Information

Entropy

叭

TANG

Ju-fan,

CHEN

Zhuo

(College

Information

Science

and

Technology.

Qingdao

University

Science

and

Technology.

Qingdao

2660'12.

China)

Abstract:

Attribute

discretization

can

reduce

the

problem

complexity,

and

obtain

brief,

accurate

and

comprehensible

rules.

The

existing

discretization

methods

selec

ting

breakpoint

don

’t

take

into

consideration

the

mutual

exclusion

the

ones

among

and

within

the

attribut

凹，

therefore

cannot

maintain

the

indiscernibility

relation

deci

sion

table.

this

paper

new

multiple

variable

discretization

algorithm

proposed

for

continuous

且

tributes

rough

set

theory

based

information

entropy

(PAD).

The

new

algorithm

employs

information

entropy

measure

choo

；号

breakpoint,

takes

discernibility

relation

the

stopping

criterion

and

introduces

five

strategies

for

break

point

pre

selection

and

final

selection.

Experimental

results

show

that

PAD

algorithm

can

get

higher

precision

accuracy

and

less

breakpoint

number

compared

with

five

discret

ization

algorithms

employed

Rostta

software.

Key

words:

rough

sets;

indiscernibility;

discretization;

information

entropy

目前离散化受到了广泛的关注与研究，并取

得了丰硕的研究成果［

离散化算法可分为有

监督离散化算法和｜兀监督离散化算法。无监督离

散化算法不利用类别信息米提高算法的性能。这

类算法在选择断点时没有根据数据自身的特性合

收稿日期：

2012

基金项目：同家自然科学基金项

（

币

127'180).

作者简介．五举地（

1986

男，硕士研究牛、．

理地选取断点，而只是单纯的根据某个标准硬件

的对属性空间进行划分。因此，多种有监督的单

变量离散化算法已经被提出［

5-8

二。但是，单变量离

散化算法并没有考虑到属性｜间的相互依赖关系，

只是从无监督离散化模式发展到孤立地考虑某个

第

卷第

期

青岛科技大学学报（白然科学版）

Vol.

：让

o.4

2013

年

月

Journal

Qingdao University

Science and Technology( :'atural Science Edition) Aug. 2013

文章编号：

1672

6987(2013)04 0423

基于信息娟的粗糙集连续属性多变量离散化算法

王举范，陈卓

（青岛科技大学信息科学技术学院，山东青岛

.2660

口）

摘

要：属性离散化能够降低问题的复杂度，得到更加简短、精确且易于理解的规则。针

对现有离散化方法在选择断点时没有考虑属性问和属性内断点的互斥性且不能保证保持

决策表的不可分辨关系，本研究提出一种新的基于信息恼的粗桂集连续属性多变量离散

化算法

CPAD)

。它以信息焰作为选择断点的衡量标准，以不可分辨关系为停止标准并引

入

条断点预选确选策略。实验结果表明，引入断点预选、确选策略的

PAD

算法与

Ros

tta

软件中的

个离散化算法相比，具有较高的预测精度和较少的断点数目。

关键词：粗桂集；不可分辨关系；离散化；信息煽

中图分类号：

208

文献标志码：

Multiple

Variable

Discretization

Algorithm

Continuous

Attributes

Rough Set

Theory

Based

Information

Entropy

叭

TANG

Ju-fan,

CHEN

Zhuo

(College

Information

Science

and

Technology.

Qingdao

University

Science

and

Technology.

Qingdao

2660'12.

China)

Abstract:

Attribute

discretization

can

reduce

the

problem

complexity,

and

obtain

brief,

accurate

and

comprehensible

rules.

The

existing

discretization

methods

selec

ting

breakpoint

don

’t

take

into

consideration

the

mutual

exclusion

the

ones

among

and

within

the

attribut

凹，

therefore

cannot

maintain

the

indiscernibility

relation

deci

sion

table.

this

paper

new

multiple

variable

discretization

algorithm

proposed

for

continuous

且

tributes

rough

set

theory

based

information

entropy

(PAD).

The

new

algorithm

employs

information

entropy

measure

choo

；号

breakpoint,

takes

discernibility

relation

the

stopping

criterion

and

introduces

five

strategies

for

break

point

pre

selection

and

final

selection.

Experimental

results

show

that

PAD

algorithm

can

get

higher

precision

accuracy

and

less

breakpoint

number

compared

with

five

discret

ization

algorithms

employed

Rostta

software.

Key

words:

rough

sets;

indiscernibility;

discretization;

information

entropy

目前离散化受到了广泛的关注与研究，并取

得了丰硕的研究成果［

离散化算法可分为有

监督离散化算法和｜兀监督离散化算法。无监督离

散化算法不利用类别信息米提高算法的性能。这

类算法在选择断点时没有根据数据自身的特性合

收稿日期：

2012

基金项目：同家自然科学基金项

（

币

127'180).

作者简介．五举地（

1986

男，硕士研究牛、．

理地选取断点，而只是单纯的根据某个标准硬件

的对属性空间进行划分。因此，多种有监督的单

变量离散化算法已经被提出［

5-8

二。但是，单变量离

散化算法并没有考虑到属性｜间的相互依赖关系，

只是从无监督离散化模式发展到孤立地考虑某个

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38645208

粉丝: 6
资源: 929

信息熵与粗糙集结合：一种连续属性多变量离散化新算法

连续数值的离散化方法

粗糙集相关的一些论文

邻域粗糙集属性约简,粗糙集属性约简步骤,Python源码.zip

基于最大互信息最大相关熵的特征选择方法 (2009年)

粗糙集软件ROSETTA和ROSE2及中文使用说明

离散数据挖掘方法改进措施探究.pdf

地铁盾构施工诱发地表沉降关键影响因素分析 (2015年)

粗糙集理论下连续量决策表离散化的改进研究及应用局限

改进K-means聚类与变精度邻域熵的属性约简算法

Rosetta软件英文教程：决策表与粗糙集处理

最新资源