数值型数据的增量式属性约简：邻域粒化条件熵算法

108 浏览量更新于2024-08-31 收藏 1.36MB PDF 举报

"基于邻域粒化条件熵的增量式属性约简算法是针对数值型数据的增量式学习方法，旨在优化动态数据环境中的属性约简过程。本文提出了一种新颖的算法，它融合了粒计算理论，特别是邻域粒化和条件熵概念，以适应不断变化的数据集。在传统数据挖掘中，属性约简是一个关键步骤，用于减少数据的复杂性，同时保持重要信息。对于静态数据，属性约简可通过一次性计算完成。然而，面对动态数据，这种一次性方法效率低下，因为每次数据更新都需要重新计算，这在大数据环境中尤其不切实际。因此，增量式属性约简成为了解决这一问题的有效途径。增量式学习是机器学习的一个分支，关注如何在新数据到来时逐步调整模型，而无需重新训练整个模型。在本研究中，作者将这种思想应用到数值型数据的属性约简上。他们提出了一种分层的邻域粒化计算方法，这种方法能够处理连续的数值数据，并且能够随着数据对象的增加进行增量式更新。邻域粒化是一种粒计算方法，它将数据对象组织成不同层次的粒度，每个粒度代表一个邻域内的数据对象集合。这种方法允许更灵活地处理数值型数据的相似性，因为它可以根据数据分布动态调整粒度大小。在增量式计算框架下，当新的数据对象加入时，邻域粒化的结构可以被有效地更新，以反映新数据的影响。条件熵是衡量信息不确定性的一个度量，常用于特征选择和数据压缩。在增量式属性约简中，作者提出了邻域粒化条件熵的增量式更新方法。这个方法能够在不重新计算整个系统的熵的情况下，仅基于新加入的数据对象更新条件熵，从而快速确定哪些属性是冗余的，哪些是保持系统信息不变的必要属性。通过实验分析，作者证明了所提出的算法在数值型数据的增量式属性约简中表现出更高的效率和性能。实验结果表明，相比于基于离散数据的算法，该算法能够更快地适应数据变化，同时保持了约简的质量，这对于实时数据分析和决策支持系统特别有价值。这篇研究工作为数值型数据的增量式属性约简提供了一个创新的解决方案，结合了邻域粒化和条件熵的概念，为动态数据环境中的高效数据挖掘开辟了新的路径。其贡献在于解决了现有算法对数值型数据处理的不足，提升了在大规模、快速变化的数据集上的处理能力。" 关键词: 增量式学习；粒计算；属性约简；数值型数据；邻域粒化；条件熵中图分类号: TP18 文献标志码:A

第10期赵小龙等: 基于邻域粒化条件熵的增量式属性约简算法 2063

邻域粒化条件熵满足0 ⩽ E

) ⩽ 1 − 1/n. 此

外,对于数值型决策信息系统NDIS = (U, C

∪

D),论

域 U 在等价关系 R

下确定的决策粒化为 U/R

{[x

]

, [x

]

, · · · , [x

]

}. 决策属性 D 关于属性集

的邻域粒化条件熵为

(D|B

) =

∑

i=1

(|n

)| − |n

)

∩

]

|).

(5)

对于数值型信息系统NIS = (U, AT),属性集 B

⊆ B

⊆ AT, 且 B

和 B

在该信息系统确定的邻域

关系分别为 N

和N

, D 关于属性集 B

和B

的邻

域粒化条件熵分别为 E

(D|B

) 和 E

(D|B

), 满足

(D|B

) ⩽ E

(D|B

上述是邻域粒化条件熵一个重要的性质, 它表明

随着属性集的增加,决策属性关于该属性集的邻域粒

化条件熵是单调不增的,这是构造属性约简算法的一

个必要条件

[4, 18-20, 22]

, 它保证邻域粒化条件熵能够收

敛, 最后属性约简算法才得以终止. 因此, Zhao 等

[19]

提出了基于邻域粒化条件熵的属性约简算法, 具体如

算法1所示.

算法1 邻域粒化条件熵属性约简(ARNGCE).

输入: 数值型决策信息系统NDIS = (U, C

∪

D),

邻域半径δ;

输出: 条件属性集C 的约简集 redc.

Step 1: 初始化redc = ∅, E

(D|∅) = 1.

Step 2: 对于∀a

∈ C −redc, 计算属性 a

关于redc

的属性重要度s

redc

),其中

redc

) = E

(D|redc) − E

(D|redc

∪

}).

Step 3: 对于 Step 2 中的所有属性 a

, 选出属性重

要度最大的属性,并记为a

∗

Step 4: 对于属性 a

∗

, 若 s

redc

∗

) > 0, 则 redc =

redc

∪

∗

},进入Step 2;若s

redc

∗

)= 0,则进入Step 5.

Step 5: 返回约简集redc.

算法 1 通过邻域粒化条件熵作为启发式函数

来搜索属性, 并不断进行迭代, 直到 E

(D|C) =

(D|redc) 算法终止, 此时 redc 即为条件属性集 C

的约简, 且算法 1 的时间复杂度主要集中在邻域粒

化的计算上, 每个邻域的计算需要消耗 O(|C||U|)

的时间, 因此论域中所有对象进行邻域计算的时间

复杂度为 O(|C||U |

), 整个算法 1 的时间复杂度为

O(|C|

|U|

2 邻域粒化条件熵的增量式属性约简

文献[19] 通过理论和实验证明,基于邻域粒化条

件熵的属性约简具有更高的约简性能. 由于该算法

是非增量式的, 只能处理静态的信息系统. 为了能够

对动态的数据集进行增量式属性约简, 针对数值型信

息系统对象不断增加的情形,提出一种基于邻域粒化

条件熵的增量式属性约简.

增量式属性约简的关键是计算的高效性, 当有新

数据加入,新的信息系统在属性约简时只需对新进数

据进行计算, 而不对已经计算过的数据进行重复运

算, 这样便能满足数据处理的时效性, 达到动态数据

的处理需求

[6-17]

. 文献 [20] 运用排序的方式提出了一

种快速邻域计算方法, 本节在此基础上, 提出一种邻

域粒化的分层增量式计算,并提出邻域粒化条件熵的

增量式学习机制,最后基于该机制提出相应的增量式

属性约简算法.

2.1 邻域粒化的分层增量式计算

Liu 等

[20]

提出的排序方法提高了邻域粒化的计

算效率, 本节将该方法进一步改进, 提出一种高效的

邻域粒化方法,并应用于邻域粒化的增量式计算中.

定义 4 数值型信息系统 NIS = (U, AT), 将信

息系统中的所有属性值归一化为非负值, 即 ∀x ∈

U, ∀a ∈ AT 满足 a(x) ⩾ 0. 设属性集 B ⊆ AT, 邻

域半径为 δ. 基于属性集B 在论域 U 上定义一个包含

m个对象集的分层L

= {l

, l

, · · · , l

},其中

= {x ∈ U|⌈d

(x, x

)/δ⌉ = i}, 1 ⩽ i ⩽ m. (6)

其中: x

/∈ U 是人为构造的一个特定对象, 称为原点

对象, 满足 ∀a ∈ B, a(x

) = 0; d

(x, x

) 为对象 x 与

之间的距离度量; m 的大小取决于论域中对象与

原点对象之间距离的最大值; l

为论域经过分层后的

第 i 个分层集, l

内部的对象 x 与原点对象 x

之间的

距离位于区间 (δ( i − 1), δi], 即论域的分层事实上是

将整个论域分成多个部分,同一个部分中的对象与原

点对象之间的距离位于同一个区间. 同时应当注意，

可能存在l

∈ L

满足l

= ∅.

通过定义 4 可以看出, 在论域 U 上定义的分层集

相当于对论域中所有对象按照与原点对象的距

离分成不同的层次. 这样做的直接好处是在进行对

象邻域粒计算时,可以大幅度减小计算量.

定理 1 数值型信息系统 NIS = (U, AT), 设属

性集B ⊆ AT,邻域半径为δ. 论域U 上确定的分层集

为L

= {l

, l

, · · · , l

},对象x的邻域粒可以计算为

(x) =











{y ∈ l

i−1

∪

i+1

(x, y) ⩽ δ},

x ∈ l

, 2 ⩽ i ⩽ m − 1;

{y ∈ l

∪

(x, y) ⩽ δ}, x ∈ l

;

{y ∈ l

m−1

∪

(x, y) ⩽ δ}, x ∈ l

(7)

剩余11页未读，继续阅读

weixin_38686080

粉丝: 2
资源: 963

数值型数据的增量式属性约简：邻域粒化条件熵算法

基于邻域关系的知识粒度增量式属性约简算法.docx

混合型数据的邻域条件互信息熵属性约简算法.docx

基于最小化邻域互信息的邻域熵属性约简算法.docx

粗糙集约简算法.rar_信息熵_数据集_模糊熵_粗糙集约简算法_邻域属性约简

基于邻域粒化混合决策系统克隆选择约简算法 (2010年)

基于改进邻域粒的模糊熵特征选择算法

基于邻域粗糙集的符号与数值属性快速约简算法

无限集邻域近似条件熵下的属性约简算法

非单调邻域粗糙互信息熵驱动的属性约简算法

改进K-means聚类与变精度邻域熵的属性约简算法

最新资源