大数据集下二进制可分辨矩阵的属性约简算法

43 浏览量更新于2024-08-30 收藏 201KB PDF 举报

"垂直划分二进制可分辨矩阵的属性约简是针对大数据集处理中二进制可分辨矩阵属性约简方法的优化策略。该研究首先定义了两种新的二进制可分辨矩阵属性约简方法，并证明这两种定义与正区域属性约简定义等价。接着，提出了基于条件属性垂直划分的属性约简算法，通过这种方式，可以有效地处理大规模数据。为减少内存占用，研究建议将垂直分解后的二进制可分辨矩阵存储在外部介质中，在执行约简过程时，仅将需要的部分加载到内存中。这导致了一种启发式属性约简算法，其时间复杂度和空间复杂度的上界分别为𝑂(∣𝐶∣∣𝑈∣2)和𝑂(∣𝑈∣2)。最后，通过对算法的理论分析和实验验证，证明了该算法的正确性和高效性。该工作对于粗糙集理论、可分辨矩阵、特别是二进制可分辨矩阵的属性约简具有重要的理论和实践意义，适用于大数据环境下的知识发现和决策支持。" 在粗糙集理论中，属性约简是一个核心问题，它旨在寻找数据集中的最小特征子集，这个子集仍然能保持原始数据集中的分类信息不变。二进制可分辨矩阵是一种特殊的数据表示形式，其中每个元素表示两个对象在某一属性上的可分辨性。在处理大数据集时，传统的属性约简方法可能会遇到效率和存储空间的挑战。本研究提出的垂直划分方法，通过条件属性将二进制可分辨矩阵切割成多个更小的矩阵，这有助于分治策略的应用，从而提高处理速度。此外，将矩阵存储在外部介质上，并按需载入内存，这种策略被称为外存计算，能够显著降低内存需求，这对于处理大数据集尤其重要，因为它允许处理超出内存容量的数据。启发式属性约简算法设计的关键在于平衡计算效率和内存使用。它的运行时间复杂度是𝑂(∣𝐶∣∣𝑈∣2)，其中∣𝐶∣表示属性集合的大小，∣𝑈∣表示对象集合的大小，这意味着算法的时间消耗随属性和对象数量的平方增长。而空间复杂度为𝑂(∣𝑈∣2)，这表明算法在最坏情况下需要的空间与对象数量的平方成正比。理论分析和实验结果表明，该算法在保持正确性的同时，能够有效地处理大数据集，减少了计算和存储资源的需求，提高了属性约简的效率。这些成果不仅丰富了粗糙集理论的研究，也为实际应用提供了有效的工具，特别是在大数据分析和知识发现领域。

第 28 卷第 4 期

Vol. 28 No. 4

控制与决策

Control and Decision

2013 年 4 月

Apr. 2013

垂直划分二进制可分辨矩阵的属性约简

文章编号: 1001-0920 (2013) 04-0563-06

杨传健

, 葛浩

1b,2b

, 李龙澍

(1. 滁州学院 a. 计算机与信息工程学院，b. 机械与电子工程学院，安徽滁州 239012；2. 安徽

大学 a. 计算机科学与技术学院，b. 计算智能与信号处理教育部重点实验室，合肥 230039)

摘要: 针对二进制可分辨矩阵属性约简方法在处理大数据集时的不足, 首先给出两种二进制可分辨矩阵属性约

简的定义, 并证明这两个属性约简定义与正区域的属性约简定义是等价的; 然后, 给出对二进制可分辨矩阵按条件

属性垂直划分后进行属性约简的方法; 为了进一步降低空间开销, 提出将垂直分解的二进制可分辨矩阵存于外部

介质中, 在约简过程中, 仅将所需部分调入内存, 由此设计启发式属性约简算法, 其时间和空间复杂度的上界分别

为 𝑂 (∣𝐶 ∣∣𝑈 ∣

) 和 𝑂 (∣𝑈 ∣

); 最后, 理论分析和实验结果验证了该算法的正确性和高效性.

关键词: 粗糙集；可分辨矩阵；二进制可分辨矩阵；属性约简

中图分类号: TP181 文献标志码: A

Attribute reduction of vertically partitioned binary discernibility matrix

YANG Chuan-jian

, GE Hao

1b,2b

, LI Long-shu

(1a. School of Computer and Information Engineering，1b. School of Mechanical and Electronic Engineering，Chuzhou

University，Chuzhou 239012，China；2a. School of Computer Science and Technology，2b. Key Laboratory of

Computation Intelligence and Signal Processing of Education Ministry，Anhui University，Hefei 230039，China.

Correspondent：YANG Chuan-jian，E-mail：tocjy474@126.com)

Abstract: Attribute reduction algorithms based on binary discernibility matrix are disadvantageous to the larger database

sets. To overcome above shortcoming, ﬁrstly, the two deﬁnitions of attribute reduction based on binary discernibility matrix

are proposed. It is proved that attribute reductions acquired from the deﬁnitions are all equivalent to the attribute reduction

based on positive region. Then the method of attribute reduction is present, which is based on the vertically partitioned

binary discernibility matrix. In order to decrease the express of space, the partitioned binary attribute columns are all stored

on the external space. In the process of reduction, essential part is transferred into the memory merely. Based above, a

heuristic attribute reduction algorithm is designed, in which upper bounds of the time and space complexity are 𝑂(∣𝐶∣∣𝑈 ∣

)

and 𝑂(∣𝑈 ∣

) respectively. Finally, both of theoretical analysis and experimental results show that the algorithms are correct

and efﬁcient.

Key words: rough set；discernibility matrix；binary discernibility matrix；attribute reduction

0 引引引言言言

粗糙集理论

[1]

是波兰数学家 Pawlak 教授于 1982

年提出的一种处理含糊和不精确性知识的数学工具,

它能有效地分析和处理不精确、不一致、不完备的信

息, 并从海量数据中发现隐含的知识. 属性约简是粗

糙集理论的核心内容之一, 常用的属性约简算法有:

基于信息熵的方法

[2]

, 基于正区域的方法

[3]

和基于可

分辨矩阵的方法

[4-12]

[5]

根据 Skowron 可分辨矩阵

[4]

提出了一种

属性约简算法, 算法的时间和空间复杂度分别为

𝑂(∣𝐶∣

∣𝑈∣

) 和 𝑂(∣𝐶∣∣𝑈∣

), 并不理想; 在对不一致决

策表进行处理时, 该算法求得的约简与正区域算法

求得的约简不一致. 支天云等

[8]

给出一种基于二进

制可分辨矩阵的属性约简算法, 该方法可以减少一

些空间开销, 但其时间复杂度为 𝑂(∣𝐶∣

+ ∣𝑈∣

), 空间

复杂度为 𝑂(∣𝐶∣∣𝑈∣

), 时空效率仍不理想, 并且同样

无法正确处理不一致决策表. 徐章艳等

[9]

提出了简

化的二进制可分辨矩阵的约简算法, 该算法解决了

收稿日期: 2011-12-19；修回日期: 2012-03-25.

基金项目: 安徽省自然科学基金项目(090412054)；安徽省高等学校自然科学研究项目(KJ2012A212,KJ2011Z276)；安

徽省高等学校优秀青年人才基金项目(2011SQRL123)；滁州学院科学研究项目(2010kj014B, 2011kj003Z).

作者简介: 杨传健(1978−), 女, 副教授, 硕士, 从事数据挖掘、粗糙集的研究；李龙澍(1956−), 男, 教授, 博士生导师, 从

事不精确信息处理、智能软件等研究.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38534444

粉丝: 2
资源: 889

大数据集下二进制可分辨矩阵的属性约简算法

论文研究-基于信息熵的二进制差别矩阵属性约简算法.pdf

属性约简 matlab程序

matlab将生成的十进制矩阵转换成二进制结果的矩阵

matlab将16进制的一维矩阵转换成二进制的一维矩阵

matlab将生成的十进制矩阵转换成32位精度二进制结果的矩阵并写入txt

matlab中如何将二进制数矩阵映射为64进制矩阵

将二进制数矩阵映射为64进制矩阵

用matlab写一段将十进制矩阵转换为二进制矩阵的代码

二进制矩阵转换为像素矩阵

混沌序列与二进制矩阵进行循环移位的步骤

最新资源