混合数据模糊等价关系构建与约简算法

72 浏览量更新于2024-09-01 收藏 357KB PDF 举报

"一种面向混合数据的模糊等价关系构造约简" 本文主要探讨了在处理混合数据时，如何利用模糊粗糙集模型构建模糊等价关系，并提出了一种新的对象间相似性度量方法。在混合型信息系统中，数据的属性类别可能包括符号型和连续数值型，这给数据分析带来了挑战。传统的粗糙集理论主要适用于符号型数据，但实际场景中的数据往往更为复杂。作者提出了一种带权的对象间相似性度量方法，这种方法针对每类属性（无论是符号型还是数值型）都设计了相应的相似性度量函数。通过这些函数，可以计算不同属性之间的相似程度，并通过归并策略建立一个带权重的模糊相似矩阵。这个矩阵能够反映出对象之间的模糊关系，为后续的模糊等价关系转化奠定了基础。模糊等价关系是模糊粗糙集模型中的关键概念，它允许一定程度的模糊性和不确定性。在构建了模糊相似矩阵后，文章进一步引入了蕴含专家领域知识和用户需求的约简算法。这种约简算法旨在在保持分类能力不变的情况下，找到最小的属性子集，以简化数据模型并提高分析效率。通过对数据库中的几个数据集样本进行属性约简，比较约简后的属性数目和分类精度，验证了所提方法的有效性和实用性。关键词中的“模糊粗糙集模型”是本文的核心，它结合了模糊集理论的模糊粒化和粗糙集理论的粗糙逼近，适用于处理混合数据中的不确定性和多样性。通过模糊相似矩阵，模型能够捕捉到数值型属性的顺序信息，避免了离散化方法可能导致的量化误差。文献中还提到，过去的研究要么通过离散化处理数值型属性，要么将符号型和数值型属性分开处理，这两种方法都有其局限性。而模糊粗糙集模型则提供了一个综合的框架，能够同时考虑不同类型属性，保留更多分类信息。本文的工作为混合数据的分析提供了一种创新方法，通过模糊等价关系的构造和约简，提高了数据处理的精确性和效率，尤其适用于处理那些属性类别多样且包含连续数值的数据集。这种方法不仅理论上有意义，而且具有实际应用价值，有助于提升数据分析的质量和洞察力。

一种面向混合数据的模糊等价关系构造约简一种面向混合数据的模糊等价关系构造约简

基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对属性类别多样性的混合型信息系

统，提出一种带权的对象间相似性度量方法，该方法建立每类属性对应的相似性度量函数，再通过归并确立带

权的模糊相似矩阵。在转化为模糊等价关系的基础上，采用加入蕴含专家领域知识及用户需求的约简算法。通

过数据库中几个数据集样本对属性约简后的数目、精度进行对比，验证了方法的有效性和可行性。

　　摘　　摘要要：基于

　　关键词　关键词：模糊粗糙集模型；模糊等价关系；混合数据；模糊相似矩阵；约简

0 引言引言

　　粗糙集理论是一种以精确的数学形式处理不确定信息的数学工具，属性约简在保持分类能力不变的前提下获得最小特征子

集，是粗糙集理论的核心应用之一。经典粗糙集理论[1-3]通常是处理只包含符号型属性的数据模型，而实际的信息系统中属性

和决策的值域是多样性的，有符号型属性，也有连续数值型属性，即混合分类数据。对于混合数据的处理大体可分为两类：一

类是离散化方法[4]，将数值型属性转化为符号型属性的数据形式，即在数值属性值域中选择合适的分割点，划分成若干由字

符标记的不同区域，从而将不同类别属性转化为统一的数据形式再进行约简。如何选择分割点引出了离散化方法的系统分析比

较[5]，讨论的关键在于分割点数量和位置的设计，缺点在于产生了量化误差，丢失了同种符号表示的区域内不同属性值间的

序信息。另一类是对不可分辨关系进行拓展的混合型方法。Hall提出了利用信息熵计算符号变量相关性的特征选择方法

[6]，Zhou和Qian提出了采用定性信息分解复杂问题的决策树构造方法[7]，以及之后提出的混合数据特征选择的方法[8]，缺点

都是将符号型属性和数值型属性割裂开分析，丢失了分类能力较强的数值属性信息。Kwak和Choi、Peng等人陆续采用Parzen

窗方法计算数值型样本概率密度来进行特征选择[9]，取得了一定进展。Zadeh提出了模糊集理论[10]，认为模糊信息粒化在知

识发现过程中极其重要，模糊粗糙集和粗糙模糊集概念的提出，融合了模糊粒化和粗糙逼近两种不确定方法[11-15]，使得约

简结果能更清晰地体现信息系统的分类能力。Hu采用信息熵的概念度量信息系统的分类能力，在混合数据的处理过程中，得

到的对象间相似矩阵数值单一，且整合符号型和数值型属性的过程中丢失很多分类信息[16]。遗传算法应用于混合数据约简的

方法，由于本身算法的特点导致计算量大、耗时长[17-18]。

　　本文重点研究在模糊粗糙集模型框架下如何定义混合数据间带权的相似性度量方法及模糊等价关系，通过定义不同类别属

性对应的相似性度量函数，以及带权的模糊相似矩阵，最终确定模糊等价关系；之后通过加入领域专家的经验知识和系统客户

的需求偏好对数据进行约简，将约简后的属性数目、精度与其他方法的数据进行对比，以验证方法的有效性和可行性。

1 模糊等价关系及其度量模糊等价关系及其度量

　　针对符号型变量的处理，可以利用粗糙集在等价关系的基础上建立对象间关系。但对于数值型变量，等价关系不足以清晰

地刻画对象间关系，需要借助模糊等价关系的概念。

　　给定信息系统S=（U，A），论域U={x1，x2，…，xn}，属性集合A=C∪D是条件属性和决策属性的集合，且C∩D= 。本

文讨论的混合信息系统的属性集合既有条件属性，也有数值属性。

　　定义1：给定一个矩阵A=（aij）n×n，若对 i，j=1，2，…，n，满足：（1）自反性：aii=1；（2）对称性：aij=aji；

（3）模糊性：aij∈[0，1]；（4）传递性：aij≥∨k（aik∧akj），则称矩阵A为模糊等价矩阵。

　　在以下论述中，用M（R）=（rij）n×n来表示二元关系R的关系矩阵，其中R满足模糊等价关系。

　　定义4[16]：给定模糊信息系统<U，A，V，f>，A=C∪d，若H（d|B-a）=H（d|B），则属性a是冗余的，若H（d|B-

约简。

　　下节将利用上述度量，构造混合数据间的模糊等价关系，依据属性重要性的度量进行约简。

2 模糊等价矩阵的构造及算法描述模糊等价矩阵的构造及算法描述

　　基于模糊等价关系的数据构造是混合数据分析的重要模型，利用矩阵形式刻画具有不同属性类别的样本间关系。针对符号

型属性，Hu[16]根据属性取值是否相等计算样本间的相似度贡献，属性间取其交集得结果，由此矩阵中只见两个单一数值，不

能具体地刻画样本间的区分信息，且需针对每个属性做重复计算；刻画不同类别属性间的关系依然采用取其交集的简便算法，

在各种属性类别取值丰富多样的信息空间，这种关系构造方法丢失大量的非冗余的有效信息。本节将对混合数据中各个类别属

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38638292

粉丝: 5
资源: 920

混合数据模糊等价关系构建与约简算法

基于区间二型模糊集的模糊等价关系聚类分析

模糊等价矩阵的求法（Matlab）

定义区间值模糊等价的三种构造方法

模糊等价关系及其多重粒度空间

基于优势-等价关系的属性约简算法

模糊等价关系探讨 (2010年)

模糊等价关系与t模糊商空间 (2006年)

模糊数学——基于模糊等价关系聚类分析PPT学习教案.pptx

基于优势等价关系的快速正域约简方法

基于属性集及其幂集上定义的等价关系的知识约简

最新资源