基于邻域关系的实域属性约简方法研究

0 下载量 137 浏览量 更新于2024-08-29 收藏 225KB PDF 举报
"唐朝辉等人提出了一种融合正域及边界质量的实域属性约简方法,该方法基于邻域关系,适用于数据挖掘和模式识别领域。他们利用邻域关系对数据进行离散化处理,并定义了正域属性重要度、边界属性重要度和邻域综合属性重要度的概念,设计了一种新的启发式属性约简算法。该算法能有效地扩展约简属性集,并在理论和实验上证明其有效性和可行性。属性约简在高维度数据处理中的重要性被强调,粗糙集理论作为知识发现的工具,已应用于多个领域。尽管多数研究关注正域,但本文兼顾边界元素,通过邻域粗糙集理论提升约简算法性能。" 本文主要探讨的是属性约简问题,这是数据挖掘中的一个重要步骤,旨在减少数据的复杂性,去除冗余属性,同时保持原始数据的分类能力。作者指出,由于数据通常包含大量的属性,高维度数据会导致知识获取的计算复杂度增加,因此属性约简显得尤为关键。粗糙集理论,由Z.Pawlak在1982年提出,是一种用于属性约简的有效工具,它基于分类机制来定义知识。 传统的属性约简方法主要针对离散数据,但在处理实域数据时效率较低,且多数研究侧重于正域属性,忽视了边界数据的影响。为此,唐朝辉等人引入了邻域关系,对数据进行离散化处理,提出了正域属性重要度和边界属性重要度的概念。这两个概念结合,形成了邻域综合属性重要度,这允许算法全面评估属性在整个数据集中的作用,不仅考虑了数据的主要部分,也考虑到了边界情况。 基于这些概念,他们设计了一种启发式属性约简算法,从空约简集开始,利用邻域属性重要度进行搜索和扩展,寻找最优的属性子集。实验结果证明了这种方法的有效性和实用性。这种创新的属性约简方法对于改善粗糙集理论在处理实域数据和考虑边界数据影响方面的性能有着积极的意义,可以提升数据挖掘和模式识别的效率。 这篇文章为实域数据的属性约简提供了一个新的视角,通过融合正域和边界质量,改进了现有算法的局限性,有助于在信息系统的知识发现过程中降低计算复杂度,提高知识提取的准确性和效率。