混合值不完备系统双邻域粗糙集分类法：有效处理缺失值

41 浏览量更新于2024-08-29 收藏 283KB PDF 举报

本文主要探讨了混合值不完备系统中的一个关键问题，即如何有效地进行分类处理。混合值不完备系统是指数据集中存在非离散（如连续）和离散值的同时，还存在缺失值的情况，这在实际应用中非常常见，如医疗记录、金融交易等。针对这一挑战，研究者提出了基于双邻域粗糙集模型的分类方法。双邻域粗糙集理论源于经典的粗糙集理论，它扩展了传统粗糙集对不确定性的处理，考虑了更广泛的邻域影响。在本文中，作者首先引入了一个新的不确定性度量函数——联系度距离函数。联系度距离函数不同于传统的欧氏距离或曼哈顿距离，它能够更好地适应混合值数据的特性，考虑到邻域内的相似性和差异性，从而提高了处理不完备数据的能力。建立在这个新距离函数基础上，作者构建了一种双邻域粗糙集模型。这种模型不仅考虑了单个对象的邻域，还同时考虑了两个相邻邻域之间的关系，从而提供了一个更为全面的决策边界描述。接下来，研究者针对这个模型设计了属性约简和覆盖约简的双邻域粗糙集规则学习算法。属性约简旨在减少特征维度，提高模型的简洁性和解释性，而覆盖约简则关注于找到最小的规则集合，确保分类的准确性。实证分析部分，作者选取了多个来自UCI机器学习库的数据集进行测试，结果显示，所提出的双邻域粗糙集分类算法在处理混合值不完备系统时表现出良好的性能。尤其是在缺失值较多的情况下，由于其对缺失数据的鲁棒性，算法的优势更为显著。这证明了该方法的有效性和实用性，对于处理现实世界中复杂的、具有混合值和不完整数据的场景具有重要的价值。这篇论文提供了一种创新的混合值不完备系统分类方法，它通过引入联系度距离和双邻域粗糙集模型，改进了处理此类数据集的现有技术，为不完备数据的高效分类提供了新的思路和技术支持。这对于数据挖掘、机器学习和人工智能等领域的发展具有推动作用。

第 33卷第 7期控制与决策 Vol.33 No.7

2018年 7月 Control and Decision Jul. 2018

文章编号: 1001-0920(2018)07-1207-08 DOI: 10.13195/j.kzyjc.2017.0361

混合值不完备系统的双邻域粗糙集分类方法

黄恒秋

1†

, 曾玲

, 黎利辉

(1. 广西民族师范学院数学与计算机科学学院，广西崇左 532200；

2. 桂林电子科技大学数学与计算科学学院，广西桂林 541004)

摘要: 针对混合值不完备系统, 提出一种基于双邻域粗糙集模型的分类方法. 首先, 定义一个新的不确定距离度

量函数 —– 联系度距离函数, 进而建立基于联系度距离函数的双邻域粗糙集模型; 然后, 基于所建立的模型讨论该

模型的属性约简算法, 并给出基于属性约简、覆盖约简的双邻域粗糙集规则学习分类算法; 最后, 通过多个 UCI 数

据集进行实证分析,结果表明所提出的分类算法是客观有效的,特别是在缺失值较多的情况下,其优势更加明显.

关键词: 混合值不完备系统；双邻域粗糙集；联系度距离；分类

中图分类号: TP18 文献标志码: A

Double-neighborhood rough set classification method in incomplete

decision system with hybrid value

HUANG Heng-qiu

1†

, ZENG Ling

, LI Li-hui

(1. School of Mathematics and Computer Science, Guangxi Normal University for Nationalities, Chongzuo 532200,

China; 2. School of Mathematics and Computing Science, Guilin University of Electronic Technology, Guilin 541004,

China)

Abstract: In order to process the incomplete decision system with hybrid value, a classification method based on the

double-neighborhood rough set model is proposed in this paper. Firstly, an uncertain distance function — Connection

degree distance function is defined, and the double-neighborhood rough set model based on connection degree distance

function is constructed. Then, based on the constructed model, an attribute reduction algorithm is discussed, and a

classification algorithm based on attribute reduction and covering reduction is provided. Finally, some experiments are

carried out on UCI data sets. The experiments results show that the proposed classification algorithm is objective and

effective, and it is more effective when the missing value is abounded.

Keywords: incomplete decision system with hybrid value；double-neighborhood rough set；connection degree

distance；classification

0 引 󲿑

粗糙集模型

[1]

由 Pawlak 于 1982 年提出, 是处理

不精确、不一致、不完备数据的智能信息处理技术.

传统粗糙集模型只适合处理完备的符号型数据, 针

对现实应用中广泛存在的数值型数据则不能直接处

理

[2]

. Lin

[3]

通过拓展等价关系, 首次将邻域关系引入

粗糙集模型中,该模型将空间中点的邻域作为基本信

息粒子, 并用来描述空间中的其他概念, 但是没有针

对现实问题进行应用分析. Hu 等

[4]

针对现实中的数

据系统, 采用距离函数定义邻域, 给出了能够同时处

理数值型与符号型数据的邻域粗糙集模型.

邻域粗糙集模型的主要研究内容包括属性约简

和规则学习

[5]

,它们构成了邻域粗糙集模型分类技术

的核心. 基于邻域粗糙集构造分类器主要有 3 种方

式: 1) 构建基于邻域粗糙集模型的混合分类器. 首先

采用邻域粗糙集模型进行属性约简,然后对约简后的

系统采用诸如支持向量机、朴素贝叶斯、决策树等主

流分类方法进行分类

[4,6-11]

. 2) 构建具有决策能力的

邻域决策粗糙集模型. 如文献 [12-13] 给出了基于决

策理论的邻域决策粗糙集模型、三支邻域决策粗糙

集模型以及相关的分类技术. 3) 构建基于邻域粗糙

集规则学习的分类技术. 首先采用邻域粗糙集模型

收稿日期: 2017-03-29；修回日期: 2017-07-10.

基金项目

广西重点培育学科

(

应用数学

)

建设项目

(SXYB2014005, SXYB2016001)

；国家民委科研项目

(14GSZ015).

责任编委: 刘民.

作者简介: 黄恒秋 (1983−), 男, 讲师, 从事数据挖掘、粗糙集理论及其应用的研究；曾玲 (1963−), 女, 教授, 从事决

策分析、不确定理论及其应用等研究.

†

通讯作者. E-mail: hengqiu0417@163.com

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38655011

粉丝: 9
资源: 916

混合值不完备系统双邻域粗糙集分类法：有效处理缺失值

不完备系统中基于特征相容块的粗糙集

粗糙集课件-- 交大博导

胡清华邻域粗糙集代码

邻域粗糙集源码 csdn

python 邻域粗糙集

邻域粗糙集对于不平衡数据特征选择的应用

邻域粗糙集python代码实例

邻域粗糙集属性约简matlab

邻域粗糙集代码python

邻域粗糙集属性约简py代码

最新资源