粗糙集理论下的不确定数据异常检测方法及距离度量

需积分: 5 186 浏览量更新于2024-08-12 收藏 205KB PDF 举报

本文主要探讨的是粗糙集理论在处理现实世界中不确定性和不完整数据背景下的应用，特别是在异常检测方面的创新方法。粗糙集理论作为一种强大的工具，它通过提供一种处理数据模糊性和不精确性的框架，使得在存在这些特性的情况下，能够有效地识别出异常数据点。论文的核心贡献在于提出了基于距离的异常检测算法，这种算法引入了两种特定的距离度量，用于衡量两个对象间的差异，从而更准确地确定哪些数据对象与众不同，可能蕴含潜在的重要信息。在数据挖掘的常见任务中，异常检测被视为第四类，它关注的是数据集中那些不符合常规模式的对象。这些异常可能源于测量误差，也可能揭示数据内在的变异性和新颖性。传统上，异常被认为是干扰因素，可能会被忽视。然而，异常数据实际上可能包含有价值的信息，比如在欺诈检测中，异常行为可能是欺诈行为的标志。因此，异常检测不仅是数据挖掘的一个重要组成部分，也被称为异常挖掘，它旨在从大量数据中发现独特的、偏离常规的行为。论文通过粗糙集理论的视角，设计了一种能够适应不确定和不完整数据的异常检测策略，这不仅提高了检测的准确性，还能避免因为过度剔除异常而导致重要信息的遗漏。作者王程华与江峰的研究工作得到了国家自然科学基金项目的资助，他们的成果对于提高数据挖掘的鲁棒性和有效性具有实际意义，适用于诸如金融欺诈检测、网络入侵检测等领域。这篇文章深入研究了粗糙集理论如何应用于异常检测，通过定义新的距离度量和算法，优化了在复杂数据环境中的异常识别过程，为数据科学家提供了一种在处理不确定性与不完整性时进行有效异常检测的新工具。

第  卷第  期

烟台大学学报自然科学与工程版

Ｖｏｌ Ｎｏ

 年  月ＪｏｕｒｎａｌｏｆＹａｎｔａｉＵｎｉｖｅｒｓｉｔｙ ＮａｔｕｒａｌＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇＥｄｉｔｉｏｎ Ｊａｎ

文章编号   

收稿日期   

基金项目 国家自然科学基金资助项目

作者简介 王程华 男江西南昌人硕士研究方向为人工智能数据库技术等

粗糙集理论中基于距离的异常检测

王程华



江峰



上海政法学院现代教育技术中心 上海 青岛科技大学信息与科学技术学院 山东青岛



摘要 针对现实世界中的不确定与不完整数据根据粗糙集理论的框架提出了一种基

于距离的异常检测方法由于粗糙集理论是处理不确定性与不完整性的一种有效工具因

此该方法可以从不确定与不完整的数据中高效地检测出异常另外定义了  种特定的距

离度量用来计算  个对象之间的距离最后对粗糙集理论中基于距离的异常检测算法

也进行了讨论

关键词 数据挖掘异常检测粗糙集距离度量

中图分类号 ＴＰ文献标识码 Ａ

通常数据挖掘任务大体上可以分为  类





ａ 依赖性检测ｂ 类别鉴定ｃ 类别描述

ｄ 异常检测前面  类任务与应用在数据集合大

部分对象中的模式有关数据挖掘的大部分研究

例如关联规则分类以及聚类都属于这  类任务

相反第  类任务则主要关注于数据集合中的一小

部分对象这部分对象不符合数据集合的一般模

型与数据集合的其他部分不同或不一致这样的

数据对象被称为异常 ｏｕｔｌｉｅｒ它们通常在传统的

数据挖掘中作为噪声而被忽略或丢弃掉





异常可能是度量或执行错误所导致的也可

能是固有的数据变异性的结果许多数据挖掘算

法试图使异常的影响最小化或者排除它们但是

由于一个人的噪声可能是另一个人的信号这

样做可能导致重要的隐藏信息的丢失



也就是

说异常数据本身可能是非常重要的例如在欺诈

探测中异常可能预示着欺诈行为的发生因此

异常检测与分析也是一项非常有趣的数据挖掘任

务被称为异常挖掘





可以将异常检测描述如下给定一个ｎ个对

象的集合以及预期的异常对象个数ｋ发现与剩

余的对象相比是显著异常的或不一致的前ｋ个

对象异常检测问题可以被划分成  个子问题

 在给定的数据集合中定义什么样的对象可以

被认为是异常 找到一个有效的方法来挖掘

出这样的异常

目前关于异常的定义有很多其中以Ｈａｗ

ｋｉｎｓ的定义最具代表性异常是数据集中偏离大

部分数据的数据这种偏离太大以至于使人怀疑

这些数据的偏离并非是由随机因素产生而是产

生于完全不同的机制

 



预备知识

Ｐａｗｌａｋ所提出的粗糙集理论近年来在数据

挖掘等领域获得了广泛应用该理论认为知识源

于人类以及其他物种的分类能力把知识看作是

关于论域的划分引入代数学中的等价关系来讨

论知识



目前粗糙集理论中关于数据挖掘的

研究主要集中在前面  类任务上而对于第  类

任务  异常检测的研究还没有引起足够的重

视类似的研究还不多见



鉴于异常对象本身

可能是非常重要的异常检测是一项非常有趣的

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38639615

粉丝: 4
资源: 922

粗糙集理论下的不确定数据异常检测方法及距离度量

粗糙集理论与方法(清晰版)

粗糙集理论与方法(张文修).pdf

粗糙集理论中基于依赖空间的分布约简

粗糙集理论驱动的高效异常检测法：入侵检测新策略

粗糙集理论在QAR数据异常检测中的应用与有效性研究

基于粗糙集的分布式网络异常检测方法研究.pdf

基于粗糙集理论的安全考试系统* (2010年)

基于粗糙集理论的中央空调节能评测的研究 (2010年)

论文研究-基于FCM与模糊粗糙集理论的交通事件检测模型.pdf

改进的基于粗糙集理论的密度峰聚类用于重叠社区检测

最新资源