![](https://csdnimg.cn/release/download_crawler_static/87319372/bga.jpg)
基于密度的方法
[4]
最初是由 Breunig 提议的。它采用局部异常因子来确定异常数
据的存在与否。它的主要思想是,计算出对象的局部异常因子(LOF)。高局部
异常因子(LOF)就认为它更可能异常。这种解决方案的缺点是,它对邻居的
参数定义非常敏感的。
粗糙集理论(Rough Set Theory)
[5]
,,用于研究不完整性数据和不精确的
知识表达,学习归纳的数学分析理论,并成功的应用于机器学习、模式识别和
数据挖掘等领域上。其算法特点是简单,无需提供数据以外的任何先验信息,
可直接根据给定问题的描述集合出发,然后通过不可分辨关系和等价类来确定
问题的近似域,再找出该问题的规律。为了评估粗糙集理论在分辨不确定性知
识上的能力,。它提出了关于领域划分的描述,更直观和更具有结构性。许多知
识上的检测在信息系统上有提出。这些测量包括粗糙集,知识粒度和信息熵。
这些测量应用于属性约简,分类,特征选择与不确定性的推理。然而,这些年
很少有基于知识粒度检测异常数据的文章发表出来。
本文提出了一种异常检测的新方法,是基于知识粒度的。它采用了基于知
识粒度的距离度量,研究不确定信息。有些在 UCI 数据集上进行了实验分析。
结果表明,该检测系统可以把大部分异常点检测出来。
研究的目的和意义
随着计算机和网络等信息技术的飞速发展,对信息的处理在整个社会乃至
世界规模上已经迅速产业化。随着信息的慢慢堆积,人们所积累的数据已经越
来越多,以至数据和信息系统中的不确定性问题更加的明显了。海量杂乱的信
息数据背后隐藏着很多我们不知道的,但对我们来说又非常重要的信息,所以
人们希望能够通过对其进行深入的分析,方便我们能更好的利用并使用这些隐
藏中的数据信息
[6]
。现在的数据库系统虽然可以实现对数据的增删改查及统计等
功能,但它却无法发现数据间存在的关系和规则,它没法根据数据中所变现出
来的隐藏信息来预测未来的发展趋势。缺少挖掘数据背后隐藏的信息手段就造
成了我们所说的“数据丰富却知识贫乏”的现象。
自从 20 世纪 90 年代中期以来,数据挖掘一直引起人们的广泛兴趣,以至
它得到了迅猛的发展。通常,数据挖掘被人们划分成四种类型
[7]
:类别的判定、
类别的描述、相关依赖关系的发现、 粗糙或异常 (Outlier)数据挖掘。前三个类