全息熵在空间离群点挖掘中的应用：一种新算法

需积分: 9 63 浏览量更新于2024-08-13 收藏 1.58MB PDF 举报

"这篇论文是2014年的科研成果，由薛安荣、何峰和闻丹丹共同完成，受到了国家自然科学基金和高校博士点基金的资助。研究重点是解决基于距离和基于密度的离群点检测算法在高维和大数据量场景中的局限性，以及基于信息理论的离群点检测算法在处理空间数据自相关性和异质性时的不适用问题。论文提出了一种基于全息熵的混合属性空间离群点检测算法，利用区域标志属性进行区域划分，通过空间关系确定空间邻域，并借助R▲*△-树进行高效检索。该算法还提出了一种基于全息熵的空间离群度度量方法，有效地处理了混合属性的离群点挖掘。区域划分的特性使得算法能够适应大规模数据的并行计算，提高了计算效率。实验表明，该算法在计算效率和结果解释性方面具有显著优势，主要关键词包括全息熵、R▲*△-树、空间离群点、离群点检测和混合属性。" 论文的核心内容是针对传统的离群点检测算法在处理高维和大量空间数据时遇到的问题，如维度灾难和计算复杂度增加，以及无法充分考虑空间数据的特性的挑战。作者引入了全息熵的概念，这是一种信息理论中的度量，可以更好地捕捉数据的复杂性和关联性。他们设计的算法首先根据区域标志属性将数据空间划分为多个区域，每个区域内部利用空间关系来定义邻域，减少了计算复杂度。同时，通过R▲*△-树的数据结构，实现了对空间邻域的有效检索，优化了搜索效率。在区域划分的基础上，论文提出了基于全息熵的空间离群度度量方法，这种度量方式考虑了混合属性的离群程度，能够更准确地识别出空间中的异常点。离群点检测算法则是利用这个度量标准，有效地挖掘出数据集中的离群点。值得一提的是，由于算法的并行计算能力，它能有效应对大数据量的场景，这对于当前大数据时代的数据分析尤为重要。最后，论文通过理论分析和实际实验验证了新算法的优越性，包括计算效率的提升和实验结果的解释性增强。这表明，基于全息熵的离群点检测算法在处理复杂空间数据时具有显著的优势，对于数据挖掘和机器学习领域的研究有重要贡献。

　　收稿日期：２０１３０５０２；修回日期：２０１３０６２４　　基金项目：国家自然科学基金资助项目（６１３００２２８）；高校博士点基金资助项目

（２００９３２２７１１０００５）

作者简介：薛安荣（１９６４），男，教授，博士，主要研究方向为数据挖掘、机器学习（ｘｕｅａｒ＠ｍａｉｌ．ｕｊｓ．ｅｄｕ．ｃｎ）；何峰，男，硕士，主要研究方向为数

据挖掘；闻丹丹，女，硕士研究生，主要研究方向为数据挖掘．

基于全息熵的空间离群点挖掘算法研究



薛安荣，何　峰，闻丹丹

（江苏大学计算机科学与通信工程学院，江苏镇江２１２０１３）

摘　要：基于距离和基于密度的离群点检测算法受到维度和数据量伸缩性的挑战，而空间数据的自相关性和异

质性决定了以属性相互独立和分类属性的基于信息理论的离群点检测算法也难以适应空间离群点检测，因此提

出了基于全息熵的混合属性空间离群点检测算法。算法利用区域标志属性进行区域划分，在区域内利用空间关

系确定空间邻域，并用Ｒ



树进行检索。在此基础上提出了基于全息熵的空间离群度的度量方法和空间离群点

挖掘算法，有效解决了混合属性的离群度的度量和离群点的挖掘问题。由于实现区域划分有利于并行计算，从

而可适应大数据量的计算。理论和实验证明，所提算法在计算效率和实验结果的可解释性方面均具有优势。

关键词：全息熵；Ｒ



树；空间离群点；离群点检测；混合属性

中图分类号：ＴＰ３１１；ＴＰ３０１６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１４）０２０３６９０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１４．０２．０１２

Ｓｐａｔｉａｌｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｈｏｌｏｇｒａｐｈｉｃｅｎｔｒｏｐｙ

ＸＵＥＡｎｒｏｎｇ，ＨＥＦｅｎｇ，ＷＥＮＤａｎｄａｎ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆ＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＪｉａｎｇｓｕＵｎｉｖｅｒｓｉｔｙ，ＺｈｅｎｊｉａｎｇＪｉａｎｇｓｕ２１２０１３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎｄｉｓｔａｎｃｅａｎｄｄｅｎｓｉｔｙａｒｅｆａｃｅｄｗｉｔｈｔｈｅｃｈａｌｌｅｎｇｅｓｏｆｂｏｔｈｔｈｅｄｉｍｅｎｓｉｏｎｓ

ａｎｄｔｈｅａｍｏｕｎｔｏｆｄａｔａｓｃａｌａｂｉｌｉｔｙ，ａｎｄｔｈｅａｕｔｏｃｏｒｒｅｌａｔｉｏｎａｎｄｈｅｔｅｒｏｇｅｎｅｉｔｙｏｆｓｐａｔｉａｌｄａｔａｄｅｔｅｒｍｉｎｅｓｔｈａｔｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎａｌ

ｇｏｒｉｔｈｍｗｈｉｃｈｉｓｃｈａｒａｃｔｅｒｉｚｅｄｂｙａｔｔｒｉｂｕｔｅｉｎｄｅｐｅｎｄｅｎｔｏｆｅａｃｈｏｔｈｅｒａｎｄｃａｔｅｇｏｒｉｃａｌａｔｔｒｉｂｕｔｅｓｂａｓｅｄｏｎｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙｉｓ

ｄｉｆｆｉｃｕｌｔｔｏａｄａｐｔｔｏｔｈｅｓｐａｔｉａｌｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎ．Ｈｅｎｃｅ

，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｓｐａｔｉａｌｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎ

ｍｉｘｅｄａｔｔｒｉｂｕｔｅｓｏｆｈｏｌｏｇｒａｐｈｉｃｅｎｔｒｏｐｙ．Ｔｈｅａｌｇｏｒｉｔｈｍｐａｒｔｉｔｉｏｎｅｄｔｈｅｒｅｇｉｏｎｂｙｒｅｇｉｏｎａｌｉｄｅｎｔｉｔｙｐｒｏｐｅｒｔｙ，ｄｅｔｅｒｍｉｎｅｄｔｈｅｓｐａ

ｔｉａｌｎｅｉｇｈｂｏｒｈｏｏｄｕｓｉｎｇｓｐａｔｉａｌｒｅｌａｔｉｏｎｓｈｉｐｓｉｎｔｈｅｒｅｇｉｏｎａｎｄｔｈｅｎｒｅｔｒｉｅｖｅｄｉｔｂｙＲ



ｔｒｅｅ．Ｏｎｔｈｉｓｂａｓｉｓ，ｉｔｐｒｏｐｏｓｅｄｓｐａｔｉａｌ

ｏｕｔｌｉｅｒｄｅｇｒｅｅｂａｓｅｄｏｎｈｏｌｏｇｒａｐｈｉｃｅｎｔｒｏｐｙａｎｄｓｐａｔｉａｌｏｕｔｌｉｅｒｍｉｎｉｎｇａｌｇｏｒｉｔｈｍ

；ｉｔｓｏｌｖｅｄｔｈｅｏｕｔｌｉｅｒｄｅｇｒｅｅｏｆｔｈｅｍｉｘｅｄａｔ

ｔｒｉｂｕｔｅｓａｎｄｔｈｅｐｒｏｂｌｅｍｓｏｆｏｕｔｌｉｅｒｓｍｉｎｉｎｇｅｆｆｅｃｔｉｖｅｌｙ．Ｉｔｃｏｕｌｄａｄａｐｔｔｏｔｈｅｌａｒｇｅｖｏｌｕｍｅｏｆｄａｔａｃａｌｃｕｌａｔｉｏｎｂｅｃａｕｓｅｐａｒｔｉｔｉｏ

ｎｉｎｇｔｈｅｒｅｇｉｏｎｗａｓｃｏｎｄｕｃｉｖｅｔｏｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇ．Ｔｈｅｏｒｅｔｉｃａｌａｎｄｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｐｒｏｐｏｓｅｄｈａｓ

ａｄｖａｎｔａｇｅｉｎｔｅｒｍｓｏｆｔｈｅｃｏｍｐｕｔａｔｉｏｎａｌｅｆｆｉｃｉｅｎｃｙａｎｄｔｈｅｉｎｔｅｒｐｒｅｔａｔｉｖｅａｓｐｅｃｔｓ．

Ｋｅｙｗｏｒｄｓ：ｈｏｌｏｇｒａｐｈｉｃｅｎｔｒｏｐｙ；Ｒ



ｔｒｅｅ；ｓｐａｔｉａｌｏｕｔｌｉｅｒ；ｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎ；ｍｉｘｅｄａｔｔｒｉｂｕｔｅｓ

　　随着采集设备性能的提高和数量的增加，采集数据的维数

和数量均呈上升趋势，有些数据的维数高达数百维，数据点的

数量高达ＴＢ级，这对已有离群点挖掘算法是一个挑战，对空

间离群点的挖掘尤为突出

［１，２］

。因为现有的挖掘方法大多是

基于距离或密度的，而在高维情况下数据十分稀疏，数据点之

间的距离及区域密度不再具有直观的意义；并且现有的挖掘算

法大多具有

Ｏ（ｎ

２

）（ｎ为数据对象数目）的计算复杂度。因此

上述算法对高维大数据离群点的挖掘不再有效，提高度量的有

效性及计算的高效性是当前研究的热点

［１，２］

。

针对空间离群点挖掘，许多学者已经提出了基于距离

［３］

和基于密度等算法

［４，５］

，但这些算法始终受维度和计算复杂度

的限制，不适合高维大数据离群点的挖掘。Ａｇｇａｒｗａｌ和Ｋｅｌｌｅｒ

等人

［６，７］

提出了基于子空间的离群点挖掘算法，但在子空间的

选择和挖掘结果的解释上仍然存在复杂度高和难以解释等问

题；近年来

Ｗｕ等人

［８］

提出了基于信息理论的离群点挖掘算

法，比较好地解释了离群点的含义。但现有算法大多数假设属

性间相互独立且其属性为分类属性，这在很多情况下受到限

制。空间数据具有自相关性和异构性，上述假设显然不符合空

间数据，不能直接应用于空间数据，正因为如此，到目前为止基

于信息熵理论的空间离群点检测还未见报道。文献［

８］提出

了全息熵的概念和基于全息熵的离群度的度量方法，从而有效

解决了属性的关联性和基于信息熵的离群点挖掘问题，解决了

属性间相互独立的假设与实际相悖的问题，但仅限于分类属

性，不适合连续数据。本文将在文献［

８］成果的基础上，结合空

间数据的特点，综合考虑信息熵和关联性来解决空间离群点的

挖掘问题，提出基于全息熵的空间离群度的度量方法以及空间

离群点的挖掘方法，有效解决了空间数据的关联性和混合属性

的挖掘问题。

　问题描述与定义



　信息熵

信息熵可用于度量数据集的无序和杂乱程度。熵值越大，

说明数据集无序和杂乱程度越高；反之，说明数据集越有序和

第３１卷第２期

２０１４年２月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３１Ｎｏ．２

Ｆｅｂ．２０１４

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38605188

粉丝: 9
资源: 924

全息熵在空间离群点挖掘中的应用：一种新算法

高维海量数据集离群点挖掘算法研究及其应用.pdf

基于信息熵的离群数据挖掘算法研究

全息熵在空间离群点挖掘中的应用与算法

一种基于核空间局部离群因子的离群点挖掘方法 (2014年)

基于密度的局部离群数据挖掘算法研究.pdf

信息熵度量的离群数据挖掘算法 (2010年)

基于属性聚类的离群数据挖掘算法.pdf

动态数据环境下基于信息熵的相对离群点检测算法 (2010年)

基于MapReduce的时序数据离群点挖掘算法.pdf

信息熵度量的离群数据挖掘算法.pdf

最新资源