局部信息熵驱动的高维子空间离群点检测算法：解决维度灾难

需积分: 0 97 浏览量更新于2024-08-05 收藏 377KB PDF 举报

本文主要探讨了"基于局部信息熵的加权子空间离群点检测算法"这一主题，针对数据挖掘领域中的一个重要课题——离群点检测进行深入研究。离群点检测的目标是从大量的数据中识别出那些与大部分数据显著不同的异常对象。然而，随着数据维度的增加，所谓的"维度灾难"问题变得尤为突出，即传统的离群点检测算法在处理高维数据时可能失效，因为数据的分布特性、特别是空间分布以及距离度量可能会发生改变。作者倪巍伟等人提出了一种创新的方法，该方法结合了局部信息熵的概念来解决这一挑战。局部信息熵是一种衡量数据局部结构复杂性的统计量，它能够捕捉到数据在小范围内非均匀分布的特征。通过引入局部信息熵，算法能够更有效地识别那些在特定子空间内与其他样本显著不同的异常点，从而减轻了高维空间中的维度问题。论文首先介绍了背景，强调了在高维数据中应用离群点检测算法所面临的困难，接着详细阐述了他们的算法设计。该算法包括以下几个关键步骤：首先，通过局部信息熵对数据进行加权，赋予不同子空间不同的权重，以适应数据的局部特性；其次，利用这些加权子空间来构建一个更适应高维数据的检测模型；最后，通过比较样本点在各个子空间内的行为，确定其是否为离群点。算法的优点在于能够更好地适应数据的内在结构，减少误报和漏报的可能性，特别是在数据分布不均匀或者存在复杂模式的情况下。论文还提供了实验结果，展示了其在实际数据集上的性能，证明了该算法在高维离群点检测任务中的有效性。这篇论文提供了一个新颖的离群点检测框架，将局部信息熵与子空间分析相结合，对于理解和解决大数据背景下高维离群点检测问题具有重要的理论和实践价值。通过阅读和理解这一算法，研究人员和工程师可以更好地应对现代数据挖掘中面临的高维异常检测挑战。

计算机研究与发展 ISSN 10001239CN 111777T P

Journal o f Co mputer Resear ch and Dev elo pment 45711891194 2008

收稿日期 2007



15 修回日期 2008



基金项目 江苏省自然科学基金项目BK 2006095教育部高等学校博士学科点专项科研基金项目20040286009

基于局部信息熵的加权子空间离群点检测算法

倪巍伟



陈 耿



陆介平



吴英杰



孙志挥

东南大学计算机科学与工程学院南京 210096

南京审计学院审计信息工程实验室南京210029

江苏省镇江市科技局 江苏镇江212002

niww 2007 yahoo com cn

Local Entropy Based Weighted Subspace Outlier Mining Algorithm

Ni Weiwei

 Chen Geng

 Lu Jieping

 Wu Ying jie

 and Sun Zhihui

College o f Computer Science and Engineering  Southeast Univ ersity  N anjing 210096

L aboratory o f A udit In f ormation Engineering  N anjing Audit University  N anj ing 210029

Z henjiang Science and T echnology Bureau of J iangsu P rov ince  Zhenjiang J iangsu 212002

Abstract Outlier mining has become a ho t issue in t he field of data mining  w hich is to find

exceptional object s that deviate f rom the m ost rest o f the data set H ow ever  along w ith the increase

of dimension  some unusual characteristic appearance becomes possible  such as spatial di stributio n o f

the data  and the dist ance o f full att ribute space i s no lo nge r meaningful  w hich is cal led  curse o f

dim ensio nality Pheno mena o f cur se of dimensionality de teriorate lo ts o f existing outlier detectio n

algo rithm s validity Concerning this problem  a local ent ropy based w eight ed subspace o utlier mining

algo rithm SPOD is pro posed  w hich gene rat es out lier subspace and w eighted attribute vect or of each

data object by analy zing entro py of each att ribute on the neig hbo rhoo d o f this data o bject For a given

data o bject  t ho se out lier attributes w hich constitute this object s o utlier subspace  are assigned w ith

bigger weig ht Furthe rm ore definitions such as subspace w eig hted distance are introduced to make a

densit ybased out lier processing upon the data se t and g et each data point s subspace o utlier influence

factor T he bigge r this fact or is  t he bigger t he possibility of the co rresponding dat a point becoming

an outlie r is T heoretical analysis and ex perimental resul ts testify t hat SPOD is suitable f or dataset s

w it h hig h dimensio n  and is effi cient and effective 

Key wordshigh dimensional data outlier detection info rmatio n entro py subspace mining w eig hted

vecto r

摘要 

离群点检测作为数据挖掘的一个重要研究方向  可以从大量数据中发现少量与多数数据有明显

区别的数据对象 维度灾殃现象的存在使得很多已有的离群点检测算法对高维数据不再有效 针对这

一问题  提出基于局部信息熵的加权子空间离群点检测算法 SPO D 通过对数据对象在各维进行邻域信

息熵分析  生成数据对象相应的离群子空间和属性权向量  对离群子空间中的属性赋以较高的权值  进

一步提出子空间加权距离等概念 采用基于密度离群点检测的思想  分析计算数据对象的子空间离群影

响因子  判断是否为离群点 算法能够有效地适应于高维数据离群点检测  理论分析和实验结果表明算

法是有效可行的 

关键词 

高维数据 离群点检测 信息熵 子空间挖掘 权向量

中图法分类号 T P311

下载后可阅读完整内容，剩余5页未读，立即下载

黄涵奕

粉丝: 978
资源: 327

局部信息熵驱动的高维子空间离群点检测算法：解决维度灾难

NLOF_一种新的基于密度的局部离群点检测算法_王敬华1

基于模糊信息熵的混合特征离群点检测方法附matlab代码

一种基于密度的局部离群点检测算法DLOF_胡彩平1

基于信息熵的邻域相关离群点检测方法

动态数据环境下基于信息熵的相对离群点检测算法 (2010年)

【数据分析】基于模糊信息熵的混合特征离群点检测方法附matlab代码 上传.zip

基于全息熵的空间离群点挖掘算法研究 (2014年)

mianyi.rar_tsp 免疫算法_信息熵_信息熵 TSP_免疫算法_免疫算法 matlab

基于属性熵与加权余弦的高效高维离群点检测算法LEAWCD

sample entropy_加权算法_排列熵_加权_熵_加权排列熵_源码.rar.rar

最新资源

【数据分析】基于模糊信息熵的混合特征离群点检测方法附matlab代码上传.zip