全息熵在空间离群点挖掘中的应用:一种新算法

需积分: 9 0 下载量 63 浏览量 更新于2024-08-13 收藏 1.58MB PDF 举报
"这篇论文是2014年的科研成果,由薛安荣、何峰和闻丹丹共同完成,受到了国家自然科学基金和高校博士点基金的资助。研究重点是解决基于距离和基于密度的离群点检测算法在高维和大数据量场景中的局限性,以及基于信息理论的离群点检测算法在处理空间数据自相关性和异质性时的不适用问题。论文提出了一种基于全息熵的混合属性空间离群点检测算法,利用区域标志属性进行区域划分,通过空间关系确定空间邻域,并借助R▲*△-树进行高效检索。该算法还提出了一种基于全息熵的空间离群度度量方法,有效地处理了混合属性的离群点挖掘。区域划分的特性使得算法能够适应大规模数据的并行计算,提高了计算效率。实验表明,该算法在计算效率和结果解释性方面具有显著优势,主要关键词包括全息熵、R▲*△-树、空间离群点、离群点检测和混合属性。" 论文的核心内容是针对传统的离群点检测算法在处理高维和大量空间数据时遇到的问题,如维度灾难和计算复杂度增加,以及无法充分考虑空间数据的特性的挑战。作者引入了全息熵的概念,这是一种信息理论中的度量,可以更好地捕捉数据的复杂性和关联性。他们设计的算法首先根据区域标志属性将数据空间划分为多个区域,每个区域内部利用空间关系来定义邻域,减少了计算复杂度。同时,通过R▲*△-树的数据结构,实现了对空间邻域的有效检索,优化了搜索效率。 在区域划分的基础上,论文提出了基于全息熵的空间离群度度量方法,这种度量方式考虑了混合属性的离群程度,能够更准确地识别出空间中的异常点。离群点检测算法则是利用这个度量标准,有效地挖掘出数据集中的离群点。值得一提的是,由于算法的并行计算能力,它能有效应对大数据量的场景,这对于当前大数据时代的数据分析尤为重要。 最后,论文通过理论分析和实际实验验证了新算法的优越性,包括计算效率的提升和实验结果的解释性增强。这表明,基于全息熵的离群点检测算法在处理复杂空间数据时具有显著的优势,对于数据挖掘和机器学习领域的研究有重要贡献。