基于间隔Fisher分析的半监督高维数据聚类方法

需积分: 10 1 下载量 67 浏览量 更新于2024-09-10 收藏 1.79MB PDF 举报
本文研究了一种名为MFASSC的半监督聚类方法,针对高维数据的复杂性,该方法特别设计来解决这个问题。MFASSC的核心在于结合了间隔Fisher分析和半监督学习策略。Fisher分析是一种统计方法,用于识别数据中的线性可分特征,而间隔Fisher分析则在此基础上考虑了样本间的距离,增强了聚类的鲁棒性和区分度。 算法首先通过已标记样本应用间隔Fisher分析(MFA),这是一种在有监督条件下对数据进行降维的技术,旨在最大化不同类别之间的间隔,同时最小化同一类别内的方差。这一步骤生成了投影矩阵W,作为后续处理的关键工具。接着,对于未标记的样本,算法利用W进行降维,将高维数据映射到一个低维空间,这有助于减少噪声和冗余信息,提高聚类效率。 在降维后的低维空间中,算法采用基于约束的球形K-means(PCSKM)算法进行半监督聚类。PCSKM是一种考虑了成对约束的聚类方法,通过限制同一簇内的样本相似度,增强了聚类的稳定性。在每次聚类后,算法会根据结果进行迭代,交替执行降维和重新聚类,直到算法收敛,即达到最佳的聚类配置。 这种结合监督信息的策略使得MFASSC能够在有限的标记样本下,有效地集成数据降维和半监督学习的优势,提高了聚类的精度和效率。实验结果显示,MFASSC在处理高维数据时表现优异,不仅能有效处理数据的复杂结构,还能提升聚类的准确性,尤其是在样本标注不足的情况下,其优势更为明显。 研究者李森和刘希玉,分别作为硕士研究生和"泰山学者"特聘教授,他们的合作展示了在数据挖掘和计算智能领域的最新研究成果。他们的工作对于高维数据处理和半监督聚类问题具有实际应用价值,为相关领域的研究者提供了新的思路和技术参考。文章发表于2012年,受到了国家自然科学基金、山东省自然科学基金和软科学重大项目的支持,表明了该方法得到了学术界的高度关注和认可。