数值型数据一致性分类:基于连续SOM聚类的算法

需积分: 10 0 下载量 8 浏览量 更新于2024-08-12 收藏 219KB PDF 举报
"连续SOM聚类的一致性分类算法 (2009年) - 烟台大学学报(自然科学与工程版),吕威,国家自然科学基金资助项目" 本文探讨的是在数据挖掘领域中,如何提高分类算法的精度,特别是在处理数值型数据时的一致性分类问题。作者吕威提出了一种针对隐式互斥数值型数据的一致性分类方法,该方法主要基于连续自组织映射(SOM)算法的改进。 首先,文章引入了数值型连续数据的分类一致性定义,这是对传统数据一致性的扩展,强调在连续函数的框架下确保数据的分类一致性。这一定义有助于识别和处理数据集中可能存在的隐式分类不一致性,即数据表面上看似一致,但实际上可能存在冲突或矛盾的情况。 接着,作者对SOM算法进行了优化,使其能够满足提出的分类一致性最优条件。SOM算法是一种无监督学习方法,通常用于数据的聚类和特征映射,通过改进的SOM方法,可以更准确地将数据点分配到合适的类别,减少由于数据不一致性导致的分类错误。 通过实验,作者展示了改进后的SOM算法在实际数据集上相比于其他算法的优越性能,尤其是在提高预测精度方面。这表明,提出的算法能够更有效地处理数据集中的隐式不一致性,从而提高分类效率和精度。 此外,文章还从VC维的角度分析了该算法的优势。VC维(Vapnik-Chervonenkis dimension)是衡量分类器复杂度的一个概念,低VC维意味着算法具有更好的泛化能力,不易过拟合。作者的分析表明,提出的算法在保持较低VC维的同时,仍然能实现高分类精度,这进一步证明了其在数据分类中的有效性。 这篇论文提供了一种新的处理数值型数据分类问题的方法,特别是对于那些包含隐式不一致性的数据集。它不仅提高了分类算法的精度,而且从理论角度(如VC维)证明了算法的优越性,对于数据挖掘和机器学习领域的研究有着重要的参考价值。