密度聚类支持向量机分类算法的改进

需积分: 5 0 下载量 159 浏览量 更新于2024-08-12 收藏 322KB PDF 举报
"这篇论文是2005年发表在《西安交通大学学报》上的科研成果,由式方方、赵银亮和蒋泽飞共同完成。研究的主要内容是提出一种将密度聚类与支持向量机(SVM)结合的新型分类算法,以解决传统SVM在处理大规模样本集时的效率问题。通过引入密度聚类方法,可以有效地识别并选择出样本集中的关键边界点,即边缘对象,作为构建SVM模型的基础。实验结果显示,该算法能显著提高分类准确率,从基于无监督聚类的SVM的86.81%提升至95.43%,同时显著降低了核函数的计算复杂度,从10^9数量级降低到10^6以下。此外,通过对密度聚类中核心点的ε-邻域内反例比例进行限制,还能进一步增加约简样本的数量,从而提升分类准确率5%~8%。" 在支持向量机(SVM)的理论基础上,该研究提出了一种创新的算法,旨在克服SVM在大样本集上的局限性。传统的SVM分类器依赖于构建间隔最大的决策边界,但当数据集庞大时,计算量急剧增加,导致处理速度下降。为了解决这一问题,研究者将密度聚类的概念引入SVM,首先对样本集进行预处理。 密度聚类是一种无监督学习方法,它根据样本点的局部密度来划分聚类。在本文中,当一个样本点无法通过密度连接到其他点时,该点被认定为边缘点,具有区分不同类别的特性。这些边缘点被选入新的约简样本集中,用于后续支持向量的选择。这样不仅可以减少SVM的训练样本数量,还可以确保关键信息的保留,从而提高分类性能。 实验部分展示了该算法的有效性。分类准确率的显著提升,以及核函数计算量的大幅下降,都证明了这种方法在处理大规模数据集时的优越性。此外,通过控制核心点ε-邻域内的反例比例,可以进一步优化约简样本集,使得算法的分类性能得到进一步提升。 这篇论文提出了一个有潜力改善SVM在大数据集上分类性能的新方法,对于机器学习和数据挖掘领域的研究具有重要的参考价值。它不仅提高了分类的准确性,还减少了计算复杂性,这在实际应用中具有很高的实用意义。