基于距离核函数的噪声抑制与样本减缩方法提升SVM性能

需积分: 5 0 下载量 70 浏览量 更新于2024-09-05 收藏 184KB PDF 举报
本文主要探讨的是"基于距离核函数的除噪和减样方法",发表于2008年7月的《系统工程理论与实践》第7期,文章编号为100026788(2008)0720160205。作者刘万里、刘三阳和薛贞霞分别来自西安电子科技大学应用数学系、洛阳师范学院数学系以及河南科技大学数学系。研究背景是支持向量机(SVM)在实际应用中遇到的问题:一是噪声的存在导致分类精度降低;二是处理大规模样本集时,由于需要存储大量的数据,训练时间和内存消耗显著。 作者提出了一种名为删减法(DRM,Distance-Performance based Reducing Method)的新方法,该方法利用距离核函数来解决上述问题。DRM的核心思想在于通过定量分析噪点和冗余样本点的一般比例,有效降低噪声的影响并减少样本集规模。具体步骤包括: 1. 首先,依据小概率原理确定一个阈值,通过这个阈值可以去除那些对分类贡献较小的噪点,从而提高模型的鲁棒性。 2. 其次,设定一个较大的阈值,将同类样本集中附近的大量冗余样本点减去,这样有助于减少过拟合,保持模型的简洁性。 3. 最后,通过另一个比例筛选掉那些远离异类中心且对分类决策无明显影响的样本,进一步提升分类效率,并提取出更具代表性的边界向量。 这种方法旨在通过优化样本选择过程,提高SVM在噪声环境下的分类精度,同时缩短训练时间和节省内存资源。实验结果显示,DRM方法在实际应用中取得了显著的效果,证明了其在复杂数据集处理中的可行性和有效性。 关键词包括:距离核函数、噪点、减样、小概率原理、支持向量机。该研究被归类在计算机科学的TP183类别下,文献标志码为A,表明文章达到了学术研究的标准。通过这篇论文,读者可以了解到如何利用距离属性设计高效的数据预处理策略,以提升机器学习算法在实际场景中的性能。