支持向量回归异常数据剔除算法研究

需积分: 10 0 下载量 128 浏览量 更新于2024-08-20 收藏 803KB PDF 举报
"这篇论文是自然科学领域的,主要探讨了如何在支持向量回归(Support Vector Regression, SVM)中剔除异常数据。作者曾绍华、魏延和唐远炎提出了一个算法,该算法基于逐步逼近定理,用于识别并去除回归问题中的异常值,以使回归估计模型更接近理论模式。论文还介绍了对大规模样本问题的优化方法,即逐步搜索算法,以提高异常数据剔除的效率和准确性。实验结果表明,所提出的算法在实际数据集上表现出了有效性和鲁棒性。" 在支持向量回归(SVM)中,异常数据是指那些远离正常数据分布、不遵循一般规律的观测值。这些数据点可能由于测量误差、噪声或者非典型现象引起,它们往往会对回归模型的训练和预测性能产生负面影响。在本研究中,作者首先定义了回归问题中的异常数据以及衡量其与回归映射关系差异的度量标准。接着,他们分析了理论映射模式(理想的、无噪声的函数关系)与回归估计模式(由实际数据拟合出的模型)之间的关系。 为了处理异常数据,论文提出了一个逐步逼近定理。这个定理指出,在回归问题中,通过逐个剔除异常数据,可以逐步让回归估计模型逼近理论模式。基于此定理,作者设计了一个剔除支持向量回归中异常数据的算法。该算法在理论上被证明具有收敛性和有效性,意味着随着异常数据的不断剔除,模型将逐渐改善,更接近于理想情况。 然而,对于大规模样本问题,直接应用上述算法可能会遇到计算复杂性的问题。因此,论文引入了逐步搜索算法来优化异常数据剔除过程。这种改进策略旨在更有效地找到并剔除异常值,同时保持算法的收敛性和有效性。这解决了在大数据集上处理异常值的挑战。 最后,作者通过模拟已知函数生成的样本和UCI机器学习数据库的真实数据进行了仿真实验,实验结果验证了所提算法在实践中能够有效地识别和剔除异常数据,且具有良好的鲁棒性,即算法对于数据中的异常变化或干扰具有一定的抵抗能力。 这篇论文贡献了一种新的异常数据剔除策略,为支持向量回归提供了更稳健的建模方法,尤其是在存在异常值的复杂数据集上。这种方法有助于提高模型的准确性和可靠性,对于数据分析和预测任务具有重要的实际意义。