动态过抽样方法:基于流形排序的不平衡数据处理

需积分: 0 0 下载量 98 浏览量 更新于2024-09-08 收藏 1.2MB PDF 举报
“基于流形排序的动态过抽样方法研究” 在数据分析和机器学习领域,不平衡数据是一个常见的挑战,指的是不同类别的样本数量相差悬殊,导致分类模型倾向于偏向多数类,而忽视少数类。传统的过抽样方法,如SMOTE(合成 minority over-sampling technique),虽然能缓解这个问题,但可能会引入数据冗余,并且主要适用于静态数据集。 这篇由杨杰明、乔媛媛等人发表的研究论文提出了一种创新的“基于流形排序的动态过抽样方法”。这种方法利用数据的流形结构来描述和理解数据的内在特性。流形是一种数学概念,可以用来表示数据在高维空间中的分布形态,即使在高维空间中也能捕捉到数据的局部和全局结构。在不平衡数据集上,该方法首先通过流形排序算法对少数类数据进行排序,依据其在全局流形结构中的位置和重要性。然后,选择排序值较高的数据执行重采样,以保持数据的多样性并减少冗余,从而优化数据的平衡度。 论文指出,这种动态过抽样方法在处理动态不平衡数据集时,相较于现有的同类方法,能取得更优的分类效果。这主要是因为它能更好地保留数据的原始特征,避免了过度拟合和数据冗余。此外,该方法还能显著提升分类器对少数类的识别能力,这对于那些对少数类识别至关重要的应用,如医疗诊断或异常检测,具有重要意义。 通过实验,研究人员验证了新方法的有效性,并与现有技术进行了对比,结果显示在动态不平衡数据集上,该方法的分类性能和少数类识别性能都有所提高。这表明,基于流形排序的动态过抽样方法是解决不平衡数据问题的一种有前途的策略,对于提高机器学习模型的泛化能力和鲁棒性具有实际价值。 关键词:不平衡数据,流形排序,过抽样 中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2017)06-1659-04 doi:10.3969/j.issn.1001-3695.2017.06.013 这项研究不仅提出了新的过抽样策略,还强调了在处理不平衡数据时考虑数据内在结构的重要性,对于推动机器学习理论与实践的发展具有积极的贡献。